AI 第27页_拜读未来科技摆渡人生

TimeSuite – 上海AI Lab推出的提升MLLMs在长视频理解处理的设计框架

TimeSuite是上海AI Lab推出的新型框架，能提升多模态大型语言模型（MLLMs）在长视频理解任务中的表现。基于引入高效的长视频处理框架、高质量的视频数据集TimePro用在定位调整，及名为Temporal Grounded Caption的指令调谐任务，明确地将定位监督纳入传统问答格式中。

20 0 2025-08-31

Time-baidu09R1 – 基于3B参数模型的时间推理语言模型

Time-R1是伊利诺伊大学香槟分校研究团队开发的基于3B参数的语言模型，通过独特的三阶段强化学习训练方法，在时间推理能力上取得了显著突破。

21 0 2025-08-31

Time-baidu09MoE – 基于MoE架构的时间序列基础模型

Time-MoE是创新的时间序列基础模型，基于混合专家（Mixture of Experts, MoE）架构，将时间序列预训练模型的参数规模扩展至十亿级别。模型用稀疏激活机制，在预测任务中仅激活部分网络节点，有效提升计算效率，降低计算成本。

17 0 2025-08-31

TicVoice 7.0 – 出门问问推出的第七代语音合成引擎

TicVoice 7.0 是出门问问推出的第七代高品质 TTS（语音合成）引擎，基于新一代语音生成模型 Spark-TTS 。TicVoice 7.0基于创新的 BiCodec 编码方式，将语音分解为 Global Token 和 Semantic Tokens，实现音色与语义的精准控制，与文本 LLMs 结构高度统一。

17 0 2025-08-31

Thinking Claude – 17岁高中生推出的神级Prompt工具，AI 思维更接近人类

Thinking Claude是基于深度思考协议和浏览器扩展工具，增强AI模型Claude-3.5的“深度思维”能力的项目，让其思考逻辑更接近人类。支持AI以自然、未经过滤的方式深入思考后再回应，支持思考过程的展开和折叠。Thinking Claude提供更易于阅读和管理的界面，让日常任务中的AI对话更加有趣和富有洞察力。

15 0 2025-08-31

ThinkSound – 阿里通义推出的首个CoT音频生成模型

ThinkSound是阿里通义语音团队推出的首个CoT（链式思考）音频生成模型，用在视频配音，为每一帧画面生成专属匹配音效。模型引入CoT推理，解决传统技术难以捕捉画面动态细节和空间关系的问题，让AI像专业音效师一样逐步思考，生成音画同步的高保真音频。

20 0 2025-08-31

ThinkChain – 开源AI框架，工具结果实时反馈到AI思考过程中

ThinkChain是开源框架，能提升AI工具的智能交互能力。框架将工具的执行结果实时反馈到AI（如 Claude）的思考过程中，形成动态的反馈循环，让AI能调用工具，根据工具结果进行推理和决策。

23 0 2025-08-31

TheoremExplainAgent – AI教学双智能体，数理化定理自动转动画

TheoremExplainAgent（TEA）是滑铁卢大学、Votee AI等机构开源的多模态代理系统，基于生成长篇动画视频帮助人们更好地理解数学和科学定理。TheoremExplainAgent支持生成超过5分钟的教育视频，覆盖多个STEM领域（如数学、物理、化学和计算机科学）。

16 0 2025-08-31

The Matrix – 阿里联合港大等多所机构推出的AI基础世界模拟器

The Matrix是与电影同名的、首个AI基础世界模拟器，是全华人团队推出的（作者分别来自阿里巴巴、香港大学、滑铁卢大学和加拿大AI研究机构Vector Insititute）。The Matrix能生成无限长、高保真720p真实场景视频流，支持实时交互控制。

18 0 2025-08-31

The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型

The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型，能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据，生成对应的目标模态，对于创建自然交流的虚拟角色至关重要。

16 0 2025-08-31

The AI Scientist-baidu09v2 – 通用端到端 AI 系统，自动探索科学假设生成论文

The AI Scientist-v2 是 Sakana AI 、不列颠哥伦比亚大学、Vector研究所等机构联合推出的完全自动生成科学发现的端到端人工智能系统，支持自主地提出科学假设、设计和执行实验、分析数据、生成可视化结果，撰写科学论文。

17 0 2025-08-31

Textoon – 阿里通义实验室推出的文本提示生成2D卡通人物工具

Textoon 是阿里巴巴集团通义实验室推出的创新项目，首个能根据文本提示生成Live2D格式2D卡通角色的方法。基于先进的语言和视觉模型，能在一分钟内生成多样化且可交互的2D角色。

21 0 2025-08-31

TextHarmony – 字节联合华东师范推出的多模态生成模型

TextHarmony是华东师范大学和字节跳动共同推出的多模态生成模型，擅长理解和生成视觉文本。模型基于Slide-LoRA技术，动态聚合特定于模态和模态无关的LoRA专家，部分解耦多模态生成空间，在单一模型实例中协调视觉和语言的生成。

18 0 2025-08-31

TextDiffuser-baidu092 – 微软等推出的AI图像文本渲染融合框架

Text-Diffuser 2是由来自微软研究院、香港科技大学和中山大学的研究人员最新推出的一个基于扩散模型的文本渲染方法，旨在解决图像扩散模型生成文字时在灵活性、自动化、布局预测能力和风格多样性方面的局限性，以提高生成图像中视觉文本的质量和多样性。

19 0 2025-08-31

Text to Bark – ElevenLabs 推出的 AI“狗语”文本转语音模型

Text to Bark 是 ElevenLabs 推出的全球首个AI“狗语”文本转语音模型。用户输入文字选择犬种，模型能生成高度逼真的狗吠声，95%的狗无法分辨其与真实吠声。模型基于开源犬类语言学研究开发，支持个性化选择品种和调整语气，能部署到智能家居设备等“云吠基础设施”。

16 0 2025-08-31

‹‹ ‹ 23 24 25 26 27 28 29 30 31 32 › ››

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30