neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

TimeSuite – 上海AI Lab推出的提升MLLMs在长视频理解处理的设计框架

TimeSuite – 上海AI Lab推出的提升MLLMs在长视频理解处理的设计框架

TimeSuite是上海AI Lab推出的新型框架,能提升多模态大型语言模型(MLLMs)在长视频理解任务中的表现。基于引入高效的长视频处理框架、高质量的视频数据集TimePro用在定位调整,及名为Temporal Grounded Caption的指令调谐任务,明确地将定位监督纳入传统问答格式中。
20 0 2025-08-31
Time-baidu09MoE – 基于MoE架构的时间序列基础模型

Time-baidu09MoE – 基于MoE架构的时间序列基础模型

Time-MoE是创新的时间序列基础模型,基于混合专家(Mixture of Experts, MoE)架构,将时间序列预训练模型的参数规模扩展至十亿级别。模型用稀疏激活机制,在预测任务中仅激活部分网络节点,有效提升计算效率,降低计算成本。
17 0 2025-08-31
TicVoice 7.0 – 出门问问推出的第七代语音合成引擎

TicVoice 7.0 – 出门问问推出的第七代语音合成引擎

TicVoice 7.0 是出门问问推出的第七代高品质 TTS(语音合成)引擎,基于新一代语音生成模型 Spark-TTS 。TicVoice 7.0基于创新的 BiCodec 编码方式,将语音分解为 Global Token 和 Semantic Tokens,实现音色与语义的精准控制,与文本 LLMs 结构高度统一。
17 0 2025-08-31
Thinking Claude – 17岁高中生推出的神级Prompt工具,AI 思维更接近人类

Thinking Claude – 17岁高中生推出的神级Prompt工具,AI 思维更接近人类

Thinking Claude是基于深度思考协议和浏览器扩展工具,增强AI模型Claude-3.5的“深度思维”能力的项目,让其思考逻辑更接近人类。支持AI以自然、未经过滤的方式深入思考后再回应,支持思考过程的展开和折叠。Thinking Claude提供更易于阅读和管理的界面,让日常任务中的AI对话更加有趣和富有洞察力。
15 0 2025-08-31
ThinkSound – 阿里通义推出的首个CoT音频生成模型

ThinkSound – 阿里通义推出的首个CoT音频生成模型

ThinkSound是阿里通义语音团队推出的首个CoT(链式思考)音频生成模型,用在视频配音,为每一帧画面生成专属匹配音效。模型引入CoT推理,解决传统技术难以捕捉画面动态细节和空间关系的问题,让AI像专业音效师一样逐步思考,生成音画同步的高保真音频。
20 0 2025-08-31
TheoremExplainAgent – AI教学双智能体,数理化定理自动转动画

TheoremExplainAgent – AI教学双智能体,数理化定理自动转动画

TheoremExplainAgent(TEA)是滑铁卢大学、Votee AI等机构开源的多模态代理系统,基于生成长篇动画视频帮助人们更好地理解数学和科学定理。TheoremExplainAgent支持生成超过5分钟的教育视频,覆盖多个STEM领域(如数学、物理、化学和计算机科学)。
16 0 2025-08-31
The Matrix – 阿里联合港大等多所机构推出的AI基础世界模拟器

The Matrix – 阿里联合港大等多所机构推出的AI基础世界模拟器

The Matrix是与电影同名的、首个AI基础世界模拟器,是全华人团队推出的(作者分别来自阿里巴巴、香港大学、滑铁卢大学和加拿大AI研究机构Vector Insititute)。The Matrix能生成无限长、高保真720p真实场景视频流,支持实时交互控制。
18 0 2025-08-31
TextHarmony – 字节联合华东师范推出的多模态生成模型

TextHarmony – 字节联合华东师范推出的多模态生成模型

TextHarmony是华东师范大学和字节跳动共同推出的多模态生成模型,擅长理解和生成视觉文本。模型基于Slide-LoRA技术,动态聚合特定于模态和模态无关的LoRA专家,部分解耦多模态生成空间,在单一模型实例中协调视觉和语言的生成。
18 0 2025-08-31
TextDiffuser-baidu092 – 微软等推出的AI图像文本渲染融合框架

TextDiffuser-baidu092 – 微软等推出的AI图像文本渲染融合框架

Text-Diffuser 2是由来自微软研究院、香港科技大学和中山大学的研究人员最新推出的一个基于扩散模型的文本渲染方法,旨在解决图像扩散模型生成文字时在灵活性、自动化、布局预测能力和风格多样性方面的局限性,以提高生成图像中视觉文本的质量和多样性。
19 0 2025-08-31
Text to Bark – ElevenLabs 推出的 AI“狗语”文本转语音模型

Text to Bark – ElevenLabs 推出的 AI“狗语”文本转语音模型

Text to Bark 是 ElevenLabs 推出的全球首个AI“狗语”文本转语音模型。用户输入文字选择犬种,模型能生成高度逼真的狗吠声,95%的狗无法分辨其与真实吠声。模型基于开源犬类语言学研究开发,支持个性化选择品种和调整语气,能部署到智能家居设备等“云吠基础设施”。
16 0 2025-08-31