阿里 tob_拜读未来科技摆渡人生

ZeroSearch – 阿里通义开源的大模型搜索引擎框架

ZeroSearch 是阿里巴巴通义实验室开源的创新大模型搜索引擎框架，基于强化学习激励大模型的搜索能力，无需与真实搜索引擎交互。框架爱基于大模型预训练知识，转化为检索模块，根据查询生成相关或噪声文档，动态控制生成质量。

21 0 2025-08-31

WebShaper – 阿里通义推出的AI训练数据合成系统

WebShaper 是阿里巴巴通义实验室推出的创新的 AI 训练数据合成系统。通过形式化建模和智能体扩展机制，为 AI 智能体（Agent）的训练提供了高质量、可扩展的数据。WebShaper 首次引入了基于集合论的“知识投影”（Knowledge Projection, KP）概念，通过 KP 的交集、并集和递归操作，构造复杂的问题结构，精准控制推理路径和任务复杂度。

21 0 2025-08-31

VACE – 阿里通义推出的视频生成与编辑框架

VACE（Video Creation and Editing）是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务（如参考视频生成、视频到视频编辑、遮罩编辑等）到一个统一模型中，实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit（VCU），将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元，支持多种任务的灵活组合。

19 0 2025-08-31

Tora – 阿里推出的AI视频生成框架

Tora是阿里推出的AI视频生成框架，基于轨迹导向的扩散变换器（DiT）技术，将文本、视觉和轨迹条件融合，生成高质量且符合物理世界动态的视频内容。Tora由轨迹提取器、时空DiT和运动引导融合器组成，能够精确控制视频的动态表现，支持长达204帧、720p分辨率的视频制作。

20 0 2025-08-31

ThinkSound – 阿里通义推出的首个CoT音频生成模型

ThinkSound是阿里通义语音团队推出的首个CoT（链式思考）音频生成模型，用在视频配音，为每一帧画面生成专属匹配音效。模型引入CoT推理，解决传统技术难以捕捉画面动态细节和空间关系的问题，让AI像专业音效师一样逐步思考，生成音画同步的高保真音频。

19 0 2025-08-31

Qwen3 – 阿里通义开源的新一代混合推理模型系列

Qwen3 是阿里巴巴推出的新一代大型语言模型，Qwen3 支持“思考模式”和“非思考模式”两种工作方式，思考模式模型会逐步推理，经过深思熟虑后给出最终答案，适合复杂问题。非思考模式模型提供快速、近乎即时的响应，适用于简单问题。

23 0 2025-08-30

Qwen2.5 – 阿里通义千问团队最新开源的最强AI大模型

Qwen2.5 是阿里通义千问团队最新开源的最强AI大模型，具有多种参数规模的模型，包括 0.5B、1.5B、3B、7B、14B、32B 和 72B。模型在预训练时使用了最新的大规模数据集，包含多达 18 万亿个 tokens，Qwen2.5 在自然语言理解、文本生成、编程能力、数学能力等方面都有显著提升。

19 0 2025-08-30

OmniSearch – 阿里通义推出的多模态检索增强生成框架

OmniSearch是阿里巴巴通义实验室推出的多模态检索增强生成框架，具备自适应规划能力。OmniSearch能动态拆解复杂问题，根据检索结果和问题情境调整检索策略，模拟人类解决复杂问题的行为，提升检索效率和准确性。OmniSearch引入动态检索规划框架，基于递归检索与推理流程，逐步接近问题解答，显著提高多模态检索的灵活性和效果。

12 0 2025-08-30

MaskSearch – 阿里通义推出的检索增强预训练框架

MaskSearch是阿里巴巴通义实验室推出的新型通用预训练框架，提升大型语言模型（LLM）的智能体搜索能力。通过检索增强掩码预测（RAMP）任务，让模型在输入文本中对关键信息掩码。

18 0 2025-08-30

LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器，基于与大型语言模型（LLM）协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集（GroundingCap-1M），用LLM生成的长描述丰富视觉特征，基于标准的定位损失和描述生成损失进行训练。

22 0 2025-08-29

HumanOmniV2 – 阿里通义开源的多模态推理模型

HumanOmniV2 是阿里通义实验室开源的多模态推理模型。模型基于强制上下文总结机制、大模型驱动的多维度奖励体系及基于 GRPO 的优化训练方法，解决多模态推理中全局上下文理解不足和推理路径简单的问题。

21 0 2025-08-29

HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型

HumanOmni 是专注于人类中心场景的多模态大模型，视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入，能全面理解人类行为、情感和交互。模型基于超过240万视频片段和1400万条指令进行预训练，采用动态权重调整机制，根据不同场景灵活融合视觉和听觉信息。

20 0 2025-08-29

DiffuEraser – 阿里通义实验室推出的视频修复模型

DiffuEraser是基于稳定扩散模型的视频修复模型，以更丰富的细节和更连贯的结构填充视频中的遮罩区域。模型通过结合先验信息来提供初始化和弱条件，有助于减少噪声伪影和抑制幻觉。为了在长序列推理期间提高时间一致性，DiffuEraser 扩展了先验模型和自身的时间感受野，进一步基于视频扩散模型的时间平滑特性来增强一致性。

23 0 2025-08-28

ChatAnyone – 阿里通义推出的实时风格化肖像视频生成框架

ChatAnyone是阿里巴巴通义实验室推出的实时风格化肖像视频生成框架。通过音频输入，生成具有丰富表情和上半身动作的肖像视频。采用高效分层运动扩散模型和混合控制融合生成模型，能实现高保真度和自然度的视频生成，支持实时交互，适用于虚拟主播、视频会议、内容创作、教育、客户服务、营销、社交娱乐、医疗健康等众多场景。

22 0 2025-08-28

ACE++ – 阿里通义推出的升级版图像生成与编辑模型

ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具，通过指令化和上下文感知的内容填充技术，实现了高质量的图像创作和编辑功能。

26 0 2025-08-27

‹‹ 1 2 › ››

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30