阿里通信app官网_拜读未来科技摆渡人生

VACE – 阿里通义推出的视频生成与编辑框架

VACE（Video Creation and Editing）是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务（如参考视频生成、视频到视频编辑、遮罩编辑等）到一个统一模型中，实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit（VCU），将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元，支持多种任务的灵活组合。

20 0 2025-08-31

ThinkSound – 阿里通义推出的首个CoT音频生成模型

ThinkSound是阿里通义语音团队推出的首个CoT（链式思考）音频生成模型，用在视频配音，为每一帧画面生成专属匹配音效。模型引入CoT推理，解决传统技术难以捕捉画面动态细节和空间关系的问题，让AI像专业音效师一样逐步思考，生成音画同步的高保真音频。

20 0 2025-08-31

OmniSearch – 阿里通义推出的多模态检索增强生成框架

OmniSearch是阿里巴巴通义实验室推出的多模态检索增强生成框架，具备自适应规划能力。OmniSearch能动态拆解复杂问题，根据检索结果和问题情境调整检索策略，模拟人类解决复杂问题的行为，提升检索效率和准确性。OmniSearch引入动态检索规划框架，基于递归检索与推理流程，逐步接近问题解答，显著提高多模态检索的灵活性和效果。

13 0 2025-08-30

OmniAudio – 阿里通义推出的空间音频生成模型

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频（FOA）的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360，包含超过10.3万个视频片段，涵盖288种音频事件，总时长288小时，为模型训练提供了丰富资源。

18 0 2025-08-30

LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器，基于与大型语言模型（LLM）协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集（GroundingCap-1M），用LLM生成的长描述丰富视觉特征，基于标准的定位损失和描述生成损失进行训练。

22 0 2025-08-29

LHM – 阿里通义开源的单图生成可动画3D人体模型

LHM（Large Animatable Human Reconstruction Model）是阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型。基于多模态Transformer架构，融合3D几何特征和2D图像特征，用注意力机制保留服装几何与纹理细节，推出头部特征金字塔编码方案增强面部细节恢复能力。

21 0 2025-08-29

‹‹ 1 ››

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30