neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

阿里通义视频生成大模型即将上线，预约通道已开启

阿里通义视频生成大模型即将上线，预约通道已开启

阿里巴巴旗下的通义实验室即将推出重磅新品——视频生成大模型！这个消息对于广大AI爱好者和内容创作者来说无疑是个好消息。目前，通义App频道和通义万相PC端已经上线了“视频生成”的预约入口，这意味着大家很快就能体验

5 0 2025-09-08

阿里通义免费开放奥运AI大模型

阿里通义免费开放奥运AI大模型

阿里通义免费开放奥运AI大模型

7月31日，阿里通义宣布免费开放奥运AI大模型，具备奥运专业知识，并集合同声传译级别的中法互译功能。即日起，用户可以在通义APP免费使用。

通过奥运专项强化训练，通义大模型已具备奥运专业知识，可以快速地回答奥运相关的各种问题。在通义APP的主搜索和“赛事百事通”功能中，用户无论查询各类赛事知识，还是了解各国运动员和赛事历史，只需简单提问，就能获得详尽且专业的答案。

17 0 2025-09-02

阿里通义上新PPT创作！PC端“效率”功能三合一，听读写一站搞定

阿里通义上新PPT创作！PC端“效率”功能三合一，听读写一站搞定

阿里通义上新PPT创作！PC端“效率”功能三合一，听读写一站搞定

这年头，哪有人上班不发疯的（doge）。

22 0 2025-09-02

VACE – 阿里通义推出的视频生成与编辑框架

VACE – 阿里通义推出的视频生成与编辑框架

VACE（Video Creation and Editing）是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务（如参考视频生成、视频到视频编辑、遮罩编辑等）到一个统一模型中，实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit（VCU），将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元，支持多种任务的灵活组合。

20 0 2025-08-31

Textoon – 阿里通义实验室推出的文本提示生成2D卡通人物工具

Textoon – 阿里通义实验室推出的文本提示生成2D卡通人物工具

Textoon 是阿里巴巴集团通义实验室推出的创新项目，首个能根据文本提示生成Live2D格式2D卡通角色的方法。基于先进的语言和视觉模型，能在一分钟内生成多样化且可交互的2D角色。

21 0 2025-08-31

QVQ – 阿里通义开源的视觉推理模型

QVQ – 阿里通义开源的视觉推理模型

QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型，结合视觉理解和复杂问题解决能力，提升人工智能的认知能力。QVQ在视觉推理任务中展现出增强的能力，尤其在需要复杂分析思维的领域表现出色。QVQ在MMMU评测中取得了70.3的高分，在各项数学相关基准测试中相比Qwen2-VL-72B-Instruct 有显著提升。

19 0 2025-08-30

OmniAudio – 阿里通义推出的空间音频生成模型

OmniAudio – 阿里通义推出的空间音频生成模型

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频（FOA）的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360，包含超过10.3万个视频片段，涵盖288种音频事件，总时长288小时，为模型训练提供了丰富资源。

18 0 2025-08-30

MinMo – 阿里通义实验室推出的多模态语音交互大模型

MinMo – 阿里通义实验室推出的多模态语音交互大模型

MinMo是阿里巴巴通义实验室FunAudioLLM团队推出的多模态大模型，专注于实现无缝语音交互。MinMo拥有约80亿参数，基于多阶段训练，在140万小时多样化语音数据和广泛语音任务上进行学习。

19 0 2025-08-30

MaskSearch – 阿里通义推出的检索增强预训练框架

MaskSearch – 阿里通义推出的检索增强预训练框架

MaskSearch是阿里巴巴通义实验室推出的新型通用预训练框架，提升大型语言模型（LLM）的智能体搜索能力。通过检索增强掩码预测（RAMP）任务，让模型在输入文本中对关键信息掩码。

19 0 2025-08-30

LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器，基于与大型语言模型（LLM）协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集（GroundingCap-1M），用LLM生成的长描述丰富视觉特征，基于标准的定位损失和描述生成损失进行训练。

22 0 2025-08-29

LHM – 阿里通义开源的单图生成可动画3D人体模型

LHM – 阿里通义开源的单图生成可动画3D人体模型

LHM（Large Animatable Human Reconstruction Model）是阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型。基于多模态Transformer架构，融合3D几何特征和2D图像特征，用注意力机制保留服装几何与纹理细节，推出头部特征金字塔编码方案增强面部细节恢复能力。

21 0 2025-08-29

HumanOmniV2 – 阿里通义开源的多模态推理模型

HumanOmniV2 – 阿里通义开源的多模态推理模型

HumanOmniV2 是阿里通义实验室开源的多模态推理模型。模型基于强制上下文总结机制、大模型驱动的多维度奖励体系及基于 GRPO 的优化训练方法，解决多模态推理中全局上下文理解不足和推理路径简单的问题。

22 0 2025-08-29

ChatAnyone – 阿里通义推出的实时风格化肖像视频生成框架

ChatAnyone – 阿里通义推出的实时风格化肖像视频生成框架

ChatAnyone是阿里巴巴通义实验室推出的实时风格化肖像视频生成框架。通过音频输入，生成具有丰富表情和上半身动作的肖像视频。采用高效分层运动扩散模型和混合控制融合生成模型，能实现高保真度和自然度的视频生成，支持实时交互，适用于虚拟主播、视频会议、内容创作、教育、客户服务、营销、社交娱乐、医疗健康等众多场景。

22 0 2025-08-28

‹‹ 1 ››

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

控制面板

您好，欢迎到访网站！
查看权限

搜索

最近发表