阿里巴巴旗下的通义实验室即将推出重磅新品——视频生成大模型!这个消息对于广大AI爱好者和内容创作者来说无疑是个好消息。目前,通义App频道和通义万相PC端已经上线了“视频生成”的预约入口,这意味着大家很快就能体验
5
0
2025-09-08
VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编辑、遮罩编辑等)到一个统一模型中,实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit(VCU),将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元,支持多种任务的灵活组合。
20
0
2025-08-31
QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型,结合视觉理解和复杂问题解决能力,提升人工智能的认知能力。QVQ在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的领域表现出色。QVQ在MMMU评测中取得了70.3的高分,在各项数学相关基准测试中相比Qwen2-VL-72B-Instruct 有显著提升。
19
0
2025-08-30
MinMo是阿里巴巴通义实验室FunAudioLLM团队推出的多模态大模型,专注于实现无缝语音交互。MinMo拥有约80亿参数,基于多阶段训练,在140万小时多样化语音数据和广泛语音任务上进行学习。
20
0
2025-08-30
LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言模型(LLM)协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集(GroundingCap-1M),用LLM生成的长描述丰富视觉特征,基于标准的定位损失和描述生成损失进行训练。
23
0
2025-08-29
LHM(Large Animatable Human Reconstruction Model)是阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型。基于多模态Transformer架构,融合3D几何特征和2D图像特征,用注意力机制保留服装几何与纹理细节,推出头部特征金字塔编码方案增强面部细节恢复能力。
22
0
2025-08-29
ChatAnyone是阿里巴巴通义实验室推出的实时风格化肖像视频生成框架。通过音频输入,生成具有丰富表情和上半身动作的肖像视频。采用高效分层运动扩散模型和混合控制融合生成模型,能实现高保真度和自然度的视频生成,支持实时交互,适用于虚拟主播、视频会议、内容创作、教育、客户服务、营销、社交娱乐、医疗健康等众多场景。
23
0
2025-08-28
CHRONOS是上海交通大学计算机科学与工程系、阿里巴巴集团通义实验室等机构联合推出的,用在新闻时间线摘要生成的新型框架,基于迭代自问自答的方式,用大型语言模型(LLMs)构建开放域和封闭域的时间线。框架基于生成与新闻主题相关的5W1H问题,检索相关信息,不断提出新的子问题扩展新闻数据库。
22
0
2025-08-28
据媒体报道,火爆异常的AI Agent新秀Manus和阿里云旗下大语言模型通义千问达成合作。双方将基于通义千问系列开源模型,在国产模型和算力平台上实现Manus的全部功能;双方将共同推动通用智能体技术的普惠化与商业化落地。 有业界分析人士认为2025或是Agent元年,Manus和阿里的合作标志着国产大模型与智能体技术的深度融合,而且还可能为资本市场带来新一轮投资机遇。比如Manus的迅速出圈后为其商业化合作和融资都创造了很好的条件。 由BUTTERFLY EFFEC
25
0
2025-08-27