neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

阿里通义视频生成大模型即将上线,预约通道已开启

阿里通义视频生成大模型即将上线,预约通道已开启

阿里巴巴旗下的通义实验室即将推出重磅新品——视频生成大模型!这个消息对于广大AI爱好者和内容创作者来说无疑是个好消息。目前,通义App频道和通义万相PC端已经上线了“视频生成”的预约入口,这意味着大家很快就能体验
5 0 2025-09-08
阿里通义免费开放奥运AI大模型

阿里通义免费开放奥运AI大模型

阿里通义免费开放奥运AI大模型

7月31日,阿里通义宣布免费开放奥运AI大模型,具备奥运专业知识,并集合同声传译级别的中法互译功能。即日起,用户可以在通义APP免费使用。


通过奥运专项强化训练,通义大模型已具备奥运专业知识,可以快速地回答奥运相关的各种问题。在通义APP的主搜索和“赛事百事通”功能中,用户无论查询各类赛事知识,还是了解各国运动员和赛事历史,只需简单提问,就能获得详尽且专业的答案。

18 0 2025-09-02
ThinkSound – 阿里通义推出的首个CoT音频生成模型

ThinkSound – 阿里通义推出的首个CoT音频生成模型

ThinkSound是阿里通义语音团队推出的首个CoT(链式思考)音频生成模型,用在视频配音,为每一帧画面生成专属匹配音效。模型引入CoT推理,解决传统技术难以捕捉画面动态细节和空间关系的问题,让AI像专业音效师一样逐步思考,生成音画同步的高保真音频。
20 0 2025-08-31
Qwen3 – 阿里通义开源的新一代混合推理模型系列

Qwen3 – 阿里通义开源的新一代混合推理模型系列

Qwen3 是阿里巴巴推出的新一代大型语言模型,Qwen3 支持“思考模式”和“非思考模式”两种工作方式,思考模式模型会逐步推理,经过深思熟虑后给出最终答案,适合复杂问题。非思考模式模型提供快速、近乎即时的响应,适用于简单问题。
24 0 2025-08-30
OmniAudio – 阿里通义推出的空间音频生成模型

OmniAudio – 阿里通义推出的空间音频生成模型

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频(FOA)的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360,包含超过10.3万个视频片段,涵盖288种音频事件,总时长288小时,为模型训练提供了丰富资源。
19 0 2025-08-30
LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言模型(LLM)协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集(GroundingCap-1M),用LLM生成的长描述丰富视觉特征,基于标准的定位损失和描述生成损失进行训练。
23 0 2025-08-29
LHM – 阿里通义开源的单图生成可动画3D人体模型

LHM – 阿里通义开源的单图生成可动画3D人体模型

LHM(Large Animatable Human Reconstruction Model)是阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型。基于多模态Transformer架构,融合3D几何特征和2D图像特征,用注意力机制保留服装几何与纹理细节,推出头部特征金字塔编码方案增强面部细节恢复能力。
22 0 2025-08-29
DiffuEraser – 阿里通义实验室推出的视频修复模型

DiffuEraser – 阿里通义实验室推出的视频修复模型

DiffuEraser是基于稳定扩散模型的视频修复模型,以更丰富的细节和更连贯的结构填充视频中的遮罩区域。模型通过结合先验信息来提供初始化和弱条件,有助于减少噪声伪影和抑制幻觉。为了在长序列推理期间提高时间一致性,DiffuEraser 扩展了先验模型和自身的时间感受野,进一步基于视频扩散模型的时间平滑特性来增强一致性。
24 0 2025-08-28
CHRONOS – 阿里通义联合上海交大等推出时间线摘要生成新框架

CHRONOS – 阿里通义联合上海交大等推出时间线摘要生成新框架

CHRONOS是上海交通大学计算机科学与工程系、阿里巴巴集团通义实验室等机构联合推出的,用在新闻时间线摘要生成的新型框架,基于迭代自问自答的方式,用大型语言模型(LLMs)构建开放域和封闭域的时间线。框架基于生成与新闻主题相关的5W1H问题,检索相关信息,不断提出新的子问题扩展新闻数据库。
22 0 2025-08-28
AnyStory – 阿里通义推出的高保真个性化文本到图像生成框架

AnyStory – 阿里通义推出的高保真个性化文本到图像生成框架

AnyStory是阿里巴巴通义实验室研发的创新文本到图像生成框架,实现单个和多个主体的高保真个性化图像生成。通过“编码-路由”的方法来建模主体个性化问题。在编码阶段,AnyStory结合强大的ReferenceNet和CLIP视觉编码器,对主体特征进行高保真度的编码,捕捉丰富的细节和语义信息。
22 0 2025-08-28
Manus与阿里通义达成合作

Manus与阿里通义达成合作

据媒体报道,火爆异常的AI Agent新秀Manus和阿里云旗下大语言模型通义千问达成合作。双方将基于通义千问系列开源模型,在国产模型和算力平台上实现Manus的全部功能;双方将共同推动通用智能体技术的普惠化与商业化落地。 有业界分析人士认为2025或是Agent元年,Manus和阿里的合作标志着国产大模型与智能体技术的深度融合,而且还可能为资本市场带来新一轮投资机遇。比如Manus的迅速出圈后为其商业化合作和融资都创造了很好的条件。 由BUTTERFLY EFFEC
25 0 2025-08-27