neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

WebSailor – 阿里通义实验室开源的网络智能体

WebSailor – 阿里通义实验室开源的网络智能体

WebSailor 是阿里通义实验室开源的网络智能体,专注于复杂信息检索与推理任务。通过创新的数据合成方法(如 SailorFog-QA)和训练技术(如拒绝采样微调和 DUPO 算法),在高难度任务中表现出色,在 BrowseComp 等评测中超越多个知名模型,登顶开源网络智能体榜单。
20 0 2025-08-31
Qwen2.5 – 阿里通义千问团队最新开源的最强AI大模型

Qwen2.5 – 阿里通义千问团队最新开源的最强AI大模型

Qwen2.5 是阿里通义千问团队最新开源的最强AI大模型,具有多种参数规模的模型,包括 0.5B、1.5B、3B、7B、14B、32B 和 72B。模型在预训练时使用了最新的大规模数据集,包含多达 18 万亿个 tokens,Qwen2.5 在自然语言理解、文本生成、编程能力、数学能力等方面都有显著提升。
19 0 2025-08-30
QVQ – 阿里通义开源的视觉推理模型

QVQ – 阿里通义开源的视觉推理模型

QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型,结合视觉理解和复杂问题解决能力,提升人工智能的认知能力。QVQ在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的领域表现出色。QVQ在MMMU评测中取得了70.3的高分,在各项数学相关基准测试中相比Qwen2-VL-72B-Instruct 有显著提升。
18 0 2025-08-30
OmniAudio – 阿里通义推出的空间音频生成模型

OmniAudio – 阿里通义推出的空间音频生成模型

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频(FOA)的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360,包含超过10.3万个视频片段,涵盖288种音频事件,总时长288小时,为模型训练提供了丰富资源。
18 0 2025-08-30
MaskSearch – 阿里通义推出的检索增强预训练框架

MaskSearch – 阿里通义推出的检索增强预训练框架

MaskSearch是阿里巴巴通义实验室推出的新型通用预训练框架,提升大型语言模型(LLM)的智能体搜索能力。通过检索增强掩码预测(RAMP)任务,让模型在输入文本中对关键信息掩码。
18 0 2025-08-30
LHM – 阿里通义开源的单图生成可动画3D人体模型

LHM – 阿里通义开源的单图生成可动画3D人体模型

LHM(Large Animatable Human Reconstruction Model)是阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型。基于多模态Transformer架构,融合3D几何特征和2D图像特征,用注意力机制保留服装几何与纹理细节,推出头部特征金字塔编码方案增强面部细节恢复能力。
21 0 2025-08-29
HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型

HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型

HumanOmni 是专注于人类中心场景的多模态大模型,视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入,能全面理解人类行为、情感和交互。模型基于超过240万视频片段和1400万条指令进行预训练,采用动态权重调整机制,根据不同场景灵活融合视觉和听觉信息。
20 0 2025-08-29
DiffuEraser – 阿里通义实验室推出的视频修复模型

DiffuEraser – 阿里通义实验室推出的视频修复模型

DiffuEraser是基于稳定扩散模型的视频修复模型,以更丰富的细节和更连贯的结构填充视频中的遮罩区域。模型通过结合先验信息来提供初始化和弱条件,有助于减少噪声伪影和抑制幻觉。为了在长序列推理期间提高时间一致性,DiffuEraser 扩展了先验模型和自身的时间感受野,进一步基于视频扩散模型的时间平滑特性来增强一致性。
23 0 2025-08-28
ACE – 阿里通义实验室推出的全能图像生成和编辑模型

ACE – 阿里通义实验室推出的全能图像生成和编辑模型

ACE(All-round Creator and Editor)是阿里巴巴集团Tongyi Lab推出的基于扩散变换器的全能图像生成和编辑模型。ACE引入长上下文条件单元(LCU)和统一条件格式,能理解和执行自然语言指令,实现广泛的视觉生成任务。
24 0 2025-08-27