neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

START – 阿里联合中科大推出的自学推理模型

START – 阿里联合中科大推出的自学推理模型

START(Self-Taught Reasoner with Tools)是阿里巴巴集团和中国科学技术大学推出的新型工具增强型推理模型,结合外部工具(如Python代码执行器)提升大型语言模型(LLMs)的推理能力。START基于“Hint-infer”技术在推理过程中插入提示,激发模型使用外部工具,基于“Hint-RFT”框架进行自学习和微调。
23 0 2025-08-30
Meissonic – 阿里联合多所高校推出的文本到图像合成模型

Meissonic – 阿里联合多所高校推出的文本到图像合成模型

Meissonic是由阿里巴巴集团、Skywork AI等多所大学合作推出的文本到图像合成模型。基于掩蔽图像建模技术,结合多模态和单模态Transformer层、高级位置编码策略和优化的采样条件,提升图像生成的效率和性能。模型用1B参数,依赖高质量训练数据、微条件和特征压缩层,生成高质量、高分辨率图像,性能与大型扩散模型相当。
16 0 2025-08-30
FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架

FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架

FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,采用双阶段视听对齐策略,第一阶段通过片段级训练方案建立连贯的全局运动,第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。
24 0 2025-08-28
EvolveDirector – 阿里联合南洋理工推出文本到图像生成模型的高效训练技术

EvolveDirector – 阿里联合南洋理工推出文本到图像生成模型的高效训练技术

EvolveDirector是阿里巴巴和南洋理工大学联合推出的创新框架,用公开资源和高级模型的API接口训练一个高性能的文本到图像生成模型。框架基于与现有高级模型的API交互获取数据对,训练一个基础模型,并借助预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少所需的数据量和训练成本。
18 0 2025-08-28