neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

ReSyncer – 清华联合百度推出的AI视频编辑工具

ReSyncer – 清华联合百度推出的AI视频编辑工具

ReSyncer是清华大学和百度联合推出的AI视频编辑工具,通过音频驱动生成与声音同步的高质量嘴唇动作视频。ReSyncer用Style-SyncFormer分析声音并创建3D面部模型,结合目标视频生成同步且表情丰富的虚拟人物。
22 0 2025-08-30
Optima – 清华联合北邮推出优化通信效率和任务有效性的训练框架

Optima – 清华联合北邮推出优化通信效率和任务有效性的训练框架

Optima是清华大学推出的优化基于大型语言模型(LLM)的多智能体系统(MAS)的框架。基于一个迭代的生成、排名、选择和训练范式,显著提高通信效率和任务效果。Optima平衡了任务性能、令牌效率和通信可读性,探索了多种强化学习算法,并集成蒙特卡洛树搜索技术生成高质量的训练数据。
19 0 2025-08-30
Ola – 清华联合腾讯等推出的全模态语言模型

Ola – 清华联合腾讯等推出的全模态语言模型

Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略,逐步扩展语言模型支持的模态,从图像和文本开始,再引入语音和视频数据,实现对多种模态的理解。
18 0 2025-08-30
MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法

MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法

MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成过程分为两个阶段:单概念学习和多概念整合。在单概念学习阶段,基于多模态图像编码器和自适应概念归一化技术,为每个概念学习一个简洁且具有区分性的嵌入表示。
18 0 2025-08-30
HRAvatar – 清华联合IDEA推出的单目视频生成3D头像技术

HRAvatar – 清华联合IDEA推出的单目视频生成3D头像技术

HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术,支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术,基于精准的表情编码器减少追踪误差,提升重建质量。
21 0 2025-08-29
FlexiAct – 清华联合腾讯推出的动作迁移模型

FlexiAct – 清华联合腾讯推出的动作迁移模型

FlexiAct是清华大学和腾讯ARC实验室联合推出的新型动作迁移模型。FlexiAct能在给定目标图像的情况下,将参考视频中的动作迁移到目标主体上,在空间结构差异较大或跨域的异构场景中,实现精准的动作适配与外观一致性。
24 0 2025-08-29
EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架

EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架

EMAGE(Expressive Masked Audio-conditioned GEsture modeling)是清华大学、东京大学、庆应义塾大学等机构推出的用在生成全身共语手势框架。EMAGE能根据音频和部分遮蔽的手势输入,生成与音频同步的完整全身手势,包括面部表情、身体动作、手势和全局运动。
23 0 2025-08-28
Dolphin – 清华联合海天瑞声推出的语音识别大模型

Dolphin – 清华联合海天瑞声推出的语音识别大模型

Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言(含普通话),能精准识别不同地区的语言特点。
27 0 2025-08-28
APB – 清华联合腾讯等机构推出的分布式长上下文推理框架

APB – 清华联合腾讯等机构推出的分布式长上下文推理框架

APB(Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs)是清华大学等机构联合提出的分布式长上下文推理框架。通过稀疏注意力机制和序列并行推理方式,有效解决了大模型处理长文本时的效率瓶颈。
23 0 2025-08-27