ToonComposer 是香港中文大学、腾讯 PCG ARC 实验室和北京大学研究人员共同推出的生成式 AI 工具,几秒能将草图转化成专业级动画。ToonComposer基于生成式后关键帧技术,将传统动画制作中的中间帧生成和上色环节整合为自动化过程,仅需一个草图和一个上色参考帧,能生成高质量的动画视频。
22
0
2025-08-31
StableDrag是腾讯联合南京大学推出的AI图像编辑框架。让拖拽图片变得既稳又准,就像给图片装上了精准的GPS。无论你想怎么调整,StableDrag都能帮你准确无误地实现。通过点控制和手动拖拽,让图像编辑变得更加高效,P图变得简单又专业。
18
0
2025-08-31
Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架,基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器,分别提取音频片段内的长期时间音频知识和独立控制头部与表情运动,增强局部音频感知能力。
21
0
2025-08-30
MindOmni 是腾讯 ARC Lab 联合清华大学深圳国际研究生院、香港中文大学和香港大学等推出的多模态大型语言模型,基于强化学习算法(RGPO)显著提升视觉语言模型的推理生成能力。模型用三阶段训练策略,首先构建统一视觉语言模型,基于链式思考(CoT)数据进行监督微调,用 RGPO 算法优化推理生成。
21
0
2025-08-30
MagicMan 是清华大学深圳国际研究生院、腾讯AI实验室、香港科技大学、斯坦福大学和香港中文大学的研究团队共同推出的AI项目,专注于基于深度学习技术从单张2D图像生成高质量的3D人类模型。
20
0
2025-08-29
M2UGen是先进的多模态音乐理解和生成框架,由腾讯PCG ARC实验室与新加坡国立大学联合推出。结合了大型语言模型(LLM)的能力,能处理包括文本、图像、视频和音频在内的多模态输入,生成相应的音乐。
21
0
2025-08-29
LVCD(Large Video Color Diffusion)是一个专为动画视频线稿上色设计的视频扩散框架,能将黑白线稿自动转化为彩色动画视频。LVCD使用了一种先进的扩散模型,可以同时处理整个视频序列,保证每一帧的颜色连贯,在角色快速移动时,也能保持颜色一致。
20
0
2025-08-29
FitDiT是高保真虚拟试穿技术,是腾讯和复旦大学联合推出的。基于Diffusion Transformers(DiT)关注高分辨率特征,提升服装细节的呈现。FitDiT用服装纹理提取器和服装先验演化技术,增强对服装纹理如条纹、图案和文字的捕捉能力。用扩张-松弛掩码策略,优化服装尺寸适配问题。
23
0
2025-08-29
CustomCrafter 是腾讯和浙江大学联合提出的自定义视频生成框架,能基于文本提示和参考图像生成高质量的个性化视频,同时保留了运动生成和概念组合的能力。CustomCrafter通过设计一系列灵活的模块,实现了无需额外视频,通过少量图像学习,就能生成所需的视频。
23
0
2025-08-28
AnimeGamer 是腾讯 PCG 和香港城市大学共同推出的无限动漫生活模拟系统。基于多模态大语言模型(MLLM),支持玩家基于开放式的语言指令,用动漫角色的身份沉浸于动态游戏世界中。
22
0
2025-08-28