TANGOFLUX是高效的文本到音频生成模型,是新加坡科技设计大学(SUTD)和NVIDIA共同推出的。模型拥有约5.15亿参数,能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization(CRPO)框架,基于迭代生成和优化偏好数据来提升模型的音频对齐能力。
18
0
2025-08-31
TANGO 是一个由东京大学和 CyberAgent AI Lab 共同推出的开源框架,专注于生成与目标语音同步的全身手势视频。基于分层音频运动嵌入和扩散插值网络,将目标语音音频与参考视频库中的动作完美匹配,确保制作出高保真度、动作同步的视频。
21
0
2025-08-31
TANGLED是上海科技大学、Deemos Technology和华中科技大学联合推出的3D发型生成方法,支持从任意风格和视角的图像中生成高质量的3D发丝。TANGLED基于三个核心步骤实现:用多样化的MultiHair数据集提供丰富的发型样本;基于多视图线稿的扩散框架,用线稿特征的交叉注意力捕捉发型的拓扑结构;基于参数化后处理模块修复复杂发型(如辫子)的细节。
17
0
2025-08-31
T2V-Turbo是一种先进的文本到视频生成模型,由Google、UC Santa Barbara(加利福尼亚大学圣塔芭芭拉分校)、和University of Waterloo(滑铁卢大学)的研究人员共同推出。基于在预训练的T2V模型的一致性蒸馏过程中整合来自多种可微分奖励模型的反馈,实现快速且高质量的视频生成。
19
0
2025-08-31
T2I-R1 是香港中文大学和上海AI Lab联合推出的新型文本生成图像模型。基于引入双层推理机制,语义级链式思维(CoT)和 Token 级 CoT,实现高层次图像规划与低层次像素生成的解耦,显著提升图像生成的质量和鲁棒性。
17
0
2025-08-31
T2A-01-HD是海螺AI海外版推出新的语音模型。支持语音克隆,仅需10秒音频即可精准克隆声音,保留情感底色。模型具备智能情感系统,能捕捉语音中的情感细微差别,使语音更生动。用户可选择自动情绪检测或手动控制,获得完美表达。
17
0
2025-08-31
SynthLight 是耶鲁大学和 Adobe Research 联合推出的基于扩散模型的人像重照明技术,通过模拟不同光照条件下的合成数据进行训练,能将人像照片重新渲染为具有全新光照效果的图像,比如添加高光、阴影或调整整体光照氛围。
17
0
2025-08-31
SynthID 是 DeepMind 推出的技术工具,基于在 AI 生成的内容中嵌入数字水印帮助识别内容。水印对人类是不可感知的,但能被机器检测到,促进信息的信任度。SynthID 适于文本、音乐、图像和视频等多种内容形式,能在内容被修改或压缩后保持可检测性。
14
0
2025-08-31
SynthID Text 是谷歌DeepMind 推出的文本水印技术,用在识别和验证由大型语言模型(LLM)生成的文本。基于细微调整生成过程中的Token概率分数嵌入几乎无法察觉的水印,在不影响文本质量和用户体验的情况下,实现高检测精度。
18
0
2025-08-31
SyncAnimation是实时端到端的音频驱动框架,用于生成人体姿态和说话头像动画。通过音频信号实时生成与音频同步的上半身姿态和面部表情,包括嘴唇动作,实现高精度和高同步性的动画效果。
19
0
2025-08-31
SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型,能结合6自由度相机姿势,从任意视点生成开放世界视频。SynCamMaster增强了预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成。
17
0
2025-08-31
SynCD(Synthetic Customization Dataset)是卡内基梅隆大学和Meta推出的高质量合成训练数据集,用在提升文本到图像模型的定制化能力。SynCD包含多个相同对象在不同光照、背景和姿态下的图像,基于共享注意力机制(Masked Shared Attention)和3D资产引导(如Objaverse)确保对象在不同图像中的一致性。
18
0
2025-08-31
Symphony Creative Studio是TikTok推出的AI视频创作工具,帮助广告主和内容创作者简化视频制作流程。Symphony Creative Studio集成视频生成、转换和扩展功能,用户输入信息和素材或导入URL后,系统结合授权资源自动生成视频。Symphony Creative Studio支持AI虚拟人物视频创作,视频翻译配音,及基于品牌IP创建定制虚拟形象。
17
0
2025-08-31
SwiftEdit是由VinAI Research团队推出的文本引导的图像编辑工具,基于创新的一步扩散技术,能在0.23秒内实现快速且高质量的图像编辑。工具的核心优势在于一步反演框架和掩码引导编辑技术,让编辑过程迅速,且能保持与文本提示的高匹配度,同时保留图像的关键背景元素。
18
0
2025-08-31
SwiftBrush V2 是文本到图像的单步扩散模型,通过改进训练方法和模型融合技术,实现与多步Stable Diffusion扩散模型相媲美的性能。模型通过更好的权重初始化、高效的LoRA训练,引入一种新颖的夹紧CLIP损失来增强图像与文本的对齐,提高图像质量。
21
0
2025-08-31