neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

X-baidu09Dyna – 字节联合斯坦福等高校推出的动画生成框架

X-baidu09Dyna – 字节联合斯坦福等高校推出的动画生成框架

X-Dyna 是基于扩散模型的动画生成框架,基于驱动视频中的面部表情和身体动作,将单张人类图像动画化,生成具有真实感和环境感知能力的动态效果。核心是 Dynamics-Adapter 模块,能将参考图像的外观信息有效地整合到扩散模型的空间注意力中,同时保留运动模块生成流畅和复杂动态细节的能力。
24 0 2025-08-31
UniTok – 字节联合港大、华中科技推出的统一视觉分词器

UniTok – 字节联合港大、华中科技推出的统一视觉分词器

UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细节捕捉和语义理解之间的矛盾。
22 0 2025-08-31
TextHarmony – 字节联合华东师范推出的多模态生成模型

TextHarmony – 字节联合华东师范推出的多模态生成模型

TextHarmony是华东师范大学和字节跳动共同推出的多模态生成模型,擅长理解和生成视觉文本。模型基于Slide-LoRA技术,动态聚合特定于模态和模态无关的LoRA专家,部分解耦多模态生成空间,在单一模型实例中协调视觉和语言的生成。
18 0 2025-08-31
PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架

PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架

PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架,基于少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling)。PhotoDoodle用两阶段训练策略:基于大规模数据预训练通用图像编辑模型OmniEditor,用少量艺术家策划的前后图像对进行微调,捕捉特定的编辑风格。
21 0 2025-08-30
MimicTalk – 字节联合浙大推出的开源3D数字人头项目

MimicTalk – 字节联合浙大推出的开源3D数字人头项目

MimicTalk是浙江大学和字节跳动共同研发推出的,基于NeRF(神经辐射场)技术,能在极短的时间内,仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。MimicTalk提高了训练效率,基于高效的微调策略和具有上下文学习能力的人脸动作生成模型,显著提升生成视频的质量。
46 0 2025-08-30