dan abramov字节跳动_拜读未来科技摆渡人生

X-baidu09Portrait 2 – 字节跳动推出的单图驱动视频生成模型

X-Portrait 2是字节跳动智能创作团队推出的单图视频驱动技术，基于一张静态照片和一段驱动视频生成高质量、电影级视频。X-Portrait 2保留原图身份特征，准确捕捉细微表情和情绪，实现跨风格动作迁移，适用于写实人像和卡通图像。

22 0 2025-08-31

VeOmni 是字节跳动 Seed 团队开源的全模态分布式训练框架，基于 PyTorch 设计。VeOmni 以模型为中心，将分布式并行逻辑与模型计算解耦，支持灵活组合多种并行策略（如 FSDP、SP、EP），能高效扩展至超长序列和大规模 MoE 模型。

23 0 2025-08-31

Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器，结合变分自编码器（VAE）和视觉变换器（ViT），能更好地进行视觉理解并改善图像生成的上下文对齐。

20 0 2025-08-30

Loopy是字节跳动推出的音频驱动的AI视频生成模型，用户可以让一张静态照片动起来，照片中的人物根据给定的音频文件进行面部表情和头部动作的同步，生成逼真的动态视频。Loopy基于先进的扩散模型技术，无需额外的空间信号或条件，捕捉并学习长期运动信息，生成自然流畅的动作，适用于娱乐、教育等多种场景。

26 0 2025-08-29

BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，其中70亿为活跃参数。采用混合变换器专家架构（MoT），通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练，使用海量多模态标记数据进行预训练，包括语言、图像、视频和网络数据。

24 0 2025-08-28

‹‹ 1 ››