neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

X-baidu09Portrait 2 – 字节跳动推出的单图驱动视频生成模型

X-baidu09Portrait 2 – 字节跳动推出的单图驱动视频生成模型

X-Portrait 2是字节跳动智能创作团队推出的单图视频驱动技术,基于一张静态照片和一段驱动视频生成高质量、电影级视频。X-Portrait 2保留原图身份特征,准确捕捉细微表情和情绪,实现跨风格动作迁移,适用于写实人像和卡通图像。
22 0 2025-08-31
VeOmni – 字节跳动开源的全模态PyTorch原生训练框架

VeOmni – 字节跳动开源的全模态PyTorch原生训练框架

VeOmni 是字节跳动 Seed 团队开源的全模态分布式训练框架,基于 PyTorch 设计。VeOmni 以模型为中心,将分布式并行逻辑与模型计算解耦,支持灵活组合多种并行策略(如 FSDP、SP、EP),能高效扩展至超长序列和大规模 MoE 模型。
23 0 2025-08-31
Loopy – 字节跳动推出的音频驱动的AI视频生成模型

Loopy – 字节跳动推出的音频驱动的AI视频生成模型

Loopy是字节跳动推出的音频驱动的AI视频生成模型,用户可以让一张静态照片动起来,照片中的人物根据给定的音频文件进行面部表情和头部动作的同步,生成逼真的动态视频。Loopy基于先进的扩散模型技术,无需额外的空间信号或条件,捕捉并学习长期运动信息,生成自然流畅的动作,适用于娱乐、教育等多种场景。
26 0 2025-08-29
BAGEL – 字节跳动开源的多模态基础模型

BAGEL – 字节跳动开源的多模态基础模型

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。
24 0 2025-08-28