字节跳动 land of glory_拜读未来科技摆渡人生

Valley – 字节跳动推出的多模态大模型

Valley是字节跳动推出的多模态大模型，用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准测试中取得了最佳成绩，并在OpenCompass测试中展现出色性能，尤其是在小于10B参数规模的模型中排名第二。

21 0 2025-08-31

PersonaTalk是字节跳动推出的基于注意力机制的两阶段框架，用在实现高保真度和个性化的视觉配音。PersonaTalk能在合成与目标音频精准唇形同步的视频的同时，保留说话者的独特说话风格和面部细节。

20 0 2025-08-30

Loopy是字节跳动推出的音频驱动的AI视频生成模型，用户可以让一张静态照片动起来，照片中的人物根据给定的音频文件进行面部表情和头部动作的同步，生成逼真的动态视频。Loopy基于先进的扩散模型技术，无需额外的空间信号或条件，捕捉并学习长期运动信息，生成自然流畅的动作，适用于娱乐、教育等多种场景。

25 0 2025-08-29

ImmerseGen是字节跳动的PICO团队和浙江大学联合推出的创新3D世界生成框架。框架根据用户输入的文字提示，基于Agent引导的资产设计和排列，生成带有alpha纹理的紧凑Agent，创建全景3D世界。

29 0 2025-08-29

FlowGram是字节跳动开源的基于节点编辑的可视化工作流搭建引擎，帮助开发者快速构建固定布局或自由连线布局的工作流。支持两种布局模式：固定布局适合顺序工作流和决策树，提供层次化结构和灵活的分支、复合节点；自由布局支持节点自由定位和手动连线，适合网络图和思维导图，支持对齐、自动布局等功能。

19 0 2025-08-29

Dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法，第一阶段生成文档布局元素序列，第二阶段用元素作为锚点并行解析内容。

25 0 2025-08-28

‹‹ 1 ››