neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

Tarsier2 – 字节跳动推出的视觉理解大模型

Tarsier2 – 字节跳动推出的视觉理解大模型

Tarsier2是字节跳动推出的先进的大规模视觉语言模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升,将预训练数据从1100万扩展到4000万视频文本对,丰富了数据量和多样性;在监督微调阶段执行精细的时间对齐;基于模型采样自动构建偏好数据,应用直接偏好优化(DPO)训练。
22 0 2025-08-31
SuperEdit – 字节跳动等机构推出的图像编辑方法

SuperEdit – 字节跳动等机构推出的图像编辑方法

SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法,基于优化监督信号提高图像编辑的精度和效果。SuperEdit基于纠正编辑指令,与原始图像和编辑图像对更准确地对齐,引入对比监督信号,进一步优化模型训练。
23 0 2025-08-31
SeedVR2 – 字节跳动推出的视频修复模型

SeedVR2 – 字节跳动推出的视频修复模型

SeedVR2是字节跳动推出的新型单步视频修复(Video Restoration, VR)模型,基于扩散模型和对抗性后训练(Adversarial Post-Training, APT)技术。模型基于自适应窗口注意力机制和特征匹配损失等创新设计,实现高分辨率视频的高效修复,支持在单步中生成高质量的视频内容,显著降低传统多步扩散模型的计算成本。
23 0 2025-08-30
Seed1.6 – 字节跳动推出的通用模型系列

Seed1.6 – 字节跳动推出的通用模型系列

Seed1.6是字节跳动Seed团队推出的通用模型系列,融合多模态能力,支持256K长上下文深度推理。Seed1.6沿用Seed1.5稀疏MoE探索成果,经纯文本预训练、多模态混合持续训练、长上下文持续训练三阶段,提升文本和视觉能力。
24 0 2025-08-30
Phantom – 字节跳动推出的主体一致视频生成框架

Phantom – 字节跳动推出的主体一致视频生成框架

Phantom是字节跳动智能创作团队推出的用在主体一致视频生成(Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。
19 0 2025-08-30
MAGREF – 字节跳动推出的多主体视频生成框架

MAGREF – 字节跳动推出的多主体视频生成框架

MAGREF(Masked Guidance for Any‑Reference Video Generation)是字节跳动推出的多主体视频生成框架。MAGREF仅需一张参考图像和文本提示,能生成高质量、主体一致的视频,支持单人、多人及人物与物体、背景的复杂交互场景。
22 0 2025-08-29
Loopy – 字节跳动推出的音频驱动的AI视频生成模型

Loopy – 字节跳动推出的音频驱动的AI视频生成模型

Loopy是字节跳动推出的音频驱动的AI视频生成模型,用户可以让一张静态照片动起来,照片中的人物根据给定的音频文件进行面部表情和头部动作的同步,生成逼真的动态视频。Loopy基于先进的扩散模型技术,无需额外的空间信号或条件,捕捉并学习长期运动信息,生成自然流畅的动作,适用于娱乐、教育等多种场景。
26 0 2025-08-29
HeadGAP – 字节跳动推出的3D头像生成模型

HeadGAP – 字节跳动推出的3D头像生成模型

HeadGAP是字节跳动和上海科技大学共同推出的3D头像生成模型,仅用少量图片快速生成逼真的3D头像。采用先验学习和个性化创建阶段的框架,基于大规模多视角动态数据集导出的3D头部先验信息。通过高斯Splatting自动解码网络和部分动态建模,结合身份共享编码与个性化潜在代码,HeadGAP实现了高保真度和可动画的3D头像,具有多视图一致性和稳定动画效果。
23 0 2025-08-29
FlowGram – 字节跳动开源的可视化工作流搭建引擎

FlowGram – 字节跳动开源的可视化工作流搭建引擎

FlowGram是字节跳动开源的基于节点编辑的可视化工作流搭建引擎,帮助开发者快速构建固定布局或自由连线布局的工作流。支持两种布局模式:固定布局适合顺序工作流和决策树,提供层次化结构和灵活的分支、复合节点;自由布局支持节点自由定位和手动连线,适合网络图和思维导图,支持对齐、自动布局等功能。
19 0 2025-08-29
Eino – 字节跳动开源的大模型应用开发框架

Eino – 字节跳动开源的大模型应用开发框架

Eino 是字节跳动开源的大模型应用开发框架,能帮助开发者高效构建基于大模型的 AI 应用。Eino以 Go 语言为基础,具备稳定的内核、灵活的扩展性和完善的工具生态。Eino 的核心是组件化设计,基于定义不同的组件(如 ChatModel、Lambda 等)和编排方式(如 Chain 和 Graph),开发者能灵活地构建复杂的业务逻辑。
22 0 2025-08-28
DeerFlow – 字节跳动开源的深度研究框架

DeerFlow – 字节跳动开源的深度研究框架

DeerFlow 是字节跳动开源的深度研究框架,能帮助用户高效完成复杂的研究任务。DeerFlow结合语言模型与多种工具,如网络搜索、爬虫和 Python 执行,能快速生成全面的研究报告、播客和演示文稿。
20 0 2025-08-28