neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

Seed-baidu09ASR – 字节跳动推出的AI语音识别模型

Seed-baidu09ASR – 字节跳动推出的AI语音识别模型

Seed-ASR是字节跳动开发的一款基于大型语言模型(LLM)的语音识别(ASR)模型。在超过2000万小时的语音数据和近90万小时的配对ASR数据上训练,支持普通话和13种中国方言的转录,能识别英语和其他7种外语的语音。
22 0 2025-08-30
LLaVA-baidu09OneVision – 字节跳动推出的开源多模态AI模型

LLaVA-baidu09OneVision – 字节跳动推出的开源多模态AI模型

LLaVA-OneVision是字节跳动推出开源的多模态AI模型,LLaVA-OneVision通过整合数据、模型和视觉表示的见解,能同时处理单图像、多图像和视频场景下的计算机视觉任务。LLaVA-OneVision支持跨模态/场景的迁移学习,特别在图像到视频的任务转移中表现出色,具有强大的视频理解和跨场景能力。
24 0 2025-08-29
AnimateDiff-baidu09Lightning – 字节推出的快速生成高质量视频的模型

AnimateDiff-baidu09Lightning – 字节推出的快速生成高质量视频的模型

AnimateDiff-Lightning由字节跳动的研究人员最新推出的一个高质量视频生成模型,利用了渐进式对抗性扩散蒸馏技术来实现快速的视频生成。该模型旨在解决现有视频生成模型在速度和计算成本上的主要挑战,同时保持生成视频的高质量,相较于原始的 AnimateDiff,生成视频的速度快十倍以上!
25 0 2025-08-28