neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

Stream-baidu09Omni – 中科院联合国科大推出的语言视觉语音模型

Stream-baidu09Omni – 中科院联合国科大推出的语言视觉语音模型

Stream-Omni是中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室及中国科学院大学联合推出的类似GPT-4o的大型语言视觉语音模型,能同时支持多种模态组合的交互。模型支持大型语言模型为骨干,基于序列维度拼接实现视觉文本对齐,基于CTC的层维度映射实现语音文本对齐,高效地将文本能力迁移到语音模态。
18 0 2025-08-31