neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

Zonos – ZyphraAI 开源的多语言 TTS 模型

Zonos – ZyphraAI 开源的多语言 TTS 模型

Zonos是Zyphra推出的高保真文本到语音(TTS)模型。Zonos包含两个模型:16亿参数的Transformer模型和SSM混合模型,均在Apache 2.0许可下开源。Zonos根据文本提示和说话人嵌入生成自然、高表达性的语音,支持语音克隆功能,可调节语速、音高、情感等参数,输出采样率为44kHz。
21 0 2025-08-31
StyleShot – 开源的AI图像风格迁移模型

StyleShot – 开源的AI图像风格迁移模型

StyleShot 是开源的AI图像风格迁移模型,无需额外训练即可实现任意风格到任意内容的迁移。通过风格感知编码器提取风格特征,基于内容融合编码器加强风格与内容的整合。StyleShot 能捕捉从基本元素到复杂细节的多种风格特征,并支持文本和图像驱动的风格迁移。
19 0 2025-08-31
SimpleQA – OpenAI开源的新基准,用于评估前沿模型的事实准确性

SimpleQA – OpenAI开源的新基准,用于评估前沿模型的事实准确性

SimpleQA是OpenAI推出的基准测试,用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA包含4326个问题,每个问题设计为只有一个正确答案,易于评分”。SimpleQA挑战性强,即使是最先进的大模型如o1-preview和Claude Sonnet 3.5的准确率也不到50%。
26 0 2025-08-30
Morphik – 开源的多模态检索增强生成工具

Morphik – 开源的多模态检索增强生成工具

Morphik 是开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档设计。支持对图像、PDF、视频等多种格式的文档进行搜索,采用 ColPali 等技术,能理解文档中的视觉内容。
22 0 2025-08-30
Fish Speech – 开源的高效文本到语音合成TTS工具

Fish Speech – 开源的高效文本到语音合成TTS工具

Fish Speech是一款由Fish Audio开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水平的语音合成效果,目前已更新到1.2版本。
20 0 2025-08-29