AI工具第34页_拜读未来科技摆渡人生

SpeciesNet – Google 开源的动物物种识别 AI 模型

SpeciesNet 是 Google 开源的人工智能模型，通过分析相机陷阱拍摄的照片来识别动物物种。基于超过 6500 万张图像训练而成，能识别超过 2000 种标签，包括动物物种、分类单元以及非动物对象。

24 0 2025-08-30

Speakr – 免费AI会议助手，本地完成数据处理

Speakr是开源免费的AI会议助手，支持确保数据绝对私密的前提下，自动化完成会议录音转写、内容摘要提炼与智能问答。Speakr无需联网就能运行，所有数据处理均在本地完成，彻底杜绝商业机密或敏感对话泄露的风险。

18 0 2025-08-30

SpatialVLA – 上海 AI Lab 联合上科大等推出的空间具身通用操作模型

SpatialVLA 是上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型，基于百万真实数据预训练，为机器人赋予通用的3D空间理解能力。SpatialVLA基于Ego3D位置编码将3D空间信息与语义特征融合，用自适应动作网格将连续动作离散化，实现跨机器人平台的泛化控制。

19 0 2025-08-30

SpatialLM – 群核科技开源的空间理解多模态模型

SpatialLM 是群核科技开源的空间理解多模态模型，赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频，能重建出详细的 3D 场景布局，标注出房间结构、家具摆放、通道宽度等信息。

17 0 2025-08-30

SpatialLM 1.5 – 群核科技推出的空间语言模型

SpatialLM 1.5 是群核科技推出的强大的空间语言模型。模型基于大语言模型训练，能理解自然语言指令，输出包含空间结构、物体关系和物理参数的空间语言。用户能通过对话交互系统 SpatialLM-Chat，用简单文本描述，生成结构化的 3D 场景，模型能对现有场景进行问答或编辑。

20 0 2025-08-30

SpatialGen – 群核科技开源的3D场景生成模型

SpatialGen 是群核科技开源的 3D 场景生成模型。模型基于扩散模型架构，支持根据文字描述、参考图像和 3D 空间布局，生成时空一致的多视角图像，且能进一步得到 3D 高斯场景并渲染漫游视频。

17 0 2025-08-30

Spatial-baidu09RAG – 埃默里大学等机构推出的空间推理能力框架

Spatial-RAG（Spatial Retrieval-Augmented Generation）是美国埃默里大学、德克萨斯大学奥斯汀分校推出的用在提升大型语言模型（LLMs）空间推理能力的框架。结合稀疏空间检索（基于空间数据库的结构化查询）和密集语义检索（基于LLM的语义相似性匹配），解决LLMs在空间数据处理和推理方面的不足。

16 0 2025-08-30

Spark-baidu09TTS – AI文本转语音工具，支持中英零样本语音克隆

Spark-TTS 是SparkAudio 团队开源的基于大型语言模型（LLM）的高效文本转语音（TTS）工具，无需额外的生成模型，直接从 LLM 预测的编码中重建音频，实现零样本文本到语音的转换。Spark-TTS 支持中英双语，具备跨语言合成能力，可通过参数调整（如性别、音调、语速）生成虚拟说话者的声音，满足多样化需求。

17 0 2025-08-30

Sparc3D – 南洋理工等机构推出的3D模型生成框架

Sparc3D是南洋理工大学联合Sensory Universe和帝国理工学院推出的用在高分辨率3D模型生成框架，解决传统3D生成方法中细节丢失和效率低下的问题。框架结合稀疏可变形Marching Cubes表示（Sparcubes）和稀疏卷积变分自编码器（Sparconv-VAE）。

20 0 2025-08-30

Soundwave – 港中文深圳开源的语音理解大模型

Soundwave是香港中文大学（深圳）开源的语音理解大模型，专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术，有效解决了语音和文本在表示空间上的差异，实现了高效的语音特征压缩，能更好地处理语音任务。

16 0 2025-08-30

SoulChat2.0 – 华南理工大学推出的心理咨询师数字孪生大语言模型

SoulChat2.0是华南理工大学未来技术学院-广东省数字孪生人重点实验室基于SoulChat1.0模型推出的心理咨询师数字孪生大语言模型。首次定义了特定心理咨询师的数字孪生任务，旨在通过模拟真实心理咨询师的语言风格和疗法技术，提升大模型在真实心理咨询场景中的应用性能。

15 0 2025-08-30

Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架

Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架，基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器，分别提取音频片段内的长期时间音频知识和独立控制头部与表情运动，增强局部音频感知能力。

22 0 2025-08-30

SongGeneration – 腾讯AI Lab开源的音乐生成大模型

SongGeneration是腾讯AI Lab推出的AI音乐生成大模型。模型支持解决音乐AIGC领域中的音质、音乐性与生成速度等关键问题，SongGeneration基于LLM-DiT融合架构，显著提升音质表现和生成速度，生成歌曲的质量在多个维度上优于多数开源模型，部分指标媲美商业闭源模型。

20 0 2025-08-30

SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型，用在从文本生成歌曲。SongGen基于歌词和描述性文本（如乐器、风格、情感等）作为输入，支持混合模式和双轨模式两种输出方式，分别用于直接生成人声与伴奏的混合音频，及分别合成人声和伴奏方便后期编辑。

17 0 2025-08-30

SongCreator – AI音乐模型，能理解、生成和编辑歌曲

SongCreator是清华大学深圳国际研究生院、香港中文大学等机构推出的AI音乐生成模型，能从歌词出发生成包含声乐和伴奏的完整歌曲。

15 0 2025-08-30

‹‹ ‹ 30 31 32 33 34 35 36 37 38 39 › ››

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30