Soundwave是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术,有效解决了语音和文本在表示空间上的差异,实现了高效的语音特征压缩,能更好地处理语音任务。
16
0
2025-08-30
SoulChat2.0是华南理工大学未来技术学院-广东省数字孪生人重点实验室基于SoulChat1.0模型推出的心理咨询师数字孪生大语言模型。首次定义了特定心理咨询师的数字孪生任务,旨在通过模拟真实心理咨询师的语言风格和疗法技术,提升大模型在真实心理咨询场景中的应用性能。
16
0
2025-08-30
Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架,基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器,分别提取音频片段内的长期时间音频知识和独立控制头部与表情运动,增强局部音频感知能力。
22
0
2025-08-30
SongGeneration是腾讯AI Lab推出的AI音乐生成大模型。模型支持解决音乐AIGC领域中的音质、音乐性与生成速度等关键问题,SongGeneration基于LLM-DiT融合架构,显著提升音质表现和生成速度,生成歌曲的质量在多个维度上优于多数开源模型,部分指标媲美商业闭源模型。
21
0
2025-08-30
SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于歌词和描述性文本(如乐器、风格、情感等)作为输入,支持混合模式和双轨模式两种输出方式,分别用于直接生成人声与伴奏的混合音频,及分别合成人声和伴奏方便后期编辑。
17
0
2025-08-30
SongCreator是清华大学深圳国际研究生院、香港中文大学等机构推出的AI音乐生成模型,能从歌词出发生成包含声乐和伴奏的完整歌曲。
15
0
2025-08-30
SocraticLM 是通过苏格拉底式的教学法来教授数学的创新人工智能模型,模型由中科大和科大讯飞共同开发,采用了“Thought-Provoking”教学范式,通过提问引导学生主动思考和解决问题。SocraticLM 在名为 SocraTeach 的数据集上进行了微调,该数据集包含 35,000 个精心设计的多轮教学对话,模拟了真实的教学场景。
18
0
2025-08-30
SocioVerse(众生) 是复旦大学、上海创智学院、罗切斯特大学和小红书联合推出的社会模拟世界模型。基于大语言模型(LLM)驱动的智能体和包含1000万真实用户的数据池,构建与现实世界“对齐”的大规模社会模拟框架。
20
0
2025-08-30
Social Media Agent是智能的社交媒体内容管理工具,基于输入的URL内容生成Twitter和LinkedIn帖子。Social Media Agent用人机交互 流程,处理社交媒体平台认证,支持用户修改或接受/拒绝生成的帖子。
16
0
2025-08-30
SnapGen是Snap Inc、香港科技大学、墨尔本大学等机构联合推出的文本到图像(T2I)扩散模型,能在移动设备上快速生成高分辨率(1024x1024像素)的图像,且只需1.4秒。模型用379M参数实现这一性能,显著减少模型大小和计算需求,同时在GenEval指标上达到0.66的高分,超越许多参数量更大的SDXL和IF-XL模型。
15
0
2025-08-30
Snap Video是由Snap公司的研究团队开发的一个AI视频生成模型,目标是通过文本描述来合成视频,即用户可以输入一段描述性的文本,模型能够根据这段文本生成相应的视频内容。由于视频内容具有高度的冗余性和复杂性,Snap Video旨在解决从文本描述生成高质量、时间上连贯、高运动保真度的视频的挑战。
20
0
2025-08-30
SmoothCache 是用在Diffusion Transformers (DiT)模型的通用推理加速技术,是 Roblox 和女王大学的研究团队推出。基于分析相邻扩散时间步的层输出相似性,自适应地缓存和重用关键特征,减少计算需求。实验显示,SmoothCache 能实现8%到71%的加速,并保持或提升生成质量,适用于图像、视频和音频等多种模态,有助于推动 DiT 模型在实时应用中的广泛使用。
19
0
2025-08-30
SmolVLM是Hugging Face推出的轻量级视觉语言模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同需求:SmolVLM-Base:适用于下游任务的微调。SmolVLM-Synthetic:基于合成数据进行微调。SmolVLM-Instruct:指令微调版本,可直接应用于交互式应用中。
22
0
2025-08-30
SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可训练,能在MacBook上部署。
19
0
2025-08-30
SmolLLM2是Hugging Face推出用在设备端应用的紧凑型大型语言模型,提供1.7B、360M、135M三个不同参数级别的模型,适应不同的应用场景和资源限制。模型在理解和执行指令、进行知识推理及解决数学问题方面表现出显著的进步。
17
0
2025-08-30