AI 第38页_拜读未来科技摆渡人生

Sitcom-baidu09Crafter – 北航联合港中文等高校推出的 3D 人类动作生成系统

Sitcom-Crafter 是北京航空航天大学、香港中文大学（深圳）、悉尼科技大学、中山大学等高校联合推出的 3D 场景中人类动作生成系统。基于用户提供的长剧情指导，生成多样化且物理真实的动作，包括人类行走、人类与场景交互及人类之间交互。

17 0 2025-08-30

SimpleQA – OpenAI开源的新基准，用于评估前沿模型的事实准确性

SimpleQA是OpenAI推出的基准测试，用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA包含4326个问题，每个问题设计为只有一个正确答案，易于评分”。SimpleQA挑战性强，即使是最先进的大模型如o1-preview和Claude Sonnet 3.5的准确率也不到50%。

27 0 2025-08-30

SimpleAR – 复旦大学联合字节 Seed 团队推出的图像生成模型

SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。采用简洁的自回归架构，通过优化训练和推理过程，实现了高质量的图像生成。SimpleAR 仅用 5 亿参数即可生成 1024×1024 分辨率的图像，在 GenEval 等基准测试中取得了优异成绩。

22 0 2025-08-30

SignGemma – 谷歌DeepMind推出的手语翻译AI模型

SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语（ASL）翻译成英语文本，通过多模态训练方法，结合视觉数据和文本数据，精准识别手语动作并实时转化为口语文本。

23 0 2025-08-30

SigStyle – 吉大联合 Adobe 等机构推出的风格迁移框架

SigStyle 是吉林大学、南京大学智能科学与技术学院及Adobe推出的新型签名风格迁移框架，支持将单张风格图像中独特的视觉特征（如几何结构、色彩搭配、笔触等）无缝迁移到内容图像上。SigStyle基于个性化文本到图像扩散模型，用超网络高效微调模型捕捉签名风格，将风格表示为特殊标记。

22 0 2025-08-30

SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型

SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型，是 SigLIP 的升级版本，提升图像与文本之间的对齐能力。通过改进的训练方法和架构，显著增强了模型在多语言理解、零样本分类、图像-文本检索等任务中的表现。

20 0 2025-08-30

ShowUI – 新加坡国立联合微软推出用于 GUI 自动化的视觉-baidu09语言-baidu09操作模型

ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型，能提升图形用户界面（GUI）助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本，用交错视觉-语言-行动流统一GUI任务中的多样化需求，并管理视觉-行动历史增强训练效率。

22 0 2025-08-30

Show-baidu09o – 新加坡国立Show Lab联合字节推出的多模态理解与生成的统一模型

Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模，能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展，混合模态生成在内的广泛视觉语言任务。Show-o模型在多模态理解和生成基准测试中展现出与现有专门模型相当或更优的性能，能减少图像生成所需的采样步骤，提高效率。

20 0 2025-08-30

ShotAdapter – Adobe联合UIUC推出的多镜头视频生成框架

ShotAdapter是Adobe联合UIUC推出的用在文本到多镜头视频生成的框架，基于微调预训练的文本到视频模型，引入过渡标记和局部注意力掩码策略，实现对多镜头视频的生成。框架能确保角色在不同镜头中的身份一致性，支持用户用特定的文本提示控制镜头的数量、时长和内容。

20 0 2025-08-30

Shandu – AI研究工具，自动进行多层次信息挖掘和分析

Shandu 是开源的 AI 研究自动化工具，结合了 LangChain 和 LangGraph 技术，能自动化地进行多层次信息挖掘和分析，生成结构化的研究报告。Shandu 的核心功能包括递归探索、多引擎搜索、智能网页爬取以及报告生成。

20 0 2025-08-30

Shadow – 开源的AI编程Agent，提供实时任务状态更新

Shadow 是开源的AI编程Agent，能帮助开发者理解、推理并贡献现有的代码库。Shadow 支持 GitHub 仓库集成，能生成拉取请求、管理分支，提供实时任务状态更新。Shadow 提供多语言模型支持，具备代码生成、代码搜索和文件操作等功能

26 0 2025-08-30

SepLLM – 基于分隔符压缩加速大语言模型的高效框架

SepLLM是香港大学、华为诺亚方舟实验室等机构联合提出的用于加速大语言模型（LLM）的高效框架，通过压缩段落信息并消除冗余标记，显著提高了模型的推理速度和计算效率。SepLLM的核心是利用分隔符（如标点符号）对注意力机制的贡献，将段落信息压缩到这些标记中，减少计算负担。

21 0 2025-08-30

SeniorTalk – 智源联合南开开源的超高龄老年人中文对话语音数据集

SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室（HLT Lab）推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及以上超高龄老年人的语音数据，总时长达到 55.53小时。

21 0 2025-08-30

Self-baidu09Taught Evaluators – Meta推出的新型模型评估方法

Self-Taught Evaluators是一种新型的模型评估方法，基于自我训练的方式提高大型语言模型（LLM）的评估能力，无需人工标注数据。从未经标记的指令开始，用迭代自我改进方案生成对比模型输出。用LLM作为裁判，生成推理轨迹和最终判断。

16 0 2025-08-30

Self-baidu09Lengthen – 阿里千问推出的提升输出长度迭代训练框架

Self-Lengthen是阿里巴巴千问团队推出的创新的迭代训练框架，能提升大型语言模型（LLMs）生成长文本的能力。框架基于两个角色，生成器和扩展器协同工作，生成器负责生成初始响应，扩展器将响应拆分、扩展产生更长的文本。

23 0 2025-08-30

‹‹ ‹ 34 35 36 37 38 39 40 41 42 43 › ››

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30