SearchAgent-X 是南开大学和伊利诺伊大学厄巴纳香槟分校(UIUC)研究人员推出的高效推理框架,能提升基于大型语言模型(LLM)的搜索Agent的效率。
23
0
2025-08-30
Search-o1是中国人民大学和清华大学推出的创新框架,能提升大型推理模型(LRMs)在面对复杂问题时的推理能力。基于整合代理检索增强生成(RAG)机制和Reason-in-Documents模块,让LRMs在推理过程中动态检索外部知识,填补知识空白。
18
0
2025-08-30
ScriptViz是由斯坦福大学研究人员推出的一款剧本可视化辅助工具,基于大型电影数据库MovieNet,根据剧本文本和对话检索出相匹配的电影画面,将编剧的文字描述转换成具体的视觉图像。工具提供对视觉元素的精确控制,支持编剧设定固定和可变属性,生成与剧本描述紧密一致的视觉参考
19
0
2025-08-30
Scribe 是 ElevenLabs 推出的高精度语音转文本模型,专为多语言和复杂音频环境设计。支持99种语言,英语和意大利语的转录准确率分别达到96.7%和98.7%,在小语种上也有出色表现。
17
0
2025-08-30
ScribbleDiff是一种先进的文本到图像生成技术,基于用户简单涂鸦的视觉提示指导图像的生成过程。通过分析涂鸦确保生成的图像中的对象方向与用户涂鸦的方向一致,并将涂鸦扩展生成更完整和细致的图像。
16
0
2025-08-30
Sscreenshot to Code是一个开源的项目,利用人工智能技术(GPT-4V 和 DALL·E 3)将用户的屏幕截图转换为前端网页代码。项目的核心功能是自动化网页设计的编码过程,使得开发者能够通过提供网页的截图,快速生成相应的HTML、CSS和JavaScript代码,节省前端开发人员的时间和精力。
17
0
2025-08-30
ScreenCoder 是开源的智能 UI 截图转代码系统,支持将任何设计截图快速转换为整洁、可编辑的 HTML/CSS 代码。ScreenCoder用模块化多智能体架构,结合视觉理解、布局规划和代码合成技术,生成高精度、语义化的前端代码。
22
0
2025-08-30
ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模型(VLM)构建的,能够与真实计算机屏幕进行交互。ScreenAgent的核心功能是通过观察屏幕截图,并输出相应的鼠标和键盘动作来操纵图形用户界面(GUI),从而执行多步骤的复杂任务。
18
0
2025-08-30
ScreenAI是一个由谷歌的研究团队推出的可读屏AI视觉语言模型,专门设计用于理解和处理用户界面(UI)和信息图表。该模型基于PaLI架构结合了视觉和语言处理的能力,并借鉴了Pix2Struct的灵活拼贴策略,使其能够理解和生成与屏幕UI元素相关的文本,如问题回答、UI导航指令和内容摘要。
22
0
2025-08-30
ScrapeGraphAI 是基于大型语言模型(LLM)驱动的智能网络爬虫工具包,专注于从各类网站和HTML内容中高效提取结构化数据。具备三大核心功能:SmartScraper可根据用户提示精准抓取网页中的结构化信息;SearchScraper基于AI驱动的搜索技术从搜索引擎结果中提取关键信息。
16
0
2025-08-30
ScholarCopilot 是加拿大滑铁卢大学与卡内基梅隆大学的研究团队开发的专为学术写作设计的人工智能工具,基于 Qwen-2.5-7B 模型,通过动态检索引用和联合优化生成与引用的方式,能精准地生成带有准确引用的学术文本。
18
0
2025-08-30
Scenethesis 是 NVIDIA 推出的创新框架,用在从文本生成交互式 3D 场景。框架结合大型语言模型(LLM)和视觉感知技术,基于多阶段流程实现高效生成,用 LLM 进行粗略布局规划,基于视觉模块细化布局生成图像指导,用优化模块调整物体姿态确保物理合理性,基于判断模块验证场景的空间连贯性。
23
0
2025-08-30
ScaleMCP是普华永道推出的工具选择方法,动态的为大型语言模型(LLM)Agents 配备Model Context Protocol(MCP)工具。基于自动同步工具存储系统与MCP服务器,解决现有框架依赖手动更新本地工具库导致的低效和不一致问题。
20
0
2025-08-30
Satori 是 MIT、哈佛大学等机构研究者推出的 7B 参数的大型语言模型,专注于提升推理能力。基于Qwen-2.5-Math-7B,Satori通过小规模的格式微调和大规模的增强学习实现了最先进的推理性能。采用行动思维链(COAT)机制,通过强化学习优化模型性能,具备强大的自回归搜索和自我纠错能力。
19
0
2025-08-30
Sapiens是Meta实验室推出的AI视觉模型,专为理解图片和视频中的人类动作设计。支持二维姿势预估、身体部位分割、深度估计和表面法线预测等任务,采用视觉转换器架构。
18
0
2025-08-30