Swarm是由OpenAI推出的一个实验性框架,旨在构建、编排和部署多智能体系统。基于轻量级的Agent和handoff机制,简化智能体之间的协调和执行过程,让控制更加精细,测试更加便捷。
16
0
2025-08-31
Surya是一款功能强大的开源OCR(光学字符识别)工具包,专门设计用在文档识别,支持超过90种语言的识别。Surya能准确识别出文档中的文本,分析文本的阅读顺序,检测文档中的布局元素,如表格、图片和标题,及识别和解析表格内容。
19
0
2025-08-31
SurveyX 是基于大型语言模型(LLMs)自动化生成学术综述的系统,是中国人民大学、悉尼大学和中国东北大学联合推出的。基于用户提供论文标题和关键词,快速生成高质量、特定领域的学术综述或论文。SurveyX系统用先进的语言模型技术,结合数据处理和文献检索能力,帮助用户节省编写学术综述的时间和精力。
18
0
2025-08-31
SurveyGO(卷姬) 是面壁智能团队开源的AI论文写作工具。支持根据用户输入的论文主题和描述,快速生成结构清晰、内容丰富的综述文章,帮助科研人员和学生高效完成文献综述部分。
19
0
2025-08-31
SurveyForge是上海AI Lab联合复旦大学、上海交通大学等机构推出的创新框架,用在自动化生成高质量学术综述。框架基于两阶段设计,大纲生成和内容生成。在大纲生成阶段,基于双数据库协同驱动(研究论文数据库和综述大纲数据库)的启发式学习机制,生成结构合理、逻辑清晰的综述框架。
16
0
2025-08-31
SurfSense 是开源的 AI 研究工具,类似于 NotebookLM 和 Perplexity,具备更强的扩展性。工具能与多种外部数据源(如搜索引擎、Slack、Notion、YouTube、GitHub 等)集成,支持用户上传多种格式的文件,将内容整合到个人知识库中。
19
0
2025-08-31
SuperGPQA 是字节跳动豆包大模型团队联合 M-A-P 推出的全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准测试集。解决传统评测基准学科覆盖不全、题目质量存疑和评测维度单一的问题,基于专家与大语言模型协同构建,确保题目的高质量和高难度。
19
0
2025-08-31
SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法,基于优化监督信号提高图像编辑的精度和效果。SuperEdit基于纠正编辑指令,与原始图像和编辑图像对更准确地对齐,引入对比监督信号,进一步优化模型训练。
24
0
2025-08-31
SuperDesign 是开源AI设计Agent,帮助设计师和开发者在 IDE 中直接生成 UI 原型、组件和线框图。工具支持自然语言输入,能并行生成多个设计选项,方便用户快速探索不同创意。
16
0
2025-08-31
Suna 是Kortix推出的全球首款通用型 AI Agent 开源项目,支持高效解决现实场景中的各类任务。基于自然流畅的对话交互,Suna 支持智能辅助研究分析、数据处理及日常事务,化身专属数字伙伴。Suna 具备强大的功能,包括浏览器自动化、文件管理、网络爬虫、命令行执行、网站部署及与多种API的集成。
16
0
2025-08-31
StyleStudio是西湖大学AI实验室、复旦大学、南洋理工大学和香港科技大学(广州)联合推出的,文本驱动的风格迁移模型,能将参考图像的风格与文本提示的内容融合。StyleStudio基于三种策略解决风格过拟合、控制限制和文本错位问题:跨模态AdaIN机制增强风格与文本特征整合;基于风格的分类器自由引导(SCFG)支持选择性控制风格元素;及教师模型用在早期生成阶段稳定空间布局,减少伪影。
17
0
2025-08-31
StyleShot 是开源的AI图像风格迁移模型,无需额外训练即可实现任意风格到任意内容的迁移。通过风格感知编码器提取风格特征,基于内容融合编码器加强风格与内容的整合。StyleShot 能捕捉从基本元素到复杂细节的多种风格特征,并支持文本和图像驱动的风格迁移。
20
0
2025-08-31
StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型,旨在解决现有模型仅能生成16帧或24帧的高质量短视频,在生成长视频时则会遇到如视频质量下降、场景转换不一致和视频停滞等问题的挑战。
21
0
2025-08-31
StreamMultiDiffusion是一个实时交互式的图像生成框架,结合了扩散模型的高质量图像合成能力和区域控制的灵活性,可根据用户指定的区域文本提示生成实时、交互式、多文本到图像。该框架的目的是提高图像生成的速度和用户交互性,使得用户能够实时地生成和编辑图像。
17
0
2025-08-31
StreamBridge 是苹果公司与复旦大学联合推出的端侧视频大语言模型(Video-LLMs)框架,能帮助 AI 实时理解直播流视频。框架基于内存缓冲区和轮次衰减压缩策略支持长上下文交互,引入轻量级激活模型实现主动响应功能。
20
0
2025-08-31