ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型,能提升图形用户界面(GUI)助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本,用交错视觉-语言-行动流统一GUI任务中的多样化需求,并管理视觉-行动历史增强训练效率。
22
0
2025-08-30
Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模,能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展,混合模态生成在内的广泛视觉语言任务。Show-o模型在多模态理解和生成基准测试中展现出与现有专门模型相当或更优的性能,能减少图像生成所需的采样步骤,提高效率。
20
0
2025-08-30
ShotAdapter是Adobe联合UIUC推出的用在文本到多镜头视频生成的框架,基于微调预训练的文本到视频模型,引入过渡标记和局部注意力掩码策略,实现对多镜头视频的生成。框架能确保角色在不同镜头中的身份一致性,支持用户用特定的文本提示控制镜头的数量、时长和内容。
20
0
2025-08-30
Shandu 是开源的 AI 研究自动化工具,结合了 LangChain 和 LangGraph 技术,能自动化地进行多层次信息挖掘和分析,生成结构化的研究报告。Shandu 的核心功能包括递归探索、多引擎搜索、智能网页爬取以及报告生成。
20
0
2025-08-30
Shadow 是开源的AI编程Agent,能帮助开发者理解、推理并贡献现有的代码库。Shadow 支持 GitHub 仓库集成,能生成拉取请求、管理分支,提供实时任务状态更新。Shadow 提供多语言模型支持,具备代码生成、代码搜索和文件操作等功能
26
0
2025-08-30
SepLLM是香港大学、华为诺亚方舟实验室等机构联合提出的用于加速大语言模型(LLM)的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理速度和计算效率。SepLLM的核心是利用分隔符(如标点符号)对注意力机制的贡献,将段落信息压缩到这些标记中,减少计算负担。
21
0
2025-08-30
SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及以上超高龄老年人的语音数据,总时长达到 55.53小时。
21
0
2025-08-30
Self-Taught Evaluators是一种新型的模型评估方法,基于自我训练的方式提高大型语言模型(LLM)的评估能力,无需人工标注数据。从未经标记的指令开始,用迭代自我改进方案生成对比模型输出。用LLM作为裁判,生成推理轨迹和最终判断。
16
0
2025-08-30
Self-Lengthen是阿里巴巴千问团队推出的创新的迭代训练框架,能提升大型语言模型(LLMs)生成长文本的能力。框架基于两个角色,生成器和扩展器协同工作,生成器负责生成初始响应,扩展器将响应拆分、扩展产生更长的文本。
23
0
2025-08-30
Self Forcing 是 Adobe Research 与德克萨斯大学奥斯汀分校联合推出的新型自回归视频生成算法,解决传统生成模型在训练与测试时的暴露偏差问题。通过在训练阶段模拟自生成过程,以先前生成的帧为条件生成后续帧,而非依赖真实帧,弥合训练与测试分布的差异。
18
0
2025-08-30
Seer是由上海AI实验室、北京大学计算机科学与技术学院、北京大学软件与微电子学院等机构联合推出的端到端操作模型,实现机器人视觉预测与动作执行的高度协同。模型结合历史信息和目标信号(如语言指令),预测未来时刻的状态,用逆动力学模型生成动作信号。Seer基于Transformer的结构,处理多模态输入数据,有效融合视觉、语言和机器人本体信号。
17
0
2025-08-30
Seedream 3.0(即梦3.0)是字节跳动推出的AI图片生成模型,模型支持原生 2K 分辨率图像输出,快速生成高品质图像,仅需 3 秒。模型在小字生成与排版、美感与结构准确性等方面有显著提升,优化复杂文本排版和小字体高保真生成。
20
0
2025-08-30
Seedream 2.0 是字节跳动豆包大模型团队推出的原生中英双语图像生成模型,解决现有模型在文本渲染、文化理解等方面的不足。模型通过自研的双语大语言模型(LLM)作为文本编码器,能直接从海量数据中学习本土知识,生成具有准确文化细节和审美表达的高保真图像。
22
0
2025-08-30
Seedance 1.0 是字节跳动Seed团队推出的视频生成基础模型。模型支持文字与图片输入,能生成多镜头无缝切换的1080p高品质视频,具备原生多镜头叙事能力,能进行远中近景画面切换,主体运动稳定,画面自然。
73
0
2025-08-30
Seedance 1.0 lite是火山引擎推出的豆包视频生成模型的小参数量版本,支持文生视频和图生视频两种生成方式,支持生成5秒或10秒、480p或720p分辨率的视频。
18
0
2025-08-30