AI 第31页_拜读未来科技摆渡人生

Suna – Kortix推出的全球首款通用型 AI Agent 开源项目

Suna 是Kortix推出的全球首款通用型 AI Agent 开源项目，支持高效解决现实场景中的各类任务。基于自然流畅的对话交互，Suna 支持智能辅助研究分析、数据处理及日常事务，化身专属数字伙伴。Suna 具备强大的功能，包括浏览器自动化、文件管理、网络爬虫、命令行执行、网站部署及与多种API的集成。

16 0 2025-08-31

StyleStudio – 文本驱动的风格迁移模型，能将参考图像的风格与文本提示内容融合

StyleStudio是西湖大学AI实验室、复旦大学、南洋理工大学和香港科技大学（广州）联合推出的，文本驱动的风格迁移模型，能将参考图像的风格与文本提示的内容融合。StyleStudio基于三种策略解决风格过拟合、控制限制和文本错位问题：跨模态AdaIN机制增强风格与文本特征整合；基于风格的分类器自由引导（SCFG）支持选择性控制风格元素；及教师模型用在早期生成阶段稳定空间布局，减少伪影。

17 0 2025-08-31

StyleShot – 开源的AI图像风格迁移模型

StyleShot 是开源的AI图像风格迁移模型，无需额外训练即可实现任意风格到任意内容的迁移。通过风格感知编码器提取风格特征，基于内容融合编码器加强风格与内容的整合。StyleShot 能捕捉从基本元素到复杂细节的多种风格特征，并支持文本和图像驱动的风格迁移。

20 0 2025-08-31

StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型

StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型，旨在解决现有模型仅能生成16帧或24帧的高质量短视频，在生成长视频时则会遇到如视频质量下降、场景转换不一致和视频停滞等问题的挑战。

21 0 2025-08-31

StreamMultiDiffusion – 实时生成和编辑图像的交互式框架

StreamMultiDiffusion是一个实时交互式的图像生成框架，结合了扩散模型的高质量图像合成能力和区域控制的灵活性，可根据用户指定的区域文本提示生成实时、交互式、多文本到图像。该框架的目的是提高图像生成的速度和用户交互性，使得用户能够实时地生成和编辑图像。

17 0 2025-08-31

StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架

StreamBridge 是苹果公司与复旦大学联合推出的端侧视频大语言模型（Video-LLMs）框架，能帮助 AI 实时理解直播流视频。框架基于内存缓冲区和轮次衰减压缩策略支持长上下文交互，引入轻量级激活模型实现主动响应功能。

20 0 2025-08-31

Stream-baidu09Omni – 中科院联合国科大推出的语言视觉语音模型

Stream-Omni是中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室及中国科学院大学联合推出的类似GPT-4o的大型语言视觉语音模型，能同时支持多种模态组合的交互。模型支持大型语言模型为骨干，基于序列维度拼接实现视觉文本对齐，基于CTC的层维度映射实现语音文本对齐，高效地将文本能力迁移到语音模态。

18 0 2025-08-31

StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型

StoryWeaver是厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室推出的AI模型，能用知识增强的故事角色定制实现高质量的故事可视化。StoryWeaver用新颖的知识图谱Character Graph丰富地表示故事中的角色、属性和关系。

18 0 2025-08-31

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统，能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息，生成详细且连贯的视频描述。StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成，能有效处理数分钟长的视频。

18 0 2025-08-31

StoryMaker – 小红书开源的文本到图像实现角色一致的生成模型

StoryMaker 是小红书开源的一款文本到图像生成工具，专注于帮助创作者在连续图像内容中保持角色的一致性。基于 Stable Diffusion XL 模型和 LoRA 技术，确保生成的图像在面部特征、服装、发型和身体特征上的高度连贯性。

18 0 2025-08-31

StoryDiffusion – 生成一致性图像和视频序列的开源AI框架

StoryDiffusion是一个先进的AI图像和视频生成框架，用于从文本描述生成具有一致性的图像和视频序列。基于Consistent Self-Attention机制增强图像间的一致性，生成的内容在身份和服饰等细节上保持连贯。

14 0 2025-08-31

Story-baidu09Adapter – 无需额外训练的长篇故事可视化框架

Story-Adapter 是一种新型的长篇故事可视化框架，能在保持语义一致性的同时，生成高质量且具有细腻交互的故事图像序列。通过迭代方式，基于全局参考交叉注意力模块，优化图像生成过程，提升了长故事场景下的可视化效果。

20 0 2025-08-31

StockMixer – 上海交大推出的股票价格预测架构

StockMixer是上海交通大学推出的用在股票价格预测的多层感知器（MLP）架构，具备简单和强大的预测能力。架构基于指标混合、时间混合和股票混合三个步骤处理和预测股票数据，有效捕捉股票指标、时间和股票间的复杂相关性。

22 0 2025-08-31

StockBot – 基于Llama3的AI金融Agent，提升股票投资效率

StockBot 是一个基于Llama3的AI金融Agent，提供实时股票信息、财务数据、新闻和互动图表。支持多资产市场，包括股票、外汇、债券和加密货币。用户可通过自然语言与之交流，获取定制化的金融分析和数据可视化，提升投资决策效率。

20 0 2025-08-31

StochSync – AI图像生成技术，为360°全景图和3D网格纹理生成高质量图像

StochSync（Stochastic Diffusion Synchronization）是创新的图像生成技术，专门用于在复杂空间（如360°全景图或3D表面纹理）中生成高质量图像。结合了扩散同步（DS）和分数蒸馏采样（SDS）的优势，通过在扩散模型的逆生成过程中引入最大随机性，兼顾图像细节与连贯性。

18 0 2025-08-31

‹‹ ‹ 27 28 29 30 31 32 33 34 35 36 › ››

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30