neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

Stream-baidu09Omni – 中科院联合国科大推出的语言视觉语音模型

Stream-baidu09Omni – 中科院联合国科大推出的语言视觉语音模型

Stream-Omni是中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室及中国科学院大学联合推出的类似GPT-4o的大型语言视觉语音模型,能同时支持多种模态组合的交互。模型支持大型语言模型为骨干,基于序列维度拼接实现视觉文本对齐,基于CTC的层维度映射实现语音文本对齐,高效地将文本能力迁移到语音模态。
18 0 2025-08-31
StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型

StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型

StoryWeaver是厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室推出的AI模型,能用知识增强的故事角色定制实现高质量的故事可视化。StoryWeaver用新颖的知识图谱Character Graph丰富地表示故事中的角色、属性和关系。
18 0 2025-08-31
StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统,能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成,能有效处理数分钟长的视频。
18 0 2025-08-31
Story-baidu09Adapter – 无需额外训练的长篇故事可视化框架

Story-baidu09Adapter – 无需额外训练的长篇故事可视化框架

Story-Adapter 是一种新型的长篇故事可视化框架,能在保持语义一致性的同时,生成高质量且具有细腻交互的故事图像序列。通过迭代方式,基于全局参考交叉注意力模块,优化图像生成过程,提升了长故事场景下的可视化效果。
20 0 2025-08-31
StockMixer – 上海交大推出的股票价格预测架构

StockMixer – 上海交大推出的股票价格预测架构

StockMixer是上海交通大学推出的用在股票价格预测的多层感知器(MLP)架构,具备简单和强大的预测能力。架构基于指标混合、时间混合和股票混合三个步骤处理和预测股票数据,有效捕捉股票指标、时间和股票间的复杂相关性。
22 0 2025-08-31
StockBot – 基于Llama3的AI金融Agent,提升股票投资效率

StockBot – 基于Llama3的AI金融Agent,提升股票投资效率

StockBot 是一个基于Llama3的AI金融Agent,提供实时股票信息、财务数据、新闻和互动图表。支持多资产市场,包括股票、外汇、债券和加密货币。用户可通过自然语言与之交流,获取定制化的金融分析和数据可视化,提升投资决策效率。
20 0 2025-08-31
Still-baidu09Moving – DeepMind推出的AI视频生成框架

Still-baidu09Moving – DeepMind推出的AI视频生成框架

Still-Moving是DeepMind推出的AI视频生成框架,支持用户定制文本到视频(T2V)模型,无需特定视频数据。通过训练轻量级的空间适配器,Still-Moving能在静止图像上调整T2I模型的特征,以与T2V模型的运动特性相匹配。
19 0 2025-08-31
StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架

StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架

StereoCrafter是腾讯AI Lab和ARC Lab共同推出的创新框架,能将单目视频(2D视频)转换为立体3D视频,满足日益增长的3D内容需求。StereoCrafter基于深度估计、视频splatting和立体视频修复三个核心步骤,实现高保真度的2D到3D视频转换。
15 0 2025-08-31
Step1X-baidu09Edit – 阶跃星辰开源的通用图像编辑框架

Step1X-baidu09Edit – 阶跃星辰开源的通用图像编辑框架

Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT-4o 和 Gemini2 Flash)之间的性能差距。Step1X-Edit结合多模态大语言模型(MLLM)和扩散模型,基于处理参考图像和用户的编辑指令,提取潜在嵌入并生成目标图像。
17 0 2025-08-31
Step-baidu09Video-baidu09TI2V – 阶跃星辰开源的图生视频模型

Step-baidu09Video-baidu09TI2V – 阶跃星辰开源的图生视频模型

Step-Video-TI2V 是阶跃星辰(StepFun)推出的开源图生视频(Image-to-Video)生成模型,拥有 300 亿参数,能根据文本描述和图像输入生成最长 102 帧的视频。模型基于深度压缩的变分自编码器(Video-VAE),实现了 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。
17 0 2025-08-31
Step-baidu09Video-baidu09T2V – 阶跃星辰开源的文本到视频模型

Step-baidu09Video-baidu09T2V – 阶跃星辰开源的文本到视频模型

Step-Video-T2V 是阶跃星辰团队推出的开源文本到视频预训练模型,拥有 300 亿参数,能生成长达 204 帧的高质量视频。模型基于深度压缩的变分自编码器(Video-VAE),实现 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。
18 0 2025-08-31