neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

X-baidu09Prompt – 用于多模态视频目标分割的通用框架

X-baidu09Prompt – 用于多模态视频目标分割的通用框架

X-Prompt是用于多模态视频目标分割的通用框架,解决传统方法在极端光照、快速运动和背景干扰等复杂场景下的局限性。通过预训练一个基于 RGB 数据的视频目标分割基础模型,使用额外的模态信息(如热成像、深度或事件相机数据)作为视觉提示,将基础模型适应到下游的多模态任务中。
18 0 2025-08-31
X-baidu09Portrait 2 – 字节跳动推出的单图驱动视频生成模型

X-baidu09Portrait 2 – 字节跳动推出的单图驱动视频生成模型

X-Portrait 2是字节跳动智能创作团队推出的单图视频驱动技术,基于一张静态照片和一段驱动视频生成高质量、电影级视频。X-Portrait 2保留原图身份特征,准确捕捉细微表情和情绪,实现跨风格动作迁移,适用于写实人像和卡通图像。
21 0 2025-08-31
X-baidu09Fusion – 加州大学联合Adobe等机构推出的多模态融合框架

X-baidu09Fusion – 加州大学联合Adobe等机构推出的多模态融合框架

X-Fusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中,保留其语言能力。框架采用双塔架构,冻结语言模型的参数,同时为视觉模态引入独立的权重,处理视觉信息。
19 0 2025-08-31
X-baidu09Dyna – 字节联合斯坦福等高校推出的动画生成框架

X-baidu09Dyna – 字节联合斯坦福等高校推出的动画生成框架

X-Dyna 是基于扩散模型的动画生成框架,基于驱动视频中的面部表情和身体动作,将单张人类图像动画化,生成具有真实感和环境感知能力的动态效果。核心是 Dynamics-Adapter 模块,能将参考图像的外观信息有效地整合到扩散模型的空间注意力中,同时保留运动模块生成流畅和复杂动态细节的能力。
24 0 2025-08-31
X-baidu09Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架

X-baidu09Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架

X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州大学的研究人员共同推出的音乐驱动的人像舞蹈视频生成框架,支持从单张静态图像生成多样化且逼真的全身舞蹈视频。X-Dancer结合自回归变换器(Transformer)和扩散模型,用 2D 人体姿态建模,基于广泛可用的单目视频数据捕捉舞蹈动作与音乐节奏的复杂对齐关系。
20 0 2025-08-31
X-baidu09AnyLabeling – AI图像标注工具,支持图像和视频多样化标注样式

X-baidu09AnyLabeling – AI图像标注工具,支持图像和视频多样化标注样式

X-AnyLabeling是集成多种深度学习算法的图像标注软件,专注于提升标注效率和精度。X-AnyLabeling支持图像和视频的多样化标注样式,适配多种AI训练场景,提供图像级与对象级标签分类。软件支持主流深度学习框架的数据格式导入导出,具备跨平台兼容性,支持CPU和GPU推理。
15 0 2025-08-31
WriteHERE – 开源的AI长文写作框架,单次生成超长文本

WriteHERE – 开源的AI长文写作框架,单次生成超长文本

WriteHERE是Jürgen Schmidhuber领衔的团队开源的AI长文写作框架。WriteHERE基于异质递归规划(Heterogeneous Recursive Planning)技术,动态分解写作任务为检索、推理和写作三种异构任务,基于有向无环图(DAG)管理任务依赖关系,实现自适应执行。
19 0 2025-08-31
WrenAI – 开源的商业AI Agent工具,自然语言生成SQL

WrenAI – 开源的商业AI Agent工具,自然语言生成SQL

WrenAI 是 Canner 推出的开源商业智能 AI Agent工具。通过自然语言交互,帮助用户快速查询、分析和可视化结构化数据,无需编写复杂的 SQL 代码。用户只需用普通语言提出问题,WrenAI 能生成精准的 SQL 查询语句,以图表、报告等多种形式输出结果。
18 0 2025-08-31
Wren AI – 开源文本驱动的SQL数据库查询解决方案

Wren AI – 开源文本驱动的SQL数据库查询解决方案

Wren AI 是一个开源的文本到 SQL 解决方案,基于自然语言处理技术,支持用户通过自然语言提问执行数据库查询,无需编写复杂的 SQL 代码。支持多种数据库和数据源,包括 PostgreSQL、MySQL、BigQuery 和 CSV、JSON 文件等。
20 0 2025-08-31
WorldVLA – 阿里达摩院联合浙大推出的自回归动作世界模型

WorldVLA – 阿里达摩院联合浙大推出的自回归动作世界模型

WorldVLA是阿里巴巴达摩院和浙江大学联合推出的自回归动作世界模型,模型将视觉-语言-动作(VLA)模型与世界模型整合到一个单一框架中。模型基于动作和图像理解预测未来的图像,目的是学习环境的基本物理规律以改进动作生成。
19 0 2025-08-31
WorldSense – 小红书联合上海交大推出的多模态全面评测新基准

WorldSense – 小红书联合上海交大推出的多模态全面评测新基准

WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力的基准测试。WorldSense包含1662个音频-视频同步的多样化视频,覆盖8个主要领域和67个细分子类别,及3172个多项选择问答对,涉及26个不同的认知任务。
15 0 2025-08-31
WorldPM – 阿里Qwen团队联合复旦推出的偏好建模模型系列

WorldPM – 阿里Qwen团队联合复旦推出的偏好建模模型系列

WorldPM(World Preference Modeling)是阿里巴巴集团的Qwen团队和复旦大学推出的偏好建模模型系列。基于大规模训练揭示偏好模型的可扩展性。模型基于1500万条偏好数据进行训练,发现偏好模型在客观领域表现出明显的幂律下降趋势,在主观领域则因多维度特性难以呈现单一的扩展趋势。
22 0 2025-08-31
WorldMem – 南洋理工联合北大和上海 AI Lab 推出的世界生成模型

WorldMem – 南洋理工联合北大和上海 AI Lab 推出的世界生成模型

WorldMem 是南洋理工大学、北京大学和上海 AI Lab 推出的创新 AI 世界生成模型。模型基于引入记忆机制,解决传统世界生成模型在长时序下缺乏一致性的关键问题。在WorldMem中,智能体在多样化场景中自由探索,生成的世界在视角和位置变化后能保持几何一致性。
20 0 2025-08-31