neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

XVerse – 字节跳动推出的多主体控制图像生成模型

XVerse – 字节跳动推出的多主体控制图像生成模型

XVerse是字节跳动智能创作团队推出的新型多主体控制图像生成模型。模型在文本到图像生成领域实现对多个主体身份和语义属性(如姿势、风格、光照)的精细控制,同时保持生成图像的高质量和一致性。
20 0 2025-08-31
XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架

XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架

XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容,XMusic能生成情绪、曲风、节奏可控的高质量音乐。基于自研的多模态和序列建模技术,可将提示词内容解析至符号音乐要素空间,以此为控制条件引导模型生成丰富、精准、动听的音乐,达到商用级的音乐生成能力要求。
17 0 2025-08-31
XGrammar – 陈天奇团队推出的LLM结构化生成引擎

XGrammar – 陈天奇团队推出的LLM结构化生成引擎

XGrammar是由陈天奇团队推出的开源软件库,能为大型语言模型(LLM)提供高效、灵活且可移植的结构化数据生成能力。基于上下文无关语法(CFG)定义结构,支持递归组合以表示复杂结构,适合生成JSON、SQL等格式数据。XGrammar用字节级下推自动机优化解释CFG,减少每token延迟,实现百倍加速,几乎无额外开销。
18 0 2025-08-31
X-baidu09R1 – 基于强化学习的低成本训练框架

X-baidu09R1 – 基于强化学习的低成本训练框架

X-R1是基于强化学习的低成本训练框架,能加速大规模语言模型的后训练(Scaling Post-Training)开发。X-R1用极低的成本训练0.5B(5亿参数)规模的R1-Zero模型,仅需4块3090或4090 GPU,训练时间约1小时,成本低于10美元。
18 0 2025-08-31
X-baidu09Prompt – 用于多模态视频目标分割的通用框架

X-baidu09Prompt – 用于多模态视频目标分割的通用框架

X-Prompt是用于多模态视频目标分割的通用框架,解决传统方法在极端光照、快速运动和背景干扰等复杂场景下的局限性。通过预训练一个基于 RGB 数据的视频目标分割基础模型,使用额外的模态信息(如热成像、深度或事件相机数据)作为视觉提示,将基础模型适应到下游的多模态任务中。
19 0 2025-08-31
X-baidu09Portrait 2 – 字节跳动推出的单图驱动视频生成模型

X-baidu09Portrait 2 – 字节跳动推出的单图驱动视频生成模型

X-Portrait 2是字节跳动智能创作团队推出的单图视频驱动技术,基于一张静态照片和一段驱动视频生成高质量、电影级视频。X-Portrait 2保留原图身份特征,准确捕捉细微表情和情绪,实现跨风格动作迁移,适用于写实人像和卡通图像。
21 0 2025-08-31
X-baidu09Fusion – 加州大学联合Adobe等机构推出的多模态融合框架

X-baidu09Fusion – 加州大学联合Adobe等机构推出的多模态融合框架

X-Fusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中,保留其语言能力。框架采用双塔架构,冻结语言模型的参数,同时为视觉模态引入独立的权重,处理视觉信息。
19 0 2025-08-31
X-baidu09Dyna – 字节联合斯坦福等高校推出的动画生成框架

X-baidu09Dyna – 字节联合斯坦福等高校推出的动画生成框架

X-Dyna 是基于扩散模型的动画生成框架,基于驱动视频中的面部表情和身体动作,将单张人类图像动画化,生成具有真实感和环境感知能力的动态效果。核心是 Dynamics-Adapter 模块,能将参考图像的外观信息有效地整合到扩散模型的空间注意力中,同时保留运动模块生成流畅和复杂动态细节的能力。
24 0 2025-08-31
X-baidu09Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架

X-baidu09Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架

X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州大学的研究人员共同推出的音乐驱动的人像舞蹈视频生成框架,支持从单张静态图像生成多样化且逼真的全身舞蹈视频。X-Dancer结合自回归变换器(Transformer)和扩散模型,用 2D 人体姿态建模,基于广泛可用的单目视频数据捕捉舞蹈动作与音乐节奏的复杂对齐关系。
20 0 2025-08-31
X-baidu09AnyLabeling – AI图像标注工具,支持图像和视频多样化标注样式

X-baidu09AnyLabeling – AI图像标注工具,支持图像和视频多样化标注样式

X-AnyLabeling是集成多种深度学习算法的图像标注软件,专注于提升标注效率和精度。X-AnyLabeling支持图像和视频的多样化标注样式,适配多种AI训练场景,提供图像级与对象级标签分类。软件支持主流深度学习框架的数据格式导入导出,具备跨平台兼容性,支持CPU和GPU推理。
15 0 2025-08-31
WriteHERE – 开源的AI长文写作框架,单次生成超长文本

WriteHERE – 开源的AI长文写作框架,单次生成超长文本

WriteHERE是Jürgen Schmidhuber领衔的团队开源的AI长文写作框架。WriteHERE基于异质递归规划(Heterogeneous Recursive Planning)技术,动态分解写作任务为检索、推理和写作三种异构任务,基于有向无环图(DAG)管理任务依赖关系,实现自适应执行。
19 0 2025-08-31
WrenAI – 开源的商业AI Agent工具,自然语言生成SQL

WrenAI – 开源的商业AI Agent工具,自然语言生成SQL

WrenAI 是 Canner 推出的开源商业智能 AI Agent工具。通过自然语言交互,帮助用户快速查询、分析和可视化结构化数据,无需编写复杂的 SQL 代码。用户只需用普通语言提出问题,WrenAI 能生成精准的 SQL 查询语句,以图表、报告等多种形式输出结果。
19 0 2025-08-31