neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

UniTok – 字节联合港大、华中科技推出的统一视觉分词器

UniTok – 字节联合港大、华中科技推出的统一视觉分词器

UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细节捕捉和语义理解之间的矛盾。
22 0 2025-08-31
UniTalker – 商汤推出的音频驱动3D面部动画生成模型

UniTalker – 商汤推出的音频驱动3D面部动画生成模型

UniTalker是推出的音频驱动3D面部动画生成模型,能根据输入的音频生成逼真的面部动作。采用统一的多头架构模型,用带有不同标注的数据集,支持多语言和多种音频类型的处理,包括语音和歌曲。
19 0 2025-08-31
UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架

UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架

UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架,专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态,能在单一模型中处理包括图像生成、编辑、定制和合成在内的广泛任务。UniReal将不同...
19 0 2025-08-31
UniFluid – 谷歌联合麻省理工推出的多模态图像生成与理解框架

UniFluid – 谷歌联合麻省理工推出的多模态图像生成与理解框架

UniFluid 是谷歌 DeepMind 和麻省理工学院联合推出的,统一的自回归框架,用在联合视觉生成和理解任务。基于连续视觉标记处理多模态图像和文本输入,生成离散文本标记和连续图像标记。框架基于预训练的 Gemma 模型,用配对的图像-文本数据训练,让生成和理解任务相互促进。UniFluid 基于标准的 SentencePiece 作为文本标记器,用连续变分自编码器(VAE)作为图像生成的标记器,结合 SigLIP 图像编码器用在理解任务。
19 0 2025-08-31
UniEdit – 免训练调优的统一视频编辑框架

UniEdit – 免训练调优的统一视频编辑框架

UniEdit是由浙江大学、微软研究院和北京大学的研究人员推出的一个创新的视频编辑框架,允许用户在不需要进行模型微调的情况下,对视频的运动和外观进行编辑,能够同时处理视频的时间维度(如动作变化)和空间维度(如风格化、物体替换、背景修改)的编辑任务。
18 0 2025-08-31
Unbounded – 谷歌推出的首款AI生成式无限人生模拟游戏

Unbounded – 谷歌推出的首款AI生成式无限人生模拟游戏

Unbounded是谷歌和北卡罗来纳大学教堂山分校共同推出的无限人生模拟游戏。游戏突破传统视频游戏的局限,用生成模型,如大型语言模型(LLM)和视觉生成模型,创造一个没有固定规则和边界的游戏体验。玩家与自己的虚拟角色互动,用自然语言指令引导角色在虚拟世界中探索、互动,形成连贯的故事线。
18 0 2025-08-31
Ultravox – 端到端多模态大模型,直接理解文本和人类语音

Ultravox – 端到端多模态大模型,直接理解文本和人类语音

Ultravox是新型的多模态大型语言模型(LLM),能直接理解文本和人类语音,无需依赖单独的自动语音识别(ASR)阶段。基于多模态投影器技术将音频数据转换为高维空间表示,与LLM直接耦合,显著减少处理延迟,提高响应速度。
16 0 2025-08-31