港大icb百科_拜读未来科技摆渡人生

VLN-baidu09R1 – 港大联合上海AI lab推出的具身智能框架

VLN-R1是香港大学和上海人工智能实验室联合推出的全新具身智能框架，基于大型视觉语言模型（LVLM）直接将第一人称视频流转换为连续的导航动作。框架基于Habitat 3D模拟器构建VLN-Ego数据集，用长短期记忆采样策略平衡历史和当前观测。

24 0 2025-08-31

UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架

UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架，专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态，能在单一模型中处理包括图像生成、编辑、定制和合成在内的广泛任务。UniReal将不同...

20 0 2025-08-31

PixelFlow – 港大联合 Adobe 推出的图像生成模型

PixelFlow 是香港大学和Adobe联合推出的图像生成模型，支持直接在像素空间中生成图像。PixelFlow基于高效的级联流建模，从低分辨率逐步提升到高分辨率，显著降低计算成本。PixelFlow 在 256×256 ImageNet 类别条件图像生成任务中达到 1.98 的 FID 分数，展现出色的图像质量和语义控制能力。

20 0 2025-08-30

ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型

ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型，解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。将物体移动视为两帧视频的特殊案例，利用预训练视频生成模型的跨帧一致性学习能力，通过微调模型将其迁移到图像编辑任务。

24 0 2025-08-30

GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

GigaTok 是用于自回归图像生成的视觉分词器，参数量达 30 亿。通过语义正则化技术，将分词器特征与预训练视觉编码器（如 DINOv2）的语义特征对齐，有效约束潜在空间复杂度，解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。

25 0 2025-08-29

‹‹ 1 ››

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30