neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

VLN-baidu09R1 – 港大联合上海AI lab推出的具身智能框架

VLN-baidu09R1 – 港大联合上海AI lab推出的具身智能框架

VLN-R1是香港大学和上海人工智能实验室联合推出的全新具身智能框架,基于大型视觉语言模型(LVLM)直接将第一人称视频流转换为连续的导航动作。框架基于Habitat 3D模拟器构建VLN-Ego数据集,用长短期记忆采样策略平衡历史和当前观测。
24 0 2025-08-31
GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

GigaTok 是用于自回归图像生成的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜在空间复杂度,解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。
25 0 2025-08-29