neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

CVPR 25 -全面提升视觉感知鲁棒性,生成模型快速赋能三维检测

CVPR 25 -全面提升视觉感知鲁棒性,生成模型快速赋能三维检测

CVPR 25 |全面提升视觉感知鲁棒性,生成模型快速赋能三维检测

论文第一作者林宏彬来自香港中文大学(深圳)理工学院的Deep Bit 实验室、深圳市未来智联网络研究院,导师为李镇老师。目前实验室的研究方向包括:自动驾驶、医学成像和分子理解的多模态数据分析和生成等。


随着新能源汽车产业的持续发展,智能驾驶辅助技术的应用越来越广泛。其中,基于纯视觉的自动驾驶方案只需使用多视角图像进行环境感知与分析,具有成本低、效率高的优势,因而备受关注。然而在实际应用中,视觉感知模型的泛化能力至关重要。

19 0 2025-09-03
CVPR 2025:无需物理引擎,一个模型搞定图像渲染与分解

CVPR 2025:无需物理引擎,一个模型搞定图像渲染与分解

CVPR 2025:无需物理引擎,一个模型搞定图像渲染与分解

无需物理引擎,单个模型也能实现“渲染+逆渲染”了!


在计算机图形和视觉领域,渲染是指将3D模型变成逼真的2D图片,逆渲染则是从2D图片分析出3D模型的各种属性(如材质、光照等)。


现在,从材质分解(逆渲染)——材质编辑——物体渲染的整个流程,都被统一到了一个框架中,且在性能方面达到了新SOTA。

22 0 2025-09-02
CVPR 2025 - 多模态统一学习新范式来了,数据、模型、代码全部开源

CVPR 2025 - 多模态统一学习新范式来了,数据、模型、代码全部开源

CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源

我们人类生活在一个充满视觉和音频信息的世界中,近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力,衍生出了多种不同类型的任务,它们分别要求模型具备不同层面的能力。


过去大量的工作主要聚焦于完成单一任务,相比之下,我们人类对周围复杂的的世界具有一个通用的感知理解能力。因此,如何设计一个像人类一样对视听场景具有通用理解能力的模型是未来通往 AGI 道路上一个极其重要的问题。

18 0 2025-09-01
CVPR 2024 - 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

CVPR 2024 - 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了 3D 场景编辑方法 ——CustomNeRF,同时支持文本描述和参考图像作为 3D 场景的编辑提示,该研究成果已被 CVPR 2024 接收。

21 0 2025-09-01
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原

CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原

CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原

视频人物抠像技术在电影、游戏、短视频制作和实时视频通讯中具有广泛的应用价值,但面对复杂背景和多目标干扰时,如何实现一套兼顾发丝级细节精度及分割级语义稳定的视频抠图系统,始终是个挑战。


来自南洋理工大学 S-Lab 与商汤科技的研究团队最新提出了一个高效、稳定、实用的视频抠图新方法 ——

17 0 2025-09-01