neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。


然而,对于这些模型的评测多集中于语言上的任务,对于视觉的要求多为简单的物体识别。相对的,计算机视觉最初试图解读图像作为3D场景的投影,而不仅仅处理2D平面“模式”的数组。

17 0 2025-09-03
全模态RAG突破文本局限,港大构建跨模态一体化系统

全模态RAG突破文本局限,港大构建跨模态一体化系统

全模态RAG突破文本局限,港大构建跨模态一体化系统

突破传统检索增强生成(RAG)技术的单一文本局限,实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解。


香港大学黄超教授团队开源多模态智能处理系统RAG-Anything,将碎片化的信息孤岛转化为结构化的知识网络,为智能多模态文档分析开辟了全新技术路径。


全模态RAG突破文本局限,港大构建跨模态一体化系统

20 0 2025-09-02
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。现有方法如扩散模型(Diffusion Models)和流匹配(Flow Matching)虽取得了显著进展,但仍面临依赖噪声分布、复杂条件机制等挑战。


近期,Meta 与约翰霍普金斯大学联合推出的 CrossFlow 框架,以全新的技术路径实现了跨模态生成的突破性进展,为生成式 AI 开辟了更高效、更通用的可能性。该文章已经被 CVPR 2025 收录为 Highlight。

22 0 2025-09-01