模态提升_拜读未来科技摆渡人生

14 项任务测下来，GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力？

2023-2024年，以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型（Multimodal LLMs）已经在文本和图像等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。

然而，对于这些模型的评测多集中于语言上的任务，对于视觉的要求多为简单的物体识别。相对的，计算机视觉最初试图解读图像作为3D场景的投影，而不仅仅处理2D平面“模式”的数组。

17 0 2025-09-03

突破传统检索增强生成（RAG）技术的单一文本局限，实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解。

香港大学黄超教授团队开源多模态智能处理系统RAG-Anything，将碎片化的信息孤岛转化为结构化的知识网络，为智能多模态文档分析开辟了全新技术路径。

全模态RAG突破文本局限，港大构建跨模态一体化系统

20 0 2025-09-02

在人工智能领域，跨模态生成（如文本到图像、图像到文本）一直是技术发展的前沿方向。现有方法如扩散模型（Diffusion Models）和流匹配（Flow Matching）虽取得了显著进展，但仍面临依赖噪声分布、复杂条件机制等挑战。

近期，Meta 与约翰霍普金斯大学联合推出的 CrossFlow 框架，以全新的技术路径实现了跨模态生成的突破性进展，为生成式 AI 开辟了更高效、更通用的可能性。该文章已经被 CVPR 2025 收录为 Highlight。

22 0 2025-09-01

‹‹ 1 ››