neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。


然而,对于这些模型的评测多集中于语言上的任务,对于视觉的要求多为简单的物体识别。相对的,计算机视觉最初试图解读图像作为3D场景的投影,而不仅仅处理2D平面“模式”的数组。

17 0 2025-09-03
多模态DeepSeek来了,北大港科联合发布Align-DS-V

多模态DeepSeek来了,北大港科联合发布Align-DS-V

多模态DeepSeek来了,北大港科联合发布Align-DS-V

如何将全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。


在当前AI领域的快速发展中,“强推理慢思考”已经成为主要的发展动向之一,它们深刻影响着研发方向和投资决策。如何将强推理慢思考进一步推广到更多模态甚至是全模态场景,并且确保和人类的价值意图相一致,已成为一个极具前瞻性且至关重要的挑战。

20 0 2025-09-03
多模态LLM多到看不过来?先看这26个SOTA模型吧

多模态LLM多到看不过来?先看这26个SOTA模型吧

多模态LLM多到看不过来?先看这26个SOTA模型吧

多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。


当前 AI 领域的关注重心正从大型语言模型(LLM)向多模态转移,于是乎,让 LLM 具备多模态能力的多模态大型语言模型(MM-LLM)就成了一个备受关注的研究主题。

21 0 2025-09-02
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。现有方法如扩散模型(Diffusion Models)和流匹配(Flow Matching)虽取得了显著进展,但仍面临依赖噪声分布、复杂条件机制等挑战。


近期,Meta 与约翰霍普金斯大学联合推出的 CrossFlow 框架,以全新的技术路径实现了跨模态生成的突破性进展,为生成式 AI 开辟了更高效、更通用的可能性。该文章已经被 CVPR 2025 收录为 Highlight。

23 0 2025-09-01
国内首个自研MoE多模态大模型,揭秘腾讯混元多模态理解

国内首个自研MoE多模态大模型,揭秘腾讯混元多模态理解

国内首个自研MoE多模态大模型,揭秘腾讯混元多模态理解

以 GPT 为代表的大型语言模型预示着数字认知空间中通用人工智能的曙光。这些模型通过处理和生成自然语言,展示了强大的理解和推理能力,已经在多个领域展现出广泛的应用前景。无论是在内容生成、自动化客服、生产力工具、AI 搜索、还是在教育和医疗等领域,大型语言模型都在不断推动技术的进步和应用的普及。


然而,要推动通用人工智能向探索物理世界迈进,第一步便是解决视觉理解问题,即多模态理解大模型。多模态理解让人工智能能够像人类一样,通过多种感官获取和处理信息,从而更全面地理解和互动世界。这一领域的突破将使人工智能在机器人、自动驾驶等方面取得更大的进展,真正实现从数字世界到物理世界的跨越。

21 0 2025-09-01