AI工具第9页_拜读未来科技摆渡人生

mPLUG-baidu09Owl3 – 阿里巴巴推出的通用多模态AI模型

mPLUG-Owl3是阿里巴巴推出的先进通用多模态大模型，专为理解和处理多图及长视频设计。在保持准确性的同时，显著提升了推理效率，能在4秒内分析完2小时电影。

18 0 2025-08-31

mPLUG-baidu09DocOwl2 – 阿里推出多页文档理解的多模态大模型，单页仅需324个token

mPLUG-DocOwl 2是由阿里巴巴通义实验室mPLUG团队推出的用于多页文档理解的多模态大型语言模型。在不依赖光学字符识别（OCR）技术的情况下，通过高分辨率文档图像压缩技术，实现对文档图片的高效理解和处理。

19 0 2025-08-31

mPLUG-baidu09DocOwl 1.5 – 阿里开源的多模态大型语言模型

mPLUG-DocOwl 1.5是由阿里巴巴集团推出的多模态大型语言模型，专注于OCR-free（无需光学字符识别）的文档理解。模型基于统一结构学习，强化对文本丰富图像如文档、表格和图表的结构信息理解能力。

19 0 2025-08-31

llmware – 专为企业级应用设计的开源统一框架

llmware是为企业级应用设计的统一框架，适用于构建基于小型、专门化模型的RAG（Retrieval-Augmented Generation）流程。llmware支持私有部署，能安全集成企业知识源，针对业务流程进行成本效益的调整和优化。

21 0 2025-08-31

libcom – 上海交大推出开源的图像合成问题解决工具

libcom 是一个由上海交通大学 (BCMI) 实验室推出的图像合成工具箱。旨在解决前景和背景之间的不一致性问题，如外观、几何和语义上的不匹配，生成逼真的合成图像。

20 0 2025-08-31

kimi-baidu09thinking-baidu09preview – 月之暗面推出的多模态思考模型

kimi-thinking-preview 是月之暗面推出的多模态思考模型，具备深度推理能力，擅长解决复杂问题，如代码、数学和工作难题。模型基于 reasoning_content 字段展示推理过程，帮助用户理解回答背后的逻辑。

20 0 2025-08-31

k2 – 月之暗面 Kimi 最新开源的 MoE 架构基础模型

k2是月之暗面Kimi推出的具备超强代码和 Agent 能力的 MoE 架构基础模型，总参数 1T，激活参数 32B。在通用知识推理、编程、数学、Agent 等主要类别的基准性能测试中，K2 模型的性能超过其他主流开源模型。

18 0 2025-08-31

k1.5 – Kimi推出的多模态思考模型

k1.5 是月之暗面科技推出的最新多模态思考模型，具备强大的推理和多模态处理能力。模型在 short-CoT（短链思维）模式下，数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet，领先幅度高达 550%。

19 0 2025-08-31

k1 视觉思考模型 – kimi推出的 k1 系列强化学习模型

k1 视觉思考模型是kimi推出的k1系列强化学习AI模型，原生支持端到端图像理解和思维链技术，将能力扩展到数学之外的更多基础科学领域。k1模型在图像理解、数学、物理、化学等学科的基准测试中表现优异，超过全球多个标杆模型（如OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet）。k1 视觉思考模型能直接处理图像信息进行思考得出答案，无需借助外部OCR或视觉模型，提供完整的推理思维链，让用户看到模型思索答案的全过程。

19 0 2025-08-31

k0-baidu09math – 月之暗面Kimi推出的数学推理模型，对标o1

k0-math是月之暗面推出的最新数学推理模型，主打深入思考能力。在MATH、中考、高考、考研等数学基准测试中，k0-math的成绩超过OpenAI的o1系列模型。模型基于不断探索和试错解决数学问题，即使在简单问题上也会进行反复思考和验证，展现深入分析和推理的能力。

18 0 2025-08-31

iFlow CLI – 心流AI团队推出的能在终端运行的AI Agent

iFlow CLI 是心流AI团队推出的能运行在终端的 AI 智能体，专为开发者和高效工作者设计。iFlow CLI支持自然语言交互，能快速分析代码、生成文档、调试程序、管理文件、查询信息等。

18 0 2025-08-31

iDP3 – 斯坦福大学联合多所高校推出的改进型3D视觉运动策略

iDP3（Improved 3D Diffusion Policy）是斯坦福大学联合多所高校推出的3D视觉运动策略，能提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同，iDP3基于自我中心的3D视觉表征，摒弃对精确相机校准和点云分割的需求，让机器人能灵活地在真实世界中执行任务。

20 0 2025-08-31

iAgents – 清华大学推出的多AI智能体协作框架

iAgents是清华大学推出的多AI智能体协作框架，基于为每个用户配备个人AI智能体促进协作和完成日常任务。智能体能理解用户的文件、命令，从协作中学习，实现自动的信息交换和任务解决。iAgents用infoNav推理机制指导智能体在信息不对称的情况下进行有效沟通，提高团队协作效率并推动AI技术的前沿发展。

20 0 2025-08-31

hunyuan-baidu09large-baidu09vision – 腾讯混元推出的多模态视觉理解模型

hunyuan-large-vision 是腾讯推出的多模态理解模型，基于MoE架构，激活参数达52B，支持图像、视频和3D空间输入。模型在国际知名的大模型竞技场“LMArena Vision排行榜”上取得1256分，位列第五名（国内模型第一名），展现了卓越的多语言能力和用户体验。

17 0 2025-08-31

gpt-baidu09oss – OpenAI开源的推理模型系列

GPT-OSS 是 OpenAI 推出的开源推理模型系列，包含 gpt-oss-120b 和 gpt-oss-20b 两个版本。gpt-oss-120b 拥有1170亿参数，激活参数约51亿，能在单张 80GB GPU 上运行；gpt-oss-20b 拥有210亿参数，激活参数约36亿，能在 16GB 内存的消费级设备（如笔记本或手机）上运行。

18 0 2025-08-31

‹‹ ‹ 5 6 7 8 9 10 11 12 13 14 › ››

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30