AI 第10页_拜读未来科技摆渡人生

k0-baidu09math – 月之暗面Kimi推出的数学推理模型，对标o1

k0-math是月之暗面推出的最新数学推理模型，主打深入思考能力。在MATH、中考、高考、考研等数学基准测试中，k0-math的成绩超过OpenAI的o1系列模型。模型基于不断探索和试错解决数学问题，即使在简单问题上也会进行反复思考和验证，展现深入分析和推理的能力。

18 0 2025-08-31

iFlow CLI – 心流AI团队推出的能在终端运行的AI Agent

iFlow CLI 是心流AI团队推出的能运行在终端的 AI 智能体，专为开发者和高效工作者设计。iFlow CLI支持自然语言交互，能快速分析代码、生成文档、调试程序、管理文件、查询信息等。

17 0 2025-08-31

iDP3 – 斯坦福大学联合多所高校推出的改进型3D视觉运动策略

iDP3（Improved 3D Diffusion Policy）是斯坦福大学联合多所高校推出的3D视觉运动策略，能提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同，iDP3基于自我中心的3D视觉表征，摒弃对精确相机校准和点云分割的需求，让机器人能灵活地在真实世界中执行任务。

20 0 2025-08-31

iAgents – 清华大学推出的多AI智能体协作框架

iAgents是清华大学推出的多AI智能体协作框架，基于为每个用户配备个人AI智能体促进协作和完成日常任务。智能体能理解用户的文件、命令，从协作中学习，实现自动的信息交换和任务解决。iAgents用infoNav推理机制指导智能体在信息不对称的情况下进行有效沟通，提高团队协作效率并推动AI技术的前沿发展。

20 0 2025-08-31

hunyuan-baidu09large-baidu09vision – 腾讯混元推出的多模态视觉理解模型

hunyuan-large-vision 是腾讯推出的多模态理解模型，基于MoE架构，激活参数达52B，支持图像、视频和3D空间输入。模型在国际知名的大模型竞技场“LMArena Vision排行榜”上取得1256分，位列第五名（国内模型第一名），展现了卓越的多语言能力和用户体验。

17 0 2025-08-31

gpt-baidu09oss – OpenAI开源的推理模型系列

GPT-OSS 是 OpenAI 推出的开源推理模型系列，包含 gpt-oss-120b 和 gpt-oss-20b 两个版本。gpt-oss-120b 拥有1170亿参数，激活参数约51亿，能在单张 80GB GPU 上运行；gpt-oss-20b 拥有210亿参数，激活参数约36亿，能在 16GB 内存的消费级设备（如笔记本或手机）上运行。

18 0 2025-08-31

gpt-baidu094o-baidu09transcribe – OpenAI 推出的语音转文本模型

gpt-4o-transcribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构，用海量多样化音频数据训练，精准捕捉语音细微差别，显著降低单词错误率（WER），优于前代 Whisper 模型。模型支持多种语言和方言，适合处理口音多样、环境嘈杂、语速变化等复杂场景，如呼叫中心、会议记录等。

18 0 2025-08-31

gpt-baidu094o-baidu09mini-baidu09transcribe – OpenAI 推出的语音转文本模型

gpt-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型，gpt-4o-transcribe的精简版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架构，用知识蒸馏技术从大模型中转移能力，实现更小的模型体积和更高的运行效率，适合在资源受限的设备（如移动设备或嵌入式系统）上运行，满足实时性要求较高的应用场景。

19 0 2025-08-31

edge-baidu09tts – 开源的AI文字转语音项目

edge-tts是开源的AI文字转语音项目，支持超过40种语言和300多种声音。edge-tts利用微软Azure Cognitive Services的强大功能，能将文本信息转换成流畅自然的语音输出。edge-tts特别适合开发者在应用程序中集成语音功能，提供了丰富的语言和声音选择，能满足多样化的语音合成需求。

18 0 2025-08-31

ebook2audiobookXTTS – 开源电子书转有声书 AI 工具，支持16种语言

ebook2audiobookXTTS是开源的AI工具，能将电子书转换为有声书。ebook2audiobookXTTS支持多种电子书格式，如epub、pdf、mobi等，用Coqui XTTS技术实现高质量的文本到语音转换。工具支持16种语言，操作简便，提供命令行、Web界面和Docker容器等多种使用方式。

16 0 2025-08-31

easegen – AI数字人课程制作平台，智能课件自动批量生成

easegen是一个开源的AI+数字人课程制作项目，集成课程制作、视频管理、智能课件生成到智能出题的全套方案。项目支持PPT课件的批量自动生成、数字人克隆、声音克隆及数字人课程设计和视频渲染等功能。

17 0 2025-08-31

eSearch – 开源的AI桌面应用，截屏、OCR、搜索、翻译、录屏

eSearch是一款开源的跨平台AI桌面应用，集成了截屏、OCR识别、搜索翻译、贴图、以图搜图和屏幕录制等功能。eSearch基于Electron框架开发，适用于Linux、Windows和macOS系统。用户可以通过快捷键快速截取屏幕，进行文字识别，搜索翻译，或录制屏幕操作。

20 0 2025-08-31

dots.vlm1 – 小红书hi lab开源的首个多模态大模型

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型（LLM），具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色，接近闭源 SOTA 模型水平，在文本任务上也保持了竞争力。

15 0 2025-08-31

dots.llm1 – 小红书hi lab开源的文本大模型

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts（MoE）文本大模型，具有 1420 亿参数，激活参数为 140 亿。模型在 11.2T 高质量 token 数据上进行预训练，用高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 优化技术，训练效率显著提升。

20 0 2025-08-31

cpmGO – 面壁智能推出的首个纯端侧汽车智能助手

cpmGO （小钢炮超级助手）是面壁智能推出的全球首个纯端侧智能助手，专为汽车智能座舱设计。cpmGO 基于面壁小钢炮MiniCPM 端侧模型开发，具备视觉、语音、多模态交互、图形UI交互等丰富能力，实现舱外至舱内的全链条感知、决策与执行。

17 0 2025-08-31

‹‹ ‹ 6 7 8 9 10 11 12 13 14 15 › ››

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30