
DeepSeek的MLA,任意大模型都能轻松迁移了
DeepSeek的MLA,任意大模型都能轻松迁移了
复旦 NLP 实验室博士后纪焘是这篇文章的第一作者,研究方向为大模型高效推理、多模态大模型,近期代表工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouSi,发表ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。

DeepSeek的MLA,任意大模型都能轻松迁移了
复旦 NLP 实验室博士后纪焘是这篇文章的第一作者,研究方向为大模型高效推理、多模态大模型,近期代表工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouSi,发表ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。

刚刚,DeepSeek 开源 DeepSeek-Prover-V2-671B 新模型
就在刚刚,DeepSeek 在全球最大 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。


DeepSeek爆火一个月,豆包、Kimi们怎么样了?
1月20日,前后相隔仅几小时的时间里,深度求索与月之暗面先后发布了技术路径相似的DeepSeek-R1及Kimi K1.5多模态思考模型。
后来,OpenAI在论文里称,这两家中国AI公司同时独立发现了o1(OpenAI o1推理模型)的秘密。
但从结果来看,二者南辕北辙。前者名声大噪,改写全球AI格局,后者却并没有太大声量。

DeepSeek终于丢了开源第一王座,但继任者依然来自中国
几千人盲投,Kimi K2超越DeepSeek拿下全球开源第一!
歪果网友们直接炸了,评论区秒变夸夸打卡现场:


DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键
DeepSeek版o1,有消息了。
还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。


DeepSeek用的GRPO占用大量内存?有人给出了些破解方法
RTX 3080 移动版能训练哪种大模型?本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。
自 DeepSeek-R1 发布以来,群组相对策略优化(GRPO)因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM(DeepSeek-v3)的基本指令转变为推理模型(DeepSeek-R1)。

「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶


DeepSeek-V3巧取捷径?


刚刚,DeepSeek能看懂猫片了!腾讯混元加持
DeepSeek能看懂图片了!
今天,腾讯AI助手“腾讯元宝”再次上新——
所接入的DeepSeek能够理解图片信息了。在此之前,DeepSeek主要支持扫描图片中的文字。


DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点,读完会对 GRPO 及其改进算法有更深的理解,进而启发构建推理模型的新思路。





