deepkey_拜读未来科技摆渡人生

DeepSeek的MLA，任意大模型都能轻松迁移了

复旦 NLP 实验室博士后纪焘是这篇文章的第一作者，研究方向为大模型高效推理、多模态大模型，近期代表工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouSi，发表ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。

2 0 2025-09-08

刚刚，DeepSeek 开源 DeepSeek-Prover-V2-671B 新模型

就在刚刚，DeepSeek 在全球最大 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。

刚刚，DeepSeek 开源 DeepSeek-Prover-V2-671B 新模型

7 0 2025-09-07

DeepSeek爆火一个月，豆包、Kimi们怎么样了？

1月20日，前后相隔仅几小时的时间里，深度求索与月之暗面先后发布了技术路径相似的DeepSeek-R1及Kimi K1.5多模态思考模型。

后来，OpenAI在论文里称，这两家中国AI公司同时独立发现了o1（OpenAI o1推理模型）的秘密。

但从结果来看，二者南辕北辙。前者名声大噪，改写全球AI格局，后者却并没有太大声量。

17 0 2025-09-05

DeepSeek终于丢了开源第一王座，但继任者依然来自中国

几千人盲投，Kimi K2超越DeepSeek拿下全球开源第一！

歪果网友们直接炸了，评论区秒变夸夸打卡现场：

DeepSeek终于丢了开源第一王座，但继任者依然来自中国

14 0 2025-09-05

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

DeepSeek版o1，有消息了。

还未正式发布，已在代码基准测试LiveCodeBench霸榜前三，表现与OpenAI o1的中档推理设置相当。

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

24 0 2025-09-04

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

RTX 3080 移动版能训练哪种大模型？本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。

自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。

18 0 2025-09-04

「DeepSeek二代」来袭！数学暴击o3，英伟达开源LLM登顶

17 0 2025-09-04

DeepSeek-V3巧取捷径？

18 0 2025-09-03

刚刚，DeepSeek能看懂猫片了！腾讯混元加持

DeepSeek能看懂图片了！

今天，腾讯AI助手“腾讯元宝”再次上新——

所接入的DeepSeek能够理解图片信息了。在此之前，DeepSeek主要支持扫描图片中的文字。

刚刚，DeepSeek能看懂猫片了！腾讯混元加持

18 0 2025-09-03

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点，读完会对 GRPO 及其改进算法有更深的理解，进而启发构建推理模型的新思路。

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

17 0 2025-09-02

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

DeepSeek的MLA，任意大模型都能轻松迁移了

刚刚，DeepSeek 开源 DeepSeek-Prover-V2-671B 新模型

DeepSeek爆火一个月，豆包、Kimi们怎么样了？

DeepSeek终于丢了开源第一王座，但继任者依然来自中国

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

「DeepSeek二代」来袭！数学暴击o3，英伟达开源LLM登顶

DeepSeek-V3巧取捷径？

刚刚，DeepSeek能看懂猫片了！腾讯混元加持

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

DeepGEMM – DeepSeek 开源的 FP8 通用矩阵乘法库

NVIDIA Blackwell GPU优化DeepSeek-R1性能打破DeepSeek-R1在最小延迟场景中的性能纪录

Deepseek进入业务深水区，为什么需要昇腾大EP？

Deepseek背后的伙伴-晶振担当什么角色？

DeepSeek热度飙升,SCTF致敬并携手共进