
DeepSeek开源优化并行策略
DeepSeek今日宣布开源优化并行策略,旨在提升V3/R1训练中的计算通信重叠。此次开源包括DualPipe和EPLB两项重要技术。DualPipe是一种双向管道并行算法,用于V3/R1训练中的计算通信重叠。它实现了向后和向后计算通信阶段的
5
0
2025-09-08


刚刚,DeepSeek 开源 DeepSeek-Prover-V2-671B 新模型
就在刚刚,DeepSeek 在全球最大 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。



DeepSeek开源放大招:FlashMLA让H800算力狂飙!曝光低成本秘笈
就在刚刚,DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。
这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。
经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。

刚刚,DeepSeek开源FlashMLA,推理加速核心技术,Star量飞涨中
上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。
第一个项目,果然与推理加速有关。
北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。

DeepSeek-V2.5 是DeepSeek推出的融合通用与代码能力的全新开源模型。保留了之前 Chat 模型的通用对话能力以及 Coder 模型的代码处理能力,更好地对齐了人类的偏好,并且在写作任务、指令跟随等多个方面实现了显著的提升。DeepSeek-V2.5 现在可以通过网页端和 API 全面使用,已开源至HuggingFace,便于开发者使用和二次开发。




