
DeepSeek开源优化并行策略
DeepSeek今日宣布开源优化并行策略,旨在提升V3/R1训练中的计算通信重叠。此次开源包括DualPipe和EPLB两项重要技术。DualPipe是一种双向管道并行算法,用于V3/R1训练中的计算通信重叠。它实现了向后和向后计算通信阶段的
5
0
2025-09-08



Deepmind 重磅开源:消除幻觉,让 LLMs 学会规则库和多步推理
2024 年 12 月,真是大模型的杀疯了的一个月。
前有《智谱 GLM-4V-Flash API 发布即免费》、《Gemini2.0 实时全模态炸场》、《GPT-4o 视频通话对波 Gemini》、《无问芯穹全模态端侧模型开源》,《Kimi 上线了视觉思考,并和海螺、豆包打了一架》...
大模型的的发布固然令人欣喜,但是各类测评也是忙坏了众多 AI 工作者。大模型推理的幻觉问题向来是 AI 测评的重灾区,诸如 9.9>9.11 的经典幻觉问题,各大厂家恨不得直接把问题用 if-else 写进来。

刚刚,DeepSeek开源FlashMLA,推理加速核心技术,Star量飞涨中
上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。
第一个项目,果然与推理加速有关。
北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。


