neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek的MLA,任意大模型都能轻松迁移了

复旦 NLP 实验室博士后纪焘是这篇文章的第一作者,研究方向为大模型高效推理、多模态大模型,近期代表工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouSi,发表ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。


2 0 2025-09-08
DeepSeek爆火一个月,豆包、Kimi们怎么样了?

DeepSeek爆火一个月,豆包、Kimi们怎么样了?

DeepSeek爆火一个月,豆包、Kimi们怎么样了?

1月20日,前后相隔仅几小时的时间里,深度求索与月之暗面先后发布了技术路径相似的DeepSeek-R1及Kimi K1.5多模态思考模型。


后来,OpenAI在论文里称,这两家中国AI公司同时独立发现了o1(OpenAI o1推理模型)的秘密。


但从结果来看,二者南辕北辙。前者名声大噪,改写全球AI格局,后者却并没有太大声量。


17 0 2025-09-05
DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

RTX 3080 移动版能训练哪种大模型?本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。


自 DeepSeek-R1 发布以来,群组相对策略优化(GRPO)因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM(DeepSeek-v3)的基本指令转变为推理模型(DeepSeek-R1)。

18 0 2025-09-04
刚刚,DeepSeek能看懂猫片了!腾讯混元加持

刚刚,DeepSeek能看懂猫片了!腾讯混元加持

刚刚,DeepSeek能看懂猫片了!腾讯混元加持

DeepSeek能看懂图片了!


今天,腾讯AI助手“腾讯元宝”再次上新——


所接入的DeepSeek能够理解图片信息了。在此之前,DeepSeek主要支持扫描图片中的文字。


刚刚,DeepSeek能看懂猫片了!腾讯混元加持

18 0 2025-09-03
DeepGEMM – DeepSeek 开源的 FP8 通用矩阵乘法库

DeepGEMM – DeepSeek 开源的 FP8 通用矩阵乘法库

DeepGEMM是DeepSeek开源的为高效简洁的FP8矩阵乘法(GEMM)设计的库,目前仅支持NVIDIA Hopper张量核心。DeepGEMM支持普通和混合专家(MoE)分组的GEMM操作,基于即时编译(JIT)技术,无需安装时编译,支持在运行时动态优化。
26 0 2025-08-28
Deepseek背后的伙伴-晶振担当什么角色?

Deepseek背后的伙伴-晶振担当什么角色?

作为DeepSeek智能系统的核心时序引擎,晶振以卓越的时间管理能力,支撑着AI模型的推理、训练与实时响应。在数字世界的交响乐中,每一个音符的精准节拍都离不开隐于幕后的指挥家——晶振。
30 0 2025-08-27