推理文字题_拜读未来科技摆渡人生

MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理

本文第一作者肖光烜是麻省理工学院电子工程与计算机科学系（MIT EECS）的三年级博士生，师从韩松教授，研究方向为深度学习加速，尤其是大型语言模型（LLM）的加速算法设计。他在清华大学计算机科学与技术系获得本科学位。他的研究工作广受关注，GitHub上的项目累计获得超过9000颗星，并对业界产生了重要影响。他的主要贡献包括SmoothQuant和StreamingLLM，这些技术和理念已被广泛应用，集成到NVIDIA TensorRT-LLM、HuggingFace及Intel Neural Compressor等平台中。本文的指导老师为韩松教授（https://songhan.mit.edu/）

17 0 2025-09-04

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30