
GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!
GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!
LLM若想高速推理,现如今,连GPU都无法满足了?
曾造出世界最大芯片公司Cerebras,刚刚发布了全球最快的AI推理架构——Cerebras Inference。
运行Llama3.1 8B时,它能以1800 token/s的速率吐出文字。
不论是总结文档,还是代码生成等任务,响应几乎一闪而过,快到让你不敢相信自己的眼睛。

GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!
LLM若想高速推理,现如今,连GPU都无法满足了?
曾造出世界最大芯片公司Cerebras,刚刚发布了全球最快的AI推理架构——Cerebras Inference。
运行Llama3.1 8B时,它能以1800 token/s的速率吐出文字。
不论是总结文档,还是代码生成等任务,响应几乎一闪而过,快到让你不敢相信自己的眼睛。

推理大模型1年内就会撞墙,性能无法再扩展几个数量级 | FrontierMath团队最新研究
一年之内,大模型推理训练可能就会撞墙。
以上结论来自Epoch AI。
这是一个专注于人工智能研究和基准测试的非营利组织,之前名动一时的FrontierMath基准测试(评估AI模型数学推理能力)就出自它家。

OpenAI o1强推理能提升安全性?长对话诱导干翻o1
本文作者来自于上海交大,上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰,导师为马利庄教授,其他作者包括北航研究生李昊,上海 AI Lab 研究员刘东瑞,上海 AI Lab 青年科学家邵婧等。

400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低
22倍加速还不够,再来提升46%,而且方法直接开源!
这就是开源社区改进MIT爆火项目StreamingLLM的最新成果。
StreamingLLM可以在不牺牲生成效果、推理速度的前提下,实现多轮对话共

将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思
“What I cannot create, I do not understand.”---Richard Feynman
尽管多模态大语言模型(MLLM)在简单任务上最近取得了显著进展,但在复杂推理任务中表现仍然不佳。费曼的格言可能是这种现象的完美隐喻:只有掌握推理过程的每一步,才能真正解决问题。然而,当前的 MLLM 更擅长直接生成简短的最终答案,缺乏中间推理能力。本篇文章旨在开发一种通过学习创造推理过程中每个中间步骤直至最终答案的 MLLM,以实现问题的深入理解与解决。