
GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!
GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!
LLM若想高速推理,现如今,连GPU都无法满足了?
曾造出世界最大芯片公司Cerebras,刚刚发布了全球最快的AI推理架构——Cerebras Inference。
运行Llama3.1 8B时,它能以1800 token/s的速率吐出文字。
不论是总结文档,还是代码生成等任务,响应几乎一闪而过,快到让你不敢相信自己的眼睛。
18
0
2025-09-03