neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

不分割成token,直接从字节中高效学习,Mamba原来还能这样用

不分割成token,直接从字节中高效学习,Mamba原来还能这样用

不分割成token,直接从字节中高效学习,Mamba原来还能这样用

给出一句「Hello, world!」你要怎么把它喂给 AI 模型?目前常见的方法是利用某种算法将它分为若干 token,比如 ["Hello", ",", "world", "!"]。模型通过学习这些 token 的上下文关系以及如何组合它们来表示原始文本或预测下一个 token。但这种方法依赖于有效的 token 分割算法,而且可能无法很好地处理新词、专有名词或非标准用法。因此,不少研究者也在尝试另一种方法:直接让模型从字节中学习。在 Mamba 问世之后,这条路似乎有希望了。

16 0 2025-09-03
逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse

逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse

逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse

原生并行生成不仅仅是加速,它是我们对 LLM 推理思考方式的根本转变。


众所周知,大语言模型的参数量越来越大,算力需求也越来越可怕,然而因为「祖宗之法」,推理只能一个一个 token 按顺序来。


对此,卡耐基梅隆大学(CMU)Infini-Al-Lab 的研究人员拿出了「多元宇宙」Multiverse,这是一个全新的生成式建模框架,支持原生的并行生成。

18 0 2025-09-03
低Token高精度!字节复旦推出自适应推理框架CAR

低Token高精度!字节复旦推出自适应推理框架CAR

低Token高精度!字节复旦推出自适应推理框架CAR

过度依赖CoT思维链推理会降低模型性能,有新解了!


来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。


低Token高精度!字节复旦推出自适应推理框架CAR

19 0 2025-09-01