视觉slam ba_拜读未来科技摆渡人生

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

Transformer 在大模型领域的地位可谓是难以撼动。不过，这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后，局限性也愈发凸显了。Mamba的出现，正在强力改变着这一切。

17 0 2025-09-04

在 AI 领域，近年来各个子领域都逐渐向 transformer 架构靠拢，只有文生图和文生视频一直以 diffusion + u-net 结构作为主流方向。diffusion 有更公开可用的开源模型，消耗的计算资源也更少。

不过，最近视频生成领域也出现了效果惊艳、基于大语言模型架构的成果——VideoPoet，让大众看到了 transformer 和 LLM 在视频生成领域的强大可能性。

14 0 2025-09-02