
字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍
字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍
在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图像更有效率。
然而,现有的Tokenizer通常会将输入图像映射为隐空间的一个降采样后的2D矩阵,这一设计隐式的限制了token与图像之间的映射关系,导致其很难有效的利用图像中的冗余信息(比如相邻的区域经常会有类似的特征)来获得一个更加有效的图像编码。
18
0
2025-09-02