neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

在生成式模型的迅速发展中，Image Tokenization 扮演着一个很重要的角色，例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间（latent space），使得生成高分辨率图像更有效率。

然而，现有的Tokenizer通常会将输入图像映射为隐空间的一个降采样后的2D矩阵，这一设计隐式的限制了token与图像之间的映射关系，导致其很难有效的利用图像中的冗余信息（比如相邻的区域经常会有类似的特征）来获得一个更加有效的图像编码。

18 0 2025-09-02

‹‹ 1 ››

您好，欢迎到访网站！
查看权限