GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器,还有4o图像生成全面测评基准 GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器,还有4o图像生成全面测评基准 GPT-4o图像生成架构被“破解”了!最近一阵, 17 0 2025-09-04
Kandinsky-baidu093 – 开源的文本到图像生成框架,适应多种图像生成任务 Kandinsky-3是基于潜在扩散模型的文本到图像(T2I)生成框架,以高质量和逼真度在图像合成领域脱颖而出。Kandinsky-3能适应多种图像生成任务,包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等。研究者们推出一个简化版本的T2I模型版本,该版本在保持图像质量的同时,将推理速度提高3倍,仅需4步逆向过程即可完成。 19 0 2025-08-29
Illustrious – 开源文本到图像生成模型,专注于生成高质量动漫风格图像 Illustrious是开源的文本到图像动漫图像生成模型,是Onoma AI Research推出的。基于优化批量大小、dropout控制、训练图像分辨率和多级标题等关键方法,实现高分辨率、动态色域和高还原能力的图像生成。模型在动画风格的表现上超越如Stable Diffusion XL和其他一些广泛使用的动漫图像生成模型,并支持易于定制和个性化的开源特性。 19 0 2025-08-29