
扩散模型版CS- GO!世界模型+强化学习:2小时训练登顶Atari 100K
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K
环境生成模型(generative models of environments),也可以叫世界模型(world model),在「通用智能体规划」和「推理环境」中的关键组成部分,相比传统强化学习采样效率更高。
但世界模型主要操作一系列离散潜在变量(discrete latent variables)以模拟环境动态,但这种压缩紧凑的离散表征有可能会忽略那些在强化学习中很重要的视觉细节。
14
0
2025-09-03

