
中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失
中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失
在视觉强化学习中,许多方法未考虑序列决策过程,导致所学表征缺乏关键的长期信息的空缺被填补上了。
来自中科大的研究人员在信息瓶颈(Information Bottleneck)框架下,提出了一种新颖的鲁棒动作价值表征学习方法ROUSER。
作者从理论上证明了ROUSER能够使用学习到的鲁棒表征准确估计动作价值
4
0
2025-09-08