neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

在人工智能领域,具有挑战性的模拟环境对于推动多智能体强化学习(MARL)领域的发展至关重要。在合作式多智能体强化学习环境中,大多数算法均通过星际争霸多智能体挑战(SMAC)作为实验环境来验证算法的收敛和样本利用率。然而随着 MARL 算法的不断进步,很多算法在 SMAC 环境上均表现出接近最优的性能,这使得对算法的真实有效性的评估变得更为复杂。尽管 SMACv2 环境在任务初始化时采用概率生成的方式以削弱开环控制的特性,但是两个环境均是以默认的、单一的、且确定的脚本作为对手脚本。这使得智能体学习到的策略模型更容易过拟合到某一个对手策略,或利用对手策略的漏洞而拟合到取巧方法上。

16 0 2025-09-03