neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失

中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失

中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失

在视觉强化学习中,许多方法未考虑序列决策过程,导致所学表征缺乏关键的长期信息的空缺被填补上了。


来自中科大的研究人员在信息瓶颈(Information Bottleneck)框架下,提出了一种新颖的鲁棒动作价值表征学习方法ROUSER


作者从理论上证明了ROUSER能够使用学习到的鲁棒表征准确估计动作价值

4 0 2025-09-08
SocraticLM – 中科大和科大讯飞共同推出的苏格拉底教学大模型

SocraticLM – 中科大和科大讯飞共同推出的苏格拉底教学大模型

SocraticLM 是通过苏格拉底式的教学法来教授数学的创新人工智能模型,模型由中科大和科大讯飞共同开发,采用了“Thought-Provoking”教学范式,通过提问引导学生主动思考和解决问题。SocraticLM 在名为 SocraTeach 的数据集上进行了微调,该数据集包含 35,000 个精心设计的多轮教学对话,模拟了真实的教学场景。
19 0 2025-08-30
QA-baidu09MDT – 中科大联合科大讯飞推出开源音乐生成模型

QA-baidu09MDT – 中科大联合科大讯飞推出开源音乐生成模型

QA-MDT(Quality-aware Masked Diffusion Transformer)是由中国科学技术大学和科大讯飞联合推出的开源音乐生成模型。模型基于文本描述生成高质量且音乐性强的音乐,创新的质量感知训练策略,在训练过程中识别并提升音乐波形的质量。
21 0 2025-08-30