
RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
如果说,RLHF中的「人类」被取代,可行吗?
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。
15
0
2025-09-03

RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
如果说,RLHF中的「人类」被取代,可行吗?
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。