
关于LLM-as-a-judge范式,终于有综述讲明白了
关于LLM-as-a-judge范式,终于有综述讲明白了
评估和评价长期以来一直是人工智能 (AI) 和自然语言处理 (NLP) 中的关键挑战。然而,传统方法,无论是基于匹配还是基于词嵌入,往往无法判断精妙的属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展启发了 “LLM-as-a-judge” 范式,其中 LLM 被用于在各种任务和应用程序中执行评分、排名或选择。本文对基于 LLM 的判断和评估进行了全面的调查,为推动这一新兴领域的发展提供了深入的概述。我们首先从输入和输出的角度给出详细的定义。然后,我们介绍一个全面的分类法,从三个维度探索 LLM-as-a-judge:评判什么(what to judge)、如何评判(how to judge)以及在哪里评判(where to judge)。最后,我们归纳了评估 LLM 作为评判者的基准数据集,并强调了关键挑战和有希望的方向,旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。
16
0
2025-09-01