
ICML 2025 Oral - 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下,“安全对齐”不再只是一个选项,而是每一位模型开发者与AI落地者都必须正面应对的挑战。然而,如今广泛采用的对齐方式,往往只是让模型在检测到风险提示时机械地回复一句“很抱歉,我无法满足你的请求”——这种表面看似“安全”的机制,实则脆弱不堪。ICLR 2025 杰出论文首次将这类方法命名为
19
0
2025-09-01