
ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术
ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术
如果我们的教科书里包含大量的污言秽语,那么我们能学好语言吗?这种荒唐的问题却出现在最先进 ChatGPT 系列模型的学习过程中。
来自清华大学、南洋理工大学和蚂蚁集团的研究人员发现,GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%,甚至同时包含「波*野结衣」、「*野结衣」、「*野结」、「*野」、「大发时时彩」、「大发快三」、「大发」等色情、赌博相关词元
15
0
2025-09-03