什麼是 AI 幻覺

就像面對難題的學生,大型語言模型在不確定時會猜測,產生貌似可信卻不正確的陳述。這種現象被稱為「幻覺」,它嚴重破壞了我們對 AI 的信任。

試試看!問一個模型它可能不知道答案的問題:

「某位AI研究員的生日是哪天?」

模型回應 1: 03-07

模型回應 2: 15-06

模型回應 3: 01-01

(事實上,正確日期是在秋天。以上皆為幻覺。)

探究根本原因:幻覺的雙重起源

報告指出,AI幻覺並非神秘現象。它的根源深植於模型的訓練與評估方式中。我們可以將其分為兩個階段來理解:錯誤如何在「預訓練」中誕生,又為何在「後訓練」中持續存在。

Part A: 預訓練 — 錯誤的統計起源

在預訓練階段,即使訓練資料完全正確,模型為了學習語言的統計規律,也會自然地產生錯誤。這可以理解為一個「這是否有效?」(Is-It-Valid, IIV) 的二元分類問題。如果模型無法準確區分事實與謬誤,它在生成內容時就必然會產生幻覺。

主要錯誤因素:

  • 任意事實: 對於訓練數據中缺乏規律、僅出現一次的事實(如個人生日),模型很難學習,幻覺率接近於這些「單例」事實的比例。
  • 劣質模型: 模型的架構不適合處理某些任務(例如,用處理詞彙的模型去數字符),導致系統性錯誤。
  • 垃圾進,垃圾出 (GIGO): 訓練資料中本身存在的錯誤會被模型學習並複製。

Part B: 後訓練 — 評估的陷阱

在後訓練階段,模型會根據人類偏好進行微調。然而,目前主流的評估標準大多採用「二元評分」(答對得1分,答錯或不答得0分)。這種機制無形中鼓勵模型在不確定時去「猜測」,而不是誠實地回答「我不知道」(IDK)

在二元評分下,只要猜對的機率大於0,猜測的期望得分就永遠不會低於承認不確定。

數據證據:主流評估基準的現狀

報告分析了多個業界最具影響力的語言模型評估基準,發現絕大多數都存在獎勵猜測的傾向。這種「懲罰不確定性」的風氣,是幻覺問題難以根除的社會技術原因。

基準名稱評分方式二元評分承認不確定性(IDK)得分
GPQA多選題準確率
MMLU-Pro多選題準確率
IFEval指令遵循驗證
MATH等價性評分
SWE-bench程式碼補丁通過單元測試
WildBenchLM評分 rubric部分得分

解決之道:改變遊戲規則

報告提出了一個務實的解決方案:修改現有的評估機制,引入「明確的信心目標」。這意味著在問題中明確指出錯誤的懲罰,從而使模型在信心不足時,選擇承認不確定性成為理性的最佳策略。

模擬器:探索新的評分機制

答錯的懲罰分數為 t / (1-t)

75%
60%

答錯懲罰:-3.00

策略:回答

期望得分: -0.60

策略:承認不確定 (IDK)

期望得分: 0.00

最佳策略:承認不確定

透過調整評分規則,我們可以引導AI系統變得更加誠實和可靠。