什麼是 AI 幻覺?
就像面對難題的學生,大型語言模型在不確定時會猜測,產生貌似可信卻不正確的陳述。這種現象被稱為「幻覺」,它嚴重破壞了我們對 AI 的信任。
試試看!問一個模型它可能不知道答案的問題:
「某位AI研究員的生日是哪天?」
模型回應 1: 03-07
模型回應 2: 15-06
模型回應 3: 01-01
(事實上,正確日期是在秋天。以上皆為幻覺。)
探究根本原因:幻覺的雙重起源
報告指出,AI幻覺並非神秘現象。它的根源深植於模型的訓練與評估方式中。我們可以將其分為兩個階段來理解:錯誤如何在「預訓練」中誕生,又為何在「後訓練」中持續存在。
Part A: 預訓練 — 錯誤的統計起源
在預訓練階段,即使訓練資料完全正確,模型為了學習語言的統計規律,也會自然地產生錯誤。這可以理解為一個「這是否有效?」(Is-It-Valid, IIV) 的二元分類問題。如果模型無法準確區分事實與謬誤,它在生成內容時就必然會產生幻覺。
主要錯誤因素:
- 任意事實: 對於訓練數據中缺乏規律、僅出現一次的事實(如個人生日),模型很難學習,幻覺率接近於這些「單例」事實的比例。
- 劣質模型: 模型的架構不適合處理某些任務(例如,用處理詞彙的模型去數字符),導致系統性錯誤。
- 垃圾進,垃圾出 (GIGO): 訓練資料中本身存在的錯誤會被模型學習並複製。
Part B: 後訓練 — 評估的陷阱
在後訓練階段,模型會根據人類偏好進行微調。然而,目前主流的評估標準大多採用「二元評分」(答對得1分,答錯或不答得0分)。這種機制無形中鼓勵模型在不確定時去「猜測」,而不是誠實地回答「我不知道」(IDK)。
在二元評分下,只要猜對的機率大於0,猜測的期望得分就永遠不會低於承認不確定。
數據證據:主流評估基準的現狀
報告分析了多個業界最具影響力的語言模型評估基準,發現絕大多數都存在獎勵猜測的傾向。這種「懲罰不確定性」的風氣,是幻覺問題難以根除的社會技術原因。
基準名稱 | 評分方式 | 二元評分 | 承認不確定性(IDK)得分 |
---|---|---|---|
GPQA | 多選題準確率 | 是 | 無 |
MMLU-Pro | 多選題準確率 | 是 | 無 |
IFEval | 指令遵循驗證 | 是 | 無 |
MATH | 等價性評分 | 是 | 無 |
SWE-bench | 程式碼補丁通過單元測試 | 是 | 無 |
WildBench | LM評分 rubric | 否 | 部分得分 |
解決之道:改變遊戲規則
報告提出了一個務實的解決方案:修改現有的評估機制,引入「明確的信心目標」。這意味著在問題中明確指出錯誤的懲罰,從而使模型在信心不足時,選擇承認不確定性成為理性的最佳策略。
模擬器:探索新的評分機制
答錯的懲罰分數為 t / (1-t)
答錯懲罰:-3.00 分
策略:回答
期望得分: -0.60
策略:承認不確定 (IDK)
期望得分: 0.00
最佳策略:承認不確定
透過調整評分規則,我們可以引導AI系統變得更加誠實和可靠。