過擬合:為什麼完美的解釋反而毫無用處?

您是否有過這樣的體驗:為了準備考試而刷題,剛開始效果很好,可隨著題目越刷越多,成績反而越來越差?這背後其實是一個深刻的哲學概念——過擬合(Overfitting)。本頁將透過互動實驗,讓您親手體會這個概念,並理解為何「大道至簡」不僅是哲學,更是數據科學的核心原則。

一、數據擬合實驗室:從欠擬合到過擬合

真實規律
觀測資料
模型預測
診斷:—

訓練 MSE (對觀測資料)

泛化 MSE (對真實規律)

參數

3
10^-2
1.8
12
提示:當樣本數為 12 時,最高 11 次多項式可「完美穿點」。
查看係數與複雜度 (L2 範數)

觀念速讀與指引

操作指引:

  1. 感受複雜度:將「正規化強度 λ」設為最低,然後拖動「多項式次數」從 0 到 11。
  2. 觀察 過擬合次數增加,「訓練 MSE」下降,但曲線劇烈扭曲,「泛化 MSE」飆升。
  3. 感受 正規化在高次數時,增加 λ 可「拉回」曲線,使其更平滑。
  4. 理解 奧卡姆剃刀在多個解釋中,選擇最簡單的那個(如 3 次多項式),通常泛化能力更好。

本頁真實函數:
f(x) = 15 + 10·sin(2π·(x-3)/12)

二、「找規律」心理測驗

過擬合的核心是忽略「複雜度」。以下問題的答案,本質上是心理學,而非數學。

題目 A: 1, 3, 5, 7, ?

題目 B: 2, 4, 8, 16, 31, ?

提示:查看完整數列

此數列 n=1~8 的完整輸出為:1, 2, 4, 8, 16, 31, 57, 99

三、生活中的過擬合與啟示


學習心法