一句話解釋

讓電腦透過範例資料或過去經驗,自動優化某個 performance criterion。


什麼是機器學習?

Machine Learning:
設計並執行程式,透過樣本資料過去經驗來優化某個性能指標(performance criterion)的過程。

核心元素

  • 核心工具: 統計與機率理論
  • 核心任務: 從樣本做推論(inference)
  • “Learning”: 執行程式來優化模型參數
  • “Model”: 對未來做預測,或從資料中獲取知識

與傳統編程的差異

傳統編程 機器學習
人工設計規則 從資料中學習規則
規則明確、可解釋 可能是黑盒模型
適合規則清晰的問題 適合規則複雜、難以明確描述的問題

機器學習的主要類型

Supervised Learning

訓練資料:有標準答案(label)

目標:學習 input → output 的映射

例子:

  • 分類(Classification)
  • 迴歸(Regression)

Unsupervised Learning

訓練資料:**沒有** label

目標:發現資料內在結構

例子:

  • 聚類(Clustering)
  • 密度估計(Density Estimation)

Reinforcement Learning

訓練方式:與環境互動

目標:依據 reward/penalty 學習策略

例子:

  • 遊戲 AI
  • 機器人控制

其他學習類型

  • Semisupervised Learning: 少量有 label + 大量無 label 資料
  • Self-supervised Learning: 從資料本身構造監督訊號
  • Federated Learning: 分散式學習,保護資料隱私
  • Transfer Learning: 將一個任務學到的知識遷移到另一個任務
  • Active Learning: 主動選擇最有價值的樣本進行標註

機器學習的核心議題

三個關鍵問題

**1. 什麼時候演算法能學得好?** - Learnability(可學習性) - 需要滿足什麼條件? **2. Generalization(泛化能力)** - 訓練好的模型能推廣到新資料嗎? - 如何避免 overfitting? **3. 樣本複雜度(Sample Complexity)** - 需要多少資料才夠? - 資料量與模型複雜度的關係?

Bias-Variance Trade-off

核心衝突:

  • Bias(偏差):模型太簡單,無法捕捉資料複雜性 → Underfitting
  • Variance(變異):模型太複雜,過度擬合訓練資料 → Overfitting

    機器學習的藝術在於找到兩者的平衡點。

評估方式

  • 訓練集(Training Set): 用於學習模型參數
  • 驗證集(Validation Set): 用於調整超參數、選擇模型
  • 測試集(Test Set): 用於評估最終模型的泛化能力

⚠️ 重要:測試集只能在最後使用一次,否則會洩漏資訊!


Bayes’ Rule(基礎工具)

公式

$$ p(C \mid x) = \frac{p(x \mid C)\, p(C)}{p(x)} $$ 各項意義: - $p(C)$:**Prior(先驗機率)** — 觀察資料前對 $C$ 的信念 - $p(x \mid C)$:**Likelihood(似然)** — 給定 $C$ 時觀察到 $x$ 的機率 - $p(C \mid x)$:**Posterior(後驗機率)** — 觀察到 $x$ 後對 $C$ 的信念 - $p(x)$:**Evidence(證據)** — 歸一化常數,$p(x) = \sum_C p(x \mid C) p(C)$

貝氏推論的哲學

Bayesian Inference:
先有一個 prior belief,觀察到資料後,用 Bayes’ Rule 更新成 posterior belief。

解讀:

\[\text{Posterior} \propto \text{Likelihood} \times \text{Prior}\]
  • Likelihood 高:資料支持這個假設
  • Prior 高:在觀察前就相信這個假設
  • Posterior 結合兩者,給出最終的信念

實例:醫療診斷

假設某疾病發生率 1%(prior),某測試:

  • 有病時測出陽性 95%(sensitivity)
  • 無病時測出陽性 5%(false positive rate)

問:測出陽性時,真的有病的機率?

設 $D$ = 有病,$+$ = 測試陽性 $$ \begin{align} p(D \mid +) &= \frac{p(+ \mid D) \, p(D)}{p(+)} \\ &= \frac{0.95 \times 0.01}{0.95 \times 0.01 + 0.05 \times 0.99} \\ &= \frac{0.0095}{0.0095 + 0.0495} \\ &\approx 0.161 \end{align} $$

驚人結論:即使測試陽性,真的有病的機率只有 16.1%!
這是因為疾病太罕見(prior 低),false positive 影響很大。


總結

機器學習的本質:

  1. 從資料中學習模式
  2. 用學到的模式對未見資料做預測或決策
  3. 核心挑戰是泛化能力

基礎工具:

  • 機率論:建模不確定性
  • Bayes’ Rule:從觀察更新信念
  • 統計推論:從樣本推廣到母體

下一步:

  • 監督式學習的詳細框架
  • VC Dimension 與 PAC Learning
  • Bayesian Decision Theory

參考資料

  • Bishop, Pattern Recognition and Machine Learning, Chapter 1
  • Murphy, Machine Learning: A Probabilistic Perspective, Chapter 1
  • Alpaydin, Introduction to Machine Learning, Chapter 1