Parametric Methods
一句話解釋
用固定數量的參數來描述機率分佈,透過 MLE 或 MAP 從資料中學習參數值。
核心假設:什麼是 Parametric Method
Parametric Method(參數方法)** 的核心假設是:資料的分佈可以用一個**有限維度的參數向量 $\theta$ 完全描述。
基本假設
給定資料集 $\mathcal{D} = {x_1, x_2, \dots, x_n}$,我們假設:
\[p(x \mid \theta) \quad \text{的形式已知,只需要估計 } \theta\]常見的參數化分佈
Parametric vs. Non-parametric
| 特性 | Parametric | Non-parametric |
|---|---|---|
| **參數數量** | 固定(與資料量無關) | 隨資料量增長 |
| **假設** | 強假設(分佈形式已知) | 弱假設 |
| **樣本需求** | 較少 | 較多 |
| **計算複雜度** | 較低 | 較高 |
| **彈性** | 低(受限於假設) | 高 |
| **範例** | Linear Regression, Logistic Regression, Naive Bayes | KNN, Decision Trees, Kernel Methods |
MLE:最大似然估計
核心概念
最大似然估計(MLE) 的想法是:找到參數 $\theta$,使得觀測到的資料 $\mathcal{D}$ 出現的機率最大。
求解方法
通常透過對 $\ell(\theta)$ 微分並令其為零:
\[\frac{\partial \ell(\theta)}{\partial \theta} = 0\]範例:Gaussian Distribution 的 MLE
假設資料 $x_1, \dots, x_n$ 來自 $\mathcal{N}(\mu, \sigma^2)$:
💡 重要性質:
- Consistency(一致性): 當 $n \to \infty$,$\hat{\theta}_{\text{MLE}} \to \theta_{\text{true}}$
- Asymptotic Normality: 大樣本下近似常態分佈
- Asymptotic Efficiency: 漸近最小變異數
MAP 與 Bayesian Estimation 的差異
三種估計方法的比較
| 方法 | 目標 | 公式 | 輸出 |
|---|---|---|---|
| **MLE** | 最大化似然 | $\arg\max_\theta p(\mathcal{D} \mid \theta)$ | 點估計(單一值) |
| **MAP** | 最大化後驗 | $\arg\max_\theta p(\theta \mid \mathcal{D})$ | 點估計(單一值) |
| **Bayesian** | 計算後驗分佈 | $p(\theta \mid \mathcal{D})$ | 完整分佈 |
Maximum A Posteriori (MAP)
MAP 考慮參數的事前分佈(prior) $p(\theta)$:
與 MLE 的關係
-
當 prior $p(\theta)$ 是 uniform(均勻分佈) 時: \(\hat{\theta}_{\text{MAP}} = \hat{\theta}_{\text{MLE}}\)
-
當 prior 是 Gaussian $\mathcal{N}(0, \lambda^{-1})$ 時,MAP 等價於 L2 regularization(Ridge Regression)
Bayesian Estimation
Bayesian 方法不做點估計,而是保留整個後驗分佈 $p(\theta \mid \mathcal{D})$。
預測新資料點時:
🔑 關鍵差異:
- MAP: 用「最可能的」參數值來預測(點估計)
- Bayesian: 考慮參數的「不確定性」,對所有可能參數做積分
- **Bayesian 更穩健,** 特別在資料不足時
- **MAP 計算更簡單,** 不需要處理積分
Bias-Variance Tradeoff
基本概念
任何估計器 $\hat{\theta}$ 的均方誤差(Mean Squared Error, MSE) 可以分解為:
Unbiased vs. Biased Estimator
Unbiased Estimator(不偏估計器):
- 滿足 $\mathbb{E}[\hat{\theta}] = \theta_{\text{true}}$
- 範例:樣本平均 $\hat{\mu} = \frac{1}{n}\sum x_i$ 是 $\mu$ 的不偏估計
Biased Estimator(有偏估計器):
- $\mathbb{E}[\hat{\theta}] \neq \theta_{\text{true}}$
- 範例:MLE 的 $\hat{\sigma}^2 = \frac{1}{n}\sum(x_i - \bar{x})^2$ 是 有偏的
為什麼 MLE 的變異數估計是有偏的?
為什麼接受 Biased Estimator?
雖然 biased,但 MLE 的變異數估計器有更低的變異數(lower variance):
- $\text{Var}(\hat{\sigma}^2{\text{MLE}})$ < $\text{Var}(\hat{\sigma}^2{\text{unbiased}})$
- 在某些情況下,MSE 反而更小!
💡 核心洞察:
我們關心的是 MSE = Bias² + Variance,而非單純的 unbiasedness。
有時候接受一點 bias,可以換來更低的 variance,總體誤差反而更小。
這就是 Bias-Variance Tradeoff 的精神!
Tradeoff 的直覺
- High Bias, Low Variance: 模型太簡單(underfitting)
- 例如用線性模型擬合非線性資料
- Low Bias, High Variance: 模型太複雜(overfitting)
- 例如高次多項式完美擬合訓練資料
- 理想狀態: 在兩者之間找到平衡點
Generative Approach 用於分類
核心思想
Generative Approach** 為每個類別 $C_k$ 建模**聯合機率分佈 $p(x, C_k)$,然後用貝葉斯定理來分類。
完整流程
- 建模類別先驗(Class Prior): $$p(C_k) = \frac{N_k}{N}$$ 其中 $N_k$ 是類別 $k$ 的樣本數,$N$ 是總樣本數。
- 建模條件機率(Class-conditional Density): $$p(x \mid C_k) \sim \mathcal{N}(\mu_k, \Sigma_k)$$ 使用 MLE 或 MAP 估計每個類別的參數 $\mu_k, \Sigma_k$。
- 計算聯合機率: $$p(x, C_k) = p(x \mid C_k) p(C_k)$$
- 用貝葉斯定理計算後驗: $$p(C_k \mid x) = \frac{p(x \mid C_k) p(C_k)}{p(x)} = \frac{p(x \mid C_k) p(C_k)}{\sum_{j} p(x \mid C_j) p(C_j)}$$
- 分類決策: $$\hat{C} = \arg\max_k p(C_k \mid x)$$
常見的 Generative Models
1. Gaussian Discriminant Analysis (GDA)
- 假設每個類別的 $p(x \mid C_k)$ 是高斯分佈
- 變體:
- Linear Discriminant Analysis (LDA): 所有類別共享相同的 $\Sigma$
- Quadratic Discriminant Analysis (QDA): 每個類別有不同的 $\Sigma_k$
2. Naive Bayes
- 假設特徵條件獨立: \(p(x \mid C_k) = \prod_{j=1}^d p(x_j \mid C_k)\)
- 簡化計算,適合高維資料
Generative vs. Discriminative
| 特性 | Generative | Discriminative |
|---|---|---|
| **建模對象** | $p(x, y)$ 或 $p(x \mid y)$ | $p(y \mid x)$ 直接建模 |
| **範例** | Naive Bayes, GDA, HMM | Logistic Regression, SVM |
| **優點** | 可生成新資料、處理缺失值 | 通常更高的分類準確率 |
| **資料需求** | 需要更多資料(建模完整分佈) | 較少(只需學習決策邊界) |
🎯 何時使用 Generative Approach?
- 資料量充足
- 需要生成新樣本(例如 GAN)
- 需要處理缺失特徵
- 類別先驗 $p(C_k)$ 對決策很重要
- 想要解釋「為什麼」而非只是「分類結果」
總結
Parametric Methods 是機器學習的基石,透過有限參數來描述資料分佈:
- MLE 找最大似然的參數(不考慮 prior)
- MAP 加入 prior,等價於 regularization
- Bayesian 保留完整的後驗分佈,更穩健但計算複雜
- Bias-Variance Tradeoff 提醒我們:不偏不等於最好
- Generative Approach 建模聯合分佈,可用於分類與生成
這些概念串連起整個機器學習的理論基礎,從估計、推論到分類決策。
參考資料
- Bishop, Pattern Recognition and Machine Learning, Chapter 2 & 4
- Murphy, Machine Learning: A Probabilistic Perspective, Chapter 5
- Hastie, Tibshirani, Friedman, The Elements of Statistical Learning, Chapter 2