一句話解釋

用固定數量的參數來描述機率分佈,透過 MLE 或 MAP 從資料中學習參數值。


核心假設:什麼是 Parametric Method

Parametric Method(參數方法)** 的核心假設是:資料的分佈可以用一個**有限維度的參數向量 $\theta$ 完全描述。

基本假設

給定資料集 $\mathcal{D} = {x_1, x_2, \dots, x_n}$,我們假設:

\[p(x \mid \theta) \quad \text{的形式已知,只需要估計 } \theta\]

常見的參數化分佈

高斯分佈(Gaussian): $$p(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$ 參數:$\theta = (\mu, \sigma^2)$ 伯努利分佈(Bernoulli): $$p(x \mid p) = p^x (1-p)^{1-x}, \quad x \in \{0, 1\}$$ 參數:$\theta = p$ 多項式分佈(Multinomial): $$p(x \mid \boldsymbol{\pi}) = \prod_{k=1}^K \pi_k^{x_k}$$ 參數:$\theta = (\pi_1, \dots, \pi_K)$

Parametric vs. Non-parametric

特性 Parametric Non-parametric
**參數數量** 固定(與資料量無關) 隨資料量增長
**假設** 強假設(分佈形式已知) 弱假設
**樣本需求** 較少 較多
**計算複雜度** 較低 較高
**彈性** 低(受限於假設)
**範例** Linear Regression, Logistic Regression, Naive Bayes KNN, Decision Trees, Kernel Methods

MLE:最大似然估計

核心概念

最大似然估計(MLE) 的想法是:找到參數 $\theta$,使得觀測到的資料 $\mathcal{D}$ 出現的機率最大。

似然函數(Likelihood): $$L(\theta \mid \mathcal{D}) = p(\mathcal{D} \mid \theta) = \prod_{i=1}^n p(x_i \mid \theta)$$ 對數似然(Log-likelihood): $$\ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log p(x_i \mid \theta)$$ MLE 估計: $$\hat{\theta}_{\text{MLE}} = \arg\max_\theta \ell(\theta)$$

求解方法

通常透過對 $\ell(\theta)$ 微分並令其為零:

\[\frac{\partial \ell(\theta)}{\partial \theta} = 0\]

範例:Gaussian Distribution 的 MLE

假設資料 $x_1, \dots, x_n$ 來自 $\mathcal{N}(\mu, \sigma^2)$:

對數似然: $$ \ell(\mu, \sigma^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i - \mu)^2 $$ 對 $\mu$ 求導並令為零: $$ \frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n (x_i - \mu) = 0 $$ 得到: $$ \hat{\mu}_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n x_i \quad \text{(樣本平均)} $$ 對 $\sigma^2$ 求導並令為零: $$ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4}\sum_{i=1}^n (x_i - \mu)^2 = 0 $$ 得到: $$ \hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n (x_i - \hat{\mu})^2 \quad \text{(樣本變異數)} $$

💡 重要性質:

  • Consistency(一致性): 當 $n \to \infty$,$\hat{\theta}_{\text{MLE}} \to \theta_{\text{true}}$
  • Asymptotic Normality: 大樣本下近似常態分佈
  • Asymptotic Efficiency: 漸近最小變異數

MAP 與 Bayesian Estimation 的差異

三種估計方法的比較

方法 目標 公式 輸出
**MLE** 最大化似然 $\arg\max_\theta p(\mathcal{D} \mid \theta)$ 點估計(單一值)
**MAP** 最大化後驗 $\arg\max_\theta p(\theta \mid \mathcal{D})$ 點估計(單一值)
**Bayesian** 計算後驗分佈 $p(\theta \mid \mathcal{D})$ 完整分佈

Maximum A Posteriori (MAP)

MAP 考慮參數的事前分佈(prior) $p(\theta)$:

後驗分佈(Posterior): $$ p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) p(\theta)}{p(\mathcal{D})} \propto p(\mathcal{D} \mid \theta) p(\theta) $$ MAP 估計: $$ \hat{\theta}_{\text{MAP}} = \arg\max_\theta p(\theta \mid \mathcal{D}) = \arg\max_\theta \left[ \log p(\mathcal{D} \mid \theta) + \log p(\theta) \right] $$

與 MLE 的關係

  • 當 prior $p(\theta)$ 是 uniform(均勻分佈) 時: \(\hat{\theta}_{\text{MAP}} = \hat{\theta}_{\text{MLE}}\)

  • 當 prior 是 Gaussian $\mathcal{N}(0, \lambda^{-1})$ 時,MAP 等價於 L2 regularization(Ridge Regression)

Bayesian Estimation

Bayesian 方法不做點估計,而是保留整個後驗分佈 $p(\theta \mid \mathcal{D})$。

預測新資料點時:

$$ p(x_{\text{new}} \mid \mathcal{D}) = \int p(x_{\text{new}} \mid \theta) p(\theta \mid \mathcal{D}) \, d\theta $$ 這稱為 **posterior predictive distribution(後驗預測分佈)**,對所有可能的 $\theta$ 做加權平均。

🔑 關鍵差異:

  • MAP: 用「最可能的」參數值來預測(點估計)
  • Bayesian: 考慮參數的「不確定性」,對所有可能參數做積分
  • **Bayesian 更穩健,** 特別在資料不足時
  • **MAP 計算更簡單,** 不需要處理積分

Bias-Variance Tradeoff

基本概念

任何估計器 $\hat{\theta}$ 的均方誤差(Mean Squared Error, MSE) 可以分解為:

$$ \text{MSE}(\hat{\theta}) = \mathbb{E}\left[(\hat{\theta} - \theta_{\text{true}})^2\right] = \text{Bias}^2(\hat{\theta}) + \text{Var}(\hat{\theta}) $$ 其中: Bias(偏差): $$\text{Bias}(\hat{\theta}) = \mathbb{E}[\hat{\theta}] - \theta_{\text{true}}$$ Variance(變異數): $$\text{Var}(\hat{\theta}) = \mathbb{E}\left[(\hat{\theta} - \mathbb{E}[\hat{\theta}])^2\right]$$

Unbiased vs. Biased Estimator

Unbiased Estimator(不偏估計器):

  • 滿足 $\mathbb{E}[\hat{\theta}] = \theta_{\text{true}}$
  • 範例:樣本平均 $\hat{\mu} = \frac{1}{n}\sum x_i$ 是 $\mu$ 的不偏估計

Biased Estimator(有偏估計器):

  • $\mathbb{E}[\hat{\theta}] \neq \theta_{\text{true}}$
  • 範例:MLE 的 $\hat{\sigma}^2 = \frac{1}{n}\sum(x_i - \bar{x})^2$ 是 有偏的

為什麼 MLE 的變異數估計是有偏的?

MLE 估計的變異數: $$\hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2$$ 期望值: $$ \mathbb{E}[\hat{\sigma}^2_{\text{MLE}}] = \frac{n-1}{n}\sigma^2 \neq \sigma^2 $$ 因此它是 **低估(underestimate)** 的有偏估計器。 不偏估計器(Unbiased estimator): $$\hat{\sigma}^2_{\text{unbiased}} = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2$$ 這就是為什麼統計軟體通常使用 $n-1$ 而非 $n$(稱為 **Bessel's correction**)。

為什麼接受 Biased Estimator?

雖然 biased,但 MLE 的變異數估計器有更低的變異數(lower variance)

  • $\text{Var}(\hat{\sigma}^2{\text{MLE}})$ < $\text{Var}(\hat{\sigma}^2{\text{unbiased}})$
  • 在某些情況下,MSE 反而更小!

💡 核心洞察:
我們關心的是 MSE = Bias² + Variance,而非單純的 unbiasedness。
有時候接受一點 bias,可以換來更低的 variance,總體誤差反而更小。
這就是 Bias-Variance Tradeoff 的精神!

Tradeoff 的直覺

  • High Bias, Low Variance: 模型太簡單(underfitting)
    • 例如用線性模型擬合非線性資料
  • Low Bias, High Variance: 模型太複雜(overfitting)
    • 例如高次多項式完美擬合訓練資料
  • 理想狀態: 在兩者之間找到平衡點

Generative Approach 用於分類

核心思想

Generative Approach** 為每個類別 $C_k$ 建模**聯合機率分佈 $p(x, C_k)$,然後用貝葉斯定理來分類。

完整流程

  • 建模類別先驗(Class Prior): $$p(C_k) = \frac{N_k}{N}$$ 其中 $N_k$ 是類別 $k$ 的樣本數,$N$ 是總樣本數。
  • 建模條件機率(Class-conditional Density): $$p(x \mid C_k) \sim \mathcal{N}(\mu_k, \Sigma_k)$$ 使用 MLE 或 MAP 估計每個類別的參數 $\mu_k, \Sigma_k$。
  • 計算聯合機率: $$p(x, C_k) = p(x \mid C_k) p(C_k)$$
  • 用貝葉斯定理計算後驗: $$p(C_k \mid x) = \frac{p(x \mid C_k) p(C_k)}{p(x)} = \frac{p(x \mid C_k) p(C_k)}{\sum_{j} p(x \mid C_j) p(C_j)}$$
  • 分類決策: $$\hat{C} = \arg\max_k p(C_k \mid x)$$

常見的 Generative Models

1. Gaussian Discriminant Analysis (GDA)

  • 假設每個類別的 $p(x \mid C_k)$ 是高斯分佈
  • 變體:
    • Linear Discriminant Analysis (LDA): 所有類別共享相同的 $\Sigma$
    • Quadratic Discriminant Analysis (QDA): 每個類別有不同的 $\Sigma_k$

2. Naive Bayes

  • 假設特徵條件獨立: \(p(x \mid C_k) = \prod_{j=1}^d p(x_j \mid C_k)\)
  • 簡化計算,適合高維資料

Generative vs. Discriminative

特性 Generative Discriminative
**建模對象** $p(x, y)$ 或 $p(x \mid y)$ $p(y \mid x)$ 直接建模
**範例** Naive Bayes, GDA, HMM Logistic Regression, SVM
**優點** 可生成新資料、處理缺失值 通常更高的分類準確率
**資料需求** 需要更多資料(建模完整分佈) 較少(只需學習決策邊界)

🎯 何時使用 Generative Approach?

  • 資料量充足
  • 需要生成新樣本(例如 GAN)
  • 需要處理缺失特徵
  • 類別先驗 $p(C_k)$ 對決策很重要
  • 想要解釋「為什麼」而非只是「分類結果」

總結

Parametric Methods 是機器學習的基石,透過有限參數來描述資料分佈:

  1. MLE 找最大似然的參數(不考慮 prior)
  2. MAP 加入 prior,等價於 regularization
  3. Bayesian 保留完整的後驗分佈,更穩健但計算複雜
  4. Bias-Variance Tradeoff 提醒我們:不偏不等於最好
  5. Generative Approach 建模聯合分佈,可用於分類與生成

這些概念串連起整個機器學習的理論基礎,從估計、推論到分類決策。


參考資料

  • Bishop, Pattern Recognition and Machine Learning, Chapter 2 & 4
  • Murphy, Machine Learning: A Probabilistic Perspective, Chapter 5
  • Hastie, Tibshirani, Friedman, The Elements of Statistical Learning, Chapter 2