Parametric Methods

一句話解釋

用固定數量的參數來描述機率分佈，透過 MLE 或 MAP 從資料中學習參數值。

核心假設：什麼是 Parametric Method

核心概念

Parametric Method（參數方法）** 的核心假設是：資料的分佈可以用一個**有限維度的參數向量 $\theta$ 完全描述。

基本假設

給定資料集 $\mathcal{D} = {x_1, x_2, \dots, x_n}$，我們假設：

\[p(x \mid \theta) \quad \text{的形式已知，只需要估計 } \theta\]

常見的參數化分佈

高斯分佈（Gaussian）： $$p(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$ 參數：$\theta = (\mu, \sigma^2)$ 伯努利分佈（Bernoulli）： $$p(x \mid p) = p^x (1-p)^{1-x}, \quad x \in \{0, 1\}$$ 參數：$\theta = p$ 多項式分佈（Multinomial）： $$p(x \mid \boldsymbol{\pi}) = \prod_{k=1}^K \pi_k^{x_k}$$ 參數：$\theta = (\pi_1, \dots, \pi_K)$

Parametric vs. Non-parametric

特性	Parametric	Non-parametric
參數數量	固定（與資料量無關）	隨資料量增長
假設	強假設（分佈形式已知）	弱假設
樣本需求	較少	較多
計算複雜度	較低	較高
彈性	低（受限於假設）	高
範例	Linear Regression, Logistic Regression, Naive Bayes	KNN, Decision Trees, Kernel Methods

MLE：最大似然估計

Maximum Likelihood Estimation

核心概念

最大似然估計（MLE） 的想法是：找到參數 $\theta$，使得觀測到的資料 $\mathcal{D}$ 出現的機率最大。

似然函數（Likelihood）： $$L(\theta \mid \mathcal{D}) = p(\mathcal{D} \mid \theta) = \prod_{i=1}^n p(x_i \mid \theta)$$ 對數似然（Log-likelihood）： $$\ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log p(x_i \mid \theta)$$ MLE 估計： $$\hat{\theta}_{\text{MLE}} = \arg\max_\theta \ell(\theta)$$

求解方法

通常透過對 $\ell(\theta)$ 微分並令其為零：

\[\frac{\partial \ell(\theta)}{\partial \theta} = 0\]

範例：Gaussian Distribution 的 MLE

假設資料 $x_1, \dots, x_n$ 來自 $\mathcal{N}(\mu, \sigma^2)$：

對數似然： $$ \ell(\mu, \sigma^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i - \mu)^2 $$ 對 $\mu$ 求導並令為零： $$ \frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n (x_i - \mu) = 0 $$ 得到： $$ \hat{\mu}_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n x_i \quad \text{（樣本平均）} $$ 對 $\sigma^2$ 求導並令為零： $$ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4}\sum_{i=1}^n (x_i - \mu)^2 = 0 $$ 得到： $$ \hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n (x_i - \hat{\mu})^2 \quad \text{（樣本變異數）} $$

💡 重要性質：

Consistency（一致性）： 當 $n \to \infty$，$\hat{\theta}_{\text{MLE}} \to \theta_{\text{true}}$
Asymptotic Normality： 大樣本下近似常態分佈
Asymptotic Efficiency： 漸近最小變異數

MAP 與 Bayesian Estimation 的差異

貝葉斯觀點

三種估計方法的比較

方法	目標	公式	輸出
MLE	最大化似然	$\arg\max_\theta p(\mathcal{D} \mid \theta)$	點估計（單一值）
MAP	最大化後驗	$\arg\max_\theta p(\theta \mid \mathcal{D})$	點估計（單一值）
Bayesian	計算後驗分佈	$p(\theta \mid \mathcal{D})$	完整分佈

Maximum A Posteriori (MAP)

MAP 考慮參數的事前分佈（prior） $p(\theta)$：

後驗分佈（Posterior）： $$ p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) p(\theta)}{p(\mathcal{D})} \propto p(\mathcal{D} \mid \theta) p(\theta) $$ MAP 估計： $$ \hat{\theta}_{\text{MAP}} = \arg\max_\theta p(\theta \mid \mathcal{D}) = \arg\max_\theta \left[ \log p(\mathcal{D} \mid \theta) + \log p(\theta) \right] $$

與 MLE 的關係

當 prior $p(\theta)$ 是 uniform（均勻分佈） 時： $\hat{\theta}_{\text{MAP}} = \hat{\theta}_{\text{MLE}}$
當 prior 是 Gaussian $\mathcal{N}(0, \lambda^{-1})$ 時，MAP 等價於 L2 regularization（Ridge Regression）

Bayesian Estimation

Bayesian 方法不做點估計，而是保留整個後驗分佈 $p(\theta \mid \mathcal{D})$。

預測新資料點時：

$$ p(x_{\text{new}} \mid \mathcal{D}) = \int p(x_{\text{new}} \mid \theta) p(\theta \mid \mathcal{D}) \, d\theta $$ 這稱為 **posterior predictive distribution（後驗預測分佈）**，對所有可能的 $\theta$ 做加權平均。

🔑 關鍵差異：

MAP： 用「最可能的」參數值來預測（點估計）
Bayesian： 考慮參數的「不確定性」，對所有可能參數做積分
**Bayesian 更穩健，** 特別在資料不足時
**MAP 計算更簡單，** 不需要處理積分

Bias-Variance Tradeoff

估計誤差分析

基本概念

任何估計器 $\hat{\theta}$ 的均方誤差（Mean Squared Error, MSE） 可以分解為：

\text{MSE}(\hat{\theta}) = \mathbb{E}\left[(\hat{\theta} - \theta_{\text{true}})^2\right] = \text{Bias}^2(\hat{\theta}) + \text{Var}(\hat{\theta}) $$ 其中： Bias（偏差）： $$\text{Bias}(\hat{\theta}) = \mathbb{E}[\hat{\theta}] - \theta_{\text{true}}$$ Variance（變異數）： $$\text{Var}(\hat{\theta}) = \mathbb{E}\left[(\hat{\theta} - \mathbb{E}[\hat{\theta}])^2\right]

Unbiased vs. Biased Estimator

Unbiased Estimator（不偏估計器）：

滿足 $\mathbb{E}[\hat{\theta}] = \theta_{\text{true}}$
範例：樣本平均 $\hat{\mu} = \frac{1}{n}\sum x_i$ 是 $\mu$ 的不偏估計

Biased Estimator（有偏估計器）：

$\mathbb{E}[\hat{\theta}] \neq \theta_{\text{true}}$
範例：MLE 的 $\hat{\sigma}^2 = \frac{1}{n}\sum(x_i - \bar{x})^2$ 是 有偏的

為什麼 MLE 的變異數估計是有偏的？

MLE 估計的變異數： $$\hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2$$ 期望值： $$ \mathbb{E}[\hat{\sigma}^2_{\text{MLE}}] = \frac{n-1}{n}\sigma^2 \neq \sigma^2 $$ 因此它是 **低估（underestimate）** 的有偏估計器。 不偏估計器（Unbiased estimator）： $$\hat{\sigma}^2_{\text{unbiased}} = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2$$ 這就是為什麼統計軟體通常使用 $n-1$ 而非 $n$（稱為 **Bessel's correction**）。

為什麼接受 Biased Estimator？

雖然 biased，但 MLE 的變異數估計器有更低的變異數（lower variance）：

$\text{Var}(\hat{\sigma}^2{\text{MLE}})$ < $\text{Var}(\hat{\sigma}^2{\text{unbiased}})$
在某些情況下，MSE 反而更小！

💡 核心洞察：
我們關心的是 MSE = Bias² + Variance，而非單純的 unbiasedness。
有時候接受一點 bias，可以換來更低的 variance，總體誤差反而更小。
這就是 Bias-Variance Tradeoff 的精神！

Tradeoff 的直覺

High Bias, Low Variance： 模型太簡單（underfitting）
- 例如用線性模型擬合非線性資料
Low Bias, High Variance： 模型太複雜（overfitting）
- 例如高次多項式完美擬合訓練資料
理想狀態： 在兩者之間找到平衡點

Generative Approach 用於分類

生成式分類

核心思想

Generative Approach** 為每個類別 $C_k$ 建模**聯合機率分佈 $p(x, C_k)$，然後用貝葉斯定理來分類。

完整流程

建模類別先驗（Class Prior）： $$p(C_k) = \frac{N_k}{N}$$ 其中 $N_k$ 是類別 $k$ 的樣本數，$N$ 是總樣本數。
建模條件機率（Class-conditional Density）： $$p(x \mid C_k) \sim \mathcal{N}(\mu_k, \Sigma_k)$$ 使用 MLE 或 MAP 估計每個類別的參數 $\mu_k, \Sigma_k$。
計算聯合機率： $$p(x, C_k) = p(x \mid C_k) p(C_k)$$
用貝葉斯定理計算後驗： $$p(C_k \mid x) = \frac{p(x \mid C_k) p(C_k)}{p(x)} = \frac{p(x \mid C_k) p(C_k)}{\sum_{j} p(x \mid C_j) p(C_j)}$$
分類決策： $$\hat{C} = \arg\max_k p(C_k \mid x)$$

常見的 Generative Models

1. Gaussian Discriminant Analysis (GDA)

假設每個類別的 $p(x \mid C_k)$ 是高斯分佈
變體：
- Linear Discriminant Analysis (LDA)： 所有類別共享相同的 $\Sigma$
- Quadratic Discriminant Analysis (QDA)： 每個類別有不同的 $\Sigma_k$

2. Naive Bayes

假設特徵條件獨立： $p(x \mid C_k) = \prod_{j=1}^d p(x_j \mid C_k)$
簡化計算，適合高維資料

Generative vs. Discriminative

特性	Generative	Discriminative
建模對象	$p(x, y)$ 或 $p(x \mid y)$	$p(y \mid x)$ 直接建模
範例	Naive Bayes, GDA, HMM	Logistic Regression, SVM
優點	可生成新資料、處理缺失值	通常更高的分類準確率
資料需求	需要更多資料（建模完整分佈）	較少（只需學習決策邊界）

🎯 何時使用 Generative Approach？

資料量充足
需要生成新樣本（例如 GAN）
需要處理缺失特徵
類別先驗 $p(C_k)$ 對決策很重要
想要解釋「為什麼」而非只是「分類結果」

總結

Parametric Methods 是機器學習的基石，透過有限參數來描述資料分佈：

MLE 找最大似然的參數（不考慮 prior）
MAP 加入 prior，等價於 regularization
Bayesian 保留完整的後驗分佈，更穩健但計算複雜
Bias-Variance Tradeoff 提醒我們：不偏不等於最好
Generative Approach 建模聯合分佈，可用於分類與生成

這些概念串連起整個機器學習的理論基礎，從估計、推論到分類決策。

參考資料

Bishop, Pattern Recognition and Machine Learning, Chapter 2 & 4
Murphy, Machine Learning: A Probabilistic Perspective, Chapter 5
Hastie, Tibshirani, Friedman, The Elements of Statistical Learning, Chapter 2