竹節蟲的blog

隨機演算法導論

2026-03-16T07:00:00+00:00

一句話解釋

在演算法執行過程中使用隨機選擇，換取更簡單的實作、更好的平均效能，或解決確定性演算法難以處理的問題。

什麼是隨機演算法？

核心概念

隨機演算法（Randomized Algorithm） 是在執行過程中會做隨機選擇的演算法。

定義

演算法可以「擲硬幣」或「擲骰子」來決定下一步
給定相同的輸入，每次執行可能產生不同的結果或運行時間
隨機性來源：
- 偽隨機數生成器（Pseudo-random number generator）
- 真隨機源（硬體、量子現象等）

與確定性演算法的差異

特性	確定性演算法	隨機演算法
執行過程	完全可預測	含隨機選擇
相同輸入	總是產生相同結果	可能產生不同結果/時間
分析方式	Worst-case / Best-case	期望值 / 機率界
正確性	絕對保證	可能是機率性保證

為什麼使用隨機演算法？

動機

1. 簡化演算法設計

隨機性可以避免複雜的決策邏輯。

範例：Quicksort
確定性 Quicksort 需要精心選擇 pivot（如 median-of-medians）才能保證 O(n log n)。
隨機 Quicksort 只需隨機選 pivot，期望時間就是 O(n log n)，實作簡單得多。

2. 打破對手策略

在競爭或對抗性環境中，隨機性讓對手無法預測你的行為。

範例：線上演算法
如果演算法的行為可預測，adversary 可以構造最壞輸入。
隨機化讓 adversary 無法針對性地攻擊。

3. 更好的平均效能

某些問題的確定性演算法 worst-case 很差，但隨機版本期望效能很好。

4. 唯一已知的有效方法

某些問題（如質數測試）的確定性多項式演算法直到很晚才被發現，隨機演算法長期是唯一實用解。

💡 核心思想：
隨機性不是「運氣」，而是一種設計工具。我們用機率分析來證明演算法在期望意義下或高機率下表現良好。

Las Vegas vs. Monte Carlo

兩大類別

隨機演算法主要分為兩類：

Las Vegas Algorithms

總是給出正確答案
運行時間是隨機的
我們分析期望運行時間

定義： - 輸出總是正確：$\Pr[\text{Output is correct}] = 1$ - 運行時間 $T$ 是隨機變數：$\mathbb{E}[T] = $ 期望時間

範例：

Randomized Quicksort： 總是正確排序，但時間隨 pivot 選擇而變
Randomized Min-Cut（重複到成功）： 重複運行直到找到正確答案

Monte Carlo Algorithms

運行時間是確定的（或有界）
答案可能是錯的（但機率很小）
我們分析錯誤機率

定義： - 運行時間固定或有界：$T \leq T_{\max}$ - 可能出錯：$\Pr[\text{Output is wrong}] \leq \epsilon$ （通常 $\epsilon$ 很小）

範例：

Miller-Rabin 質數測試： 固定時間，但可能誤判合數為質數
Karger's Min-Cut（單次執行）： 多項式時間，但可能找到非最小割

比較表

	Las Vegas	Monte Carlo
正確性	✓ 總是正確	✗ 可能出錯（機率小）
運行時間	✗ 隨機（期望有界）	✓ 確定或有界
分析重點	期望時間 $\mathbb{E}[T]$	錯誤率 $\Pr[\text{error}] \leq \epsilon$
改進方式	無法改進正確性（已是 100%）	重複執行降低錯誤率
命名來源	Las Vegas 賭場：不會輸，但不知何時贏	Monte Carlo 賭場：快速結束，但可能輸

兩者的轉換

Monte Carlo → Las Vegas：

如果 Monte Carlo 演算法能驗證答案是否正確
可以重複運行直到得到正確答案
變成 Las Vegas（正確但時間隨機）

Las Vegas → Monte Carlo：

給 Las Vegas 演算法設定時間上限
超時就輸出「不知道」或隨機答案
變成 Monte Carlo（快但可能錯）

🎲 記憶技巧：

Las Vegas = Lucky but Slow（可能）： 一定贏，但可能等很久
Monte Carlo = Fast but Risky： 很快結束，但可能輸

經典範例

1. 隨機 Quicksort（Las Vegas）

def randomized_quicksort(A):
    if len(A) <= 1:
        return A
    pivot = random.choice(A)  # 隨機選 pivot
    left = [x for x in A if x < pivot]
    middle = [x for x in A if x == pivot]
    right = [x for x in A if x > pivot]
    return randomized_quicksort(left) + middle + randomized_quicksort(right)

類型： Las Vegas
正確性： 總是正確排序
時間： 期望 $O(n \log n)$，worst-case $O(n^2)$（機率極小）

2. 質數測試（Monte Carlo）

Miller-Rabin 演算法：

輸入：$n$（待測試的數）
輸出：「質數」或「合數」
保證： 如果輸出「合數」，則 $n$ 一定是合數
錯誤： 如果輸出「質數」，$n$ 可能是合數（機率 $\leq 1/4^k$，$k$ 是測試次數）

3. Karger’s Min-Cut

找圖的最小割：

單次執行（Monte Carlo）： 多項式時間，成功率 $\geq \frac{2}{n^2}$
重複執行（Las Vegas）： 運行 $O(n^2 \log n)$ 次，高機率找到最小割

總結

隨機演算法是現代演算法設計的重要工具：

簡化設計： 避免複雜的確定性邏輯
打破對抗： 讓 adversary 無法預測
良好效能： 期望或高機率下表現優異
兩大類別：
- Las Vegas： 正確但時間隨機
- Monte Carlo： 快速但可能出錯

後續課程將深入探討機率工具、複雜度理論、以及各種隨機演算法的設計與分析。

參考資料

Motwani & Raghavan, Randomized Algorithms
Mitzenmacher & Upfal, Probability and Computing
CLRS, Introduction to Algorithms, Chapter 5

Parametric Methods

2026-03-16T06:00:00+00:00

一句話解釋

用固定數量的參數來描述機率分佈，透過 MLE 或 MAP 從資料中學習參數值。

核心假設：什麼是 Parametric Method

核心概念

Parametric Method（參數方法）** 的核心假設是：資料的分佈可以用一個**有限維度的參數向量 $\theta$ 完全描述。

基本假設

給定資料集 $\mathcal{D} = {x_1, x_2, \dots, x_n}$，我們假設：

\[p(x \mid \theta) \quad \text{的形式已知，只需要估計 } \theta\]

常見的參數化分佈

高斯分佈（Gaussian）： $$p(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$ 參數：$\theta = (\mu, \sigma^2)$ 伯努利分佈（Bernoulli）： $$p(x \mid p) = p^x (1-p)^{1-x}, \quad x \in \{0, 1\}$$ 參數：$\theta = p$ 多項式分佈（Multinomial）： $$p(x \mid \boldsymbol{\pi}) = \prod_{k=1}^K \pi_k^{x_k}$$ 參數：$\theta = (\pi_1, \dots, \pi_K)$

Parametric vs. Non-parametric

特性	Parametric	Non-parametric
參數數量	固定（與資料量無關）	隨資料量增長
假設	強假設（分佈形式已知）	弱假設
樣本需求	較少	較多
計算複雜度	較低	較高
彈性	低（受限於假設）	高
範例	Linear Regression, Logistic Regression, Naive Bayes	KNN, Decision Trees, Kernel Methods

MLE：最大似然估計

Maximum Likelihood Estimation

核心概念

最大似然估計（MLE） 的想法是：找到參數 $\theta$，使得觀測到的資料 $\mathcal{D}$ 出現的機率最大。

似然函數（Likelihood）： $$L(\theta \mid \mathcal{D}) = p(\mathcal{D} \mid \theta) = \prod_{i=1}^n p(x_i \mid \theta)$$ 對數似然（Log-likelihood）： $$\ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log p(x_i \mid \theta)$$ MLE 估計： $$\hat{\theta}_{\text{MLE}} = \arg\max_\theta \ell(\theta)$$

求解方法

通常透過對 $\ell(\theta)$ 微分並令其為零：

\[\frac{\partial \ell(\theta)}{\partial \theta} = 0\]

範例：Gaussian Distribution 的 MLE

假設資料 $x_1, \dots, x_n$ 來自 $\mathcal{N}(\mu, \sigma^2)$：

對數似然： $$ \ell(\mu, \sigma^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i - \mu)^2 $$ 對 $\mu$ 求導並令為零： $$ \frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n (x_i - \mu) = 0 $$ 得到： $$ \hat{\mu}_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n x_i \quad \text{（樣本平均）} $$ 對 $\sigma^2$ 求導並令為零： $$ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4}\sum_{i=1}^n (x_i - \mu)^2 = 0 $$ 得到： $$ \hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n (x_i - \hat{\mu})^2 \quad \text{（樣本變異數）} $$

💡 重要性質：

Consistency（一致性）： 當 $n \to \infty$，$\hat{\theta}_{\text{MLE}} \to \theta_{\text{true}}$
Asymptotic Normality： 大樣本下近似常態分佈
Asymptotic Efficiency： 漸近最小變異數

MAP 與 Bayesian Estimation 的差異

貝葉斯觀點

三種估計方法的比較

方法	目標	公式	輸出
MLE	最大化似然	$\arg\max_\theta p(\mathcal{D} \mid \theta)$	點估計（單一值）
MAP	最大化後驗	$\arg\max_\theta p(\theta \mid \mathcal{D})$	點估計（單一值）
Bayesian	計算後驗分佈	$p(\theta \mid \mathcal{D})$	完整分佈

Maximum A Posteriori (MAP)

MAP 考慮參數的事前分佈（prior） $p(\theta)$：

後驗分佈（Posterior）： $$ p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) p(\theta)}{p(\mathcal{D})} \propto p(\mathcal{D} \mid \theta) p(\theta) $$ MAP 估計： $$ \hat{\theta}_{\text{MAP}} = \arg\max_\theta p(\theta \mid \mathcal{D}) = \arg\max_\theta \left[ \log p(\mathcal{D} \mid \theta) + \log p(\theta) \right] $$

與 MLE 的關係

當 prior $p(\theta)$ 是 uniform（均勻分佈） 時： $\hat{\theta}_{\text{MAP}} = \hat{\theta}_{\text{MLE}}$
當 prior 是 Gaussian $\mathcal{N}(0, \lambda^{-1})$ 時，MAP 等價於 L2 regularization（Ridge Regression）

Bayesian Estimation

Bayesian 方法不做點估計，而是保留整個後驗分佈 $p(\theta \mid \mathcal{D})$。

預測新資料點時：

$$ p(x_{\text{new}} \mid \mathcal{D}) = \int p(x_{\text{new}} \mid \theta) p(\theta \mid \mathcal{D}) \, d\theta $$ 這稱為 **posterior predictive distribution（後驗預測分佈）**，對所有可能的 $\theta$ 做加權平均。

🔑 關鍵差異：

MAP： 用「最可能的」參數值來預測（點估計）
Bayesian： 考慮參數的「不確定性」，對所有可能參數做積分
**Bayesian 更穩健，** 特別在資料不足時
**MAP 計算更簡單，** 不需要處理積分

Bias-Variance Tradeoff

估計誤差分析

基本概念

任何估計器 $\hat{\theta}$ 的均方誤差（Mean Squared Error, MSE） 可以分解為：

\text{MSE}(\hat{\theta}) = \mathbb{E}\left[(\hat{\theta} - \theta_{\text{true}})^2\right] = \text{Bias}^2(\hat{\theta}) + \text{Var}(\hat{\theta}) $$ 其中： Bias（偏差）： $$\text{Bias}(\hat{\theta}) = \mathbb{E}[\hat{\theta}] - \theta_{\text{true}}$$ Variance（變異數）： $$\text{Var}(\hat{\theta}) = \mathbb{E}\left[(\hat{\theta} - \mathbb{E}[\hat{\theta}])^2\right]

Unbiased vs. Biased Estimator

Unbiased Estimator（不偏估計器）：

滿足 $\mathbb{E}[\hat{\theta}] = \theta_{\text{true}}$
範例：樣本平均 $\hat{\mu} = \frac{1}{n}\sum x_i$ 是 $\mu$ 的不偏估計

Biased Estimator（有偏估計器）：

$\mathbb{E}[\hat{\theta}] \neq \theta_{\text{true}}$
範例：MLE 的 $\hat{\sigma}^2 = \frac{1}{n}\sum(x_i - \bar{x})^2$ 是 有偏的

為什麼 MLE 的變異數估計是有偏的？

MLE 估計的變異數： $$\hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2$$ 期望值： $$ \mathbb{E}[\hat{\sigma}^2_{\text{MLE}}] = \frac{n-1}{n}\sigma^2 \neq \sigma^2 $$ 因此它是 **低估（underestimate）** 的有偏估計器。 不偏估計器（Unbiased estimator）： $$\hat{\sigma}^2_{\text{unbiased}} = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2$$ 這就是為什麼統計軟體通常使用 $n-1$ 而非 $n$（稱為 **Bessel's correction**）。

為什麼接受 Biased Estimator？

雖然 biased，但 MLE 的變異數估計器有更低的變異數（lower variance）：

$\text{Var}(\hat{\sigma}^2{\text{MLE}})$ < $\text{Var}(\hat{\sigma}^2{\text{unbiased}})$
在某些情況下，MSE 反而更小！

💡 核心洞察：
我們關心的是 MSE = Bias² + Variance，而非單純的 unbiasedness。
有時候接受一點 bias，可以換來更低的 variance，總體誤差反而更小。
這就是 Bias-Variance Tradeoff 的精神！

Tradeoff 的直覺

High Bias, Low Variance： 模型太簡單（underfitting）
- 例如用線性模型擬合非線性資料
Low Bias, High Variance： 模型太複雜（overfitting）
- 例如高次多項式完美擬合訓練資料
理想狀態： 在兩者之間找到平衡點

Generative Approach 用於分類

生成式分類

核心思想

Generative Approach** 為每個類別 $C_k$ 建模**聯合機率分佈 $p(x, C_k)$，然後用貝葉斯定理來分類。

完整流程

建模類別先驗（Class Prior）： $$p(C_k) = \frac{N_k}{N}$$ 其中 $N_k$ 是類別 $k$ 的樣本數，$N$ 是總樣本數。
建模條件機率（Class-conditional Density）： $$p(x \mid C_k) \sim \mathcal{N}(\mu_k, \Sigma_k)$$ 使用 MLE 或 MAP 估計每個類別的參數 $\mu_k, \Sigma_k$。
計算聯合機率： $$p(x, C_k) = p(x \mid C_k) p(C_k)$$
用貝葉斯定理計算後驗： $$p(C_k \mid x) = \frac{p(x \mid C_k) p(C_k)}{p(x)} = \frac{p(x \mid C_k) p(C_k)}{\sum_{j} p(x \mid C_j) p(C_j)}$$
分類決策： $$\hat{C} = \arg\max_k p(C_k \mid x)$$

常見的 Generative Models

1. Gaussian Discriminant Analysis (GDA)

假設每個類別的 $p(x \mid C_k)$ 是高斯分佈
變體：
- Linear Discriminant Analysis (LDA)： 所有類別共享相同的 $\Sigma$
- Quadratic Discriminant Analysis (QDA)： 每個類別有不同的 $\Sigma_k$

2. Naive Bayes

假設特徵條件獨立： $p(x \mid C_k) = \prod_{j=1}^d p(x_j \mid C_k)$
簡化計算，適合高維資料

Generative vs. Discriminative

特性	Generative	Discriminative
建模對象	$p(x, y)$ 或 $p(x \mid y)$	$p(y \mid x)$ 直接建模
範例	Naive Bayes, GDA, HMM	Logistic Regression, SVM
優點	可生成新資料、處理缺失值	通常更高的分類準確率
資料需求	需要更多資料（建模完整分佈）	較少（只需學習決策邊界）

🎯 何時使用 Generative Approach？

資料量充足
需要生成新樣本（例如 GAN）
需要處理缺失特徵
類別先驗 $p(C_k)$ 對決策很重要
想要解釋「為什麼」而非只是「分類結果」

總結

Parametric Methods 是機器學習的基石，透過有限參數來描述資料分佈：

MLE 找最大似然的參數（不考慮 prior）
MAP 加入 prior，等價於 regularization
Bayesian 保留完整的後驗分佈，更穩健但計算複雜
Bias-Variance Tradeoff 提醒我們：不偏不等於最好
Generative Approach 建模聯合分佈，可用於分類與生成

這些概念串連起整個機器學習的理論基礎，從估計、推論到分類決策。

參考資料

Bishop, Pattern Recognition and Machine Learning, Chapter 2 & 4
Murphy, Machine Learning: A Probabilistic Perspective, Chapter 5
Hastie, Tibshirani, Friedman, The Elements of Statistical Learning, Chapter 2

Ch03: Bayesian Decision Theory

2026-03-16T04:00:00+00:00

一句話解釋

用 Bayes’ Rule 計算 posterior，再依據 loss function 做出期望風險最小的決策。

隨機變數與機率分佈

機率建模

基本假設

資料 $x$ 視為從某個機率分佈 $p(x)$ 抽出的隨機變數。 目標： - 從樣本推論出 $p(x)$ 的性質 - 對新觀察做預測或決策

為什麼要用機率？

不確定性建模： 現實世界充滿雜訊和未知因素
有限資料： 無法觀察所有可能的情況
模型不完美： 真實關係可能太複雜，只能用機率近似

機率觀點：
分類不是找「絕對正確」的答案，而是找「最可能」的答案。

Bayesian Classification

後驗機率

Bayes’ Rule 回顧

$ p(C_k \mid x) = \frac{p(x \mid C_k)\, p(C_k)}{p(x)} $$ 各項意義： - $p(C_k)$：**Prior（先驗機率）** — class $C_k$ 出現的機率 - $p(x \mid C_k)$：**Class-conditional density（likelihood）** — 給定 $C_k$ 時觀察到 $x$ 的機率 - $p(C_k \mid x)$：**Posterior（後驗機率）** — 觀察到 $x$ 後，$C_k$ 的機率 - $p(x)$：**Evidence** — $p(x) = \sum_k p(x \mid C_k) p(C_k)

決策規則

Bayesian Decision Rule

選擇 posterior 最大的 class： $$ \hat{C} = \arg\max_{k} p(C_k \mid x) $$ 等價於（分母 $p(x)$ 相同，可忽略）： $$ \hat{C} = \arg\max_{k} p(x \mid C_k)\, p(C_k) $$

實例：Spam Detection

問題：郵件包含「free」這個字，是垃圾郵件嗎？

已知：

$p(\text{spam}) = 0.3$（prior：30% 郵件是垃圾）
$p(\text{free} \mid \text{spam}) = 0.8$（垃圾郵件 80% 含「free」）
$p(\text{free} \mid \text{ham}) = 0.1$（正常郵件 10% 含「free」）

計算 posterior：

\[\begin{align} p(\text{spam} \mid \text{free}) &= \frac{p(\text{free} \mid \text{spam}) \, p(\text{spam})}{p(\text{free})} \\ &= \frac{0.8 \times 0.3}{0.8 \times 0.3 + 0.1 \times 0.7} \\ &= \frac{0.24}{0.24 + 0.07} = \frac{0.24}{0.31} \approx 0.774 \end{align}\]

結論：77.4% 機率是垃圾郵件，應標記為 spam。

Losses and Risks

決策代價

為什麼需要 Loss？

現實中，不同類型的錯誤代價不同。

例：醫療診斷

漏診（false negative）→ 病人錯過治療，代價極高
誤診（false positive）→ 多做檢查，代價較低

Loss Matrix

\lambda_{ij}$：真實 class 為 $C_j$，但採取 action $\alpha_i$ 所造成的 loss。 真實 $C_1$ 真實 $C_2$ 預測 $C_1$ $\lambda_{11}$ $\lambda_{12}$ 預測 $C_2$ $\lambda_{21}$ $\lambda_{22}$ 通常對角線（正確分類）loss 為 0：$\lambda_{11} = \lambda_{22} = 0

	真實 $C_1$	真實 $C_2$
預測 $C_1$	$\lambda_{11}$	$\lambda_{12}$
預測 $C_2$	$\lambda_{21}$	$\lambda_{22}$

Expected Risk

Definition: Expected Risk

採取 action $\alpha_i$ 的期望風險： $$ R(\alpha_i \mid x) = \sum_{k=1}^K \lambda_{ik}\, p(C_k \mid x) $$ 最優決策：選擇期望風險最小的 action $$ \hat{\alpha} = \arg\min_{\alpha_i} R(\alpha_i \mid x) $$

特例：0/1 Loss

0/1 loss： $$ \lambda_{ik} = \begin{cases} 0 & \text{if } i = k \\ 1 & \text{if } i \neq k \end{cases} $$ Expected risk： $$ R(\alpha_i \mid x) = \sum_{k \neq i} p(C_k \mid x) = 1 - p(C_i \mid x) $$ **最小化 risk 等價於最大化 posterior！** $$ \arg\min_i R(\alpha_i \mid x) = \arg\max_i p(C_i \mid x) $$

結論：
0/1 loss 下，Bayesian decision rule 就是選 posterior 最大的 class。

例：醫療診斷的 Loss

設定：

$C_1$：有病，$C_2$：無病
$\alpha_1$：診斷為有病（治療），$\alpha_2$：診斷為無病（不治療）

Loss matrix：

	真實有病	真實無病
診斷有病	0	1
診斷無病	10	0

正確診斷：loss = 0
誤診（false positive）：loss = 1（多做治療）
漏診（false negative）：loss = 10（錯過治療，嚴重！）

Expected risks：

\[\begin{align} R(\alpha_1 \mid x) &= 0 \cdot p(C_1 \mid x) + 1 \cdot p(C_2 \mid x) = p(C_2 \mid x) \\ R(\alpha_2 \mid x) &= 10 \cdot p(C_1 \mid x) + 0 \cdot p(C_2 \mid x) = 10\, p(C_1 \mid x) \end{align}\]

決策：選 $\alpha_1$（診斷有病）當

p(C_2 \mid x) < 10\, p(C_1 \mid x)

 \Rightarrow p(C_1 \mid x) > \frac{1}{11} \approx 0.09

\[只要有病機率 > 9%，就該治療！（比 0/1 loss 的 50% 低很多）

### Reject Option

Reject Option（拒絕分類）：

當所有 class 的 posterior 都低於閾值 $\theta$ 時，選擇**拒答**。


應用場景：
人工審核系統：不確定時交給專家
金融風控：拒絕高風險交易
醫療診斷：建議進一步檢查

決策規則（with reject）：\] \hat{C} = \begin{cases} \arg\max_k p(C_k \mid x) & \text{if } \max_k p(C_k \mid x) \geq \theta \text{reject} & \text{otherwise} \end{cases} $$

Discriminant Functions

實作方式

定義

將分類實作為 **discriminant function** $g_k(x)$： $$ \hat{C} = \arg\max_k g_k(x) $$ 常見選擇： **選項 1：直接用 posterior** $$ g_k(x) = p(C_k \mid x) $$ **選項 2：用 log-posterior（避免數值下溢）** $$ g_k(x) = \log p(C_k \mid x) = \log p(x \mid C_k) + \log p(C_k) - \log p(x) $$ 由於 $\log p(x)$ 對所有 $k$ 相同，可簡化為： $$ g_k(x) = \log p(x \mid C_k) + \log p(C_k) $$

為什麼用 Discriminant Function？

計算效率： 不需要計算 $p(x)$（所有 class 共用）
數值穩定： log 避免機率乘積的下溢問題
簡化模型： 很多模型直接學習 $g_k(x)$，不經過 posterior

Decision Regions & Boundaries

幾何觀點

定義

Decision Region $\mathcal{R}_k$：被分到 class $C_k$ 的輸入空間區域 $$ \mathcal{R}_k = \{x : g_k(x) > g_j(x), \forall j \neq k\} $$ Decision Boundary：不同 decision region 的交界 $$ \{x : g_i(x) = g_j(x)\} $$

幾何直觀

    Decision region：輸入空間被分割成多個區域
Decision boundary：多個 $g_k(x)$ 值相等的地方
Boundary 上的點是「最難分類」的點，多個 class 的機率相近

  

例：兩個 Gaussian Class

設定：

$p(x \mid C_1) = \mathcal{N}(\mu_1, \Sigma)$
$p(x \mid C_2) = \mathcal{N}(\mu_2, \Sigma)$（相同 covariance）
$p(C_1) = p(C_2) = 0.5$

Discriminant function：

\[\begin{align} g_k(x) &= \log p(x \mid C_k) + \log p(C_k) \\ &= -\frac{1}{2}(x - \mu_k)^T \Sigma^{-1} (x - \mu_k) + \text{const} \end{align}\]

Decision boundary：$g_1(x) = g_2(x)$

經過化簡，這是一條直線（linear boundary）！

\[w^T x + w_0 = 0\]

其中 $w = \Sigma^{-1}(\mu_1 - \mu_2)$

結論：相同 covariance 的 Gaussian → linear decision boundary

不同 Covariance

若 $C_1$ 和 $C_2$ 有不同的 $\Sigma_1, \Sigma_2$，decision boundary 是二次曲線（quadratic）。 這導致： - Linear Discriminant Analysis (LDA)：假設相同 covariance - Quadratic Discriminant Analysis (QDA)：允許不同 covariance

總結

Bayesian Decision Theory 的核心：

用 Bayes’ Rule 計算 posterior $p(C_k \mid x)$
定義 loss function $\lambda_{ik}$ 反映錯誤代價
計算 expected risk $R(\alpha_i \mid x)$
選擇 risk 最小的 action

實作方式：

Discriminant function $g_k(x)$
Decision regions 與 boundaries
Reject option 處理不確定性

下一步：

Parametric Methods：如何估計 $p(x \mid C_k)$（Gaussian, MLE, MAP）
Non-parametric Methods：KNN, Kernel Density Estimation
Discriminative Models：直接學習 $p(C_k \mid x)$（Logistic Regression, SVM）

參考資料

Bishop, Pattern Recognition and Machine Learning, Chapter 1.5
Duda, Hart & Stork, Pattern Classification, Chapter 2
Murphy, Machine Learning: A Probabilistic Perspective, Chapter 5

Ch02: Supervised Learning

2026-03-16T03:00:00+00:00

一句話解釋

從有標註的資料中學習 input → output 的映射，並期望在未見資料上表現良好。

基本框架

核心概念

監督式學習的組成

給定： - 訓練資料 $D = \{(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)\}$ - $x_i \in \mathcal{X}$：輸入空間（input space） - $y_i \in \mathcal{Y}$：輸出空間（output space） 目標： 找一個 hypothesis $h: \mathcal{X} \to \mathcal{Y}$，使得： - $h(x) \approx y$ 對訓練資料成立 - $h(x)$ 在**未見資料**上也表現良好（generalization）

三個關鍵決策

決策	說明
1. Model（Hypothesis Space H）	定義候選模型的範圍例：線性模型、決策樹、神經網路
2. Loss Function	如何衡量預測錯誤例：0/1 loss、squared loss、cross-entropy
3. Optimization Algorithm	如何找到最佳 h 例：梯度下降、EM algorithm

Hypothesis Space

Hypothesis h：候選的「機器」（模型），從 hypothesis space $\mathcal{H}$ 中挑選。

$\mathcal{H}$ 的選擇決定了模型的表達能力和學習難度。

誤差類型

Training vs. Generalization

Training Error（經驗風險）： $$ \hat{R}(h) = \frac{1}{N} \sum_{i=1}^N \mathbb{1}[h(x_i) \neq y_i] $$ $h$ 在訓練集上的錯誤率。 Generalization Error（真實風險）： $$ R(h) = \mathbb{E}_{(x,y) \sim \mathcal{D}}[\mathbb{1}[h(x) \neq y]] $$ $h$ 在所有可能資料上的真實錯誤率（來自未知的真實分佈 $\mathcal{D}$）。

核心問題

⚠️ 關鍵挑戰：
Training error 低 $\neq$ Generalization error 低

Overfitting：模型在訓練資料上表現完美，但在新資料上表現差。

為什麼會 Overfitting？

模型太複雜： $\mathcal{H}$ 太大，能「記住」訓練資料的雜訊
訓練資料太少： 無法充分代表真實分佈
訓練時間太長： 過度優化訓練誤差

VC Dimension

模型複雜度

定義

Definition: VC Dimension

Vapnik-Chervonenkis Dimension** 衡量 hypothesis class $\mathcal{H}$ 的**複雜度（表達能力）。 Shattering： 若 $\mathcal{H}$ 能對某個大小為 $N$ 的資料集實現**所有可能的 labeling**（$2^N$ 種），稱 $\mathcal{H}$ **shatters** 這個資料集。 $$ VC(\mathcal{H}) = \max\{N : \mathcal{H} \text{ can shatter some dataset of size } N\} $$

直觀理解

VC dimension 是 $\mathcal{H}$ 能完美記住（shatter）的最大資料集大小。

VC dimension 越大 → 模型越複雜 → 表達能力越強 → 需要更多資料才能學好。

經典例子

例 1：平面上的直線分類器

$\mathcal{H} = {h(x, y) = \text{sign}(ax + by + c)}$

問：VC dimension 是多少？

答：$VC(\mathcal{H}) = 3$

證明概念：

存在 3 個點，可以被直線 shatter（任意 $2^3 = 8$ 種 labeling 都能分開）
任意 4 個點，至少有一種 labeling 無法被直線分開（XOR 問題）

例 2：$\mathbb{R}^n$ 上的線性分類器

$\mathcal{H} = {h(x) = \text{sign}(w^T x + b)}$，其中 $x \in \mathbb{R}^n$

\[VC(\mathcal{H}) = n + 1\]

意義：參數數量 = $n + 1$（$w$ 有 $n$ 個元素 + bias $b$）

一般來說，參數數量可以作為 VC dimension 的粗略估計。

VC Dimension 與 Generalization

Theorem: VC Generalization Bound

若 $VC(\mathcal{H}) = d$，則以機率至少 $1 - \delta$： $$ R(h) \leq \hat{R}(h) + \sqrt{\frac{d \log(N/d) + \log(1/\delta)}{N}} $$ 意義： - Generalization error 由 training error + 複雜度懲罰組成 - $d$ 越大 → 複雜度懲罰越大 → 需要更多資料 - $N$ 越大 → 複雜度懲罰越小 → generalization 越好

PAC Learning

可學習性理論

定義

Definition: PAC Learning

**Probably Approximately Correct Learning** 給定： - 誤差上限 $\epsilon$（**Approximately** Correct） - 失敗機率上限 $\delta$（**Probably**）若存在演算法，使用 $N$ 個訓練樣本後，以機率至少 $1 - \delta$ 輸出 hypothesis $h$ 滿足： $$ R(h) \leq \epsilon $$ 則稱 $\mathcal{H}$ 是 **PAC learnable**。

Sample Complexity

問：需要多少訓練資料 $N$？

Theorem: Haussler (有限 Hypothesis Space)

若 $|\mathcal{H}| < \infty$（有限個 hypothesis），則： $$ N \geq \frac{1}{\epsilon} \left( \ln |\mathcal{H}| + \ln \frac{1}{\delta} \right) $$ 保證以機率 $1 - \delta$，generalization error $\leq \epsilon$。

三個變數的關係

**1. $\epsilon$ 越小（要求越精確）** $$ N \propto \frac{1}{\epsilon} $$ 需要更多資料 **2. $\delta$ 越小（要求更有把握）** $$ N \propto \ln \frac{1}{\delta} $$ 需要更多資料（但只是對數成長） **3. $|\mathcal{H}|$ 越大（模型越複雜）** $$ N \propto \ln |\mathcal{H}| $$ 需要更多資料

實務意涵

Occam’s Razor（奧坎剃刀原則）：
在表現相同時，偏好較簡單的模型。

原因：

簡單模型需要較少資料
泛化能力更好
更易理解和維護

⚠️ No Free Lunch Theorem：
沒有一個演算法在所有問題上都最優。

必須根據問題特性和先驗知識選擇合適的 $\mathcal{H}$。

Regression vs. Classification

兩種主要任務

	Classification	Regression
Output 空間	離散（class label）	連續（實數）
例子	垃圾郵件偵測、圖像識別	房價預測、溫度預測
常見 Loss	0/1 loss, cross-entropy	Squared loss, absolute loss
評估指標	Accuracy, Precision, Recall, F1	MSE, MAE, $R^2$

共同點：

都屬於 supervised learning
都需要標註資料
都面臨 overfitting 問題
都可用 VC dimension 和 PAC learning 理論分析

總結

監督式學習的核心：

從 hypothesis space $\mathcal{H}$ 中選擇最佳 $h$
平衡 training error 與 generalization error
模型複雜度與資料量的權衡

理論工具：

VC Dimension： 衡量模型複雜度
PAC Learning： 分析樣本複雜度
Occam’s Razor： 偏好簡單模型

下一步：

Bayesian Decision Theory：如何做最優決策
具體演算法：Linear Models, SVM, Decision Trees 等

參考資料

Shalev-Shwartz & Ben-David, Understanding Machine Learning, Chapters 2-6
Abu-Mostafa et al., Learning from Data, Chapters 1-2
Vapnik, The Nature of Statistical Learning Theory

延伸影片

Chernoff Bound

2026-03-16T02:00:00+00:00

一句話解釋

對獨立 0/1 隨機變數的和，給出比 Chebyshev 更緊的尾部機率上界。

直覺理解

Markov 和 Chebyshev 只用到期望值或變異數，丟掉了大量資訊。Chernoff 的想法是：對任意 $\lambda > 0$，把事件 ${X \geq t}$ 換成 ${e^{\lambda X} \geq e^{\lambda t}}$，再對 $e^{\lambda X}$ 用 Markov。

指數函數會把尾部「放大」，讓上界隨 $t$ 指數衰減，而不是像 Chebyshev 的多項式衰減。最後再對 $\lambda$ 取最優值，讓上界盡可能緊。

數學推導

設定

令 $X_1, \dots, X_n$ 獨立，$X_i \in {0,1}$，$\Pr[X_i=1]=p_i$。令 $X = \sum X_i$，$\mu = \mathbb{E}[X]$。

推導步驟

1 $$\Pr[X \geq (1+\delta)\mu] = \Pr\!\left[e^{\lambda X} \geq e^{\lambda(1+\delta)\mu}\right]$$ 改寫事件 2 $$\leq \frac{\mathbb{E}[e^{\lambda X}]}{e^{\lambda(1+\delta)\mu}}$$ Markov 不等式 3 $$= \frac{\prod_i \mathbb{E}[e^{\lambda X_i}]}{e^{\lambda(1+\delta)\mu}}$$ 獨立性 → MGF 可分解 4 $$\leq \left(\frac{e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu$$ 取最優 λ，化簡

常用形式（$\delta \leq 1$）

上尾（Upper Tail）： $$\Pr[X \geq (1+\delta)\mu] \leq e^{-\mu\delta^2/3}$$ 下尾（Lower Tail）： $$\Pr[X \leq (1-\delta)\mu] \leq e^{-\mu\delta^2/2}$$

前提條件 / 適用範圍

✓ $X_i$ 彼此獨立
✓ $X_i \in \{0,1\}$（或有界）
✓ $\delta \in (0,1]$（常用形式）
✗ $X_i$ 有相關性時不能直接套用
✗ 無界的連續分佈需改用 Hoeffding 或 Bernstein

範例：硬幣投擲

問題

投擲 $n=1000$ 次公平硬幣，出現正面的次數 $X$ 超過 $600$ 次的機率上界？

解答

$\mu = np = 1000 \times 0.5 = 500$
要求 $\Pr[X \geq 600] = \Pr[X \geq (1+0.2) \times 500]$
這裡 $\delta = 0.2$

使用 Chernoff Bound（上尾）：

\[\Pr[X \geq 600] \leq e^{-500 \times (0.2)^2 / 3} = e^{-500 \times 0.04/3} \approx e^{-6.67} \approx 0.0013\]

結論：超過 600 次的機率小於 0.13%，非常不可能發生。

與 Chebyshev 比較

Chebyshev 給出：

\[\Pr[|X - 500| \geq 100] \leq \frac{\text{Var}(X)}{100^2} = \frac{250}{10000} = 0.025\]

Chernoff 的上界（$\approx 0.0013$）遠比 Chebyshev（$\approx 0.025$）緊！

與其他概念的關係

相關概念

參考資料

Mitzenmacher & Upfal, Probability and Computing
Wikipedia: Chernoff Bound
Lecture notes on Randomized Algorithms

Ch01: Introduction to Machine Learning

2026-03-16T02:00:00+00:00

一句話解釋

讓電腦透過範例資料或過去經驗，自動優化某個 performance criterion。

什麼是機器學習？

核心定義

Machine Learning：
設計並執行程式，透過樣本資料或過去經驗來優化某個性能指標（performance criterion）的過程。

核心元素

核心工具： 統計與機率理論
核心任務： 從樣本做推論（inference）
“Learning”： 執行程式來優化模型參數
“Model”： 對未來做預測，或從資料中獲取知識

與傳統編程的差異

傳統編程	機器學習
人工設計規則	從資料中學習規則
規則明確、可解釋	可能是黑盒模型
適合規則清晰的問題	適合規則複雜、難以明確描述的問題

機器學習的主要類型

分類方式

Supervised Learning

訓練資料：有標準答案（label）

目標：學習 input → output 的映射

例子：

分類（Classification）
迴歸（Regression）

Unsupervised Learning

訓練資料：**沒有** label

目標：發現資料內在結構

例子：

聚類（Clustering）
密度估計（Density Estimation）

Reinforcement Learning

訓練方式：與環境互動

目標：依據 reward/penalty 學習策略

例子：

遊戲 AI
機器人控制

其他學習類型

Semisupervised Learning： 少量有 label + 大量無 label 資料
Self-supervised Learning： 從資料本身構造監督訊號
Federated Learning： 分散式學習，保護資料隱私
Transfer Learning： 將一個任務學到的知識遷移到另一個任務
Active Learning： 主動選擇最有價值的樣本進行標註

機器學習的核心議題

理論基礎

三個關鍵問題

**1. 什麼時候演算法能學得好？** - Learnability（可學習性） - 需要滿足什麼條件？ **2. Generalization（泛化能力）** - 訓練好的模型能推廣到新資料嗎？ - 如何避免 overfitting？ **3. 樣本複雜度（Sample Complexity）** - 需要多少資料才夠？ - 資料量與模型複雜度的關係？

Bias-Variance Trade-off

核心衝突：

Bias（偏差）：模型太簡單，無法捕捉資料複雜性 → Underfitting
Variance（變異）：模型太複雜，過度擬合訓練資料 → Overfitting

機器學習的藝術在於找到兩者的平衡點。

評估方式

訓練集（Training Set）： 用於學習模型參數
驗證集（Validation Set）： 用於調整超參數、選擇模型
測試集（Test Set）： 用於評估最終模型的泛化能力

⚠️ 重要：測試集只能在最後使用一次，否則會洩漏資訊！

Bayes’ Rule（基礎工具）

機率推論

公式

$ p(C \mid x) = \frac{p(x \mid C)\, p(C)}{p(x)} $$ 各項意義： - $p(C)$：**Prior（先驗機率）** — 觀察資料前對 $C$ 的信念 - $p(x \mid C)$：**Likelihood（似然）** — 給定 $C$ 時觀察到 $x$ 的機率 - $p(C \mid x)$：**Posterior（後驗機率）** — 觀察到 $x$ 後對 $C$ 的信念 - $p(x)$：**Evidence（證據）** — 歸一化常數，$p(x) = \sum_C p(x \mid C) p(C)

貝氏推論的哲學

Bayesian Inference：
先有一個 prior belief，觀察到資料後，用 Bayes’ Rule 更新成 posterior belief。

解讀：

\[\text{Posterior} \propto \text{Likelihood} \times \text{Prior}\]

Likelihood 高：資料支持這個假設
Prior 高：在觀察前就相信這個假設
Posterior 結合兩者，給出最終的信念

實例：醫療診斷

假設某疾病發生率 1%（prior），某測試：

有病時測出陽性 95%（sensitivity）
無病時測出陽性 5%（false positive rate）

問：測出陽性時，真的有病的機率？

設 $D$ = 有病，$+$ = 測試陽性 $$ \begin{align} p(D \mid +) &= \frac{p(+ \mid D) \, p(D)}{p(+)} \\ &= \frac{0.95 \times 0.01}{0.95 \times 0.01 + 0.05 \times 0.99} \\ &= \frac{0.0095}{0.0095 + 0.0495} \\ &\approx 0.161 \end{align} $$

驚人結論：即使測試陽性，真的有病的機率只有 16.1%！
這是因為疾病太罕見（prior 低），false positive 影響很大。

總結

機器學習的本質：

從資料中學習模式
用學到的模式對未見資料做預測或決策
核心挑戰是泛化能力

基礎工具：

機率論：建模不確定性
Bayes’ Rule：從觀察更新信念
統計推論：從樣本推廣到母體

下一步：

監督式學習的詳細框架
VC Dimension 與 PAC Learning
Bayesian Decision Theory

參考資料

Bishop, Pattern Recognition and Machine Learning, Chapter 1
Murphy, Machine Learning: A Probabilistic Perspective, Chapter 1
Alpaydin, Introduction to Machine Learning, Chapter 1

Karger’s Min-Cut Algorithm

2026-03-16T02:00:00+00:00

一句話解釋

隨機選邊並收縮（contract），重複到剩兩個節點，剩下的邊就是候選割；成功率約 $\frac{2}{n^2}$，重複 $O(n^2 \log n)$ 次可高機率成功。

問題定義：Min-Cut

問題設定

最小割（Minimum Cut）

給定無向圖 $G = (V, E)$：

割（Cut）： 將頂點集 $V$ 分成兩個非空子集 $S$ 和 $T = V \setminus S$
割的大小： 連接 $S$ 和 $T$ 的邊數
最小割： 所有割中大小最小的

\text{Min-Cut}(G) = \min_{S \subset V, S \neq \emptyset, V} |\{(u,v) \in E : u \in S, v \in V \setminus S\}|

應用

網路可靠性： 最小割 = 切斷網路的最少邊數
圖像分割： 將影像分成前景與背景
社群檢測： 找出社交網路的分群

確定性演算法

Max-Flow Min-Cut： $O(mn)$ 或更好（但需選擇 source-sink 對）
Stoer-Wagner： $O(mn + n^2 \log n)$，確定性找全局最小割

Karger 的演算法更簡單，且對某些問題（如找所有近似最小割）更有效。

Karger’s 演算法

Edge Contraction

核心操作：邊收縮（Edge Contraction）

Contraction（收縮） 一條邊 $(u, v)$：

將 $u$ 和 $v$ 合併成一個新節點（超節點）
所有連到 $u$ 或 $v$ 的邊，都改連到新節點
移除自環（self-loops）

範例：
圖 $G$ 有邊 $(u, v)$，收縮後：

$u$ 和 $v$ 變成單一節點 $w$
原本的 $(u, x)$ 和 $(v, y)$ 變成 $(w, x)$ 和 $(w, y)$
如果 $u$ 和 $v$ 之間有多條邊，收縮後變成自環（被移除）

演算法流程

Algorithm: Karger's Min-Cut

Input: 無向圖 $G = (V, E)$，$|V| = n$
Output: 一個割（候選最小割）

**While** 圖還有超過 2 個節點：
- a. 隨機均勻選擇一條邊 $e \in E$
- b. 收縮 $e$（將兩端點合併）
**Return** 剩下的兩個超節點之間的所有邊（這是候選割）

關鍵觀察

每次收縮減少一個節點：$n \to n-1 \to \cdots \to 2$
總共收縮 $n-2$ 次
每次收縮都是隨機選擇，所以最終結果是隨機的

💡 為什麼可能成功？
如果我們從未收縮最小割中的邊，最後剩下的邊就是最小割！
問題是：這件事的機率有多大？

成功率分析

機率分析

定理

Theorem: 對於有 $n$ 個節點的圖 $G$，Karger 演算法找到最小割的機率**至少**為： $$ \Pr[\text{成功}] \geq \frac{2}{n(n-1)} \geq \frac{2}{n^2} $$

證明思路

令 $C$ 是最小割，$

= k$（最小割的大小）。

目標： 證明 $\Pr[\text{沒有收縮到 } C \text{ 中的邊}] \geq \frac{2}{n^2}$

Step 1: 每個節點的度數下界

因為最小割大小是 $k$，每個節點的度數至少是 $k$（否則該節點自己形成的割更小）。 $$ \deg(v) \geq k, \quad \forall v \in V $$ 因此總邊數： $$ |E| \geq \frac{nk}{2} $$

Step 2: 第一次收縮不碰到 min-cut 的機率

第一次隨機選邊，選到 $C$ 中的邊的機率： $$ \Pr[\text{選到 } C] = \frac{k}{|E|} \leq \frac{k}{nk/2} = \frac{2}{n} $$ 所以**不選到** $C$ 的機率： $$ \Pr[\text{不選到 } C] \geq 1 - \frac{2}{n} = \frac{n-2}{n} $$

Step 3: 第 $i$ 次收縮

在第 $i$ 次收縮時，還剩 $n-i+1$ 個（超）節點。 關鍵： 最小割仍是 $k$（收縮不會減少最小割的大小，只要我們沒碰到它）。 邊數至少：$\frac{(n-i+1) \cdot k}{2}$ 不選到 $C$ 的機率： $$ \Pr[\text{第 } i \text{ 次不選到 } C \mid \text{前 } i-1 \text{ 次都沒選到}] \geq \frac{n-i-1}{n-i+1} $$

Step 4: 連鎖機率

所有 $n-2$ 次收縮都不選到 $C$ 的機率： $$ \begin{align} \Pr[\text{成功}] &= \prod_{i=1}^{n-2} \Pr[\text{第 } i \text{ 次不選到 } C \mid \text{前面都沒選到}] \\ &\geq \prod_{i=1}^{n-2} \frac{n-i-1}{n-i+1} \\ &= \frac{n-2}{n} \cdot \frac{n-3}{n-1} \cdot \frac{n-4}{n-2} \cdots \frac{2}{4} \cdot \frac{1}{3} \\ &= \frac{2 \cdot 1}{n \cdot (n-1)} = \frac{2}{n(n-1)} \end{align} $$

🎯 結論：
單次執行成功率約 $\frac{2}{n^2}$。雖然很小，但多項式級別（不是指數小）！
這意味著重複多項式次就能高機率成功。

重複策略

提升成功率

重複執行

單次成功率 $p \geq \frac{2}{n^2}$，失敗率 $1-p \leq 1 - \frac{2}{n^2}$。

執行 $k$ 次，全部失敗的機率：

\Pr[\text{全部失敗}] = (1-p)^k \leq \left(1 - \frac{2}{n^2}\right)^k $$ 利用不等式 $1-x \leq e^{-x}$： $$ \Pr[\text{全部失敗}] \leq e^{-2k/n^2}

選擇重複次數

要達到成功率 $\geq 1 - \delta$： $$ e^{-2k/n^2} \leq \delta \quad \Rightarrow \quad k \geq \frac{n^2}{2} \ln \frac{1}{\delta} $$ 常見選擇： - $\delta = 1/n$：$k = O(n^2 \log n)$，成功率 $\geq 1 - 1/n$ - $\delta = 0.01$：$k = O(n^2)$，成功率 $\geq 99\%$

總時間複雜度

- 單次執行： $O(n^2)$（$n-2$ 次收縮，每次 $O(n)$） - 重複 $k$ 次： $O(k \cdot n^2) = O(n^4 \log n)$（若 $k = O(n^2 \log n)$） 改進版（Karger-Stein）： $O(n^2 \log^3 n)$，用遞迴策略

範例

簡單例子

考慮 4 個節點的環狀圖：

A --- B
|     |
D --- C

最小割大小 = 2（例如切掉 AB 和 CD）。

執行過程（一個可能的情況）：

隨機選 AB，收縮 → 剩 3 個超節點
隨機選 BC，收縮 → 剩 2 個超節點
剩下的邊 = {AD, CD}（不是最小割，失敗）

成功情況： 如果一直不選 AB 和 CD（假設它們是最小割的邊），最後剩下這兩條邊 → 成功！

成功率：$\frac{2}{4 \times 3} = \frac{1}{6} \approx 16.7\%$

總結

Karger’s Min-Cut 是隨機演算法的經典範例：

極簡演算法： 隨機選邊、收縮、重複
Monte Carlo 類型： 多項式時間，但可能失敗
成功率分析： 單次 $\geq \frac{2}{n^2}$，看似小但夠用
重複策略： $O(n^2 \log n)$ 次 → 高機率成功
總複雜度： $O(n^4 \log n)$（樸素版）

關鍵技巧： 機率分析中的連鎖機率、Union Bound、以及 amplification by repetition。

參考資料

Karger, “Global Min-Cuts in RNC and Other Ramifications of a Simple Min-Cut Algorithm”, 1993
Karger & Stein, “A New Approach to the Minimum Cut Problem”, 1996
Motwani & Raghavan, Randomized Algorithms, Chapter 10

機率基礎工具

2026-03-16T02:00:00+00:00

一句話解釋

分析隨機演算法的數學基礎：機率、條件機率、期望值，以及最重要的 Linearity of Expectation。

機率空間與公理

基本定義

機率空間

一個機率空間由三個元素組成：$(\Omega, \mathcal{F}, \Pr)$

樣本空間 $\Omega$： 所有可能結果的集合
事件空間 $\mathcal{F}$： $\Omega$ 的子集合族（可測事件）
機率測度 $\Pr$： $\mathcal{F} \to [0, 1]$ 的函數

Kolmogorov 機率公理

公理 1（非負性）： $$\Pr[A] \geq 0, \quad \forall A \in \mathcal{F}$$ 公理 2（規範性）： $$\Pr[\Omega] = 1$$ 公理 3（可數可加性）： 若 $A_1, A_2, \dots$ 兩兩互斥，則： $$\Pr\left[\bigcup_{i=1}^\infty A_i\right] = \sum_{i=1}^\infty \Pr[A_i]$$

衍生性質

1. 補集： $\Pr[\bar{A}] = 1 - \Pr[A]$ 2. 單調性： 若 $A \subseteq B$，則 $\Pr[A] \leq \Pr[B]$ 3. 聯集界（Union Bound）： $$\Pr[A \cup B] \leq \Pr[A] + \Pr[B]$$ 4. 包含排斥原理： $$\Pr[A \cup B] = \Pr[A] + \Pr[B] - \Pr[A \cap B]$$

條件機率與獨立性

條件機率

定義： 給定事件 $B$ 發生，事件 $A$ 發生的機率： $$ \Pr[A \mid B] = \frac{\Pr[A \cap B]}{\Pr[B]}, \quad \text{若 } \Pr[B] > 0 $$

Bayes 定理

Theorem: Bayes' Theorem

$$ \Pr[A \mid B] = \frac{\Pr[B \mid A] \cdot \Pr[A]}{\Pr[B]} $$ 全機率公式（Law of Total Probability）： 若 $B_1, \dots, B_n$ 分割 $\Omega$（兩兩互斥且聯集為 $\Omega$），則： $$ \Pr[A] = \sum_{i=1}^n \Pr[A \mid B_i] \cdot \Pr[B_i] $$

範例：疾病檢測

疾病盛行率：$\Pr[\text{病}] = 0.01$
檢測靈敏度：$\Pr[\text{陽性} \mid \text{病}] = 0.99$
偽陽性率：$\Pr[\text{陽性} \mid \text{健康}] = 0.05$

問：檢測陽性時，真的有病的機率？

\[\begin{align} \Pr[\text{病} \mid \text{陽性}] &= \frac{\Pr[\text{陽性} \mid \text{病}] \cdot \Pr[\text{病}]}{\Pr[\text{陽性}]} \\ &= \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.05 \times 0.99} \\ &\approx 0.166 \end{align}\]

只有 16.6%！偽陽性嚴重稀釋了陽性結果的意義。

獨立性

定義： 事件 $A$ 和 $B$ **獨立**若： $$ \Pr[A \cap B] = \Pr[A] \cdot \Pr[B] $$ 等價條件： - $\Pr[A \mid B] = \Pr[A]$（$B$ 不影響 $A$ 的機率） - $\Pr[B \mid A] = \Pr[B]$ 多個事件獨立： 事件 $A_1, \dots, A_n$ **互相獨立**若對任意子集 $I \subseteq \{1, \dots, n\}$： $$ \Pr\left[\bigcap_{i \in I} A_i\right] = \prod_{i \in I} \Pr[A_i] $$

隨機變數與期望值

期望值

隨機變數

隨機變數 $X$ 是從樣本空間到實數的函數：$X: \Omega \to \mathbb{R}$

期望值

離散情況： $$\mathbb{E}[X] = \sum_{x} x \cdot \Pr[X = x]$$ 連續情況： $$\mathbb{E}[X] = \int_{-\infty}^\infty x \cdot f_X(x) \, dx$$

期望值的性質

Theorem: Linearity of Expectation

線性性： $$\mathbb{E}[aX + bY] = a\mathbb{E}[X] + b\mathbb{E}[Y]$$ **關鍵：不需要 $X$ 和 $Y$ 獨立！** 推廣： $$\mathbb{E}\left[\sum_{i=1}^n X_i\right] = \sum_{i=1}^n \mathbb{E}[X_i]$$

🔑 為什麼重要？
Linearity of Expectation 是隨機演算法分析的最強工具：

即使變數高度相關，期望仍可加
可以把複雜問題分解成簡單部分
不需要計算聯合分佈

經典應用：期望比較次數

問題： Quicksort 的期望比較次數？

定義指示變數（Indicator）：

\[X_{ij} = \begin{cases} 1 & \text{若元素 } i \text{ 和 } j \text{ 有比較} \\ 0 & \text{否則} \end{cases}\]

總比較次數：

\[X = \sum_{i期望：

\[\mathbb{E}[X] = \sum_{i分析得 $\Pr[i \text{ 和 } j \text{ 比較}] = \frac{2}{j-i+1}$，所以：

\[\mathbb{E}[X] = 2n \ln n + O(n) = O(n \log n)\]

關鍵： 不需要知道 $X_{ij}$ 之間的相關性！

常見分佈

重要分佈

Bernoulli 分佈

定義： 單次試驗，成功率 $p$ $$ X \sim \text{Bernoulli}(p) $$ - $\Pr[X = 1] = p$，$\Pr[X = 0] = 1-p$ - $\mathbb{E}[X] = p$ - $\text{Var}(X) = p(1-p)$

Binomial 分佈

定義： $n$ 次獨立 Bernoulli$(p)$ 試驗的成功次數 $$ X \sim \text{Binomial}(n, p) $$ - $\Pr[X = k] = \binom{n}{k} p^k (1-p)^{n-k}$ - $\mathbb{E}[X] = np$ - $\text{Var}(X) = np(1-p)$ 推導（用 Linearity）： 令 $X = X_1 + \cdots + X_n$，其中 $X_i \sim \text{Bernoulli}(p)$ $$ \mathbb{E}[X] = \mathbb{E}[X_1] + \cdots + \mathbb{E}[X_n] = np $$

Geometric 分佈

定義： 直到第一次成功的試驗次數 $$ X \sim \text{Geometric}(p) $$ - $\Pr[X = k] = (1-p)^{k-1} p$ - $\mathbb{E}[X] = \frac{1}{p}$ - $\text{Var}(X) = \frac{1-p}{p^2}$ 無記憶性（Memoryless）： $$\Pr[X > n+m \mid X > n] = \Pr[X > m]$$

變異數與協方差

變異數

$ \text{Var}(X) = \mathbb{E}[(X - \mathbb{E}[X])^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 $$ 性質： - $\text{Var}(aX + b) = a^2 \text{Var}(X)$ - 若 $X, Y$ 獨立：$\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)

協方差

$ \text{Cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])] = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y] $$ 性質： - 若 $X, Y$ 獨立，則 $\text{Cov}(X, Y) = 0$（反之不一定） - $\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X, Y)

總結

機率工具是隨機演算法的基礎：

機率公理 → Union Bound、包含排斥
條件機率 → Bayes 定理、全機率
獨立性 → 簡化計算
期望值 → Linearity of Expectation（最重要！）
常見分佈 → Bernoulli, Binomial, Geometric

下一步：用這些工具分析演算法的時間、正確性與效能！

參考資料

Mitzenmacher & Upfal, Probability and Computing, Chapter 1-2
Motwani & Raghavan, Randomized Algorithms, Appendix A
Ross, A First Course in Probability

隨機複雜度類別

2026-03-16T02:00:00+00:00

一句話解釋

隨機演算法擴展了複雜度理論：RP 允許單向錯誤、BPP 允許雙向錯誤、ZPP 是 Las Vegas，都在多項式時間內。

Turing Machine 基礎

計算模型

Deterministic Turing Machine (DTM)

組成：

無限長紙帶（tape）
讀寫頭（head）
有限狀態控制（finite control）
轉移函數 $\delta(q, a) = (q’, a’, D)$
- $q$: 當前狀態，$a$: 讀到的符號
- $q’$: 新狀態，$a’$: 寫入符號，$D$: 移動方向

Probabilistic Turing Machine (PTM)

加入隨機選擇：

轉移函數變成機率分佈： $$ \delta(q, a) = \{(q'_1, a'_1, D_1, p_1), (q'_2, a'_2, D_2, p_2), \dots\} $$ 其中 $\sum_i p_i = 1$ 等價於：機器可以「擲硬幣」來決定下一步。

傳統複雜度類別

P 與 NP

P（Polynomial Time）

定義： 可在**確定性**多項式時間內解決的決策問題集合。 $$ \text{P} = \bigcup_{k \geq 0} \text{DTIME}(n^k) $$ 範例： - 最短路徑（Dijkstra） - 排序（Merge Sort） - 線性規劃（Ellipsoid Method）

NP（Nondeterministic Polynomial Time）

定義： 可在多項式時間內**驗證**解的決策問題集合。 等價定義：**非確定性** Turing Machine 可在多項式時間內解決。 $$ \text{NP} = \bigcup_{k \geq 0} \text{NTIME}(n^k) $$ 範例： - SAT（Boolean Satisfiability） - TSP（Traveling Salesman，判定版本） - Graph Coloring

co-NP

定義： 補問題（complement）在 NP 的問題集合。 $$ L \in \text{co-NP} \iff \bar{L} \in \text{NP} $$ 範例： - UNSAT（不可滿足性） - TAUTOLOGY（永真式）

關係

P ⊆ NP
P ⊆ co-NP
P = NP ∩ co-NP （已知）

未知： P ?= NP, NP ?= co-NP

隨機複雜度類別

RP, co-RP, ZPP, BPP

RP（Randomized Polynomial Time）

定義： Monte Carlo 演算法，**單向錯誤**（one-sided error）。 對語言 $L$： - 若 $x \in L$：$\Pr[\text{Accept}] \geq \frac{1}{2}$ - 若 $x \notin L$：$\Pr[\text{Accept}] = 0$（**不會誤判**） 特性： - Yes 答案一定對 - No 答案可能錯（但重複可降低錯誤率）

範例：質數測試（某些版本）

若 $n$ 是質數：高機率通過測試
若 $n$ 是合數：一定不通過測試

co-RP

定義： RP 的補類別。 對語言 $L$： - 若 $x \in L$：$\Pr[\text{Accept}] = 1$ - 若 $x \notin L$：$\Pr[\text{Reject}] \geq \frac{1}{2}$ 特性： - No 答案一定對 - Yes 答案可能錯

ZPP（Zero-error Probabilistic Polynomial）

定義： Las Vegas 演算法，**期望**多項式時間。 $$ \text{ZPP} = \text{RP} \cap \text{co-RP} $$ 特性： - 總是給出正確答案 - 運行時間隨機，期望多項式

範例：Randomized Quicksort
期望時間 $O(n \log n)$，總是正確排序。

BPP（Bounded-error Probabilistic Polynomial）

定義： Monte Carlo，**雙向錯誤**（two-sided error）。 對語言 $L$： - 若 $x \in L$：$\Pr[\text{Accept}] \geq \frac{2}{3}$ - 若 $x \notin L$：$\Pr[\text{Reject}] \geq \frac{2}{3}$ 關鍵： 錯誤率可透過重複降到任意小。

💡 為什麼用 2/3？
任何常數 $> 1/2$ 都可以（透過 amplification 達到任意接近 1）。
2/3 只是慣例，計算方便。

PP（Probabilistic Polynomial Time）

定義： 成功率 $> 1/2$（但可以非常接近 1/2）。 - 若 $x \in L$：$\Pr[\text{Accept}] > \frac{1}{2}$ - 若 $x \notin L$：$\Pr[\text{Accept}] < \frac{1}{2}$ 問題： 錯誤率可能是 $1/2 - 1/2^{n^{100}}$，無法有效 amplify！

類別關係圖

已知關係：

P ⊆ ZPP ⊆ RP ⊆ NP
P ⊆ ZPP ⊆ co-RP ⊆ co-NP
RP ⊆ BPP ⊆ PP
co-RP ⊆ BPP ⊆ PP
BPP ⊆ PSPACE

猜測（未證明）：
P = BPP （多數人相信）
RP ≠ NP

比較表

類別	模型	錯誤類型	範例
P	確定性	無錯誤	排序、最短路
RP	隨機	單向（Yes 對）	質數測試（某些）
co-RP	隨機	單向（No 對）	多項式等價測試
ZPP	隨機	無錯誤（Las Vegas）	Randomized Quicksort
BPP	隨機	雙向（可 amplify）	多項式等價測試
PP	隨機	雙向（難 amplify）	Majority-SAT

Amplification：降低錯誤率

重複執行

BPP 的 Amplification

原始： 錯誤率 $\leq 1/3$ 重複 $k$ 次，取多數決（Majority Vote）： 錯誤率降為： $$ \epsilon_k \leq e^{-\Omega(k)} $$ 具體地，Chernoff Bound 給出： $$ \epsilon_k \leq 2^{-\Omega(k)} $$ 範例： 重複 $k = O(\log n)$ 次 → 錯誤率 $\leq 1/n^c$（多項式小）

RP 的 Amplification

原始： 成功率 $\geq 1/2$ 重複 $k$ 次： 失敗率（全部失敗）： $$ (1/2)^k \leq 2^{-k} $$ 範例： 重複 $k = O(\log n)$ 次 → 失敗率 $\leq 1/n^c$

Coin Transformation

硬幣轉換

問題

只有有偏硬幣（bias coin），如何模擬公平硬幣？

Von Neumann Trick

假設： 硬幣正面機率 $p \in (0, 1)$（未知） 方法： 1. 擲兩次，觀察結果 2. 若 $(H, T)$ → 輸出 $0$ 3. 若 $(T, H)$ → 輸出 $1$ 4. 若 $(H, H)$ 或 $(T, T)$ → 重擲 分析： $$ \Pr[(H,T)] = p(1-p) = \Pr[(T,H)] $$ 所以輸出 0 和 1 的機率相等（$1/2$）！ 期望擲幣次數： $$ \mathbb{E}[\text{擲幣次數}] = \frac{2}{2p(1-p)} = \frac{1}{p(1-p)} $$

逆問題：模擬有偏硬幣

用公平硬幣模擬機率 $p = k/2^n$ 的事件：

擲 $n$ 次公平硬幣，得二進位數 $m \in [0, 2^n-1]$
若 $m < k$，輸出 1；否則輸出 0

總結

隨機複雜度類別擴展了計算理論：

RP： 單向錯誤（Yes 對），如質數測試
co-RP： 單向錯誤（No 對）
ZPP = RP ∩ co-RP： 無錯誤但時間隨機（Las Vegas）
BPP： 雙向錯誤，但可 amplify（最廣泛使用）
PP： 雙向但難 amplify（較不實用）

大猜想： P = BPP（隨機不真的增加計算能力？）

參考資料

Arora & Barak, Computational Complexity: A Modern Approach, Chapter 7
Goldreich, Computational Complexity: A Conceptual Perspective
Sipser, Introduction to the Theory of Computation, Chapter 10

隨機快速排序與選擇

2026-03-16T02:00:00+00:00

一句話解釋

隨機選 pivot 讓 Quicksort 期望 O(n log n)，避免 worst-case O(n²)；隨機選擇演算法期望 O(n) 找第 k 小。

Randomized QuickSort

演算法設計

確定性 Quicksort 的問題

Worst-case： $O(n^2)$

每次 pivot 都是最小/最大值
例如已排序陣列 + 總是選第一個元素

問題： 對手（adversary）可以構造最壞輸入

隨機化解法

Algorithm: Randomized QuickSort

Input: 陣列 $A[1..n]$
Output: 排序後的陣列

**If** $n \leq 1$: **Return** $A$
**隨機均勻**選擇 pivot $p \in A$
分割（Partition）：
- $L = \{x \in A : x < p\}$
- $M = \{x \in A : x = p\}$
- $R = \{x \in A : x > p\}$
遞迴排序 $L$ 和 $R$
**Return** QuickSort$(L)$ + $M$ + QuickSort$(R)$

def randomized_quicksort(A):
    if len(A) <= 1:
        return A
    
    pivot = random.choice(A)  # 隨機選 pivot
    L = [x for x in A if x < pivot]
    M = [x for x in A if x == pivot]
    R = [x for x in A if x > pivot]
    
    return randomized_quicksort(L) + M + randomized_quicksort(R)

關鍵觀察

隨機性在演算法內部，不依賴輸入分佈
任何輸入的期望時間都是 $O(n \log n)$
Worst-case 仍是 $O(n^2)$，但機率極小

期望時間分析

比較次數

分析策略

關鍵： 分析比較次數（dominate 運行時間）

設定

排序後陣列為 $z_1 \leq z_2 \leq \cdots \leq z_n$。

定義指示變數：

X_{ij} = \begin{cases} 1 & \text{若 } z_i \text{ 和 } z_j \text{ 有被比較} \\ 0 & \text{否則} \end{cases} $$ 總比較次數： $$ X = \sum_{i=1}^{n-1} \sum_{j=i+1}^n X_{ij}

期望值計算

用 **Linearity of Expectation**： $$ \mathbb{E}[X] = \sum_{i=1}^{n-1} \sum_{j=i+1}^n \mathbb{E}[X_{ij}] = \sum_{i=1}^{n-1} \sum_{j=i+1}^n \Pr[z_i \text{ 和 } z_j \text{ 比較}] $$

關鍵引理

Lemma: $$\Pr[z_i \text{ 和 } z_j \text{ 比較}] = \frac{2}{j - i + 1}$$ 證明思路： $z_i$ 和 $z_j$ 會比較，若且唯若： - 在 $\{z_i, z_{i+1}, \dots, z_j\}$ 中，**第一個被選為 pivot 的是 $z_i$ 或 $z_j$** 原因： - 若先選中間某個 $z_k$（$i < k < j$），則 $z_i$ 和 $z_j$ 被分到不同子陣列，永不比較 - 若先選 $z_i$ 或 $z_j$，它們會在 partition 時比較 機率： 在 $\{z_i, \dots, z_j\}$ 共 $j-i+1$ 個元素中，隨機選一個作為第一個 pivot： $$ \Pr[\text{選到 } z_i \text{ 或 } z_j] = \frac{2}{j-i+1} $$

最終計算

$$ \begin{align} \mathbb{E}[X] &= \sum_{i=1}^{n-1} \sum_{j=i+1}^n \frac{2}{j-i+1} \\ &= \sum_{i=1}^{n-1} \sum_{k=2}^{n-i+1} \frac{2}{k} \quad (\text{令 } k = j-i+1) \\ &\leq \sum_{i=1}^{n-1} \sum_{k=2}^{n} \frac{2}{k} \\ &= (n-1) \cdot 2 \sum_{k=2}^{n} \frac{1}{k} \\ &= (n-1) \cdot 2 (H_n - 1) \\ &= O(n \log n) \end{align} $$ 其中 $H_n = 1 + \frac{1}{2} + \cdots + \frac{1}{n} = \Theta(\log n)$ 是調和級數。

🎯 結論：
Randomized QuickSort 的期望比較次數是 $O(n \log n)$，對任何輸入都成立！

Randomized Selection（第 k 小）

QuickSelect

問題

輸入： 陣列 $A[1..n]$，整數 $k \in [1, n]$
輸出： 第 $k$ 小的元素

演算法

Algorithm: Randomized Select

隨機選 pivot $p \in A$
分割成 $L, M, R$（同 QuickSort）
**If** $k \leq |L|$: **Return** Select$(L, k)$
**Else If** $k \leq |L| + |M|$: **Return** $p$
**Else**: **Return** Select$(R, k - |L| - |M|)$

def randomized_select(A, k):
    if len(A) == 1:
        return A[0]
    
    pivot = random.choice(A)
    L = [x for x in A if x < pivot]
    M = [x for x in A if x == pivot]
    R = [x for x in A if x > pivot]
    
    if k <= len(L):
        return randomized_select(L, k)
    elif k <= len(L) + len(M):
        return pivot
    else:
        return randomized_select(R, k - len(L) - len(M))

關鍵差異

QuickSort：遞迴兩邊
QuickSelect：只遞迴一邊（包含第 $k$ 小的那邊）

QuickSelect 期望分析

期望時間

遞迴關係

令 $T(n)$ 是期望運行時間。

Partition 的期望行為： 假設 pivot 落在排序後的第 $i$ 位置（$1 \leq i \leq n$），機率 $\frac{1}{n}$。 - 若 $k \leq i$：遞迴到 $L$，大小 $\leq i-1$ - 若 $k > i$：遞迴到 $R$，大小 $\leq n-i$ 遞迴式： $$ T(n) \leq \frac{1}{n} \sum_{i=1}^{n} \left[ O(n) + T(\max(i-1, n-i)) \right] $$

簡化分析

定義「好的 pivot」： pivot 落在中間 50%（第 $n/4$ 到第 $3n/4$ 位）。 機率：$\frac{1}{2}$ 好的 pivot → 問題大小縮小到 $\leq \frac{3n}{4}$ 期望步數直到好的 pivot： 2 次 期望總時間： $$ T(n) \leq 2 \cdot O(n) + T(3n/4) = O(n) + T(3n/4) $$ 展開： $$ \begin{align} T(n) &\leq cn + T(3n/4) \\ &\leq cn + c(3n/4) + T((3/4)^2 n) \\ &\leq cn \sum_{i=0}^\infty (3/4)^i = cn \cdot \frac{1}{1 - 3/4} = 4cn = O(n) \end{align} $$

🎯 結論：
Randomized Select 的期望時間是 $O(n)$，線性時間找第 k 小！

與確定性演算法比較

確定性 Median-of-Medians 演算法：

Worst-case $O(n)$
但常數很大，實務上較慢

Randomized Select：

期望 $O(n)$，worst-case $O(n^2)$（機率極小）
簡單實作，實務上很快

實務考量

Hybrid 策略

實務中常用的優化：

小陣列用 Insertion Sort（$n \leq 10$）
Median-of-3： 選三個元素的中位數作 pivot（降低壞 pivot 機率）
三分法： 分成 $< p$, $= p$, $> p$ 處理重複元素

Python 的 sorted()

CPython 使用 Timsort（基於 Merge Sort + Insertion Sort），不是 Quicksort。

原因：

Stable（穩定排序）
對部分排序資料很快
Worst-case $O(n \log n)$（Quicksort 是期望）

但很多語言（C++ std::sort, Java）用混合的 Quicksort。

總結

Randomized Sorting & Selection 是隨機演算法的經典應用：

Randomized QuickSort：
- 期望 $O(n \log n)$ 比較
- 簡單、實用、快速
- 分析用 Linearity of Expectation
Randomized Select：
- 期望 $O(n)$ 找第 $k$ 小
- 比確定性演算法簡單得多
- 關鍵：只遞迴一邊
分析技巧：
- 指示變數 + Linearity
- 「好的 pivot」機率分析
- 幾何級數求和

參考資料

CLRS, Introduction to Algorithms, Chapter 7 & 9
Motwani & Raghavan, Randomized Algorithms, Chapter 1
Hoare, “Quicksort” (1961)

決策	說明
1. Model（Hypothesis Space H）	定義候選模型的範圍例：線性模型、決策樹、神經網路
2. Loss Function	如何衡量預測錯誤例：0/1 loss、squared loss、cross-entropy
3. Optimization Algorithm	如何找到最佳 h 例：梯度下降、EM algorithm