🎮 強化學習

從 MDP 基礎到深度強化學習，探索 Agent 如何在環境中學習最佳策略

📖 課程筆記

尚無筆記，敬請期待...

🎯 互動工具

概念地圖

點擊節點查看每個概念的說明與關鍵公式。

公式視覺化

互動調整參數，直覺理解 TD error、SARSA vs Q-Learning 差異，以及 λ 對 TD(λ) 的影響。

概念測驗

12 題選擇題，涵蓋課程所有核心概念，附即時解析。

📚 主題架構

基礎框架 (Foundations)

Markov Decision Process (MDP)
Bellman Equations
Dynamic Programming (Value Iteration, Policy Iteration)

免模型方法 (Model-Free)

Monte Carlo Methods
Temporal Difference (TD) Learning
Q-Learning / SARSA

函數近似 (Function Approximation)

Linear Function Approximation
Deep Q-Network (DQN)
Double DQN / Dueling DQN

策略梯度 (Policy Gradient)

REINFORCE
Actor-Critic Methods
PPO / TRPO

進階主題 (Advanced)

Multi-Agent RL
Hierarchical RL
Model-Based RL

← 返回課程列表