🎮 強化學習
從 MDP 基礎到深度強化學習,探索 Agent 如何在環境中學習最佳策略
📖 課程筆記
尚無筆記,敬請期待...
🎯 互動工具
概念地圖
點擊節點查看每個概念的說明與關鍵公式。
公式視覺化
互動調整參數,直覺理解 TD error、SARSA vs Q-Learning 差異,以及 λ 對 TD(λ) 的影響。
概念測驗
12 題選擇題,涵蓋課程所有核心概念,附即時解析。
📚 主題架構
基礎框架 (Foundations)
- Markov Decision Process (MDP)
- Bellman Equations
- Dynamic Programming (Value Iteration, Policy Iteration)
免模型方法 (Model-Free)
- Monte Carlo Methods
- Temporal Difference (TD) Learning
- Q-Learning / SARSA
函數近似 (Function Approximation)
- Linear Function Approximation
- Deep Q-Network (DQN)
- Double DQN / Dueling DQN
策略梯度 (Policy Gradient)
- REINFORCE
- Actor-Critic Methods
- PPO / TRPO
進階主題 (Advanced)
- Multi-Agent RL
- Hierarchical RL
- Model-Based RL