TD Error δ 的直覺

調整滑桿,即時看到 TD error 的大小與方向,以及對 V(S) 的更新效果。

5.0
1.0
6.0
0.90
TD Error 公式:δ = R + γ·V(S') − V(S)
R = 1.0 + γ·V(S') = 5.40 V(S) = 5.0 = δ = 1.40
負(高估)零(已收斂)正(低估)
5.00
V(S) 更新前
5.14
V(S) 更新後 (α=0.1)
+1.40
δ (TD error)

SARSA vs Q-Learning:Cliff Walking

在 3×4 格子地圖上,SARSA(on-policy)和 Q-Learning(off-policy)學到的路徑有何不同?

0.10
格子地圖(顏色 = 最大 Q 值,箭頭 = 最優 action)
Episode0
步數0
近10次平均reward
當前位置(2,0)
執行幾個 episode 後,這裡會顯示兩種演算法的學習差異。

λ 對 TD(λ) 的影響

λ 控制各 n-step return 的權重比例,決定短視(低 bias)與遠視(低 variance)的平衡。

0.50
Bias ↑
Variance ↑
λ = 0.50:近的 n-step return 權重大,遠的指數衰減。