RL 公式視覺化

TD Error δ 的直覺

調整滑桿，即時看到 TD error 的大小與方向，以及對 V(S) 的更新效果。

V(S) 當前估計 5.0

R 即時 reward 1.0

V(S') 下步估計 6.0

γ discount 0.90

TD Error 公式：δ = R + γ·V(S') − V(S)

R = 1.0 + γ·V(S') = 5.40 − V(S) = 5.0 = δ = 1.40

負（高估）零（已收斂）正（低估）

5.00

V(S) 更新前

→

5.14

V(S) 更新後 (α=0.1)

+1.40

δ (TD error)

在 3×4 格子地圖上，SARSA（on-policy）和 Q-Learning（off-policy）學到的路徑有何不同？

ε (探索率) 0.10

格子地圖（顏色 = 最大 Q 值，箭頭 = 最優 action）

Episode0

步數0

近10次平均reward—

當前位置(2,0)

執行幾個 episode 後，這裡會顯示兩種演算法的學習差異。

λ 控制各 n-step return 的權重比例，決定短視（低 bias）與遠視（低 variance）的平衡。

λ 值 0.50

Bias ↑

高

Variance ↑

低

λ = 0.50：近的 n-step return 權重大，遠的指數衰減。