調整滑桿,即時看到 TD error 的大小與方向,以及對 V(S) 的更新效果。
在 3×4 格子地圖上,SARSA(on-policy)和 Q-Learning(off-policy)學到的路徑有何不同?
λ 控制各 n-step return 的權重比例,決定短視(低 bias)與遠視(低 variance)的平衡。