强化学习代码汇总

不同的强化学习方法之间具有差异，除了言语表述外，用代码来理解不同学习方法的思路也是个好方法

基于 `SARSA` 算法的在线控制（同策学习）

关键公式：

$Q(S, A) \leftarrow Q(S, A)+ \alpha \left (R+ \gamma Q \left(S^{\prime}, A^{\prime} \right)-Q(S, A) \right)$

引入了资格迹

关键公式：

$Q(S, A) \leftarrow Q(S, A)+ \alpha \left (R+ \gamma \max _{a} Q \left (S^{\prime}, a\right)-Q(S, A)\right)$

强化学习

学习笔记

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！