强化学习代码汇总

不同的强化学习方法之间具有差异,除了言语表述外,用代码来理解不同学习方法的思路也是个好方法

基于 SARSA 算法的在线控制(同策学习)

关键公式:

Q(S,A)Q(S,A)+α(R+γQ(S,A)Q(S,A))Q(S, A) \leftarrow Q(S, A)+ \alpha \left (R+ \gamma Q \left(S^{\prime}, A^{\prime} \right)-Q(S, A) \right)

SARSA(λ) 算法流程

引入了资格迹

异策学习的 Q-Learning 的学习算法

关键公式:

Q(S,A)Q(S,A)+α(R+γmaxaQ(S,a)Q(S,A))Q(S, A) \leftarrow Q(S, A)+ \alpha \left (R+ \gamma \max _{a} Q \left (S^{\prime}, a\right)-Q(S, A)\right)


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!