强化学习代码汇总
不同的强化学习方法之间具有差异,除了言语表述外,用代码来理解不同学习方法的思路也是个好方法
基于 SARSA
算法的在线控制(同策学习)
关键公式:
SARSA(λ)
算法流程
引入了资格迹
异策学习的 Q-Learning
的学习算法
关键公式:
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!