强化学习定义¶
约 415 个字 预计阅读时间 2 分钟
策略函数
确定的策略函数指在给定状态s的情况下,只有一个动作a使得概率
取值为1,记
回报值
价值函数
动作-价值函数
强化学习问题可转化为一个策略学习问题:给定一个马尔可夫过程
贝尔曼方程:
互相带入,得贝尔曼方程:
约 415 个字 预计阅读时间 2 分钟
策略函数
确定的策略函数指在给定状态s的情况下,只有一个动作a使得概率
取值为1,记
回报值
价值函数
动作-价值函数
强化学习问题可转化为一个策略学习问题:给定一个马尔可夫过程
贝尔曼方程:
互相带入,得贝尔曼方程: