强化学习定义¶

约 415 个字预计阅读时间 2 分钟

策略函数 $π (s, a)$ ：智能体在状态s下采取动作a的概率

确定的策略函数指在给定状态s的情况下，只有一个动作a使得概率 $π (s, a)$ 取值为1，记 $a = π (s)$

回报值 $G_{t}$

价值函数 $V_{π} (s) = E_{π} [G_{t} | S_{t} = s]$ ：智能体在时刻t处于状态s时，按照策略 $π$ 采取行动时所获得回报的期望

动作-价值函数 $q_{π} (s, a) = E_{π} [G_{t} | S_{t} = s, A_{t} = a]$ ：表示智能体在时刻t处于状态s时，选择动作a后，在t时刻后根据策略 $π$ 采取行动所获得回报的期望

强化学习问题可转化为一个策略学习问题：给定一个马尔可夫过程 $M D P = (S, A, P, R, γ)$ ，学习一个最优策略 $π^{*} s . t . \forall s \in S, V_{π^{*}} (s) max$

贝尔曼方程：

\begin{array}{ll} V_{π} (s) & = E_{π} [R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots | S_{t} = s] \\ = E_{a \sim π (s, \cdot)} [E_{π} [R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots | S_{t} = s, A_{t} = a]] \\ = \sum_{a \in A} π (s, a) q_{π} (s, a) \end{array}

\begin{array}{ll} q_{π} (s, a) & = E_{π} [R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots | S_{t} = s, A_{t} = a] \\ = E_{s^{'} \sim P (\cdot | s, a)} [R (s, a, s^{'}) + γ E_{π} [R_{t + 2} + γ R_{t + 3} + \dots | S_{t + 1} = s^{'}]] \\ = \sum_{s^{'} \in S} P (s^{'} | s, a) [R (s, a, s^{'}) + γ V_{π} (s^{'})] \end{array}

互相带入，得贝尔曼方程：

V_{π} (s) = E_{a \sim π (s, \cdot)} E_{s^{'} \sim P (\cdot | s, a)} [R (s, a, s^{'}) + γ V_{π} (s^{'})]

q_{π} (s, a) = E_{s^{'} \sim P (\cdot | s, a)} [R (s, a, s^{'}) + γ E_{a^{'} \sim π (s^{'}, \cdot)} | q_{π} (s^{'}, a^{'})]