跳转至

强化学习定义

约 415 个字 预计阅读时间 2 分钟

策略函数 π(s,a):智能体在状态s下采取动作a的概率

确定的策略函数指在给定状态s的情况下,只有一个动作a使得概率π(s,a)取值为1,记a=π(s)

回报值Gt

价值函数Vπ(s)=Eπ[Gt|St=s]:智能体在时刻t处于状态s时,按照策略π采取行动时所获得回报的期望

动作-价值函数qπ(s,a)=Eπ[Gt|St=s,At=a]:表示智能体在时刻t处于状态s时,选择动作a后,在t时刻后根据策略π采取行动所获得回报的期望

强化学习问题可转化为一个策略学习问题:给定一个马尔可夫过程MDP=(S,A,P,R,γ),学习一个最优策略π s.t. sS,Vπ(s)max

贝尔曼方程:

Vπ(s)=Eπ[Rt+1+γRt+2+γ2Rt+3+|St=s]=Eaπ(s,)[Eπ[Rt+1+γRt+2+γ2Rt+3+|St=s,At=a]]=aAπ(s,a)qπ(s,a)
qπ(s,a)=Eπ[Rt+1+γRt+2+γ2Rt+3+|St=s,At=a]=EsP(|s,a)[R(s,a,s)+γEπ[Rt+2+γRt+3+|St+1=s]]=sSP(s|s,a)[R(s,a,s)+γVπ(s)]

互相带入,得贝尔曼方程:

Vπ(s)=Eaπ(s,)EsP(|s,a)[R(s,a,s)+γVπ(s)]
qπ(s,a)=EsP(|s,a)[R(s,a,s)+γEaπ(s,)|qπ(s,a)]