关于
An introduction to Mathematical Optimal Control Theory 读书笔记
最优控制问题
受控微分动力系统
$$
\begin{align}
\dot{x}(t) &= f(x(t), \alpha(t)), t>0 \\
x(0) &= x^0
\end{align}
$$
Payoffs 函数
$$
P[\alpha(\cdot)] = \int_0^T r(x, \alpha) dt + g(x(T))
$$
g是终态回报,最优控制就是寻找是上式最大的控制函数!
当f是线性函数时,即系统是线性控制系统,存在bang-bang控制是最优控制!即$(|\alpha| = 1)$
最优控制实际上相当于系统模型已知的强化学习问题!并且是确定性系统,该系统用微分方程描述!
动态规划
值函数$(V(x, t))$
$$
V(x, t) = \sup_{\alpha \in A} P_{x, t} = \int_t^T r(x, \alpha) ds + g(X(T))
$$
值函数满足哈密顿-雅克比-贝尔曼方程HJB
$$
V_t + \max_{a \in A}{ f(x, a) \cdot \nabla_x V + r(s, a) } = 0
$$
解释:即在最优控制下,单位时间值函数的减小量等于回报!
动态规划求解步骤是,先根据HJB方程求出值函数,然后根据值函数设计控制策略!