Policy Gradient (策略梯度) 是强化学习中的基础概念之一,在很多工作中都会使用(特别是对于可微化的工作)。本文内容主要来自于台大李宏毅的教学课件。 下载地址:1636956663-PPO (v3) 1 Policy of Actor 1.1 基本概念 强化学习是根据环境观测、自身动作以及反馈来学习网络的一种方式。它通常有以下一些概念:Policy 用  表示,它是一个深度神经网络,网络的参数为  Actor 用  表示,它是我们可以控制的动作。比如对于上面的游戏例子来说,我们每一步可以选择 left right fire 三种动作。它就是 Policy Gradient 学习的对象 Environment 表示环境,这是我们无法改变的。我们仅能对其进行观测 Observation Reward 用  表示,它是我们采用动作后从环境获得结果。比如对于上面的游戏的例子来说就是当前获得的分数。 State 用 表示,它是我们当前所处的状态 Trajectory 用  表示...