Policy Gradient (策略梯度)
Policy Gradient (策略梯度) 是强化学习中的基础概念之一,在很多工作中都会使用(特别是对于可微化的工作)。本文内容主要来自于台大李宏毅的教学课件。
下载地址:1636956663-PPO (v3)
1 Policy of Actor
1.1 基本概念
强化学习是根据环境观测、自身动作以及反馈来学习网络的一种方式。它通常有以下一些概念:Policy 用 表示,它是一个深度神经网络,网络的参数为
Actor 用 表示,它是我们可以控制的动作。比如对于上面的游戏例子来说,我们每一步可以选择 left right fire 三种动作。它就是 Policy Gradient 学习的对象
Environment 表示环境,这是我们无法改变的。我们仅能对其进行观测 Observation
Reward 用 表示,它是我们采用动作后从环境获得结果。比如对于上面的游戏的例子来说就是当前获得的分数。
State 用 表示,它是我们当前所处的状态
Trajectory 用 表示...