Reinforcement Learning

Policy Gradient (策略梯度) 是强化学习中的基础概念之一，在很多工作中都会使用（特别是对于可微化的工作）。本文内容主要来自于台大李宏毅的教学课件。下载地址：1636956663-PPO (v3) 1 Policy of Actor 1.1 基本概念强化学习是根据环境观测、自身动作以及反馈来学习网络的一种方式。它通常有以下一些概念：Policy 用表示，它是一个深度神经网络，网络的参数为 Actor 用表示，它是我们可以控制的动作。比如对于上面的游戏例子来说，我们每一步可以选择 left right fire 三种动作。它就是 Policy Gradient 学习的对象 Environment 表示环境，这是我们无法改变的。我们仅能对其进行观测 Observation Reward 用表示，它是我们采用动作后从环境获得结果。比如对于上面的游戏的例子来说就是当前获得的分数。 State 用表示，它是我们当前所处的状态 Trajectory 用表示...

技术刘

分类： Reinforcement Learning

Policy Gradient (策略梯度)