上QQ阅读APP看书,第一时间看更新
2.5 Dopamine简介
深度强化学习领域最近的一项有趣发展是Dopamine。Dopamine是关于深度强化学习算法的一种快速原型程序框架。本书将非常简要地介绍强化学习,但你需要知道如何安装Dopamine。
在强化学习领域,新用户很容易使用Dopamine。此外,虽然它不是谷歌的官方产品,但它的大多数开发人员都是谷歌员工。在编写本书时,这个框架的当前状态是非常紧凑的,并且提供了随时可用的算法。
运行下列指令以安装Dopamine:
可以通过执行以下操作来测试是否正确安装了Dopamine:
这条指令不会提供输出,除非有错误。通常情况下,Dopamine会利用它之外的许多程序库来做更多有趣的事情。现在,人们可以使用强化学习做的最有趣的事情是使用奖励政策来训练智能体,这在游戏中可以直接应用。
例如,如图2.2所示,它显示了一个电子游戏学习过程中的时间快照,使用的策略是根据智能体采取的行动来强化想要的行为。
图2.2 游戏中Dopamine强化学习智能体的样本可视化
强化学习中的智能体是决定下一步采取什么行动的部分。智能体通过观察世界和世界的规则来实现这一点。规则定义得越多,结果受到的约束就越大。如果规则过于宽松,智能体则可能无法就采取何种行动做出良好的决策。
虽然本书没有深入研究强化学习,但我们将在本书的最后一章讨论一个有趣的游戏应用。现在,你可以阅读下面的白皮书,了解更多关于Dopamine的信息(Castro,P.S.,et.al.,2018)。