首页 > 科技 > 问答 > 科技知识 > 现有哪些深度神经网络,深度神经网络新突破

现有哪些深度神经网络,深度神经网络新突破

来源:整理 时间:2022-04-24 16:28:47 编辑:科技知识 手机版

使用一个单独的目标网络(即上式中的 Q_hat 部分)来实现训练的稳定,所以 TD 误差不是根据源自训练网络的不断变化的目标计算的,而是根据由一个基本固定的网络所生成的稳定目标计算的。在那之后,DeepMind 的 A3C(Asynchronous Advantage Actor Critic)和 OpenAI 的同步式变体 A2C 也非常成功地将深度学习方法推广到了 actor-critic 方法上。

actor-critic 方法将策略梯度方法与一种学习后的价值函数结合到了一起。对于 DQN 方法,我们仅有学习后的价值函数(即 Q 函数),而我们遵循的「策略」只是简单地在每个步骤取能最大化 Q 值的动作。使用 A3C 和使用其它 actor-critic 方法一样,我们会学习两个不同的函数:策略(即 actor)和价值(即 critic)。

策略函数是基于采取该动作的当前估计优势(advantage)来调整动作概率,而价值函数则是基于经历和后续策略收集到的奖励来更新该优势:从上面的更新可以看出,价值网络会学习一个基线状态值 V(s_i;θ_v),我们可以将其与我们的当前奖励估计 R 进行比较,从而得到「优势」;策略网络则会通过经典的 REINFORCE 算法根据该优势调整动作的对数概率。

A3C 真正的贡献在于其并行化和异步化的架构:多个 actor 学习器被分派到不同的环境实例中;它们全都会与环境进行交互并收集经历,然后异步地将它们的梯度更新推送到一个中心的「目标网络」(一个借用自 DQN 的思路)。之后,OpenAI 的 A2C 研究表明异步方式实际上对性能没有贡献,而且事实上还会降低样本效率。

对这些架构的详细解释已经超出了本文的覆盖范围,但如果你和我一样对分布式智能体感兴趣,那一定要看看 DeepMind 的 IMPALA,这是一种非常有用的设计范式,可用于实现对学习的扩展:https://arxiv.org/abs/1802.01561。DQN 和 A3C/A2C 都是非常强大的基线智能体,但是在面对更加复杂的任务、严重的部分可观察性和/或动作与相关奖励信号之间存在较长延迟时,这些智能体往往难以为继。

因此,强化学习研究中有一整个子领域在致力于解决这些问题。接下来我们看看其中一些优秀的研究。分层式强化学习(HRL)分层式强化学习是一类从多个策略层学习的强化学习方法,其中每一层都负责控制不同层面的时间和行为抽象。最低层面的策略负责输出环境动作,让更高层面的策略可以操作更抽象的目标和更长的时间尺度。为什么这种方法很吸引人?首先也是最重要的一点是在认知方面,有很多研究都认为人类和动物行为都基于分层式结构。

这在日常生活中有直观的体现:当我决定做一顿饭时(实际上我基本从不做饭,但为了合理论述,就假设我是一个负责的人类吧),我会将这一任务分成多个更简单的子任务(切蔬菜、煮面条等),但绝不会忽视我要做饭的总体目标;我甚至还能切换不同的子任务来完成同样的目标,比如不煮面条而是蒸饭。这说明真实世界任务中存在固有的层次结构和组合性质,因此可将简单的基础动作串接、重复或组合起来以完成复杂的工作。

近些年的一些研究甚至发现 HRL 组件与前额叶皮质中的特定神经结构之间存在直接的相似性。从技术方面看,HRL 尤其引人注目,因为它能帮助解决我们前文提到的第二个问题的两大挑战:如何有效地从经历中学习(比如长期信用分配、稀疏奖励信号)。在 HRL 中,因为低层策略是基于高层策略分配的任务从内在奖励中学习的,所以尽管奖励稀疏,基础任务仍可得以学习。

此外,高层策略发展起来的时间抽象让我们的模型可以根据时间上延展的经历来处理信用分配问题。所以 HRL 的工作方式是怎样的?目前有一些各不相同的方法都能实现 HRL。Google Brain 近期的一篇论文采用了一种尤其清晰和简单的方法,并为数据高效型训练引入了一些很好的离策略修正方法。他们的模型名为 HIRO:https://arxiv.org/pdf/1805.08296.pdf。

μ_hi 是高层面的策略,其为低层面的策略输出需要实现的「目标状态」。μ_lo 是低层面的策略,输出环境动作以试图达成其目标状态观察。其设计思路是有两个策略层。高层策略的训练目标是最大化环境奖励 R。每 c 个时间步骤,高层策略都会采样一个新动作,这是低层策略所要达成的「目标状态」。低层策略的训练目标是选取合适的环境动作,使其能产生类似于给定目标状态的状态观察。

举一个简单的例子:假设我们在训练一个机器人以特定的顺序堆叠彩色方块。我们仅有单个奖励 1 在任务成功最终完成时给出,所有其它时间步骤的奖励都是 0。直观地说,高层策略负责提出所要完成的必要子目标:也许它输出的第一个目标状态是「观察到一个红色方块在你面前」,第二个目标状态可能是「观察到蓝色方块在红色方块旁边」,然后是「观察到蓝色方块在红色方块上面」。

文章TAG:神经网络深度现有突破

最近更新

  • 手机里的图片都在哪里?,你们手机里的照片都存在哪里

    手机空间释放后,上传到腾讯相册不显示占用空间,手机操作过程中也不会出现卡顿现象。清理手机垃圾时,腾讯相册不会有垃圾,所以整体上没有发现内存占用现象。我给大家分享一个储存照片的好方法 ......

    科技知识 日期:2022-07-20

  • 人为什么要有价值观,一个人存在的价值是什么

    树立正确的人生观和积极的价值观,首先要树立正确的是非观。决定一个人价值观的标准不一样。根本区别在于各自的创造力、精力,差异化的社会分工,利益分配平衡中相对统一的需求。一个人的认识和 ......

    科技知识 日期:2022-07-19

  • 为什么黄牛抢票用什么软件,为什么还会有黄牛抢票

    黄牛使用的抢票软件是独立软件。最后黄牛用的抢票软件和我们的差别很大。我们平时用的软件都是市面上常用的。这些抢票软件都是很多人用的,服务器平均分配后自然减少了我们每个人的份额,这也是 ......

    科技知识 日期:2022-07-18

  • 为什么苹果亮银贵,为什么苹果的数据线这么贵

    你知道为什么苹果的数据线贵但是容易断吗?苹果手机最大的优势就是iOS系统和苹果的A系列处理器。关键是最便宜的苹果数据线官方售价149元。按照大部分苹果数据线不到一年的使用寿命,光是 ......

    科技知识 日期:2022-07-18

  • 谷歌眼镜显示屏在哪里,哪些VR眼镜值得买

    VR眼镜的分类目前VR眼镜主要分为VR盒子VR一体机和PCVR。去的太早了,先发明骑行用的智能眼镜还好,但还没消失。第二代企业版谷歌眼镜高通SnapdraonXR1平台运行,不出售 ......

    科技知识 日期:2022-07-18

  • 上海哪里体验一加手机,一加手机真的快不行了吗

    说到一加,总会有一大批人说一加手机只活在互联网上。比如现实中没有一加手机的踪迹。一加定位,首先你必须是网络爱好者,否则一般没机会看到。其次,一加一直以来都是精品旗舰策略,每一次新机 ......

    科技知识 日期:2022-07-17

  • 为什么冬季雾霾最严重怎么办,夏天难道就没有雾霾吗

    为什么冬天有雾霾,夏天没有?看来雾霾的主要原因还是气象条件。其实冬天的雾霾已经比以前轻很多了。所以直到现在,冬天还是有雾霾。个人认为和农民烧麦秸没关系。入秋以来,随着来自中国的西北 ......

    科技知识 日期:2022-07-17

  • 苹果为什么好用,苹果的系统那么难用

    我用的是苹果安卓,我觉得苹果不好用。我承认苹果系统很流畅,但是旗舰安卓机型还可以,更重要的是也很耐用。苹果系统真的没有安卓系统自由。换了苹果第二天就开始想念安卓了,应用很忙。微信视 ......

    科技知识 日期:2022-07-17