首页 > 科技 > 问答 > 科技知识 > 现有哪些深度神经网络,深度神经网络新突破

现有哪些深度神经网络,深度神经网络新突破

来源:整理 时间:2022-04-24 16:28:47 编辑:科技知识 手机版

低层策略在环境中探索,直到其找到用于产生这些观察结果所必需的动作序列,比如选取一个蓝色方块并将其移动到红色方块之上。HIRO 使用了 DDPG(深度确定性策略梯度)训练目标的一种变体来训练低层策略,其内在奖励被参数化为了当前观察与目标观察之间的距离:DDPG 是又一种影响深远的深度强化学习算法,其将 DQN 的思想扩展到的连续动作空间。

这也是一种 actor-critic 方法,使用策略梯度来优化策略;但不同于 A3C 中那样根据优势来优化策略,它是根据 Q 值来进行优化。因此在 HIRO 中,所要最小化的 DDPG 邻近误差就变成了:同时,为了使用离策略的经历,高层策略使用了离策略修正来进行训练。其思想是:为了提升样本效率,我们希望使用某种形式的重放缓存,就像 DQN 一样。

但是,过去的经历不能直接用于训练高层策略。这是因为低层策略会持续学习和改变,所以就算我们设置了与过去经历一样的目标,低层策略还是可能表现出不同的动作/转换。HIRO 中提出的离策略修正是为了回溯性地修改在离策略经历中看到的目标,从而最大化所观察到的动作序列的可能性。换句话说,如果重放经历表明过去的智能体采取动作 (x,y,z) 能达成目标 g,那么我们就寻找一个目标 g̃,使得它能让当前的智能体最有可能采取同样的动作 (x,y,z),即能够最大化该动作序列的对数概率(如下式)的动作。

然后使用 DDPG 的一种变体在这些动作、新目标和环境奖励 R 上训练高层策略。HIRO 当然不是唯一一种 HRL 方法。FeUdal 网络是一种更早的相关研究(https://arxiv.org/pdf/1703.01161.pdf),其使用了一个学习到的「目标」表征而不是原始的状态观察。实际上,研究中的很多变体都源自学习有用的低层子策略的不同方法;很多论文都使用了辅助的或「代理的」奖励,还有一些其它研究实验了预训练或多任务训练。

不同于 HIRO,这些方法中很多都需要某种程度的人工设计或领域知识,这从本质上限制了它们的通用性。近期也有研究在探索使用基于群体的训练(PBT,https://arxiv.org/abs/1711.09846),这是另一个我个人很喜欢的算法。本质上讲,内部奖励被当作了附加超参数进行处理,通过在训练过程中「演进」群体,PBT 能学习到这些超参数的最优演化。

HRL 是当前一个非常受欢迎的研究领域,而且也非常容易与其它技术组合到一起,比如这篇论文将 HRL 与模仿学习结合了起来:https://arxiv.org/pdf/1803.00590.pdf。但是,HRL 的核心只是一个非常直观的思想。HRL 是可扩展的,具备神经解剖学上的相似性,能解决强化学习领域内的一些基本问题。

但和其它优秀的强化学习方法一样,它的训练难度颇高。记忆和注意现在来谈谈用于解决长期信用分配和稀疏奖励信号问题的其它方法。具体而言,我们要说的是最明显的方法:让智能体真正擅长记忆事物。深度学习中的记忆总是很有意思,因为不管研究者怎样努力(而且他们确实非常努力),很少有架构能胜过经过精心调节的 LSTM。

但是,人类记忆的工作方式却与 LSTM 完全不同。当我们在处理日常生活中的任务时,我们会回忆和关注与场景相关的特定记忆,很少有其它内容。比如当我回家并开车到当地的杂货店时,我会使用我在这条道路上驾驶了数百次的记忆,而不是如何从 Camden Town 驱车到伦敦的 Piccadilly Circus 的记忆——即使这些记忆刚刚才加入我的经历,仍然活灵活现。

就此而言,人类的记忆基本都是根据场景进行查询的——取决于我们在哪里以及做什么,我们的大脑知道哪些记忆对我们有用。在深度学习中,这一观点催生了外部的基于关键值的记忆。这并不是一个新思想;神经图灵机(https://arxiv.org/pdf/1410.5401.pdf,这是我读过的第一篇而且是最喜欢的论文)使用了一种可微分的外部记忆存储来增强神经网络,可以通过指向特定位置的向量值的「读」和「写」头来访问。

我们可以很容易想到将其扩展到强化学习领域——在任意给定时间步骤,智能体都会获得其环境观察和与当前状态相关的记忆。这就是近期的 MERLIN 架构的所做的事情:https://arxiv.org/pdf/1803.10760.pdf。MERLIN 有两个组件:一个基于记忆的预测器(MBP)和一个策略网络。

MBP 负责将观察压缩成有用的低维「状态变量」,从而将其直接存储到键值记忆矩阵中。它也会负责将相关的记忆传递给策略网络,然后策略网络会使用这些记忆和当前状态来输出动作。这个架构可能看起来有些复杂,但要记住,其策略网络只是一个输出动作的循环网络,而 MBP 也仅做三件事:将观察压缩成有用的状态变量 z_t,从而传递给策略。

文章TAG:神经网络深度现有突破

最近更新

  • 手机里的图片都在哪里?,你们手机里的照片都存在哪里

    手机空间释放后,上传到腾讯相册不显示占用空间,手机操作过程中也不会出现卡顿现象。清理手机垃圾时,腾讯相册不会有垃圾,所以整体上没有发现内存占用现象。我给大家分享一个储存照片的好方法 ......

    科技知识 日期:2022-07-20

  • 人为什么要有价值观,一个人存在的价值是什么

    树立正确的人生观和积极的价值观,首先要树立正确的是非观。决定一个人价值观的标准不一样。根本区别在于各自的创造力、精力,差异化的社会分工,利益分配平衡中相对统一的需求。一个人的认识和 ......

    科技知识 日期:2022-07-19

  • 为什么黄牛抢票用什么软件,为什么还会有黄牛抢票

    黄牛使用的抢票软件是独立软件。最后黄牛用的抢票软件和我们的差别很大。我们平时用的软件都是市面上常用的。这些抢票软件都是很多人用的,服务器平均分配后自然减少了我们每个人的份额,这也是 ......

    科技知识 日期:2022-07-18

  • 为什么苹果亮银贵,为什么苹果的数据线这么贵

    你知道为什么苹果的数据线贵但是容易断吗?苹果手机最大的优势就是iOS系统和苹果的A系列处理器。关键是最便宜的苹果数据线官方售价149元。按照大部分苹果数据线不到一年的使用寿命,光是 ......

    科技知识 日期:2022-07-18

  • 谷歌眼镜显示屏在哪里,哪些VR眼镜值得买

    VR眼镜的分类目前VR眼镜主要分为VR盒子VR一体机和PCVR。去的太早了,先发明骑行用的智能眼镜还好,但还没消失。第二代企业版谷歌眼镜高通SnapdraonXR1平台运行,不出售 ......

    科技知识 日期:2022-07-18

  • 上海哪里体验一加手机,一加手机真的快不行了吗

    说到一加,总会有一大批人说一加手机只活在互联网上。比如现实中没有一加手机的踪迹。一加定位,首先你必须是网络爱好者,否则一般没机会看到。其次,一加一直以来都是精品旗舰策略,每一次新机 ......

    科技知识 日期:2022-07-17

  • 为什么冬季雾霾最严重怎么办,夏天难道就没有雾霾吗

    为什么冬天有雾霾,夏天没有?看来雾霾的主要原因还是气象条件。其实冬天的雾霾已经比以前轻很多了。所以直到现在,冬天还是有雾霾。个人认为和农民烧麦秸没关系。入秋以来,随着来自中国的西北 ......

    科技知识 日期:2022-07-17

  • 苹果为什么好用,苹果的系统那么难用

    我用的是苹果安卓,我觉得苹果不好用。我承认苹果系统很流畅,但是旗舰安卓机型还可以,更重要的是也很耐用。苹果系统真的没有安卓系统自由。换了苹果第二天就开始想念安卓了,应用很忙。微信视 ......

    科技知识 日期:2022-07-17