统计推理属于什么推理,因果推理属于什么推理

因果推理正是对此的补充。压力计和容器压力存在相关关系，但用手拨动压力计并不能改变容器的实际压力，而改变容器压力却可以改变压力计的示数。如上图所示，相对于观察的变量分布，因果模型比观察分布包含更多的细节。模型中的箭头对应于假设的因果关系方向，没有箭头表示变量之间没有直接的因果关系影响。因果图到观察分布的映射是多对一的：几个因果图与同一个联合分布对应。

因此，通常不可能仅通过观察数据在不同的因果解释之间作出结论性选择。这里，容器压力指向压力计示数就是两个变量的观察分布的其中一个因果图，而反向关系是不成立的。实际上，数据驱动（深度学习）和规则推理（因果推理）正是AI研究领域的两个极端。在解决具体问题的时候，两者可以起到互补的作用。在这一方面，DeepMind也进行了比较广泛的探索，我们这里简单介绍两篇相关的论文。

论文：Relational Deep Reinforcement Learning论文链接：https://arxiv.org/abs/1806.01830摘要：在本文中，我们介绍了一种深度强化学习方法，它可以通过结构化感知和关系推理提高常规方法的效率、泛化能力和可解释性。该方法使用自注意力来迭代地推理场景中实体之间的关系并指导 model-free 策略。

实验结果表明，在一项名为「方块世界」的导航、规划新任务中，智能体找到了可解释的解决方案，并且在样本复杂性、泛化至比训练期间更复杂场景的能力方面提高了基线水平。在星际争霸 II 学习环境中，智能体在六个小游戏中达到了当前最优水平——在四个游戏中的表现超越了大师级人类玩家。通过考虑架构化归纳偏置，我们的研究为解决深度强化学习中的重要、棘手的问题开辟了新的方向。

关系性强化学习RRL 背后的核心思想即通过使用一阶（或关系）语言 [8, 9, 17, 18] 表示状态、动作和策略，将强化学习与关系学习或归纳逻辑编程 [16] 结合起来。从命题转向关系表征有利于目标、状态和动作的泛化，并利用早期学习阶段中获得的知识。此外，关系语言还有利于使用背景知识，而背景知识同时也可以通过与学习问题相关的逻辑事实和规则提供。

例如在「方块世界」的游戏中，当指定背景知识时，参与者可以使用述语 above(S, A, B) 表示状态 S 中方块 A 在方块 B 的上面。这种述语可以用于方块 C 和 D 以及其它目标的学习中。表征性语言、背景和假设形成了归纳性偏置，它能引导并限制智能体搜索良好的策略。语言（或声明性）偏置决定了概念的表现方式。

神经网络传统上就与属性-值、命题性以及强化学习方法 [19] 联系在一起。现在，研究者们将 RRL 的核心思想转化为深度 RL 智能体中结构化指定的归纳偏置，他们使用神经网络模型在结构化的情景表征（实体集合）上执行运算，并通过迭代的方式进行关系推理。其中实体对应着图像的局部区域，且智能体将学习注意关键对象并计算他们成对和更高阶的交互。

统计推理属于什么推理,因果推理属于什么推理

最近更新

相关文章

教育经验最新文章

问答排行榜推荐

教育经验排行榜精选

教育经验文章排行榜

热门标签