首页 > 手机 > 配件 > AlphaGo,alphago

AlphaGo,alphago

来源:整理 时间:2022-04-07 15:42:51 编辑:华为40 手机版

AlphaGo有没有「棋风」?

AlphaGo有没有「棋风」

我们先来聊聊,什么是“棋风”?围棋的变化有10的170次方,比浩瀚宇宙的原子数还要多出一倍!所以千古无重局!棋手们在下棋的时候,就是一种内心世界在棋盘上毫无保留的展现。所以我对“棋风”的理解就是:“人们在相互对弈的时候,由于每个人的个性不同,价值观不同,从而导致每个人在棋盘上对棋局的认识和理解以及表达方式是不一样的。

”性格随意的棋手,比如马晓春老师,他的棋风就是以“灵动飘逸”而著称;而聂卫平老师性格大气,他的棋风很明显就透露出一种磅礴大气的大局观!常昊的性格稳重踏实,他的棋风就像那杨过的玄铁剑,“重剑无锋。大巧不工”;而围棋“宇宙流”的创始者武宫正树,其性格极为洒脱不拘小节!若没有如此独特的个性,也不可能创造出天马行空的“宇宙流”......我特别喜欢射雕英雄传主题曲中的一句歌词:“论武功,俗世中不知哪个高,但我知,绝招同途异路”。

围棋不仅是竞技,也是艺术,所以围棋顶尖大师们虽然最后都来到了华山论剑,但是他们在通往山顶的过程中,每一个人走的道路都是不同的。而且这条路只适合本人,其他人是不可模仿和复制的。这就是围棋的艺术魅力吧。说到这里,对于“AlphaGo有没有棋风?”这个问题,大家心中想必已经有答案了吧。AlphaGo目前只能是按照人类给它的指令来完成“赢棋的任务”,它还没有人类的思想和情感,以及对世间万物的价值观,所以它没有“棋风”。

为什么AlphaGo不敢挑战麻将?

为什么AlphaGo不敢挑战麻将

为什么Alpha Go不敢挑战麻将??人类初衷研究人工智能是为了服务人类而不是惹怒人类的。阿尔法狗是围棋人工智能的程序,其难度太大,几乎无人能比,被称为异军突起的行业领袖。2016年阿尔法狗由谷歌开发的,当时阿尔法狗的人工智能震惊世人,它雷霆之势击败世界排名第四的围棋手李世石,后来又在2017年碾压了世界排名第一的围棋棋手柯洁。

阿尔法狗的胜利让世人第一次见识到了人工智能的凶猛。同时又掀起了全世界对于人工智能的抵制及担心,害怕电影里机器人屠杀人类的景象会在未来实现。?既然阿尔法狗把围棋高手打的一败涂地,令柯洁绝望,但为什么始终不敢挑战麻将? 这是因为阿尔法狗太牛逼哄哄了,它绝不是碰巧而是胆怯地故意回避。从规则上看,麻将与围棋不同,麻将是一个四人游戏,并不是阿尔法狗的人工智能弱与4人游戏,而是围棋属于小众高大上游戏。

麻将大众游戏,它只搞围棋是有道理的,毕竟这些棋尚未得到广泛的社会共识,但是麻将不同,麻将是“国粹”,并且走出了中国,走向了世界。麻将到现在还有大部分群众认为,麻将是赌博工具,是社会底层无学历人员爱好的低层次娱乐活动。一旦超过人类麻将游戏,可以说是天下无敌,贪婪的人类会利用高科技犯罪,给人类赖以生存的环境带来麻烦。

AlphaGo是用什么语言编写的?

AlphaGo有没有「棋风」

谢邀AlphaGo由Alphabet Inc 在伦敦的Google DeepMind团队开发的。并没有对外公告:但从官网github可以知道: Python Lua C Go。可见开发语言并不局限于一种。同时这个智能产物也是多种机器学习模型的结合,包括离线模型,在线模型等从reddit传言,python实现了其部分核心功能。

王者荣耀人机中加入AlphaGo会怎样

为什么AlphaGo不敢挑战麻将

不用幻想了,已经有了!不过是lol的.......外挂。民间大神开发!自动加点出装,补兵,放技能,自动智能躲技能,只要不是被包围100%闪避,自动走位,风骚操作,完虐faker,绝对是高手在民间。使用起来也非常亲民,不需要超级计算机,只要一台普通电脑就能完美运行。不过因为操作水平过高,基本被瞬间封号...。

阿尔法围棋将不再与人类进行比赛,你怎么看?

最简单的一点:alphago已经不需要在围棋上再证明什么了。以现在的顶尖人类高手实力,对它可能都得恭敬的摆上两子吧。与它对决巨大的压力,还有无尽的绝望感是我以前从未有过的。在第三局,我第一次在棋盘上感受到了恐惧...没有任何失误,没有任何情感...虽然很不甘心,但坐在对面的我最终只剩下绝望。科技真的太伟大了...希望它可以在其他领域造福人类,我也相信一定可以。

鼎盛时期的吴清源会有希望战胜AlphaGo吗?

问题描述不准确,必须要说明是哪个版本的AlphaGo。AlphaGo从最早的版本到现在起码也有3年了,至少有几十个版本,水平落差很大。比较有名的版本有4个:战胜了樊麾的AlphaGo V13.0、战胜了李世石的AlphaGo V18.0、战胜了柯洁的AlphaGo Master(据说是V25.0)还有按不同方法训练出来的AlphaGo Zero。

既然说是吴清源巅峰时期的水平,那就是说直接穿越时空把他拉过来,不给他熟悉和学习近几十年围棋理论发展的机会,那么他表现出的水平应该达不到现在棋坛的顶峰,但也不会太低,应该在全国冠军级以上,但不超过拿过1次世界冠军的棋手们(俗称一冠群)这个大群体的水平。如果按照这个水平来算,AlphaGo V13.0肯定是胜不过吴老的,就算多下几盘,按照吴老当年那种谨慎如一的表现,他应该也一盘都不会输。

不过如果他知道是计算机,在非比赛的场景下刻意下大量测试局,那么出现输棋也不奇怪。如果是AlphaGo V18.0就很难说了。V18.0有明显的缺陷,人类一线到顶尖水平的棋手都有机会抓住。但抓住的概率,要看你对这个程序有多熟悉。就像绝艺今年的几个版本一样,有的世界冠军可能0胜10败,但有的二线棋手反而能下出个五五开的胜率。

如果给吴老足够多的赛前训练棋熟悉,那我押吴老获胜,起码是过半胜率。如果只是穿越时空把他拉来直接比赛,那我觉得吴老很可能全败,表现比李世石更差,毕竟李世石水平的绝对高度早已超越吴老巅峰时的高度了。AlphaGo Master和AlphaGo Zero其实就不用多说了,吴老胜率应该接近于零。如果给出足够长的时间熟悉和学习,而程序的版本固定不再提高,那么吴老的胜率应该会慢慢提高,下多了之后赢个一两盘不是没可能。

阿尔法元(AlphaGo Zero)为什么能无师自通?

Master版的阿尔法狗,怎么说都应该算是人类的学生,只不过青出于蓝而胜于蓝,现在被“纯自学野路子版”的阿尔法元吊打,的确颇有点让人情何以堪的滋味。要解释为什么阿尔法元(AlphaGo Zero)能无师自通,那答案取决于两个因素:首先是围棋的本质,其次是算法。即围棋这类完全信息博弈并且胜负判断精确且规则明确的问题,在本质上可以不依赖前人的探索,而完全从零开始在足够巧妙的算法和硬件配合下,既能在短时间内到达相当的水平和高度。

这依赖的是首先可以进行自对弈,其次能从自对弈中提取分析胜败的相关因素和特征,并投入到下一轮自对弈中去进行检验。对比一下人类的自学能力所需要的前置条件:首先,得有一个合格的人脑,即一个大约由数百亿神经元组合连接而成的硬件系统,其次得有一个基本的初始输入,包括认字脱盲拥有基础阅读理解能力,这可以类比为人类的算法系统。

在这两者配合之下,至少部分人就拥有了不依赖老师,而自己学习新知识甚至开拓新领域的能力。而AlphaGoZero并非一无所有,它有两大神经网络架构,供它从每一局的自对弈中提取分析胜败的特征算法,即自我反省能力,自我总结能力,并且将这种反省和总结立即投入到下一局的实战中进行校验的能力。而之所以能只通过490万局自对弈就能胜过从前三千万局的成果,我想这主要是因为算法的改进,尤其是特征提取方面的改进造成的,要知道从前的AlpahGo的一些基础特征,比如虎口之类的认知靠的是外界输入设定的,这说明老版本的特征提取能力不强,当然在能够利用人类经验的情况下,许多棋型特征都可以作为先验知识输入,这样在初期显示出来的水平较高,但在后期则可能受制于这些权重较高的经验而误入歧途。

这就是为何阿尔法元的成功,证明了两件事。其一,围棋是可以完全从零开始进行AI化的游戏,其二,人类经验在一定程度上是有局限的,会限制AI在极高水平时候的提高和成长。但我们还是得看到,阿尔法元 vs Master版本时候,并未到达全胜,总还是给人类经验留下点颜面了。另外,看到阿尔法元的成长史,也颇为有趣,万丈高楼也得有个地基啊。

AlphaGo是如何下棋的,它真的能“理解”围棋吗?

【以AlphaGo为例扒一扒人工智能的“思想”】如果你想了解AI的能力,AlphaGo可以是个不错的开始的地方。那么,AlphaGo到底是如何下棋的,它真的能够看透对手的想法,真的理解围棋吗?我们先从围棋开始说起。围棋,就十秒钟围棋的规则很简单。玩家轮流在棋盘上放置白色或黑色的石头。如果一群石头被对手的石头包围,它就被捕获并移除。

用周围的棋子捕捉棋子。像白棋一样包围着大部分区域的其他棋子,就赢了:在比赛之后得分。黑色的左侧,右侧和顶部都有领地。白色的底部和左上角有领土。基本上就是这样。为了理解为什么这样一个简单的游戏几十年来一直困惑人工智能的研究,把围棋与国际象棋对比是有帮助的。几十年来,有人说只要能下棋,计算机就是聪明的。然后,在Alan Turing发表第一个象棋算法半个世纪之后,IBM(NYSE:IBM)Deep Blue超级计算机击败了世界冠军Gary Kasparov。

深蓝的成功令人印象深刻,但是IBM的算法与图灵1950年的计划基本相似。自从图灵(Turing)发表第一个国家象棋算法以来,深蓝(Deep Blue)的计算能力已经增加了三百万倍。一个小小的注意到的事实是:在深蓝击败世界上最伟大的棋手的同一年,最先进的GO只达到了体面的初学者的技术水平。为什么围棋是最好的测试场地?这是一种“不同的思维方式”。

深蓝是以蛮力击败卡斯帕罗夫:因为它记住了大量的游戏,它运用了战术和战略经验法则,并且它比卡斯帕罗夫(尽管几乎没有)使用优越的处理能力可以更深入地预测未来的移动可能性。但是电脑无法掌握灵活的处理能力。国际象棋的可能性受到8×8棋盘和规则的限制,这些规则定义了你可以在哪里移动特定棋子。相比之下,全尺寸的棋盘尺寸为19 x 19,你可以在任何地方使用围棋。

结果是棋手每次平均面对35次选择。去平均值250个选项。这个数字被称为问题的“分支因素”,它是AI的祸根。如果你自己乘以250次评估可能的反应, 你很快就会到达比宇宙中的原子数目多得多的位置,这将占据世界上所有的超过一百万年的电脑绘制出来的结果。事实上,直到去年,人们才真正计算出了多少。 (大约是2.081681994 x 10 ^ 170,或者用简单的英文,二百个quinquinquagintillion。

)可能的棋盘状态的数量约等于2.081681994×10 ^ 170。由于没有人或超级计算机能够检查所有可能性,玩家依靠感觉和直觉。对于一个有经验的围棋选手,一个动作可能是感觉是正确的。其次,量化一个移动的价值是非常棘手的。甚至搞清楚谁胜利了也是一个挑战。国际象棋的棋子有明确的价值:棋子值1分、骑士3、一个车,5分。

通过比较拍摄的棋子的价值,你可以粗略地了解谁赢了。深蓝采用了数十个这样的经验法则来定位好动作。但是围棋没有固有的固定价值,他们只关系到彼此的关系。不确定的举动价值使决策进一步复杂化。第三,大多数情况下涉及某种交易。诀窍是找出你的对手想要什么,并强迫他们给你想要的东西作为回报。所以机器人的不变性就体现出来了。

最后,你交易的东西有抽象的价值,而这些价值并不总是可以量化的。除了要点,玩家可能需要影响力(后来可能会有用的棋子),sente(选择下一个玩的地方的自由度),还是aji(字面意思是“回味”,一个不可译的日语术语,表示潜在的诡计:一位教学资源解释道,就像是当你迟到的时候,鞋子里有一块石头,很疼,结果你不能跑得这么快,但是因为你迟到了,你不能停下来把它拿出来。

这是一个简单的例子。黑方可以用另外几个动作来封锁有价值的角点:黑色占据角落的领域。 或者,黑方可以将角落的领土换成白色。 作为回报,他们得到的棋子面向侧面和中心,这可能在未来(影响力)有用。 标记的白色棋子被严重削弱,但对黑色后来(aji)可能变成一个复杂的滋扰。 现在轮到黑方了,他们可以放置在任何他们喜欢的地方(先知)。

黑色交易角的潜力可以获得有影响的一个序列。你可以看到不可能把精确的价值观放在影响、aji和sente上。很像现实世界中相互冲突的价值 - 客户服务,股票表现和企业风险缓解。机器难以把握这种权衡的细微差别,因为这些实体是抽象的、微妙的,在概念上是截然不同的。在0和1中也不存在共同的同义词。尽管面临这些挑战,AI技术的稳步发展已经让AlphaGo掌握了这个游戏。

这些变化体现了AI如何发展到现在的状态并预示着未来。为了理解AI的前进方向,我们需要看看我们是如何达到现在的水平的。第一阶段:按照我的说法去做(20世纪50年代到60年代)人工智能的正式诞生发生在达特茅斯学院1956年的一次会议上,正式举行了一个宏大的前提:“智能的每一个方面原则上都可以被精确地描述,以便能够模拟一台机器。

AI的创始人从哲学家 - 数学家那里得到了他们的线索,比如最近开发了逻辑专用符号的Gottlob Frege和Bertrand Russell。根据这种方法的领导者,情报的关键在于运用逻辑规则。他们迅速建立了可以派生重要的数学证明的程序,并且自信地预言,在短短的十年时间里,计算机将会掌握国际象棋。但随后进展遇到困难。

没有人预见到一个障碍。第二阶段:规则和经验法则(20世纪60年代末至21世纪初)随着研究人员开始要求电脑解决复杂的现实世界问题,如诊断疾病或翻译俄语,事实证明,这些复杂问题中的许多问题只能在理论上解决,而不能在实践中解决。解决问题的时间和记忆要求往往会随着你有多深的寻找答案而呈指数级增长。研究人员放弃了“人工智能”一词,以逃避学术界和研究界的痛苦。

从某种意义上说,拯救AI是由于劳动分工。研究人员并没有试图对那些可以纯粹用逻辑做任何事情的机器进行编程,而是降低了他们的期望,并开始针对具体的问题量身定制个别的程序。限制程序需要解决的问题有助于限制必须搜索的可能解决方案的数量。程序员越来越多地开始按照人们的思维方式对AI进行建模。这通常意味着使用启发式或心理捷径。

我们一直使用启发式:鸡肉变得越粉红色,你应该把它放在烤箱里的时间越长。如果西红柿坚挺,就证明吃得很新鲜。需要更多的味道?添加更多的调味料。这些小知识是至关重要的。我们不能没有他们,因为没有足够的时间去完美地完成任何事情。第一次尝试构建Go-playing计算机的方式也是一样的。一段代码估计游戏得分,有一些例行程序可以识别先知,识别如何保护重要的棋子不被捕获,访问一个普通序列的库,等等所有高级玩家使用的专业技能。

有了这些能力,电脑会考虑几个动作。对于每一个动作,它都会考虑许多可能的反应,直到它产生一个类似于树的可能的结果模型。目标是通过沿着一条让对手没有好的选择的路径来搜索游戏树中的“最不好的”结果。深蓝也是如此。当然,正如一名厨师所生产的食物取决于食谱的质量一样,基于启发式的人工智能只有人类可以烹饪的启发式才是好的。

但是,当可能性的数量巨大的时候,这种做法还不能胜任。因此,经过几十年的缓慢进展,基于启发式的人工智能只取得了中级业余爱好者的实力。他们是僵化和可预见的对手。记忆和规则遵循不够直观、灵活富有创造力。进一步的进步需要革命。第三阶段:统计随着蒙特卡洛树搜索技术(MCTS)的成功,2006年取得突破性进展。这个方法比较陈旧,今天它被用来加强物流和生产管理。

MCTS已经被应用于车辆路线、航线调度、包装、机器人运动和财务。它已经进入了像“全面战争:罗马II”,“拼字游戏”,“扑克”和“国际象棋”等流行战略游戏。MCTS的名字听起来可怕,但这个想法很简单。它用一个简单的统计技术,即蒙特卡罗模拟来代替人类的启发式算法。当你的财务顾问告诉你,你的投资组合将在你退休的时候生效,那是他们在使用蒙特卡洛模拟。

和以前一样,你从树搜索开始。但是,计算机不是依靠硬编码的Go启发式来估计最佳结果,而是模拟一系列随机游戏,以查看谁更有可能获胜。生成随机数是计算机可以很快做到的事情,而且这是非常有效的。 MCTS削减了中间人的概念,如影响力和aji,提供了一个直接的途径,你最终关心的是:获胜。这就是今天支配AI的哲学:算法不再纯粹是合乎逻辑的。

他们也不模仿人类的思维方式。他们只是理性地追求目标。 (由计算机科学家Stuart Russell和Peter Norvig提出,思想与行为,人为与理性的区别为人工智能的不同方法提供了一个有用的框架。)但MCTS从根本上与人类解决问题的方法不一致。所以基于MCTS的AI显示出奇怪的怪癖。为了真正理解未来有多少自主机器会做出决定,必须了解MCTS的深度陌生性。

与MCTS对手进行比赛可以让他们和一个知道比赛规则的聪明的外星人面对面地坐着,但是双方都从来没有见过真正的比赛。在Go游戏的早期阶段,玩家通常会坚持前四行。 (在角落和侧面比在中心更容易确保领土)。但是使用MCTS的AI程序通常会在中间的某处放置一个棋子。下面是一个例子,从一个真正的游戏中采用了一个相当强大的名为Fuego的AI软件:当然,Fuego的举动是连贯的。

这个棋子扩大了底部的白色棋子的潜力,限制了黑色的潜力,如果稍后受到攻击,白色的两个棋子可能成为生命线。不寻常的举动有三件事。但是,这是奇怪的。在MCTS的AI作品中,这种“做任何事情都可以达到目标”的思维模式,可能会导致麻烦,因为我们希望我们的自驾车、自动专职助手和机器人保姆不仅能胜任,而且可以预测与人类相关的事情。

其次,使用MCTS的人工智能程序可能会出现一个结果。获胜(因此避免风险)MCTS软件往往扮演看似不合理和有害的举动。失去MCTS计划更令人兴奋,他们倾向于壮观的自我毁灭。原因很简单:人类认为我们通过提高我们的领先优势(如果我们赢了)或减少赤字(如果我们输了)来赢得比赛。但是MCTS软件试图提高胜利的可能性。

它不区分5点损失和50点损失。所以,当一个情况是没有希望的时候,MCTS再也不能把好的选项和愚蠢的选项区分开来。在打败的道路上,每条道路看起来同样严峻。随着AI软件的成功几率下降,你会开始一波恐慌浪潮在崩溃中达到高潮。这是一种奇怪的感觉,就像看股票市场的暴跌。如果老的树搜索模型过于僵化,那么MCTS的方法就体现了一个古怪的数字运算专家,没有经验。

有时没有常识的超理性与疯狂是无法区分的。第四阶段:模式识别(2010年至今)研究人员发现了一种在模式识别中根植MCTS的方法,最后的重大突破来临了。当时令人惊讶的关键,竟然是一种受人类大脑启发的旧机器学习技术。人工神经网络是基于20世纪50年代以来的想法。但是他们长期以来一直被认为是机器学习的一个死水。

训练一个神经网络需要大量的数据和大量的计算能力,这是直到最近才能得到的东西。互联网、大数据、分布式计算和云存储等重要技术趋势的融合现在已经改变了这种趋势。神经网络构成了Facebook面部识别和新闻馈送策略技术,Google翻译,自驾车视觉以及无数其他应用程序的支柱。他们特别擅长处理图像和声音。神经网络实际上并不模仿大脑,这是一个常见的误解,类比有助于理解其功能。

像轴突网络一样,一个神经网络建立一个连接数据节点网络,称为人造神经元。深度神经网络包含许多这样的节点层。当你听到人们用“深度学习”这个词时,这就是他们的意思。脑神经元通过不同连接强度的途径将电荷发送到其他神经元进行通信。人工神经节点包含称为权重的数字,表示它们对下一层中的每个节点施加多少影响。随着原始数据流经神经网络,每层节点就像一个过滤器,通过越来越高级的功能来转换信息。

为了训练一个神经网络,你举个例子,看它是否输出正确的东西,如果不是通过根据特殊的数学函数改变权重来纠正错误,并重新举例说明,最终,在练习了数百万个例子之后,它会做得更好。 (就像一只鸽子一样)神经网络学习速度缓慢。他们需要大量的例子,他们需要很长时间来训练,因为每次收到无数的例子时,必须根据数学公式调整数千个权重。

但有一个好处:神经网络非常敏感,可以捕捉到很多细微的信息。如果特定领域的树搜索规则是跟随机器人,并且MCTS是理性的外星人,神经网络就像一个孩子。AlphaGo是如何工作的?DeepMind训练AlphaGo的方式与教育幼儿识别猫的照片的方式相同。你可以给它看一个动物图画书,并指出所有的猫。接下来,你可能会一起去宠物商店,让孩子试着挑选猫,让他们知道他们得到的是正确的,哪些是错的。

最后,你释放你的雏鸟到世界上,生活将提供他们需要的任何反馈,以纠正任何严重的猫识别错误。DeepMind开始为AlphaGo提供3000万图片,这些图片来自一个流行的在线Go服务器开发的强大玩家。一旦AlphaGo识别出一个,它就会练习以前从未见过的图像变得更好。最后,AlphaGo玩了数以百万计的练习游戏,以获得反馈。

AlphaGo还学会了通过研究数以百万计的游戏位置来估计一个特定位置将导致胜利的几率。然后通过玩数百万游戏来加强这种知识。这来自于我和Leela的比赛,这是一个基于神经网络的强大的围棋游戏。由Leela的神经网络生成的移动概率热图。比较热门的领域是那些神经网络预测有更好的选手选择的概率。拥有这张地图可以使AlphaGo专注于最有前途的分支,这使得蒙特卡罗的预测更准确。

结果是比以前的方法更加强大的战略智慧:从1990年到2006年,一条绿线表示树形搜索曲线向上蜿蜒曲折,蓝线表示MCTS接近并越来越接近y轴,专业标记,红线表示AlphaGo在2016年跃升至顶端图形。树搜索排名是基于不频繁的人机残障挑战的结果的估计。 MCTS排名是以KGS记录为基础的。 AlphaGo根据官方比赛进行排名。

AlphaGo在DeepMind伦敦总部秘密举行首场比赛,与当时的欧洲冠军范辉对抗。没有电脑曾经赢过专业人员。 AlphaGo赢得了比赛5-0。几个月后,当DeepMind透露了AI最伟大的里程碑之一的时候,它也宣布在一个多月的时间里,AlphaGo将面对我们这一代最出名的玩家 - 一位名叫李·塞多尔的大师。

这是“人与机器”卡斯帕罗夫 - 深蓝比赛的复兴。也许不到眼前但是AlphaGo的游戏记录让AI软件对能够赢得下一个挑战的希望产生怀疑。他们没有透露具有创造力的超级智慧天才。看起来,AlphaGo似乎只是学会了模仿教科书去做得非常好。AlphaGo的谨慎风格源于其训练数据的偏差。网站流量分析证实,DeepMind创建AlphaGo学习课程所用的英语Go服务器与美国和日本的玩家非常相像,这是业余爱好者仍然玩传统围棋的原因。

这提醒人们,训练数据中的细微偏差可以完全改变神经网络的个性。随着人们越来越依赖大数据,这个问题将变得越来越重要。尤其值得一提的是,韩国顶级专业人士Myngwan Kim发现了早期AlphaGo的未发明性。在棋盘底部,黑方侵入了AlphaGo的领地。根据一个非常常见的序列,AlphaGo一定已经研究过无数次了,接下来是白色。

这就是它的工作原理。当然,AlphaGo做到了。一个围棋棋盘上的底部有一个白色的盒子,上面有白色的棋子。当更多的黑棋子在下方时,盒子变成黑色,白色的棋子被下面的黑色棋子包围,上面有两个箭头指向它们。这个序列应该是一个公平的交换——黑方接受白方的领地,白方对中心产生影响。但这次是错误的。你可以看到黑色的两个棋子(三角形的标记)否定了怀特的预期影响,并威胁到白色的标记棋子。

在这一场比赛中,怀特几乎没有表现出放弃下半部分的底牌。AlphaGo可以模仿人类,但它不能产生新的想法。计划:AI变得具有好奇心AlphaGo可以规划未来。当它不知道该做什么的时候,它会先测试,就像人类一样。在下面的例子中,AlphaGo(白色)不确定接下来要玩什么,因为它不知道对手是想要角落还是外面。

但AlphaGo可以强制其对手展示其计划,以便AlphaGo能够以最佳方式进行响应。下面的例子实际上来自一个AlphaGo的更高版本与自己对抗的游戏。 探测和迫使的密度是惊人的。令人难以置信的是,没有人明确地向AlphaGo教授关于未来的实验或计划。 好奇的行为是AlphaGo自学的东西。AlphaGo如何做到这一点?AlphaGo的远见卓识,灵活性和独创性来源于其丰富而详细的经验,以及完全免于执行力的限制。

世界对神经网络来说,是很混乱,而一个神经网络却看到了可能性:“兔子有80%,鸭子有15%,手巾有5%。”我们的视错觉体验模仿了这种视觉会是什么样子。 著名的鸭兔幻觉包含鸭子或兔子的各个方面,因此我们看来是任何一个:通过一个神经网络来观察发现每个动物身上有一个动物园。 谷歌和麻省理工学院(MIT)于2015年合作,设法梳理出一些神经网络可以看到的更高层次的特征。

梦幻般的结果揭示了一种普遍存在的想象力。像一个pareidoliac注意到斗篷中的鱼眼球,AlphaGo看到奇怪的特征,并产生我们永远不会发生的联想。尽管它有惊人的能力,但AlphaGo并不完美。而在第四场,李在石就破解了它的代码。在比赛的大部分时间里,李在石允许AlphaGo欺负他,为他的数字对手留下小小的优势,以确保自己的领地是安全的。

然后,李在石在一次冒险的攻击中赌博整个游戏。这个策略是有效的,因为它迫使AlphaGo进入一个令人眼花缭乱的复杂和独特的情况,其模式识别软件无法匹配人类的直觉。李在石表示,他直观而迅速地看到了这一举动,AlphaGo的模式识别估计了李在石不到1万分之一的情况。现在机器变得困惑和不知所措。 它粗暴地试图挽救它右边的阵型,反而失去了更多的领土,然后莫名其妙地把棋子放到左下角堡垒。

总之,AlphaGo的崩溃持续了很久。感觉就像看足球比赛:深度学习的快速发展覆盖了公众的想象力,这种技术是一种不可战胜的力量。 但神经网络面临着实际的限制。 第四场中AlphaGo的崩溃揭示了三个这样的缺点。首先,神经网络比人类学习效率低。 他们依靠大量的经验,所以在非常情况下可能会失败。其次,他们的失误可能是毫无意义和莫名其妙的。

一个Go初学者可以把这12个动作识别为非理性的,而左下角的棋子就像是无用的。这里还有一个例子:一组Google的研究人员训练神经网络,以95%的精度写图像标题。 但看看它的一些错误是多么的不寻常。第三个问题是从深度学习的行为主义方法到人工智能。尽管DeepMind在更高版本中修正了AlphaGo崩溃的原因,但是由于神经网络的黑盒质量,没有人会理解AlphaGo如何犯下原来的错误。

我们可能会学习神经网络的预测能力,但是如果缺少解释能力,我们就不愿意将它们赋予充分的自主权。一份2017年“人工智能”报告突出了以下一些问题:目前大数据和深度学习的进展周期还没有系统地解决工程“可用性”:可靠性,可维护性,可调试性,可进化性,脆弱性和可攻击性等等。此外,目前还不清楚现有的AI范例是否适用于任何类型的软件工程验证和验证。

这是一个严重的问题。最后,鉴于AI过去的适应和开始,许多研究人员仍然有点怀疑,夸大的期望不会让位于一个新的、不可预知的进展障碍。10月份推出的AlphaGo Zero甚至不需要向人类学习。根据“自然”杂志上的一篇文章,只用游戏的规则和三天的练习,就可以击败AlphaGo。经过40天的训练,它击败了AlphaGo Master 89-11。

奇怪的是,AlphaGo Zero的开发并没有看到人类的游戏比深奥的大师更加人性化。然后,在十二月初,DeepMind设置了一个名为AlphaZero的版本,这是国际象棋专业人员用于自己训练的高级象棋AI。在学习国际象棋规则的四个小时内,AlphaZero超过了Stockfish,三天后,它在一场非正式比赛中摧毁了以前的卓越象棋AI。

go可能只是一个游戏,但它表达了现实生活中所带来的许多相同的智力挑战。 DeepMind已经将其机器学习发现转化为推荐医学治疗的AI软件。许多其他人也在使用AlphaGo技术来诊断,还有自动驾驶车辆和聊天机器人。AlphaGo的能力和个性预示着未来。这显示了我们人工智能的灵活性、长期规划、甚至原创性以及无情、偏见和不透明的能力。

AlphaGo Zero凭借完全自学击败AlphaGo是否意味着人工智能已经可以开始独立思考?

AlphaGoZero并不会独立思考。目前还没有看到其把完虐老弟AlphaGo的喜悦或者谦虚的情感分享出来的具体行为,可能更不会想到人类看到其优秀表现而可能形成对其自己不利的现状,进而也就说明AlphaGoZero并没有形成类似我们人类的自我概念。没有独立自我概念,谈什么独立思考。不过,当提及独立思考的时候,我们并不知道这个独立的思考的具体过程和含义,独立思考是一个抽象的描述,可以代表很多事情。

例如,看到蛇,我们本能的就会跑掉,该过程反应极快,但也经过了大脑的判断,只不过这个过程感觉起来有些机械化。当我们为做错的事情感到羞愧并且努力改变的时候,会被认为是一个独立思考的过程,不过造成羞愧和努力的动机到底源自哪里,很难说清楚,可以理解成是自我的趋势,也可以理解成某些化学物质的作用。总之,当我们还不能彻彻底底的描述独立思考的时候,独立思考有利于解释很多事情,但其并没有实际的意义。

AlphaGoZero独立思考的更具体描述应该是独立学习,也是介绍AlphaGoZero的文章当中提及的重要部分。这种独立学习的能力如果延展出去,会给很多研究带来突破,不光是下棋。回想牛顿定律、爱因斯坦相对论,这些伟人是如何在数据及其有限的情况下搞出这些定律的,如果从已经有自我概念的思考方式来看,可以把原因归于其有一个更好的大脑,更好的基因,这样没有发现这些定律的人会好受很多,减少沮丧。

可是从学习的角度来讲,他们之所以有伟大的发明,可能是他们更善于学习,有着更好的思维方式。那么,如果人工智能能够独立学习,并且借助永不停止工作模式,和指数级增长的性能,有助于找出更多类似牛顿定律这样的发现,那么我们人类将会极大的收益。目前很多科学家都在研究和人类一样的机器大脑,有两种方式:一种是赋予机器和人类一样的学习能力,另外一种是把人脑的模型复制到机器当中。

从AlphaGoZero这里例子来看,其应该是符合第一种方式。当然,目前赋予学习能力的这个机器和我们大脑的结构并不完全相同,甚至可以理解成有着类似原理的简化版本,不过这并不妨碍其能够做很多事情,例如自己下棋。从我们以往的认知来说,AlphaGoZero不具备独立思考的能力;不过从学习的角度来讲,AlphaGoZero貌似已经独立了。

文章TAG:AlphaGoalphago

最近更新