杭州峰会上AlphaGo之父详解“围棋上帝”是怎样炼成的

哈萨比斯举了一个例子,上世纪90年代,IBM 发明的深蓝系统(Deep Blue)曾打败了国际象棋冠军加里·卡斯帕罗夫(Gary Kasporov)。但这并不是一个通用型学习系统的例子,深蓝是一种弱人工智能,它通过机器暴力搜索,来搜索研发人员预设的数据。所以,深蓝不能说是一个聪明的机器,只能说背后的编程者很聪明。那DeepMind在做的强人工智能是什么样子?简单概括来说,机器需要掌握观察和行动两个技能。假设有一个智能体,当它获得一个目标信息,它首先需要去观察自己所处的环境,这个环境可以是真实环境或者是虚拟环境,然后通过视觉、听觉,甚至是感觉去熟悉环境。

NetSmell 出品

图0:杭州峰会上AlphaGo之父详解“围棋上帝”是怎样炼成的

AlphaGo

凤凰科技讯(作者/白杨)5月24日消息,乌镇围棋峰会进入第二天论坛环节。昨天,AlphaGo取得了与柯洁对阵的首场胜利,再一次展示了人工智能在围棋领域的非凡实力。今天,DeepMind创始人杰米斯·哈萨比斯(Demis Hassabis)和AlphaGo团队负责人Dave Silver便对外讲述了AlphaGo研发背后的故事。

DeepMind于2010年在伦敦成立,2014年被谷歌以4亿美元收购,目前有200多名员工。哈萨比斯说,DeepMind相当于人工智能的阿波罗计划,希望打造新的研发科学的方式。

所以,DeepMind所有的研究内容都围绕智能。大致分为两个步骤:一是要攻克智能,真正的掌握智能;二是用智能去解决问题。

如何实现这样的目标?DeepMind在努力打造一台通用型的学习系统。在DeepMind的所有算法中,都有一个学习的机制,而不是预设的系统。

通用型的学习系统最大的特点是可以举一反三,一个算法可以做一系列的事情。这很接近人类的大脑,从一个任务中学习到的经验,可以应用到其他事情中去。

目前,绝大多数机器都无法做到这点,DeepMind希望能够打造出这样的能力。

图1:杭州峰会上AlphaGo之父详解“围棋上帝”是怎样炼成的

Deepmind创始人杰米斯·哈萨比斯

哈萨比斯举了一个例子,上世纪90年代,IBM 发明的深蓝系统(Deep Blue)曾打败了国际象棋冠军加里·卡斯帕罗夫(Gary Kasporov)。但这并不是一个通用型学习系统的例子,深蓝是一种弱人工智能,它通过机器暴力搜索,来搜索研发人员预设的数据。

所以,深蓝不能说是一个聪明的机器,只能说背后的编程者很聪明。

那DeepMind在做的强人工智能是什么样子?简单概括来说,机器需要掌握观察和行动两个技能。假设有一个智能体,当它获得一个目标信息,它首先需要去观察自己所处的环境,这个环境可以是真实环境或者是虚拟环境,然后通过视觉、听觉,甚至是感觉去熟悉环境。

然后就设定一个想法,针对环境去决定当下应该采取什么样的行动来实现目标。看似简单的两个步骤,背后却涉及了极其复杂的算法和原理。

为什么AlphaGo要下围棋?

回到AlphaGo,哈萨比斯和他的团队为什么选择围棋,而不是象棋或者其他棋类?哈萨比斯表示,围棋对计算机来说是最困难的,其复杂程度让穷举搜索都难以解决。

对机器来说,围棋的困难主要在两方面:一是,机器无法写出评估程序来决定谁赢了;二是,围棋是一种直觉性的比赛。

输赢的判断对比赛来说非常重要,但是围棋不像象棋,吃掉对方的“帅”或者“将”即可获胜,这也导致围棋的搜索空间非常庞大。

围棋更像是一个筑防游戏,每走一步都需要盘算整个棋局,而象棋是所有棋子都摆在盘上。另外,围棋选手都是依靠直觉在下棋,且围棋中没有等级概念,所有的棋子都一样,小小的一子,就可以影响全局。

正因如此,AlphaGo在围棋上取得的成绩,确实得来不易。哈萨比斯也说,去年战胜李世石,让他们整个团队都很激动。为这一刻,等了十年。

AlphaGo是如何工作的?

Dave Silver称,按照传统的算法,每下一步棋计算出几十种可能,然后每种可能又产生几十种可能。这种穷举式的搜索方法应用在每一步都有上百种可能的围棋上,会变得非常笨拙。

图2:杭州峰会上AlphaGo之父详解“围棋上帝”是怎样炼成的

AlphaGo团队负责人Dave Silver

所以AlphaGo团队在研究时,一直想办法减少穷举式搜索的宽度和深度。

他们结合了监督学习和强化学习的优势。一方面形成一个策略网络(policy network),用于学习棋盘;另一方面,形成一个价值网络,以-1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。

这两个网络结合在一起,就形成了AlphaGo的树搜索。在获取棋局信息后,AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。

与柯洁对战的AlphaGo自学成才

但这次与柯洁对战的AlphaGo相较于去年的版本,进行了很大的改变。今年的AlphaGo更强化了学习,它通过自己与自己下棋,产生大量的棋局,然后学习、改进。

这样一来,AlphaGo就不需要依靠人类的数据,而是自学成才。然后不断给下一代版本提供更好的数据,这是一个良性循环。

去年,与李世石对战的AlphaGo在谷歌云商有50TPUs在运作,每一步可以搜索50个棋步,并且可每秒搜索10000个位置。

昨天与柯洁对战的AlphaGo,则是在单个TPU机器上进行比赛,它拥有了更强大的策略和价值网络。

哈萨比斯说,AlphaGo最酷是它不仅把围棋当做比赛,更是当做一种艺术,而且是非常可观的艺术。

在与李世石对阵的第二局比赛中,它走出了令人惊叹的第37步棋,这让研发人员都感到惊讶。按照围棋几千年来的经验,人类是绝不会下出这一步。

李世石当时在赛后也表示,AlphaGo给围棋带来了全新的体验和认知,让他有了继续下棋的比赛。

柯洁在昨天比赛技术后也有着同样的感受,AlphaGo让围棋有了更多的可能,似乎没有哪一步是不能下的。

AlphaGo已经展现出了它在围棋方面的创造力,并给围棋选手打开了新的世界的大门,围棋的边界远远超乎他们之前的认知。

哈萨比斯说,他们会继续打造AlphaGo,不断弥补它知识方面的空白,让它变得更完美。

对于未来,以AlphaGo为代表的人工智能也会成为人类的工具,就像望远镜一样,帮助人类探索更多未知的领域。比如在材料设计、新药研制等方面,人工智能一旦有所突破,给人类带来的影响也同样超乎想象。

最后,哈萨比斯还强调一点,当人工智能真正来到人们身边时,正确恰当的使用人工智能也非常重要。

显示余下内容
 

发表评论

电子邮件地址不会被公开。 必填项已用*标注