

新智元原创1
编辑:王嘉俊
【新智元导读】AlphaGo 战胜李世石,信息行业从算法+处理器为核心的计算架构,过渡到算法+数据+处理器为核心的架构,其中数据成为产业的核心。这将开启不确定性人工智能时代。李德毅院士认为,机器人给人类带来的影响,将远远超过计算机和互联网在过去几十年间已经对世界造成的改变。
我们要有标尺来衡量人工智能的水平,而围棋是非常好的标尺。围棋设置的逻辑推理、形象思维和优化选择等多种能力,是全面智能的体现。围棋是公认的人工智能长期以来的重大挑战,而在围棋上的突破,表示我们正处于人工智能爆发的重大转折点。
我们可能低估了 AlphaGo 战胜李世石的意义。
计算机技术的发展,归根结底是基于物理定律的延伸。从牛顿力学到量子力学,是人类历史上的一次认知革命,我们从确定性的时代,来到了不确定性的纪元。
我们过去的计算机程序总归是确定性的,在计算和算法的支持下,对数据进行有序的处理。但人工智能技术的发展,这一切变成了不确定性。中国工程院院士、中国人工智能学会理事长李德毅很早就写过一本书《不确定性人工智能》,最近他表示说:
过去是算法围绕 CPU 运转,以算法作为程序的核心,数据只是输入和输出;而现在是算法和 CPU/GPU 围绕数据运转,算法和数据共同形成智能程序,形成以知识驱动的人工智能。
在这背后是从算法+处理器的核心架构,变成了算法+数据+处理器,数据成为其中的关键。但大数据的多维度、多参数,再加上深度学习的卷积算法,让输入到输出变成了不确定性的过程。就拿 AlphaGo 来说,即便它面对相同的场景和相同的人,它选择落子方案也有非常大的概率不相同。
AlphaGo 的胜利让我们对不确定性人工智能的强大有了更直观的理解,也让我们对它的产业化落地,有了更清晰的方向。北邮计算机围棋研究所所长刘知青把 AlphaGo 的方法论总结为:直觉获取、搜索验证、优化决策。他认为这是未来人工智能的核心。
人工智能也从实验室产品渗透进入各行各业。相比互联网的虚拟化,人工智能对现实世界有了更多的介入:无人车、无人机、机器人、智能硬件等。李德毅院士甚至认为,机器人给人类带来的影响将远远超过计算机和互联网在过去几十年间已经对世界造成的改变。它将会连结现实和虚拟世界。
我们来到了不确定性的世界,这也是人工智能开启的新世界。
2016 年 3 月 30 日,一群顶级学者对 AlphaGo 进行了反思。在“ AlphaGo 人机大战解读与中国人工智能”研讨会上,来自学术界、围棋界和军方的专家们,罕见的齐聚一堂深入解析 AlphaGo,并预测在这之后中国的未来。

出席人员:中国人工智能学会理事长李德毅、原北邮校长林金桐、原中国人民解放军总参谋部办公室主任林建超、中国人工智能学会常务副理事长杨放春、北邮计算机围棋研究所所长刘知青、中国围棋协会主席王汝南、国家围棋队总教练俞斌、围棋世界冠军常昊、中国女子围棋世界冠军唐奕
刘知青是这次大会的主要发言人。他给我们介绍了 AlphaGo 强大的原因,以及这对中国人工智能的启示。
AlphaGo 的对弈风格

1.优秀的⼤局观:完全按照胜率最⼤化的⽬标来落⼦
2.强⼤的总体把握能⼒:简明地把优势转化为胜势
3.直接了当的定型,虽⾮局部最优,但瑕不掩瑜
4.处理复杂盘⾯算法仍有弱点,存在不少改进空间
我们来看看 AlphaGo 背后的技术解析。
AlphaGo 的棋感直觉和搜索验证

刘知青认为,AlphaGo 的强大在于两点:棋感直觉和搜索验证。
这和职业棋手非常像。职业棋手从 5、6 岁开始学棋到 20 岁出头,一般下了几万盘棋。这个过程中会对在什么地方落子、盘面好坏有一种直觉,然后他在下棋的过程中,在直觉的几个点中进行深度计算,模拟双方落子的过程,判断棋局的优劣。

AlphaGo 也用着相同的方法。
AlphaGo 的两大棋感
1、AlphaGo 的落子棋感

AlphaGo 在棋感的训练上,强度远超职业棋手,通过深度神经网络的监督学习,获得围棋的棋感和直觉。上面的图是 AlphaGo 的棋感表示,绿色的圆圈代表着好点,但不止一个,图中列出了十多个落子棋感。这里的棋感是一种直觉表示,通过神经网络,输入之后马上就能得到,给出权重值。
AlphaGo 通过几十万盘职业和高段位的棋局训练。每盘棋有 200 多步,总的来说有上亿数量级的落子方式。这样程序就可以通过大数据训练的深度神经网络,有能力在不同的围棋盘面下直觉出落子棋感。
2、AlphaGo 的胜负棋感

除了落子棋感,另一个棋感是价值棋感,也就是胜负棋感。这里是说给定一个盘面,对于黑方或者白方来说,胜率是多少。所以这背后的网络是价值神经网络,它使用了增强型学习,通过自我对弈获得了 3000 万盘棋谱,每个棋谱只取出一个盘面,防止过度拟合,然后进行胜负分析。通过 3000 万盘盘面训练出来的增强型深度学习网络,可以做到给定一个盘面,就知道每一步的胜负概率。
例如在这个盘面上,点的颜色越蓝,就意味着胜率越高。最高的胜率是红圈。
搜索验证:蒙特卡洛树搜索

仅仅有棋感是不行的,围棋要下好,还得通过严格的数学模型和计算方法,对棋感进行验证。AlphaGo 使用的是传统的蒙特卡洛树方法,它在 2006 年有已经发明出来,现在已经相当成熟。
1、胜负棋感验证:快速模拟采样

AlphaGo 通过快速模拟采样进行验证。这是基于数学期望的方法,通过蒙特卡洛树模拟和采样,得到一个期望作为评价指标,以验证盘面的胜负。
评价指标的可靠程度,和采样的规模有关。采样越多,胜负棋感的评价指标越可靠。
2、落子棋感验证:最大信心上限搜索

AlphaGo 使用了最大信心上限搜索,这是在线机器学习的重要方法,也平衡机器学习过程中探索与利⽤之间的⽭盾。在这个地方可以看到,它列出了 5 个认为可靠的点,其中最可靠的是红色点。AlphaGo 认为,在红色点落子,最有信心获得胜利。最大信心上限的方法,搜索最优的落⼦点,同时也是搜索次数最多的、 信⼼最⼤的、胜率最⾼的落⼦点。
搜索结果:双方最佳落子序列

这幅图列出双方最佳的落子序列:28 步,14个回合,计算出来双方该怎么下,对方如何落子,自己又怎么落子。
落⼦过程的最终搜索结果是双⽅最佳的落⼦序列, 反映了对棋局进程的展望。
每步落子,都有 28 步的搜索深度,这在一般情况下已经超过围棋职业选手的搜索深度。但是在特殊复杂情况,职业棋手远远不止 28 步落子,尤其是一本道的情况下。在第四盘,AlphaGo 失误的情况,那时候的复杂搜索可能就多于 28 步。
AlphaGo 的核心技术突破

AlphaGo 的核心技术突破,是使用了深度神经网络获得围棋棋感直觉,这个方法应该是 DeepMind 公司首创。虽然有其他团队、其他公司做过相关的事情,比如说 DarkForest ,刘知青自己也在做棋谱分析。但是全面的做,不仅做落子棋感,同时也做了胜负棋感,只有 DeepMind。胜负棋感,是 AlphaGo 获胜的关键。而使用增强型深度学习,是 AlphaGo 技术的关键。
但是 AlphaGo 不仅仅使用棋感,也使用了蒙特卡洛树搜索。AlphaGo 的前两个作者,都是长期从事计算机围棋的人士,Aja Huang 博士论文做了 7 年,就是做计算机围棋。他们有很长的前期积累,使用了成熟的计算机技术,同时加入了自身的突破。DeepMind 非常擅长使用深度增强型机器学习,之前的论文也使用这种方法在电子游戏上,发在了 Nature。在对弈上,他们使用的硬件相对比较普通,比如说 48 个 CPU、6 个 GPU。即便是分布式版本,1000 多个 CPU,也不是很大。但训练时所需要的 CPU 是巨大的,一般需要几个月的时间。
Hassabis:我们的深度神经网络训练算法,对 AlphaGo 的性能是至关重要的,远远超出它背后的硬件设备。
以围棋作为标尺:人工智能爆发的转折点

AlphaGo 使用的方法,在数据中使用神经网络训练,从高段位的棋手获得落子棋感,自学习获得胜负棋感。用数据驱动通用人工智能的发展,这在未来几年会有井喷式的发展。
未来人工智能的核心
未来人工智能的核心是直觉获取、搜索验证和优化决策。
直觉获取

围棋有落子和胜负的直觉,我们还可以有棋盘识别的直觉,任意拍一张照片,可以使用深度神经网络识别哪里是棋盘,哪里是棋子。他们当时和樊麾对弈,就是使用摄像机记录。但是有了这个技术,就能够马上识别落子过程。这种不经过思考,很快就能识别的能力,就可以通过神经网络的训练获得。
搜索验证

第二个核心是搜索验证。直觉是存在误差的,所以需要为直觉建立真实性和可靠性,这就需要通过验证了。廉价的并行计算和大数据的积累,就能够用来验证直觉。
优化决策

有了廉价的并行计算获得的验证方法,和神经网络获得的直觉,下一步是优化决策。人类生活中面临着方方面面的优化决策问题,照片中的肿瘤是不是良性,手里的股票是否要继续持有?都些都是决策,从大到小无处不在。我们完全可以对此进行智能的优化选择。
毫无疑问,人工智能会渗透到我们生活的方方面面。正如互联网摧枯拉朽一般席卷了所有产业,人工智能也会带来智能+的浪潮。作为智能+中国的主平台,新智元也会加入这场产业革命,推动中国人工智能事业的发展!
人工智能大咖读《新智元:机器+人类=超智能时代》

李飞飞 | 美国斯坦福大学(Stanford University)计算机系终身教授,斯坦福人工智能实验室主任
从 Age of Information 到 Age of Intelligence,人类社会在 21 世纪悄然迎来了信息革命后的另一个大时代——智能科技与产业的崛起。面对大时代,需要有大智慧、大胸襟和大情怀。《新智元:机器+人类=超智能时代》云集了各方专家的真知灼见,真诚地与读者探讨智能时代的未来、挑战和责任。十大人工智能研究院院长、AI 专家
技 术 重 磅 解 密


谷歌AlphaGO战胜李世石,标志着机器智能向人类智能的领地又迈进了伟大的一步。而“互联网+”向“智能+”时代的跃迁,也昭示新智能时代即将到来。2016年,恰逢人工智能诞生60周年,《新智元:机器+人类=超智能时代》是人工智能技术和产业狂飙突进的见证,为读者打开人工智能世界的一扇大门,不仅可以一窥百度大脑、讯飞超脑、中国大脑计划究竟,更可以著名人工智能研究院院长等顶级专家大咖的技术解密作为对智能产业未来趋势的参照。近百位学界、商界、技术界、产业界的专家,从机器人、机器学习、智能汽车、智能医疗、认知科学、高性能计算和“AI+”投资等不同视角,对人工智能和机器人产业进行评析。人类未来在AI时代将何去何从,超智能时代将引发社会更多思考。




