论坛全程回顾4:郭毅可院士作主题演讲《不求让机器做的多,但求要机器做的对》

随着科技的不断发展和5G的快速崛起,越来越多的人工智能机器人不断涌现,智能机器人也将越来越普及,小到语音音箱机器人,大到生产线的智能机器人,许多领域都能看到智能机器的身影。

作为新一代的生产服务工具,智能机器人可以完成什么工作?未来的发展方向又是如何?10月22日上午,在2020上海静安国际大数据论坛上,香港浸会大学副校长、英国皇家工程院院士、欧洲科学院院士、CAAI名誉副理事长郭毅可带来了人工智能未来发展的思考。

香港浸会大学副校长、英国皇家工程院院士、欧洲科学院院士、CAAI名誉副理事长郭毅可

以下为郭毅可院士演讲精彩实录。

人工智能发展的方向:机器不仅要有学习能力,更要有创造力

首先我们来看世界经济论坛18年发布的人工智能发展的时程表,它给出了人工智能一个方向性的引导,让我们看到人工智能方向的发展。2020年,计算机能打扑克,2024年计算机能编程,2026年,计算机能写作文,2027年,计算机能谱写流行歌曲,2028年计算机可以拍电影,2049年计算机可以写小说,并且写的是最好的小说,2050年,计算机可以参加数学竞赛,2050年计算机可以成为数学家。

从这个角度来看,人工智能发展的方向,就是不仅要让机器具有学习的能力,更要有创造的能力,机器学习是这些技术的根本。所谓机器学习就是计算机获取知识的能力。在计算机和人工智能发展的初期,人把自己的知识赋予计算机,是手工化的赋予。后来自动化程度越来越高,计算机算力越来越强,计算越来越快,使得它可以做比较复杂和比较消耗计算能力的算法,同时它可以处理更大量的数据。所以数据量的丰富,计算方法的成熟和计算能力不断的强大,这三个因素导致今天我们可以用非常复杂的模型,使计算机可以通过数据获得知识,这就是所谓的机器学习。

机器学习不管多么深奥、复杂,从基本模型上来说,它还是简单的。它主要有两个最重要的元素:一个是模型;另一个是观察或者叫数据。机器学习跟人是一样的,就是我们在脑子里面,对内容有认识,你可以管它叫模型或是知识。同时我们不断的观察世界,观察是我们的数据,模型是我们的看法,这个观察和模型导致我们的预测。客观和主观,它总有一个误差,如果客观和主观没有误差,两个是一致的,这时我们将不会做什么事情,只会认为我们的主观很准确,更加坚定了我们对于一样东西的看法;如果这个东西,主观和客观不一致,就是和观察不一致,这时候我们相信客观世界的真实性,相信我们观察是准确的,这时候我们会对我们脑子里面的知识表示怀疑,同时会修改我们的认知,使得它产生更符合于客观世界的预测和看法。

还有一种说法,认为主观是正确的,那时候我们会根据我们的主观世界,改变客观世界产生行动。所以要么改变世界,要么改变自己。这影响了我们的学习和行为,机器学习原理上来讲就是这样的过程。

什么是机器行为?

什么是行为?行为是我们对世界的改变。比如我们看病,当医生观察到病人跟正常人不一样的时候,他的改变行为,就是改变病人的客观。

战争也是一种行为,这种行为本身也是确定一个重要的问题。比如战争的目的是消灭敌人赢得胜利,这时候对于敌人的判断,对于消灭敌人的组织,有很大的主动性。所以说行为的本身,有一个有益性的衡量,不是所有的行为都是有益的,有益有一定的标准。这时候做出任何的行为,我们就会考虑,它是不是一个伦理的准则。所以机器行为和人类行为是一样的,一旦有行为,就会放在一个规范当中来考虑。

机器行为有以下方面,第一个是行为的目的,即按照主观意图改造周围环境。这时候会出现有一系列的问题,是个人还是集体,是否有共同的意图。行为的原则,不仅是知道怎么做,还要知道什么不能做,这个不能做就是伦理规范。必须要知道做出来的结果是不是与目的性一致,出来结果,不仅要知道行为是什么,还要知道为什么会做出这样的结果,就是根由。如果没有这些,就不能论证目的的要求。

怎样向机器表达目的?

我们是怎么样向机器表达目的的?最基本的方法,是通过效用函数。

什么是效用函数?简单来说,是这样一个公式:找到一个参数,这个参数使得后面的表达是最大化或者最小化,这个表达通常是一个平均值。因为你有多种的选择,在多种选择的前提下,会得到一种状态,就是这个X,这个时候损失函数是这个状态的函数,这时候说的状态就不是最大化和最小化,而是一个均值。

也就是在一个行为下面有各种状态,我保证在这个状态下,它的得益或者是损失是均值化的。比如深度学习中,我们认为I是损失函数,误差最小,A是参数,要求得出的结果是误差最小的。这就是我们向机器表达目的的方法,得出的函数最大或者是最小,损失函数是这些,目标减掉模型值,看一下误差是多大。我的目标是找到这样的参数W,使得目标的平均误差最小。非监督学习和强化学习是类似的,对于非监督学习它的效用函数是某一种分布必须要符合这个数据,对于强化学习来讲,就要求整个步骤的得分是最高的。

效用函数的适用度

算法从数据中学习,学习行为,使得效用函数最大化或最小化。算法决定机器行为的办法往往是通过优化效用函数来实现,学习算法的结果可以通过继续学习而不断进化,算法可以是黑箱,黑箱透明化是通过行为推演而得的。

这个就是告诉你机器学习的进化性,从这些强化学习的实例,可以看到算法是不断进化的。

什么样的效用函数可以表达我们的目的?这时候有两件事情要做,一是选用哪些效用函数。首先选用效用函数是很困难的。埃隆?马斯克曾经提出一个效用函数来表达我们的行为。就是非线性的常用方程。他认为这个表达了一个效用:行为的最大自由度。

我们来看,正面它是不是能反映我们这个目标。首先第一点,我们怎么样来定义我们的行为自由,第二我们怎么理解这个行为自由是人类获得自由。这个经济学上称为一个代理人原则,就是说:我让一个人代我做一个工作的时候,我首先考虑他的利益最大化是为我还是为他自己。这个找律师的时候是看的最清楚的,首先需要确定律师是有意把案件变复杂,使他自己的报酬最高;还是说为我着想,帮我尽快的解决问题。

自由极大化不一定是有益的。因为无止境的自由化就会导致无政府主义,这个是经济学里的不可预知原则,一个好心,可能干成一件坏事。这就是我给出一个效用目标的时候,我必须要考虑它的副作用和可能带来的坏结果。

第二个就是伦理问题。当技术要实现伦理,它更是一个哲学问题。现在看来,目的是通过效用函数来表达。这时候我们最简单的表达方式,就是把伦理编码在效用函数里面,这个东西是不是正确,这是一个问题,就是人工智能伦理是外在的还是内生的?这个要认真的考虑。

把伦理作为行为的限制,其局限性是很明显的,因为你不可能考虑所有的特殊情况。但是人有时候不需要判断的,人有直觉,机器没有。所以这里面很重要的问题是:我们是不是应该不把伦理性看成外在的,而是把它作为人工智能发展本身的出发点。也就是让机器只做伦理正确的事情。

如何判断机器行为

我们如何判断机器做得对不对,这个判断对不对,是验证问题,做验证问题实际上是不容易的。为什么呢?它有两个方面。第一个,我们对什么叫最优的定义?因为我们的最优不一定对。比方说这里做个判定,最优有两种可能,一个是最好的精确,还有一种,比如我要求AUC最小,或者我要求它的方程最小等等,比如我们做新冠测试,如果你没病变成有病最多到医院查一次,但是如果我给你测试的话,我没有把你测出来,你传染别人,导致很大的灾难。

还有很大的问题,即使最优的也未必是合理的,如果我们找到了模型,但不知道一些最基本的因果关系,就会导致很多的模型会是简单的错误。比如我们发现有哮喘的肺炎患者,死于肺炎的概率比较小。这个显然不合常识,但这是机器发现的一个规则。很重要的原因是它有一个隐藏的隐变量,就是说这个哮喘患者常被送到重症监护室,因为一个肺炎病者没有哮喘,那么他可能一旦爆发就是晚期。如果有哮喘的病人,因为他有哮喘,他得了轻症的时候,就被送到了重症监护室,于是他得以生存。

图灵测试悖论

我们要问这个问题,AI系统应该具有什么样的性质才能赢得我们的信任,才能被验证,这个是最重要的。我们要理解机器做的理解,刚刚说过了,我们这个不仅要知道他做了什么事情,你为什么有这个答案,还要知道得到这个答案的原因。所以我一直认为图灵测试,是没有想完全的问题,因为图灵测试很容易被打破,如果把机器和人放在背后,你问一个问题,机器和人做了回答,这个回答很可能你分不清楚,你不知道是机器给的还是人给的。

其实再问一个问题,问他为什么给我这个答案,这时候人可能讲得很清楚,但是机器讲不出来。这就是一个简单的对于图灵测试的质问。实际上图灵测试里面有个悖论,你只告诉了结果却不告诉原因,但是原因常常是质问的根本,是一个因果。所以这个是非常重要的,机器要能够解释自己的行为是个很重要的人工智能的方向。

大家都可以看到,实际上今天的人工智能在某些方面是非常原始的,表达目的的简单,无法把伦理作为内在,无法确定和验证行为本身,更不能解释行为的根由。根本的问题就在于理解。我们对于机器人的理解非常浅薄,而根本的困难在于我们不要求机器理解人。所以用效用函数向机器表达行为,就决定了我们无法告诉机器什么是对的行为。这里面失去了许多对于行为的正确性和目的性的阐述。

机器行为的伦理性

个人受教育,是让我们的行为满足于一种规范,而机器没有被这个训练过,机器对于伦理性的要求是外在性的限制,它做出的行为本身没有符合伦理的特征,那么这时候我们应该考虑怎么样做一个人工智能,把伦理性变成人工智能的一个内在特性。优化效用函数不能保证提出行为的目标相一致,因为我们想着要机器做的事情,并把它转成效用函数,但这个转化不一定是准确的,同时优化它的结果,并不一定保证跟我们的目的相吻合。

重要的是优化的过程没有层次性,我们不知道这部分的优化,对应哪些行为的特点,另外一部分优化,对于哪些行为特征。当机器做出行为之后,我们就没有办法知道哪些行为是通过哪些优化工作把它做到的。这个我做不出来,原则上它很难解释这个行为。所以真正的理解机器人的困难,就在于机器不理解人教育它的目的。它只理解一个函数在做优化,所以这是一个根本性的缺陷。

从机器行为出发思考人工智能

未来的人工智能必须从机器的行为出发。什么意思?就是我们行为目的的本身,我们要把伦理原则标定,当我们给出伦理目的的时候,给机器学习目的的时候,要保证目的的本身是无害的。

第二点重要的是,一个人的行为和目的的表达,常常是非确定的,不完美的,是不断的跟着环境的变化来交互的。这时候机器跟人的交互就特别重要,可以保证人对机器有一个不断的、互相学习与互相的共同共生、共同工作的环境。我们没有办法把整个要求一次性展示出来,因为我们的要求也是根据行为变化而不断改变的。

第三个,行为正确性的论证。我们必须要保证机器行为和目的可以符合形式论证,最后我们一定要能够得到行为因果关系,并且道出这个行为的因果关系。近来人工智能在这方面的研究,已经有了一些非常有影响力的工作。其中最有影响力的工作,就是Stuart Russell教授提出下一代人工智能三大原则。

一个是对人有利,第二个是行为可以验证的,证明和目标的一致性,第三个是机器要了解更多人的需求。他的原则在于,第一个是人工智能首先要把伦理变成它的内在,就是这个机器必须是利人主义,而不是为自己的目标最大化。第二点是机器知道要做的最大化的原则是人类价值,但是什么是这个价值呢?它是通过自己观察人类的行为,与人的交流获得的。当然里面最重要的一点,是强调这个机器的目标,它不是确定性的,它是在学习过程中不断强化的。这时候重要的一点是强调交互,也就是说我们要假定未来的机器发生在人类的共生社会中间,这时候机器学习和人一样的,是互相与人交流的过程,这个过程中人要理解机器的行为,我们要它做事情的目的是什么,为什么这么做,要能解释。机器要理解人的意图,这个目标不是人给的,而是他自己学习出来的。那么这个最重要的一点就说明,未来人工智能的研究是以人和机器的有效交互为出发点。

所以,总结而言,我们认为未来的人工智能,强调内生性,机器要知道怎么样做是对的,更重要的是整个的机器学习和人工智能的进程,我们不是在制造一个仆人,而是制造一个伙伴。要和机器互相理解,才能保证人与机器之间互相的学习过程。当然还有一点,就像刚才Stuart Russell教授说的那样,机器有利他主义,它没有自我。但是它同样是个伙伴,它会学习,你要原谅它做得不对,你要纠正它做的不对,整个过程才是一个正常的人工智能机器的生存方法。

所以,我讲未来真正的人工智能的一个重要的研究的着重点,是在于我们与机器的互相理解,这个非常重要。我们要理解机器的行为,机器要理解我们的意图。这就是两个互相交融发展的人工智能的前景和动力,谢谢大家。