图灵测试已经过时,人工智能需要建立一套全新指标

出品:放牛班的秘密花园(ID:CDXBN1)

来源:快公司

编译:sail2008

责任编辑:sunnisky

亚马逊Alexa副总裁兼首席科学家Rohit Prasad认为,旧的计算标准对当今的人工智能时代已不再具有借鉴意义。

今年是艾伦图灵引入“图灵测试”概念的论文发表70周年。在这篇论文里,他回答了这个问题“机器会思考吗?”。该测试的目标是确定机器能否表现出与人类难以分辨的对话行为。

图灵预测,到2000年,普通人在模拟游戏中将人工智能与真人区分开的概率将不到70%,游戏中的回应者可能是真人,也可能是人工智能,而评估者对此毫不知情。

阿兰图灵

为什么20年过后,作为一个产业,我们还无法实现这个目标呢?我认为图灵提出的努力目标对我这样的人工智能科学家来说并不是一个实用目标。

图灵测试充满了限制性因素,图灵自己在这篇开创性论文中就讨论过其中一些。随着如今人工智能普遍集成到手机、汽车和家庭中,一个事实越来越明显:人们更关心他们与机器的交互是实用、无缝和透明的,实现机器与人真假难分的理念已经过时。

因此,是时候让这个70年来一直作为灵感源泉的传奇退役了,我们需要设立一个全新的挑战来赋予研究者和从业者以同样的灵感。

图灵测试

与公众想象力

在概念引入后的短短几年里,图灵测试成为人工智能学术界的北极星。

六七十年代最早出现的聊天机器人“伊丽莎”(ELIZA)和“帕里”(PARRY)的目标就是通过图灵测试。2014年,聊天机器人“尤金古斯特曼”(Eugene Goostman)宣布它通过了图灵测试,骗过了33%的人类裁判,让他们误以为自己是真人。然而,正如其他人所指出的,骗过30%人类裁判的标准是武断的,即使这样,这场胜利还是让一些人觉得过时了。

然而,图灵测试继续激发着公众想象力。OpenAI的“生成性预训练”Transformer 3(GPT-3)语言模型以其击败图灵测试的潜力而成为头条新闻。同样地,记者、商界领袖和其他观察家仍然会问我:“Alexa什么时候能通过图灵测试?”

毫无疑问,图灵测试是衡量Alexa智能的一种方法,但这样衡量Alexa的智能真的重要吗?有意义吗?

要回答这个问题,让我们回到图灵第一次提出这篇论文的时候。

1950年,第一台商用计算机尚未开售,光纤电缆的基础性研究又过了四年才发表,人工智能领域也还没有形成,要到1956年才正式确立。如今手机的计算能力是阿波罗11号的10万倍,再加上云计算和高带宽连接,人工智能可以在数秒内根据海量数据做出决策。

虽然图灵的最初设想仍能赋予我们灵感,但将图灵测试理解为人工智能进步的终极标志,必然会受到它刚提出时所处时代的局限。

首先,图灵测试几乎没有考虑人工智能的机器属性,比如快速计算和信息查找等,这些才是现代人工智能最有效的特征。

刻意强调骗过人类,意味着人工智能要通过图灵测试,就必须在回答诸如“你知道3434756的立方根是多少吗?”或者“西雅图离波士顿有多远?”这类问题的时候做出停顿。

事实上,人工智能立刻就知道这些答案,而做出停顿让自己的回答听起来更像真人,并不是利用其技能的最佳方式。

此外,图灵测试没有考虑到人工智能使用传感器听、看和感受外部世界的能力越来越强大。相反,图灵测试仅限于文字沟通。

其次,要想让人工智能在今天更实用,这些系统需要高效地完成我们的日常任务。当你让人工智能助手帮你关掉车库的灯时,你并不想发起一场对话。相反,你会希望它立刻满足这个要求,并以一个简单确认比如“ok”或“好的”来通知你。

即使你与人工智能助手就一个热门话题进行广泛对话,或让它为孩子朗读故事,你还是想知道它是人工智能而非真人。事实上,通过假装真人来“骗过”用户会带来真正的风险。想想反乌托邦的可能性,我们已开始看到散布假消息的机器人和深度虚假新闻的出现。

人工智能

面临全新的重大挑战

与其说沉迷于让人工智能与人类毫无差别,我们更应该致力于构建能增强人类智力、以公平和包容的方式改善我们日常生活的人工智能。

一个有价值的潜在目标是,让人工智能表现出类似人类的智能属性包括常识、自我监督和语言能力,与快速搜索、记忆唤起和代表你完成任务等机器效率相结合。最终的结果是学习和完成各种任务,适应全新的情况,远超一个普通人所能做的。

这一焦点揭示了当前人工智能领域真正重要的研究感官理解,对话,渊博的知识,高效学习,决策推理,以及消除任何不恰当偏见(即实现公平)。这些领域的进展可以用多种方式来衡量。

一种方法是将挑战分解为多个任务。例如,Kaggle的“抽象和推理挑战”专注于解决人工智能从未见过的推理任务。

另一种方法是为人机交互设计一个大规模的现实世界挑战,比如“Alexa 社交机器人大奖赛”一个面向大学生的对话型人工智能大赛。

事实上,当我们2016年推出Alexa大奖赛时,我们就应该如何评价竞争对手的“社交机器人”展开了激烈的辩论。我们是想让人们相信社交机器人是真人,展开某种程度的图灵测试吗?或者,我们是想让人工智能具备进行自然对话的能力,从而促进学习、提供娱乐,还是只是把它当作一种令人愉悦的消遣?

首个获得公民身份的机器人“索菲亚”

我们制定了一个规则,要求社交机器人在20分钟内与真人就包括娱乐、体育、政治和科技在内的广泛热门话题进行连贯有趣的对话。

在决赛前的开发阶段,客户会根据是否愿意与机器人再次交谈来给它打分。在决赛中,独立的人类裁判会根据连贯性和自然性以5分制为其打分。

如果任何一个社交机器人的平均对话时长达到20分钟,并获得4.0以上的分数,那它就能通过这个重大挑战。

虽然目前还没有社交机器人通过这一重大挑战,但这种方法正引导人工智能研发,使其在基于深度学习的神经方法的帮助下,拥有类似于人的对话能力。它优先考虑让人工智能在适当情况下展现出幽默和同理心,而无需假装成真人。

威尔史密斯主演的科幻电影《我,机器人》

像Alexa这样的人工智能在我们日常生活中的广泛应用,是衡量人工智能进展的又一个绝佳机会。

虽然这些人工智能服务依靠类似于人的对话技巧来完成简单事务(如设置闹钟)和复杂任务(如规划周末),要实现效用最大化,它们就要从对话人工智能跨越到“环境人工智能”当你需要它时,人工智能会立刻回应你的请求并预测你的需要,当你不需要它时,它会消失在背景中。

例如,Alexa能检测到玻璃破碎的声音,并提醒你采取行动。如果你在睡觉时设置了闹钟,它会建议关掉楼下还开着的联网灯具。

这种人工智能的另一个方面是,它们需要在日益增加的大量任务中成为专家,这只有通过更广泛的学习能力而非特定任务智能才能实现。因此,在未来十年乃至更长的时间里,人工智能服务的实用性,及其在环境设备上的对话和主动协助能力,是值得考察的。

这绝不是要贬低图灵的最初设想图灵的“模仿游戏”的设计初衷是一个思想实验,而不是对实用型人工智能的终极测试。

然而,现在正是取消图灵测试的时候,让我们从艾伦图灵的大胆构想中获取灵感,加快以帮助人类为目标的人工智能的建设进程。

【今日互动】

你觉得图灵测试对人工智能过时了么?”

喜欢我们的话,记得加星标或置顶哦

声明:著作权所有,转载需授权

Come on,给你的灵魂充充电