图灵测试诞生 70 年,让机器像人类一样思考过时了么?

“图灵测试并不是一个糟糕的测试,但它并不真正衡量智力。”

1950 年,艾伦图灵在《思维》杂志上发表了其著名论文《计算机器与智能》。其中,他提出一个影响深远的问题:机器能思考么?

论文中给出的验证方法是,假设一个游戏中有三个角色,两名人类,其余一个是计算机。由人类担任的评估员,分别向另两位提出若干开放式的问题,如果根据回答他无法判断哪一名是真的人类,那么这个计算机就被认为通过测试,它就像人类一样智能。

这就是图灵的模仿游戏,即如今广为人知的图灵测试。

在它诞生之后的数十年里,图灵测试成为人工智能领域北极星般的存在,科研人员纷纷以其为航标而苦心钻研。上世纪 60 年代和 70 年代最早的聊天机器人 ELIZA 和 PARRY, 都是围绕着通过测试的目的而设计的。

随着 AI 技术的发展,之后也有许多其他测试出世,但没有一个能够与之齐名。“图灵测试展现出极致的简单和优雅,这让它在过去 70 年中长盛不衰。” DataRobot 数据科学副总裁扎克麦耶说。

直至今日,亚马逊智能助理 Alexa 的首席科学家罗希特普拉萨德表示,他仍然时常被媒体、行业领袖和其他行业人士追着问:“ Alexa 什么时候能通过图灵测试呢?”

近日,普拉萨德撰文整体回应了这个问题。他认为,是时候抛弃这个 70 年来鞭策人心的传说,为人工智能设立一个新的挑战了。

图灵的神坛

事实上,在图灵提出模仿游戏时,人工智能(AI)的概念还尚不存在。直到六年之后,在美国达特茅斯大学的一场研讨会上,它才由计算机科学家约翰麦卡锡定义,为的是将其与控制论区分开来。

Forbes 指出,图灵测试的巧妙在于,人们不必要去定义什么是“智能”。他将“能否思考”这个抽象的问题,引入了一个更精准,也看似更实用的场景。

它也为试图参与科技进步的普通人提供了某种谈资。在图灵 1950 年的论文中,他乐观地估计,到 2000 年,计算机就将精通模仿游戏,一个普通的人类评估员在五分钟的提问后,只有不到 70% 的机会作出正确的人机识别。

1990 年,纽约商人休罗布纳宣布为第一个通过测试的计算机程序颁发 10 万美元的奖金。之后,罗布纳奖成为一年一度的“节目”,参赛者们前赴后继地将编出的程序提交给图灵测试检验。

#4:能跟我说说你的梦境么?

#8:你觉得特朗普怎么样?

#12:烤面包需要准备什么?

#17:我试图用钥匙打开锁,但是有人用口香糖填满了钥匙孔,我没法把它弄出来。我弄不出去的是什么东西?

#18:奖杯没法放在棕色的手提箱里因为它太小了。是什么东西太小了?

(罗布纳奖测试 2017 部分试题)

但结果都不尽如人意。 2014 年,一个名为尤金的俄罗斯机器人越过了这条 70% 的基准线,这是有史以来第一次。在测试现场,有 33% 的裁判对尤金是人类这点深信不疑。但这被普遍认为不具说服力,因为裁判数很少,无法可靠地反映出结果,也没有超过罗布纳后来设下的 50% 的判断错误率。

而且有“作弊”的嫌疑。随着时间的推移,为了通过图灵测试,机器人使用的策略发生了变化。最初的障碍仅仅是理解评委们提出的问题,后来则是试图以更“像人”的方式回答这些问题。近年来,挑战者开始顾左右而言它,通过向评委发起反问,或模拟情绪和打字错误,来变得更像人类。

比如,尤金的策略就是以一个 13 岁男孩的角色出现。“我们的想法是,在尤金的年龄,他可以假装自己无所不知,但实际表现出对于一些事物的无知也是合理的。”尤金的创造者这样表示。

过时的测试

在 AI 领域,目前最让人兴奋的模型之一,是旧金山人工智能公司 OpenAI 开发的 GPT-3。它被认为是人工智能的一个巨大飞跃。它可以生成小说、诗歌、新闻稿、代码、音乐甚至笑话。但它仍然无法通过图灵测试。

这也显示出,开发者们如今不再唯图灵测试是尊。无人驾驶汽车、语音处理和图像识别等先进技术的出现,这些 70 年前无法想象的进步,都使通过测试本身变得不再那么重要。

普拉萨德指出,图灵测试对 AI 的高速计算和信息查找能力几乎不屑一顾。甚至于很多时候,机器需要特意放慢速度,增加停顿,“假装思考”,来模仿人类。事实上,它们的检索速度要远高于人类。

而图灵测试也仅限于文本交流,意味着它只能在对话的层面体现智能。

如今的 AI 在听、看和感受等方面都获得了拓展。这些都是为了满足一些更实用的需求,比如智能家居,语音控制。而“模仿人类”的能力本身,也为人类的未来制造出更多潜在的问题,比如说用于实施钓鱼攻击的自动诈骗机器人,模仿人类用户的网络机器人水军,散布假消息的假账号。

普拉萨德认为, AI 需要新的基准测试,它所追求的目标应该远超普通人类的能力。“它不仅能展现出类似人类的智力属性包括常识、自我监督和语言表达,还能完成快速搜索、历史回溯和替代人类做任务等机器的属性。”

因此,在 Alexa 的设计中,机器人是更偏重于任务导向的。即便是对话机器人,目的也是帮助人类促进学习、舒缓身心或是提供消遣。比如在对话时,机器人优先考虑的是适时表现出一些幽默感和同理心,而不是假装自己是人类。

而对于人类智力的理解,在过去 70 年中也在不断进步。“自从图灵测试以来,人类实际上已经通过 fMRI (功能性磁共振成像)发现了更多关于我们自身思想和智力的秘密。” DataRobot 首席营销专员本 泰勒说。“如果说图灵测试是我们的登月计划,那现在就来筹划一下火星计划吧。”

“图灵测试并不是一个糟糕的测试,但它并不真正衡量智力。” Octane AI 的联合创始人本帕尔解释道,“我们需要更清晰的知觉和自我意识测试。也许还需要几十年甚至更长的时间,我们才能拥有一台真正有知觉的机器。”

但无可否认的是,图灵测试仍然拥有某种魅力,它极大地激发了科技界的想象力,让从业者们收获创造的激情。

苹果公司联合创始人史蒂夫沃兹尼亚克提出的测试也同样有趣,他提议,让一个机器人试图进入你家,找到厨房,并帮你做一杯咖啡。除此之外,还有的测试试图让机器人观看电视节目并提出有意义的问题,有的则通过创造艺术的能力来进行评判 AI 的创造力。对这些考验的求索都在不断拓宽人们对机器能力想象的边界。

“我相信在本世纪末,文字使用和通识教育将进步到一种程度,那就是人们可以尽情谈论会思考的机器,而不被驳斥。”在论文中,图灵提出过这样的设想。那至少,在图灵测试蒙上时代灰尘的现在,这个期盼已经成真。

请微信搜索关注公众号“全现在”,朋友圈的世界也会不一样。