图灵测试人工智能可能引发的危机(判断机器是否在思考的现代方法)

全文共2189字,预计学习时长6分钟

图灵测试人工智能可能引发的危机(判断机器是否在思考的现代方法)(1)

图源:slate

人工智能正在改变生活的方方面面,大多数专家认为,今天的人工智能进化为人工通用智能只是时间问题,计算机迟早会达到甚至超过人类智能的临界点。但问题是,我们如何知道这种情况何时会发生?

1950年,艾伦·图灵提出了著名的测试方法,用来判断机器是否真的在思考。这一测试在论文发表后经历了一些演变,其中一个常见的解释是这样的:

一个人,即审讯者(C),可以通过电脑终端进行交流(现在,我们可能会说通过即时通讯、电子邮件或短信);在计算机链路的另一端是人(B)或计算机(A)。经过20分钟的键盘通信后,询问者会表明在另一端是人还是计算机。

如果审讯者认为他在和一个人交谈,但实际上是一台电脑,那么结论就是,这台电脑一定在像人一样思考。为了让计算机“通过”测试,这个实验要进行多次,超过一半的审问者同意。

最近,对图灵测试的一种改进将对话时间缩短到5分钟,并认为如果计算机愚弄受试者的时间超过30%,测试就通过了。2014年,一个名为Cleverbot的程序被声称通过了图灵测试,愚弄了33%的审讯者。然而,虽然Cleverbot有一些复杂的反应,但我与它的互动很快暴露了其局限性。

图灵测试人工智能可能引发的危机(判断机器是否在思考的现代方法)(2)

不过,我宁愿对图灵的测试吹毛求疵,也不愿对Cleverbot s的主张吹毛求疵。我有两个主要担忧:

· 图灵测试的名声推动了诸如Cleverbot或Watson等程序的发展,这些程序拥有惊人的语言能力,但却牺牲了针对真正AGI的资源。

· 为了通过测试,计算机必须被设定为会说谎。有没有私人问题,比如你多大了?眼睛是什么颜色的?甚至你是一台电脑吗?如果电脑如实回答,那就是泄密。在某种程度上,为了通过测试,一个系统被编程为目标和情感的等价物,这些必须是人类的目标和情感,而不是可能对机器有效的目标和情感。这需要花费大量的开发努力来玩这种本质上属于聚会游戏的游戏

我对该测试的准确性也有几点担忧:

· 测试结果的好坏取决于审讯者的老练or易上当。

· 该测试允许在计算机的某一部分上假装有缺陷以掩盖其局限性。例如,为了弥补理解上的缺陷而声称自己是一个孩子。

· 它强加了人类层次的约束。如果我们能造出一台具有超人智慧的机器,它会不会因为看起来太聪明而无法通过测试。

假设有真正的AGI系统,并且位置颠倒了——一个AGI来决定你是计算机还是人,你能做得多好?

在最近的AGI-20会议上,一位与会者评论说,真正智力的测试应该是设计真正智力测试的能力。没有这样的测试,难道我们就没有真正的智慧吗?

为了解决这些问题,人们建议调整图灵测试,创造出一套标准类型的问题,用来探究情报的各个方面,而不是由审问者单独或多或少地编造一些随机问题。与其将计算机的反应与个人进行比较,不如将计算机与不同年龄、性别、背景和能力的人类回答者进行比较。

现在,把审问者重新塑造成法官,他们会给测试结果打分,以判断每个答案是否都是对问题的合理回答。问题和答案应该随机混合,以防止发现得分趋势。例如,如果一个回答者给出了一个低分数的答案,不应该影响该回答者对其他回答的感知质量。

针对特定智力领域的样本问题可能包括以下内容:

· 你能描述现在看到(听到)的东西吗?

· 描述一下你在这幅图中看到了什么?

· (模式识别/知识)如果我[动作,比如唱歌,跌倒,掉铅笔,讲笑话],你的反应会是什么?

· (预测/理解人类行为)如果你[行为,比如讲笑话,偷我的钱包,或者通过这个测试],我的反应会是什么?

· 说出三种类似于[一个物体,如树、花、汽车或电脑]的东西。

· 说出你最喜欢的[物体,如食物、饮料、电影明星、书或科学家]。

· (目标导向)解释一种电码。

· 使用那个代码,编码这个消息。

· 这张照片怎么了?

图灵测试人工智能可能引发的危机(判断机器是否在思考的现代方法)(3)

(“这张照片有什么问题吗?”该问题不仅关于对象识别的图像,还关于现实世界的理解使用和关系的对象。发件人:科赫、克里斯托弗和朱利奥·托诺尼,“关于意识的测试——我们如何知道这台电脑有感知能力?让它解决一个简单的难题” (2011)。)

可以对一个会思考的机器和一个人提出同样的问题,但我们可以假定,会从这两者得到显著不同的答案,而且很容易区分电脑和人。对每个问题的回答由几位评委来评定是否有意义,如果计算机给出的有意义的答案数量相同,它就在思考。

关键在于,问题需要是开放式的,以便让受访者表明他们真正理解。为了创造无限的集合,题目的类型可以是多种多样的,这可以防止计算机被输入特定的答案。这些问题都需要认真思考。

同样地,一个法官可能不擅长判断一个人的回答是否合理,但如果有多个法官对多个应答者进行评级,我们应该可以得到一个好的评估。让AGI成为裁判之一怎么样?

图灵测试人工智能可能引发的危机(判断机器是否在思考的现代方法)(4)

图源:unsplash

是时候用更好的东西取代图灵测试了,继续致力于在图灵测试中欺骗人类并不是创建AGI的正确方向,该去尝试衡量它的智力。

图灵测试人工智能可能引发的危机(判断机器是否在思考的现代方法)(5)

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页