新时代AI评价：图灵测试是否需要跟进新标准？教育突破口在哪里？

话接上回，最近的ChatGPT已经被玩儿“坏了”，作为“新必应”的杀手锏。被外部测试人员问得飙脏话，进而返厂修复。等再次推出的时候，增加了许多使用限制。这不得不让人一直关注行业动态的我浮想联翩，一个大胆的想法惊现眼前：ChatGPT是否已经通过了著名的AI测试工具——图灵测试呢？

首先，我们介绍一下图灵测试的概念以及过去在人工智能领域中的应用。许多AI狂热者都知道，图灵测试是一种用于评估人工智能是否能够表现出，类似于人类思维和行为的测试方法。这个测试是根据数学家艾伦·图灵的想法而得名。测试要求评测人员与一台人工智能进行对话，如果评测人员无法确定与之交互的是人还是机器，那么，则认为该人工智能通过了测试。

图灵测试的历史可以追溯到1950年代，当时艾伦·图灵提出了这一想法，并发表了一篇论文，探讨了机器是否能够具有人类智能的概念。从那时起，图灵测试就成为了人工智能领域的一个重要研究领域，并在接下来几十年内得到了广泛的探索和研究。

在人工智能领域中，图灵测试被用来评估人工智能是否具有人类智能的水平。它的应用包括语音识别、自然语言处理、机器翻译等领域。另外，图灵测试还可以用来测试其他形式的人工智能，如机器人和虚拟助手。

尽管图灵测试在人工智能领域中得到了广泛的应用，但也存在一些争议。其中一个问题是，图灵测试仅考虑了人工智能是否能够模仿人类的行为，而没有考虑人工智能的自主性、创造性等特征。另外，一些人认为，图灵测试可能不适用于某些领域，如人工智能的创造性和设计方面。

由于ChatGPT最近的表现过于惊世骇俗，那么我们有必要再来讨论一下，在这2023的ChatGPT元年，图灵测试是否还有其价值，以及是否能够仍然适用于未来的人工智能评价体系呢？

首先，正如前文所提到的，图灵测试仅关注人工智能是否能够模仿人类的行为，不考虑其自主性、创造性等特征。这意味着即便通过了图灵测试通过的人工智能，也仍可能缺乏自主性和创造性，而这些特征在某些领域中则显得非常重要。

其次，人工智能技术的快速发展和多样化，使得图灵测试可能无法应对各种不同类型的人工智能。例如，在面对高度专业化和领域特定的人工智能时，图灵测试可能并不适用。包括我们之前提到的，那些需要道德或者价值观判断的职业，AI就很难插手。

因此，虽然图灵测试仍然是人工智能领域中一个重要的评估标准，但随着人工智能技术的不断发展，我们需要考虑新的评估方法和标准，以更准确地评估人工智能的表现和能力。

至于这个新的评定标准，当我去搜索相关资料的时候才发现。OpenAI的研究人员就已经早一步考虑到了。这里就不得不提到智能指数（AI IQ），AI IQ是一种新的评估标准，它旨在衡量人工智能在多个方面的表现和能力，包括感知、推理、学习、理解、交互、自主性等方面。

AI IQ的概念是由OpenAI的研究人员首次提出，他们认为目前的评估标准过于侧重于单一任务或领域，无法全面地评估人工智能的智能水平。因此，他们提出了一种基于多个任务和领域的评估方法，以更全面地评估人工智能的表现和能力。

具体来说，AI IQ包括多个子指数，例如视觉智能指数、语言智能指数、推理智能指数等等。每个子指数包含多个评估任务和子任务，例如视觉智能指数包含图像分类、目标检测、图像生成等任务，语言智能指数包含自然语言理解、文本生成、对话系统等任务。

通过多个任务和领域的评估，AI IQ可以更全面地评估人工智能的表现和能力，而不仅仅是单一任务或领域。此外，AI IQ还可以帮助人们更好地了解人工智能在不同方面的表现和能力，以及开发更加全面和通用的人工智能系统。

需要注意的是，AI IQ目前仍处于研究和探索阶段，其具体实现和应用仍有待进一步发展和完善。但无论如何，它都为人工智能的评估提供了一种全新的视角和方法。

除了AI IQ外，还有类似智能水平（AI Level）和智能表现（AI Performance）等新的评价标准。

智能水平（AI Level）：智能水平是衡量人工智能系统的整体智能水平的指标，类似于学生的年级或职业的级别。它可以通过对人工智能系统的技术和能力的评估来确定。但是，智能水平仅仅反映了人工智能系统在某个特定领域内的表现，而无法全面反映其综合能力和多领域的应用能力。智能水平的评估标准往往是主观的，因为这需要人工智能领域的专业人员进行判断和评估。智能水平的评估标准可能会因为技术的发展而不断变化，需要不断更新和调整，这可能会导致评估标准的不确定性和不可靠性。

智能表现（AI Performance）：智能表现是衡量人工智能系统在特定任务上的表现水平的指标，类似于人类的成绩。它可以通过对人工智能系统在不同任务中的表现进行评估来确定。智能表现的局限性在于，其评估标准可能会因为不同的任务和应用场景而产生差异，导致评估结果的不稳定性。智能表现无法全面反映出人工智能系统的能力和潜力，往往只能反映其当前的表现情况。智能表现可能会受到外部因素的干扰，例如数据质量、环境条件等，导致评估结果的不准确性。

探讨了三个新的人工智能评价标准，我们也或多或少发现了这些新标准的局限性。那么又回到图灵测试本身，挖掘其价值。

首先，图灵测试作为一种经典的评价方法，已经成为了人工智能研究领域中的一个基准。在一些特定场景中，图灵测试仍然是评价人工智能智能程度的有效方法之一，特别是对于一些表层任务，如自然语言处理、图像识别等。同时，基于图灵测试的比赛和竞赛已经成为了人工智能领域中一个重要的活动，如罗布纳奖（Loebner Prize）、创意艺术图灵测试（Turing Test for Creative Arts）等。

其次，图灵测试还有助于推动人工智能技术的发展。虽然图灵测试无法完全反映人工智能的智能程度，但它仍然激发了研究人员对人工智能智能程度的探索和提高。通过参与图灵测试比赛或使用图灵测试进行评价，人工智能研究者可以了解自己的研究成果与其他研究者的差距，从而推动人工智能技术的进一步发展。

最后，尽管图灵测试存在一些局限性，但随着技术的不断发展，未来可能会有新的测试方法出现来弥补图灵测试的缺陷，从而使其仍然有一定的应用价值。

因此，尽管图灵测试存在局限性，但作为一个经典的评价方法，它仍然具有一定的应用价值，并在未来的人工智能研究中仍将继续发挥重要作用。

【结论】

本次讨论主要围绕着图灵测试在人工智能领域中的应用和局限性展开。我们首先对图灵测试的定义和发展历史进行了简单介绍，随后讨论了图灵测试的优点和在过去的应用中所取得的成功。同时，我们也探讨了图灵测试的局限性，包括其仅考虑表层任务，忽略人工智能的内在智能和主动性等。在此基础上，我们进一步讨论了新的人工智能评价标准可能会有的发展方向，如智能指数、智能水平和智能表现，并分别分析了它们的优点和局限性。最后，我们进一步讨论了图灵测试在未来的应用中可能的发展方向，如考虑人工智能的自主性、创造性等方面的评价。

综上所述，虽然图灵测试存在局限性，但作为一种经典的人工智能评价标准，它仍然有其应用价值，可以作为基准来评价人工智能的智能程度。同时，随着人工智能技术的不断发展，新的评价标准也将不断涌现，可以更全面地评价人工智能的智能程度和表现，从而更好地推动人工智能技术的进一步发展。

【题外话】

在准备这篇文章的时候，我发现人工智能评价体系要进一步完善的地方，便是我们普通人或者未来教育的一个突破口。对于“自主性”和“创造性”的重要性应该提升到未来青少年教育的最优先级位置。人工智能或者说机器人，在没有发展出所谓的“人类的自主意识”之前，都依然是人造物，还是作为次一级的工具存在。而“创造性”则是人类引以为傲的进化原动力，没有我们祖先代代相传的创造力，也无法从石器时代进入互联网时代或者人工智能时代。

教育工作者们要学习如何从培养学生们，从工具化思维转变培养创造性思维，我相信，这将是下一片财富的蓝海，也是人性光辉的自留地。

注：文中所有配图来自网络截图

展开阅读全文

页面更新：2024-04-06

标签：测试人工智能突破口局限性创造性新标准人类指数水平评价领域能力智能

1 2 3 4 5

新时代AI评价：图灵测试是否需要跟进新标准？教育突破口在哪里？

百亿补贴！刘强东“归位”后，京东刺向了拼多多的“腹地”！

科技型企业超4.8万家！今年重庆科技创新工作划重点了

谷歌向苹果支付 200 亿美元“保护费”，为固Safari搜索引擎“护城河”！

有这类行为，封号！微信最新公告→

为什么时间与光速有关?

2023年新型模式、新风口：云平台-“代言人+合伙人”模式

数智时代国企转型升级与人才机制创新

中海油东方石化1000吨丙烯腈产品首船装船出厂

龙虎榜丨牧高笛今日涨停，机构合计净卖出346.34万元

夯实银行资产质量压舱石

Blur价值深度分析

澜沧古茶再冲击普洱茶第一股：去年净利接近腰斩，存货进一步增长

VC透露：2023年的50个创业机会

油价，要降！

辛巴在国货崛起的浪潮中从小公益做起，践行担当和使命！

美股三大指数集体收涨大型科技股多数上涨

ChatGPT学会下棋“精髓”，把人类给整不会了，网友：预判不

苹果无创血糖项目取得重大进展智能可穿戴设备或迎新

英特尔56核至强W9-3495X工作站处理器超频测试：峰值功率

人这一生，拼的是破圈能力

人类禁地北哨兵岛，与世隔绝的部落，擅自登岛者从没有活着

湖南高新技术企业总数达1.39万家区域创新能力居全国

肇民科技：数字化支撑智慧工厂，智能制造更好地实现服务型

蹭上ChatGPT？2023年，百度的能力和野心

人类离「定居月球」又近一步：用月壤实现了太阳能发电