我们应该如何评估人工智能的进展？

文章来源: 何清涟

新闻取自各大新闻媒体，新闻内容并不代表本网立场！

沃尔珀廷格

图片由雷纳泽兹提供

评估问题与人工智能是什么 类型的问题密不可分，而且两者都与如何最好地做到 这一点的问题密不可分。

大多数智力学科都有标准的、毫无疑问的进步标准。人工智能是一个例外。它始终借鉴了至少六个领域的标准、

方法和具体方法：

1. 科学2. 工程3. 数学4. 哲学5. 设计6. 景观

这一直引起麻烦。不同的评价标准是不可通约的。他们提出了不同的研究方向。他们对于应用什么方法、哪些结果重要以及该领域的进展如何产生了尖锐的分歧。

人工智能就不能决定自己要做什么吗？难道它就不能决定成为受人尊敬的东西——科学或工程——并使用从这些学科之一中得出的一套连贯的评估标准吗？

这似乎不可能。人工智能不可避免地是一个沃尔珀廷格，由其他学科的一些部分缝合在一起。根据单个人工智能项目的标准来评估特定的人工智能项目几乎是不可能的。

这篇文章提供了一个框架来思考人工智能 wolpertinger 飞翔的原因。可以说，该框架是参数化的：它容纳了对六个学科标准的相对价值及其在人工智能研究中的作用的不同观点。如何最好地组合它们需要一个判断，根据观察者和观察的项目的不同而有所不同。然而，人们可以提出有说服力的论据，支持或多或少地重视特定标准。

选择如何评估人工智能会导致选择要解决什么问题、采取什么方法以及应用什么方法。我将主张通过更多地利用科学实验来改进人工智能实践；特别追求有趣的哲学问题；更好地理解设计实践；并更加谨慎地创建精彩的演示。后续帖子将更详细地解释这些要点。

该框架主要面向人工智能参与者。对于其他人来说，紧迫的问题可能是“超级智能人工智能要多久才能取代我的工作/让我们所有人无需工作而变得富有/追捕并杀死所有人类，以便它可以制造更多的回形针。”我认为，基于详细的评估框架（例如本文中探讨的框架）进行复杂、深入的分析，得出的理性结论是：“谁知道呢？”

不过，对近期进展的一些怀疑源于我将在这里提出的考虑。人工智能忽视了科学理论测试，该领域认为它所知道的大部分内容可能是错误的。而且，表面能力的展示往往会产生误导。

这篇文章的其余部分有六个部分，解释六个学科的进展标准如何在人工智能中发挥作用；然后是结论部分，概括了我认为应该如何衡量它们的权重。

科学

科学进步的标准是：

新发现的真相
更广泛的解释
一种不寻常的“兴趣”感，与普通的好奇心相关，但并不完全相同

让我们按顺序排列它们......“最大的缺陷”

20 世纪 50 年代到 80 年代的主流人工智能研究项目现在被称为“优秀的老式人工智能”（GOFAI），因为已经没有多少人再追求它了。 GOFAI 令人兴奋，因为它对知识、推理、感知和行动的运作方式提供了有趣且合理的解释。几十年来，我们未能对这些理论进行严格的测试——而当我们进行测试时，结果却证明它们是错误的。几乎所有我们自以为知道的事情都是错误的。 GOFAI 研究计划于 1990 年左右崩溃。

AJ·艾尔（AJ Ayer）年轻时是逻辑实证主义的支持者，在逻辑实证主义最终失败后，有人问他：“现在回想起来，你认为这场运动的主要缺点是什么？”他回答说：“好吧，我认为 最大的 缺陷是几乎所有的内容都是假的！”

GOFAI 有几个缺陷，但是……最主要的是，几乎所有这些都是假的。我们应该早点意识到这一点，但我们被引人入胜的哲学和心理学问题分散了注意力，哇 哦，看看我们可以做到这一点！

就目前的人工智能而言，最重要的问题是：它的哪些部分是真实的？它可能还有其他优点或缺陷，但在有足够的科学来弄清楚哪些部分实际上是真实的之前，这些都是次要的。

科学的目的是通过可能的实验或其他的观察来了解世界是如何运作的。在人工智能领域，我们有大量的实验。更好的是：我们可以在完全受控的条件下进行 完全可重复的 实验！几乎没有其他领域如此适合科学研究。

然而，人工智能研究很少包含假设或实验。论文通常会报道 听起来 像是实验的工作，但这些工作通常相当于：

我们将 X 类的架构应用于 Y 类的任务，并获得了 Z% 的正确率。

这里没有具体的假设。没有假设，你就不是在做科学实验，你只是在记录一个事实。如果没有可检验的一般理论（“冷水通过延长寿命导致深渊巨人症 ”），个别的真实事实（“我们今天捕获的鱿鱼比上一只大Z%！”）就不是科学。

解释人工智能

如果理论是解释，而不仅仅是预测公式，那就更好了。（解释是科学进步的标准，尽管不是绝对要求。）一个好的实验应该使用对照消除对数据的所有可能解释，只留下一种可能的解释。

你的算法有 Z% 正确：为什么？这对于解决类似问题的性能意味着什么？人工智能论文通常只是推测。隐含地，答案可能是“我们得到了 Z% 的正确，因为 X 类架构非常强大，而且它可能也适合你！”该论文可能会指出“Z% 比之前使用 W 类架构的论文要好”，这意味着 X 比 W 更好。但总体来说是这样吗？

与 GOFAI 相比，当前的机器学习研究并不优先考虑解释。有时，这个领域似乎积极抵制它们。（我将在下面提出可能的原因。）就科学标准而言，如果没有对解释性假设进行严格的测试，你就只剩下有趣的东西。很多时候，有趣性（“Z% 正确太棒了！”）是人工智能公开演示的首要内容。

“今年，我们得到了 Z% 的正确率，而去年我们只能得到 (Z-ε)%”，听起来确实像是进步。但这有意义吗？如果您要改进的具体问题是人们想要解决方案的，那么它可能是工程进展——将在下一节中讨论。除非你了解进步从何而来，否则这不是科学进步。通常，如果没有广泛、严格的实验，你就无法得到这一点。您需要针对任务的众多变体系统地测试程序的众多变体，以便隔离导致成功的因素。您还需要针对完全其他架构和完全其他任务进行测试。

这是一项艰巨的工作。许多研究人员做了一些此类实验。鉴于资源有限，从单个项目来看，这可能是我们可以合理预期的最高水平。然而，为了充分检验假设，整个领域需要填补缺失的部分——而且通常不会。它与定量基准竞争的文化鼓励非理论的修补，而不是科学。

在最近许多最受炒作的人工智能“突破”中，似乎最明显和最重要的控制实验都被遗漏了。（我计划在后续帖子中讨论其中的几个。）

人工智能在科学上有趣吗？

因为人工智能研究的是 人工智能 ，所以它的核心问题不一定具有科学意义。它们对生物学的兴趣仅在于人工智能系统刻意模拟自然智能。或者在某种程度上，你可以认为只有一种计算可以执行一项任务，因此生物学和人工智能必然是一致的。例如，对于视觉处理的早期阶段来说，这可能是正确的。

人工智能主要不是关于自然计算什么（科学），也不是关于我们今天可以计算什么（工程），也不是关于原则上可以用无限资源计算什么（数学）。它是关于我们在不远的将来可能实际构建的机器可以计算什么。随着本文的进展，我将认为人工智能的趣味性标准更接近心灵哲学的标准，而不是科学、工程或数学的标准。

从可复制性改革运动中学习

费曼在他著名的货运崇拜演讲中说，科学的“第一原则” 是

你不能欺骗自己——而你是最容易被欺骗的人。所以你必须非常小心。当你欺骗不了自己之后，就很容易不再欺骗其他科学家了。

当前的复制危机表明，许多科学领域一直在大规模地自欺欺人。大多数发表的研究结果都是错误的。

社会心理学是面临这一问题的领域之一。心理学家正在进行令人印象深刻的回顾性分析和前瞻性改革努力。该领域的元科学家发现，在以下情况下最有可能得出错误的结论：

研究人员追求对人性和日常生活具有影响的戏剧性、令人惊讶的理论
研究人员和媒体合作，为公众提供令人兴奋的解释性叙述，概括性远远超出了具体的发现
研究人员可以在事后随意解释他们的结果
研究人员不会报告无效结果（“失败”）
研究人员很少重复彼此的工作来发现问题
研究人员没有足够详细地记录他们的工作，以便其他人可以检查
实验规模不足（在多个维度中的任何一个）
控制缺失或不充分（以多种方式）
没有系统地改变实验来发现理论的局限性
大量金钱和/或声望受到威胁。

这些科学实践的失败现在在人工智能研究中似乎和十年前的社会心理学一样常见。根据心理学的经验，我们应该预料到许多假设的人工智能结果在科学上都是错误的。

心理学和人工智能领域的问题并不在于糟糕的科学家。问题是社区有糟糕的认知规范：这些规范不能可靠地导致新的真理。个别研究人员做他们看到其他成功的研究人员所做的事情。如果没有社会改革运动，我们就不能指望他们会采取其他行动。

令人兴奋的消息是心理学家正在认真对待这些问题。他们正在制定新的认知规范，这应该有助于防止科学实践的此类失败。这些改革应该使真实的、解释性的、有趣的理论的发现变得更加普遍。

人工智能能否借鉴心理学的经验来提高实践标准？

我认为可以，而且应该！

也就是说，人工智能是一个狼人。这不仅仅是科学，而且可能不能仅仅追随可复制性运动的领导。

工程

工程学将特征明确的技术方法应用于特征明确的实际问题，以产生特征明确的实际解决方案。

工程学的进步标准与科学的进步标准有很大不同。如果你在工程过程中发现新的真理或解释，那是偶然的。从科学意义上来说，工程不应该是“有趣的”；相反，当它产生实用价值时，它是令人兴奋的。

工程在明确的约束内找到解决方案，并优化（或满足）明确的目标。通常有几个，并且它们之间通常有明确的数值权衡。例如：成本、安全性、耐用性、可靠性、易用性和易于维护。

人工智能研究人员经常说他们正在做工程。当你指出他们没有做科学时，这听起来可能是一种防御：“是的，好吧，我只是在做工程，让这个小部件更好地工作。”当你认为哲学考虑是相关的时，这听起来也可能是嘲笑的：“我正在做真正的工作，所以空想的东西是无关紧要的。作为一名工程师，我认为形而上学是废话”

有些人工智能工作确实是工程。这是清单：

它是否采用了特征明确的技术方法？有时;但很少有人工智能方法能够被很好地理解。
它是否解决了特征明确的实际问题？有时;但在研究中，人工智能最常应用于玩具问题，而不是实际问题；在工业领域，则出现了难以描述的混乱局面。
它是否能产生特征明确的实用解决方案？有时您可以说“我们的广告点击率上升了 0.73%”，但如果您不太清楚原因，明天情况可能会逆转。

“数据科学”在某种程度上是人工智能（机器学习）方法在复杂的实际问题上的应用。有时这有效。我不太了解数据科学人士，但我的印象是，他们发现人工智能方法的莫名其妙和不可靠令人沮丧。他们的观点更像是工程师的观点。而且，我听说他们大多发现特征明确的统计方法在实践中比机器学习更有效。

与工程相邻的是新技术方法的开发。这是大多数人工智能人最喜欢的。当您能够证明您的新系统架构比竞争对手好 Z% 时，您会特别满意。在基准问题上，每个人都在竞争……这是否可靠地转化为现实世界的实践？大多数人工智能研究人员不想花时间去找出答案。我将在下面指出，人工智能的这一方面与设计有更多共同点，而不是工程。

当你能做到的时候，工程学是伟大的。人工智能应该更像工程学吗？经过大量努力，人工智能研究中开发的方法有时可以得到足够好的特征，以至于可以被工程师常规使用。

然后每个人都不再称其为“人工智能”。这可能会令人沮丧：每次我们做了一些真正伟大的事情时，它就被抢走了，并且该领域没有得到应有的认可。毫无疑问，人工智能研究催生了软件技术中许多最重要的进步。（你知道哈希表长期以来被认为是一种先进且难以理解的人工智能技术吗？）从经济角度来看，人工智能研究的投入是非常值得的。

但是，一个词的意义在于它的使用。 “人工智能”用来表示“复杂的或假设的软件，可能会令人惊奇，但我们不明白它为什么起作用。”这根本就不是工程学。

数学

数学和科学一样，旨在发现有趣的解释性真理。 “有趣”、“解释性”和“真实”的含义截然不同，方法（证明与实验）也截然不同。

纵观其历史，人工智能已经融入了数学，其成果对这两个领域都有贡献。这往往会产生强大的协同效应。

也就是说，数学的评价标准——有趣的、解释性的和真实的感觉——在人工智能中可能会产生误导。

算法渐近收敛性的证明就是典型的例子。假设证明在技术上是正确的，那么它在数学意义上绝对是正确的。它可能表现出数学解释的结构：你有一个“啊哈！所以这就是为什么！”体验阅读它。例如，如果它显着地概括了早期的结果，那么它在数学上就很有趣。

对于具有不同标准的人工智能来说，大多数渐近收敛的证明都是 不真实 的，或者解释性的，或者有趣的。人工智能是关于物理可实现性的。这并不一定意味着“使用当前技术可以实现”，但它至少意味着“原则上可以实现”。显示算法在“极限”内获得正确答案的收敛结果告诉我们任何有关物理可实现性的信息，即使在原则上也是如此。如果快速算术表明运行在 10 100 个 GPU上的算法在一万亿年后仍与答案相去甚远，那么这个证明就不是真实的、解释性的或有趣的——作为人工智能。相反，除非你能够证明一种算法能够在实际数量的硬件上相当快地收敛，否则它就不是人工智能——无论它作为数学多么有趣。

数学是一种无价的工具。在人工智能中很好地使用它需要让它符合数学本身之外的外来评估标准。

哲学

笛卡尔剧院的无限回归图片

由珍妮弗加西亚提供

分析哲学——就像科学和数学一样——旨在解释有趣的真理。对于什么是“有趣的”、“有解释性的”和“真实的”，它也有自己的想法。

总的来说，分析哲学家从他们认为正确的“直觉”开始，然后试图通过论证来证明它们是正确的。我认为真理标准“令人信服的直觉论证”对人工智能产生了不好的影响。它与科学的更好标准“假设的中立检验”相冲突。它一再导致人工智能在证据不足的情况下做出夸大的主张。我认为分析哲学与神经科学的不正常关系也误导了人工智能。

另一方面，分析心灵哲学关于什么是“有趣”的标准在很大程度上与人工智能的标准一致并形成。从诞生之日起，人工智能就一直是“应用哲学”或“实验哲学”或“哲学制造材料”。希望哲学直觉能够在技术上得到证明，而不仅仅是争论，这会更有说服力。我也有同样的希望。

大多数分析心灵哲学家想要证明的两个基本直觉是：

唯物主义（相对于心灵/身体二元论）：精神的东西实际上只是你大脑中的物理的东西。
认知主义（相对于行为主义）：你有信念，考虑假设，制定计划，并从前提推理到结论。

这些显然是矛盾的。 “假设” 似乎不是物理事物。很难看出“甘道夫是一个巫师”的信念如何既存在于你的头脑中，又 存在于 甘道夫身上，作为一个物理事实。等等。

这种紧张关系为 GOFAI 带来了问题空间。所有认知科学家（包括我！直到 1986 年）的直觉是，这种冲突 必须是可以 解决的；并且其解决方案可以毫无疑问地通过技术实施得到证明。

GOFAI 论文主要描述了一种实现：小发明的结构。（我将在设计部分回到这一点。）他们通常还会描述一个“实验”，其中很少有科学内容：它是“我们在三个小输入上运行程序，它产生了所需的输出。 ”

GOFAI 论文中令人兴奋的部分是解释性论证。从小玩意的结构开始，我们提出了关于心灵的哲学主张。我们说，该计划是“从经验中学习”或“推理知识”。它的算法至少粗略地解释了这些心理过程是如何运作的，在某些情况下是这样，也可能对人类来说也是如此。这些说法往往被高度夸大，而且大多没有科学依据。事实上，该程序构建了一个带标签的图结构。我们称之为“知识”——但真的是这样吗？这些算法是“学习”还是“推理”？最终，这件事没有任何事实依据。但是，它至少需要争论，而故事的这一部分大部分都缺失了。通过系统地使用相同的词语来描述人类活动和简单的算法，我们欺骗了自己，将地图与领土混淆了，并通过命令将心理活动归因于我们的程序。

为什么我们在 GOFAI 上这么长时间以来都走错了路？我认为这是继承了分析哲学的一种思维模式：试图用叙事论证来证明形而上的直觉。我们知道我们是对的，只是想证明这一点。我们证明这一点的方式更多是通过论证而不是实验。

最终，GOFAI 议程的障碍似乎是原则问题，而不仅仅是有限的技术或科学知识问题，因此它崩溃了。

那时，我们中的一些人回过头来质疑人工智能的基本哲学假设，即认知主义是行为主义的唯一替代方案。我们开始了新的研究方向，追求第三种选择——互动主义——受到不同哲学方法的启发。

我认为人工智能“有趣”的最佳标准是哲学性的，因此人工智能研究的正确业务就是研究哲学问题。如果是这样，那么新的哲学方法就是正确的举动！支持这一点的证据是几项技术突破。也许我们可以而且应该进一步开展这方面的工作。

GOFAI 倒闭后，哲学家们放弃了人工智能。大多数人仍然致力于认知主义，因此他们将希望转向神经科学。大脑显然是身体的、精神的和认知的，因此它们是唯物主义和认知主义正确的明确证明。（对吧？）这样真理就成立了，不言而喻，心灵是有趣的，所以我们需要的只是一个解释。哲学家鼓励神经科学家用认知主义的术语来解释他们的结果。我认为，这扭曲了神经科学，就像它扭曲了人工智能一样。

三十年后，我们仍然不知道大脑做什么或如何做。

神经期望：“了解我们如何思考以及是什么让我们成为人类！”神经现实：“这里有 30 个不同的细胞核参与眼球运动！”— 斯科特·亚历山大实际上：“这里有 30 个与眼球运动 相关的不同核。” — 米歇尔·泰维尔

在缺乏理解的情况下，大脑看起来就像魔法一样。那么，与其试图科学地理解它们，为什么不直接模拟它们并获得相同的能力呢？也许在模拟大脑上进行实验比在真实大脑上进行实验更容易，并由此获得理解。

从一开始，AI 就与 GOFAI 并行地追求这种方法。这项研究大部分源自 McCullough 和 Pitts 1943 年的神经元模型，考虑到当时的知识状况，该模型在生物学上是合理的。他们指出，它还巧妙地实现了命题逻辑，而命题逻辑当时仍然是“ 思想法则 ”的候选者。随后的传统研究为麦卡洛和皮茨模型添加了技术特征，其动机是出于计算考虑而不是生物学考虑。最重要的是误差反向传播算法，它是当代“神经网络”和“深度学习”的核心特征。

与此同时，神经科学对生物神经元有了更加复杂和准确的理解。这两条工作线主要是不同的。因此，就目前的科学知识而言，人工智能“神经网络”的工作方式与神经网络完全不同。反向传播本身在生物学上似乎并不合理（尽管，由于我们大多不知道大脑是如何工作的，所以不能排除它）。

该领域的每个人都知道这一点，但高级研究人员仍然经常谈论“神经网络”的工作方式与大脑非常相似。稍后我会建议原因。但首先，我们来看一下这种言论的 效果：是什么让您的研究项目充满希望？

我们的目标是实现类人智能，我们的神经网络像人脑一样工作。

您大多无法解释这些系统为何起作用。这不是问题吗？

我们不知道大脑是如何工作的，但它们确实如此，神经网络也是如此。

难道你不应该更加努力地找出它们如何、何时以及为什么起作用吗？

不，这可能是不可能的。大脑是整体的；你无法通过分析来理解它们。

有些人说他们已经分析了特定的“神经网络”并弄清楚了它们是如何工作的。事实证明他们做了一些无聊的事情，相当于 kNN 甚至只是回归。

但是，你看，我们已经从数学上证明了神经网络具有执行任何计算的灵活性。就像大脑一样。

我的手机也可以。

是的，但手机不像大脑。

这可能是一种滑稽的夸张。但时而明确、时而默契的“像大脑一样工作”同时解释了为什么研究计划必须总体成功，并消除了对细节的技术疑虑。

这似乎与 GOFAI 中的错误模式相似。我们知道我们的“知识表示”不可能像人类知识一样，并且选择忽略其中的原因。当代“神经网络”研究人员知道他们的算法与神经网络完全不同，并选择忽略其中的原因。 GOFAI 有时会对人类推理提出极其夸张的主张；当前的机器学习研究人员有时会对人类直觉做出过分夸大的说法。

为什么？因为研究人员试图通过技术实现来证明 先验的 哲学承诺，而不是提出科学问题。该领域衡量的是定量表现竞赛的进展，而不是所获得的科学知识。

设计

我认为人工智能研究人员的直觉是正确的，即示例性计算机程序的实现是理解的强大来源。但这是如何运作的呢？人们很容易将实现与科学实验进行类比，但通常情况并非如此。人们很容易将它们视为工程解决方案，但通常并非如此。我认为“实现”最好理解为 设计解决方案 ——完全不同的事情。

人工智能研究的实际实践更像是建筑设计，而不是电气工程。从这个角度看待人工智能有助于解释其反复出现的破坏性炒作周期模式。我将解释更好的设计理解如何帮助更准确地评估人工智能的进展，从而平滑炒作周期。

设计视图还可以通过消除技术困难和浪费精力的主要根源来改善人工智能实践。

设计的本质

设计与工程一样，旨在生产有用的工件。与工程不同，设计解决的是模糊（特征不明）的问题；不局限于明确、理性的方法；并开发出时髦的（而非最佳的）解决方案。

（模糊性是一个程度问题，因此设计和工程相互影响。大多数设计师都会做一些工程，大多数工程师也会做一些设计。暂时对两者进行两极分化有助于解释人工智能研究如何像设计一样。）

在工程中，您从明确的问题陈述开始。您首先对其进行分析，以得出指导您的流程的含义和约束。只有彻底理解问题后，您才能开始制定解决方案。

设计注重综合，而不是分析。由于问题陈述含糊不清，因此无法提供有用的指导意义；但它也没有强烈限制最终的解决方案。设计从过程的早期开始，根据具体问题情况建议的合理部分构建试验解决方案。分析不太重要，并且通常在该过程的后期进行，以评估您的解决方案有多好。

由于设计问题是模糊的，因此不存在最佳解决方案。评价标准可能会被称为“时髦”。好的设计是人们喜欢的。它应该会让你惊叹“哇，太酷了！”出色的设计令人惊叹。设计的成功并不意味着你解决了给定的特定问题，而是意味着你在一般范围内创造了一些既漂亮又有用的东西。（与艺术产品不同，设计产品必须既实用又令人惊叹。）

设计实践

图片由维多利亚博物馆提供

系统的、明确的、合理的方法在设计中是次要的。这些大多不适用于具有模糊解决方案标准的模糊问题。专家设计师表示，他们依赖的是“创造力”和“直觉”。这没有帮助；它只是意味着“我们不知道如何做到这一点”。事实上，设计能力在很大程度上是默示的、难以言表的，并且“知道如何”而不是“知道”。因此，它必须通过学徒和经验来学习，而不是在课堂上或通过阅读。

尽管如此，对设计实践的实证研究对其运作方式提供了一些见解。

首先，设计师在整个过程中与问题的具体细节保持联系。相比之下，工程师主要在正式领域中工作，从混乱中抽象出来。

打个比方，混乱暗示了可能的设计方法。根据这些建议，设计师构建了一系列快速而简单的原型模型，并尝试它们以了解它们是如何工作的。建筑师用纸板建造模型；人工智能研究人员通过代码构建它们。这些原型不是经过严格的现实测试的工程模型。它们只是“草图”，可以让您了解某些东西是如何工作的。

唐纳德·舍恩 (Donald Schön)将这一周期描述为“与材料的反思性对话”。模型再次提供了具体性，指导下一步。您可以“大致了解”它会如何工作或不会如何工作。通过尝试各种可能性，然后迭代改进有希望的候选者，您可以建立对问题空间的理解。获得的理解是解释性的，但与一般的设计知识一样，它部分是默认的、难以言喻的专有技术；对事物如何运作的感觉。

设计过程不断地改变问题本身，而问题始终保持流动性。你认为你正在努力完成的事情会反复改变。解决方案定义了问题，反之亦然。您想在公共区域创造一些时髦的东西； “时髦”的含义仅作为最终产品的具体属性而出现。

对于工程师来说，这似乎非常令人不满意。准确地确定问题是什么，找出定量上好的解决方案，并运用理性的方法从这里到那里，而不是“与一团糟进行对话”不是更好吗？

如果你能做到这一点——这通常是最好的方法。这就是工程有价值的原因。但许多现实世界的情况并不能完全解决明确定义的问题。

人工智能研究作为设计实践

正如上面关于人工智能作为工程的部分所述，人工智能通常将不典型的方法应用于具有模糊解决方案标准的模糊问题。（例如，使用神经网络将普通话翻译成英语。）至少在这方面，它类似于设计实践。

如果你能解决问题、消除模糊性并证明正确性，那么你正在研究主流计算机科学，而不是人工智能。这太棒了！但并不总是可能。没有人能说出翻译的问题是什么，也不存在最佳翻译。但是，作为一名人工智能研究人员，你的目标是做得足够好，给人们留下深刻的印象。那绝对会很时髦！

所以，你开始黑客攻击。您构建了一系列快速而简单的原型，并在一些普通话文本上进行尝试，看看它们是如何工作的。程序产生的好翻译和坏翻译的不同模式表明了每个下一步的实现。可能很难确切地说出这些模式是什么，但您会逐渐深入了解哪些模式有效以及为什么有效。随着您的继续，您对翻译含义的理解甚至会发生变化。这是你的“与具体材料的反思对话”——其中包括自然语言文本和程序结构。

因此，在人工智能中，我们构建实现来获得理解，但我们可能无法完全阐明。实施体现了理解，并且可以传达理解。要培养人工智能方面的专业知识，你不能只阅读论文，还需要阅读论文。你必须阅读别人的代码。而且你不能只是阅读它，你必须重新实现它。您的部分理解只能通过编码本身的实践来获得。除非您自己从头开始编写反向传播引擎，并针对一些经典的小数据集运行它，并对它的输出感到困惑，否则您并不真正了解神经网络是什么。

技能不匹配

人工智能研究人员大多接受过以形式问题作为输入的领域的教育：工程、数学或理论物理。然而，我们解决的问题大多是那些与星云保持连续、开放的关系的设计方法可能更合适的问题。

你无法通过阅读或 Coursera 来学习如何应对课堂上的混乱。可以从惨痛的经验中学习。最好通过学徒学习。我认为业界目前都明白，来自最好的学术人工智能实验室的博士通过学徒学习有一些至关重要的东西，这是任何其他方式都无法学习的。我怀疑是这个

人工智能人员主要学习的是解决正式问题的技能，因此往往会尽快摆脱模糊状态。与其费力地穿过沼泽般的现实世界，让信息模式逐渐出现，不如逃避到分析最近的可用抽象更舒服。

因此，过早的问题形式化是人工智能中典型的失败模式。现实世界中模糊的现象（例如学习）被一些数学知识（例如函数逼近）所取代。现实世界中的词（“学习”）可以互换地应用于两者，因此研究人员甚至没有注意到其中的差异。然后，您可以享受发明和改进时髦小发明的各种乐趣，这些小发明可以解决这个精确但不准确的问题陈述。这可能会带来宝贵的技术进步。函数逼近是一回事，更好的方法具有广泛的工程应用。

另一方面，函数逼近实际上并不是学习。过早的形式化意味着抽象数学问题的解决方案可能不是具体现实问题的解决方案，反之亦然。

这会导致两种典型的麻烦模式。首先，抽象问题可能比具体问题更难，因为它忽略了关键的有用特征。用设计理论的术语来说，你没有听取混乱中低声提出的建议。例如，基于 GOFAI 计划的实际行动形式化使问题变得比实际需要的更加困难，因为它放弃了对相关信息的持续感知访问。 Phil Agre 和我通过改变问题的表述编写了远远超出规划方法能力的程序。

或者，抽象问题可能比具体问题更容易。这可能会导致过度自信和炒作。在评估人工智能时，人们需要对研究人员声称他们在“X”问题上取得快速进展的说法表示怀疑。他们实际上正在从事现实世界的任务 X 吗？或者他们正在解决从 X 中抽象出来的正式问题，并对其应用相同的名称？例如，他们在学习使用神经网络将普通话翻译成英语（现实世界的问题）方面是否取得了进展？或者他们在一个正式问题上取得了进展，这个问题最好描述为“在查找表中存储 n 元语法对”，在连续函数上使用梯度下降？（遗憾的是，这是一种昂贵且不可靠的实现查找表的方法。）

当两者之间的差异表现为现实世界中的糟糕表现时，就会导致幻灭和资金损失。

解毒剂

Phillipe Starck 设计的“Juicy Salif”柠檬榨汁机

图片由Niklas Morberg 提供

我会建议两种解药。第一个是与具体的、模糊的现实问题保持持续联系的设计实践。退回到抽象的问题解决方式会更简洁，但通常效果不佳。 IOU：我计划的下一篇文章通过设计实践的见解，为更好的人工智能实践提出更详细的建议。

第二：wolpertinger来救援！人工智能不仅仅是设计，更是设计。它还借鉴了工程学、数学、科学和哲学。

当你在鱿鱼盘上挤柠檬时，你受到启发，为时髦的鱿鱼形柠檬榨汁器创造了一个令人惊叹的新设计。5或者，您希望它很时髦。现在是时候进行工程设计了：您能否使其价格实惠、安全、耐用、可靠、易于使用且易于清洁？通过类比：您已经编写了一种时髦的新函数逼近方法。你希望每个人都使用它。这意味着您必须解决所有棘手的错误和性能问题，并在不同的现实场景中描述收敛和扩展的特征。这可能需要困难的数学和工程测试。
您研究了与眼球运动相关的 30 个不同的细胞核，并为它们开发了一个神经网络模型。您将其与机器人相机运动控制器连接起来。很酷！现在是科学的时候了：你能如何准确地预测人类或动物的眼球运动？还有哪些其他模型可以解释眼球运动？如何测试哪个模型是正确的？哪些证据会构成歧视？
您对知识的心理表征有了新的理论。你把它编码了！现在是哲学时间了：“表征”和“知识”是什么意思？这些都是不可避免的哲学问题，需要实质性的答案。你不能依靠“嘿，我只是在做工程，伙计。”

奇观

景观是任何专业实践的重要组成部分，包括科学、工程、数学、哲学和设计。

想要让人们惊叹是自然而合理的。您对您的研究计划感到兴奋，并且想分享这一点。你的研究可能也是由特定的信念驱动的，想要说服人们相信这些信念是很自然的。一场壮观的演示可以在几分钟内改变信念和整个思维方式——比任何技术阐述或逻辑论证都要快得多。

另外，资源的竞争始终存在——金钱、注意力、聪明人。为你的工作以及你所在领域中与你有共同信念的其他人的工作提供最诚实的理由是合法的。壮观的演示比任何白皮书或资助提案都更有效。

奇观的成功标准包括戏剧性、叙事性、兴奋性和（最重要的）行动激励。娱乐业是奇观的天然发源地。在这个行业（包括政治、新闻和职业摔跤等子行业），真相并不是一个考虑因素。

在涉及真理的学科中——其中应该包括人工智能——人们必须以一种特殊的责任心来设计演示。因为景观是如此强大，所以在道德上必须超越单纯的事实诚实，以免欺骗自己和他人。奇观必须非常小心，不要隐含地暗示比你的研究所证明的更大的确定性、理解性或趣味性。

在人工智能场景中，最大的危险是给人一种程序可以做比现实更多的印象；或者它所做的事情比实际情况更有趣；或者对其工作原理的解释比现实更令人兴奋。如果观众了解到一个真实的事实，即该程序在特定的、戏剧性的情况下执行了 X 操作，那么很自然地会假设它可以在大多数看似相似的情况下执行 X 操作。但事实可能并非如此。

想象一下观看“全自动洗碗机”的电视广告！在 20 世纪 50 年代，你还不知道它是什么。照片中，妈妈对着水槽里乱七八糟的脏盘子做了个鬼脸。时钟擦拭视频过渡到：妈妈微笑着看着柜台上整齐地堆放、闪闪发光的盘子！

您可能会合理地认为“洗碗机”是一个有两条手臂的机器人，它站在水槽旁用手洗碗。在 20 世纪 50 年代，科技所能做到的事情真是令人惊叹！为什么呢，如果机器人可以洗碗，它肯定也可以用吸尘器吸地板、给婴儿换尿布、铺床。如果洗碗机是这样工作的话，这将是一个合理的结论。

洗碗机具有超人的性能；我的眼镜比我的更闪亮，而且花费的精力要少得多。广告并没有在这方面撒谎。

但时钟擦拭掩盖了洗碗机工作原理的基本事实。它只是一个里面喷热水的盒子，而不是机器人。它的性能并不适用于看似相似难度的家务任务，因为它们并不相关，当你知道它是如何工作时，这一点是显而易见的。

洗碗机也无法完成对机器人来说最困难的任务：捡起不规则放置的涂有油腻酱汁的盘子。幸运的是，这对人们来说很容易：相对于清洗而言，装入洗碗机对我们来说很快。从广告中也看不出来：洗碗机并不能完全完成全部工作：你必须用手清洗大锅和精致的玻璃杯。

精彩的人工智能演示通常也会以类似的方式产生误导。他们很少（如果有的话）表达对程序如何运作的准确理解。公平地说，在演示中几乎不可能做到这一点，而且这也不是演示的功能。但如果他们心照不宣地传达了错误的理解，而不仅仅是激发好奇心，观众就会对节目还能做什么产生错误的期望。如果演示掩盖了观众合理地假设程序执行的部分任务，但这些任务被省略，因为就像拿起油腻的盘子一样，它们对计算机来说特别困难，那么这种误解就特别有可能发生。例如，在当前的工作中，这可能包括特征工程。

人工智能取得的惊人“成功”几乎总是比表面看上去的要少得多。但这种欺骗，尽管通常是无意的，却吸引了研究人员和局外人。（“你是最容易被愚弄的人。”）这种动态导致了人工智能常年的炒作周期——夸大的期望无法满足，随后是幻灭和资金“冬天”。

Terry Winograd 的 SHRDLU“自然语言理解”系统于 1970 年生成的对话可能是有史以来最壮观的人工智能演示。（您可以在他的网站上阅读整个对话，下载代码，或在上面的 YouTube 上观看演示。）

该程序的表面语言理解的复杂性是非凡的。它超越了当前的系统，例如 Siri、Alexa 和 Google Assistant，据说半个世纪后，在这些系统上花费了数十亿美元的人工智能研究。 SHRDLU 给人一种温暖的信心，相信人工智能是可以实现的，并且 GOFAI 在接下来的 15 年里正在不断进步。

维诺格拉德的工作中没有任何不诚实的地方。没有故意欺骗。然而，到了 1986 年，他开始相信自己欺骗了自己，也欺骗了整个领域。在《理解计算机和认知》一书中，他认为 SHRDLU 的理解只是表面上的。维诺格拉德给出了充分的理由相信计算机根本无法理解自然语言，即使在原则上也是如此。至少不要使用 GOFAI 方法：重要的是如何使用。

类似地，我认为当前令人惊叹的“深度学习”演示远没有看上去那么简单。这主要不是对眼镜的普遍愤世嫉俗，也不是对人工智能演示的普遍怀疑，也不是对深度学习的特别厌恶。（尽管深度学习领域对解释相对缺乏兴趣，这确实让研究人员更容易欺骗自己。）主要是基于我对这些系统如何完成演示中显示的任务的猜测；由此，他们完成看似相似但实际上并非如此的任务的可能性有多大。（我希望在后续文章中分析一些例子。）

洗碗机还没有走上通用家用机器人的道路。我认为当前的机器学习研究也不会。尽管如此，洗碗机中使用的技术仍然导致了省力器具的不断涌现。（我喜欢我的速溶锅！）当前人工智能演示中使用的技术可能会带来持续不断的省力软件。

微信： Vandave Facebook: /Affluentdave

Youtube: /vandaveli Email:wegovisa@gmail.com

翱翔的 Wolpertinger：通过元理性更好的人工智能

元理性意味着弄清楚如何在特定情况下使用技术理性。（我正在写一本关于这个的书。）

人工智能需要元理性有两个原因。首先，它所解决的问题本质上是模糊的。理性的方法，在没有帮助的情况下，通常不足以解决模糊不清的混乱情况。如果没有具体的问题陈述，他们甚至无法开始。

其次，人工智能是一个沃尔珀廷格：不是一门连贯、统一的技术学科，而是一个具有多种看待方式、多种进步标准以及多种理性和非理性方法的特殊领域混合体。从特征上来说，元理性评估、选择、组合、修改、发现、创建和监控多个框架。

人工智能也必然如此。它不可避免地结合了不同的观点和思维方式。您需要元理性技能来弄清楚要应用哪些框架以及如何应用。

人工智能还不可避免地涉及多个不可通约的进展标准。我在这篇文章的开头提出了“我们应该如何评估人工智能的进展？”答案是“有很多方法！”

因此，我们应该努力在很多方面做得更好。在这篇文章中，我特别主张更多地考虑标准和方法：

真实，来自科学
理解，源于设计
有趣，源于哲学

我们可以而且应该对这些和其他考虑因素的权重有不同意见。一个健康的知识领域对其自身的结构、规范、假设和承诺进行持续的、有争议的、协作的反思。这就是我的“升级你的货物崇拜以获得胜利”的要点，尤其是在它的结论中。

这也是我曾经的合作者 Philip Agre 的《计算和人类经验》的中心主题，该书更深入地讨论了我在本文中提出的大部分想法。6

后记

在我发布这篇文章一周后，扎卡里·利普顿（Zachary Lipton）和雅各布·斯坦哈特（Jacob Steinhardt）发布了“机器学习学术中令人不安的趋势”，其中提出了非常相似的论点，但有许多来自最近工作的详细例子。我推荐它是由当前该领域的专家所做的出色的、最新的分析。

23 条评论

1.这篇文章呼应了我的博士论文第 9.1-9.2 节，其中提出了大致相同的框架。从那时起，我的主要观点变化是更加重视科学真理标准。我现在也对我的说法表示怀疑，即人工智能是“关于方法”，作为合法的自主价值来源。
2.GOFAI 在很大程度上概括了逻辑实证主义，这并非巧合。我们对重新发明五边形轮子以及这些轮子不起作用的原因一无所知。艾耶尔的采访视频既有趣又信息丰富；感谢露西·科尔向我指出这一点。
3. 生物学方面的考虑确实继续激发了一些人工智能研究。然而，尽管可以对生物神经元进行更详细的模拟，但它们很少在人工智能中使用。这可能部分是因为最好的模拟不会包含太多关于神经元的已知信息，并且不会给出定量的准确结果。这也是因为我们不知道如何组合多个模拟神经元来执行像人工智能一样有趣的计算。
4. 例如，请参阅 Donald Schön 的《反思性实践者：专业人士如何在行动中思考》和 Nigel Cross 的《巧妙的认识方式》。
5. 这实际上发生在菲利普·斯塔克身上。奈杰尔·克罗斯 (Nigel Cross) 的《设计思维：理解设计师如何思考和工作》一书中详细分析了他在这项发明中的过程，斯塔克在餐巾纸上勾勒出连续的设计尝试。最终产品被认为是工业设计的标志，并已在纽约现代艺术博物馆展出。口味是无法解释的。
6. 正是重读菲尔的书，作为《茄子细胞》的工作背景，激发了我写这篇文章的灵感。