大模型的科学解释和逻辑增强-中国自动化学会

学会动态

Activities

首页 - 学会动态 - 学术报告

大模型的科学解释和逻辑增强

日期：2024-11-29 11:21

【导读】2024年7月2日，由中国科学技术协会、广西壮族自治区人民政府主办，中国自动化学会承办的第二十六届中国科协年会通用大模型未来演进路线——数据、算力、算法论坛在广西南宁召开。会议特别邀请中国科学技术大学陈小平教授作题为“大模型的科学解释和逻辑增强”的主旨报告。报告阐释了现阶段大模型研究和应用面临的挑战和机遇。首先从科学研究的观点，重新梳理人工智能的基本概念和基本原理；然后分析大模型的工作原理，尝试对大模型的奇异表现作出科学解释，进而阐明大模型的主要特性、局限和逻辑增强的必要性，并对大模型的模仿能力、反思能力和小数据训练的可能性等深层科学问题加以阐释；最后讨论垂直领域大模型当前研究的重点课题，以及我国人工智能发展面临的机遇和挑战。为了应对这些挑战并确保人工智能的可持续发展，需要加强跨学科合作，制定适当的政策和法规，并促进公众对人工智能的理解和参与。

人工智能取得了很大的进展，但在科研和应用中还面临着诸多挑战与风险。尤其值得注意的是，普遍认为，目前还不太了解大模型是如何工作的，那应该如何推进应用并控制风险？所以，有必要探讨大模型的科学解释，加深对人工智能的基本概念和深层科学问题的理解。针对我国国情和大模型在垂直领域的应用，围绕逻辑增强讨论相关的研究课题。

一、什么是人工智能

什么是人工智能？最常见的回答是根据“人工”和“智能”这两个词的常识性理解，来定义或理解人工智能是什么。人工智能的创始人是图灵，1950年他发表了一篇文章，这是人工智能历史上第二重要的文献。在文章的第一自然段，图灵就否定了上述流行定义方式。为什么呢？我补充一个解释。科学或技术的任何一个学科都不是用常识性理解来定义的。例如，牛顿力学是用四条基本原理来定义的，从四条基本原理出发，经过逻辑和数学的推理，可以推出大量定理，比如第一宇宙速度、第二宇宙速度等等。这些定理表达了宏观物理世界的力学原理，比如人造地球卫星的力学原理是：任何航天飞行器的运行速度超过第一宇宙速度，不超过第二宇宙速度，就一定成为地球卫星。如果用日常生活中的物理常识，能推出这些定理，得到这样的物理学原理吗？显然是不行的。同样，我们认识人工智能（包括大模型），也不能局限于常识性理解。

图灵的想法不一样，他的方式很特别。在1950年的文章中，他提出了一个假说，但没有用“假说”这个词。这个假说主张，可以用计算机模仿人的一些智能行为，包括推理、决策、学习、理解、创造，以及这些技能的集成。但他认为自然语言不能表达科学假说，也不能表达科学原理，所以他想了一个变通的办法，提出了著名的“图灵测试”。图灵测试是一个科学实验，如果机器通过了图灵测试，就说明图灵假说成立，通不过就是还不成立。这样就绕过了一个难题：一个学科在创立之初，没有科学语言描述它的假说，怎么办？图灵就用图灵测试来替代图灵假说。

可是，图灵测试并没有阐明图灵心目中机器智能的原理到底是什么？为此需要关注他1948年的一篇内部报告，这是人工智能历史上第一重要的文献，可惜没有公开发表，但现在可以看到了。这篇报告中，图灵提出了一个关键思想：机器智能的工作原理与人的智能的工作原理可以相同，也可以不同。我把相同的叫做原理模拟，不同的叫做功能模仿。这个思想的要害在于：机器可以用与人不同的工作原理，模仿（imitate）人的智能的功能表现。这个思想就是图灵的机器智能观。

有人认为，人工智能应该从1956年麦卡锡提出Artificial Intelligence这个词开始，这个词意味着用人工方法让机器模拟（simulate）人的智能的工作原理，所以他们相信麦卡锡主张人工智能的拟人化观点。麦卡锡到底是什么意思呢？我们来看看他的个人主页，他用一系列问答来解读什么是Artificial Intelligence，其中第四个问题是：人工智能不就是模拟人的智能吗？麦卡锡的回答：“有时是，但并不总是，甚至通常不是”。然后他解释了理由：一方面AI有时是模拟人的方法，另一方面AI中大多数工作是研究世界对智能提出的问题，而不是研究人和动物。AI研究者可以自由使用没有观察到人用过的方法，或者这些方法所涉及的计算比人能做的多得多。由此可见，麦卡锡是赞同图灵的机器智能观的，只是由于种种原因对他产生了误解。

现在我们发现，大模型做的计算就比人能做的多得多，所以才需要那么多数据和算力。虽然AI在技术上进展很大，但并没有超越七十年前奠基者和先驱们提出的基本原理。

二、大模型的科学解释

大模型存储在深层网络中，其中每一个深层网络通常有几十亿到几千亿个参数，一个参数就是0到1之间的一个数，一个深层网络的行为就是由这些参数决定的。那我们如何理解大模型？它会有什么行为？有什么风险？它的工作原理是什么？光看这些参数能看明白吗？这是很大的挑战。

大模型技术非常丰富，主要有三大块。第一块是预训练，训练出来的就是基础大模型。第二块叫细调，即细粒度的调整，也就是对大模型进行专门训练，让它的回答更符合人的需要。ChatGPT就是用了几个基础大模型，根据人类反馈数据进行细调得到的。第三大块是激发，一个大模型的神经网络里都是一些参数，使用大模型就要把它里面隐含的东西激发出来。激发得好，就得到好的回答；激发得不好，就产生平庸的或者错误的回答。

根据我的分析，预训练和激发这两部分有一个共同的基础，也是大模型的底层机制，叫做关联度预测。我给出关联度预测的一个形式化理论，作为一种科学解释，于是这两部分就不再是黑箱，但也不是白箱，是灰箱。细调部分还是黑箱，这部分暂时没有办法。Hinton提到的AI风险，主要就是针对细调而言的。

我给出的形式化理论叫做类Lc系统。第一篇论文是2023年7月在《智能系统学报》上发的，可以免费下载；还有一篇2024年1月发在《中国人工智能学会通讯》上，会员可以免费下载。今天由于时间关系，有些内容不能展开，有兴趣的观众可以参考这两篇文章。

类Lc系统有三条公理，前两条公理是通用的，第三条公理跟应用有关，不同的应用有不同的公理3，ChatGPT的公理3就不是我PPT里写的这个。这些公理用来描述大模型的可解释的一般行为，有些行为不可解释，比如细调现在就不可解释，所以不在三条公理的覆盖范围内。大模型的一些行为细节或个别大模型的特殊行为，也不在考虑范围之内。

去年7月提出类Lc理论之后，我就等着别人的实验结果，主要等深度测试，这种测试不是只给出测试结果统计，而是进一步揭示大模型的奇异表现，也就是好得令人意外，或差得令人意外，却无法解释的表现。能不能解释奇异表现，是大模型科学解释的试金石。深度测试极少被报道，也是因为测试结果无法解释。

有意思的是，去年7月之后出现了大量深度测试，而之前我只看到两个别人的深度测试，其余都是我的团队做的。迄今发现的大多数深度测试结果都可以用类Lc加以解释，甚至可以用类Lc预言这些表现，也就是在测试之前预言会出现什么样的问题。少数奇异表现不容易解释，但也不与类Lc矛盾。这表明，类Lc理论得到了实验的支持，所以我现在向大家报告相关进展。今天讲三个深度测试及相关的理论分析。

第一个测试：逻辑否定。这是去年8月美国一位哲学家做的测试。问题中的p代表一个命题，也就是有真假的陈述句。命题分为肯定的和否定的，否定的命题前面有奇数个否定词~。给大模型的测试题目是：p前面有27个否定词，问大模型“p前有几个否定词”。看起来很简单，数一下否定词的个数就行了，结果大模型回答28个。

这说明什么？说明大模型不会计数。计数是数学的基础功能，自然数是用0和+1（即计数）定义的，加、减、乘、除等数学运算都是用0和计数定义的，不会计数意味着缺乏数学基本能力。不会计数又导致不会逻辑否定。逻辑学的一条规则是双重否定律，即两个否定词连在一起就变成肯定，而肯定和否定是相互矛盾的，不能混淆。不会否定运算就意味着缺乏逻辑的基本能力，这个问题就比较大了。所以这个测试说明大模型缺乏逻辑和数学的基础能力。

这种现象的原因是什么？在类Lc理论中，通过逻辑推理可以证明关联度预测的一些数学性质，比如“基于语境扩展的传递性”和“语境纠缠性”，其直观含义是：关联度预测依赖于语境，是通过语境扩展实现的，无法与语境彻底分离。但是，计数和逻辑否定运算是基于规则的，不受语境的影响。这就表明，大模型不会计数和逻辑否定不是偶然的，是有内在原因的，原因就在于关联度预测的数学性质，这些性质决定了关联度预测缺乏逻辑和数学的基本能力。

根据上述理论分析，可以得到更深层的判断：如果我们希望大模型具备逻辑和数学的基本能力，那就必须改变关联度预测的数学性质，这实际上意味着改变关联度预测，也就是改变大模型的底层机制。由此进一步得知，仅仅修改关联度预测的算法细节和应用方式（如增加提示词），不改变它的基本原理，是不可能让大模型具备逻辑和数学基本能力的，所以也就不能完全避免“幻觉”和“越狱”等现象的发生。这个结论为后面要讲的“逻辑增强”奠定了理论基础。

再看第二个测试；奇偶性。奇偶性与计数相同，都是数学运算，类似的内容就不重复了，我们来讲这个问题的修复。去年9月有人对最强的几个大模型测试名人出生月份的奇偶性，发现几乎都是随机回答。测试人员想修补这个缺陷，一开始认为非常简单，只需要12个带标签的训练例，即12个月份分别加上奇数或偶数标签，用这12组补充数据训练大模型就行了。可是训练后的测试表明，没用，还是随机回答。于是又做了一轮训练，找了2万5千个名人的出生月份，全部加人工标签，做成2万5千组带标签的训练例，再进行补充训练，结果回答正确率达到90%以上。然而这并不意味着大模型学会了所有语境下数字的奇偶性。

这个测试进一步说明了语境纠缠的普遍性和顽固性，关联度预测的语境纠缠对于数学和逻辑运算是普遍存在的，不限于计数，而且很顽固——为了消除语境纠缠，必须针对具体语境加人工标签并进行补充训练。比如孤零零的12个月份是一个语境，名人出生月份是另一个更复杂的语境，似乎包含着前一个语境，但对前一个语境的标签和补充训练，对后一个语境却基本上不起作用。由此可知，对于出生月份之外的其他语境，为了让大模型能够区分数字的奇偶性，需要一个一个语境分别加标签并进行补充训练，因为某个语境中的标签和训练在其他语境中不能复用。这种情况超越了AI研究者过去的经验和直觉。

这个例子还说明，从类Lc公理推导出的数学性质不仅适用于大模型的生成，也适用于大模型的训练，比如生成是语境纠缠的，训练也是语境纠缠的。所以类Lc理论有很强的解释力和指导意义。

再进一步的发现是，大模型和人不一样，人在学习数学和逻辑的抽象运算时，不需要对每一个语境都训练一遍，所以人类的学习只需要小数据；如果对每一个语境都需要单独训练一遍，那就不得不依靠大数据。大模型的训练就是这样，无法通过小数据实现。注意，这个重要结论是从关联度预测的数学性质推导出来的，不是单纯来自实验观察。所以，如果我们希望通过小数据实现大模型的训练，那就必须改变大模型的底层机制——关联度预测。

第三个测试：算术推理。这是去年2月对ChatGPT做的测试。测试题目是：一个孩子存了21元，如果又得到15元，用这些钱可以买多少个单价6元的玩具？回答很有意思，两句话，第一句给出答案5，这显然不对，更有意思的是第二句说：应该有总共21+15等于36元，所以能买36/6等于6个玩具。哎呀，它明明知道是6个，计算过程也是正确的，可是为什么前面说是5个？而且发现前面错了，为什么后面不纠正？对于这种奇葩表现，一般将其归结为“幻觉”。

这个例子表明，大模型给出的答案跟答案的解释不一致，所以大模型的解释不是自己行为的因果解释。假如大模型能够对其答案给出因果解释，它就需要回忆自己的解答过程，并对解答过程进行逻辑分析，判断其正确与否，然后阐述自己的分析过程和分析结论。这一套流程在人类思维中是一种典型的反思过程。根据实验结果，大模型没有表现出类似的反思行为；根据理论分析，大模型内部的运行机制是关联度预测，并且遵守类Lc系统的数学性质，而关联度预测和类Lc都不具备类似于人的反思能力。所以我们可以得出判断：大模型没有反思能力，因而也没有关于自身行为的因果解释能力。

根据理论分析和实验测试，大模型不仅没有反思能力，而且也没有通常意义上的计算和逻辑，它是通过关联度预测模仿（即图灵所说的imitate）计算和逻辑。在语言等非封闭论域，这种模仿能力是有限的，不保证与被模仿者（计算和逻辑）完全相同，所以有时成功有时失败。当模仿失败时，表现往往很奇葩，给人感觉好像大模型产生了“幻觉”。其实大模型不可能产生幻觉，是人由于解释、理解不了大模型的奇异表现，对大模型产生了幻觉。

上面的分析对于大模型的应用有实际意义。比如在工业应用中，需要提取应用领域的专业知识。有人说大模型里就有很多知识，够用了。其实专业知识必须建立在逻辑的基础上，由于大模型没有逻辑和数学的基本能力，所以它存储的不是知识，而是资讯。资讯中的很大比例可以转化为知识，因此我们需要识别哪些资讯可以转化为知识，哪些不能转化。在这方面，目前还没有看到相关的研究成果。同时，通用大模型缺乏工业领域的训练数据，也就没有工业领域的资讯，更谈不上专业知识了，所以也不可能通过转化得到专业知识。由此可见，通用大模型并不能简单地应用于工业领域。

综合各方面情况，虽然大模型在人机交互等方面进展很大，但在工业和其他一些专业领域的应用仍然面临着重大挑战，其中包含一个基础性课题——逻辑增强。

三、垂直领域大模型和逻辑增强

我们进一步梳理、总结大模型的主要特性。通过这些特性，可以更明确地认识到逻辑增强的必要性。

第一个特性：大模型没有逻辑能力。有时大模型对逻辑问题的回答是正确的，为什么说它没有？根据计算机科学的标准，如果一个程序具有某种计算能力，那它在相关的运算中必须永远是正确的，否则就是没有这种能力。显然，计算机科学的这种标准保证了程序的可靠性，如果允许程序有时对有时错，那就没有可靠性可言。根据这一标准，大模型不具备计数、等量代换，逻辑否定、约束满足、传递性推理等数学和逻辑的基本能力。但在某些情况下，大模型可以模仿这些能力，所以大模型在这些能力上的表现是不可靠的。不能因为有时它在某个功能上的表现是对的，就以为它永远是对的。最近一位菲尔兹奖获得者发现，当测试问题涉及隐式逻辑关系时，大模型回答的错误率比正确率高得多，有时甚至超过100比1。在很多垂直领域，应用需要的恰恰是符合计算机科学标准的那种可靠性或高可信度。

第二个特性：大模型能回答任何问题，但不保证回答总是正确的。现在用类Lc理论可以证明这个结论，而不是单纯看实验结果。根据三条公理，可以证明关联度预测能够回答任何问题。但根据第一个特性，无法保证回答总是正确的。

第三个特性：大模型与人之间只有弱共识。这个特性可能不太容易理解，但这一条可能是最重要的。大概意思是说，字词之间的统计关联，因为是从语料中提取出来的，所以和多数人是一致的，此外大模型没有其他语义。比如大模型不知道一个词本身是什么意思，但它知道这个词跟别的词是如何关联的。于是，你和大模型对话的时候，你怎么理解大模型都可以，不同的人对大模型输出的同一句话可以有不同的理解，都是可以的。所以在关联度预测机制下，大模型不跟用户吵架，用户说什么它都说对。为什么？因为很多意思它根本就没有，所以也不会与用户的意思发生矛盾，这样就吵不起来。但是，过去的AI和软件都要求强共识，所以我们要学习编程，通过学习达成强共识，否则你就用不好软件。可是大模型没有强共识，只有弱共识，所以通过自然语言对话人人都可以使用大模型。这就解释了为什么大模型好用，原因在于弱共识性。

总结起来，我们发现大模型的工作原理跟人的智能的原理有所不同。这符合图灵的机器智能观，所以大模型再次验证了图灵的机器智能观。

我们把机器智能与人的智能的关系总结为一句话：青似于蓝而异于蓝。这意味着，两种智能永远都不会完全一样，不用担心大模型将来变得跟人一样，永远没有这种可能性。但是，也不要以为它不跟你一样，就不会超过你。它用它的方式超过，以人不易觉察、不易理解的方式突然超过，有些方面可以超过得更快、风险更大。

在一些垂直领域，中国的机会非常大，因为中国的实体经济规模庞大，尤其中国的制造业体量庞大，对垂直领域大模型有很多需求。有些国家大部分制造业都转移了，主要需求集中在虚拟经济和服务业，所以通用大模型对他们更重要。

前面提到，垂直领域的应用往往要求可靠性，比如生产过程就要求很高的可靠性，不可能像聊天那样，聊得嗨比对错更重要。但是大模型提供的资讯是不可靠的，所以对大模型的回答需要人工判断对错，这在工业等垂直领域用起来就非常麻烦，难以满足工业生产中设备高速运转的实际要求。

所以在垂直领域，大模型研究面临挑战，目前应该仍然处于0到1的阶段。垂直领域大模型需要满足哪些要求？第一，专业性，不是有回答就够了，还需要满足专业标准。第二，具有可靠性或高可信度。第三，可操作性，专业领域需要一些专门的操作，大模型本身并没有这些操作，它靠激发，但激发不保证功能的正确实现。还有其他一些要求，这里省略。

垂直领域大模型的操作有哪些？这是别人提出的一些基本操作：一个是检索，在垂直领域需要检索特定的结果，而大模型给你的回答未必是你想要的东西，所以这里说的检索是完全可控的，用户想要什么就提取什么。第二，分类，即把对象分成不同的类。第三，比较，对不同对象的属性进行比较。第四，反向搜索，找到符合条件的对象。大模型不具备这些功能。

另外，还需要一些高级功能，包括：1.易用性，大模型一做专业操作，它的易用性就下降了，过去的一些AI技术功能强大，但是不易用。现在这个挑战依然存在，要让常用操作易用。2. 知所知，即知道自己知道什么。大模型不具备知所知能力，有时它有答案，但是它不回答你（它说别的没用的），需要你激发它。3.知不知，即知道自己不知道什么。大模型也不具备知不知的能力，即使它没有正确答案，它还是会回答你，结果回答错误。

上面提到的这些，很多属于逻辑增强的内容，比如知所知、知不知是元级逻辑功能，基本操作属于基础性逻辑功能。

垂直领域现在有很多人在做，国内国外都有，这是6月份刚刚发布的一个结果，其目标是验证大模型的回答是否正确，以提高回答的可靠性程度。作者设计了一些算法，让大模型自己进行验证，所以马上就跑起来了，而且取得了一定效果。其中一个数据集上，测试结果的准确率达到了99.60%，不过这个数据集比较简单。其他几个数据集上只有80%多。对于垂直领域来说，一般需要达到99%以上的准确率，现在差距还很大。所以垂直领域大模型有很多工作要做。从科研的角度，有很大的空间；从应用的角度，也有很大的空间可以去努力。

最后对人工智能发展的全貌做个补充说明。现在大模型是最热的，这不等于人工智能只有大模型。除了生成式人工智能，还有规划式人工智能，比如现在的外卖很快就送来了，大量的骑手、大量的订单为什么那么快？因为人工智能在派单，并规划骑手的送单路线，使得效率大大提高。这种技术并非只适用于外卖，大量场景都可以用。还有分析式人工智能，用于发现数据中的复杂模式。现在自然科学的各个学科都在做，用的方法以深度学习为主，不是大模型，叫做AI for Science。预期未来几年，有可能出现科学发现的快速推进，非常值得期待。第四种是智能化装备，包括智能机器人，在物理空间中完成自主、半自主操作，在实体经济特别是制造业有巨大的应用前景。

事实上，发展人工智能我们有很多选择。从风险来看，其他三种类型都是低风险，大模型有的时候是高风险，在垂直领域的应用是低风险。那么，有没有可能先推进一些低风险、高效能的人工智能应用呢？我认为有两个重点，它们都面临着越来越严重的用工荒。一个是智慧农业和现代农业，另一个是传统制造业的高端化。过去有一种看法，认为制造业的中低端可以不要了，转移到东南亚和其他地方去。现在发现不行，因为中国制造业的80%都是中低端，如果中低端都走了那怎么办？回到改开前大量消费品依靠进口的老路上去吗？现在提出中低端往上走，中低端变成高端，这个市场就太大了，能做的事情太多了。

人工智能的研究和应用有非常大的发展空间，让我们共同努力！

（本文根据作者报告的速记稿整理加工而成）