黑格尔“逻辑学”对人工智能的启示(四)
四、从人工智能角度重读“是论”
众所周知,“是论”是《逻辑学》体系三大板块中的第一板块,也是后两个板块得以逐步展开的理论基础。因此,将本文有限的篇幅预算用在“是论”( 而不是“本质论”或“概念论”) 之上,也将起到某种“四两拨千斤”的作用。
下面,我们将主要从 AI 自身的兴趣点出发,通过三个问题,就“是论”自身的几点“反常之处”进行提点,并通过对于这些“反常”的解释来逐一展现黑格尔思想的深刻之处。
问题一: 如何从 AI 的角度理解“是论”的开场第一个范畴乃是“是”?
对于这个问题的一种常见的教科书式解答乃是这样的: 黑格尔不满足于像亚里士多德与康德那样,机械地、外在地将范畴予以展列,而试图向读者展现诸范畴逐步发展自己的整个辩证过程。而“是”恰恰就意味着某种展开为各种种类的判断的可能性,同时其表面形式亦是最简单的。在这样的情况下将“是”视为整个范畴表的出发点,便是一件非常自然而然的事情了。
但这样的解答,显然很难让一个深受数理逻辑思维影响的 AI 专家所信服。他或许会搬出早年维特根斯坦在《逻辑哲学论》) ( 参论题 3.323) 中的说辞,认定像黑格尔这样的传统哲学家对于像“是”这样的系词的依赖其实是将不同的含义———“同一性”、“属于”、“存在”———归属到了相同的语词下,并因为这种混淆而导致了大量后续的哲学混乱。
那么,一个黑格尔主义者又当如何回应后人的这种批评呢?回应之一: 早期维氏提议将“是”的含义分置于不同的技术谓词的想法,本身乃是预设了这么一种观点: 存在着一种一劳永逸地将世间所有基本谓词加以确定的终极技术方案。很显然,正是这种有点天真的想法,促发了后世 AI 专家海耶斯( Patrick Hayes) 去用一阶谓词逻辑来整编整个人类常识。但正如另一位人工智能专家麦克德默特( Drew McDermott) 所认识到的那样,这样的思路必然会带来“基本谓词膨胀”的问题———也就是说,由于人类常识的驳杂性与开放性,AI 专家们将很难确定怎样的“基本谓词表”才是足够完整的。
而一种黑格尔式的解决思路则是“化繁为简”的———也就是说,与其一开始就将所有的基本谓词出,还不如先来观察一下所有这些基本谓词所具有的共相,也就是将不同的经验表象综合在一起的“统一性”功能。很显然,没有比用“是”来表达这种统一性功能显得更为自然的了。说得更具体一点,表示“属于”的“是”之所以体现了这种“综合经验表象”的功能,乃是因为在像“这朵花是红色的”这样的判断中,“是”所扮演的角色便是将“这朵花”这个表象与“红色的”这个表象结合在了一起; 在“这朵花就是这朵花”这个判断中,“是”至少是将“是”左边的语言记号( token) 与“是”右边的语言记号在类型( type)层面上结合在了一起,而在“这朵花存在”这个判断中,变为“在”的“是”则至少将主词“这朵花”与一系列支持其存在、却未必被直接表述出来的谓词( 比如“被张三看到过”这样的谓词) 联系到了一起。
回应之二: 被早期分析哲学家所看重的“是”的核心功用———表征“属于”———就未必能够涵盖我们在日常生活中使用“是”时的真正用意。说得更具体一点,早期分析哲学家所说的“属于”是在纯粹外延主义立场上被使用的,因此,当他说“苏格拉底是獉人”的时候,他想说的仅仅是: 对于“人”这个集合而言,“苏格拉底”乃是其成员。然而,这个说法却根本没有涉及“人”这个集合本身的内部结构特征,也没有涉及“苏格拉底”与“人”这个集合的其他成员之间的关系。
与之相比较,当我们一般人( 在某种意义上,还包括后期维氏) 说“苏格拉底是人”这句话的时候,我们其实是作出了这样的一个断言: 对于“人”这个集合的外延的其他对象来说,“苏格拉底”所具有的某种性质至少
是具有足够的典型性的———而“具有足够的典型性”这个表达显然涉及了“人”这个集合的某种内部结构( 无论它是晚期维氏所说的“家族相似”结构或是别的什么结构) 。
这也就是说,数理逻辑与集合论所提供的源初谓词,除非经过某种重大的改造,其实是无法令人满意地刻画日常语言中的“是”的。因此,我们必须从对于这些现代表述工具的迷信态度中抽离而出,直接地表达出“是”本身。对于上述回应,不太同情黑格尔哲学立场的读者或许会反驳说: 简单地给出“是”,并不能够帮助我们理解被“是”所联接的谓项自身的内部各个成员之间的家族相似结构; 而如果我们要对所谓“家族相似”理论进行技术层面上的刻画的话,那么学界业已提供的成熟刻画方案则还是会将我们引向目下如火如荼的“语义向量空间模型”,而不是什么神秘兮兮的黑格
尔哲学。
但这一反击本身还是有两个破绽。第一,就其本质而言,“语义向量空间模型”只是在深度学习的技术平台上复演了海耶斯在符号 AI 的平台上所做的那类春秋大梦,即要以某种一劳永逸的方式穷尽某种语言的所有语义知识。故而,与海耶斯的规划一样,这样的技术路径依然无法完美地处理人类经验的开放性与驳杂性。与之相比,黑格尔对于“是”进行预先呈报( 并在同时不立即给出完整的范畴表) 的方案,的确是对从“是”中衍生出种种新谓词的可能性保持了足够的开放性———而且,也恰恰是这种开放性,才使得其思想更有可能与人类所面临的种种具体的问题处理语境发生有机的关联。
第二,对于“是”的原始地位进行肯定的做法,本身并不一定就是与 AI 的技术刻画方案格格不入的。比如,在颇有影响的一个 AI 技术路线———贝叶斯网络———中,贝叶斯网的构建者在构建所谓的“有向无环图”之时,几乎就仅仅使用了一类谓词,即联接一个事件表征与另一个事件表征的有向箭头。
同样的道理,在“语义向量空间模型”中,建模者对于不同词项之间语义距离的谈论,也能够被视为对于某种统一的基本谓词的不同量化方式。这也就是说,黑格尔的反击者们所试图驳倒的,恰恰就是他们在自己的新方案中所预设的东西。而更糟糕的是,由于这些建模者试图一开始就确定使得语义推理得以可能的所有充分知识,他们所设定的这种基本谓词一开始就被剥夺了从中衍生出新谓词的可能性,并因此使得自己的建模成果被锁定在比黑格尔所说的“是”更不具普遍性的那个层面上。
问题二: 如何理解黑格尔所说的“变”?
是“是”、“否”与“变”。从“是”引出“否”,似乎并不会引发后世的 AI 技术专家们足够的惊讶,因为“否”既可以在一阶谓词逻辑中被勉强理解为“否定”,也可以在贝叶斯网络中被勉强理解为两个事件节点之间连线的缺失。而相对难以理解的是“变”,因为现有的AI 技术缺乏刻画“变”的基本技术手段。那么,关于“是”、“否”、“变”三者之间的关系,以及引出“变”的
必要性,黑格尔本人是怎么说的呢? 我们可以在《小逻辑》中找到这样的文字:反过来说,“否”,作为这种直接的自我等同 的 范 畴,就 好 似 是 与“是”等 同 者。“是”的真理,以及“否”的真理,因此也就是对于二者的联系: 这一联系就是“变”。
这段话的字面意思的确有点晦涩。好在黑格尔还在《小逻辑》中给出了对于此段表述的大段说明。
根据这些说明,笔者重构出了如下论证,以证明“变”
这个范畴的不可或缺性:
1. 当我们使用“是”与“否”这两个范畴时,我们已经预设了某种更深的背景知识,以使得作出上述肯定与否定的行为本身变得有意义。
2. 因为该背景是“是”与“否”所共享的,所以它也可以被视为对于此二者的“统一者”。
3. 我们必须找到一个范畴,以便能够刻画这一统一性背景的本质特征。
4.“变”很适合成为满足上述条件的一个范畴,因为当我们说“甲在变”的时候,这话即蕴含了对于甲之存在的肯定( 即“是”) ,又蕴含了对于甲之先前存在状态的否定( 即“非”) 。
5. 所以,“变”是一个在对于“是”与“否”进行初步反思后就必然会被揭露的新范畴。这里需要指出的是,黑格尔对于“变”的基础地位的这种肯定,与德语中的对应词汇———“Werden”———
的灵活用法是有一定关联的。比如,这个词既可以像英文中的“become”那样成为一个实意动词,在其他动词不介入的前提下直接接续名词( 比 如 例 句“Seine Tochter wird Krankenschwester.”,意 即“他 女儿成为了一名护士”) ,也可以成为一个助动词,以便表示“第 一 将 来 时”( 比 如 例 句“Was wirst du an diesem Wochenende machen?”,意即“本周末你将做
点什么?”) ,或 表 示“过 程 被 动 态”( 比如例句“Der Verletzte wurde sofort ins Krankenhaus gebraucht.”,意 即“这位伤员被立即送往医院”)
也就是说,“Werden”同时涵盖了汉语中“变”、“将”、“被”三个词的含义,具有强烈的时间流变意味与主—客颠倒意味。此外,虽然对于英语与汉语的言说者来说,“Werden”这一范畴的上述活用的确是有点令人难以理解的,但是这也并不意味着黑格尔在这里是在玩弄某种隐性的“德语霸权主义”。
譬如,就与德语在亲缘关系上极为疏远的日语而言,“なる”( 罗马音“naru”,一般也只能被勉强汉译为“变”) 这个动词的活用范围虽然没有德语“Werden”那 么广,但也承担了远比汉语的“变”或者英语中的“become”更为广泛的语法角色,因此更具有黑格尔所说的“Werden”的意味。
这也就是说,黑格尔对于“Werden”的强调,未必只能为懂德语者所领会。
但说到步,“Werden”对于 AI 研究的启示意义,似乎还没有被清楚地凸显出来。故而,我们还必须对这个范畴的真正含义进行进一步的抽象。非常粗略地说,“Werden”是对所有包含可被察觉的时间因子的谓述表达( 如“开始”、“结束”、“增强”、“变弱”、“生长”、“腐败”,等等) 所作的一种抽象,而这种抽象之所以对 AI 有启发意义,恰恰是因为目前主流的符号 AI 与人工神经元网络研究都是“无时间”( 并因此是“无变化”) 的。
譬如,在符号 AI 系统之公理系统中,所有的结论都被视为通过逻辑手段而一步步演绎出来的自然果,而这一结果甚至在演绎发生之前,实际上就已经被自动蕴含于前提之中,而不会对这些前提进行任何实质性的修正与变化。至于传统符号 AI 所依赖的一阶谓词逻辑,其实也无法刻画“变”,因像“Werden( x) ”这样的函项结构在句法表达上根本就没有办法告诉我们它与“Sein( x) ”的任何
区分。甚至对于人工神经元网络与贝叶斯网络来说,“变”也不是一个能够被确切刻画出来的范畴。我们固然可以说在训练一个人工神经元网络的过程中,网络中计算单元之间的联系权重一直在“变”,但一旦网络被训练完成了,除了按照规定的模式对新输入的性质进行映射之外,这样的网络的技术性能根本就不会“变”了( 比如,一个专用于语音识别的深度学习网络,是无法“变”得可以用于图像识别的) ; 而且,这样的网络所能够识别的抽象谓词也很难包容“变”( 你能够让这样的一个网络去识别一张衰老的男人的脸,却不能让其识别一张衰老的男人的脸的衰变过程本身) 。
与之同理,贝叶斯网络也很难对自身的“有向无环图”进行反思性的“变通”( 你能够让这样的一个网
络在特定的“有向无环图”的拓扑学结构中改变特定事件连线的权重,却无法让这样的拓扑学结构本身被颠覆性地改变) 。 这在相当程度上也解释了为何“框架问题”能够对传统 AI 构成那么大的麻烦。说得更具体一点,对于“框架问题”的任何一种理想的解决方案,显然都应使得智能体能够灵活地使用“变”这个范畴———换言之,这样的智能体将应当有能力去了解: 在语境甲中,事项 A 与 B 之间的不相关性,在语境乙中,却已经变得相关了,或反之。
然而,无论是符号AI,还是人工神经元网络,显然都无法真正地展现语境变迁———其实质是时间流逝———与范畴变化自身的种种微妙关联。
因此,黑格尔对于“变”范畴的界说,其实是对整个主流 AI 界对于“变”的冷漠构成了一种颇具理论威胁性的批评。
问题三: 人工智能该如何看待从“是”到“否”再到“变”的辩证推演关系?
笔者对于黑格尔上述思想的重构过程,都始终回避了“辩证逻辑”这个提法,以免后世借着该名目所作
出的种种庸俗化解释来干扰我们的思路。但即使如此,笔者也不否认,以“是—否—变”的演进过程为典型的“正—反—合”结构,乃是黑格尔哲学叙述中被反复使用的套路,而这些套路恰恰又是俗常所说的“辩证逻辑”的基本内核。对于这一内核的初步形式化表
达如下:
正题: S 是 P。
反题: S 非 P。
合题: S 与 P 是一个新谓词 Q 的两个面相。
上述推理过程———尤其是“正题”与“反题”之间的明显矛盾———当然是很难被形式逻辑家所理解的,并因此被笃信形式逻辑并厌恶矛盾的分析哲学家们所嘲笑。
但我们的确在日常谈话中会经常使用这样的带有准黑格尔气息的表达: “张三是个好人,不过他也算个坏人。好吧,怎么说呢? 他就是这么一个复杂的人。”有趣的是,虽然分析哲学家恐怕也很难否认此
类表达在日常语言中的普遍存在,他们却坚决否定这种表达能够为黑格尔式逻辑的合法性提供任何辩护。
相反,他们竭力使用进一步的分析策略,来使日常语言的上述表达顺化成无矛盾的表达。譬如这样的方案: 在时刻 t,张三是一个好人,而在时刻 t* ,张三是一个坏人。
而当我们说“张三是个复杂的人”的时候,我们实际上说的,乃是在不同时刻被给出的不同描述谓词所构成的某种复杂的被构建物。笔者承认,在形而上学的层面上,这样的“祛辩证法化”的说话方式是值得发展为一种精致的学说的,譬如笔者在别处详细讨论过的“蕴 相 殊 论”( tropetheory) 。 但是若我们转而站在 AI 或者认知科学的
立场上重新审视这种“祛辩证法化”的方案的话,那么我们就会再次迎来麻烦的“框架问题”。其理由如下:为了尽量避免将意义彼此冲突的谓词指派给同样的主词以造成矛盾,“祛辩证法化操作”的实施者只能小心翼翼地将不同的时间谓词( 作为某种二阶谓词) 指派给每一个一阶判断。
但这显然会导致智能体记忆库所需要记忆的基本信息量的增大,并使其更难在局促的时间预算下给出合理的“相关性”指派。与之相比较,黑格尔的方案———即略去时间因子而直接表述主—谓关系———则可以大大精简系统所需要储存的基本信息,并使之能够有充分的计算资源来解决“框架问题”。
在这里我们无疑发现了一个很有趣的反差。我们已经知道,“框架问题”实质上是一个关于智能体在
有限的时间资源中如何进行“相关性”指派的问题,因此,这个问题其实已经牵涉到了时间与认知范畴之间的某种隐秘与深刻的联系。虽然黑格尔与后世进行“祛辩证法化操作”的 AI 专家与分析哲学家其实都意识到了这种联系的存在,但两者阐述这种关系的方式却是完全不同的。从表面上看来,更重视时间问题的乃是“祛辩证法化操作”的执行者,因为在他们的具体刻画方案———如麦卡锡所提出的“流演算”———中,时间因子的确是得到了对象化的投射; 而在黑格尔的《逻辑学》中,时间因素仅仅是被诸如像“变”这样的范畴所预设了,而没有以“被对象化”的方式展现出来。
不过,这或许并不意味着黑格尔无视时间问题的重要性———毋宁说,谙熟古希腊哲学( 并因此谙熟由
机械切割时间所造成的“芝诺悖论”) 的黑格尔其实是意识到了时间问题本身的艰难性,以及那种“通过切割时间来回避矛盾”的做法的粗鄙性。换言之,从黑格尔哲学的立场上看,这种切割将难以解释: 为何在认知活动中,跨时间片段的对象可以被表征为同一个主词,以及为何我们会允许同样一个主词具有不同的、彼此冲突的面相。
而在黑格尔看来,最简单的替代性处理方法就是姑且允许矛盾的存在( 并因此省略了为回避矛盾而引入的“对象化时间片段”的做法) ,并通过对于这样的矛盾的揭示来显示引出更深层谓词的必要性。
说到这一步,黑格尔的所谓“辩证逻辑”在 AI 或者认知科学语境中的真义也就呼之欲出了。严格地
说,黑格尔的“辩证逻辑”根本就不是与形式逻辑并列的一种新逻辑,而是对于认知主体探索真理的基本步骤的一种概括。
因此,与之能够相提并论的 AI 对应物也并不是一阶谓词逻辑或是贝叶斯网络或是人工神经元网络,而是可以被图示化为“流程图”的某种宏观问题解决策略,譬如司马贺与纽埃尔的“通用问题求解器”所涉及的“目标—手段”进路。说得更详细一点,这种黑格尔式的问题探索策略的基本流程可以
被概述如下:
第一步,主体通过某些经验观察( E) ,得到“S 是P”这个判断。
第二步,主体通过采集新的经验观察( E* ) ,得到“S 非 P”这个判断。
第三步,主体发现上述两个判断是有矛盾的。
第四步,主体努力寻找一个中介性谓词 Q,以便为使得观察 E 与观察 E* 都能够成为“S 是 Q”这个新
判断的证据集的成员,由此消除前面所发现的矛盾。
第五步: 但在一个更高的层面上,主体又发现了新证据,以支持“S 非 Q”这个判断。
第六步: 为了消除这个新层面上的矛盾,重启步骤四。
…………
第 n 步: 主体终于得到了某种超级谓词,使得各种矛盾都可以在其中得到调和。由这种超级谓词所
构成的判断所组成的知识,就是“绝对知识”。
关于笔者所重构出来的上述步骤,还有如下几点深入说明:
第一,矛盾不是黑格尔式逻辑所真正容忍的东西,而是引发智能体进一步进行探索的动力。因此,就“对矛盾感到不满”这一点而言,黑格尔与形式逻辑学家并没有本质分歧。黑格尔的贡献乃在于: 他并不急于引入对于时间因子的对象化以便一开始就去消灭矛盾,而是采用了“养寇自重”的策略,让作为同一性对立面的矛盾自身引发认知的深刻化。从这个角度看,黑格尔式的逻辑,其实比形式逻辑更适合用来刻画认知的进展过程,因为形式逻辑会在一开始就消灭掉认知主体进行前行的动力。
第二,按照笔者的重构,“S 是 P”与“S 非 P”之间的对立,并不是依靠纯粹的思维游戏被演绎出来的,而是通过不同的经验证据而被经验地归纳出来的,因此,“反题”并非“正题”的逻辑蕴含物。笔者的这种经验论色彩浓郁的解释,显然会颠覆很多读者对于黑格尔的“反经验论者”的刻板印象。但这种刻板印象的产生本身,也是完全可以被解释的。具体而言,如果智能主体对特定证据经验的局限性有某种先验的认识的话,那么,这样的主体就能够在得到证据证明“S 是 P”之后,自然地期待未来会有新证据来证明“S非 P”,而无论这些新证据是否已经到手。而这种暂时脱离了经验大地的先验期待,也就会给一部分人造成了这样的假象: 从“S 是 P”中,我们可以直接推出“S 非 P”。
第三,使得笔者重构的整个认知流程能够被执行的一个隐蔽前提是: 认知主体有足够的“认知野心”来
得到对于世界( 包括其自身) 的某种统一性认识。很显然,这个前提并不是来自逻辑的要求,因为一个缺
乏此类认知野心的、随波逐流的“佛系”认知主体的存在,本身并不构成对于形式逻辑之有效性的任何威胁。这个前提的真正来源毋宁说是欲望与生命,这也就是黑格尔以后的叔本华、尼采、伯格森从人文科学角度,以及黑格尔以后的达尔文、道金斯与丹尼特从自然科学角度所试图阐明的道理。缺乏对于这个问题的足够自觉意识,的确是作为理性主义哲学家的黑格尔的一个疏漏。
不过,从 AI 与认知科学的立场上看,对于这一疏漏的弥补并不会导致对于黑格尔的辩证逻辑的主体部分的颠覆,而只会导致对于它的补充。这也就是说,一个成熟的 AI 专家需要在思考“如何为智能体的认知活动提供认知动力”这一问题时参考人文科学与自然科学对于“生命”与“欲望”的既有讨论,并由此使得“人工智能”与“人工生命”的研究能够在某个层面达成知识汇通。
第四,站在 AI 立场上看,黑格尔式辩证逻辑即使得到了笔者的上述重构,其中的第四步恐怕依然是最
为模糊的,因为关于如何通过引入一个新谓词来调和两类分别支持彼此矛盾的判断的证据,黑格尔本人也好,笔者的重构也罢,都没有提供任何可被程序化的细节。另外,对于自然语言是否能够始终为彼此矛盾的两个谓词找到一个调和性谓词,我们也没有确切的语言学证据。对此,一个可以想到的补救措施是引入某种统计学机制,以便就正、反两方面的证据进行计量,并由此重新分配新判断的真值( 在这里笔者预设在统计学进路中,真值当然是可以被量化的) 。
第五,在主体的认知欲望足够强大的情况下,我们可以假设任何一个问题都没有被彻底求解的那一天,所以笔者所刻画的黑格尔式问题求解路径才会一步步导向“绝对知识”。不难想见,如果今天的自然主
义者不喜欢黑格尔式“绝对知识”提法包含肯定性的神学意蕴而宁愿姑且将其解释为某种康德式的“范导式原理”的话,那么黑格尔式的问题求解路径所会占据的计算步骤就将是无限多。这一理解无疑是符合科学史发展现实的,因为人类对于物理实在的终极理解似乎就像对于神的知识的获取一样,可望而不可及: 我们既无法预估这样的终极解释方案将满足怎样的条件,更无法预估我们需要执行多少步骤才能够满足这些条件。
但主流 AI 所说的“问题求解”却肯定不是这个意思,因为主流 AI 必须对任何一个问题的“被解决状态”进行预先定义,才能够反过来设计其解决流程。因此,这样的 AI 系统恐怕就很难理解人类科
学家所经常发出的下述评论了: “这个问题貌似已经得到了尚且令人满意的解决,因此不妨暂时先写一篇论文向学界汇报———至于更深入的研究,则可以被托付给未来”。而看得更深一点,主流 AI 系统对于人类
此类评论的不理解,恐怕又是“框架问题”在更高层面上的一个体现。换言之,主流 AI 系统无法理解“哪些解决标准在哪些语境中更相关或更不相关”。不得不承认,从宏观上看,黑格尔哲学在这个问题上能够给出的帮助的确有限,因为其对于“绝对知识”的最终指向,在很大程度上的确是将“问题解决”的最终标准高度理想化了,并由此脱离了日常生活的实际。不过,从微观上看,黑格尔哲学内部的高度层次感,却又为设置不同层面上的“问题解决”标准提供了某种指引,并使得一种局部模拟黑格尔哲学的 AI 系统可能以一种接近人类探索者的工作方式,给出“大致令人满意”的工作结果。
不过,如何从黑格尔哲学的宏大结构中找到一个层次合适的片段以便为 AI 研究提供切实的指导,则需要 AI 哲学的研究者对博大精深的黑格尔哲学的细部投入更为细致的观察,而本节对《逻辑学》“是论”部分的相关挖掘工作,也仅仅是为一个更为系统的“黑格尔式人工智能哲学”的展开提供了某些预
研而已。