刘纯懿 胡泳 | 人机逆转、叙事僵死与无事实时代——生成式革命的影响与危机

刘纯懿 | 北京大学新闻与传播学院博士研究生

胡泳 | 北京大学新闻与传播学院教授

本文原载《探索与争鸣》2024年第1期

具体内容以正刊为准

非经注明,文中图片均来自网络

随着ChatGPT的盛行和国内外互联网公司对智能对话、人机交互技术的追捧,生成式人工智能(generative artificial intelligence)革命已悄然来临。这场以聊天机器、智能生成、人机交互为表征,以深度学习、训练数据、大语言模型为技术内核的变革,不仅在重塑由技术驱动的产业格局,更在改写人工智能乃至整个科学领域的研究范式。同时,围绕生成式AI产生的一系列新媒介、新应用、新工具也在丰富着社会文化的表达形式和技术哲学的内涵。面对这一轮技术革新的浪潮,我们需要深入思考它生成了什么,又警示着什么,这是人类面对日益智慧的机器时迫切需要思考的问题。

500

生成式AI从何而来

(一)生成式AI的史前史:范式之争与人工智能分水岭

在人工智能诞生和发展的过程中,符号主义(symbolicism)和联结主义(connectionism)作为两大主要范式贯穿在智能技术的演进历史中,而何种范式占据上风则直接决定着人工智能在不同时期的代言者和标定物。

早期人工智能的诸多进步都是在符号主义的范式下进行的,符号人工智能(symbolic AI)相信通用智能完全可以通过正确的符号处理程序来获得,它主要应用于创建思维模型,并最终导向不同类型的逻辑推导,其宗旨是力图用数学逻辑解决通用问题。20世纪80年代,符号人工智能大行其道,它使用逻辑编程、产生式规则、语义网络和框架等工具,开发了基于知识的系统、自动化的计划和调度系统等应用。符号人工智能范式在搜索、符号编程语言、代理、多代理系统、语义网络以及形式知识和推理系统等方面产生了开创性的想法,更重要的是,在符号主义的影响下,人工智能1.0阶段的核心特征得以确立,那就是对“专家系统”的依赖。符号人工智能对信息的处理是通过专家系统进行的,它包含“如果/那么”(if/then)配对,以此指示算法如何行动。由此可见,符号主义范式的特点是“自上而下”,其基本思想是以计算机形式获取人类专业知识,并将其作为程序播散到成千上万的个人计算机上。但很快,符号人工智能就暴露出缺陷,即真正学习的有限性。1984年,约翰·麦卡锡曾批评人工智能的专家系统缺乏常识和对其自身局限性的了解。人工智能也因此在20世纪90年代陷入发展的寒冬。

人工智能发展的分水岭伴随着范式转型而到来。近十年来,基于海量数据和新算力的绽放,研究界和企业界对人工智能(尤其是机器学习这一子领域)的狂热兴趣直接带来资金和投资的急剧膨胀,由此形成了一直延伸到当前人工智能热潮的研发脉络,而主导这一发展浪潮的范式正是联结主义。与符号主义自上而下的专家系统不同,联结主义采用的是自下而上的学习逻辑。联结主义以其最成功的技术——深度学习和深度神经网络而闻名,而深度学习和深度网络正是绝大多数机器学习系统背后的架构,也是今日生成式AI革命的关键词和核心技术。基于联结主义的人工智能克服了符号人工智能在学习上的局限。如果说符号主义是从更高层次的思维概念着手,那么联结主义则是在力图模仿大脑,创建可以“学习”并从大量数据中识别模式的自适应网络。联结主义假设,通过足够复杂的网络和足够的数据,我们可以实现相当于更高级别人工智能的功能——对真实思维的临摹与创造。

联结主义范式下的人工智能跨越了以专家系统为标识的1.0阶段,迈向以神经网络为核心的人工智能2.0阶段。在这一阶段,工程师不再像专家系统那样对规则进行编码,而是让计算机在大量数据的基础上,通过关联和分类来发现规则。不管是2012年多伦多大学的计算机科学家亚历克斯·克里泽夫斯基(Alex Krizhevsky)设计的卷积神经网络(convolutional neural network,CNN)AlexNet在ImageNet竞赛中获得胜利,还是2016年DeepMind(现为Google子公司)创建的AlphaGo在五场比赛中以4比1的比分击败了世界围棋冠军,近年来一系列人工智能发展的里程碑事件都在宣告:神经网络——通过分析数据学习技能的数学系统——是下一步前进的方向。

在人工智能2.0时代,计算资源的民主化和可获得性解决了神经网络的计算密集型问题,同时,训练神经网络所需的大量数据的可用性、深度学习的突破以及使用GPU的速度提升,作为基础性条件使得神经网络的发展和生成式AI时代的到来成为可能。换句话说,如果没有廉价的存储芯片、GPU的速度以及来自互联网、移动设备的海量数据,就不可能有今天的神经网络。从本质上讲,人工智能的发展速度与计算机硬件、软件的发展几乎同频而行。

在生成式AI过去十年的发展历史中,深度学习已成为人工智能最具影响力的研究领域和实践方向。然而,联结主义范式也在人工智能的应用过程中暴露出诸多缺陷,比如,数据效率低下,神经网络需要大量的训练数据才能发挥作用;泛化性较差,神经网络一旦接触训练分布之外的数据,就很容易出现灾难性的失败;更令人担忧的是,联结主义缺乏被许多人认为是绝对必要的东西,即可解释性。当今的神经网络通常是技术黑箱,建基于联结主义之上的人工智能系统的本质是:尽管它们具有强大的功能和性能,但它们在逻辑上是不透明的。人类几乎不可能完全理解系统为什么作出某些决定。在缺乏任何可识别或可验证的逻辑序列的情况下,人工智能系统有可能进行潜在的灾难性决策,这些决策极难纠正且难以获得完全的信任。对于一个需要某种共同的伦理框架和价值观的智能化社会来说,在追求技术不断精益求精的过程中,透明度也一定不可或缺。在对智能技术透明度的渴求下,梳理生成式AI的关键特征,厘清“生成”的内涵和“生成”的机理,则是向技术黑箱宣战的第一步。

(二)生成式AI的特征:何为“生成”与何以“生成”

在2010年,生成式AI被描述为:“一门关于模型自动化工程的科学,它涉及思想的自主构建,它涉及思维的脚手架,它在机器中产生主观性。它需要一套不同于经典人工智能(classical artificial intelligence,CLAI)的工具和概念,到目前为止,经典人工智能几乎构成所有人工智能。一般来说,生成式AI也不同于分析科学。这并不意味着生成式AI中没有分析。生成式AI中的概念和工具集建立在科学家目前可用的集合之上。” 所谓“模型的自动化”“思维的自助构建”和“机器产生的主观性”都指示着生成式AI不再是一个变动不居的机器实体,而成为一种自动化模型构建和测试的过程。因此,如果机器人想要表现出持续学习的能力,那么生成式AI当之无愧是创建机器人大脑基础的最佳之选。借用伊利亚·普林高津(Ilya Prigogine)对科学范式革命的观察,生成式AI的技术哲学是关于“成为”(becoming),而不是“存在”(being)。

500

伊利亚·普林高津

在对生成式AI的当前定义和理解中,一种常见的思路是将生成式AI与之前的AI类型进行对比,以此来理解生成式AI的突破性。国外有研究对比了经典AI和生成式AI的区别:经典AI通常是对最终状态的一种优化,并且结果是可预测的。在培训和执行阶段,该系统包括输入、过程、输出三个阶段。“过程”部分是一个手工制作或经由学习的实现模型。而在生成式AI中,通过相空间(一个用以表示某一系统所有可能状态的空间)遵循的路径取决于系统的内部动态及其与环境的相互作用。模型是自动创建和测试的,创造过程是可以控制的,但结果在某种程度上是不可预测的。经过艰难的探索,系统可能会进入一个更好的能量状态,其解决方案与之前会有质的不同(好比手写复制向书籍印刷的过渡)。总而言之,系统在执行过程中进行学习。正因如此,经典AI经常表现为一种稳定的平衡的状态,而生成式AI则更多具有流动性、敞开性和交互性。这再一次印证了生成式AI是“成为”而非“存在”,是“过程”而非“对象”。

既然生成式AI本质上是一种生成的技术,那么理解“如何生成”则成为探讨生成式AI的必要步骤。实际上,生成式AI有两种主要的生成模型的范式,第一种是生成式对抗网络(generative adversarial networks, GAN)GAN是由伊恩·古德费罗(Ian Goodfellow)等人于2014年提出的一种无监督学习方法,也是人工神经网络在分类、预测和解决问题方面最成功的发展之一。GAN由生成器(generator)和判别器(discriminator)两个神经网络构成,两者在它们之间的持续联系中共同发生作用。通俗一点说,当生成器创建新样本时,判别器会判断这是一个真实的样本还是一个伪造的样本。当这两个网络一起训练时,生成器负责生成逼真数据以“欺骗”判别器,而判别器则要提高精准度以识别这种“欺骗”。第二种生成模型范式是变分自动编码器(variational autoencoder,VAE),该模型由编码器(encoder)和解码器(decoder)构成。与GAN一样,VAE同样需要训练出生成模型,二者不同的是,GAN是通过“对抗”的思维来寻找平衡,而VAE则是运用概率的分布来找到函数的最优解。

根据对生成式AI之“生成”的内涵与机理的剖析,生成式AI的“自动化”特性也就得以显影,即在不需要人类参与的“去人化”环境之下,如何通过机器内部的自我对抗和自行运算来达到以假乱真的“后真实”效果。正因如此,生成模型诞生以来就广泛存在于诸多为人所熟知的应用层面,比如AI换脸、高清重建、黑白电影上色等。然而,自动化和自动生成远非人们对人工智能的全部期待。实际上该词语的结构组成已经将谜底写在了谜面之上——“人工”先在于“智能”,因此不管是判别器和生成器、解码器和编码器,在这些机器内部的二元结构中,始终呼唤和渴望着第三元的出现,即“人”的参与和反馈。正因如此,GPT走向了ChatGPT,生成式人工智能进阶为对话式人工智能,聊天机器人也被推向了人工智能浪潮的台前,成为今日生成式AI的代表与发言人。

500

ChatGPT 官网截图

(三)生成式AI的今日浪潮:为什么是聊天机器人

当下对人工智能和生成式AI的讨论热潮肇始于ChatGPT的问世,人们起初惊叹于ChatGPT与人类对答如流的能力,并将其视为科幻电影《她》(Her)中高度拟人的AI的现实对照。而比ChatGPT的“智慧”和“语言能力”更具启发意义的是该应用背后所依托的Transformer架构。该架构在2017年由Google Brain团队提出,它最早被应用于自然语言处理(natural language processing,NLP)中。与传统的NLP所采用的循环神经网络(recurrent neural network,RNN)不同的是,Transformer支持多词并行操作,因而计算效率得到大幅提升,同时解决了RNN一直以来的“长期依赖问题”(在处理长文本时会丧失之前所学的信息,因而难以进行一步优化)。而Transformer的突破点在于它引入了一种“自注意力”(self-attention)机制,借助这一机制,Transformer奠定了大模型领域的主流算法基础,并从2018年开始带动大模型的迅速流行和模型参数的指数级增长,这也是谷歌所宣称的 “注意力即全部”(attention is all you need)的意涵所在

这种“预训练+微调”大模型首先在大数据集上训练得到一个具有强泛化能力的模型,然后在下游任务上进行微调,该模型解决了人工智能1.0时代的模型碎片化、AI泛化能力不足等问题。正是由于Transformer的高效性,该架构迅速从自然语言处理模型扩散开去,延伸到文本、语音、图像分析等众多领域,其中就包括在生成式AI以及今天人们熟知的GPT中作为训练架构的应用。

从2017年谷歌提出Transformer架构,到2018年OpenAI公布了第一个将Transformer架构与无监督预训练技术相结合的模型GPT-1;从2022年ChatGPT正式推出并引入“人类反馈强化学习”(reinforcement learning from human feedback,RLHF),到当前GPT-4的更新并表现出人类的专业水平和学术基准,比如在律师资格模拟考试取得前10%的成绩,等等,通过一窥ChatGPT的诞生与演进之路,我们可以总结出对话交互型的生成式人工智能所具有的特点。一是规模化,从GPT-1到如今的GPT-4,每一次迭代都伴随着神经网络层数的加深和训练样本量的加大,而Transformer的层数越深,就意味着模型的逻辑推理能力越强,同时,数据规模意味着机器获得了极其广博的阅读量,包括书籍、报告、论文等。二是模块化,ChatGPT 支持根据任何指定的提示以任何术语和主题生成文本,模块化架构使其能够执行各种任务,包括问答、机器翻译、语言建模等,同时模块化也有助于ChatGPT增强可扩展性。三是依赖性,ChatGPT是高度依赖语料的人工智能,预训练模型通俗来讲就是对人类知识资料的提前学习,人类的知识和经验都沉淀在模型的参数以及参数与参数的组合之中,得益于此,ChatGPT才能具有强大的推理、分析和写作能力。同时,不可忽略的一点是,来自人工的数据标记也是ChatGPT整体模式中的重要环节,因此可以说:“无人则无机器,无人工则无智能。”

以ChatGPT为代表的聊天机器人(chatbot)之所以成为生成式AI的一大实践领域之一,同时也成为生成式AI实现大众化和产业化的有效进路(包括Google,Meta,OpenAI在内的科技公司都将其视作战略开发重点),其中一个原因是ChatGPT等聊天机器人回应着早在人工智能得以命名之前图灵就曾提出的人工智能母题——“机器会思考吗?” 实际上,在ChatGPT问世之后,这个问题似乎得到了回答,有研究提出了关于ChatGPT的三个主要论点,其中第一条就是:ChatGPT的行为是如此复杂,以至于普通的思维概念在区分人类行为和ChatGPT的行为方面不再有用。我们对人类或ChatGPT在做什么并没有明确的了解。

500

图灵及其提出的人工智能母题

情况的确如此,ChatGPT有一项能力是以往的语言模型难以达到的,即思维链能力(chain-of-thought,CoT)。思维链被认为是人类高级智慧的象征。思维链能力代表着除了简单的表面理解和直接给出回答之外,还具备复杂的逻辑推导和归纳总结的能力。这种思维链能力的获取得益于GPT-3模型训练的数据从GPT-2的书籍、论文扩展到代码,代码的加入不仅使GPT具有了代码写作能力,更重要的是因为代码写作背后需要强大的逻辑关系,因此当使用代码来训练机器时,机器的逻辑能力也得到提升。研究者曾比较OpenAI的text-davinci-003和GPT之前版本的知识工作能力,结果显示从text-davinci-001到text-davinci-003,GPT-3在记忆和理解以及应用技能水平上已经接近人类水平。于是,当ChatGPT以其日益精进的思维链能力跨时代地回答着图灵提出的有关机器和人脑的经典问题,那么更进一步的问题应该是,当机器愈来愈趋近于人脑或者比之更甚,这时它将生成什么?这些生成的新事物又将对人类社会产生怎样的影响与挑战?

生成式AI生成了什么

(一)新内容:从UGC到AIGC

生成式AI的重点毫无疑问是“生成”二字,而生成式技术最先搅动的是互联网的内容生态,于是互联网内容继PGC、UGC和PUGC之后开始拥抱另一种内容生成方式——AIGC(AI generated content)。在中国信息通信研究院2022年发布的《人工智能生产内容(AIGC)白皮书》中有对AIGC三个历史沿革阶段的梳理,在这份梳理中我们不难看出AIGC的外延极其广阔,它不仅包括近两年伴随着深度学习技术而出现的人工智能撰写小说、人工智能绘制图片等,还包括20世纪50年代最早的计算机创作音乐作品、人机对话机器人等。于是对AIGC的定义就出现两种方式:一种是从广义上,机器参与创作就可以称为AIGC,而这种定义方式虽然有助于对AIGC进行媒介考古学意义上的脉络回溯,然而在具体的问题讨论上则有过于宽泛之嫌,因此另一种定义方式更清晰地指明了AIGC作为新技术之“新”——即依托深度学习技术,以大语言模型为基础,通过采取“大数据预训练+小数据微调”的方式实现的人工智能自动化生成内容。

实际上,即使按照狭义的定义方式来考察AIGC,这一新事物也早在生成式AI和ChatGPT在用户层面流行之前就已经被讨论和应用。2018年,一幅名为《爱德蒙·贝拉米肖像》(Portrait of Edmond Belamy)的人工智能生成式绘画在纽约拍卖会上进行拍卖,并最终卖出了43万美元的高价,这是人工智能生成式艺术作品首次登上拍卖的舞台。这一事件的本质是在为AIGC赋予艺术价值,而支撑这幅画完成的底层技术正是前文提到的生成式对抗网络。该图像通过一种GAN算法生成,这一算法又是在在线艺术百科全书 WikiArt 中的 15000 幅肖像画集上进行训练的,这些画的时间跨度为 14 世纪到 19 世纪。艺术从此成为人们想象AIGC的主要方式。包括不久前我们讨论AIGC的新技术场域还停留在元宇宙、开放游戏、虚拟现实等,它们本质上都是具有视觉偏向和图像偏向的媒介,依托这些以视觉为主的新媒介而对AIGC进行定义和理解也难免出现感知结构上的偏颇,比如此类描述:“AIGC是基于视觉语言多模态基础模型产生的,它学习潜在空间中图像和文本的一致表示。基于这些技术,没有专业技能的普通人也可以自己获得艺术图像。有些人工智能生成的照片甚至无法与原来的照片区分开来。”一方面受视觉文化占据主导地位的影响,另一方面受到新技术和新媒介自身携带的感官偏向的影响,人们早期对AIGC的讨论和关注都集中在艺术、视觉、图像层面,而这种思维惯性一直延续到今天。

500

人工智能生成式绘画《爱德蒙·贝拉米肖像》

然而,这种对AIGC的简化理解将被生成式AI的技术功能和多模态大模型更改。对比此前被称为“预测机器”(prediction machines)的分析式AI,我们会发现两者社会功能的差异性:如果说分析式AI的应用主要集中在帮助人们进行预测,提升决策效率,那么生成式AI的使命则是通过使用经过训练的数据创建新的内容。这些经由人工智能模型生成的包括文本、图像、音乐、自然语言在内的数字内容就是AIGC。实际上,数字时代的“内容”,从诞生之日起就作为一个统摄性的概念而被置于实践当中,而内容的统摄性恰恰来自网络媒介的统摄性。到了生成式革命的语境中,网络媒介的统摄性特征具有了新名词——多模态,指多种模态的信息,包括文本、图像、视频、音频等。多模态需要解决的问题就是这些不同类型的数据的融合问题,例如通过NLP的预训练模型,可以得到文本的嵌入表示,再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示。同时,音频的生成也是AIGC的重要一环,在视觉媒介与听觉媒介中间进行文本的转换和结合也是对AIGC多模态能力的一种考验。

AIGC的多元化应用取决于生成式AI的多种底层技术,包括计算机视觉技术、自然语言处理技术、其他单模态技术、多模态技术。多种技术的综合使得AIGC的“生成”具有了三重内涵,即数字孪生、智能编辑和AI创作。这三大能力反映到AIGC产业链的下游就表现为:对数字内容进行智能增强以修复原始内容的缺失和损坏;对数字内容进行智能转译,比如字幕合成、内容类型的相互转化;通过对语义的理解形成摘要;通过属性控制技术实现智能图像编写、智能调音;以及人们乐此不疲地让GPT根据文字描述来形成图像,这实际上是一种概念型创作。与之相对应的还有模仿型创作,前文所提到的肖像画就是模仿型创作的典型例子,即依托人类文明中现有的相关文本进行模仿学习,直至创作可以通过视觉图灵测试的作品。

然而,新的内容生成模式必然携带着新的社会问题,在AIGC所蕴藏的强大的内容生产能力的背后是生成式AI的三大数字读写能力,它们分别是:信息读写能力, 数据读写能力和隐私读写能力。也就是说,AIGC的“写”高度依赖于“读”,AIGC的内容生产全然无法离开它对人类语料的学习,这里的语料包括人类的知识、信息、数据,甚至还有隐私。因此,前人工智能时代的一系列问题诸如信息安全、数据安全、隐私安全等并不会因为机器的自动化程度加深而得以解决,甚至还可能伴随着训练数据权重的上升而有加剧的风险。另外,需要注意的是机器的自动化高度依赖于人类的设定和编程,这是计算机诞生之初科学家们对机器的理解,并且在某种程度上依然适用于GPT时代所谓“智能”的定义。因此,在机器自动化神话的背后始终有交互的关键参数存在,于是新内容的背后存在着另一个维度的问题,那就是AI作为界面所创造的新的界面文化和技术哲学。

(二)新界面:从“连接”到“脱节”

生成式AI虽然在更多时候被理解为一个模型、一套系统,甚至是又一个技术黑箱,但是就其与人类的互动关系而言,生成式AI应该被放置在界面以及界面文化的框架中进行分析和讨论。而所谓界面的框架,最具有启发性的一点在于该理论强调技术与文化的关系和融合。对如今的技术文化和人工智能文化影响深远的是两种界面美学,它们都诞生于20世纪80年代,其中一个是以1982年的《银翼杀手》(Blade Runner)开启的未来主义反乌托邦(futuristic dystopia)美学,这种科技暗黑风被此后一系列描绘人工智能的影视作品所采用;另一个是1984年苹果公司的Macintosh电脑代表的清晰的具有功能性的美学。今天,在生成式AI和聊天机器人身上依然可以看到这两种界面文化的影子:人类对机器的沉迷和人类对机器所赋予的情感是人工智能2.0时代的新型“恋物癖”,人类借助机器来执行具体的任务,而机器以其涌现能力完成总结、归纳和梳理是生成式AI独有的功能。于是,列夫·马诺维奇(Lev Manovich)的论断在生成式革命的进程中依然有效——“所有的文化,不管过去的还是现在的,都要经过计算机特有的人机交互界面的筛选”。

500

电影《银翼杀手》海报

界面文化作为工业化的产物,必然伴随着经济结构的变化而出现内涵外延的更新。从工业革命到信息技术革命,界面文化的重心发生了转移:在以生产为中心的工业文化中,在界面中发生的是“人适应机器”;而在以消费社会为特征的后工业文化中,在界面中发生的是“机器适应人”。然而,在人工智能2.0时代,情况又发生了变化,因为生成式AI的出现,生产和消费的界限再一次模糊。ChatGPT实现了搜索引擎和生产工具的结合。2023年3月21日,微软宣布将AI生成图像工具Bing Image Creator集成至新版Bing搜索引擎和Edge浏览器中,该工具由OpenAI的图像生成器DALL-E模型提供支持。目前,Microsoft Edge成为第一个也是唯一一个集成了AI图像生成工具的浏览器。众所周知,传统的搜索引擎是按“点击”来收费,而当智能机器已经把所有结果都总结好并汇聚成一种答案时,“点击”就不再必要了,这意味着新的搜索引擎商业模式将会出现,因为ChatGPT们带来的新型经济形态是“浏览即生产,生产即消费”。

新的商业模式带来新的人机关系结构。在新界面产消模式下,对“滑动”和“点击”等动作的移除也是对人类“选择”和“筛查”等思维过程的移除。ChatGPT们的“贴心”和“有求必应”的背后是对惰性思维的培养,当ChatGPT们越来越精准和直接地提供人类问题的答案(以往的搜索引擎至少还需要人类进行筛选、学习和总结),人类的自主思考能力正在减弱;或者,毫不夸张地说,机器的思维链能力正在剥夺人类的思维链能力,人类正在被智慧的机器降维至思想上的巨婴状态。而比将“个体巨婴化”更可怕的是这种人机关系也正在助长一种“他者客体化”的思想趋势。智能机器的拟人化和聊天机器人的工具化正在加剧这样一种心理状态,即他者存在的意义是之于“我”的意义。“人工智能的他者化”同时导向“他者的机器化”,而与聊天机器人的“连接”越多,与其他人类主体的“脱节”也越深。当个体用以“我”为中心的提示词喂养出一个专属于“我”的聊天机器时,这个有着深度学习能力的人工智能便构成了“我”的自我镜像,于是对镜自照的那喀索斯寓言便成为人工智能时代的个体结局——在一次次对镜自照中,失去与他者的连接,走向自恋的同时也走向自毁。

事实上,今日的屏幕无论从媒介物质意义上还是从媒介文化心理意义上,都是一面镜子,而到目前为止,ChatGPT们依然依托电脑屏幕、手机屏幕等屏幕界面与人发生交互。媒介理论家弗朗西斯科·卡塞蒂(Francesco Casetti)曾这样理解今日屏幕媒介的变化:之前媒介是探索世界和促进人与人之间对话的工具,是对现实和其他人进行调解的工具,而今天的新屏幕与一个连续的数据流相连接,但它并不必然与一个专注的凝视、一个要求被见证的世界或一个反射的主体相耦合。这是一种联系,也是一种脱节。在我们所在的地方,一组数据永远可用,但这并不一定会让我们找到一个稳定的参考、一个可靠的地址和一个完整的身份。屏幕媒介与生成式AI的结合正在对卡塞蒂的这一论断构成一个最形而下的例证:ChatGPT们回应着来自现实空间的问题,却并不抱以抵达现实的承诺,当人类越来越沉溺于与机器的问答、对话甚至调情,人与人之间的沟通和连接就越来越稀少和微弱。以聊天机器人和生成式AI构成的新的界面哲学不仅正在剥夺人们的主体性和人与人之间的主体间性,也正在改写着人与机器之间的传统关系,这即是新界面令人欢呼的趣味性和便利性的表面背后对“关系”的改造。

(三)新关系:从“借‘人’思‘机’”到“借‘机’思‘人’”

早在人工智能诞生之前,人们对数字计算机的理解就从自身的结构和经验出发,最经典的例子就是关于“机械大脑”“电子大脑”的隐喻。有人评价电子通用计算机的先驱巴贝奇分析机(Analytical Engine):“分析机从来不主张具有任何原创的能力。它能做的只是我们知道如何命令它执行的事情。”图灵也对此论断予以补充,“如果任何机器都可以被描述为大脑,那么任何计算机都可以被描述为大脑”。这种坚持以人类为主体而反身定义和理解机器的范式一直延续到人工智能发展初期。人工智能概念的提出者麦卡锡在2007年如此描述人工智能和人类的关系:“人工智能与使用计算机来理解人类智慧的类似任务有关,但人工智能不必将自己局限于生物学上可观察的方法。”通过这个描述我们可以发现,在人工智能1.0时代,机器依然被看作是对人类智慧的理解而非颠覆,是对人类大脑的依赖而非替代。然而,不同于早期的分析机和计算机时代,人工智能已经开始有溢出人类乃至生物学边界的倾向。

500

巴贝奇分析机

如果说,经典人工智能依然保留着人类科学的人机关系模式,那么生成式人工智能则被视为迈向“后人类科学”的下一步,即一种不依赖或者更准确地说不主要依赖/不完全依赖人类的努力而发展的科学。此前人工智能领域的系统往往被理解为是封闭的,其封闭性在于新属性出现的可能性较低,即使存在这种灵活性和变动性,那也只是机器背后的创造者希望找到的解决方案嫁接给了机器,这才为其赋予变化的可能。换句话说,机器不过是人类的附庸和思维的外显。有研究者断言,如果延续这种方式,那么大概率在人类的时间尺度上不会产生智能机器,因为对于每一个小问题,都必须有人以软件的形式创建新的解决方案。

生成式AI则不然,它是一个具有开放性的系统,其开放性源自一个能力——“涌现”(emergence)。涌现在物理学、生物学和计算机科学等领域已经被讨论了很长时间。所谓涌现就是系统的数量变化导致行为的质量变化,这种涌现能力是一种大语言模型所特有而小语言模型不具备的能力。这种由量变产生质变的能力往往与两个概念相联系,那就是交互和自组织,涌现的可能性依托于系统内部各个模块的交互、系统与环境的交互以及系统的自我组织。实际上,对于生成式AI,有研究者提出一种不同于以往的最新科学范式——新控制论(neo-cybernetic)来对其进行解释和研究,而“涌现性”正是新控制论范式试图引入的概念,为的是解决以往人工智能的问题,旨在用于自主动态进化的过程属性,而不是完全的手工制作和连续的工程系统。

将具有涌现性特征的大语言模型和生成式AI视为下一阶段人工智能的主要想象方式和目标路径,那么此前以人类的器官作为机器的隐喻便不再适用,人类不再是思考和解释机器的唯一框架,相反,人类需要借助机器的新特征和超能力反观人类自身,反问我们作为人类的“人”性和独特性究竟在哪里于是我们就陷入一个古老的争论——自由意志与决定论,人类的意愿、意志和行为究竟有没有自由,我们是否拥有称之为“自我决定论” 的能动性并以此将人类与机器区分开。毕竟当生成式AI以人类的提示词为思考、学习和生成的发起原点时,人或自我作为一种能动的实体,其特殊之处在于能主动发起履行某种行为,自我的这种发动无需先前具备某种更充分的条件。而这种无需“提示词”的特殊因果关系(或非因果关系)是人工智能至今仍无法解决和履行的“程序”。

当人工智能越来越“智能”,当机器越来越“拟人”,AI的存在就成为人类反观自身的一面镜子——“人”与机器的区别在哪里?“我”的主体性又该如何确立?这是人工智能时代每个人都将面对或正在面对的身份焦虑,它既表现为对人工智能替代人工减少工作机会的恐慌,也表现在科幻电影中机器人具有了自我意志后对人类文明占领和摧毁的寓言。于是,那个经典的问题——“忒修斯之船”再度横亘在人类面前,只不过是以更加隐蔽的方式。毕竟,ChatGPT们相比耸人听闻的脑机接口和基因编辑等直接改造人的技术而言更显“无害”和“可爱”。然而人们却容易忽略,对机器进行改造的同时,人类也在完成自我改造,在人机交互过程中,人类永远无法置身事外。

在人机关系中,有一个常见的表现意象极具隐喻性和症候性,那就是西斯廷教堂上方的巨幅天顶名画《创世纪》中最有名的一幕——上帝与亚当手指相触,被人工智能宣传者改为AI与人类手指相触。AI占据上帝的位置成为这个时代的“新神”,人类自以为创造了人工智能,实际上人工智能正在扮演上帝的角色,将思想和身份赋予人类,在后人类的赛博格化中抹除人的自我。于是,主奴辩证法在人机关系中得到调转,但不容乐观的是,这位“新神”并非如其宣称的那般博爱、智慧与可靠。

500

“AI与人类手指相触”的图景

生成式AI警示着什么

(一)技术非中立:ChatGPT的倾向与数据依赖

一项新技术自诞生之日起,关于它的倾向性问题就一直是争论的焦点。实际上,技术与价值的关系是一个老生常谈的命题,而技术中立论作为思考技术和价值的关系的一个最著名的论点,也在人们与技术的一次又一次交锋与互动中被祛魅与推翻。经典的技术中立论有四个论据:技术是一种纯粹的手段,它可以被应用于任何目的;技术与政治之间并无关联,技术与社会和政治因素无关;技术的底层基础是因果关系,因此技术具有真理的理性和普遍性;技术的标准化可以用于不同的情境之下。然而,生成式AI和ChatGPT 的技术机制与表现完全颠覆了技术中立论论证过程中的逻辑链条,虽然人工智能依然是以科学的因果关系搭建起技术的框架,然而ChatGPT在一次次问答过程中所表现出的偏向还是打破了人工智能客观、中立、普遍和真理的美梦。

在技术中立论中,技术被认为是独立于政治选择和政治立场的一种真空状态,然而ChatGPT所具有的政治倾向性驳斥了这一点。有研究从德国现实出发,用630份政治声明作为ChatGPT的提示词,这些政治声明来自两大流行的投票建议APP和无关国家的政治指南测试,研究基于实证研究方法,发现ChatGPT背后存在强大的意识形态。具体而言,研究结论表明ChatGPT具有环境保护主义、左翼自由主义的政治观,例如,它会提出诸如对航空征税、限制租金增长、支持堕胎合法化等建议。另外,ChatGPT的政治倾向性还表现在对于不同政治立场的人生成符合其政治立场的内容,比如有研究发现,同样是让ChatGPT创作爱尔兰打油诗,对于持自由派立场或保守派立场的人输入的指令,ChatGPT所生成的打油诗会具有相对应的或积极或消极的风格。

然而,ChatGPT作为一项技术为什么会“天然地”对人类社会的政治问题产生自己的判断和倾向呢?这就来自ChatGPT在模型层面上对数据的采样偏差,如前文所述,ChatGPT的生成建基于大量数据之上,因此数据的特征和对数据的采样偏向都会影响ChatGPT输出的内容。有计算机科学研究者经过实验发现,ChatGPT在数字方面会高度参考人类社会对数字的偏好,即ChatGPT生成的数字频率与人类最喜欢的数字之间具有高度的相关性。该研究通过使用会产生无理数的数学表达式来对ChatGPT进行质询。在无理数中,所有的数字出现的频率是相同的,因此任何不均等的分布都可以说明ChatGPT的结果存在偏向。由于ChatGPT是基于现实世界的数据进行训练,因此对这种偏向的判定就可以使用本福德定律(Benford's law)。本福德定律在实际应用中经常用于检查各种数据是否有造假情况,然而结果显示ChatGPT给出的数据并不符合该定律,这说明ChatGPT输出的数据结果已被技术本身进行了事先的干预。那干预的标准何来?有意思的是,该研究借用贝洛斯(Alex Bellos)对人类喜爱数字情况的调查结果,发现ChatGPT生成的频率最高的数字就是人类最喜欢的数字“7”,类似地,ChatGPT生成的频率最低的数字与人类最不喜欢的数字“1”相同。

当ChatGPT的技术黑箱被逐渐打开,我们会发现生成式AI和新一代人工智能并没有与此前的互联网平台时代的价值体系产生断裂。实际上,这一新技术依然延续着此前平台与用户的关系,即利用大数据和算法对用户的喜好、偏向和行为进行记录、分析与预测,使每个用户所得到的数字内容都具有差异性和个性化。因此,在“人类为什么会爱上AI”这个常见的科幻电影主题背后,在“我们为什么会沉迷于和机器聊天”的现实问题背后,一个技术价值层面的答案是——“计算”并非中立,它的背面名为“算计”。而“算计”的依据正是被近年来的全球科技公司视作重要财富的用户数据。

500

电影《她》海报

生成式AI在技术上的创新和突破并不意味着对“数据驱动型”产业结构的调整和颠覆,甚至在未来,数据的地位只会更高,高度依赖训练数据进行无监督学习的人工智能会再一次将数据高高托举在技术创新之路上的关键地位。考察近年来大语言模型的自我迭代过程不难发现,每一次大语言模型在规模上的扩大和性能上的增强都离不开对训练数据的体量和参数规模的无限追求:2019年,GPT-2问世时其Transformer的参数值从第一代的10亿增加到15亿,训练样本量也达到了100万网页数据;2020年,GPT-3凭借其1750亿的参数成为当时全球最大的预训练模型;而到了GPT-4,训练参数再次加码至1.8万亿,是上一代GPT-3的十倍之多。然而,再大规模的训练数据也无法保证多样性价值的实现,大语言模型越依赖训练数据,人工智能就越是对既有互联网话语霸权的照搬,依托训练数据而完成的智能生成最终只能沦为偏见的再生产。因此便出现了当前人工智能发展的一种悖谬状态,一方面是高度追求和歌颂智能机器的自动化,另一方面是高度依赖人工在自动化过程中的矫正,比如生成式AI所催生的新职业——人工智能审核员。这样的悖谬状态提醒着人工智能的设计者和使用者:破除“数据迷信”,更重要的破除“智能迷信”,这是在面对人工智能时人类应该具有的审慎态度,毕竟训练数据和大语言模型影响的不止文本的价值倾向问题,它更在对“文本”自身造成底层逻辑的颠覆,甚至是毁灭。

(二)数字八股:故事数据库与叙事“僵死”

作为一种新型的书写媒介,生成式AI必然对文本形态和文本的创作产生影响。或者更进一步说,对“什么是文本”的理解和定义也在悄然发生改变。本质上作为大语言模型的ChatGPT正在将一切“文本”变为“概率”。在语言模型中,处理和生成文本的基本单位是“token”,每个文本都是由token组成,token是已编译成有意义的语义处理单元的字符串实例。通常来讲,token可以是一个单词、一个数字、一个标点符号。在自然语言处理中,文本会经历“分词化”(tokenization)的过程,即通过将文本划分为具有独立语义的token来完成文本的预测和生成。因此可以说,围绕token这一基本概念所形成的分词化和向量化(将文本表示成一系列能够表达语义的数值化向量)过程就是大语言模型时代的数据结构、语言结构和文本结构所蕴含的显著特征。

语言模型可以根据一些训练数据为一段从未见过的文本匹配一个概率。通俗地说,语言模型被用来计算一个句子出现的概率,而越像人类使用语言的句子在条件概率的计算公式中所得到的概率值也越大。当大语言模型正在把文本变成概率,文本的智能生成也随之成为一种模型计算之下的随机性“事件”,而“事件性”是数字化时代和后现代社会才具有的文化特性。利奥塔对后现代文化中“事件特性”的总结是:“后现代应该是一种情形,它不再从完美的形式中获得安慰,不再以相同的品味来集体分享乡愁的缅怀,后现代寻求新的表现方式,并非要从中觅取享受,而是传达我们对‘不可言说的’认识……他写出的文本,他创作的作品原则上并不受先在规则的限制,因而也不能用普通的文本或作品分类去予以归类,更不能根据决定性的判断来评价。”

500

弗朗索瓦·利奥塔

换句话说,现代文化的模式和理论在20世纪60年代之后已然失效,曾经可以用“树状模型” 来归类的世界逐渐崩塌瓦解——“大叙事”不再被渴望也不再被生产,后现代主义文化理论和一系列“后学”诞生并拥有了阐释世界的主导力量。面对“大叙事”的凋零和文艺作品的“事件特性”,曾经由现代性所带来的整体性和统一感正在消失,一种表层的拟像和深层的数据库成为后现代文化的双重构造。

然而,ChatGPT们给叙事艺术所带来的危机不简单在于后现代对现代文化的取代,即所谓数据库模式取代了树状模式,个性化、分众化叙事取代了整体性、统一性叙事。实际上,“树状模式”也在仰赖新的AI技术对后现代的离散性展开“领地重夺”,呼唤“结构”与“解构”出现“共存之地”。生成式AI一方面借助人类语料数据库、故事数据库、形式数据库召唤着“模型”“先在规则”和“文本/作品的类型”;另一方面,生成式AI也基于信息处理的数学基础,较少与世界的时延与运动相对应,更多地与内在于计算机的内存和逻辑过程的离散数字元素的控制及变化相对应。也正因如此,单纯用后现代文化的理论框架来对生成式文化进行解释是难以概全的,因为生成式AI是一种混合型技术文化,是一种可以称之为“后现代之后”的数字文化,而这种数字文化的特征是繁复的文本间性与索引性丧失并存的矛盾状态,即新文本是由诸多旧文本拼贴、改写、重组而成的,但与此同时,这种文本之间的关联并没有在当前人工智能的生成规则中得以显现,生成式AI的文本既相互关联又彼此疏离。

在这种新型技术文化和内容创作方式的影响下,“叙事僵死”成为一种悲剧性的可能。ChatGPT掌握的不是作家、艺术家、创作者的“灵韵”,而是形式、结构与数据,因此生成式AI所生成的叙事难免沦为一种“数字八股”。在生成式AI的技术基础中,人工神经网络经常被视为实现更高级别结构的平台(如文字处理器或数据库)。研究结果表明,ChatGPT可以根据主角或对手的变化来进行故事改编。数字八股就是人工智能将事件和叙述输入具有“故事数据库”的平台,此时,故事完全表示为结构化的数据,然后机器自动生成一种“事件驱动型叙事”。“叙事僵死”带来的恶果是“叙事将死”,灵韵的消失带来的将是人类想象力的再度退化,曾经向“统一的整体”开战的后现代文化将关闭酝酿“可能性”的大门,我们曾经作为“不可言说之物”的见证者也恐沦为丧失真切欲望的动物性后人类。

面对这种境况,或许人类需要重拾创作的本质,挖掘艺术创作中超脱理性之外的层面,而“非理性”恰恰也是人工智能迄今为止难以被训练的能力。在故事数据库的训练之下,生成式AI或许可以学习模仿叙事的结构与套路(就像经典好莱坞叙事也早已形成其固有的模板和规律一样),然而,值得人类庆幸的是,生成式AI无法参透人类社会的情感结构(structure of feeling)和每时每刻都在发生变化的微妙的社会心理。通俗地说,人工智能或许可以生产爱情故事和悲剧情节,但人工智能却永远无法依靠概率与计算来体会人类与人类社会的“爱”与“恨”。智能的非智能之处正是在这一远离工具与理性的维度上得以显现。最终我们发现,不论机器人多么拟态与求真,它离“现实”“真相”“看见”“共情”都相去甚远——它学习现实,但它远离现实;它探求真相,但它缺席真相;它培养看的能力,却不具有看见的可能;它接收人的情感,却无法回应与分享这份情感。因此,当创作者高歌生成式AI的高效创作能力和因此获得了双手的解放时,这是一种对人类自身的矮化,同时也是对智能神话的轻信。

(三)智能传播不智能:深度伪造与无事实时代

生成式AI作为一种语言处理和内容生产的人工智能,除了对文本和叙事带来巨大影响之外,也必然会对信息秩序和新闻传播产生翻天覆地的改变。实际上,这一影响正在现实中上演,生成式AI对新闻业介入和重塑的速度、深度要远远超过包括影视、设计、教育、电商在内的其他行业。腾讯研究院在2023年6月围绕“ChatGPT对新闻业的影响”话题展开了一项调研,结果显示,有80%的国内新闻从业人员已使用过ChatGPT或类似产品,其中超过一半(56%)受访者认为ChatGPT(或类似工具)对自己的工作带来了实际帮助。国内外多家媒体机构在今年展现出了对生成式AI的热情拥抱态度,如创建AI协同机制、雇佣AI编辑、接入AIGC应用等。

人工智能对新闻生产的介入要早于ChatGPT诞生的时间。美联社从2014年开始就将人工智能纳入新闻业务中,当时最先开始的业务是商业新闻台用人工智能自动处理有关企业收益的报道。如今自然语言处理技术已经广泛应用于新闻生产和媒体运营等领域之中,一些新闻机构从新闻采集到新闻制作再到新闻分发的各个环节都在使用人工智能。比如2022年6月,Cosmopolitan出版了第一本由AI生成的艺术封面的杂志。《洛杉矶时报》(Los Angeles Times)使用Quakebot(一种与美国地质调查局直接相关的算法)来生成有关地震活动的虚拟实时报告。

500

世界首个由AI生成的艺术封面的杂志《Cosmopolitan》

然而,就在新闻业热情拥抱生成式AI的同时,高歌猛进的智能传播也暴露出了它的问题。其中,最广为讨论的就是虚假新闻充斥下的“后真相时代”,其严重程度甚至被研究者称为“信息战争”。而虚假信息的背后是深度学习技术双刃剑的另一刃——深度伪造(deepfakes),深度伪造正是我们前文提到的生成式对抗网络的技术产物,它制造虚假信息的方式主要是通过神经网络对大量数据样本进行分析,借助面部影像技术完成AI换脸、合成语音、编辑视频等操作。由于深度伪造的出现,新闻业不得不面对来自信息接收者的巨大的信任危机,这使得互联网发展初期的一句流行语“有图有真相”不再具有任何说服力。可以说,自生成式AI介入信息秩序以来,人类社会就开始从戴维·温伯格所总结的经典事实时期、数据事实时期、网络化事实时期进入第四个历史时期,即“无事实时期”。事实的土崩瓦解, 正是造成后真相时代来临的最大原因。

像ChatGPT这样的语言模型,其信息的输入输出过程有一个特性:输出的内容只是与用户输入的内容具有语义层面的最大关联性。这就意味着,在大语言模型的价值排序中,语义上的关联性是比信息的准确性更为重要的。ChatGPT和其他生成式大语言模型一样具有编造事实的能力,但ChatGPT的技术“优越性”使它具有了让虚假信息看起来如事实一样的能力,这再一次模糊了“幻觉”和“真实”的边界。OpenAI也曾鲜明地指出这一问题,并且声明解决这一问题的难度所在:“ChatGPT 有时会写出看似合理但不正确或荒谬的答案。而解决这个问题是极具挑战性的,在强化学习训练期间,目前没有真实来源,训练模型更加谨慎将导致它拒绝本来可以正确回答的问题,而监督训练则会误导模型,因为理想的答案取决于模型知道什么,而不是人类演示者知道什么。”

诚然,大语言模型或许可以帮助新闻工作者进行一些简单的辅助工作,比如包括路透社、《华盛顿邮报》在内的媒体都在实践新闻自动生成系统,在诸如天气、体育、股票等基础的信息资讯类的新闻生产中使用自动化写稿机器人进行初步的稿件生成,国内媒体新华社也在新闻智能化之路上推出了快笔小新、媒体大脑等生成式人工智能应用和平台。然而,人工智能对新闻工作的辅助并不意味着“人”在新闻行业中的缺席和退场。智能传播并没有人们想象的那样“智能”——对语料的高度依赖,对信息准确性的难以把握,对事实和情绪的难以区分,都使得生成式AI具有扰乱信息秩序、危害信息安全的风险,而因为人工智能的技术黑箱化和算法的不透明性使得这种风险往往难以预估,无法提前防范。更可怕的是,当这些问题发生时,人工智能在伦理上的问责制问题又使得以上危机难以被轻松界定和治理。当信息生产和传播的责任方难以锚定,当信息的定义权和解释权从人类手中转移到机器模型中,当对正在发生的历史的书写的权力与记录的责任从人类手中交付出去,人类社会、文明与记忆都将会坍缩至模型的语言结构中,最后的结果是:人类不再说话,人类将被机器所言说。

结语

图灵曾经这样预测:“我认为很有可能在本世纪末,人们将对机器进行编程,使其回答问题,以至于很难猜测答案是由人给出的还是由机器给出的。我在想象一种类似于口试的考试,但问题和答案都是用打字机打出来的,这样我们就不必考虑像模仿人的声音是否真实这样无关紧要的问题了。这只是我个人的观点,还有很大的空间。还有一些困难。”今天,ChatGPT实现了图灵的畅想,生成式AI也正在生成无法辨别人/机、真/伪、虚/实的语言、文本和信息。当人工智能的类人化程度越来越高,一切对机器的理解最终都会回归到对人类的自反。现代社会的发展始终伴随着人类的思想和技能与客观世界的工具和技术相结合的过程,而随着人类的思维和身份越来越深入地融入技术中,工具和用户的边界便变得脆弱,工具不再具有纯粹的工具性,而更像是人类器官的一部分,正因如此,生成式AI和一系列人工智能新技术都必须被放置在一种“脚手架”的位置上,它不应该被视为充当甚至代替人类思维的机械大脑,而应作为人类身心的第三元,在生物学和技术科学的互惠互补关系中映现人类的思想与机器的理性。

随着由人工智能驱动的机器越来越多地介入我们的社会、文化、经济和政治互动,了解人工智能系统的行为对我们控制其行动、获取其利益和减少其危害的能力至关重要。美国麻省理工学院的研究人员主张建立一门类似于动物行为学的新科学,以一种更广泛的方式研究计算机,他们提出了“机器行为”(machine behavior)的术语,主张用一种多学科方法来研究机器的行为,它将“类似于动物行为学和行为生态学通过将生理学和生物化学(内在属性)与生态学和进化研究(环境塑造的属性)相结合来研究动物行为”。这样的研究取向之所以重要,是因为机器能够塑造人类行为,算法或其使用的数据中的微小错误复合在一起可能产生波及全社会的影响。这样的研究将不会容易,因为“即使借用现有的行为科学方法可以证明对研究机器有用,机器也可能表现出与生物代理人的智能和行为形式有本质区别、甚至是格格不入的智能和行为形式” 。然而想要生成式革命对全人类有益,我们就必须直面其风险,因为人类的能力有极大可能被算法放大,但同时也存在许多难以预估的危险。

最近更新的专栏

全部专栏