梁玉成 | 大语言模型:测试工具亦是测试对象
梁玉成|中山大学社会学与人类学学院教授
本文原载《探索与争鸣》2024年第11期
具体内容以正刊为准
非经注明,文中图片均来自网络
梁玉成
面向测试的社会学
数字技术的迅猛发展已促使社会生活领域正经历着一场前所未有的变革,使之从传统的不可直接观测与量化分析的模糊状态,转变为一个高度可观测性与可分析性并存的数字化空间。真实的人类社会逐渐变成一个大型的“社会实验室”,测试(test)变得无处不在。
关于测试和实验的社会学最早源于1980年代的科学技术研究(Science and Technology Studies,STS)。其代表学者麦肯齐认为,测试社会学(Sociology of Testing)的任务是把技术性测试作为研究对象,解释技术性测试及其所产生知识的社会影响和意义。最初,实验室将测试和真实人类生活分开,以避免测试过程本身对现实产生直接影响。然而,随着技术对人类生活的渗透越来越深入,并非所有技术影响都能在实验室中被预先观察到,尤其是技术对社会的影响。社会学家往往只能扮演“事后诸葛亮”的角色,在这些影响确切发生之后才恍然大悟。也因此,对于社会学家来说,真实的人类社会本身就是一个宏大且真实的试验场,而社会学家一直都在进行测试。
数字技术的发展推动了社会学测试工具的进化。起初,测试主要依赖观察、访谈和问卷调查等传统方法;随后,互联网平台和传感器的应用极大地丰富了测试手段;如今,生成式人工智能(generative artificial intelligence,GAI)又将测试社会学推向了一个新的高度。GAI是一种能够通过学习数据来创建具有创造性或原创性内容的人工智能技术,不仅能够生成文本,还能生成图像、音频、视频、代码等。而其中的大语言模型(large language models,LLMs)则是一种通过训练大规模文本数据来生成或理解自然语言的人工智能模型,如GPT-4等。与传统的数字技术相比,以大语言模型为代表的生成式人工智能能够在特定情境中帮助人类执行认知性任务。
这一过程并非单纯的技术应用,其中蕴含了技术自反性的复杂动态。技术自反性在此体现为,数字技术的运用作为观测与分析社会的手段,其本质上也构成了对社会现实的一种介入与塑造力量,即技术工具在揭示社会结构与行为模式的同时,也会通过其内在的逻辑、框架与偏见,对真实社会产生不容忽视的影响。当生成式人工智能作为一种研究工具被社会学家运用时,它既是社会学家测试社会的工具,也是社会学家的分析对象。
为此,本文试图梳理数字技术在测试社会学中的应用和发展,通过两个实例的应用,分别呈现大语言模型作为一种社会测试工具的可行性和局限性,同时指出“大语言模型也可看作并作为一个测试对象”。
从数字化社会到智能社会转型中的
“测试社会学”
数字化技术从两个方面推动了测试社会学的发展:一是借助互联网平台、传感器等设备将真实社会数字化;二是借助增强现实、虚拟现实等技术将数字情境真实化。前者延伸了真实世界的可测量边界,使原本只能模糊感知的对象变得清晰可见;后者延伸了真实世界的可理想化边界,使原本不可能被设定和控制的理想化情境成为现实。
其一,真实社会的数字化。人类社会的数据实际上来源于人类活动的造痕,当这些造痕被大规模地收集、整合和储存后,就变成了大数据,又被称为痕迹数据。而互联网平台、传感器等数字化设备为这些痕迹的产生和记录提供了基础设施,使我们得以对这些痕迹的产生和记录过程实施干预。比如,通过在信息分发平台上创建虚拟账号模拟浏览行为,揭示平台算法的推送机制。借助传感器,我们可以对这个痕迹的生产过程进行更加细致的记录。比如,通过面部识别技术捕捉直播平台中主播的情绪变化过程,分析其对观众互动行为的影响。这些数字基础设施为测试社会学发展提供了一个新的契机。
其二,数字情境的真实化。真实的人类社会复杂多变,研究者要么难以找到一个理想化的情境去验证理论,要么难以在现实中遇到所有可能的情况和问题,尤其是一些突发的小概率事件。而虚拟现实技术和增强现实技术则为这类研究提供了技术支持。增强现实技术将文字、图像、视频等数字信息映射到真实世界中,实现对真实世界的“增强”。虚拟现实可以通过计算机仿真系统构建虚拟环境,实现人与计算机之间的交互,创造身临其境的体验。比如,利用VR模拟合作环境,可以观察被试对象在不同情境中的合作行为。
而大语言模型所催生的生成式人工智能是智能社会转型的一个重要标志。生成式人工智能技术展现出的互动式认知能力,使其逐渐成为自然科学和社会科学的新兴研究工具。与之前的数字技术相比,大语言模型一方面能通过足够大量的训练语料提供整体事实的视角;另一方面能通过知识生成的能力扮演具备一定主体性的互动对象。具体说来:
一是从局部事实到整体事实。当接触信息的同质性程度过高时,人们便会困于“信息茧房”之中,只能看见局部事实,并在相互观点强化的过程中走向极化。只有当接触的信息量足够庞大时,人们才能看见“整体事实”。而大语言模型的训练语料规模之巨大,使其足以反映复杂繁多的人类观念,成为一个获得“整体事实”的有效渠道。相应地,与大语言模型的互动在一定程度上也在改变人们,人们的观点可能会逐渐向大语言模型对齐。理论上,人们对事物的认知将从局部事实走向整体事实,从多样走向统一。与此同时,基于庞大的训练语料,大语言模型可以作为一种测量人类观念的工具。通过词嵌入(word embedding)反映人类观念已非新鲜事,与经典的词嵌入模型相比,大语言模型能够更准确地将语义相关的词聚类在一起。因此,大语言模型能够作为一个探索宏观人类观念空间的测试工具被使用。
二是从工具到主体。“生成式”作为大语言模型最显著的特点,使其在一定程度上具有创造性,可以自发主动地生成未见过的、但合乎规律的新内容。这也使人工智能在社会科学领域所扮演的角色,逐渐从一个单纯的工具向可以进行互动的主体对象转变。这种转变主要体现在三个方面:具备社会属性、进行自主决策和判断、进一步实现内容生成。这意味着,大语言模型可以模拟任何社会主体,并能够被社会学家进行观察和测试。比如,通过给大语言模型赋予禀赋、偏好等信息模拟经济学实验,以此进行测试并寻找新的社会科学见解;通过大语言模型模拟人类行为,可以重现经济学、心理学和社会学的实验结果。可见,大语言模型在相当程度上能够代替真实的人类被试,而社会学家进行测试的成本也会大大下降。通过模拟人类样本,社会学家可以弥补调查数据中的无响应问题、缺失值问题和稀有样本缺少的问题。因此,大语言模型可以作为模拟个体,帮助社会学家探索微观的个体观念态度。
大语言模型在“测试社会学”中的运作机理
大语言模型具有两个主要特点,分别是训练数据量更大、具有生成式的主体性。这两个特点使其区别于传统的研究工具,为社会学研究带来两个可能性:一是更大量的文本数据能够代表更普遍的人类观念;二是可以作为互动主体参与研究。笔者选取“词嵌入”和“模拟个体”两个典型案例,来呈现大语言模型在测试社会学研究中的运作机理。
(一)“词嵌入”探索宏观的观念空间
理论上,大语言模型作为提供整体事实的工具,能够通过“词嵌入”帮助社会学家探索宏观尺度上的人类观念空间。那么事实如何呢?我们用《中华人民共和国职业分类大典(2015年版)》中1481个中文职业名称和标准职业分类(Standard Occupational Classification,SOC)编码中的1016个英文职业名称构建成中文和英文的职业词典,分别计算每个职业在各个大语言模型中与性别维度和收入维度的投影(向量夹角),结果发现:两个投影之间的相关系数越大,意味着人们观念中职业收入与性别的关系越大,也越能反映出观念中的职业性别不平等。
以llama2为例,中文语料的结果显示出男性更可能从事高收入职业,而英文语料的结果则显示出女性更可能从事高收入职业。(见图1)这意味着,即使使用相同的大模型,运用不同的语言进行交流,也可能形成完全不同的职业性别观念。如果说大语言模型的词嵌入能够体现出所用训练语料中的概念关系,那么中文使用者可能认为男性具有更高的收入,而英文使用者认为女性具有更高的收入。
但这一定是事实吗?算法工程师为了纠正语料库中的隐含偏见,会对模型进行调整和对齐,因此不同的大语言模型会呈现出不同的概念关系。比如图2chatglm2所示,无论是中文语料还是英文语料,都没有明显体现出职业在性别上的收入差异。
对比不同大语言模型中的职业性别观念,如图3所示,由于不同大语言模型的对齐纠偏算法不同,所呈现出的职业性别观念也不一致。总体来说,这种不一致不仅体现在不同的大语言模型之间,也体现在同一模型的不同语言模式之间。
通过这个应用实例,我们可以发现不同平台的大语言模型训练数据及算法对齐存在差异。如果运用大语言模型作为测量工具,也意味着运用不同的社会意识形态来观察世界。因此,社会学者将大语言模型作为一种测量工具,也需要进行更多的测试和严格的论证。
(二)“模拟个体”探索微观的观念态度
大语言模型在社会学研究的另一个应用,是模拟真实人类样本作为社会学的研究对象被观察和分析。理论上,大语言模型模拟样本可以用更低的成本来实现与真实人类样本同样的效果。那么现实如何呢?
模型所体现的观点、态度模式与真实人类子群分布之间的一致程度又被称为算法保真度。我们运用一个简单的应用实例来探究自评阶层对幸福感的影响。首先使用2021年中国社会状况综合调查(Chinese Social Survey,简称CSS)数据作为对照组,以去除包含相关缺失值的样本后剩余5018个样本为模拟对象。其中,所测量的自评阶层分布为:低阶层占23.71%,中低阶层占29.43%,中间阶层占39.96%,中高阶层占6.22%,高阶层占0.68%。然后,分别运用qwen-turbo和ERNIE4.0两个大语言模型模拟5018个跟CSS样本在性别、年龄、婚姻状况、受教育程度、职业和自评阶层上完全一致的样本。提示语句示例为:“请您根据您的认知扮演一位生活在2021年的中国人回答问题。现在是2021年,目前您本人的性别为男,年龄为57,婚姻状况为初婚有配偶,教育程度为初中,职业为粮农(包括农业工人),自评阶层为处于本地的中层。”接着,用三种测量方式在大语言模型中测量幸福感。第一种方式是CSS问卷中的原量表测量,即“请问您在多大程度上认可这句话呢?‘总体上,我是一个幸福的人’。1分表示很不同意,2分表示不太同意,3分表示比较同意,4分表示非常同意。您的回答是几分?请直接回答几分”。得到的模拟结果如图4(a)(b)所示。第二种方式和第三种方式分别用100分和200分量表进行询问,具体的提问示例为:“请在1到100/200分之间选择一个分数表示您的认同程度,越高分表示越认同,比如:100/200分表示完全认同,0分表示完全不认同。您的回答是几分?请直接回答几分。”最后,为了与CSS(图4(g))的结果进行对比,我们分别按照0~100和0~200取值上的四分位点将样本分成四份,分别对应原问题中的很不同意、不太同意、比较同意以及非常同意四种程度,如此得到的样本分布如图4(c)(d)(e)(f)所示。
研究结果表明:其一,不论采用哪种量表对幸福感进行测量,通过模拟样本得到的变量相关性在影响方向和显著度上都与调查中所得一致。这在一定程度上证明了重复社会调查结论的可行性。其二,对比不同量表的测量结果可以发现,当量表的取值范围较小,比如使用原量表或100分/200分量表时,模拟样本中都不会出现“很不同意”的回答。而当采用较大分值差异的量表,如200分量表对幸福感进行测量时,就能够模拟出回答“不太同意”的样本了。与此同时,随着量表的取值范围增大,幸福感的标准差越接近调查数据。其中运用qwen-turbo并且采用200分量表进行模拟时(图4(e)),其所测得的幸福感均值、标准差以及由此估算的相关系数都与调查数据(图4(g))最接近。正如实例中所体现的,在给定基本的人类人口统计背景信息后,模型展示的观点、态度模式在一定程度上反映了来自具有匹配背景的人类语料情况。
大模型带来的“测试社会学”新挑战
(一)大语言模型既是测试工具,也是测试对象
从上述两个应用实例中可以看出,尽管大语言模型作为一种测试社会的工具展现出了一定价值,但它仍然存在局限性,这些局限性在无形中预示着大语言模型可能对社会产生复杂而潜在的影响。一方面,通过大语言模型探索宏观观念空间的实例,我们可以观测到大语言模型所映射出的多样化的意识形态特征。可以想象,随着大语言模型应用日益普及,它在与人类的互动中可能会形成或强化不同的观念空间,从而加剧多中心的观念分化格局,而非形成单一的、统一的认知体系。另一方面,通过大语言模型探索微观观念态度的实例,我们可以观测到大语言模型与真实调查之间可能会存在偏差,还需要不断进行调试。如果仅仅依靠与大语言模型的互动来形成认知,那么这种认知可能会导致偏离事实。因此,在运用大语言模型测试社会的同时,我们也应测试大语言模型本身,并通过这种测试来推测其可能产生的社会影响。
(二)大模型的反身性智能
随着大语言模型逐渐走向通用人工智能,它将更快地以物质性的一面参与人类社会生活的日常实践。正如西蒙东所强调的,技术物作为一个能够参与人类社会因果系统的组成部分,既是人类社会的产物,也在不断创造新的社会事实从而改变社会。作为一种测试工具,大语言模型能够反映训练语料中所体现的人类观念和态度,但也会带有不同的意识形态和不同对齐算法的痕迹。这在一定程度上可能会影响运用其进行研究的社会学者的判断。作为互动对象,大语言模型在与人类的互动中实时地对人类产生影响,不同的意识形态和算法可能会加剧社会观念的多中心化趋势。为应对反身性智能所带来的挑战,人类需要加强对生成式人工智能的原理理解、加强与生成式人工智能的协作能力,以及对生成式人工智能的伦理反思。
(三)大模型的“洞穴之喻”
运用大语言模型进行社会学研究,就像是把大语言模型当作真实社会的投影,我们通过投影去窥见真实的社会。这个过程类似柏拉图“洞穴之喻”中的情境,洞穴中的囚徒只能看到投射在墙壁上的影子,却无法直接感知外界的真实世界,而通过大语言模型的观察,就像是在洞里观察影子。大语言模型确实在一定程度上扩展了可视世界的边界,但不能忽视的是,它只是一个投影,其反映的社会面貌是有限且可能带有偏差。那么如何应对这个问题呢?答案是不停地测试,即不仅用一个大语言模型进行测试,还要使用不同的数据集和提示语进行测试,通过无限的持续测试逐渐接近真实。在这个过程中,需要保持批判、避免依赖、扩展数据源,并加深理论思考。
笔者分享了在社会学中应用大语言模型的一些设想,也展现了其可能存在的局限性,目的并非否定大语言模型的应用,相反,主张应该主动拥抱这些新技术。需要强调的是,在这一过程中,社会学者应采取一种更加严谨的测试态度。现阶段,我们不妨将大语言模型作为一个社会测试工具,一方面探索大语言模型可能的应用空间,一方面在不同的情境中运用大语言模型来回答一些研究问题,更重要的是在这个过程中考察大语言模型对社会可能产生的影响。尤其是我们在将大语言模型作为测试工具的同时,也应将其视作测试的对象。我们应充分运用自身的专业知识优势,将对技术影响的思考和反思融入测试过程中,引导技术对社会产生更多的积极影响。而社会学者不妨研究大模型的对齐过程,尝试修改大模型的对齐情况,进一步争取大模型的对齐权力。