数字足迹:在线社会研究的机遇与挑战(下)

500

编者按

本次推送的是Scott
A. Golder 和Michael W. Macy发表的Digital Footprints: Opportunities and
Challenges  for Online Social
Research一文的下篇,上篇主要对在线社会研究的背景、方法的发展和研究的应用方面进行了整理,下篇就相关研究的一些主题和网络研究所面临的挑战进行了论述。

交换、合作和信任

越来越多的研究使用线上数据来解决社会交换中关于信任与合作的长期问题,在这些问题中,交换的价值商品是时间、关注度、信息和地位。State 等人(2012)的研究符合交换理论的一项基本原则,即交换关系趋向于相互平衡。他们发现,“沙发客”以公开好评的方式来回报主人的好客。(注:“沙发客”源于一种新型的网络互助游,这些“廉价”游客通过在线社区寻找免费睡别人家沙发的机会,以减少旅行开支。)

关注度也是社会交换中一种宝贵的资源。Podolny(2001)指出,关注度是他人评判的视角;被有影响力的个人关注,反过来可以提高被关注人的经济利益,并向其他人发出一个谁值得被关注的信号。线上实验证实,个人愿意用金钱作为回报来换取同龄人的赞赏和关注,即使是人为的(Huberman et al. 2004)。换言之,Huberman的研究项目以在线互动创造的“关注度经济”为中心,解决了因网上信息量巨大而造成的难题,使关注度变得有价值。然而,关注度是如何被导向或被吸引的,人们知之甚少。

和关注度一样,信任也是在线互动中特别重要的一种资源,在这种互动中,身份可能是临时性的,使得信誉信息的可靠性和惩罚骗子的能力受到限制。作为回应,用户已经制定出标准来规范行为,例如要求社区的新成员首先为互动做出保证。

交换理论分析也可以应用于个人关系以及商业和组织关系。Backstrom和Kleinberg(2014)随机选择了130万Facebook成年用户,测试网络嵌入性对恋爱关系的形成和持久性的影响。令人惊讶的是,他们发现分散性有利于关系成功,而非嵌入性,这与嵌入关系的力量理论相矛盾——但与Burt(1992)的结构洞理论中未被探索过的浪漫含义相一致——人们被那些能填补结构洞的伴侣所吸引。

集体行动和社会运动

许多在线社区依靠大量不相关个体的自愿贡献来运行,这为研究人员提供了一个解决集体行动研究中长期存在的难题的绝佳机会:松散的贡献者是如何形成秩序和共识的?是什么促使他们为这一公益产品作出贡献?著名的例子是开源任务组,如维基百科和Linux,以及魔兽世界和Everquest等大型多人在线游戏。维基百科是一本公开编辑的合作式百科全书,每天由成千上万的志愿者撰写和编辑。就像线下世界中的许多志愿协会一样,维基百科、Usenet和许多其它在线社区几乎完全由它们的参与者共同建立,逐渐形成了共同确定和同意的规范性义务和限制,但与其它社区最大的不同之处是,详细的演变记录被保存起来以供科学社区研究。

随着维基百科的发展,其编辑者社区发布了许多政策来指导撰稿人和解决纠纷,例如要求文章必须从中立的角度写,并且只有在引用公共资源的情况下才能包含声明。虽然这些制度安排有助于规范和协调用户行为,但它们也使用户作出贡献的动机更加令人困惑,因为他们很少有机会利用社区来推广一个狭隘的观点。Anthony等人(2009)研究了维基百科的贡献质量,并提出是“匿名的好人”贡献了高质量的内容,而Welser等人(2011)指出,维客们自发进入角色,聚焦于“清除破坏行为”和提供专业知识等。

挑战

隐私悖论

这些新数据使研究人员面临重重障碍,从数据的有效性和如何取样,到数据使用有关的伦理问题。在线数据在隐私保护方面表现出一个悖论:在隐私保护方面,数据暴露得太多,但在提供社会科学家所需的人口背景信息方面,这样的数据又不足以揭示问题。在线数据通常缺少调查研究标准中所需的详细人口统计信息。如,虽然Twitter数据是公开的,但许多用户提供的是稀少、虚构、不完整或模糊的概要信息,使得研究人员难以将tweets内容或网络节点属性与年龄、性别、族裔或地点等基本人口统计指标联系起来。在某些情况下,很难说互动对象是不是人;垃圾邮件账户(为发送营销或其它不受欢迎的信息而创建的假Twitter账户)的出现率越来越高,尽管在垃圾邮件检测方法方面取得了进展(Yardi
et al.
2010),但垃圾邮件发送者设法绕过这些方法,继续进行“军备竞赛”。随着垃圾邮件发送者变得越来越有经验,社会科学家很难在没有专门技术培训的情况下清理他们收集的数据。

尽管如此,这些限制因素的解决方面正在取得迅速进展。如Compton
等人(2014)演示了如何使用标签传播算法在几公里内定位大多数Twitter用户,Jernigan 和 Mistree(2009)
展示了Facebook上的内容如何被用来推断更多的用户属性,包括年龄、性别、性取向和政治面貌。

这些进步说明了困境的另一面——在线数据可能不够私密。这些新的数据来源提出了有关如何保护个人隐私的具有挑战性的程序、法律和伦理问题,这些问题超出了本综述的范围,但大量研究表明,匿名化或数据加密并不能有效保护隐私,因为有时可以利用个人以自我为中心的网络或物理移动模式的独特属性进行反向设计。对私有数据的访问也是一项重大挑战。大多数在线数据都是私有企业实体拥有的,出于对保护用户隐私的担忧,这些实体可能会限制对大部分用户的访问。

测量问题

虽然从文本中识别情感和观点的进展很快,但只能通过人们的行为表达间接测量其内心状态。例如,心理词汇可以用来衡量全球范围内情感节奏的表达,但这些方法不能解释表达和体验之间的时间滞后。此外,异步通信允许用户反省和修改他们所写的内容,因此看似潜在精神状态的自发表达可能会被自我审查和深思熟虑所取代。

如上所述,网络传染的所有观察性研究中的一个重要局限性是,无论线上还是线下,都很难对同质性和传染性作出区分。同质性是指通过各种选择机制,社会关系更有可能存在于具有相似属性的个体和暴露的环境之间。研究人员需要避免假设观测到的网络自相关再效应对传染效应有影响,并且认识到相邻节点之间的相似性可能导致影响和选择的相互增强效应。一种解决办法是进行控制实验,对可能传染的情况进行处理。

线上和线下网络研究中的另一个基本问题是决定社会关系构成的是什么。在基于自我网络的调查研究中,争论的焦点是如何让被调查者挑选一位朋友。在基于电话记录、电子邮件流量或Twitter消息的在线通信网络研究中,一个关键问题是如何确定交换的类型和数量(如电子邮件),以表明是否存在持久的社会关系。

一个相关议题是,研究中对联系建立的标准是否与行为者对社会关系概念的理解相一致。这些问题也出现在线下网络的研究中,特别是关联网络,为此学者做出了一些尝试来确定边缘网络是否对应于实际互动,如相似性、结构和亲切感的规律性,以及工具性和情感性关系的指示。

网络世界是一个平行宇宙吗?

研究人员还面临着将线上行为推广到线下的挑战。线上互动与线下互动在重点和表现方面不同,包括没有地理和时间限制的面对面交流。如,推迟回复电子邮件、短信或回应状态更新的能力,为人们提供了一个自我反省的机会,使人们对自我展示的内容可以进行更为慎重和更具策略性的思考。一些在线平台允许用户匿名,让后者可以自由创建一个全新角色,这让人们对人口特征统计数据的可信度产生了怀疑。从某种程度上而言,匿名性的出现允许或鼓励了在线对话中许多恶毒言论的产生,但在线下世界这一般是不可能发生的。

数字鸿沟引起了人们对从线上到线下人群的普遍关注。与普通民众相比,线上群体往往比普通民众更年轻、受教育程度更高、更富裕,这也引发了关于再生产甚至扩大社会分层潜力的重要问题。即使在技术可得的情况下,利用这种技术的技能仍然分布不均。

方法、技能和培训

对于社会科学家而言,线上研究的一个主要障碍是需要先进的技术训练来收集、存储、操作、分析和验证大量的半结构化数据,如由数亿社交媒体用户生成的文本。此外,还需要先进的编程技能,以便与专业或定制硬件进行互动,在由数百个跨越全球的节点组成的计算网格上执行任务。因此,对网络行为和互动进行第一批研究的,一直以物理、计算机和信息科学家为主,他们可能缺乏必要的理论基础,无法知道该在哪里寻找、该问什么问题或结果可能意味着什么。短期内,多学科合作可能会非常有成效,但长期的解决方案是,通过提供在线研究所需的技能培训,使社会科学学位课程适应大数据时代。

作者列举了一些网络研究所需要的技能,如编程界面的使用,非结构化数据和嵌套数据结构的操作化,通过创建网页和数据库来收集和存储调查或在线实验,大数据库的操作与存储,机器学习、情感分析和主题建模。

这些方法在社会科学中没有获得广泛应用的原因之一是,目前许多应用都是非理论性的,它们更重视预测未来观测的能力,而不是从理论上检验假设。然而,我们不应因噎废食。在线数据为描述性和分析性研究开辟了变革的可能性,但如果没有计算机科学家开发的自动化数据管理和编码工具,对大量非结构化数据的分析仍将是大多数社会科学家所无法企及的。虽然目前很少有社会科学系能够将这些技能纳入方法课程,但有兴趣的学生可以直接到计算机和信息科学系接受专门培训。

总结

在信息理论领域的早期, Claude Shannon(1956)在“The Bandwagon”一文中警告说,人们对这个新领域的广泛兴趣将产生大量低质量的工作,但不应导致研究界得出这是其固有局限性的结论。相反,应该把它看作是一种告诫,把重点放在进行更严格的研究上。Shannon的建议也适用于即将到来的网络社会科学时代。在微观层面和全球范围内实时观察人类行为和社会互动的前所未有的机遇,正引起科学家们的广泛关注,他们掌握了挖掘这些数据的必要技能,但并不总是具备指导探究所需的理论背景。这些开创性的研究不应被理解为可以从在线研究中获得什么的证据,而应被视为一门新的社会生活科学所面临的巨大机遇的证据。

500

文献来源:

Scott A. Golder and Michael W. Macy(2014):Digital Footprints: Opportunities and Challenges for Online Social Research.Annual Review of Sociology,40:129-152.

全部专栏