重磅干货!如何透过数据快速定位研究问题

摘要:从事定量研究的前提是要有数据。在获得数据之后,如何检验数据的性质和质量,并科学合理的分析数据成为更为重要的问题。本次推荐澳大利亚昆士兰大学的马克·D·查特菲尔德教授带来的绘制“随时间变化的个体数据”方法,在探索纵向和面板数据集时,绘制每个个体(样本)随时间变化的数据图表,洞察数据的性质和质量,生成假设,并为数据分析提供信息,从而有效帮助研究者选择适当的分析方向,避免浪费宝贵的时间。

这是社论前沿第S1482次推送

微信号:shelunqianyan

简 介

一个好的统计学原则是,在进行任何分析之前,必须对数据集有一定的熟悉和探索。绘制原始数据图表是探索数据的一种有用的方法,它可以让您和您的研究团队更好地理解数据。例如,它可以阐明数据的性质和质量(数据模式、离群值等),并且可以帮助选择适当的研究议题和研究方向,避免时间浪费和减少研究中的沮丧。

Cox讨论了数据图表,强调个人之间或个人与群体之间的比较。在探索数据集时,绘制每个个体随时间变化的数据图表的方法被忽视了。就其本质而言,这种方法强调个体内部(而不是个体之间)的差异。研究几个人的图表可以加深对数据的理解,并产生关于可能会对数据提出什么问题以及如何分析数据的想法。

随着时间的推移,在具有多个个体的大量信息的数据集中,绘制原始数据可能是具有挑战性的。符号和线条可能会相互重叠,使图表难以阅读。一种解决方案是为每个人制作一个单独的图表。在本文中,将提供带有注释的代码,说明如何在更一般的设置中生成个体数据图表。

本文使用1968至1988年的美国劳动力市场经历纵向调查数据来做一个简单的示例分析。该数据是一个公共数据,可以在联网情况下在Stata软件通过命令直接调用:

“use http://www.stata-press.com/data/r15/

nlswork.dta”

该数据包含4711名妇女在就业、未入学和完成学业、工资超过每小时1美元但每小时不到700美元的时变数据。数据中的每个女性在接受调查的每一年都有一行数据。年份编码为两位数的年份,范围从68到88。数据集包含随时间变化的工资和其他相关因素。

在做随时间变化的个体数据图表之前,输入命令“set scheme sj”“set autotabgraphs ”设置图形方案。

一个简单示例 

2.1为个体绘制一张随时间变化的单变量数据图表

假设我们希望为每个个体生成随时间变化的工资图。我们可以在y轴上绘制工资,在x轴上绘制年份,检查工资的变化。因为有些工资比其他数据高得多,所以我们把工资截断为每小时20美元。

500

绘制每个个体随时间变化的单变量数据图表命令:

500

(温馨提示:点击查看大图)

报告个体编号为5的数据图表:

500

(温馨提示:点击查看大图)

2.2命令解释

命令的编写逻辑是:首先,告知stata软件,生成特定的个体数据图表;其次,通过命令进行数据概括和添加,以便为每个个体生成一个单独的图。最后,将图形保存到.docx文件中。具体的每项命令涵义:

第一行关闭一个打开的文档,否则什么都不做;

第二行创建用于导出的新文档;

第三行将一个段落添加到文档中,这是必需的,以便随后可以添加图像;

在foreach循环内部,在将.png文件立即添加到文档之前,将图形写入.png文件。对于下一个idcode,将覆盖.png文件,然后将.png文件添加到文档中;

最后,关闭文档并将其另存为“Example 1.Inc.Graphs.docx”,如果.docx文件已经存在,则将其覆盖。

有关将图形导出到.docx或.pdf文件的更多信息,请参见[P]putdocx或[P]putpdf。

达到目的后,.png文件从磁盘中删除。

一个复杂示例 

3.1为每个个体绘制一张随时间变化的多变量数据图表

首先要做的是,确定个体内部有哪些变量会随年份变化,哪些变量则不会。在本例中,可以使用命令xtsum查看,那些不随年份变化的变量的组间标准差为0。也可以使用distinct命令来检查个体内部的变量是否为常量。

本示例我们四个时变的连续变量:工资、任期、小时数和年龄。将年龄变量age中的信息作为文本添加到x轴附近。检查其他三个变量的值,使用线性标度并截断较大的值。

500

(温馨提示:点击查看大图)

接下来,考虑两个时变的分类变量union和msp。我们检查这些值并确定字母“U”代表工会,“M”代表已婚,“-”代表在图表上既不在工会中也不代表已婚。

500

(温馨提示:点击查看大图)


现在考虑非时变变量。先决定在图表上画一条垂直线,对应于death_yr变量,表示该个体信息存在。可以在靠近个人idcode的标题中提供有关年级和种族的信息。因为race变量的值是有标签的,向图中添加此信息变得更容易。

个体随时间变化的多变量图命令:

500

(温馨提示:点击查看大图)

报告个体编号为5的数据图表:

500

(温馨提示:点击查看大图)

结 语

本文提供了一些示例来分享对许多数据集都有用的思考过程和编码,特别是几个变量随时间变化的数据集,以及存在许多可能的时间点的数据集。

这样的图表可能需要一些时间。然而,这是值得花费的时间。人们经常可以看到许多单独的故事,并且可以选择一些典型的或不寻常的图表在会议上进行强有力的演示。希望本文能鼓励并使您能够花一点时间以图形化的方式探索这样的数据集,思考您所做的将会揭示什么,会产生什么样的想法?

全部专栏