如何进行数据分析
时间:2023年03月23日18:00-21:00
地点:教二2107
首先,必须对数据的抽样过程做清晰完整的描述,包括使用的抽样方式,抽样总体等。其次,在使用二手数据的过程中,我们会根据研究问题需要选择一个大样本的数据中一部分,比如使用chip数据研究教育回报率的问题,就需要删除在校生数据和儿童的数据,那么通过哪些变量进行选择,选择的结果都是需要交待。再者就是对变量缺省值的处理。还有就是变量的重新编码和根据已有变量生成新的变量,这些都需要交待清楚。更为复杂的是涉及到不同来源数据的合并,以及数据结构的变形等。在数据清理工作完成以后,做单个变量的描述性统计的工作,离散性变量,计算频数、占比,连续性变量,计算均值与方差。
在完成以上工作以后,根据研究问题的类型不同开展不同的工作,如果是描述性的研究,接下来可以做一些简单的分组比较的工作,这时可以使用一些相关性检验(t,chi, anova, correlation等)的技术。如果使用多元回归的技术,则需要根据解释变量的数据类型选择不同的回归模型,而先进行核心解释变量与被解释变量之间的回归,而后逐步加入控制变量进行回归。对于使用自然实验方法进行因果推断的研究,刚回归模型之后,还需要检验方法背后的假设,比如双重养分的同步假设,工具变量的排斥性假设等等。
本周主题
- 数据的清理,涉及数据的合并与变形;样本的选择、缺省值的处理;变量的命名、重新编码、新生成等;
- 单个变量的描述性统计,比如频数、占比,均值与方差等;
- 两个变量相关性的分析,涉及t, chi, anova, correlation等;
- 初步回归工作,核心变量之间的回归,添加不同控制变量回归,采用非线性回归;
阅读材料
Cinelli, C., Forney, A., & Pearl, J. (2022). A Crash Course in Good and Bad Controls. SSRN Electronic Journal, (March), 1–30. https://doi.org/10.2139/ssrn.3689437
Elwert, F., & Winship, C. (2014). Endogenous selection bias: The problem of conditioning on a collider variable. Annual Review of Sociology, 40, 31–53.https://doi.org/10.1146/annurev-soc-071913-043455
课程课件
第五节课件