如何进行研究设计
时间:2023年03月16日18:00-21:00
地点:教二2107
本周主题
量化研究设计是建立确定的研究问题与理论假设的基础上,通过数据与统计方法,证实理论假设的技术路径与方法。这包括数据的收集与统计模型选择两个方面。就数据收集而言,这分为两种情况,一是自己收集的数据,一是使用业已存在的数据,第三方提供的调查数据或者政府行政管理部门掌握的数据。无论哪一种情况,首先确定是的研究的统计单位,是研究学生、还是教师,是以学校,还是行政单位(省、市、县)为研究对象,进而确定自己自己研究的总体,比如说是覆盖全国,还是省,或者具有情况相似的区域,比较东部地区。比如研究的范围是针对农村学校、还是城镇学校。确定统计单位和研究总体之后,即是抽样的问题。希望自己收集数据研究,就需要根据样本的代表性和实施的可能性确定抽样方法。对于使用二手数据的研究,就需要了解二手数据总体、样本与抽样过程,进而判断该数据是否可以用于验证自己的假设。
确定样本抽样过程之后,就要确定关注研究对象的哪些特征信息,即变量信息,对于描述性研究,即是关注的核心特征及其分组变量,对于使用回归方程的研究,就需要确定因变量、核心自变量及控制变量,自己收集数据的研究,就需要确定这些特征的测量方法,对于使用二手数据的研究,则需要现有数据中的变量是否与自己的研究问题相契合。
完成以上问题之后,对于描述性分析,侧是确定分组展示的变量。对于涉及统计模型的研究,则需要统计模型的种类,比如根据因变量的数值类型确定是选择ols还是logistic,确定了模型之后,还需要确定方程的形式,是线性的,还是非线性的,是否加入交互项。最后,对于借助于自然实验的设计,比如工具变量,其统计模型则有其特殊的要求,因果推断的技术各有种研究设计与要求,采用某种研究设计的,需要全面描述设计思路。本周内容如下:
- 统计单位的确定;
- 研究总体、样本大小及抽样过程;
- 关注的研究对象的特征及其测量方法;
- 统计模型的选择,包括模型种类、控制变量、方程形式等;
- 因果推断研究,需要论证其得出因果关系的研究设计;
阅读材料
- Chapter 5-9, Chapter 13 Regression, Huntington-Klein, N. (n.d.). The Effect: An Introduction to Research Design and Causality. Retrieved January 31, 2023, from https://theeffectbook.net/index.html
- Cinelli, C., Forney, A., & Pearl, J. (2022). A Crash Course in Good and Bad Controls. Sociological Methods & Research, 00491241221099552. https://doi.org/10.1177/00491241221099552,DAG技术的发明者对如何使用DAG 选择控制变量进行了系统、全面的分析。全文没有数学公式,展示了DAG易于理解的特征,且提供大量进一步拓展阅读的参考文献。
- Elwert, F., & Winship, C. (2014). Endogenous selection bias: The problem of conditioning on a collider variable. Annual Review of Sociology, 40, 31–53.https://doi.org/10.1146/annurev-soc-071913-043455,使用DAG定义了overcontrol bias, confounding bias, endogenous selection bias,特别是深入分析endogenous bias的各种表现形式,对如何选择控制变量具有指导价值。全文没有数学公式,展示了DAG易于理解的特征,且提供大量进一步拓展阅读的参考文献。
- Grätz, M. (2022). When less conditioning provides better estimates: Overcontrol and endogenous selection biases in research on inter-generational mobility. Quality & Quantity, 56(5), 3769–3793. https://doi.org/10.1007/s11135-021-01310-8,针对跨代研究中的变量过度控制所导致的误差进行集中讨论。
课程课件
第四节课件