研究设计

Yangyong ye

2023-03-16

熟悉数据类型

  • 截面数据(cross-sectional)
  • 时间序列(time series)
  • 面板数据(panel data)
  • 混合面板数据(pooled panel data)
  • 事件数据(event data)
  • 文本数据(text data)

确定研究类型

  • 描述性研究
  • 相关性研究
  • 预测性研究
  • 因果性研究

明确统计单位

  • 统计单位是指数据变量描述特征的主体,比如学生、成人劳动力、家庭、学校、省等;
  • 涉及多层主体时,比如学生、学校、县等,要做到匹配关系,学生是属于这所学校;
  • 在一个模型中,无法使用两个统计单位,比如y省级数据,x是个人的特征数据;

描述性研究设计

  • 新颖的对象,比如能力感、自控力
  • 测量方法,比如中学教师工资水平
  • 分群方法,比如,性别、城乡、区域、年份、学校类型等。
  • 重点是构建新的量化指标,对客观现象做出准确描述,揭示其差异与变化。

简单相关性研究

  • T检验
  • ANOVA
  • 卡方检验
  • 相关系数
  • 重点是找到一组新关系

复杂相关性研究

  • 虚拟变量
  • 顺序变量
  • 分类变量
  • 计数变量
  • 连续变量
  • 事件变量
  • Logistic regression
  • Ordered logistic regression
  • Multinomial logistic regression
  • poisson regression
  • Simple regression
  • Survival

控制变量选择

相关与因果

  • Correlation does not necessarily mean causation
  • Correlation is suggestive for causation

相关与因果

does an absence of correlation imply absence of causality?

No. Any controlled system is a counterexample.

为什么相关不是因果?

  • random
  • causal
  • counter-causal
  • bias amplification
  • confounder bias
  • collider bias
  • over-control bias
  • measurement error
  • sampling error
  • analytic error

因果推断的类型

  • RCT
  • Control on observable: regression/matching/weighting/sub-classification
  • selection on unobservable: iv/rd/did/fixed effect/synthetic/event study
  • bounds / partial identification and sensitivity analysis

因果研究的四个步骤(“mostly harmless”)

  • 研究什么关系(relationship)
  • 确定该关系的实验方法是怎样的(experiment design)
  • 确定识别策略(identification strategy)
  • 确定统计推断方法(inference)

从理论到方法

  • 确定假设
  • 假想实验
  • 自然实验
  • 控制变量选择

为什么要做假想实验?

  • sufficiently well-defined intervention
  • feasible intervention, manipulative
  • attributes or causes?

控制实验存在的问题?

  • Hawthorne effect
  • External validity
  • Non compliance

自然实验如何寻找?

  • randomness
  • intervention

控制变量如何选择?

  • pretreatment variable
  • overcontrol variable
  • confounder
  • collider

混淆变量的处理

  • measurable

  • unmeasurable

撞子变量的处理

  • not control it
  • limit the interpretation

中介变量的处理

  • produce bias

  • not control it

  • limit the interpretation

Some lessons that I gradually learn

  • what’s the difference between matching and regression?
  • what’s the difference between statistical models and theoretical models?
  • we can say limited conclusions with limited data if we don’t have the complete data, instead without saying it. otherwise, we can make no contributions.