数据分析之二

Yangyong ye

2023-03-30

本周主题

  • 模型诊断
  • 稳健性检验

模型诊断

  • 如果出现共线性,考虑重新选择变量;
  • 如果出现heteroscedasticity, 对系数标准误计算,使用robust inference的方法
  • 如果核心变量与因变量的关系呈非线性,考虑使用高阶方程或者log转换
  • 残差非正太分布,样本量足够大的话,造成的影响并不大;
  • 样本是Cluster sampling,样本个体不独立,对系数标准误的计算时,考虑使用cluster inference;
  • R2不能过小,比如低于0.05,一般小的话,倒不是太大的问题;

如何验证结果的稳健性

  • 变换核心解释变量与被解释变量
  • 增减控制变量
  • 变换样本
  • 分组回归检验异质性
  • 安慰剂检验
  • 验证机制
  • 排除竞争性假说

为什么结果不符合预期?

  • 测量误差
  • 样本误差
  • 数据处理误差
  • 模型误差
    • confounder bias
    • collider bias
    • over-control bias
    • bias amplification
    • case-control bias

为什么结果不符合预期?

  • 其它可能
    • 干预措施是否统一?
    • 个体是否独立(spillover)
    • 因变量的变异情况?
    • missing values