数据清理技术

时间:2023年9月29日 地点:公二2107

本周内容

本周继续讲解R编程的基础知识,和集中讲解数据清理的各项技术,具体内容如下:

R编程基本知识

  1. 对象及其属性;
  2. 数据的类型及其结构;
  3. 函数的定义、功能及其使用;

数据清理

  1. 各种格式(.dta, .sav,.sas7bdat,.xlsx,.txt,.csv)数据的打开与保存;
  2. 数据的浏览(glimpse, skim, str, view_df);
  3. 数据的选择(选择变量select、选择样本filter);
  4. 数据的变形,包括变量重命名(rename),变量与个体的排序(relocate,arrange),变量取值调整(recode, mutate);
  5. 数据的重构,数据长短格式的切换(pivot_longer, pivot_wider);
  6. 数据的合并,合并具有逻辑关联的多个数据集(left_join, anti_join);
  7. 特殊变量的处理,如date and time, string, factor;

阅读材料

  1. Import, Export, and Convert Data Files,数据打开与保存的package rio 的使用方法;
  2. Chapter 1-3, The Art of Data Science,数据分析思路介绍;
  3. Chapter 5, 10, 12, 13, 14, 15, 16 R for data science,介绍数据清理的基本技术。

需要安装的packages

  • tidyverse,数据分析的总包,包括多个功能强大的子packages;
  • rio,数据打开、保存和格式转换;
  • skimr,快速浏览数据;
  • sjPlot,探索性数据分析的功能包;
  • sjmisc, 探索性数据分析的工具集;
  • janitor,清理变量名称有效工具;
  • visdat, naniar;显示与处理缺失值;

课程课件

第二节课件
提示

按左右方向键可浏览ppt,按F键可全屏显示。