数据清理技术
时间:2023年9月29日 地点:公二2107
本周内容
本周继续讲解R编程的基础知识,和集中讲解数据清理的各项技术,具体内容如下:
R编程基本知识
- 对象及其属性;
- 数据的类型及其结构;
- 函数的定义、功能及其使用;
数据清理
- 各种格式(.dta, .sav,.sas7bdat,.xlsx,.txt,.csv)数据的打开与保存;
- 数据的浏览(
glimpse
,skim
,str
,view_df
); - 数据的选择(选择变量
select
、选择样本filter
); - 数据的变形,包括变量重命名(
rename
),变量与个体的排序(relocate
,arrange
),变量取值调整(recode
,mutate
); - 数据的重构,数据长短格式的切换(
pivot_longer
,pivot_wider
); - 数据的合并,合并具有逻辑关联的多个数据集(
left_join
,anti_join
); - 特殊变量的处理,如date and time, string, factor;
阅读材料
- Import, Export, and Convert Data Files,数据打开与保存的package
rio
的使用方法; - Chapter 1-3, The Art of Data Science,数据分析思路介绍;
- Chapter 5, 10, 12, 13, 14, 15, 16 R for data science,介绍数据清理的基本技术。
需要安装的packages
课程课件
第二节课件
提示
按左右方向键可浏览ppt,按F键可全屏显示。