数据科学与教育

Yangyong Ye

EDU, RUC, yea027@ruc.edu.cn

课程概览

为什么学数据科学与教育?

  • 数据无处不在(Data, Information, Knowledge, and Wisdom)

  • 研究走向实证(describe、explain、predict、intervene)

  • 日常工作需要,数据的分析与解读已经成为一种基本生存技能

In rating ease of description, after almost any reasonable change of point of view, as very important, we are essentially asserting a belief in quantitative knowledge--a belief that most of the key questions in our world sooner or later demand answers to “by how much” rather than merely to “in which direction?”.

—John W. Tukey, 1977

数据科学包括哪些内容?

  • 数据收集

  • 数据存储与管理

  • 数据分析

  • 数据呈现

数据科学与统计学

  • 数据科学以统计学为基础

  • 数据科学应用性更强(机器学习、因果推断)

数据科学与定量研究方法

  • 数据科学更注重数据挖掘

  • 定量研究更侧重于验证

数据分析的基本步骤

数据分析的基本步骤

基于数据分析的问题类型

  • 描述性问题(descriptive)
  • 独立相关性问题(association)
  • 条件相关性问题(conditional association)
  • 预测类问题(predictive)
  • 因果性问题(causal)
  • 机制类问题(mechanism)

你将学习的知识和技能?

  • Data fetching
  • Data preparation
  • Data tabulation
  • Data visualization
  • Data analysis
  • Reports
  • R programming

本课程不包括

  • statistics
  • data collection
  • machine learning
  • causal inference

课程设计理念

  • 开放免费
  • 翻转课堂
  • 操作导向
  • do-see-understand-apply

如何学好这门课?

  • 不要恐惧
  • 练习、练习、练习
  • 不断反思
  • 加强应用
  • 寻求帮助
  • 需要自学

Data Fetching

  • 中国教育追踪调查CEPS
  • 中国家庭追踪调查CFPS
  • 中国社会综合调查CGSS
  • 中国家庭收入调查CHIP
  • 中国健康与营养调查CHNS

熟悉调查数据的步骤

  • user guide
  • questionnaire
  • technical report
  • codebook
  • data

官方教育统计数据

  • 中国教育年鉴(1949-1981,1982-1984,1985-1986,1988)EDU

  • 中国教育统计年鉴(1987-2017) EDU_STAT

  • 中国教育经费统计年鉴 EDU-FINA

练习

为了让大家熟悉教育统计数据,现需要大家查找以下数据

1.分省教育经费支出明细(小学)

2.分省教育经费支出明细(初级中学)

3.分省小学专任教师数(小学)

4.分省中学专任教师数(初级中学)

Data Preparation

  • recode/rename
  • subset(select/filter)
  • join/combine
  • arrange
  • summarize
  • count
  • reshape

Data Tabulation

  • frequency table
  • cross-table
  • summary table
  • test-table(t, chi, anovo)
  • regression table

Data Visualiztion

  • Amount: Barplot,circular barplot, Spider/Radar, parallel, lollipop/stem
  • Distribution: histgram, density, boxplot, violin, ridgeline/joyplot
  • Correlation: scatter, heatmap, correlogram, bubble, connected scatter, density 2D
  • Composition: treemap, dendrogram, venn diagram, stacked bar, pie chart, doughnut, circular packing

Data Visualization

  • Trending: line, Area, stacked area, streamgraph, parallel, time series
  • Maps: background map, connection, choropleth, bubble, hexbin map, cartogram
  • Flow: network, chord diagram, hierarchical edge bundling, sankey diagram
  • Other: interactive, animation, 3d, color, cheat sheet.

Data Analysis

  • simple test(t, chi, anova)
  • correlation
  • factor analysis
  • cluster analysis
  • regression

阅读材料

考核方式

  • Present and class performance (10%)

  • Assignments (50%)

  • Individual project proposal (40%)

Project Example

  • 高考成绩分析报告

  • 不同年代的人受教育程度

  • 教师法律地位问题

  • 教师工资中部凹陷问题

  • 技能需求结构变化

  • Teacher self-efficacy

项目展示

高考成绩分布

高考成绩

高考成绩

项目展示

高考成绩

项目展示

edu1990

edu2000

项目展示

项目展示

谁家的孩子在参加课外补习或兴趣班?

项目展示

哪些省份的中小学教师工资最低?

Let’s begin ouR journey!

Why Language?

  • Fast
  • Powerful
  • Note-taking
  • Reproducible

Why R?

  • born
  • free
  • small
  • versatile
  • beautiful
  • community

Introduction to R

  • R is a language and environment for statistical computing and graphics.

  • R is available as Free Software.

  • R can be extended (easily) via packages.

Example in R console

  speed dist
1     4    2
2     4   10
3     7    4
4     7   22
5     8   16
6     9   10

Intro to Rstudio

  • Intro panel: source/console/environment……
  1. create a script, and save it, and open

  2. create a project, put a data in it

  3. install package, like “tidyverse”

  4. options/appearance, setup theme.

什么是project

  • 文件管理工具

  • 可重复、可迁移

什么是script

  • script记录过程与结果

  • product仅仅只是结果

什么是object

  • Everything is object in R

  • object name

  • print()

  • environment

什么是package

#install.packages("devtools")
library(devtools)
#install_github('tidyverse/dplyr')

什么是function

  • function是实现特定功能的命令
  • function是进行数据分析的基本单元

数据类型(data type)

Here’s a summary table of some of the logical test and coercion functions available to you.

Type Logical test Coercing
Character is.character as.character
Numeric is.numeric as.numeric
Logical is.logical as.logical
Factor is.factor as.factor
Complex is.complex as.complex

数据类型(data type)

数据结构(data structure)

  • scalars & vectors

  • matrices & arrays

  • list

  • data frame

Homework for NEXT Week

Packages need to be installed

  • data import: rio

  • data manipulation: tidyverse, sjPlot, sjmisc, janitor, skimr, naniar, visdat,