如何系统深入地学习数据科学

内容简介

数据科学与教育涉及三个方面的知识。第一,这需要统计分析方面的理论知识,统计学是对数据进行描述和推断的基础。第二,如何在技术上实现,需要编程的知识或者软件方面的知识。第三,用数据科学来分析教育数据,还需要教育领域的基本知识,主要对教育的基本事实和运行情况有所了解,对于数据分析而言,这就需要知道试图用数据回答什么问题,也可以判断数据呈现的结果是否符合实际。

学习资料

编程方面的书籍

这儿主要是针对R编程语言的学习,并不是对于数据分析而言的,使用R语言进行数据分析,并不一定需要懂得R语言的基础知识,当然懂得R语言对于使用R语言进行数据分析有帮助的,一是可以发现数据分析中的一些问题在哪,二是使用更有效的方式解决数据分析中的问题。 不掌握R语言也可以做数据分析,是因为数据分析的技术,已经有着比较成熟的高阶的packages来完成,只需要掌握这些高阶的package的使用,就可以做数据分析。

数据科学方面

  • R for data science。以R语言和tidyverse软件包,重点介绍数据分析的各种技术操作。

  • Data science in education using R。聚焦于将数据科学的理论与技术应用到教育数据的分析当中,以案例项目为单位进行内容设计,以数据分析的具体场景展开,具体的分析技术穿插在项目分析过程中。

  • The art of data science。对数据分析的目标、思路以及操作过程进行了详细的介绍,特色之处在于其不是介绍数据分析过程的具体技术操作,而是分享完整的数据分析过程中的各种问题的应对与思考。是作者丰富数据分析经验的总结;

  • Introduction to Data Science. 以计算机科学学科视角下的数据科学。拓展阅读。

数据分析目标及其需要的数理基础

数据分析目标

用数据来提示教育现象中的一些基本事实与规律。可以表现为以下类型的问题。

  1. 描述性问题,个体单一特征的总结,主要是统计频数,趋势,分布等。有多少中职学生选择参加考试?学生英语成绩的分布情况如何?有多少教师在什么时间离开教师队伍?研究生招生的趋势是什么?
  2. 相关性的研究,揭示教育不同现象的一些关系,男生、女生在数学成绩是否有差异?父母的不同职业类型对学生的成绩是否相关,技术上,这涉及T-test, anova, correlation, chi2分析等。
  3. 条件相关(conditional association),很多教育现象并不是单一因素影响的,需要在控制其它变量的影响之下,看另外一个影响因素的作用。比如教育对毕业生收入的影响需要控制家庭经济条件的影响。
  4. 预测性分析(predictive analysis),这是传统量化研究所忽略的一个地方,却是机器学习领域所比较善长的地方,如何将机器学习的技术运用教育当中,应该是数据科学与教育应当着力探索的领域,比如,预测学习的成绩,预测教师的需求,比例自动批改学生试卷。对课堂教学过程进行评价等等。
  5. 因果及其机制的分析。学术研究最希望获得的答案是多数是因果性质的,我们希望知道,一个现象的发生是否是某个因素影响的,它的作用的大小是怎样的,它的作用是怎么实现的。比如集团化办学在整体是否促进了教育公平?作用大小?如何实现的?

所需统计知识

  1. 描述性分析,最基本数学知识即可;
  2. 相关分析(独立相关或者条件相关),统计学的基本知识;
  3. 预测性分析,机器学习相关的知识;
  4. 因果分析,因果推断相关的原理与技术。

相关学习材料

基础知识

概率与统计是数据科学的理论基础,也是学习数据科学的基础。不同的研究问题需要不同层级和不同版块的统计知识。这可以分为三个方面的知识。最为基础的。概率论和统计推断的知识。还有线性代数的知识。这是很多数据分析的需要掌握最为基础的知识。另外,就是统计学的基本知识:相关性分析、多元回归、广义多元回归等。最后的分析主要是因果推断的知识。因果推断理论与技术以统计推断为基础,但更多需要研究设计和领域性的知识,以及如何将领域内的知识运用的研究设计中去。

拓展读物
进阶读物

其它资源