如何系统深入地学习数据科学
内容简介
数据科学与教育涉及三个方面的知识。第一,这需要统计分析方面的理论知识,统计学是对数据进行描述和推断的基础。第二,如何在技术上实现,需要编程的知识或者软件方面的知识。第三,用数据科学来分析教育数据,还需要教育领域的基本知识,主要对教育的基本事实和运行情况有所了解,对于数据分析而言,这就需要知道试图用数据回答什么问题,也可以判断数据呈现的结果是否符合实际。
学习资料
编程方面的书籍
这儿主要是针对R编程语言的学习,并不是对于数据分析而言的,使用R语言进行数据分析,并不一定需要懂得R语言的基础知识,当然懂得R语言对于使用R语言进行数据分析有帮助的,一是可以发现数据分析中的一些问题在哪,二是使用更有效的方式解决数据分析中的问题。 不掌握R语言也可以做数据分析,是因为数据分析的技术,已经有着比较成熟的高阶的packages来完成,只需要掌握这些高阶的package的使用,就可以做数据分析。
使用的教材
An Introduction to R,最基础、最简单的R编程知识;
R Programming for Data Science, 对R programming 有比较系统的介绍;
拓展的书目:
- Efficient R programming, 并不是对R programming的系统介绍,而是对R programming一些细节的优化。
- Hands-On Programming with R,相对较老的一本书。
进阶的书籍:
Advanced R,对R编程有着系统和深入的分析,尤其编程背后的设计思路;
R Packages,介绍如何动手写一个package;
Mastering Shiny,介绍如何制作交互型的网页app;
数据科学方面
R for data science。以R语言和tidyverse软件包,重点介绍数据分析的各种技术操作。
Data science in education using R。聚焦于将数据科学的理论与技术应用到教育数据的分析当中,以案例项目为单位进行内容设计,以数据分析的具体场景展开,具体的分析技术穿插在项目分析过程中。
The art of data science。对数据分析的目标、思路以及操作过程进行了详细的介绍,特色之处在于其不是介绍数据分析过程的具体技术操作,而是分享完整的数据分析过程中的各种问题的应对与思考。是作者丰富数据分析经验的总结;
Introduction to Data Science. 以计算机科学学科视角下的数据科学。拓展阅读。
数据分析目标及其需要的数理基础
数据分析目标
用数据来提示教育现象中的一些基本事实与规律。可以表现为以下类型的问题。
- 描述性问题,个体单一特征的总结,主要是统计频数,趋势,分布等。有多少中职学生选择参加考试?学生英语成绩的分布情况如何?有多少教师在什么时间离开教师队伍?研究生招生的趋势是什么?
- 相关性的研究,揭示教育不同现象的一些关系,男生、女生在数学成绩是否有差异?父母的不同职业类型对学生的成绩是否相关,技术上,这涉及T-test, anova, correlation, chi2分析等。
- 条件相关(conditional association),很多教育现象并不是单一因素影响的,需要在控制其它变量的影响之下,看另外一个影响因素的作用。比如教育对毕业生收入的影响需要控制家庭经济条件的影响。
- 预测性分析(predictive analysis),这是传统量化研究所忽略的一个地方,却是机器学习领域所比较善长的地方,如何将机器学习的技术运用教育当中,应该是数据科学与教育应当着力探索的领域,比如,预测学习的成绩,预测教师的需求,比例自动批改学生试卷。对课堂教学过程进行评价等等。
- 因果及其机制的分析。学术研究最希望获得的答案是多数是因果性质的,我们希望知道,一个现象的发生是否是某个因素影响的,它的作用的大小是怎样的,它的作用是怎么实现的。比如集团化办学在整体是否促进了教育公平?作用大小?如何实现的?
所需统计知识
- 描述性分析,最基本数学知识即可;
- 相关分析(独立相关或者条件相关),统计学的基本知识;
- 预测性分析,机器学习相关的知识;
- 因果分析,因果推断相关的原理与技术。
相关学习材料
基础知识
概率与统计是数据科学的理论基础,也是学习数据科学的基础。不同的研究问题需要不同层级和不同版块的统计知识。这可以分为三个方面的知识。最为基础的。概率论和统计推断的知识。还有线性代数的知识。这是很多数据分析的需要掌握最为基础的知识。另外,就是统计学的基本知识:相关性分析、多元回归、广义多元回归等。最后的分析主要是因果推断的知识。因果推断理论与技术以统计推断为基础,但更多需要研究设计和领域性的知识,以及如何将领域内的知识运用的研究设计中去。
- Probability: Introduction to Probability
- Statistics: Introduction to Modern Statistics
- Statistics: Improving Your Statistical Inferences, OpenIntro Statistics
- Statistics: Quantitative Research Methods for Political Science, Public Policy and Public Administration: 4th Edition With Applications in R
- Linear algebra: Introduction to Linear Algebra, 2016
拓展读物
进阶读物
其它资源
- What They Forgot to Teach You About R,一些关于R的额外知识。