2016-4-25 22:33:26
数据科学导论
数据的闭环
- 不间断的收集数据
- 基于数据获得洞察
- 基于发现做出决策
- 跟踪效果迭代优化
数据产生价值的方式:
- 直接使用数据;
- 建模、数据报告(解释历史、预测未来、控制未来);
- 数据产品(自动化、时效性);
数据科学技能树
《数学之美》
技能培养
- 大量输入:教材、代码、论文、公开课;
- 大牛、聚会、讨论、博客、微博、RSS;
从源头学习
- 通过练习学习,解决实际工作难题;
- 分享学习,写笔记、博客、同事分享交流;
统计思维
- 侦探、考古思维
- 了解基本统计术语|概率的运算
- 抽样解决大问题、用回归确定相关关系,用实验寻找因果关系;
统计陷阱
- 马克吐温:lies、damned lies、 statistics;
- 2014年北京平均工资5826,较2013上涨19%,你觉得工资水平是上涨吗?
- 请没有来的人举手;
- 二战期间,工程师根据飞回来的飞机弹孔分布加强装甲;
如何对统计陷阱提出质疑:
问题1:谁说的? 问题2:他怎么知道的? 问题3:漏了什么? 问题4:是否有人改变了主题? 问题5:这有道理吗?
补充阅读:
- 《赤裸裸的统计学》
- 《统计学的世界》
- 《女士品茶》
- 《数据科学实战第一章》
练习题1:
你认为应该用什么样的数字来度量中国人的生活水平变化?
尝试找到这样的数据源并画出图看看。
用这种数字来衡量有什么样的缺点?
- 太宏观,不够细化;
- 数据不敏感,无感;
练习题2:
什么是双盲实验?
双盲控制时让实验的操作者和实验被试都不知道实验的内容和目的,由于实验者和研究参加者都不知道哪些被试接受哪种实验条件,从而避免了主、被试双方因为主观期望所引发的额外变量。
为什么做双盲测试?
为了客观评价实验变量真实有效;
如何应用到具体场景?
中医是否能治疗癌症?
练习3题:练习使用Google ngram Viewer
- https://books.google.com/ngrams
- 并研究你关心的某一组词汇的变化。
- TED:我从500万本书里学到什么?
- TED:我从500万本书里学到什么?(中字)
练习题4:
- 什么是Simpson‘s paradox
- 为什么会出现Simpson’s paradox
- 对于其结果如何利用;
- http://vudlab.com/simpsons/
辛普森悖论 当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。 为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我们必需清楚了解情况,以综合考虑是否存在造成此悖论的潜在因素。
练习题5:
什么是贝叶斯定理;
已知某种疾病的发病率是0.001,即1000人中会有一个人得病。 现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。 它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?
P(F)表示该疾病的发病概率=0.001,其值为F的先验概率; P(N)表示不发病概率=1-P(F)=0.999; P(+|F)表示在确认发病情况下检测阳性的概率=0.99; P(+|N)不发病检测出阳性的概率=0.05; 求P(F|+)=?
$ 即检验结果为阳性,确实得病的可能性为:1.94%
参考: