2016-4-25 22:33:26

数据科学导论

数据的闭环

  • 不间断的收集数据
  • 基于数据获得洞察
  • 基于发现做出决策
  • 跟踪效果迭代优化

数据产生价值的方式:

  • 直接使用数据;
  • 建模、数据报告(解释历史、预测未来、控制未来);
  • 数据产品(自动化、时效性);

数据科学技能树

《数学之美》

技能培养

  • 大量输入:教材、代码、论文、公开课;
  • 大牛、聚会、讨论、博客、微博、RSS;

从源头学习

  • 通过练习学习,解决实际工作难题;
  • 分享学习,写笔记、博客、同事分享交流;

统计思维

  • 侦探、考古思维
  • 了解基本统计术语|概率的运算
  • 抽样解决大问题、用回归确定相关关系,用实验寻找因果关系;

统计陷阱

  • 马克吐温:lies、damned lies、 statistics;
  • 2014年北京平均工资5826,较2013上涨19%,你觉得工资水平是上涨吗?
  • 请没有来的人举手;
  • 二战期间,工程师根据飞回来的飞机弹孔分布加强装甲;

如何对统计陷阱提出质疑:

问题1:谁说的? 问题2:他怎么知道的? 问题3:漏了什么? 问题4:是否有人改变了主题? 问题5:这有道理吗?


补充阅读:

  • 《赤裸裸的统计学》
  • 《统计学的世界》
  • 《女士品茶》
  • 《数据科学实战第一章》

练习题1:

你认为应该用什么样的数字来度量中国人的生活水平变化?

尝试找到这样的数据源并画出图看看。

数据来源国家统计局

用这种数字来衡量有什么样的缺点?

  • 太宏观,不够细化;
  • 数据不敏感,无感;

练习题2:

什么是双盲实验?

双盲控制时让实验的操作者和实验被试都不知道实验的内容和目的,由于实验者和研究参加者都不知道哪些被试接受哪种实验条件,从而避免了主、被试双方因为主观期望所引发的额外变量。

为什么做双盲测试?

为了客观评价实验变量真实有效;

如何应用到具体场景?

中医是否能治疗癌症?

练习3题:练习使用Google ngram Viewer

练习题4:

辛普森悖论 当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。 为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我们必需清楚了解情况,以综合考虑是否存在造成此悖论的潜在因素。

练习题5:

什么是贝叶斯定理

已知某种疾病的发病率是0.001,即1000人中会有一个人得病。 现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。 它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?

P(F)表示该疾病的发病概率=0.001,其值为F的先验概率; P(N)表示不发病概率=1-P(F)=0.999; P(+|F)表示在确认发病情况下检测阳性的概率=0.99; P(+|N)不发病检测出阳性的概率=0.05; 求P(F|+)=?

$ 即检验结果为阳性,确实得病的可能性为:1.94%

参考: