dummy

1 书籍

  1. 赤裸裸的统计学-Naked Statistics-曹槟(译)

1.1 数据集

变化的一生-数据集-官网

变化的一生-数据集-百度云

2 中心极限地理

标准差: 群体中个体的离散性 \(S\)

标准误差: 样本均值的离散性, (还有一种说法:统计量的标准差) \(S/\sqrt(n)\)

正确的抽样, 样本均值分布总体均值左右

应用: 一组: 马拉松参赛人员样本 二组: 香肠节参赛人员样本

根据样本的体重均值, 可以猜到某样本要参赛的项目

dataset:

  • V940: G23(IN):HOW TALL-INCHES

  • V941: G24:WEIGHT IN POUNDS

3 假设检验

3.1 数字的意义

68% 95% 99.7% 0.05 1.96SE

3.2 权衡犯错类型

H0: 原假设, 收集足够的证据(样本数据)否定它, 阴性

H1: 备择假设, 符号决定拒绝域(双侧,单侧), 阳性

第一类错误(\(\alpha\)): 假阳性 (拒绝了正确的原假设H0)

第二类错误(\(\beta\)): 假阴性 (接受了错误的原假设H0)

在原假设的条件下, 通过样本数据判断发生某事件的概率, 如果概率很小, 如果\(\alpha = 0.05\)就可以否定原假设, 不太相信H0, 但是H0有可能是对的.

拒绝H0的时候就会犯第一类错误

接受H0的时候就会犯第二类错误

\(\alpha\) 应该是宽松(eg:0.1)还是严格(eg: 0.001)?

如果过于宽松, 拒绝域(eg:0.1)变大, 意味着H0更容易被拒绝, 拒绝H0就会犯第一类错误(\(\alpha\)错误)

如果过于严格, 拒绝域(eg:0.001)变小, 意味着H0更容易被接受, 接受H0就会犯第二类错误(\(\bata\)错误)

需要根据具体的假设事件的严重性去合理的给予\(\alpha\)值, 例如:

  • 过滤垃圾邮件

H0: 正常
H1: 垃圾
如果邮件不是垃圾邮件, 根据过滤系统和宽松的(较大)\(\alpha\), 犯第一类错误概率变大(拒绝H0, 邮件是垃圾), 这个错误可能导致此人少看一封最要的邮件.

  • 判断一个人是否患癌症

H0: 正常
H1: 癌症
如果此人患有癌症, 根据检验数据和严格的(较小)\(\alpha\), 犯第二类错误概率变大(接受H0, 此人没癌症), 这个错误可能害死人, 所以需要宽松的\(\alpha\)

结论:

  • 如果拒绝H0, 会带来严重损失或坏的影响, 希望不要轻易拒绝, 即缩小拒绝域(\(\alpha\)减小)

  • 如果接受H0, 会带来严重损失或坏的影响, 希望不要轻易接受, 即扩大拒绝域(\(\alpha\)增大)

4 回归分析

  • 什么是回归系数?

是要研究的统计量吗?

  • 如何理解回归系数的离散程度(回归系数的标准误差) ?

自变量每增减一个单位, 因变量(随机变量)增减的数值可能不同, 在一个平均数值的周围波动.

  • 残差是什么? 为啥取这个名字?

观察值到回归线(方程)垂直距离, 英文名字residual, 回归方程中的\(\epsilon\)

  • OLS是什么?

Ordinary Least Squares, 残差平方和最小, Best Fit Line