1 书籍
1.1 数据集
2 中心极限地理
标准差: 群体中个体的离散性 \(S\)
标准误差: 样本均值的离散性, (还有一种说法:统计量的标准差) \(S/\sqrt(n)\)
正确的抽样, 样本均值分布总体均值左右
应用: 一组: 马拉松参赛人员样本 二组: 香肠节参赛人员样本
根据样本的体重均值, 可以猜到某样本要参赛的项目
dataset:
V940: G23(IN):HOW TALL-INCHES
V941: G24:WEIGHT IN POUNDS
3 假设检验
3.1 数字的意义
68% 95% 99.7% 0.05 1.96SE
3.2 权衡犯错类型
H0: 原假设, 收集足够的证据(样本数据)否定它, 阴性
H1: 备择假设, 符号决定拒绝域(双侧,单侧), 阳性
第一类错误(\(\alpha\)): 假阳性 (拒绝了正确的原假设H0)
第二类错误(\(\beta\)): 假阴性 (接受了错误的原假设H0)
在原假设的条件下, 通过样本数据判断发生某事件的概率, 如果概率很小, 如果\(\alpha = 0.05\)就可以否定原假设, 不太相信H0, 但是H0有可能是对的.
拒绝H0的时候就会犯第一类错误
接受H0的时候就会犯第二类错误
\(\alpha\) 应该是宽松(eg:0.1)还是严格(eg: 0.001)?
如果过于宽松, 拒绝域(eg:0.1)变大, 意味着H0更容易被拒绝, 拒绝H0就会犯第一类错误(\(\alpha\)错误)
如果过于严格, 拒绝域(eg:0.001)变小, 意味着H0更容易被接受, 接受H0就会犯第二类错误(\(\bata\)错误)
需要根据具体的假设事件的严重性去合理的给予\(\alpha\)值, 例如:
- 过滤垃圾邮件
H0: 正常
H1: 垃圾
如果邮件不是垃圾邮件, 根据过滤系统和宽松的(较大)\(\alpha\), 犯第一类错误概率变大(拒绝H0, 邮件是垃圾), 这个错误可能导致此人少看一封最要的邮件.
- 判断一个人是否患癌症
H0: 正常
H1: 癌症
如果此人患有癌症, 根据检验数据和严格的(较小)\(\alpha\), 犯第二类错误概率变大(接受H0, 此人没癌症), 这个错误可能害死人, 所以需要宽松的\(\alpha\)
结论:
如果拒绝H0, 会带来严重损失或坏的影响, 希望不要轻易拒绝, 即缩小拒绝域(\(\alpha\)减小)
如果接受H0, 会带来严重损失或坏的影响, 希望不要轻易接受, 即扩大拒绝域(\(\alpha\)增大)
4 回归分析
- 什么是回归系数?
是要研究的统计量吗?
- 如何理解回归系数的离散程度(回归系数的标准误差) ?
自变量每增减一个单位, 因变量(随机变量)增减的数值可能不同, 在一个平均数值的周围波动.
- 残差是什么? 为啥取这个名字?
观察值到回归线(方程)垂直距离, 英文名字residual, 回归方程中的\(\epsilon\)
- OLS是什么?
Ordinary Least Squares, 残差平方和最小, Best Fit Line