1 什么个鬼
为什么进行方差分析(ANOVA)?
方差分析是一种统计方法, 研究啥, 在实践中, 发现影响一个事物的因素有很多, 需要通过实验数据分析出哪个是主因素.
分析各分布的均值是否相等(表面), 判断分类自变量对连续因变量是否有显著影响
因素 (因变量)
水平 (自变量)
只有一个因素的方差分析: 单因素方差分析
研究的是均值是否相等, 为什么不叫等均值分析? 与方差齐性检验的区别?
一个因素多水平, 又要研究均值是否相等, 毫无疑问这个均值是来自各水平的, 之前学过判断均值是否相等的假设检验, 为啥还要搞出个方差分析?, 优势在哪?
前章节: 历史的数据是xxx? 现在抽样, 判断是否显著. (涉及到2个, 一个以往历史的(均值), 一个抽样观察值的(平均值))
多水平如果两两组合也可以进行均值等分析检验, 但是要组合很多\(C_n^2\)
Sum of Squares for 误差:
SST: 总误差 = SSA + SSE, 自由度: n - 1
SSE: 组内误差, 随机误差对因变量的影响, 好听的名字: 残差效应; 自由度: n - k
SSA: 组间误差, 自变量对因变量的影响, 好听的名字: 因子效应; 自由度: k - 1
误差(平方和表示)分为随机误差和系统误差, 随机误差是随机抽样(实验)导致, 系统误差是各水平内部存在差异导致.
组内误差: 某水平内部随机抽样
组间误差: 组间随机误差和自身的系统误差之和 TODO:组间的随机误差是什么鬼? 难道是各水平的随机抽取导致的?
H1: 各水平均值相等
如果没有组间的系统误差, 那么各水平间的均值应该接近(只有随机误差).
系统误差大于多少时, 可以拒绝H0呢.
1.1 方差分析的假定
各水平来自同一个正态分布 (正态性检验)
各水平正态分布的方差相等 ? 是不是就需要第一步检验一下各水平的方差 ? (方差齐性检验)
观测值之间相互独立
2 单因素
2.1 统计量
因为每个水平抽取样本的容量不一定相等, 一般使用均方
\[ MSA = \frac{SSA}{k-1} \\ MSE = \frac{SSE}{n-k} \\ F = \frac{MSA}{MSE} \\ R_2 = \frac{SSA}{SST} \text{强度关系} \]
LSD 什么鬼
3 双因素
两个分类自变量
行因素: k个水平
列因素: r个水平
3.1 方差分析的假定
\(k*r\)个正态分布 (正态性检验), 随机误差\(\epsilon\)为正态随机变量才能使用F检验
方差相同 (方差齐性检验), 如果方差不一致, 不能直接用方差分析, 需要变换
独立性 (游程检验和自相关系数)
3.2 无交互作用
SST: 自由度: kr - 1
SSR: 行因素产生的误差和; 自由度: k - 1
SSC: 列因素产生的误差和; 自由度: r - 1
SSE: 自由度: (k - 1)(r - 1)
kr: 样本量可能为1
3.3 有交互作用
kr: 某一水平下要有几个观测值, m(行变量的每一个水平的行数)的出现
SST: n - 1
SSR: k - 1
SSC: r - 1
SSRC: (k - 1)(r - 1), 交互作用
SSE: kr(m - 1) ?