dummy

1 什么个鬼

为什么进行方差分析(ANOVA)?

方差分析是一种统计方法, 研究啥, 在实践中, 发现影响一个事物的因素有很多, 需要通过实验数据分析出哪个是主因素.

分析各分布的均值是否相等(表面), 判断分类自变量对连续因变量是否有显著影响


因素 (因变量)

水平 (自变量)

只有一个因素的方差分析: 单因素方差分析

研究的是均值是否相等, 为什么不叫等均值分析? 与方差齐性检验的区别?

一个因素多水平, 又要研究均值是否相等, 毫无疑问这个均值是来自各水平的, 之前学过判断均值是否相等的假设检验, 为啥还要搞出个方差分析?, 优势在哪?

前章节: 历史的数据是xxx? 现在抽样, 判断是否显著. (涉及到2个, 一个以往历史的(均值), 一个抽样观察值的(平均值))

多水平如果两两组合也可以进行均值等分析检验, 但是要组合很多\(C_n^2\)

Sum of Squares for 误差:

SST: 总误差 = SSA + SSE, 自由度: n - 1

SSE: 组内误差, 随机误差对因变量的影响, 好听的名字: 残差效应; 自由度: n - k

SSA: 组间误差, 自变量对因变量的影响, 好听的名字: 因子效应; 自由度: k - 1

误差(平方和表示)分为随机误差和系统误差, 随机误差是随机抽样(实验)导致, 系统误差是各水平内部存在差异导致.

组内误差: 某水平内部随机抽样

组间误差: 组间随机误差和自身的系统误差之和 TODO:组间的随机误差是什么鬼? 难道是各水平的随机抽取导致的?

H1: 各水平均值相等

如果没有组间的系统误差, 那么各水平间的均值应该接近(只有随机误差).

系统误差大于多少时, 可以拒绝H0呢.

1.1 方差分析的假定

  • 各水平来自同一个正态分布 (正态性检验)

  • 各水平正态分布的方差相等 ? 是不是就需要第一步检验一下各水平的方差 ? (方差齐性检验)

  • 观测值之间相互独立

2 单因素

2.1 统计量

因为每个水平抽取样本的容量不一定相等, 一般使用均方

\[ MSA = \frac{SSA}{k-1} \\ MSE = \frac{SSE}{n-k} \\ F = \frac{MSA}{MSE} \\ R_2 = \frac{SSA}{SST} \text{强度关系} \]

LSD 什么鬼

3 双因素

两个分类自变量

行因素: k个水平

列因素: r个水平

3.1 方差分析的假定

  • \(k*r\)个正态分布 (正态性检验), 随机误差\(\epsilon\)为正态随机变量才能使用F检验

  • 方差相同 (方差齐性检验), 如果方差不一致, 不能直接用方差分析, 需要变换

  • 独立性 (游程检验和自相关系数)

3.2 无交互作用

SST: 自由度: kr - 1

SSR: 行因素产生的误差和; 自由度: k - 1

SSC: 列因素产生的误差和; 自由度: r - 1

SSE: 自由度: (k - 1)(r - 1)

kr: 样本量可能为1

3.3 有交互作用

kr: 某一水平下要有几个观测值, m(行变量的每一个水平的行数)的出现

SST: n - 1

SSR: k - 1

SSC: r - 1

SSRC: (k - 1)(r - 1), 交互作用

SSE: kr(m - 1) ?

4 其他

Learning Using Python