1 参考书籍
2 概率论
研究随机变量, 假设分布是已知的, 研究它的数字特征, 性质, 特点, 规律性
2.1 概念
P: 区间, 范围, \(\leq\), 分布函数
p: 点, 密度函数, P 是 p的积分/累积
什么时候使用X, 什么时候使用x, 一般会发现{}里会出现大写, ()里用小写, 例如下面的边缘分布:
F: 分布, f: 密度
\[ F_X(x) = P\{X \leq x\} = P\{X \leq x, Y \leq \infty\} = F(x, \infty) \]
参数空间: \(\theta \in \Theta\)
基本结果(基础事件): \(\omega \in \Omega\) ; 一枚硬币, 一个骰子, 一个人, 一个家庭
样本空间(基本空间): \(\Omega = \{ \omega_1, \omega_2, ..., \omega_i \}, \omega_1\ \text{ is a sample point}\)
随机变量: \(X = X(\omega)\) , 所有分布函数都是\(X \leq x\), 这个变量一定是个数吗?
\[ P(X \in C) = P({e: X(e) \in C}) \]
C: 子集\(\in \Omega\)
加入一个变量(\(\mathbf{X,Y,Z}\))在数轴上的取值(\(x,y,z\))依赖于随机现象的基本结果, 则称此变量为随机变量
随机变量X, 可以理解为一个函数? 将样本空间\({e_1,e_2,\cdots}\)的\(s_x\)作为参数\(X(e_i) \in C\)
随机表现在变量是由随机试验产生的随机事件, 变量说明是实轴上的一个数, 问题是并不是所有的随机事件都是数字来描述, 比如投硬币:正反面\(S=\{e\}\), 所以需要"\(X = X(e)\) 实数"的对应关系
分布列(概率分布): \(\sum_{i=1}^{\infty}p(x_i)\) , 概率的集合\(\{p(x_i)\}\) - 离散
密度函数(概率分布): \(P(a \leq X \leq b) = \int_{a}^{b}p(x)dx \longrightarrow p(x)\) - 连续
分布函数(累积函数): \(F(x) = P(X \leq x)\)
\[ F(x) = \sum\limits_{x_i \leq x}p(x_i) \qquad (离散) \\ F(x) = \int_{-\infty}^{x}p(x)dx \qquad (连续) \]
数学期望:
\[ E(X) = \sum\limits_{i = 1}^{n}x_ip(x_i) \qquad (离散) \\ E(X) = \int_{-\infty}^{\infty}xp(x)dx \qquad (连续) \]
泊松分布: 在一定时间内, 某事件发生的次数
指数分布: 首次发生某个事件的时间
变异系数: 以期望为单位度量随机变量的波动程度
2.2 矩
均值(mean):
方差(variant): As variance is just the standard deviation squared: \(var = sdev^2\)
偏度(skewness): 偏态系数; 统计数据分布倾斜程度的度量
峰度(kurtosis): 与正态比较; 大于0 说明较正态陡峭, 小于0 说明较正态平坦; 值越大差异程度越大.
2.3 多维
\(\mathbf{X}(\omega) = (X_1(\omega), X_2(\omega), X_3(\omega), X_n(\omega))\)
一个人(基本结果/基础事件)的体重, 身高
联合分布: 多维随机变量的概率分布
\[ F(x_1, x_2, ..., x_n) = P(X_1 \leq x_1, X_2 \leq x_2, ..., X_n \leq x_n) \]
联合概率密度(联合密度): \(f(xy)\)
\[ F(x,y) = \int_{-\infty}^x\int_{-\infty}^yf(x,y)dxdy \]
边缘分布: 例如二维, \(F(x, y)\) 是 "\(X \leq x \cap Y \leq y\)" 的交事件
\[ \begin{cases} \lim_{y \to \infty}F(x, y) = P(X \leq x, Y < \infty) = F_X(x) = F(x, \infty) = P(X \leq x) \\ \\ \lim_{x \to \infty}F(x, y) = P(X < \infty, Y \leq x) = F_Y(x) = F(\infty, y) = P(Y \leq y) \end{cases} \]
边缘分布律(离散): \(p_{i \cdotp}, p_{\cdotp i}\)
边缘密度函数(连续): \(p_X(x) ;\ p_Y(y)\) ; 边缘分布公司好理解, 边缘密度函数([]括号里面的)理解上有些困难, 几何意义
\[ \text{边缘分布:} \\ F_X(x) = F(x, \infty) = \int_{-\infty}^x\big[\int_{-\infty}^{+\infty}f(x,y)dy\big]dx \\ \text{边缘密度:} \\ f_X(x) = \int_{-\infty}^{+\infty}f(x,y)dy \]
全概率
条件概率
相互独立的随机变量: 父亲和儿子的身高显然不具有独立性, 两人如果投骰子的点数是独立的
\[ \begin{align} F(x_1, x_2, \cdots, x_n) &= F_1(x_1) F_2(x_2) \cdots F_n(x_n) \\ \\ &= P(X_1 \leq x_1) P(X_2 \leq x_2) \cdots P(X_n \leq x_n) \end{align} \]
\(F_n(x_n)\) 是边缘分布
多维随机变量函数的数学期望:
\[ E[g(X,Y)] = \begin{cases} \sum_i^{\infty}\sum_j^{\infty}g(x_i,y_j)P(X=x_i, Y=y_j), & (离散) \\ \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x, y)dxdy, & (连续) \\ \end{cases} \]
\(g(x,y)\) 可以只关于\(x\)或者\(y\)的随机变量的函数.
协方差(相关矩): \(g(X,Y)=(X-EX)(Y-EY)\)
\[ \begin{align} Cov(X, Y) = E[g(X, Y)] = E[(X-EX)(Y-EY)] \tag{1} \end{align} \]
(线性)相关系数: \(Corr(X, Y) = Cov(X, Y) / \delta_x \delta_y\)
马尔科夫不等式, 切比雪夫不等式: 知乎解答, 只是对概率的一个估计, 有可能不是很准确, 但比瞎猜好.
2.4 条件分布和条件期望
X,Y独立, 揭露他们之间隐含的趋势
条件分布律
条件密度函数 ? 离散|连续
条件密度的均值: 条件期望
条件分布: \(P(X = x_i|Y = y_j) = \dfrac{P(X = x_i, Y = y_i)}{P(Y = y_j)} = \dfrac{P_{ij}}{P_{*j}}\)
爸爸的身高(Y)对孩子身高(X)的条件分布情况(条件分布), Y越大, X一般也会越大, 条件分布:\(E(X|Y = y_j)\)
<<概率论与数理统计(第二版)-茆诗松>> P153 有一张图很形象
\[ \begin{cases} P(X = j | Y = 1) = \begin{cases} 0.2, & \text{j = 1} \\ 0.3, & \text{j = 2} \\ 0.5, & \text{j = 3} \end{cases} & \text{离散} \\ \\ \\ \begin{eqnarray} P(X \leq x | y \leq Y \leq y + \Delta{y}) &=& \dfrac{P(X \leq x, y \leq Y \leq y + \Delta{y})}{P(y \leq Y \leq y + \Delta{y})} \\ \\ &=& \dfrac{\int_{-\infty}^{x}\int_y^{y+\Delta{y}}p(x,y)dydx}{\int_y^{y+\Delta{y}}p_Y(y)dy} \end{eqnarray} & \text{连续} \end{cases} \]
2.5 大数定理
辛钦大数定理(law larger number): 试验次数很大时, 频率代替概率
随机变量\(X_1, X_2, \cdots\)独立同分布, 且期望\(E(X_k) = \mu\), 则: 依概率收敛于
\[ \bar{X} = \dfrac{1}{n}\sum_{k = 1}^nX_k \ \overset{P}{\longrightarrow} \mu \]
2.6 中心极限定理
莱维-林德伯格
独立同分布的中心极限定理(central limit theorem): n足够大时, 近似服从正态分布, 大样本统计推断的基础
iid, 随机变量之和或均值的分布函数F(x), 当n足够大时, 不管原总体分布如何, F(x)近似服从正太分布
和: \(T_n = X_1 + X_2 + \cdot + X_n \approx \mathcal{N}(n\mu, n\sigma^2)\)
均值: \(M_n = \sum_{i=0}^{n}/nX_i \approx \mathcal{N}(\mu, \sigma^2/n)\)
一个样本中, 样本点受随机因素影响, 之间相互抵消, 所以样本均值的波动(样本方差)比单个样本点的波动要小(\(1/\sqrt{n}\))
伯努利随机变量的和 -> 二项分布 -> 正态分布
另一种的表述更好:
\[ \dfrac{\bar{X} - \mu}{\sigma/\sqrt{n}} \ \overset{approx}{\sim} \ N(0, 1) \ \text{or} \ \ \bar{X} \ \overset{approx}{\sim} \ N(\mu, \sigma^2/n) \]
2.6.1 代码演示
棣莫佛-拉普拉斯定理 (De Moivre-Laplace)
大样本到底有多大, 才能近似正态?
二项分布只要np和n(1-p)都大于5
泊松分布λ大于20
2.7 经验分布
和样本有关
将样本值顺序排列之后的累积分布, 单调不减, 阶梯函数, 右连续
格里纹科定理: 当\(n\ \to\ \infty\), "曲线"相对平滑, 近似总体分布, \(F_n(x) \to F(x)\)
3 数理统计
随机变量的分布未知, 多次重复独立观察, 推断它的分布
贾俊平: 统计量在统计学中的地位和随机变量在概率论中的地位一样重要
3.1 抽样
独立同分布: iid(independent identical distribution)
总体参数如: 均值, 方差, 比例等是常数, \(\mu \ \sigma \ \pi\)
样本统计量: 统计样本计算出来的, 随机变量, \(\bar{x} \ S \ p\), 每次抽样结果可能不同, 所以有抽样分布
样本: \((X_1, X_2, \cdots, X_n)\), 样本值: \((x_1, x_2, \cdots, x_n)\)
样本分布函数:
\[ F_*(x_1, x_2, \cdots, x_n) = \prod_i^nF(x_i) \]
样本密度函数:
\[ f_*(x_1, x_2, \cdots, x_n) = \prod_i^nf(x_i) \]
样本的函数(统计量): \(g(X_1, X_2, \cdots, X_n)\)
样本均值, 方差, k阶原点矩, k阶中心矩
(估计量的)抽样分布: 统计量的分布 (重复抽样)
目的通过样本提取出总体的相关信息, 样本值杂乱无章, 不方便提取总体信息, 所以需要构造统计量, 通过分析统计量的分布(抽样分布)提取总体信息 如果构造的统计量能够提取出所有的总体信息, 则为充分统计量
思考这些分布? 张老师漫谈六西格玛
- 总体分布
- 样本分布: 经验分布, 当样本量n很大时接近总体分布, 一个样本的数据的频数分布
- 抽样分布: 用来干啥的?, 样本统计量的概率分布
三大抽样分布:
\(\chi^2\)-分布 (卡尔·皮尔逊, 假设检验的祖师, 拟合优度) 张老师
\(\mathcal{t}\)-分布 (戈塞特, 小样本) 张老师
\(\mathcal{F}\)-分布 (费歇尔Fisher, F的来源, 方差分析, 极大似然估计)
奠定了假设检验的基础
??? 前提是样本符合正态分布 ???
抽样分布分为两大类:
关于均值的分布: z-分布(方差已知 or 大样本), t-分布(方差未知 and 小样本)
关于方差的分布: \(\chi^2\)-分布(单个总体, 均值已知时自由度为n, 均值未知时自由度n-1), F-分布(两个总体比,
3.1.1 代码演示
如何正确抽样?
如果进一批货N, 抽样多少才算合适呢? 有没有标准?
3.2 参数估计
函数: (样本)统计量和估计量的区别
估计量只是统计量的特殊情况, 应用在估计参数(点估计), 统计量是参数已知的样本函数, 估计量(构造一个的统计量)估计参数值.
估计量(estimator): 点估计,区间估计, 点估计?可靠性? --> 区间估计
- 贾俊平: 用来估计总体参数的统计量 \(\hat{\theta}\)
抽样标准误差
自信水平
自信区间: 依样本而变, 区间随机, 总体的参数是个常数(不是变量), 但未知. 这个区间要么包含该值, 要么不包含, 不能说以某概率包含
似然函数
3.3 假设检验
4 学习框架
E(X): expectation
^
|
|
F(x): distribution F(x,y): joint distribution
^ ^
| |
| |
| |
X:random variable ------> multiple random variable ------> F_Y(y): marginal distribution
^ |
| X = X(e) Y = Y(e) |
| |
P:probability | v
| | F_X|Y(x|y): conditional distribution
| |
{e}:events -----------+
|
|
S = {e...} | S = {(x,y): range(x), range(y)}
|
+-------------------+
| | Chi-Square t F
discrete continuous \ | /
\ / \ | /
\ countable? / ------------
\ / idd |
S:sample sapce --------> randmom sample -----> sampling distribution
| ^
| |
| |
E:randmom variable experiment law larger number & central limit theorem
E: 一次随机试验/调查
S: 如果是简单样本空间, 每个事件的概率为1/n
X: 事件包含在样本空间中, 只有在试验结束才能知道结果