Handbook for Data Science and Artificial Intelligence
內容目录
Handbook for Data Science and Artificial Intelligence
內容目录

概率统计基础

符号约定

  • \(P(A,B)=P(AB)=P(A \cap B)\)

基本概念

期望

定义

离散的随机变量的期望(或平均值)为

  • \(E(f(x))=\sum_{k=1}^n{f(x_k)P(x_k)}\)

连续的随机变量的期望为

  • \(E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}\)

注意点

  • \(E(f(x)) \ne f(E(x))\)
    • 函数的期望不一定等于期望的函数
  • \(E(A + B) = E(A) + E(B)\)
  • \(E(AB) \ne E(A)E(B)\)
    • 乘积的期望不一定等于期望的乘积
    • \(A\), \(B\) 独立时相等,注意独立一定无关,无关不一定独立

方差

定义

\[Var(x) = E((x - E(x))^2 = E(x^2) - E^2(x)\]

注意点

  • \(Var(A + B) \ne Var(A) + Var(B)\)
  • \(A\), \(B\) 不相关时相等

协方差

\[COV(A, B) = E((A - E(A)(B-E(B))) = E(AB) - E(A)E(B)\]

独立与无关

无关

\[COV(A, B) = 0\]

独立

\[P(AB) = P(A)P(B)\]

注意点

独立一定无关,无关不一定独立

条件概率公式

\[p(A|B)=\frac{P(A, B)}{P(B)}\]

常见分布

均匀分布 Uniform

假设随机变量 \(X\) 服从 \([a, b]\) 上的均匀分布, 即 \(X \sim U(a,b)\)。随机变量 \(X\)\(a\)\(b\) 之间任意一个数的概率相等。

伯努利分布 Bernoulli

也称为“0-1分布”、“两点分布”。参数为 \(p\), 随机变量 \(X\) 以概率 \(p\)\(1\),以概率 \(1-p\)\(0\),两种结果发生与否互相独立。

  • \(E(X)=p\)
  • \(Var(X)=p(1-p)\)

二项分布 Binomial

重复 \(n\) 次的独立伯努利试验,每次试验中随机变量均服从伯努利分布,试验之间结果独立。记取得 \(1\) 的总次数\(k\)为随机变量 \(X\), 则:

\[P(X=k)=C_n^kp^{k}(1-p)^{n-k}\]
  • \(E(X)=np\)
  • \(Var(X)=np(1-p)\)

多项分布 Multinomial

TBA

泊松分布 Poisson

\[P(X=k)=\frac{\lambda^k}{k!}e^{\lambda}\]

其中,\(\lambda\) 是单位(如单位时间、单位面积)内随机时间平均发生次数。

  • \(E(X)=\lambda\)
  • \(Var(X)=\lambda\)

贝塔分布 Beta

TBA

狄利克雷分布 Dirichlet

TBA

正态分布 Normal

假设随机变量 \(X\) 服从位置参数(均值)为 \(\mu\), 尺度参数为 \(\sigma\)(方差为\(\sigma^2\)) 的正态分布, 即 \(X \sim N(\mu,\sigma^2)\),则其概率密度函数为:

\[f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2})\]

标准正态分布

\(\mu=0, sigma=1\) 的正态分布:

\[f(x)=\frac{1}{\sqrt{2\pi}}exp(-\frac{x^2}{2})\]

高斯分布 Gaussian

同正态分布

概率模型

基本概念

  • 描述:基于物体的某种内在属性 \(y\),物体呈现出了某种可观测性质 \(x\)。则式 \(p(y|x)\) 意为通过可观测性质 \(x\) 反推出物体有内在属性 \(y\) 的概率分布。不妨称 \(y\) 为 因,\(x\) 为果。

贝叶斯公式

\[p(y|x)=\frac{p(x|y)p(y)}{p(x)}\]
后验概率 (posterior)
  • \(p(y|x)\)
  • 由结果推断原因的概率分布
先验概率 (prior)
  • \(p(y)\)
  • 原因概率分布
似然估计 (likelihood)
  • \(p(x|y)\)
  • 原因到结果的概率分布
证据(evidence)
  • \(p(x)\)
  • 结果的概率分布
判别式模型与生成式模型
  • 判别式模型直接建模 \(p(y|x)\),例如:决策树,神经网络,支持向量机
  • 生成式模型先对 \(p(x,y)\) 建模,再由 \(p(y|x)=\frac{p(x, y)}{p(x)}\) 得到 \(p(y|x)\),例如:贝叶斯分类器,贝叶斯网

参数估计

极大似然估计(Maxmimum Likelihood Estimation, MLE)

\[p(y|x) \varpropto p(x|y)\]
常用\(p(x|y)\)先验分布

离散值

  • 二项分布
  • 泊松分布

连续值

  • 正态分布
朴素贝叶斯

基于属性独立假设

\[p(\boldsymbol{x}|c)=\prod_{x}p(x|c)\]

最大后验估计(Maximum A Posteriori estimation, MAP)

\[p(y|x) \varpropto p(x|y)p(y)\]

贝叶斯估计(Bayesian Estimation)

\[p(y|x) \varpropto \frac{p(x|y)p(y)}{p(x)}\]

概率估计

  • 离散属性:统计频率,可能需要加上拉普拉斯修正,避免“未被观测”被等价于“出现概率为0”
  • 连续属性,假设为正态分布,估计均值和方差

假设检验

Trick

拉普拉斯修正

给每一个估计的概率值都加上一个很小的偏置,使其不为 0