贝叶斯推理与机器学习(一)概率推理基础

分类: 机器学习

$$ \newcommand\indep{\mathrel{\rlap{\perp}\mkern2mu{\perp}}} \newcommand\dep{\mathrel{\style{display: inline-block; transform: rotate(180deg)}{\indep}}} $$

归一化条件

$$ \sum_{x \in dom(x)} {p(\chi=x)=1} $$

两个变量可以互相交互

$$ p(x\ or\ y) = p(x) + p(y) - p(x, y) $$

集合符号表示

$$ p(x\ or\ y) \equiv p(x \cup y) $$
$$ p(x, y) \equiv p(x \cap y) $$

边缘分布

$$ p(x) = \sum_y p(x, y) $$
$$ p(x) 是联合概率分布 p(x, y) 的一个边缘分布 $$
$$ p(x_1, ..., x_{i-1}, x_{i+1}, ..., x_n) = \sum_{x_i} p(x_1, ..., x_n) $$

条件概率/贝叶斯规则

$$ p(x|y) \equiv \frac{p(x, y)}{p(y)}, \quad 若 p(y) = 0,则 p(x|y) 未定义$$

另有$ p(x, y) = p(y, x) $
可得贝叶斯规则:

$$ p(x│y) = \frac{p(y│x)p(x)}{p(y)} $$

概率密度函数

$$ f(x) \geq 0, \quad \int_{-\infty}^{\infty} f(x)dx = 1 $$

对于 $ x $ 分布在 $ [a, b] $ 的概率:

$$ f(x) \geq 0, \quad \int_{a}^{b} f(x)dx = 1 $$

独立性

$ x $$ y $ 是独立的,当:

$$ p(x, y) = p(x)p(y) $$
$$ p(x│y) = p(x) \Leftrightarrow p(y│x) = p(y) $$
$$ p(x, y) = kf(x)g(y) $$

记作

$$ x \indep y $$

相关性

记作

$$ x \dep y $$

条件独立

$$ x \indep y | z $$

表示当 $ z $ 已知时,$ x $$ y $ 互相独立。

条件相关

$$ x \dep y | z $$

先验概率、似然函数和后验概率

$$ p(\theta│D) = \frac{p(D│\theta)p(\theta)}{p(D)} $$

似然函数

$$ p(D│\theta) $$

先验概率

$$ p(\theta) $$

后验概率

$$ p(\theta│D) $$

最大后验概率(MAP)

MAP: Most probable A Posteriori

$$ \theta_∗ = arg\max_θ ⁡p(\theta|D) $$