特殊证据
不确定证据(软证据)
决定了证据有多确定。
比如老奶奶对他看到的远处草坪上有一只猫只有50%的把握。
不可靠证据(似然证据)
决定了证据如何影响。
比如季节是冬天的时候,下雪的概率是80%;否则只有20%。
信念网络(BN:Belief Network)
信念网络也叫做贝叶斯网络或贝叶斯信念网络。
信念网络可表示成一个有向无环图(DAG)。
马尔可夫毯与相关性
$ x $
的马尔可夫毯携带了所有与 $ x $
相关的信息。
例如:
$ MB $
即$ MarkovBlanket $
图形相关性
信念网络可以用DAG(有向无环图)来展示,但有一些概率分布的相关性可能并不完全与图中展示的相符。
例如:
图中显示了 $ A $
和 $ B $
的相关性,但事实上(根据概率的数值关系)二者相互独立。
因此,图形相关不意味着两个变量必然相关,但两个变量相关必然会在图形中表示出相关性。
冲突
冲突子
如图,只有 $ (c) $
中的 $ z $
和 $ (d) $
中的 $ w $
是冲突子。
d-连接 和 d-分离
对于每一个变量 $ x \in X $
和 $ y \in Y $
,
检查每一条 $ x $
和 $ y $
之间的路径 $ U $
,
路径 $ U $
被称为阻断的,当存在一个在路径 $ U $
上的节点 $ w $
满足下列条件之一:
-
$ w $
是一个冲突子,且$ w $
及其后代都不属于$ Z $
-
$ w $
不是$ U $
上的冲突子,且$ w \in Z $
如果所有 $ x $
和 $ y $
之间的路径都是阻断的,那么称 $ X $
和 $ Y $
是被 $ Z $
d-分离的。
否则,他们是被 $ Z $
d-连接的。
性质
如果变量集合 $ X $
和 $ Y $
是被 $ Z $
d-分离的,则他们在 $ Z $
上条件独立,即:
贝叶斯球(Bayes Ball)算法
给定节点集合 $ X $
和 $ Z $
,提供一个线性时间复杂度的算法,得到节点集合 $ Y $
,满足
马尔可夫等价类
表示相同的条件独立式集合。
判定
拥有相同的骨架以及相同的Immorality集合。
骨架
移除所有边的箭头(去除方向),剩下的就是骨架。
Immorality
是一种三个节点构成的布局。
$ A, B, C $
满足 $ C $
是 $ A $
和 $ b $
共同的孩子:
$ A \rightarrow C \leftarrow B $
。
有限的表达
考虑上图 $ (a) $
中的DAG,我们不能用DAG表示边缘分布:
因果
由上式,我们可以看到两个不同的因果关系,对于条件概率而言是等价的。
严格来讲,信念网络只能表达独立性,而不是因果关系。
Simpson悖论
男 | 病愈者 | 未见恢复者 | 病愈率 |
---|---|---|---|
给药 | 18 | 12 | 60% |
未给药 | 7 | 3 | 70% |
女 | 病愈者 | 未见恢复者 | 病愈率 |
---|---|---|---|
给药 | 2 | 8 | 20% |
未给药 | 9 | 21 | 30% |
总体 | 病愈者 | 未见恢复者 | 病愈率 |
---|---|---|---|
给药 | 20 | 20 | 50% |
未给药 | 16 | 24 | 40% |
分别来看男性或女性,未给药时病愈率更高;然而,总体来看,给药后病愈率反而更高。
如果这个问题的模型是这样的:
其中
那么
但是,
事实上并不存在,实验中是否给药与患者性别无关。
所以
由上可知,总体情况不能像表格中那样计算:
事实上,给药并不能提高病愈率。
$ 实际上,当性别影响给药情况的时候,即 p(D|G) 存在的时候,表格中给出的总体结果是正确的。$
总结
我们的问题是,如果给一个人吃药,会发生什么。
悖论发生,是因为我们在问一个因果(干预)问题。
“我们看到的”(观测证据)和“我们做的”(干预证据)是不同的。
我们首先进行干预,决定是否给药,然后进行观测影响,也就是病人是否病愈。
我们要对这样一个因果实验进行建模。
do-计算
Pearl的do运算符
变量 | 表达式 |
---|---|
所有的变量 | $ X $ |
干预变量 | $ X_C $ |
非干预变量 | $ X_{\bar{C}} $ |
设置变量
为
的推理,等价于干预后概率分布:
即,所有在干预集合中的变量都被设置为其干预的状态。对于干预变量,我们移除对应的条件概率项
干预后概率分布还可简单表示为:
对于一个有因果解释的信念网络,变量的依赖顺序,必须与因果时间顺序相符。
影响图
为信念网络添加一个父决策变量 $ F_X $
到任意一个发生干预的变量 $ X $
上。
例如,Simpson悖论:
其中,
影响图的优点是可以利用信念网络的一般方法来对它进行推理。