首页 >> 大全

(《机器学习》完整版系列)第7章 贝叶斯分类器——7

2023-12-11 大全 24 作者:考证青年

贝叶斯网是关于属性的,有向线表示“依赖”性的父子关系;通过属性的条件概率表CPT来描述。

有向图转化为无向图:让两亲联姻(连接两结点),称为道德化。

网络结构也是“超参数”,如何选择该“超参数”?

贝叶斯图络学习:两级搜索法

贝叶斯网结构

贝叶斯网(也称信念网)记为 B = < G , Θ > B= B=

假定每个属性与其非后裔属性独立,

由此定义属性的联合分布为

P B ( x 1 , x 2 , ⋯ , x d ) = ∏ i = 1 d P B ( x i ∣ π i ) = ∏ i = 1 d θ x i ∣ π i \begin{align} P_B(x_1, x_2,\cdots,x_d) & =\{\prod }\{i=1}^dP_B(x_i\,|\,{\pi}_i ) \tag{7.40} \\ & =\{\prod }\{i=1}^d {\theta}_{x_i\,|\,{\pi}_i } \tag{7.41} \end{align} PB​(x1​,x2​,⋯,xd​)​=i=1∏d​PB​(xi​∣πi​)=i=1∏d​θxi​∣πi​​​(7.40)(7.41)​

其中, θ x i ∣ π i {\theta}_{x_i\,|\,{\pi}_i } θxi​∣πi​​需要查表,而表有时不是直接给出的,要通过对数据集 D D D中的样本情况进行分门别类地“计数”统计,计算频率来估计的。

【西瓜书图7.3】描述了贝叶斯网中三种依赖关系,并讨论了独立性。

给定一个结点的值,相当于把这个结点染上了黑色(即不能再变化),以此技巧来思考“给定结点值”的情况,则易于理解,如下以生物学的例子来增强记忆。

如图7.1所示, V V V型结构是双性繁殖( V V V型结构的记忆口诀:自由恋爱好独立,奉子成婚难独立)\tacg{ch7:marr},当 x 1 , x 2 x_1,x_2 x1​,x2​的孩子 x 3 x_3 x3​的肤色性状已经确定(如,黑白混血小孩),那么,当 x 1 x_1 x1​为白人时, x 2 x_2 x2​应为黑人,反之亦然。 故孩子 x 3 x_3 x3​的性状给定时,双亲 x 1 x_1 x1​与 x 2 x_2 x2​的性状不独立。

图7.1 V型结构

V V V型结构中, x 1 x_1 x1​与 x 2 x_2 x2​可以“自由恋爱”(即独立)生出孩子 x 3 x_3 x3​。 即在不给定“共子” x 3 x_3 x3​的值时,其父母 x 1 , x 2 x_1,x_2 x1​,x2​是独立的,

_分类器的构造和实施步骤_分类器的基本构成

理论上由【西瓜书式(7.27)】所验证,称为边际独立,记为 x 1 ⊥ ⁣ ⁣ ⁣ ⊥ x 2 x_1 \perp \!\!\! \perp x_2 x1​⊥⊥x2​。

注:求和符号起边际化的作用,就像在二维表中,对行(或列)求和(即通常的小计),写到最右“边”(边上加一列)(或最下“边”(加一行))中。

如图7.2左侧所示,在同父结构中,若父 x 1 x_1 x1​已知(父 x 1 x_1 x1​被染黑色)时,单性繁殖了两兄弟 x 2 x_2 x2​与 x 3 x_3 x3​,影响两兄弟特质变化的外因 x 1 x_1 x1​已定,即已体现在两兄弟身上了,不再变化,而再变化的是各自的内因,内因引起的变化当然是独立的。 即变化是条件独立(记忆口诀:单性繁殖两兄弟,内因变化是独立,条件是外因已一致),记为 x 2 ⊥ x 3 ∣ x 1 x_2\, \bot \, x_3\, |\, x_1 x2​⊥x3​∣x1​。

图7.2 同父结构

如图7.2右侧所示,在同父结构中,若父 x 1 x_1 x1​未知(父 x 1 x_1 x1​未被染色)时,则

P ( x 2 , x 3 ) = ∑ x 1 P ( x 1 , x 2 , x 3 ) = ∑ x 1 P ( x 1 ) P ( x 2 ∣ x 1 ) P ( x 3 ∣ x 1 , x 2 ) ≠ ∑ x 1 P ( x 1 ) P ( x 2 ∣ x 1 ) P ( x 3 ) = P ( x 3 ) ∑ x 1 P ( x 1 ) P ( x 2 ∣ x 1 ) = P ( x 3 ) ∑ x 1 P ( x 1 , x 2 ) = P ( x 3 ) P ( x 2 ) \begin{align} P(x_2,x_3) & =\sum_{x_1}P(x_1,x_2,x_3)\notag \\ & =\sum_{x_1}P(x_1)P(x_2\,|\,x_1)P(x_3\,|\, x_1,x_2)\notag \\ & \neq \sum_{x_1}P(x_1)P(x_2\,|\,x_1)P(x_3)\notag \\ & = P(x_3)\sum_{x_1}P(x_1)P(x_2\,|\,x_1)\notag \\ & =P(x_3)\sum_{x_1}P(x_1,x_2)\notag \\ & =P(x_3)P(x_2) \tag{7.42} \end{align} P(x2​,x3​)​=x1​∑​P(x1​,x2​,x3​)=x1​∑​P(x1​)P(x2​∣x1​)P(x3​∣x1​,x2​)=x1​∑​P(x1​)P(x2​∣x1​)P(x3​)=P(x3​)x1​∑​P(x1​)P(x2​∣x1​)=P(x3​)x1​∑​P(x1​,x2​)=P(x3​)P(x2​)​(7.42)​

不等式(7.42)表明此时 x 2 x_2 x2​与 x 3 x_3 x3​不独立,称为 x 2 x_2 x2​与 x 3 x_3 x3​关于 x 1 x_1 x1​的边际独立不成立。

按如下方法将有向图转化为无向图:

这样生成的图称为道德图。

在道德图中,若去掉一些结点(结点集 z \{z} z)后,使得结点 x x x和 y y y不再连通,则称 x x x与 y y y被 z \{z} z有向分离(注:这里""翻译成了“有向”,若翻译成“受控的”,则为“受控分离”,这更贴切),记为: x ⊥ y ∣ z x\, \bot \, y\, |\, \{z} x⊥y∣z,即在 z \{z} z的控制下, x x x与 y y y独立。 当集合 z \{z} z退化成一个结点 z z z时,即为前述的条件独立: x ⊥ y ∣ z x\, \bot \, y\, |\, z x⊥y∣z。

贝叶斯图络学习

当网络结构已知时(即有向图的父子关系已知),则训练分类器的步骤为

然而,在现实中,通常不知道网络结构,只有训练集 D D D的数据,这时,将网络结构视为“超参数”。 下面讨论如何选择该“超参数”:

(1)先给定对网络结构评价的偏好,如,最小描述长度(MDL),即找一个能以“最短编码长度”契合训练数据的模型:

由上述两点即可构造出一个评分函数(以求 min ⁡ \min min为目标)

s ( B ∣ D ) = f ( θ ) ∣ B ∣ − L L ( B ∣ D ) \begin{align} s(B\,|\,D)=f(\theta )|\, B\, |-\{LL}(B\,|\,D) \tag{7.43} \end{align} s(B∣D)=f(θ)∣B∣−LL(B∣D)​(7.43)​

针对式(7.43)中的第一项,我们看三种特殊情况:

针对式(7.43)中的第二项,我们进行分解

L L ( B ∣ D ) = log ⁡ P ( D ∣ B ) (对数似然) = log ⁡ P B ( D ) (为明确起见,换个概率符号) = log ⁡ P B ( x 1 , x 2 , ⋯ , x m ) ( x i 为样本) = log ⁡ ∏ i = 1 m P B ( x i ) (由样本的独立性) = ∑ i = 1 m log ⁡ P B ( x i ) \begin{align} \{LL}(B\,|\,D) & ={\log} P(D\,|\,B)\qquad \text{(对数似然)}\notag \\ & ={\log} P_B(D)\qquad \text{(为明确起见,换个概率符号)}\notag \\ & ={\log} P_B(\{x}_1,\{x}_2,\cdots,\{x}_m)\quad \text{($\{x}_i$为样本)}\notag \\ & ={\log} \{\prod}\{i=1}^m P_B(\{x}_i)\quad \text{(由样本的独立性)}\notag \\ & =\{\sum}\{i=1}^m {\log} P_B(\{x}_i)\tag{7.44} \end{align} LL(B∣D)​=logP(D∣B)(对数似然)=logPB​(D)(为明确起见,换个概率符号)=logPB​(x1​,x2​,⋯,xm​)(xi​为样本)=logi=1∏m​PB​(xi​)(由样本的独立性)=i=1∑m​logPB​(xi​)​(7.44)​

P B ( x i ) = P B ( x i 1 , x i 2 , ⋯ , x i d ) = ∏ k = 1 m θ x i k ∣ π k (由式(7.41),下标改为上标 k ) \begin{align} \quad P_B(\{x}_i) & =P_B(\{x}_i^1,\{x}_i^2,\cdots,\{x}_i^d)\notag \\ & =\{\prod}\{k=1}^m{\theta}_{x_i^k\,|\,{\pi }^k}\quad \text{(由式(7.41),下标改为上标$k$)}\tag{7.45} \end{align} PB​(xi​)​=PB​(xi1​,xi2​,⋯,xid​)=k=1∏m​θxik​∣πk​(由式(7.41),下标改为上标k)​(7.45)​

其中, θ x i k ∣ π k = P B ( x i k ∣ π k ) {\theta}_{x_i^k\,|\,{\pi }^k}=P_B({x_i^k\,|\,{\pi }^k}) θxik​∣πk​=PB​(xik​∣πk),下标表示样本编号,上标表示属性编号, π k {\pi }^k πk为第 k k k个属性的父结点集(与样本无关,故它不带下标)。

因 B B B不知,而 D D D已知, B B B要求契合于 D D D,故应

θ x i k ∣ π k = P ^ D ( x i k ∣ π k ) \begin{align} {\theta}_{x_i^k\,|\,{\pi }^k}=\hat{P}_D({x_i^k\,|\,{\pi }^k}) \tag{7.46} \end{align} θxik​∣πk​=P^D​(xik​∣πk)​(7.46)​

其中,右侧为 D D D上的经验分布,它可通过对 D D D中的样本进行分门别类地“计数”,统计频率来估算。

问题又来了: π k {\pi }^k πk并不知道,无从“分门别类”。 也说是说:只有在 k k k属性结点之父 π k {\pi }^k πk确定了,才可依上述讨论求出 s ( B ∣ D ) s(B\,|\,D) s(B∣D)。

综上, max ⁡ L L ( B ∣ D ) \max \{LL}(B\,|\,D) maxLL(B∣D)变为一个“两级搜索”问题:

通过两级搜索得到最优贝叶斯网络 B ∗ B^* B∗,最优贝叶斯网络 B ∗ B^* B∗体现为: 结构 G G G(部分超参数+搜索其他参数)+一组条件概率表CPT(参数 Θ \Theta Θ),如【西瓜书图7.2】所示。

本文为原创,您可以:

上一篇:7.5 特殊的半朴素贝叶斯分类器(SPODE、TAN、AODE,研究特殊的“父子”关系)

下一篇:7.7 贝叶斯网络分类器(分类可视为一种特殊的查询)、贝叶斯网络推断(查询一组结点称为“推断”)

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了