时间:2022-11-20 12:15:00
Matlab贝叶斯神经网络工具箱是面向Matlab的神经网络工具。 实现贝叶斯网络结构学习、参数学习、推理构建贝叶斯分类器等,支持多种节点(概率分布)、精确近似推理、参数与结构学习、静态动态模型、免费下载、体验。
1引言
在过去的10年左右,成为强大统一的图形模型形式主义的统计被广泛使用。 许多概率模型机的学习和工程,从混合模型、隐马尔可夫模型( HMMs )的、因子分析( PCA ) :卡尔曼lters扩展了范围。 原因是以下报价说明[Jor99] :
图形模型是概率论与数之间的婚姻图论。 他们提供了处理两个问题出现在整个应用数学和工程的不确定性和复杂性上的自然工具,特别是他们越来越多地提供了在学习机设计和分析中起重要作用的算法。 根本的图形模型的思想是将概念模块化,构建复杂的系统,组合简单的部分。 结合概率论,制作零件橡胶,确保该系统整体一致,以及提供方式的数据接口模型。 绘图图形模型提供了直观吸引人的界面通过人机模型高度交互的变量集和数据结构本身自然高效设计的通用算法。
图形模型没有合适的通用软件包。 本文介绍了打算构建BNT的被称为“贝叶斯网络工具箱”的这样的软件包。 首先说明在图形模型表示、推理和学习过程中出现的一些问题。 接下来,我们将讨论现有软件套件针对这些问题的方法。 最后,介绍克服了现有包缺点的BNT。
假定读者已熟悉图形模型基础:见《[Jor02,CDLS99,Edw00,Jor99,Fre98]》。
2图形模型概述提供了两种主要的“方法”:直接和间接。 这也可以将方向性和无方向性结合起来。 我们按顺序分别讨论。
2.1导演的图形模型
无环图( DAG )模型,也称为贝叶斯和信仰网络,在人工智能界很受欢迎。 部分原因是说明他们自己的因果关系[Pea00。 这样就可以方便地手工设计专家系统等结构。 DAG模型还可以对时间箭头进行编码,从而有助于时空数据建模和动力系统。 “此模型有时也称为DBNs或动态贝叶斯网络。 )
DAG的模型也很受欢迎。 因为在贝叶斯统计的社会中,参数可以明确节点(随机变量),并给出分布( prias )。 所生成的图形不仅提供了简单的规定阳离子模型,而且也可以用于例如由Gibbs采样的计算。 这是一个众所周知的包S1包。
包含决策和实用节点和机会节点的DAG模型被称为影响(决策)图,可用于做出最佳决策。
也有被称为依存网络[HCM 00]的图形模型,允许监督周期。 这将是有用的数据可视化,但并不一定定义自己的统一分布。 详情请参照[HCM 00]。
2.1.1方向模型参数
分段参数化可以通过将模型( 2个贝叶斯网络和依赖网络)导向并指定所有本地条件概率分布(草案),即表示分布p )到P(XijPai )。 这里,Xi表示inode和排出它的父节点。 最优包假设所有节点都表示离散的随机变量(分类),另外,除去CPDs的可以表示为表
表中的CPDs是简单的代表,作为学习和使用的推论(参照3.1.1 ),但缺点是需要的参数是父母的指数。 其他陈述仅需要一个线性参数的数量,已经提出并包括喧哗OR[Pea88]及其概括[MH97]、逻辑[乙状结肠]函数[Nea92]。
决策树[BFGK96]可用于表示单个变量(数据相关)的CPDs参数的数量。 他们也选择有用的变量(母公司)内部结构学习算法(参照4.2节)。 前馈神经网络(多层感知器或总纲发展蓝图,条件线性高斯)联络小组)广义线性模型( GLMs )也可用于连续模式CPDs节点。
贝叶斯模型需要各种丰富的国家方案文件,包括Dirichlet先验多项参数、威沙特(伽马)先验方差/精度参数、权重矩阵的高斯先验等。 也可以使用非参数化分布。
容易向用户提供NE异国情调的CPDs。 diculties出现的时候,我们想推算出合适的模型。 和/或试图理解参数来自数据时,我们会讨论以下问题。
2.2无向图模式
有向图模型中也称为马尔可夫网络,是共享物理和计算机视觉的社区。 例如伊辛模型和马尔可夫随机域( MRFs )网格结构马尔可夫网络。 在统计社区,有向模型常用于模型复用应急表,在这种情况下,它们被称为“层次”对数线性模型( [Edw00] )。
2.3混合指示/有向图模式
作为可以将链指向性和有向图是什么与[CDLS99]进行组合的一般例子,在图像处理中,隐藏节点都连接到了没有指向性的2维网格上,但是每个隐藏节点都有孩子拥有的像素的观测值[参照图1 ] 关于推论,从隐藏的像素来观察可以表示一个方向性或者无方向性弧,但是有方向性弧表示会优先提及学习(参照4.1节)。 因子图形式主义[KFL01]是一种非常普遍的方式,使用图形结构在当地代表的全局模型(不一定是概率)和因子。
图1 :图像处理链图。 每个阴影节点都是观察像素,因为它是隐藏的父对象(清除)。 相关风险相互之间,与马尔可夫场配对的潜力被随机建模。 这可能会将[YFW01]相互转换。 但是,所有这些说明可能会导致信息“丢失”。 此信息将implicitely表示为参数。 可以等待这个的计算的复杂推论和模型intrepretability。
3推理
由此可见,我们的意思是计算
其中,Xj表示一系列观测变量,Xi表示一系列隐藏变量的价值,我想我们会感兴趣的。 XK是无关的隐藏变量(骚扰)。 例如,Xi是否可能表示生病的我,Xj可能表示观察到的症状。 或者,喜可能表示未知的参数,Xj的所有数据。 有两个主要推论。 准确和近似。 我们还将讨论下一个问题。
3.1精确推理
严密的推论(有封闭形式的解决方案感) ),特别是在所有隐藏节点都是离散的情况下,或者所有节点(隐藏观察)都具有线性高斯分布的情况下,可能性非常有限
在一些情况下,网络仅仅是稀疏的联合多元高斯参数[SK89,RG99。 专家和隐马尔可夫模型( HMMs )属于前者类别,因子分析和卡尔曼lters属于后者。
有两种主要的精确推理算法。 只有以DAG为工作的模型和以方向性和无方向性图为工作的模型。 DAG的推理算法所利用的规则链的分解合资,p(x )=p ) x1 ) p ) P(X2|X1 ) p ) P(X3|X1 ); X2 )……这基本上与“推高产品内的资金”的边缘化无关,被隐藏着,这被称为节点有效[LD94,Dec96,AM00]; 变量擦除算法。 计算结果是单一的极限p(Xi|XJ )。
常用的推理算法是消息传递定义上的树。 如果原始图中没有循环(循环),则必须将其转换为使用三角形( [Kja90] )或盒式空调( [Dra95] )的所谓边界树。 无有向或有向树,邮件可以并行或连续计算的消息可能与除法相关或无关。 例如,制作珍珠算法的Pea88]有分裂; 制定Hugin/JLO算法的定向树[JLO90]无向树和分工; 制定信念传播[YFW01]和无师无向网络。 这些算法基本上是同等学历。
消息传递算法的优点是在计算所有边缘人的同时,问津。 这是必要的学习。 例如,他们使用动态计划,为了避免重复计算,一次删除了n次每个变量的参与调用变量。 但是,变量的删除比较容易实现,可以优化利用特定查询的知识。
3.1.1电位
实施所有资金和产品方面的推理算法,包括删除变量和消息传递。 它作为对象表示支持的操作(方法)的总和/局部分布的合并、乘法和可选分工。 我们呼唤这类对象的“潜力”。 这只是非负变量在那个区域的功能。
如果域中的所有随机变量都是离散的,则可以将潜在的内容表示为多维数组(表)。 如果域中的所有随机变量都有高斯公共,则可以将其用作多个高斯代表的可能性,例如简单的存储均值、方差和规模因子。 如果某些变量是离散的且有高斯,则可以表示条件高斯的势能( CG ),而不是标量表。 这是高斯表。 最后,如果一些变量是离散的随机变量,一些实用变量是离散的,我们可以表示为一对表的潜力; 这很有用
欧洲地图。 另请参见所有这些类型的潜在说明[CDLS99] [Mur98b]。
CG势可以表示NITE高斯混合物。 不幸的是,这意味着不关闭。 也就是说,假设存在潜在的域(四)。 其中d是k可能值的离散变量,c是连续变量,PD )四)仍然是k个高斯混合。 还没有得到很小的值。 因此,重复的钱和产品的应用会导致代表性大小的爆破。 一种近似是(使用弱边缘化( [Lau92] )减少使用矩匹配的单个高斯混合高斯模型。 “本实施例[Lau92]的数值不稳定,得到了改善[LJ99]。 又见Min01]。
有向模型已经没有参数化的潜力,结党,不需要转换。 虽然是监督模型参数的CPDs,但是我们不容易定义的潜力( Xi; pai(=p )。 但这是唯一可能的CPDs中的几个。 详情请参照7.2.1。
抽象的可能性允许重用同一代码的许多模型。 例如,可以仅通过交换与高斯离散势相同的代码的势来使用,也可以实现前向和后向HMM模型和非线性动力学系统的RTS平滑算法[Mur98a]。
3.2近似推理
即使正确的推理在数学上可行,它在计算上也可能不可行。 推理的成本取决于树宽w图。 也就是说,规模最大的集团位于对应的最佳三角图上。 相反,如果所有(隐藏)节点是离散的二进制值,则推论上需要花费o )-2w )的时间。 (结合高斯分布,推理总是最o(n3 )。 这里,n对于w也是节点的数量。 然而,n可能非常大(例如,应用于图像处理)。 )
在树木(没有有向循环图表)的情况下,树宽为常数(即最大的风扇(母)、图表中的任意节点),推测需要o ) n )的时间。 但是,关于其他的图形,特别是它们的重复结构,树宽网格等,根据变量的数(例如,在N=毫网格中,树宽为o(m )=( pn ) ),很多情况下是不可能正确地推定的。
至少有两个原因之一,可能需要近似推理。 也就是说,是因为计算的正确解的时间过长,或者是没有封闭形式(分析)的解决方案。 (精确推理被称为NP-难一般。 复杂的前者来自某种图结构,后者来自某种分布。 (一般情况下,大多数连续随机变量的分布会产生麻烦的事后,完全观测共轭指数时,是值得关注的例外)。 这里介绍几个棘手的两种技术。
抽样(蒙特卡罗)方法。 最简单的一个重要采样是从中随机采样p(x ),(无条件) x隐藏变量的分布,然后检查重量样本的可能性。 磷( YJX )的,这里y是证据。 更多的电子脑cient方法在高维度上被称为蒙特卡罗马尔可夫链( MCMC ),由此我们可以从后p ) xjy )的样本中,即使在无法计算正常化常数的情况下也能接收p (下YJX ) p ) x )。 MCMC法包括作为特殊案件的Gibbs采样的Metropolis-Hasting算法[Nea93,GRS96,Mac98]。 MCMC法是用贝叶斯统计逼近的主要方法。 变分法。 最简单的例子是坂鹿的平均近似,是利用大数定律随机近似大额变量的手段。 特别是,我们基本上是所有脱钩的节点,引入称为变量参数的新参数,在各节点上,为了尽量减少近似真实概率之间的交叉熵( KL距离)分布,反复更新这些参数。 更新自变量进行推理成为代理。 平均ELD接近生产下限的可能性。 更复杂的方法是可能的,并给出严格的低(上)边界。 教程[JGJS98]。 最近,该技术作为与贝叶斯推理相近的东西被延长并被使用
叫做变分贝叶斯[GB00]。
信仰的传播( BP )。 这需要采用消息传递算法的原始图,即使存在循环。 这原本被认为是不健全的,但优秀的经验成功了[BGT93],证明可以使用BP算法
[MMC98]引起了大量的理论分析,表明BP是密切相关的变分方法[YFW01,SO01]最近,该技术已扩展到近似的贝叶斯推理,并使用技术[Min01]被称为期望的传播