基于贝叶斯网络分类器的产品故障率分类研究

减小字体 增大字体 作者:蔡志强 孙树栋 YANNOU Bernard 司书宾  来源:www.zhonghualunwen.com  发布时间:2009-10-12 23:32:29

  0 引言
  
  近年来,由于系统安全、运行效率以及全寿命周期费用等多方面的需求,我国复杂装备维护保障部门已经在装备维修管理方面有了长足的进步。在实施保障服务过程中,计算机管理信息系统都积累了大量的、以不同形式存储的数据资料。由于这些资料十分繁杂,要从中发现有价值的信息或知识,预测装备运行故障率,为维修决策提供数据支持,是非常艰巨的任务。
  贝叶斯网络[1]作为一种直观、高效、可靠的数据挖掘分类预测工具,在不确定性研究和应用领域一直得到极大的重视。Friedman等人[2]在比较了朴素贝叶斯分类器 (nave-Bayes, NB) 和无监督贝叶斯网络分类器 (general Bayesian network, GBN) 分类能力及模型复杂度的基础上,提出了一种新型的树型朴素贝叶斯分类器 (tree augmented nave-Bayes, TAN),通过与决策树C4.5比较,证明可以取得较好的分类效果。Cheng等人[3]提出了一种基于条件互信息的贝叶斯网络学习方法并应用于分类器的构建,实验结果证明其建立的贝叶斯网络朴素贝叶斯分类器 (BN augmented nave-Bayes, BAN) 和GBN能够达到很好的分类精度。Madden[4]提出了一种全新的部分贝叶斯网络 (partial Bayesian network, PBN) 结构,并详细描述了网络的构建规则。PBN以分类节点为核心,直接搜索其马尔可夫覆盖(Markov blanket, MB)节点并加入网络,与其他贝叶斯网络分类器的比较证明其在某些领域能够取得更好的分类效果。但是,由于故障数据集的多样性,研究人员往往需要针对实际案例和数据集进行具体分析才能找到最合适的模型和建模方法。Baesens等人[5]就利用NB、TAN、GBN、Multinet等多种贝叶斯网络分类算法来预测客户消费生命周期内,长期客户的消费趋势坡度,即后续购买欲望的概率,通过与C4.5、LDA、QDA等传统分类算法的比较,表明了GBN最能满足实际预测的要求。
  
  1 贝叶斯网络分类器及建模
  
  应用贝叶斯网络分类器进行分类主要分成两阶段:第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器,包括结构学习和概率分布参数学习;第二阶段是贝叶斯网络分类器的推理,即计算类节点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度,甚至可以是NP完全问题,因而在实际应用中,往往需要对贝叶斯网络分类器进行简化。
  1.1 常用贝叶斯分类网络模型
  1)NB分类器
  NB分类器[6]是最简单的一种情形,如图1所示。其假定各特征变量X在给定目标变量C时,是相对独立的,即P(X1=x1,…,Xn=xn|C=cl)=∏ni=1P(Xi=xi|C=cl),而通过机器学习可以很容易得到各特征变量的条件概率分布P(Xi=xi|C=cl)。因此,当输入一组特征变量观测值(X1=x1,…,Xn=xn)时,可以利用贝叶斯公式计算目标变量的后验分布,实现目标变量分类。其计算公式为
  P(C=cl|X1=x1,…,Xn=xn)=P(C=cl)P(X1=x1,…,Xn=xn|C=cl)/P(X1=x1,…,Xn=xn)=P(C=cl)∏ni=1P(Xi=xi|C=cl)/P(X1=x1,…,Xn=xn)(1)
  虽然各变量条件独立的假设在许多应用领域未必能完全满足,但这种简化的贝叶斯分类器在许多实际应用中往往得到了较好的分类精度。
     2)TAN分类器
  TAN分类器[2]对NB分类器进行了扩展,通过计算特征变量两两之间的条件互信息I(Xi;Xj|C),描述了当给定C时,Xj向Xi提供的信息量。其中条件互信息的定义如下:
  I(Xi;Xj|C)=∑xi,xj,clP(Xi=xi,Xj=xj,C=cl)×

[1] [2] [3]  下一页

Tags:

作者:蔡志强 孙树栋 YANNOU Bernard 司书宾
  • 好的评价 如果您觉得此文章好,就请您
      0%(0)
  • 差的评价 如果您觉得此文章差,就请您
      0%(0)

文章评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论