3.4 多源高冲突信息基本概率赋值方法及其应用
数理统计学是应用数学的一个分支,它以概率论为基础研究如何以有效的方式收集、整理和分析受到随机性影响的数据,以对所考察的问题进行推断和预测,直至为采取决策和行动提供依据和建议。
3.4.1 基本思路
当因识别框架不完整而造成证据冲突时,可以不依赖先验信息,利用信息间互补性与一致性,自组织学习融合识别。首先,由各分类器的初始分类结果通过投票法做出最初判决,同时将各分类器得到的信息直接通过DS证据理论进行融合判决,如果所得的结论一致,则认为该样本有效,并把它放入训练样本集,通过这样的积累方式得到一个训练样本集。其次,利用自组织映射(Self Organizing Map,SOM)神经网络进行聚类分析得到多个聚类,通过混淆矩阵表示各聚类中识别结果误分配概率,并在证据理论框架下对其进行修正,摒弃经典的未知项折扣算法;同时为充分考虑冲突信息带来的影响,将未知项赋予并集进行优化修正。
3.4.2 训练样本生成
对各证据源得到的信息(也就是各分类器所得的结果)首先采用多数原则做出最初判决,若绝大多数分类器具有相同的判决结果,即该结果对应的投票率就高,则表明此判决结果可靠性较高。通常情况下,需要设定一个投票阈值,若分类器所得的分类结果中某个结果的投票率大于或等于所设定的阈值,则说明该组结果可靠性较高。
训练样本集生成思路:首先依据各分类器的初始分类结果通过投票法做出最初判决,再将各分类器得到的信息直接通过DS证据理论进行融合判决,如果两者判决结果一致,则认为该样本可靠,将该样本放入训练样本集中,通过这样的累积生成一个训练样本集。训练样本的生成流程如图3.2所示。
图3.2 训练样本集的生成流程
假设鉴别框架为Θ={w1,w2,…,wc},C1,C2,…,CN为 N 个分类器,且已知各分类器的分类结果,首先采用投票法进行样本积累,假设有 M 个训练样本在训练样本集中,用式(3.14)表示每一个分类器对每个训练样本的分类结果。
其中,样本所属类别wφ的概率用mi, j(φ),φ=1,2,…, c表示。
假设w(t)是训练样本的真实类别, Ti(t)=1;Ti(φ)=0,φ≠t是样本的真值。如果经过分类器融合判决后得到的期望与Ti是一致的,那么
例3.1 假设某一目标样本的识别结果由5个分类器通过融合形成,同时该目标样本可能的分类数目为3,假设5个分类器得到的识别结果如下:
通过上述5个分类器的分类结果可以看出,除P2外,其他4个分类器根据概率最大准则可归类为类别1,类别1对应的投票率为80%。假设我们设定的投票阈值σ=80%,则投票率大于或等于σ,所以投票法所得识别结果将该目标样本归为类别1。
对5条证据进行DS证据理论融合,所得结果为:PDS (1)=0.86, PDS (2)=0.10,PDS (3)=0.04,也将该目标样本判决为类别1。
通过投票法及DS证据理论的共同验证,可以认定待识别目标样本的实际分类为类别 1,所对应的真值为T=[1,0,0]。将该待识别目标样本的真值及5个分类器的结果添加到训练样本集中。
3.4.3 多源高冲突信息基本概率赋值方法
1.自组织映射网络聚类算法
T.Kohonen在1981年提出SOM网,可以把输入信号(任何维度)转化为低维度的离散映射,并且在执行该变换时采用拓扑有序的方法。在创建 SOM网时可以把神经元放在低维度的网格节点上。神经元可以在激烈的学习中,通过选择性微调的方式适应输入模式类别或者各种输入刺激(模式)。经过这样的调整,神经元的位置会更加有序,同时可以通过此网格节点建立对输入特征而言有作用的坐标系。所以,可以把输入模式通过SOM网形成需要的拓扑映射,并可把它看作主成分分析(PCA)的一种非线性的推广。
SOM 网实际上是一个两层结构的神经网络,由竞争层和输入层组成,且两者间通过神经元双向连接。最大的特点就是它可以把任意维度的输入与一维、二维或多维离散空间进行映射。线性排列的位于竞争层的神经元对应一维模型,同样位于该层的平面型排列的神经元对应的是二维模型。每一个聚类对应竞争层中的一个网络节点,进行训练时,每一个样本都会在竞争层中寻找一个与其最匹配的网络节点作为最优节点,最优节点邻域内的点可根据距离因子更新权重。SOM网学习过程示意图如图3.3所示。
图3.3 SOM网学习过程示意图
可以将此自组织过程形象地描述,具体步骤如下:
(1)如果有4个数据点(×)位于一个连续的输入空间中,该空间是二维的,并且要将这4个数据点映射到输出空间(输出空间为离散一维空间)的4 个点上。用(°)表示由输出空间映射到输入空间的点。通过随机初始化权重的方式让(°)的初始位置位于输出空间的中心。随机初始化示意图如图3.4所示。
(2)随机选择一个数据点⊗进行训练。最优的神经元是最接近的输出点。数据点移动保证两相邻神经元按照箭头指示方向移动较小的量。初始点训练示意图如图3.5所示。
图3.4 随机初始化示意图
图3.5 初始点训练示意图
(3)任意挑选另一个数据点开始训练。新的最优神经元仍然是最接近的输出点。与前一步骤相同,当数据点移动一定量时,要保证相邻的一个神经元也按照箭头的指示方向朝该数据点移动较小的量,如图3.6(a)所示。
依此下去,整个输出便可以通过自身重组的方式表示整个输入空间,如图3.6(b)所示。
图3.6 数据点训练示意图
自组织映射网络聚类算法过程归纳如下:
(1)初始化。拓扑关系被确定后,初始化每个神经元节点,使得输入样本的维度与各神经元节点初始化参数的个数保持一致。
(2)采样。在输入空间上随机选取一个样本,记为X={xi, i=1,2,…, D},作为输入。通过欧氏距离公式算出这个D维的输入样本同每个神经元节点之间的距离:
(3)匹配。选取最优神经元I ( x),它的权重向量最接近输入样本,即最优神经元I(x)的输出是由最近距离的神经元节点来表示的。这里用Si,j表示两神经元节点i和 j间的距离,对最优神经元节点的临近节点进行如下更新:
其中,Tj,I(x)表示更新后的临近点;σ2为对应的估计方差。
(4)更新。利用梯度下降法进行更新:
(5)迭代。进行迭代运算直至特征映射稳定,即当聚类中心与神经元权重基本保持一致时迭代停止。
应用SOM网完成训练样本的聚类后,在应用中主要是对训练样本集中的样本完成知识的获取。
2.混淆矩阵ψ的定义与求解
混淆矩阵也称作误差矩阵,常用于监督学习,它还可以比较实际测得值与分类结果之间的关系,这里引入混淆矩阵ψ:
其中,ψij表示分类器在将目标样本分给i类的前提下实际属于 j类的概率。
假设共有C个目标类记作{y1 , y2 ,…, yC},某待测目标样本xs有M个聚类,假设目标待测样本xs归为目标类yi(i=1,2,…, C),并且权重系数为μ,即
然后,从M个聚类中找出那些被分配给目标类yi(i=1,2,…, C)的样本,假设有N个,计算这N个近邻被修正后的值(即μψ)与训练样本真值T之间的偏差(这里取欧氏距离)和,即
将式(3.21)最小化算得ψ,即为所求混淆矩阵。
3.证据理论框架下的混淆矩阵修正方法
假设某样本通过SOM聚类算法一共得到了M个聚类,同时该目标样本可能的分类数目为3,如果这M个聚类分类结果一致且分类与实际相符,则此种情况下无须估计混淆矩阵ψ,直接分类即可。如果得到的M个聚类分类结果都分给了类别1,但实际上其中一部分属于类别2或类别3,此时需要引入混淆矩阵ψ,利用混淆矩阵修正分类结果,以此来提高分类精度。
M个聚类到目标样本的距离是不同的,距离越近参考价值越大,距离越远参考价值越小,所以在对M个聚类进行优化时各自的权重wk应该与其到目标样本的距离成反比。这里采用负指数函数表示,即
其中,k=1,2,3,…,M,dk为第M个聚类到目标样本的距离,这里取欧氏距离。
混淆矩阵ψ中的元素ψij表示的是分类器在将目标样本分给i类的前提下实际属于 j类的概率。因为分类器输出的结果都是估计的,这里假设分类器输出结果为iμ,在以往的经典算法中,会将ψij×iμ直接分给 j类。然而这些结果是根据M个聚类估计出来的,这M个聚类与目标样本之间的差距有多大并不知道,因此不能完全代表目标样本。为了克服这个难题,这里提出一种证据理论框架下的混淆矩阵修正方法,该方法不再将ψij×iμ直接分给 j类,而是将其赋值给μi∪j,这样风险降低了很多。经过折扣后可得到相应的基本概率赋值,假设是一个 A、B、C 三类问题,经过上述折扣后有m(A)、m(B)、m(C)、m(A∪B)、m(A∪C)、m(B∪C),若想让它们与真值最近,此时应该算出它们与真值之间的距离,因为真值里并不存在A∪B、A∪C、B∪C,可以根据A、B、C算得似真度函数。即
算得似真度函数后将其归一化,归一化后就是一个概率值,将此概率值与真值求差,再加上权重wk就可以优化混淆矩阵ψ了。利用该混淆矩阵ψ便可以对待测目标样本初始分类结果进行修正。继续通过此方法对每一个目标样本都进行修正,最后做出决策即可。
4.算法步骤
多源高冲突信息基本概率赋值方法流程如图3.7所示。
图3.7 多源高冲突信息基本概率赋值方法流程
具体步骤如下:
(1)生成训练样本集;
(2)根据自组织映射网络聚类算法进行聚类分析,得到M个聚类;
(3)找出M个聚类中与目标分类一致的点,直接进行分类;
(4)分类不一致时,算出每个点的权重wk,,其中;
(5)用证据论理的方法进行折扣,折扣后算出归一化的似然函数,得到其与真值之间的距离,随之优化使得距离之差最小;
(6)每一个目标样本都用混淆矩阵ψ进行修正,然后根据似然函数做出决策。
5.算例分析
在实验仿真过程中,选取了三种常用的分类器:Bayes分类器、SVM分类器以及 ENN 分类器来进行模拟实验,并且在 UCI 国际公开数据库(http://archive.ics.uci.edu/ml)中抽取10组数据集(Banana、Iris、Magic、Pima、Satimage、Sonar、Titanic、Vehicle、Vertebral、Vowel)进行验证。数据集基本信息如表3.5所示。
表3.5 数据集基本信息
当数据集样本数目很多时,通常情况下选取其中一半的数据用来对各分类器进行训练,另外一半数据用来测试。但当数据集样本数目不是很充足时,考虑减少用来训练的样本的数目,把较多的样本用来作为分类器输出测试分类效果。当然,要在保障分类器及训练性能的前提下选择样本,不宜过多也不能过少,比例很重要。
生成有效的训练样本集后,根据类别数对训练样本进行聚类。在每一个聚类中找出与目标样本分类一致的点,并计算出每个点的权重,在证据理论框架下进行折扣,算得归一化似然函数,得到其与真值之间的距离,随之优化得到混淆矩阵ψ,然后每一个样本的初始分类结果都用混淆矩阵ψ进行修正,最后根据似然函数做出融合决策即可。
将上述十组数据集分别用三类分类器进行模拟实验,对未引入与引入混淆矩阵进行修正的分类结果进行比较,如表3.6和图3.8所示。
表3.6 各分类器修正前后分类结果对比表 单位:%
图3.8 在不同分类方法下数据集的分类效果图
图3.8 在不同分类方法下数据集的分类效果图(续)
图3.8 在不同分类方法下数据集的分类效果图(续)
图3.8 在不同分类方法下数据集的分类效果图(续)
通过各分类器修正前后分类结果对比和数据集在不同分类方法下的分类效果图可以发现,三种分类器在经过修正后,分类结果的精度均得到了不同程度的提高。说明多源高冲突信息基本概率赋值的新方法能够在无先验知识的前提下,通过样本自身获取有用的信息,有效地克服了因为识别框架不完整而造成的信息间互相冲突的问题。通过引入混淆矩阵对原始分类结果进行修正得到更加准确的分类识别结果,在目标识别领域具有可行性和有效性。