因为问题的不一样和证据处理人员知识背景及偏好的不一样,同一个证据处理人员在对不一样问题,不一样的证据处理人员针对同一个问题,均可能构建多个不一样的识别框架。这些识别框架中包含的元素的数目、元素含义等方面可能有所差别,识别框架之间的逻辑关系也可能不一样。html
而证据推理方法须要在同一个识别框架下对多批证据进行融合,为此,须要对多个识别框架进行分类,并肯定识别框架等价及其相互之间的转化方法。安全
通常来讲,识别框架的类型不一样,信息处理方法也不一样。每种识别框架就表明了一种看待目标对象的抽象视角。网络
就单个识别框架来讲,根据识别框架中元素的不一样,能够将识别框架分为多种类型。框架
设 Θ1,Θ2,.....,Θn 为 n 个不一样的识别框架,若这 n 个框架分别从不一样的角度处理同一个问题,则称这 n 个框架为平行框架。函数
例如,在风险评估时,甲对某个指标比较熟悉,他对该指标所反映的风险程度构建识别框架:spa
Θ甲 = {低、较低、中、较高、高} 日志
并给出了相应的信度函数。code
而乙对该指标的熟悉程度相对较弱,构建的风险程度识别框架为:htm
Θ乙 = {低、中、高} 对象
也给出了相应的信度函数。
能够看出,因为专家自身知识背景和我的偏好的不一样,对同一个问题构造的识别框架也不一样,此时的识别框架 Θ甲 和 Θ乙 为两个平行框架。
通常来讲,平行框架是针对同一个问题不一样方面,或不一样信息源针对同一问题某个方面而构建的,其特性和概念是相容的,一般有公共的精细框架,故平行框架是相容框架。
笔者思考:
对于安全数据分析来讲,一项基础工做就是所谓的日志采集,例如进程启动日志、进程网络外连日志、进程写文件日志、文件落盘日志。这些不一样的日志表明了当前系统行为的一个描述切面。从识别框架的角度来看,基于不一样的日志能够抽象为不一样的离散状态集(集合中的每个状态表明了一个系统状态描述)。
设 Θ1,Θ2,.....,Θn 为 n 个不一样的识别框架,若这 n 个框架中后一个识别框架中的元素用来修饰(说明)前一个识别框架中的元素。
则称这 n 个框架为 n 维递进框架。
例如,在科学基金立项评审的同行评议表中,“综合评价”和“熟悉程度”能够看作一个两维递进识别框架。
设 Θ1,Θ2,.....,Θn 为 n 个不一样的识别框架,若这 n 个框架中并列框架和递进框架并存,则称这 n 个框架为混合框架。
例如,在科学基金立项评审的同行评议表中,“综合评价”、“资助意见”、“熟悉程度”三个框架本质上是一组混合框架,
在多个识别框架的构建过程当中,平行框架一般是针对决策问题属性的特色或决策者根据本身的知识背景和偏好而构建的;而递进框架一般是用来反映决策主体与决策过程特征信息的,每每反映了决策者给出的决策信息质量。
为了便于将不一样识别框架上的信息进行融合,通常要求将不一样识别框架上的信息转化到同一个识别框架上,为此,须要对不一样识别框架的等价性和评估等价的概念进行界定。
设两个识别框架分别为 Θ = {θn,n=1,2,....,N1} 和 Ω = {ωn,n=1,2,....,N2},若对,都存在惟一的 ωn 与之等价,记为:
反之,若对,都存在惟一的 θn ∈ Θ 与之等价,则称识别框架 Θ 和 Ω 等价(一正一反都成立),记为:
例如,在对汽车的发动机的噪声进行评价时,存在两个识别框架,
两个识别框架的元素,都彼此存在惟一的等价元素,则识别框架 Θ 和 Ω 等价。
显然,若识别框架 Θ 和 Ω 等价,则有 N1 = N2。
设 Θ 和 Ω 为两个等价的识别框架,且在两个识别框架下的基本可信度分配分别为:
则当且仅当 N1 = N2 且 β1,n = γ2,n 成立时(n=1,2,...,N1),称两个基本可信度分配 m1 与 m2 等价,记为
这里须要注意的是,实际状况中,彻底等价的识别框架是比较少见的,而是彼此错位的,即彼此相容而又不彻底一一对应(N1 ≠ N2),且一个框架中的元素(θ ∈ Θ)并不必定刚好对应于另外一个框架中的某个元素(ω ∈ Ω),而是以必定程度对应于另外一框架中多个元素。
为此,这里给出识别框架元素间几率等价的概念定义。
若 θ1,n ∈ Θ 以 α2,l(l=1,2,....,N2) 的程度对应于 ωl ∈ Ω,其中
0 ≤ α2,l ≤ 1,,即知足几率完备性
则称框架 Θ 中的元素 θ1,n 与框架 Ω 中的元素集 {(ωl,α2,l),l=12,....,N2} 以几率等价,记为:
在多属性群决策中,上述等价关系一般是由决策者提供的,其中意味着元素 θ1,n ∈ Θ 的效用和 {(ωl,α2,l),l=12,....,N2} 的指望效用
相等。
若对,均有
;反过来,对
,均有
,则称识别框架 Θ 和 Ω 以几率等价,记为:
所以,从逻辑关系上来讲,识别框架能够分为:
从转化关系(等价关系)来讲,有
传统的基于单层识别框架的决策在信息的表示上,未能反映决策者提供的决策信息的质量,所以信息对多个意见的合成具备重要做用,直接影响了决策质量。也就是所谓的训练样本的纯度和丰富度决定了模型的最终效果。
所以,有必要增长一维信息反映专家决策知识和行为特征,并对原有决策信息进行修正,以更加精确有效地利用专家信息。
咱们本章来讨论两维语义信息的语义表示及集结方法。
设 Hn(n=1,2,...,N) 和 St(t=1,2,...,T) 分别为预先定义好的语言评价集 H 和 S 中的第 n 个和第 t 个元素,其中 Hn 和 St 知足如下几个特性:
极大化运算和极小化运算:当时,有 max(Hi,Hj) = Hi,max(Si,Sj) = Si,min(Hi,Hj) = Hj,min(Si,Sj) = Sj
对一个判决问题,决策者同时构建了两个识别框架(语言短语集)H = {H1,H2,....,HN} 和 S = {S1,S2,....,ST},使用了1、二两个维度识别框架中的评价信息描述本身对于某一事物的评判。
这种由两个维度造成的语言评价信息 (Hn,St) 称为两维语义评价信息。
例如,在国家天然科学基金立项评估中,同行评议意见表中预先构建了两个语言评估框架:
同行评议专家提供评价信息 (Hn,St)(n=1,2,3,4; t=1,2,3) 即为两维语义评价信息。
在两维语义评价信息中,第二维评价信息是用来描述第一维评价信息质量的,经过第二维语义评价信息,不只可以反映决策者评价信息的质量,同时也能反映决策信息的不肯定和不彻底程度。
例如,同行评议专家提供评价信息 (优,较为熟悉) 即为两维语义信息的一个实例,
因为两维语义信息不只可以反映决策者评价信息的质量,同时也能反映决策信息的不肯定和不彻底程度。
同时咱们知道,证据理论用信度函数表示证据,信度函数知足半可加性,它比几率函数能更恰当表示信息中的”不肯定性“和”不知性“。所以,两维语义信息的语义,可用信度函数来表示,便可用证据理论中的证据体来表示两维语义评价信息。
设 H = {H1,H2,....,HN} 和 S = {S1,S2,....,ST} 分别为1、二两个维度上的语言集,将语言集 H 视为证据理论中的识别框架,则两维语义信息 (Hn,St) 的语义可经过映射 f 表示为证据体:
其中,βtk 表明一个点信度,表示两维语义信息 (Hn,St) 支持 Hk ∈ H(k=1,2,...,N) 为真的置信度,且知足:
,即信度分配函数的完备性
则称 f 为两维语义的点信度表示函数。
两维语义的点信度表示函数可由多个专家基于领域经验得出,也能够经过数据驱动的方式从大样本中得出(例如神经网络)。
通常来讲,两维语义的点信度函数遵循如下规则:
信度单峰规则:(Hn,St) 转化成的证据体 {(Hk,βtk),k=1,2,....,N},其信度应以 Hn 为单峰,且距离 Hn 越远,其信度就越小。即对,有
,且若 | i-n | < | j-n |,则有 βt(Hi) > βt(Hj),其中 i,j ∈ {1,2,....,N}
两维语义的点信度表示法要求给出两维语义支持各语言评价等级的精确置信度,这对决策者的领域知识或者有监督样本集的要求较高。
可是因为客观事物的复杂性(相关性不明显,或者伪相关性)和人类自身知识的局限性,两维语义的区间信度比精确的点信度表示更容易获取。
针对两维语义信息 (Hn,St) 的语义,假设专家用映射 g 表示区间信度:
其中,表明一个区间信度,表示两维语义信息 (Hn,St) 支持 Hk ∈ H(k=1,2,...,N) 为真的置信度,且知足:
,一样须要知足信度分配函数的完备性
则称 g 为两维语义的区间信度表示函数。
相似的,两维语义的区间信度表示法也一样遵循”不彻底信息“和”信度单峰“语义规则。
由两位语义信息 (Hn,St) 的信度表示法可知,两维语义信息不只反映了决策者对待处理问题的评价,同时反映了决策信息的质量(包括决策信息的不肯定性和不彻底性),所以对两维语义信息进行比较,关键是如何处理不肯定和不彻底信息。
对于两维语义的点信度表示法,能够采用两种处理方法:
对于两维语义的区间信度语义表示法,可利用基于连续的有序加权平均算子(continuous ordered weighted averaging,C-OWA)算子的区间信度的点化法,将区间信度转化为点信度,再进行比较。
点指望得分法将两维语义中的第一个维度上的语言短语量化为得分,经过两维语义的证据体表示中的信度计算两维语义信息的加权平均得分。
设第一个维度上的语言集 H = {H1,H2,....,HN},且(i < j),(Hn,St) 的点信度语义为
。假设语言短语 Hi 的得分为 hi,知足 hi < hj(i < j)。与加权平均法相似,可定义两维语义信息的指望得分 E[(Hn,St)]:
由证据体表示的两维语义信息,经过指望得分化为得分值,从而可将多个两维语义信息进行比较、排序。这种方法计算简单,但缺点是处理过程有损失。
区间指望得分法首先也将两维语义中的第一个维度上的语言短语量化为得分,当 βt(H)>0时,为了便于多个两维语义信息比较,将这部分信度分别赋予最小分值和最大分值,由此,产生一个得分区间。
设第一个维度上的语言集 H = {H1,H2,....,HN},且(i < j),(Hn,St) 的点信度语义为
。假设语言短语 Hi 的得分为 hi,知足 hi < hj(i < j)。
当时,说明因为人们对问题的不确知而将这一部分信度赋予了整个框架。为了便于比较,将这部分信度分别赋予 min(H1,H2,...,HN) = H1,max(H1,H2,...,HN) = H1。则两维语义信息 (Hn,St) 的最小、最大指望得分分别为:
从而可得两维语义信息 (Hn,St) 的指望得分区间:
[minE[(Hn,St)],maxE[(Hn,St)]]
这种信度分配方法很容易理解,由于因为信息的不彻底或人们认识能力的局限性,信度 βt(H) 不知该分配到哪一个评语上,但不管这部分信度如何分配,两维语义信息 (Hn,St) 的指望得分均落在上述区间中。
显然,当 β1(H) = 0 时,上述区间退化成一个点;而当 βt(H) = 1 时,即当人们对问题彻底无知时,该区间就退化为 [h1,hN]。
根据区间数的可能度公式可对多个两维语义信息进行比较、排序。
相比点指望得分法,得分区间法计算较复杂,但结果更精确,处理过程当中信心损失较少。
根据两位语义信息的语义表示,对多个两维语义信息的集结转化成了对多条证据的集结。
目前,证据的融合方法主要有:
Dempster合成规则在处理高度冲突的证据时,其结果每每有悖常理,例如著名的Zadeh悖论。
改进的冲突证据合成规则从不一样的角度对Dempster合成规则进行了改善,而且在某些领域取得了较好的应用,但处理的冲突证据都有必定应用背景和使用哦范围限制,且在处理不一样权重信息的证据方面也存在必定的困难。
而证据推理方法是由Yang等人在1994年提出来的,后又对此进行了完善和发展。该方法应用权重修正证据源,并在合成过程当中对未分配的信度进一步细分为由权重引发的不彻底和由信息源给出的判断不彻底两部分。证据推理合成规则在处理不一样权重的多条证据的融合方面具备独特的优点,且能很好地处理高度冲突的证据合成问题。
因为不一样的两维语义信息的质量不一样,其在信息融合的重要性也不相同,即不一样两维语义信息的权重不一样,且多个两维语义信息也存在高度冲突状况。所以,咱们经过引入证据推理算子对多个两维语义信息进行融合。
设有 p 个信息源给出的两维语义评价信息为:
其点信度语义表示为:
其中,为第 i 个信息源 Ei 支持评价对象评为等级 Hn 的置信程度,且知足:
假设权重向量为:
知足:
则可应用证据推理算子将多个两维语义信息进行集成。
综合 p 个两维语义评价信息后,其集成结果仍为证据体,能够表示为:
假设预先设定的针对评价对象的语言评价集 H = {H1,H2,H3,H4} = {差,中,良,优},专家对评价对象的熟悉程度的语言评价集为 S = {S1,S2,S3} = {熟悉,较熟悉,部分熟悉}。
现有五位专家 Ei(i=1,2,3,4,5),针对某一个评价对象给出的两维语义评价信息为:
假设专家采用两维语义的点信度表示,且给出点信度语义表示以下表所示:
根据上表中两维语义的点信度表示,5位专家给出的两维语义评价信息的点信度可分别表示为:
设5位专家的权重向量为(根据专家对专家的了解这一领域知识得出):
则由证据推理算子,将5位专家给出两维语义信息进行集结为:
即综合5位专家的意见,认为该评价对象为”优“、”良“、”中“、”差“的可信度分别为:19.85%、35.21%、27.54%、1.26%、还有另外16.14%的信度不知道被评为哪一个等级。
Relevant Link:
《证据推理理论方法及其在决策评估中的应用》
影响专家评价准确性的因素主要有两个方面,
通常来讲,专家对决策对象熟悉程度越高,评价的准确性就越高;对同一个决策对象的评价与其余专家评价的差别性越小,该专家对评价标准掌握的状况的状况可能就相对越好。
与其余专家评价的差别性,能够经过对同一个决策对象各专家评价信息的距离或类似度来度量。
假设第一维度(对决策对象的评价)的评语集为 H1,H2,.....,HN,分别赋值为 h1,h2,....,hN,知足当 i ≥ j 时,hi ≥ hj,则评价信息 Hi 和 Hj 的距离可定义为:
显然,di,j 知足距离的基本性质:
假设有 p 个专家对某一决策对象进行评价,则能够计算出专家们提供评价信息之间的两两距离,可用一个距离矩阵表示:
定义评价信息 Hi 和 Hj 之间的类似性测度 Sim(Hi,Hj) 为:
其结果能够用一个类似矩阵表示:
两个评价信息距离越小,它们的类似性程度就越大,该评价系统中对评价信息 Hi 的支持度 Sup(Hi) 为:
从公式中能够看出,支持度体现了某个专家的评价信息 Hi 在同行中的累计类似程度,通俗地说就是群体共识。
将支持度归一化后可得评价信息 Hi 的可信度 Crdi:
可将 Crdi 做为专家 Ei 提供评价信息的一个权重 ui,即权重 ui 为:
另外,第二维度的评价值 St 是对第一维评价信息质量的评价,可将第二维度的评价值 St 进行量化。假设专家 Ei 给出的第二维度的评语的量化值为 qt,则可赋予该专家评价信息的另外一个权重 vi 为:
为了全面反映专家评价信息的重要性,此处利用专家给出的两维语义评价信息,根据每一个维度的评价信息分别对专家进行赋权,再采用乘法合成法对专家评价信息进行组合赋权,专家评价信息的最终权重 wi 为:
笔者提醒:
这和以前讨论的基于证据联盟的证据融合方式,其原理是相似的。
假设有 M 个备选方案 aj(j=1,2,...,M),专家 Ei 对方案 aj 给出的两维语义评价信息为:
针对多个专家给出的两维语义评价信息,能够根据如下步骤进行决策: