基于两维语义的证据推理方法研究

时间 2020-04-27

标签基于两维语义证据推理方法研究繁體版

原文原文链接

1. 为何须要进行识别框架间的转化

因为问题的不一样和证据处理人员知识背景及偏好的不一样，同一个证据处理人员在对不一样问题，不一样的证据处理人员针对同一个问题，均可能构建多个不一样的识别框架。这些识别框架中包含的元素的数目、元素含义等方面可能有所差别，识别框架之间的逻辑关系也可能不一样。html

而证据推理方法须要在同一个识别框架下对多批证据进行融合，为此，须要对多个识别框架进行分类，并肯定识别框架等价及其相互之间的转化方法。安全

2. 识别框架的分类

0x1：识别框架的分类

通常来讲，识别框架的类型不一样，信息处理方法也不一样。每种识别框架就表明了一种看待目标对象的抽象视角。网络

就单个识别框架来讲，根据识别框架中元素的不一样，能够将识别框架分为多种类型。框架

一、平行框架

设 Θ₁，Θ₂，.....，Θ_n为 n 个不一样的识别框架，若这 n 个框架分别从不一样的角度处理同一个问题，则称这 n 个框架为平行框架。函数

例如，在风险评估时，甲对某个指标比较熟悉，他对该指标所反映的风险程度构建识别框架：spa

Θ_甲 = {低、较低、中、较高、高} 日志

并给出了相应的信度函数。code

而乙对该指标的熟悉程度相对较弱，构建的风险程度识别框架为：htm

Θ_乙 = {低、中、高} 对象

也给出了相应的信度函数。

能够看出，因为专家自身知识背景和我的偏好的不一样，对同一个问题构造的识别框架也不一样，此时的识别框架 Θ_甲和 Θ_乙为两个平行框架。

通常来讲，平行框架是针对同一个问题不一样方面，或不一样信息源针对同一问题某个方面而构建的，其特性和概念是相容的，一般有公共的精细框架，故平行框架是相容框架。

笔者思考：

对于安全数据分析来讲，一项基础工做就是所谓的日志采集，例如进程启动日志、进程网络外连日志、进程写文件日志、文件落盘日志。这些不一样的日志表明了当前系统行为的一个描述切面。从识别框架的角度来看，基于不一样的日志能够抽象为不一样的离散状态集（集合中的每个状态表明了一个系统状态描述）。

二、递进框架

设 Θ₁，Θ₂，.....，Θ_n为 n 个不一样的识别框架，若这 n 个框架中后一个识别框架中的元素用来修饰（说明）前一个识别框架中的元素。

第一层识别框架用于抽象描述待处理问题；
第二层识别框架用于描述第一层识别框架的可信度；
此后类推..

则称这 n 个框架为 n 维递进框架。

例如，在科学基金立项评审的同行评议表中，“综合评价”和“熟悉程度”能够看作一个两维递进识别框架。

“综合评价”是第一层识别框架，Θ₁ = {优、良、中、差}
“熟悉程度”是第二层识别框架，Θ₂，用来修饰说明专家给出的“综合评价”的不肯定程度

三、混合框架

设 Θ₁，Θ₂，.....，Θ_n为 n 个不一样的识别框架，若这 n 个框架中并列框架和递进框架并存，则称这 n 个框架为混合框架。

例如，在科学基金立项评审的同行评议表中，“综合评价”、“资助意见”、“熟悉程度”三个框架本质上是一组混合框架，

“综合评价”、“资助意见”是两个平行框架
“熟悉程度”是用来修饰“综合评价”和“资助意见”的

在多个识别框架的构建过程当中，平行框架一般是针对决策问题属性的特色或决策者根据本身的知识背景和偏好而构建的；而递进框架一般是用来反映决策主体与决策过程特征信息的，每每反映了决策者给出的决策信息质量。

3. 识别框架的等价性

0x1：识别框架等价定义

为了便于将不一样识别框架上的信息进行融合，通常要求将不一样识别框架上的信息转化到同一个识别框架上，为此，须要对不一样识别框架的等价性和评估等价的概念进行界定。

设两个识别框架分别为 Θ = {θ_n，n=1,2,....,N₁} 和 Ω = {ω_n，n=1,2,....,N₂}，若对，都存在惟一的 ω_n 与之等价，记为：

反之，若对，都存在惟一的 θ_n ∈ Θ 与之等价，则称识别框架 Θ 和 Ω 等价（一正一反都成立），记为：

例如，在对汽车的发动机的噪声进行评价时，存在两个识别框架，

识别框架 Θ = {很是吵、吵、通常、静、很是静}
识别框架 Ω = {差、较差、中、良、优}

两个识别框架的元素，都彼此存在惟一的等价元素，则识别框架 Θ 和 Ω 等价。

显然，若识别框架 Θ 和 Ω 等价，则有 N₁ = N₂。

设 Θ 和 Ω 为两个等价的识别框架，且在两个识别框架下的基本可信度分配分别为：

则当且仅当 N1 = N2 且 β_1,n = γ_2,n 成立时（n=1,2,...,N₁），称两个基本可信度分配 m1 与 m2 等价，记为

0x2：识别框架元素间几率等价

这里须要注意的是，实际状况中，彻底等价的识别框架是比较少见的，而是彼此错位的，即彼此相容而又不彻底一一对应（N₁ ≠ N₂），且一个框架中的元素（θ ∈ Θ）并不必定刚好对应于另外一个框架中的某个元素（ω ∈ Ω），而是以必定程度对应于另外一框架中多个元素。

为此，这里给出识别框架元素间几率等价的概念定义。

若 θ_1,n ∈ Θ 以 α_2,l(l=1,2,....,N₂) 的程度对应于 ω_l ∈ Ω，其中

0 ≤ α_2,l ≤ 1，，即知足几率完备性

则称框架 Θ 中的元素 θ_1,n 与框架 Ω 中的元素集 {(ω_l，α_2,l)，l=12,....,N₂} 以几率等价，记为：

在多属性群决策中，上述等价关系一般是由决策者提供的，其中意味着元素 θ_1,n ∈ Θ 的效用和 {(ω_l，α_2,l)，l=12,....,N₂} 的指望效用

相等。

若对，均有；反过来，对，均有，则称识别框架 Θ 和 Ω 以几率等价，记为：

0x3：识别框架之间等价关系的逻辑分类

所以，从逻辑关系上来讲，识别框架能够分为：

平行框架
递进框架
混合框架

从转化关系（等价关系）来讲，有

粗化
细化
几率转化

4. 两维语义信息的表示及融合方法

传统的基于单层识别框架的决策在信息的表示上，未能反映决策者提供的决策信息的质量，所以信息对多个意见的合成具备重要做用，直接影响了决策质量。也就是所谓的训练样本的纯度和丰富度决定了模型的最终效果。

所以，有必要增长一维信息反映专家决策知识和行为特征，并对原有决策信息进行修正，以更加精确有效地利用专家信息。

咱们本章来讨论两维语义信息的语义表示及集结方法。

0x1：两维语义信息的内涵

设 H_n(n=1,2,...,N) 和 S_t(t=1,2,...,T) 分别为预先定义好的语言评价集 H 和 S 中的第 n 个和第 t 个元素，其中 H_n 和 S_t 知足如下几个特性：

有序性：当 i > j 时，，
极大化运算和极小化运算：当时，有 max(H_i，H_j) = H_i，max(S_i，S_j) = S_i，min(H_i，H_j) = H_j，min(S_i，S_j) = S_j

对一个判决问题，决策者同时构建了两个识别框架（语言短语集）H = {H₁，H₂，....，H_N} 和 S = {S₁，S₂，....，S_T}，使用了1、二两个维度识别框架中的评价信息描述本身对于某一事物的评判。

其中第一维识别框架中的评价信息 H_n(n=1,2,....,N) 是用来描述待决策对象属性的，是对决策对象属性的评价
第二维识别框架中的评价信息 S_t(t=1,2,....,T) 是用来反映决策者知识证据的属性特征的，是对第一维评价信息 H_n 质量的评价

这种由两个维度造成的语言评价信息 (H_n，S_t) 称为两维语义评价信息。

例如，在国家天然科学基金立项评估中，同行评议意见表中预先构建了两个语言评估框架：

专家科研项目质量的评价：H_n = {H₄(优)，H₃(良)，H₂(中)，H₁(差)}
反映同行专家对本身给出质量评价 H_n 的评价：S = {S₃(熟悉)，S₂(较熟悉)，S₁(部分熟悉)}

同行评议专家提供评价信息 (H_n，S_t)(n=1,2,3,4; t=1,2,3) 即为两维语义评价信息。

在两维语义评价信息中，第二维评价信息是用来描述第一维评价信息质量的，经过第二维语义评价信息，不只可以反映决策者评价信息的质量，同时也能反映决策信息的不肯定和不彻底程度。

例如，同行评议专家提供评价信息 (优，较为熟悉) 即为两维语义信息的一个实例，

第一维评价信息”优“是评议专家对科研项目的评价
第二维评价信息”较熟悉“反映了评议专家对本身给出的评价”优“的不肯定程度，同时也反映了评议专家对该科研项目的未知程度（不彻底程度）

0x2：两维语义信息的语义表示

因为两维语义信息不只可以反映决策者评价信息的质量，同时也能反映决策信息的不肯定和不彻底程度。

同时咱们知道，证据理论用信度函数表示证据，信度函数知足半可加性，它比几率函数能更恰当表示信息中的”不肯定性“和”不知性“。所以，两维语义信息的语义，可用信度函数来表示，便可用证据理论中的证据体来表示两维语义评价信息。

一、两维语义的点信度语义表示

设 H = {H₁，H₂，....，H_N} 和 S = {S₁，S₂，....，S_T} 分别为1、二两个维度上的语言集，将语言集 H 视为证据理论中的识别框架，则两维语义信息 (H_n，S_t) 的语义可经过映射 f 表示为证据体：

其中，β_tk 表明一个点信度，表示两维语义信息 (H_n，S_t) 支持 H_k ∈ H(k=1,2,...,N) 为真的置信度，且知足：

，即信度分配函数的完备性

则称 f 为两维语义的点信度表示函数。

二、两维语义的点信度语义规则

两维语义的点信度表示函数可由多个专家基于领域经验得出，也能够经过数据驱动的方式从大样本中得出（例如神经网络）。

通常来讲，两维语义的点信度函数遵循如下规则：

不彻底信息规则：第二维语义中对第一维信息质量的评价越高，决策者的评价信息中含有的不彻底信息程度就越低，即若，则
信度单峰规则：(H_n，S_t) 转化成的证据体 {(H_k，β_tk)，k=1,2,....,N}，其信度应以 H_n 为单峰，且距离 H_n 越远，其信度就越小。即对，有，且若 | i-n | < | j-n |，则有 βt(H_i) > βt(H_j)，其中 i,j ∈ {1,2,....,N}

三、两维语义的区间信度表示

两维语义的点信度表示法要求给出两维语义支持各语言评价等级的精确置信度，这对决策者的领域知识或者有监督样本集的要求较高。

可是因为客观事物的复杂性（相关性不明显，或者伪相关性）和人类自身知识的局限性，两维语义的区间信度比精确的点信度表示更容易获取。

针对两维语义信息 (H_n，S_t) 的语义，假设专家用映射 g 表示区间信度：

其中，表明一个区间信度，表示两维语义信息 (H_n，S_t) 支持 H_k ∈ H(k=1,2,...,N) 为真的置信度，且知足：

，一样须要知足信度分配函数的完备性

则称 g 为两维语义的区间信度表示函数。

相似的，两维语义的区间信度表示法也一样遵循”不彻底信息“和”信度单峰“语义规则。

0x3：两维语义信息的比较

由两位语义信息 (H_n，S_t) 的信度表示法可知，两维语义信息不只反映了决策者对待处理问题的评价，同时反映了决策信息的质量（包括决策信息的不肯定性和不彻底性），所以对两维语义信息进行比较，关键是如何处理不肯定和不彻底信息。

对于两维语义的点信度表示法，能够采用两种处理方法：

点指望得分法
区间指望得分法

对于两维语义的区间信度语义表示法，可利用基于连续的有序加权平均算子（continuous ordered weighted averaging，C-OWA）算子的区间信度的点化法，将区间信度转化为点信度，再进行比较。

一、点指望得分法

点指望得分法将两维语义中的第一个维度上的语言短语量化为得分，经过两维语义的证据体表示中的信度计算两维语义信息的加权平均得分。

设第一个维度上的语言集 H = {H₁，H₂，....，H_N}，且(i < j)，(H_n，S_t) 的点信度语义为。假设语言短语 H_i 的得分为 h_i，知足 h_i < h_j(i < j)。与加权平均法相似，可定义两维语义信息的指望得分 E[(H_n，S_t)]：

由证据体表示的两维语义信息，经过指望得分化为得分值，从而可将多个两维语义信息进行比较、排序。这种方法计算简单，但缺点是处理过程有损失。

二、区间指望得分法

区间指望得分法首先也将两维语义中的第一个维度上的语言短语量化为得分，当 β_t(H)>0时，为了便于多个两维语义信息比较，将这部分信度分别赋予最小分值和最大分值，由此，产生一个得分区间。

设第一个维度上的语言集 H = {H₁，H₂，....，H_N}，且(i < j)，(H_n，S_t) 的点信度语义为。假设语言短语 H_i 的得分为 h_i，知足 h_i < h_j(i < j)。

当时，说明因为人们对问题的不确知而将这一部分信度赋予了整个框架。为了便于比较，将这部分信度分别赋予 min(H₁，H₂，...，H_N) = H₁，max(H₁，H₂，...，H_N) = H₁。则两维语义信息 (H_n，S_t) 的最小、最大指望得分分别为：

从而可得两维语义信息 (H_n，S_t) 的指望得分区间：

[minE[(H_n，S_t)]，maxE[(H_n，S_t)]]

这种信度分配方法很容易理解，由于因为信息的不彻底或人们认识能力的局限性，信度 β_t(H) 不知该分配到哪一个评语上，但不管这部分信度如何分配，两维语义信息 (H_n，S_t) 的指望得分均落在上述区间中。

显然，当 β₁(H) = 0 时，上述区间退化成一个点；而当 β_t(H) = 1 时，即当人们对问题彻底无知时，该区间就退化为 [h₁，h_N]。

根据区间数的可能度公式可对多个两维语义信息进行比较、排序。

相比点指望得分法，得分区间法计算较复杂，但结果更精确，处理过程当中信心损失较少。

0x4：两维语义信息的集结

根据两位语义信息的语义表示，对多个两维语义信息的集结转化成了对多条证据的集结。

目前，证据的融合方法主要有：

Dempster合成规则
改进的冲突证据合成规则
证据推理算子

Dempster合成规则在处理高度冲突的证据时，其结果每每有悖常理，例如著名的Zadeh悖论。

改进的冲突证据合成规则从不一样的角度对Dempster合成规则进行了改善，而且在某些领域取得了较好的应用，但处理的冲突证据都有必定应用背景和使用哦范围限制，且在处理不一样权重信息的证据方面也存在必定的困难。

而证据推理方法是由Yang等人在1994年提出来的，后又对此进行了完善和发展。该方法应用权重修正证据源，并在合成过程当中对未分配的信度进一步细分为由权重引发的不彻底和由信息源给出的判断不彻底两部分。证据推理合成规则在处理不一样权重的多条证据的融合方面具备独特的优点，且能很好地处理高度冲突的证据合成问题。

因为不一样的两维语义信息的质量不一样，其在信息融合的重要性也不相同，即不一样两维语义信息的权重不一样，且多个两维语义信息也存在高度冲突状况。所以，咱们经过引入证据推理算子对多个两维语义信息进行融合。

设有 p 个信息源给出的两维语义评价信息为：

其点信度语义表示为：

其中，为第 i 个信息源 E_i 支持评价对象评为等级 H_n 的置信程度，且知足：

假设权重向量为：

知足：

则可应用证据推理算子将多个两维语义信息进行集成。

综合 p 个两维语义评价信息后，其集成结果仍为证据体，能够表示为：

0x5：算例分析

假设预先设定的针对评价对象的语言评价集 H = {H₁，H₂，H₃，H₄} = {差，中，良，优}，专家对评价对象的熟悉程度的语言评价集为 S = {S₁，S₂，S₃} = {熟悉，较熟悉，部分熟悉}。

现有五位专家 E_i(i=1,2,3,4,5)，针对某一个评价对象给出的两维语义评价信息为：

E₁ = (H₁，S₂)
E₂ = (H₂，S₂)
E₃ = (H₂，S₃)
E₄ = (H₃，S₁)
E₅ = (H₂，S₂)

假设专家采用两维语义的点信度表示，且给出点信度语义表示以下表所示：

根据上表中两维语义的点信度表示，5位专家给出的两维语义评价信息的点信度可分别表示为：

设5位专家的权重向量为（根据专家对专家的了解这一领域知识得出）：

则由证据推理算子，将5位专家给出两维语义信息进行集结为：

即综合5位专家的意见，认为该评价对象为”优“、”良“、”中“、”差“的可信度分别为：19.85%、35.21%、27.54%、1.26%、还有另外16.14%的信度不知道被评为哪一个等级。

Relevant Link:

《证据推理理论方法及其在决策评估中的应用》

5. 基于两维语义的群体决策方法

0x1：基于两维语义的专家组合赋权法

影响专家评价准确性的因素主要有两个方面，

一方面是专家对决策对象的熟悉程度（或了解程度），可经过专家对本身作出的评价进行自评价，其体现的是专家对所作评价信息可靠性的自我评估（简称自评）
另外一方面是专家的宽严尺度（评价标准），其体现了专家评价的主观偏好，须要与其余专家比较进行评估（简称他评）

通常来讲，专家对决策对象熟悉程度越高，评价的准确性就越高；对同一个决策对象的评价与其余专家评价的差别性越小，该专家对评价标准掌握的状况的状况可能就相对越好。

一、自评标准

二、他评标准

与其余专家评价的差别性，能够经过对同一个决策对象各专家评价信息的距离或类似度来度量。

假设第一维度（对决策对象的评价）的评语集为 H₁，H₂，.....，H_N，分别赋值为 h₁，h₂，....，h_N，知足当 i ≥ j 时，h_i ≥ h_j，则评价信息 H_i 和 H_j 的距离可定义为：

显然，d_i,j 知足距离的基本性质：

0 ≤ d_i,j ≤ 1
当且仅当 h_i = h_j 时，d_i,j = 0
d_i,j = d_j,i
d_i,j ≤ d_i,k + d_k,j

假设有 p 个专家对某一决策对象进行评价，则能够计算出专家们提供评价信息之间的两两距离，可用一个距离矩阵表示：

定义评价信息 H_i 和 H_j 之间的类似性测度 Sim(H_i，H_j) 为：

其结果能够用一个类似矩阵表示：

两个评价信息距离越小，它们的类似性程度就越大，该评价系统中对评价信息 H_i 的支持度 Sup(H_i) 为：

从公式中能够看出，支持度体现了某个专家的评价信息 H_i 在同行中的累计类似程度，通俗地说就是群体共识。

将支持度归一化后可得评价信息 H_i 的可信度 Crd_i：

可将 Crd_i 做为专家 E_i 提供评价信息的一个权重 u_i，即权重 u_i 为：

另外，第二维度的评价值 S_t 是对第一维评价信息质量的评价，可将第二维度的评价值 S_t 进行量化。假设专家 E_i 给出的第二维度的评语的量化值为 q_t，则可赋予该专家评价信息的另外一个权重 v_i 为：

为了全面反映专家评价信息的重要性，此处利用专家给出的两维语义评价信息，根据每一个维度的评价信息分别对专家进行赋权，再采用乘法合成法对专家评价信息进行组合赋权，专家评价信息的最终权重 w_i 为：

笔者提醒：

这和以前讨论的基于证据联盟的证据融合方式，其原理是相似的。

0x2：决策步骤

假设有 M 个备选方案 a_j(j=1,2,...,M)，专家 E_i 对方案 a_j 给出的两维语义评价信息为：

针对多个专家给出的两维语义评价信息，能够根据如下步骤进行决策：

步骤1，肯定专家的权重。假设专家 i 给出的两维语义评价信息 E_i = (H_kⁱ，S_tⁱ)，对专家进行组合赋权，可得专家的权重 w_i(i=1,2,...,p)
步骤2，给出两维语义信息的点信度或区间信度语义表示，在不彻底信息规则和信息单峰规则的前提下，由多个专家通过反复斟酌（或者由数据驱动），给出两维语义信息的点信度或区间信度语义表示，将两维语义信息表示为证据体。
步骤3，综合多个专家的两维语义信息，将转化为多个专家的两维语义信息进行集结，可得每一个方案的综合评价结果，其结果仍表示为一个证据体。
步骤4，对多个决策方案进行排序择优，应用两维语义比较方法，将多个方案进行排序择优。