【实体统一】大数据环境下一种基于模式匹配的实体统一方法

大数据环境下一种基于模式匹配的实体统一方法

一、要解决什么问题?

一、传统实体统一主要针对小数据集,之前数据量小传统方法还能够,可是如今数据量大了,传统方法解决起来太慢了
二、数据量这么庞大,如何从大量数据中获取到值得咱们关注的问题

二、实体统一相关解决思路

(1)、穷尽式的实体统一算法

解释:
	说白了,就是一一进行比较,看两个实体是否为同一个实体
好处和坏处:
	好处就是精度高
	坏处就是这样比较太慢了

(2)、分块的实体统一架构

解释:
	把那种类似的实体,放到一个块中,他们拥有同一个键值。
好处和坏处
	好处就是速度快
	坏处就是精度低

(3)、分布式架构的实体统一分布式

解释:
	在以前的分块实体统一的基础之上,进行二次匹配,此次只是块内进行匹配,经过设定跨度距离来控制匹配的实体数量,而且块之间是分布式进行计算,极大提升计算机效率。
好处和坏处
	好处就是速度快(可是和距离设置有关)
	坏处就是精度较低

三、算法模型

分为3块数据分块模块、模式匹配和抽取模块、模式合并模块大数据

(1)、数据分块模块

(2)、模式匹配和抽取模块

(3)、模式合并模块

​ 通过前面的这个方式筛选,过滤和匹配以后,获得一个新的集合,这个新的集合是由多个类似块进行合并和拆分出来的结果集。code

四、用到的算法

(1)、类似度计算

目的:
	作模式之间的类似度计算,主要是为了后续模式之间的合并作了一个依据,类似度在咱们规定的范围内就能够进行合并。

假若有实体:R{halloworde, helloworld}blog

一、先获得单个实体对应的模式公式,以下操做,进行比较
	halloworde 
	helloworld
	只有2位置和最后两个位置不同,因此咱们能够将他们归类为一种模式M:h{a,e}llowor{d,l}{e,d}
二、根据每一个实体对应获得的模式 {R1,R2,R3.....} ——> {M1,M2,M3.....},而后咱们对它的模式进行类似度计算
	即咱们比较 {M1,M2,M3.....}他们的类似度,为了将他们进一步合并。

(2)、模式快速扫描算法( PRSA)

一、根据第一步算出来的类似度,咱们能够对他们进行比较。
二、把他们共同的地方标记出来,把不一样的索引标记出来,记录下来(相同模式地方,不一样模式处,不一样模式处的索引)

(3)、模式抽取算法( PEA)

直接将上一步扫描的结果进行模式抽取,把他们的模式进行合并。

五、总结

实体统一算法的时间效率的要求愈来愈来,咱们要尽可能保证有效性的同时,重点关注如何更迅速地从大数据集中获得咱们须要的数据实体。
相关文章
相关标签/搜索