【实体统一】大数据环境下一种基于模式匹配的实体统一方法

时间 2021-03-30

标签算法架构分布式大数据 code blog 索引效率基础 rsa 栏目系统架构繁體版

原文原文链接

大数据环境下一种基于模式匹配的实体统一方法

一、要解决什么问题？

一、传统实体统一主要针对小数据集，之前数据量小传统方法还能够，可是如今数据量大了，传统方法解决起来太慢了
二、数据量这么庞大，如何从大量数据中获取到值得咱们关注的问题

二、实体统一相关解决思路

（1）、穷尽式的实体统一算法

解释：
	说白了，就是一一进行比较，看两个实体是否为同一个实体
好处和坏处：
	好处就是精度高
	坏处就是这样比较太慢了

（2）、分块的实体统一架构

解释：
	把那种类似的实体，放到一个块中，他们拥有同一个键值。
好处和坏处
	好处就是速度快
	坏处就是精度低

（3）、分布式架构的实体统一分布式

解释：
	在以前的分块实体统一的基础之上，进行二次匹配，此次只是块内进行匹配，经过设定跨度距离来控制匹配的实体数量，而且块之间是分布式进行计算，极大提升计算机效率。
好处和坏处
	好处就是速度快（可是和距离设置有关）
	坏处就是精度较低

三、算法模型

分为3块数据分块模块、模式匹配和抽取模块、模式合并模块大数据

（1）、数据分块模块

（2）、模式匹配和抽取模块

（3）、模式合并模块

通过前面的这个方式筛选，过滤和匹配以后，获得一个新的集合，这个新的集合是由多个类似块进行合并和拆分出来的结果集。code

四、用到的算法

（1）、类似度计算

目的：
	作模式之间的类似度计算，主要是为了后续模式之间的合并作了一个依据，类似度在咱们规定的范围内就能够进行合并。

假若有实体：R{halloworde, helloworld}blog

一、先获得单个实体对应的模式公式，以下操做，进行比较
	halloworde 
	helloworld
	只有2位置和最后两个位置不同，因此咱们能够将他们归类为一种模式M：h{a,e}llowor{d,l}{e,d}
二、根据每一个实体对应获得的模式 {R1，R2，R3.....} ——> {M1，M2，M3.....},而后咱们对它的模式进行类似度计算
	即咱们比较 {M1，M2，M3.....}他们的类似度，为了将他们进一步合并。

（2）、模式快速扫描算法( PRSA)

一、根据第一步算出来的类似度，咱们能够对他们进行比较。
二、把他们共同的地方标记出来，把不一样的索引标记出来，记录下来（相同模式地方，不一样模式处，不一样模式处的索引）

（3）、模式抽取算法( PEA)

直接将上一步扫描的结果进行模式抽取，把他们的模式进行合并。

五、总结

实体统一算法的时间效率的要求愈来愈来，咱们要尽可能保证有效性的同时，重点关注如何更迅速地从大数据集中获得咱们须要的数据实体。