一、传统实体统一主要针对小数据集,之前数据量小传统方法还能够,可是如今数据量大了,传统方法解决起来太慢了 二、数据量这么庞大,如何从大量数据中获取到值得咱们关注的问题
(1)、穷尽式的实体统一算法
解释: 说白了,就是一一进行比较,看两个实体是否为同一个实体 好处和坏处: 好处就是精度高 坏处就是这样比较太慢了
(2)、分块的实体统一架构
解释: 把那种类似的实体,放到一个块中,他们拥有同一个键值。 好处和坏处 好处就是速度快 坏处就是精度低
(3)、分布式架构的实体统一分布式
解释: 在以前的分块实体统一的基础之上,进行二次匹配,此次只是块内进行匹配,经过设定跨度距离来控制匹配的实体数量,而且块之间是分布式进行计算,极大提升计算机效率。 好处和坏处 好处就是速度快(可是和距离设置有关) 坏处就是精度较低
分为3块数据分块模块、模式匹配和抽取模块、模式合并模块大数据
通过前面的这个方式筛选,过滤和匹配以后,获得一个新的集合,这个新的集合是由多个类似块进行合并和拆分出来的结果集。code
目的: 作模式之间的类似度计算,主要是为了后续模式之间的合并作了一个依据,类似度在咱们规定的范围内就能够进行合并。
假若有实体:R{halloworde, helloworld}blog
一、先获得单个实体对应的模式公式,以下操做,进行比较 halloworde helloworld 只有2位置和最后两个位置不同,因此咱们能够将他们归类为一种模式M:h{a,e}llowor{d,l}{e,d} 二、根据每一个实体对应获得的模式 {R1,R2,R3.....} ——> {M1,M2,M3.....},而后咱们对它的模式进行类似度计算 即咱们比较 {M1,M2,M3.....}他们的类似度,为了将他们进一步合并。
一、根据第一步算出来的类似度,咱们能够对他们进行比较。 二、把他们共同的地方标记出来,把不一样的索引标记出来,记录下来(相同模式地方,不一样模式处,不一样模式处的索引)
直接将上一步扫描的结果进行模式抽取,把他们的模式进行合并。
实体统一算法的时间效率的要求愈来愈来,咱们要尽可能保证有效性的同时,重点关注如何更迅速地从大数据集中获得咱们须要的数据实体。