关于局部敏感哈希算法。以前用R语言实现过,但是因为在R中效能过低。因而放弃用LSH来作相似性检索。学了python发现很是多模块都能实现,而且经过随机投影森林让查询数据更快。以为可以试试大规模应用在数据相似性检索+去重的场景。css
私以为,文本的相似性可以分为两类:一类是机械相似性;一类是语义相似性。
机械相似性表明着,两个文本内容上的相关程度。比方“你好吗”和“你好”的相似性。纯粹表明着内容上字符是否全然共现,应用场景在:文章去重;
语义相似性表明着,两个文本语义上的相似程度。比方“苹果”和“公司”的相似性。本篇不作这一讨论html
以前写关于R语言实现的博客:
R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理)
R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(二。textreuse介绍)python
机械相似性python版的四部曲:
LSH︱python实现局部敏感随机投影森林——LSHForest/sklearn(一)
LSH︱python实现局部敏感哈希——LSHash(二)
相似性︱python+opencv实现pHash算法+hamming距离(simhash)(三)
LSH︱python实现MinHash-LSH及MinHash LSH Forest——datasketch(四)
.算法
本节參考:论文《基于随机投影的场景文本图像聚类方法研究》与博客 随机投影森林-一种近似近期邻方法(ANN) 数组
当数据个数比較大的时候,线性搜索寻找KNN的时间开销太大,而且需要读取所有的数据在内存中,这是不现实的。所以,实际project上,使用近似近期邻也就是ANN问题。
当中一种方法是利用随机投影树,对所有的数据进行划分,将每次搜索与计算的点的数目减少到一个可接受的范围,而后创建多个随机投影树构成随机投影森林,将森林的综合结果做为终于的结果。bash
创建一棵随机投影树的过程大体例如如下(以二维空间为例):markdown
在数学计算上。是经过计算各个点与垂直向量的点积完毕这一步骤的,点积大于零的点划分到左子树,点积小于零的点划分到右子树。数据结构
注意一点。图中不带箭头的直线是用于划分左右子树的根据,带箭头的向量是用于计算点积的。这样,原有的点就划分为了两部分,图比例如如下:
但是此时一个划分结果内的点的数目仍是比較多。所以继续划分。再次随机选取一个向量。与该向量垂直的直线将所有点进行了划分。图比例如如下:
注意一点,此时的划分是在上一次划分的基础上进行的。app
也就是说现在图中的点已经被划分红了四部分,相应于一棵深度为2。有四个叶节点的树。dom
以此类推继续划分下去,直到每个叶节点中点的数目都达到一个足够小的数目。
注意这棵树并不是全然树。
随机投影森林的创建需要两个參数。即单棵树的深度 + 森林数量。
这两个參数决定了数据集的分散程度以及随机投影后获得的向量维数。
利用这棵树对新的点进行近期邻计算时,首先经过计算该点与每次划分所用向量的点积。来找到其所属于的叶节点,而后利用这个叶节点内的这些点进行近期邻算法的计算。
这个过程是一棵随机投影树的计算过程。利用相同的方法。创建多个随机投影树构成随机森林,将森林的总和结果做为终于的结果。
.
Wright等人 已将随机投影的方法应用于视角变化的人脸识别,Nowak等人 採用随机投影的方法学习视觉词的相似度度量。Freund等人将随机投影应用于手写体识别上,取得了很是好的效果。
.
论文《基于随机投影的场景文本图像聚类方法研究》中,将每个叶子节点当成一维特征,用叶子节点的特征点个数做为叶子节点的描写叙述,最后获得測试图像的特征向量。
有点相似word2vec之中的霍夫曼树。
论文中的实验结果:
当中。森林规模10棵。
而K-means
聚类是屡次实验不一样的迭代次数与类别数,以最好的聚类结果做为终于结果
因而可知。ASIFT比SIFT对天然场景下的文本区域图像的局部特征描写叙述更好更准确。这是因为SIFT仅仅是具备尺度和旋转不变性。对于具备视角变化的相同文字却没法获得匹配描写叙述。而ASIFT不只对图像具备尺度旋转不变性,还具备仿射不变性,这样的特性对天然场景下的文本处理有更好的有用性。
具体的ASIFT与SIFT对照可见论文。
.
LSHforest=LSH+随机投影树
在python的sklearn中有LSHForest可以实现。
class sklearn.neighbors.LSHForest(n_estimators=10, radius=1.0, n_candidates=50, n_neighbors=5, min_hash_match=4, radius_cutoff_ratio=0.9, random_state=None)
随机投影森林是近期邻搜索方法的一种替代方法。
LSH森林数据结构使用已排序数组、二进制搜索和32位固定长度的哈希表达。
随机投影计算距离是使用近似余弦距离。
n_estimators : int (default = 10)
树的数量
min_hash_match : int (default = 4)
最小哈希搜索长度/个数。小于则中止
n_candidates : int (default = 10)
每一颗树评估数量的最小值。反正至少每棵树要评估几回,雨露均沾
n_neighbors : int (default = 5)
检索时。最小近邻个数,就怕你忘记忘了设置检索数量了
radius : float, optinal (default = 1.0)
检索时。近邻个体的距离半径
radius_cutoff_ratio : float, optional (default = 0.9)
检索时,半径的下限,至关于相似性几率小于某阈值时,中止搜索,或者最小哈希搜索长度小于4也中止
random_state : int, RandomState instance or None, optional (default=None)
随机数生成器使用种子。默认没有
附带属性:
hash_functions_ : list of GaussianRandomProjectionHash objects
哈希函数g(p,x),每个样本一个哈希化内容
trees_ : array, shape (n_estimators, n_samples)
Each tree (corresponding to a hash function) 每棵树相应一个哈希散列。且这个哈希散列是通过排序的。显示的是哈希值。n_estimators棵树。n_samples个散列。
original_indices_ : array, shape (n_estimators, n_samples) 每棵树相应一个哈希散列,哈希散列是通过排序的。显示的是原数据序号index.
trees_ 和original_indices_ 就是两种状态,trees_ 是每棵通过排序树的散列,original_indices_ 是每棵通过排序树的序号Index.
.
Fit the LSH forest on the data.
数据加载投影树
Get parameters for this estimator.
获取树里面的相关參数
检索函数,n_neighbors表明所需近邻数。 不设置的话则返回初始化设置的数量。return_distance,是否打印/返回特定cos距离的样本。
返回两个array。一个是距离array。一个是几率array
Computes the (weighted) graph of k-Neighbors for points in X
数量检索图,n_neighbors表明所需近邻数, 不设置的话则返回初始化设置的数量,mode=’connectivity’默认
加入数据到树里面,最好是批量导入。
Finds the neighbors within a given radius of a point or points.
半径检索。在给定的区间半径内寻找近邻,radius为半径长度。return_distance表明是否打印出内容。
Computes the (weighted) graph of Neighbors for points in X
半径检索图
Set the parameters of this estimator.
重设部分參数
.
>>> from sklearn.neighbors import LSHForest
>>> X_train = [[5, 5, 2], [21, 5, 5], [1, 1, 1], [8, 9, 1], [6, 10, 2]]
>>> X_test = [[9, 1, 6], [3, 1, 10], [7, 10, 3]]
>>> lshf = LSHForest(random_state=42)
>>> lshf.fit(X_train)
LSHForest(min_hash_match=4, n_candidates=50, n_estimators=10,
n_neighbors=5, radius=1.0, radius_cutoff_ratio=0.9,
random_state=42)
>>> distances, indices = lshf.kneighbors(X_test, n_neighbors=2)
>>> distances
array([[ 0.069..., 0.149...],
[ 0.229..., 0.481...],
[ 0.004..., 0.014...]])
>>> indices
array([[1, 2],
[2, 0],
[4, 0]])
LSHForest(random_state=42)树的初始化,
lshf.fit(X_train)開始把数据加载初始化的树;
lshf.kneighbors(X_test, n_neighbors=2)。找出X_test每个元素的前2个(n_neighbors)相似内容。
当中。这个是cos距离,不是相似性,假设要直观,可以被1减。
.
来源于:用docsim/doc2vec/LSH比較两个文档之间的相似度
# 使用lsh来处理
tfidf_vectorizer = TfidfVectorizer(min_df=3, max_features=None, ngram_range=(1, 2), use_idf=1, smooth_idf=1,sublinear_tf=1)
train_documents = []
for item_text in raw_documents:
item_str = util_words_cut.get_class_words_with_space(item_text)
train_documents.append(item_str)
x_train = tfidf_vectorizer.fit_transform(train_documents)
test_data_1 = '你好。我想问一下我想离婚他不想离,孩子他说不要,是六个月就本身主动生效离婚'
test_cut_raw_1 = util_words_cut.get_class_words_with_space(test_data_1)
x_test = tfidf_vectorizer.transform([test_cut_raw_1])
lshf = LSHForest(random_state=42)
lshf.fit(x_train.toarray())
distances, indices = lshf.kneighbors(x_test.toarray(), n_neighbors=3)
print(distances)
print(indices)
通常lsh比較适合作短文本的比較
.
相关属性得到
# 属性
lshf.trees_
# 每棵树,排序散列的哈希值
lshf.hash_functions_
# 每棵树的hash公式
lshf.original_indices_
# 每棵树,排序散列的序号index
近期邻检索的图:kneighbors_graph
lshf.kneighbors_graph(X_test, n_neighbors=5, mode='connectivity')
新增数据到树里面:
partial_fit(X_test)