最近在优化网站的搜索部分,网站是用Django实现的,主要业务是在线视频教育网站,以前搜索只是一段Django ORM模型中的icontains
模糊匹配,因此只能搜索关键字,可是CEO(SB
)忽然又想在网站作个相似于百度问答的功能。可是搜索问题就成了一个棘手的事情,原有搜索不能知足需求,可是调研相关的elasticsearch之类的全文检索又有点重(除了有点重,主要是CEO不给时间啊!),因此就把精力放在了分词上,能短平快的实现该功能,并且比较轻。html
由于关注的梁博,天然而然想到了他博士期间写的在线分词pullword(写这篇文章时他我的网站又挂掉了,哈哈哈,这里贴出了他的微博供你们膜拜),在此对梁博表示感谢!!python
下面是我写的分词的utils,不过梁博的分词如今只能支持中文,输入英文跟数字会返回error,以前是想调用梁博的原有的pullword,他的API地址,可是我测了一下须要6-7秒,对于网站搜索功能显然没办法使用,后来又找到他挂在百度的免费API,测试了一下数据返回在0.1秒左右,还不错,就使用了百度api。后端
要注意,他原生的api中有个param1的参数,表示选词几率,param1=0.8表示只出几率在0.8以上的词,可是我调用传参的时候很差用,因此就经过返回的数据本身写了筛选。get_pullword
须要两个参数,第一个是一段须要分词的话,第二个是筛选分词后选词几率,[0,1]区间,等同于他的param1的参数。api
# coding: utf-8 __author__ = 'flyingpang' import requests import datetime def get_pullword(s, probability): """ :param s: 一段须要分词的中文. :param probability: 选词几率. :return: 按照几率从大到小排序返回一个list. """ headers = {'apikey': '你本身的百度apikey'} url = 'http://apis.baidu.com/apistore/pullword/words' params = {'source': s, 'param1': '0', 'param2': '1'} r = requests.get(url=url, headers=headers, params=params) if r.status_code != 200 or r.content.strip().split('\r\n')[0].startswith('error'): result = list() result.append(s) return result else: data = r.content.strip().split('\r\n') return split_word(data, probability) def split_word(words, probability=0): """ :param words: 分词结果的字典, 其中key为分词,value为几率. :param probability: 最小分词几率 :return: 几率从大到小的分词列表. """ # 分词跟相关几率保存到字典中. d = dict() for i in words: m = i.split(':') d[m[0].decode('utf-8')] = float(m[1]) m = sorted(d.iteritems(), key=lambda k: k[1], reverse=True) words_list = [] for i in range(len(m)): if m[i][1] >= probability: words_list.append(m[i][0]) return words_list if __name__ == '__main__': source = u'清华大学是好学校' t1 = datetime.datetime.now() test = get_pullword(source, 0.8) t2 = datetime.datetime.now() print "total time", t2 - t1 print test
由于我后端使用Diango的icontains来匹配,因此返回一个list的话没办法匹配,因此这里给出一个Django处理的方法。app
query = self.request.GET.get("q", None) pull_words = get_pullword(query, 0.8) # 筛选出大于0.8几率的词 query_list = reduce(operator.or_, (Q(title__icontains=item) for item in pull_words)) question_list = Question.objects.filter(query_list).order_by("-id")
至此python实现简单分词就写完了。elasticsearch