产品级搜索技术-全文本索引

时间 2019-11-09

原文原文链接

介绍

大部分技术员在处理搜索问题的时候，每每直接依赖数据库的查询功能，经过普通 SQL 语句的数值比较, 范围的过滤等就能够完成绝大多数咱们须要的查询了, 可是若是你但愿经过关键字的匹配来进行查询过滤, 那么就须要基于类似度的查询, 而不是原来的精确数值比较, 那么这种查询咱们第一个想到的确定是 LIKE 的 SQL 语句, 可是LIKE模糊查询它的工做原理是全表扫描, 若是数据量很是大, 那么会形成很是严重的卡顿, 也可能出现整个项目崩掉, 而全文索引的设计就是避免这种状况的发生mysql

全文搜索分类 1. 天然语言搜索(默认类型)：MySQL 会把搜索的字符串解析成一系列的单词，而后去搜索包含的行；
2. 布尔模式搜索：能够为搜索的字符串里加修饰词，或者必须是什么短语，安顺序搜索等
3. 查询扩展搜索：这种搜索分为两个阶段。第一阶段，是天然语言搜素。第二阶段，则先把原来的搜索字符串，与第一阶段的搜索里高度匹配的那些行，链接到一块儿。laravel

全文搜索的特性 1. 全文搜索基于 FullText 索引。在 FullText 索引, 里只能出如今 CHAR VARCHAR TEXT 这几种类型里
2. 全文搜索会 忽略那些常见词：常见词，指的是至少一半的行里都出现过，超过 50% 的词，都为常见词；
3. 有些为内建的经常使用单词：也叫停用词，好比：the after other
4. 比较短的单词也会被停用sql

所谓的中文全文索引，就是用一本字典，把一段中文字，拆分为一个个的词语，这样来符合 FullText 的单词定义。而后彻底能够把中文看做成英文，进行全文本索引！数据库

建表语句

建立表,不必定要主键索引

create table apothegm(  
     attribution varchar(40),
     phrase  text
) engine = myisan;

增长全文索引

alert table apothegm  
    add fulltext (phrase),
    add fulltext (attribution),
    add fulltext (phrase,attribution);
我的理解：
    1. 索引分为，单列索引和复合索引。
    2. 每次在进行搜索的时候，必需要有一个 FullText 索引，而它正好是由查询命令里列出的那些字段组成。
    3. 索引越多，写入数据越慢，可是索引的方式也就越多，越加便捷。

天然语言索引

基本 SQL 语句

//应用其第一个 FullText 索引
select * from apothegm where match(phrase) againts('time');  
//应用其第三个 FullText 索引
select * from apothegm where match(phrase,attribution) againts('time');

输出相关程度 : 天然语言类型的全文搜索。其输出是按照相关程度递减顺序排列，相关度是一个非负数的浮点数，其中 0表明绝不相关

select phrase,match(phrase) against('time') as relavance from apothegm

PS:把匹配的结构，看成一个独立字段，其中 relavance 为相关程度的意思

多个词一块儿查询，好比查询 hard 或者 soft

select * from apothegm where match(phrase) againts('hard soft');

布尔模式的全文索引

特色 1. 50％同样的规则：不生效了
2. 查询结果再也不按照 相关程度排序
3. 也能够对非 FullText 索引列进行搜索，只是速度相比，有 FullText 的速度要慢ui

使用的方式搜索引擎

基本方式：要在 MATCH 后面加IN BOOLEAN MODE，（不加说明，默认使用天然排序IN NATURAL LANGUAGE MODE）

select * from apothegm where match(phrase) againts('hard' in boolean mode);

按单词出现顺序检索，把对应单词用双引号引发来；

select * from apothegm where match(phrase) againts('“bell book and candle”' in boolean mode);

能够搜索必须出现，必须不出现，分别用 + 和－标示：

select * from apothegm where match(phrase) againts('＋bell  －candle' in boolean mode);

能够用＊做为通配符, 标示以什么开头的。可是仍是必须遵照，单词不能太短的约定。

配置全文搜索引擎

全文索引的参数是能够配置的，能够经过系统变量的办法进行修改。spa

变量 ft_min_word_len 和 ft_max_word_len 来设置单词所具备的最小长度，和最大长度。默认最小值与最大值分别为 4 和 84
在 my.conf 的 mysqld 下添加下面语句，而后重启。

ft_min_word_len = 1

若是是已经创建 FullText 索引表，必须从新创建这些索引关系，但也是能够快速修复。

repair table tbl_name quick;

若是是在此以后新建的 FullText 索引，均可以更新使用这个值。

参考设计

原文出处code