大多数开发者应该都遇到过在mysql字段中存储逗号分割字符串的经历,不管这些被分割的字段表明的是id仍是tag,这个字段都应该具备以下几个共性。php
被分割的字段必定是有限并且数量较少的,咱们不可能在一个字符串中存储无限多个字符java
这个字段所属的表与这个字段关联的表,必定是一对多的关系mysql
好比下面这个表结构所表明的content与tag这两个对象sql
mysql> SELECT * FROM content; +----+------+ | id | tags | +----+------+ | 1 | 1,2 | | 2 | 2,3 | +----+------+ 2 rows in set (0.01 sec) mysql> SELECT * FROM tag; +----+-------+ | id | name | +----+-------+ | 1 | php | | 2 | mysql | | 3 | java | +----+-------+ 3 rows in set (0.00 sec)
这些原则问题,相信你们在开发过程当中已经很熟悉了。可是你在使用这种方法来处理实际问题时,心里必定仍是有些许忐忑,由于这种方法或多或少看上去有点像野路子。在那本厚厚的《数据库》教材中,也没有提到这种设计方法,标准的方法彷佛是应该使用一个关系映射表在这两个表之间插一杠子,尽管这样会使用效率低下的链接查询。数据库
每一个开发者都曾纠结于标准与效率,但我想咱们的努力能使这种方法的使用看起来更加标准。注意,如下讨论的使用方法仅限于mysql,但其它数据库应该能够移植。bash
<h3>相关性检索</h3>函数
不少开发者还在使用古老的LIKE方法来实现相关性检索,好比上面那个数据库结构中,content表中的两条记录都有2这个tag,那么怎样在我取出记录1时,把与它tag相关的记录也显示出来呢。其实这也是CMS须要面对的一个基本问题,也就是相关内容的查询。性能
若是你是一个菜鸟,你可能只会想到LIKE方法,好比先把记录1取出来,而后再把tags字段按逗号分割,最后作一个循环用LIKE检索content表中全部tags字段中包含2的记录,相似这样测试
SELECT * FROM content WHERE tag LIKE '%2%' AND id <> 1
但这种方法实在是太慢了,查询次数多不说,LIKE查询原本就是一个比较慢的方法。并且你还要处理先后逗号的问题,总之麻烦是一大堆。搜索引擎
因此让咱们静下心来翻翻mysql手册,看看有没有什么惊喜。这个时候,一个名为FIND_IN_SET的函数,会闪着金光映入你的眼帘。让咱们看看这个函数的定义
<blockquote>
FIND_IN_SET(str,strlist)
Returns a value in the range of 1 to N if the string str is in the string list strlist consisting of N substrings. A string list is a string composed of substrings separated by “,” characters. If the first argument is a constant string and the second is a column of type SET, the FIND_IN_SET() function is optimized to use bit arithmetic. Returns 0 if str is not in strlist or if strlist is the empty string. Returns NULL if either argument is NULL. This function does not work properly if the first argument contains a comma (“,”) character.
</blockquote>
哦,PERFECT! 简单说来就是寻找一个字符串是否在另外一个以逗号分割的字符串中存在的函数,这简直是为咱们量身定作的。那么咱们的sql就变成
SELECT * FROM content WHERE FIND_IN_SET('2', tags) AND id <> 1
在翻这些函数的过程当中,你应该已经深深地体会到mysql的设计者对以逗号分割存储字段方法的确定,由于有不少方法就是设计用来处理这种问题的。
这样看起来好多了,一切彷佛完美了,是这样吗?其实尚未,若是你的tag比较多,你须要建立多个sql语句,并且有的记录关联的tag比较多,有的比较少,怎么能按照相关性进行排列呢。
这个时候,你能够关注mysql的全文检索功能。这个词你确定看见过无数回了,可是这么使用的确定不多,让咱们直接看语句吧
SELECT * FROM content WHERE MATCH(tags) AGAINST('1,2') AND id <> 1
这个语句的优点是显而易见的,你不须要对tags字段作再次分割。那么这种查询的原理是什么呢,稍微了解下MATCH AGAINST的用法就知道,全文检索的默认分隔符是标点符号和stopwords,其中前者正是咱们须要的特性。全文检索按照逗号将MATCH和AGAINST里的字符串作分割,而后将它们匹配。
须要注意的是上面sql仅仅是个例子,若是你直接这么执行,是没法获得任何结果的。缘由在如下
<ol>
<li>你须要对tags字段创建fulltext索引(若是仅仅是测试,能够不作,建索引只是提升性能,对结果没有影响)</li>
<li>每一个被标点符号分割的word长度必须在3个字符以上,这才是关键,咱们的tag id过短了,会被自动忽略掉,这个时候你能够考虑让id从一个比较大值开始自增,好比1000,这样它就够长了。</li>
<li>你撞到了stopwords,好比你的tags字段是这样的'hello,nobody',nobody是mysql的一个默认的stop words,它会被自动忽略。stop words是英文中的一些无心义词,搜索的时候不须要它们,相似汉语中的助词等等。但在咱们的使用中显然不是用来作搜索的,所以能够在my.cnf文件里,加上ft_stopword_file=''来禁用它</li>
</ol>
随着WEB技术的发展,相关搜索走SQL的状况愈来愈少,不少时候只须要用搜索引擎就能够了。但本文的目的并不仅是讨论这种方法,而是体现实现这一结果的过程。