php 安装、使用sphinx

时间 2019-11-21

标签 php 安装使用 sphinx 栏目 PHP 繁體版

原文原文链接

转载自http://blog.csdn.net/myboyli/article/details/52653534，若有侵权，请联系删除。

Sphinx部分

简介

Sphinx是一个基于SQL的全文检索引擎，能够结合MySQL,PostgreSQL作全文搜索，它能够提供比数据库自己更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。

前提安装完MySQL，并建立测试表和数据 php

DROP TABLE IF EXISTS `documents`;

CREATE TABLE IF NOT EXISTS `documents` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `title` varchar(255) NOT NULL,
  `content` text NOT NULL,
  `date_added` datetime NOT NULL,
  `author_id` int(11) NOT NULL,
  `group_id` int(2) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=MyISAM  DEFAULT CHARSET=utf8 AUTO_INCREMENT=4 ;
##转存表中的数据 `documents`

INSERT INTO `documents` (`id`, `title`, `content`, `date_added`, `author_id`, `group_id`) VALUES (1, '愚人节最佳蛊惑爆料谷歌300亿美圆收购百度', '据国外媒体报道，谷歌将巨资收购百度，涉及金额高达300亿美圆。谷歌借此重返大陆市场。　　该报道称，目前谷歌与百度已经达成了收购协议，将择机对外公布。百度的管理层将100%保留，但会将项目缩减，包括有啊商城，以及目前实施不力的凤巢计划。正在进行测试阶段的视频网站qiyi.com将输入更多的Youtube资源。(YouTube在大陆区因内容审查暂不能访问)。　　该消息彷佛获得了谷歌CEO施密特的确认，在其twitter上用简短而暧昧的文字进行了表述：“ Withdraw from that market? u''ll also see another result, just wait... ” 意思是：从那个市场退出?你还会看到另一个结果。毫无疑问，那个市场指的就是中国大陆。而另外的结果，对应此媒体报道，就是收购百度，从而曲线返回大陆搜索市场。　　在最近刚刚结束的深圳IT领袖峰会上，李彦宏曾言，“谷歌没有退出中国，由于还在香港”。也彷佛在验证被收购的这一事实。　　截止发稿，百度的股价为597美圆，市值为207亿美圆。谷歌以高达300亿美圆的价格，实际溢价高达50%。而谷歌市值高达1796亿美圆，并且手握大量现金，做这样的决策也在情理之中。近日，不少媒体都在报道百度创始人、CEO李彦宏的两次拒购：一次是百度上市前夕，李彦宏拒绝谷歌的并购，这个细节在2月28日央视虎年首期对话节目中获得首次披露﹔一次是在百度国际化战略中，拒绝采用海外并购的方式，而是采起了从日本市场开始的海外自主发展之路。这也让笔者由此开始思考民族品牌的发展之路。　　收购是打压中国品牌的惯用伎俩　　2010年2月28日，央视经济频道《对话》节目昨晚推出虎年首期节目，百度董事长兼CEO李彦宏做为嘉宾作客节目。李彦宏首度谈及2005年百度上市前夕，谷歌CEO施密特曾秘密造访百度时秘密谈话的内容，主要是劝阻百度上市，李彦宏断然拒绝了施密特的“好意”。今天看来，施密特当日也许已有不祥的预感，这个几百人的小公司终有一日会成为他们的大麻烦。　　本期《对话》一经播出，便引起了业界讨论。　　外资品牌经过收购打压中国品牌的案例不胜枚举。从以往跨国企业并购的中国品牌来看，真正让其活下来的品牌并很少，要么被雪藏，要么被低端化。　　所以，2005年百度没有接受Google的收购邀请，坚持自主发展，这对于保护中国品牌，维护中国网民信息安全有着相当重要的做用。当前百度市场份额高达76%，并持续增加，这也充分验证了李彦宏拒绝收购决策的正确性。　　今天看来，“百度一下”已经成为3亿多中国网民的网络生存法则，而直到今天环视全球，真正能像中国同样，拥有本身独立搜索引擎的只有4个国家！咱们也许应该庆幸当时李彦宏的选择。这个故事也告诉咱们，中国企业作品牌还要靠本身！　　收购也多是中国企业走出去的陷阱　　一样在2月28日，亚布力第十届年会上，李彦宏在论坛上指出：“咱们和不少其它公司的国际化路子是很不同的，咱们不是去买一个国外的公司，”，李彦宏解释了百度率先选择日本做为走出去的对象的缘由，由于日本和中国一衣带水的近邻优点，日本的市场规模，在日本也没有一家独大的搜索引擎。　　中国企业收购这些外资品牌目的是“借船出海”。外资品牌进入中国是收购中国优质品牌，而中国企业进入国外市场的收购策略偏偏相反，这也是中国企业借船出海屡屡失败的缘由所在。　　笔者认为，中国互联网公司走出去要依靠自身发展，并不能单纯依靠收购。李彦宏在百度成立伊始就抱定了国际化决心，使百度真正在面对国际化机遇时，更加冷静和具备前瞻力。李彦宏也认可当前百度在日本还处于初级发展阶段，但他也预言“2012年，百度与Google划洋而治”，对此咱们拭目以待！', '2010-04-01 22:20:07', 1, 2), ( (2, 'Twitter主页改版推普通用户消息增长趋势话题', '4月1日消息，据国外媒体报道，Twitter本周二推出新版主页，目的很简单：帮助新用户了解Twitter和增长用户黏稠度。　　新版Twittter入口处的内容眼花缭乱，在头部下方有滚动的热门趋势话题，左边列出了普通用户帐户和他们最新的消息。　　另外一个显著的部分是“Top Tweets”，它采用了新算法推选出最热门的话题，每一个几秒刷新一次。Twitter首席科学家Abdur Chowdhury表示，这种算法选出了全部用户的信息，而不是拥有大量追随者所发的信息。　　首页对于首次访问网站的用户很是重要，由于这决定了用户的第一印象。研究发现，多达60%的Twittter用户在注册后的一个月内再也不访问网站。Twittter但愿能更好地展示网站的面貌，帮助游客找到感兴趣的东西。', '2010-04-01 23:25:48', 1, 3), ( (3, '死都要上！Opera Mini 体验版抢先试用', 'Opera一直都被认为是浏览速度飞快，同时在移动平台上更是占有很多的份额。不久前，Opera正式向苹果提交了针对iPhone设计的Opera Mini。日前，台湾IT网站放出了Opera Mini和Safari的评测文章，下面让咱们看看Opera和Safari到底谁更好用更快吧。　　Opera Mini VS Safari，显示方式很不相同和Safari不一样的是，Opera Mini会针对手机对网页进行一些调整　　Opera Mini与Safari的运做原理不大相同。网页会经过Opera的服务器完整压缩后再发送到手机上，不像Safari可经过Multi-Touch和点击的方式自由缩放，Opera Mini会预先将文字照iPhone的宽度作好调整，点击区域后自动放大。若是习惯了Safari的浏览方式，会感受不大顺手，不过对许多宽度太宽，缩放后文字仍然显示很小的网页来讲，Opera Mini的显示方式比较有优点。　　打开测试网站首页所花费的流量，Safari和Opera Mini的差距明显可见。这个在国内移动资费超高的局面来讲，Opera Mini估计会比较受欢迎和省钱。Opera Mini的流量少得惊人，仅是Safari的十分之一　　兼容性相比，Safari完胜打开Google首页，Safari上是iPhone专用界面，Opera则是通常移动版本　　Opera Mini的速度和省流量仍是没法取代Safari成为iPhone上的主要浏览器。毕竟iPhone的高占有率让许多网站，线上服务都为Safari设计了专用页面。光Google的首页为例子就看出了明显的差异。另外，像Google Buzz这样线上应用，就会出现显示错误。Google Buzz上，Opera没法输入内容　　Opera Mini其余专属功能页面内搜索和关键字直接搜索至关人性化　　除了Opera首创的Speed Dial九宫格快速启动页面外，和Opera Link和电脑上的Opera直接同步书签、Speed Dial设定外。Opera Mini还可以直接搜索页面中的文字，查找资料时至关方便。另外也能选取文字另开新分页搜索，比起Safari还要复制、开新页、粘贴简单许多。同时还能将整个页面打包存储，方便离线浏览。　　如今Opera Mini想要战胜Safari还剩下一个很严重的问题-苹果什么时候会或者会不会经过Opera Mini的审核。', '2010-04-01 12:01:00', 2, 3);html

一、下载Sphinxpython

cd /usr/software

wget http://sphinxsearch.com/files/sphinx-2.1.5-release.tar.gz
或者直接去Sphinx官网去下载最新版本

二、安装依赖包mysql

yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

三、安装Sphinx linux

tar zxvf sphinx-2.1.5-release.tar.gz

cd sphinx-2.1.5-release

./configure --prefix=/usr/local/sphinx

make

make install

vi /etc/ld.so.conf 

/usr/local/mysql/lib #增长这一行保存 

/sbin/ldconfig -v

四、配置Sphinxios

请先看完我在后文写的配置文件解析，再参阅我再coreseek配置文件部分写的配置方法就好了。nginx

五、启动Sphinx、建立索引c++

#启动
/usr/local/sphinx/bin/searchd -c /usr/local/sphinx/etc/csft.conf
#建立索引
/usr/local/sphinx/bin/indexer -c /usr/local/sphinx/etc/csft.conf --rotate --all
#中止
/usr/local/sphinx/bin/searchd -c /usr/local/sphinx/etc/csft.conf --stop

sphinx的配置文件解析

咱们先要明白几个概念：web

source：数据源，数据是从什么地方来的。
index：索引，当有数据源以后，从数据源处构建索引。索引实际上就是至关于一个字典检索。有了整本字典内容之后，才会有字典检索。
searchd：提供搜索查询服务。它通常是以deamon的形式运行在后台的。
indexer：构建索引的服务。当要从新构建索引的时候，就是调用indexer这个命令。
attr：属性，属性是存在索引中的，它不进行全文索引，可是能够用于过滤和排序。

sphinx的配置文件过于冗长，咱们把sphinx默认的配置文件中的注释部分去掉，从新进行描述理解，就成下面的样子了：算法

配置文件

## 数据源src1 source src1 { ## 说明数据源的类型。数据源的类型能够是：mysql，pgsql，mssql，xmlpipe，odbc，python ## 有人会奇怪，python是一种语言怎么能够成为数据源呢？ ## python做为一种语言，能够操做任意其余的数据来源来获取数据，更多数据请看：（http://www.coreseek.cn/products-install/python/） type = mysql ## 下面是sql数据库特有的端口，用户名，密码，数据库名等。 sql_host = localhost sql_user = test sql_pass = sql_db = test sql_port = 3306 ## 若是是使用unix sock链接可使用这个。 # sql_sock = /tmp/mysql.sock ## indexer和mysql之间的交互，须要考虑到效率和安全性。 ## 好比考虑到效率，他们二者之间的交互须要使用压缩协议；考虑到安全，他们二者之间的传输须要使用ssl ## 那么这个参数就表明这个意思，0/32/2048/32768 无/使用压缩协议/握手后切换到ssl/Mysql 4.1版自己份认证。 # mysql_connect_flags = 32 ## 当mysql_connect_flags设置为2048（ssl）的时候，下面几个就表明ssl链接所须要使用的几个参数。 # mysql_ssl_cert = /etc/ssl/client-cert.pem # mysql_ssl_key = /etc/ssl/client-key.pem # mysql_ssl_ca = /etc/ssl/cacert.pem ## mssql特有，是否使用windows登录 # mssql_winauth = 1 ## mssql特有，是使用unicode仍是单字节数据。 # mssql_unicode = 1 # request Unicode data from server ## odbc的dsn串 # odbc_dsn = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)}; ## sql某一列的缓冲大小，通常是针对字符串来讲的。 ## 为何要有这么一种缓冲呢？ ## 有的字符串，虽然长度很长，可是实际上并无使用那么长的字符，因此在Sphinx并不会收录全部的字符，而是给每一个属性一个缓存做为长度限制。 ## 默认状况下非字符类型的属性是1KB，字符类型的属性是1MB。 ## 而若是想要配置这个buffer的话，就能够在这里进行配置了。 # sql_column_buffers = content=12M, comments=1M ## indexer的sql执行前须要执行的操做。 # sql_query_pre = SET NAMES utf8 # sql_query_pre = SET SESSION query_cache_type=OFF ## indexer的sql执行语句 sql_query = \ SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \ FROM documents ## 有的时候有多个表，咱们想要查询的字段在其余表中。这个时候就须要对sql_query进行join操做。 ## 而这个join操做可能很是慢，致使创建索引的时候特别慢，那么这个时候，就能够考虑在sphinx端进行join操做了。 ## sql_joined_field是增长一个字段，这个字段是从其余表查询中查询出来的。 ## 这里封号后面的查询语句是有要求的，若是是query，则返回id和查询字段，若是是payload-query，则返回id，查询字段和权重。 ## 而且这里的后一个查询须要按照id进行升序排列。 # sql_joined_field = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC # sql_joined_field = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC ## 外部文件字段，意思就是一个表中，有一个字段存的是外部文件地址，可是实际的字段内容在文件中。好比这个字段叫作content_file_path。 ## 当indexer创建索引的时候，查到这个字段，就读取这个文件地址，而后加载，并进行分词和索引创建等操做。 # sql_file_field = content_file_path ## 当数据源数据太大的时候，一个sql语句查询下来每每颇有可能锁表等操做。 ## 那么我么就可使用屡次查询，那么这个屡次查询就须要有个范围和步长，sql_query_range和sql_range_step就是作这个使用的。 ## 获取最大和最小的id，而后根据步长来获取数据。好比下面的例子，若是有4500条数据，这个表创建索引的时候就会进行5次sql查询。 ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。 # sql_query_range = SELECT MIN(id),MAX(id) FROM documents # sql_range_step = 1000 # sql_ranged_throttle = 0 ## 下面都是些不一样属性的数据了 ## 先要了解属性的概念：属性是存在索引中的，它不进行全文索引，可是能够用于过滤和排序。 ## uint无符号整型属性 sql_attr_uint = group_id ## bool属性 # sql_attr_bool = is_deleted ## 长整型属性 # sql_attr_bigint = my_bigint_id ## 时间戳属性，常常被用于作排序 sql_attr_timestamp = date_added ## 字符串排序属性。通常咱们按照字符串排序的话，咱们会将这个字符串存下来进入到索引中，而后在查询的时候比较索引中得字符大小进行排序。 ## 可是这个时候索引就会很大，因而咱们就想到了一个方法，咱们在创建索引的时候，先将字符串值从数据库中取出，暂存，排序。 ## 而后给排序后的数组分配一个序号，而后在创建索引的时候，就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操做。 ## 这，就是这个字段的意义。 # sql_attr_str2ordinal = author_name ## 浮点数属性，常常在查询地理经纬度的时候会用到。 # sql_attr_float = lat_radians # sql_attr_float = long_radians ## 多值属性（MVA） ## 试想一下，有一个文章系统，每篇文章都有多个标签，这个文章就叫作多值属性。 ## 我要对某个标签进行查询过滤，那么在创建查询的时候就应该把这个标签的值放入到索引中。 ## 这个字段，sql_attr_multi就是用来作这个事情的。 # sql_attr_multi = uint tag from query; SELECT docid, tagid FROM tags # sql_attr_multi = uint tag from ranged-query; \ # SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \ # SELECT MIN(docid), MAX(docid) FROM tags ## 字符串属性。 # sql_attr_string = stitle ## 文档词汇数记录属性。好比下面就是在索引创建的时候增长一个词汇数的字段 # sql_attr_str2wordcount = stitle ## 字符串字段，可全文搜索，可返回原始文本信息。 # sql_field_string = author ## 文档词汇数记录字段，可全文搜索，可返回原始信息 # sql_field_str2wordcount = title ## 取后查询，在sql_query执行后当即操做。 ## 它和sql_query_post_index的区别就是执行时间不一样 ## sql_query_post是在sql_query执行后执行，而sql_query_post_index是在索引创建完成后才执行。 ## 因此若是要记录最后索引执行时间，那么应该在sql_query_post_index中执行。 # sql_query_post = ## 参考sql_query_post的说明。 # sql_query_post_index = REPLACE INTO counters ( id, val ) \ # VALUES ( 'max_indexed_id', $maxid ) ## 命令行获取信息查询。 ## 什么意思呢？ ## 咱们进行索引通常只会返回主键id，而不会返回表中的全部字段。 ## 可是在调试的时候，咱们通常须要返回表中的字段，那这个时候，就须要使用sql_query_info。 ## 同时这个字段只在控制台有效，在api中是无效的。 sql_query_info = SELECT * FROM documents WHERE id=$id ## 好比有两个索引，一个索引比较旧，一个索引比较新，那么旧索引中就会有数据是旧的。 ## 当我要对两个索引进行搜索的时候，哪些数据要按照新的索引来进行查询呢。 ## 这个时候就使用到了这个字段了。 ## 这里的例子（http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist）给的很是清晰了。 # sql_query_killlist = SELECT id FROM documents WHERE edited>=@last_reindex ## 下面几个压缩解压的配置都是为了一个目的：让索引重建的时候不要影响数据库的性能表现。 ## SQL数据源解压字段设置 # unpack_zlib = zlib_column ## MySQL数据源解压字段设置 # unpack_mysqlcompress = compressed_column # unpack_mysqlcompress = compressed_column_2 ## MySQL数据源解压缓冲区设置 # unpack_mysqlcompress_maxsize = 16M ## xmlpipe的数据源就是一个xml文档 # type = xmlpipe ## 读取数据源的命令 # xmlpipe_command = cat /home/yejianfeng/instance/coreseek/var/test.xml ## 字段 # xmlpipe_field = subject # xmlpipe_field = content ## 属性 # xmlpipe_attr_timestamp = published # xmlpipe_attr_uint = author_id ## UTF-8修复设置 ## 只适用xmlpipe2数据源，数据源中有可能有非utf-8的字符，这个时候解析就有可能出现问题 ## 若是设置了这个字段，非utf-8序列就会所有被替换为空格。 # xmlpipe_fixup_utf8 = 1 } ## sphinx的source是有继承这么一种属性的，意思就是除了父source以外，这个source还有这个特性 source src1throttled : src1 { sql_ranged_throttle = 100 } ## 索引test1 index test1 { ## 索引类型，包括有plain，distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。 # type = plain ## 索引数据源 source = src1 ## 索引文件存放路径 path = /home/yejianfeng/instance/coreseek/var/data/test1 ## 文档信息的存储模式，包括有none,extern,inline。默认是extern。 ## docinfo指的就是数据的全部属性（field）构成的一个集合。 ## 首先文档id是存储在一个文件中的（spa） ## 当使用inline的时候，文档的属性和文件的id都是存放在spa中的，因此进行查询过滤的时候，不须要进行额外操做。 ## 当使用extern的时候，文档的属性是存放在另一个文件（spd）中的，可是当启动searchd的时候，会把这个文件加载到内存中。 ## extern就意味着每次作查询过滤的时候，除了查找文档id以外，还须要去内存中根据属性进行过滤。 ## 可是即便这样，extern因为文件大小小，效率也不低。因此不是有特殊要求，通常都是使用extern docinfo = extern ## 缓冲内存锁定。 ## searchd会讲spa和spi预读取到内存中。可是若是这部份内存数据长时间没有访问，则它会被交换到磁盘上。 ## 设置了mlock就不会出现这个问题，这部分数据会一直存放在内存中的。 mlock = 0 ## 词形处理器 ## 词形处理是什么意思呢？好比在英语中，dogs是dog的复数，因此dog是dogs的词干，这两个其实是同一个词。 ## 因此英语的词形处理器会讲dogs当作dog来进行处理。 morphology = none ## 词形处理有的时候会有问题，好比将gps处理成gp，这个设置能够容许根据词的长度来决定是否要使用词形处理器。 # min_stemming_len = 1 ## 词形处理后是否还要检索原词？ # index_exact_words = 1 ## 中止词，中止词是不被索引的词。 # stopwords = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt ## 自定义词形字典 # wordforms = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt ## 词汇特殊处理。 ## 有的一些特殊词咱们但愿把它当成另一个词来处理。好比，c++ => cplusplus来处理。 # exceptions = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt ## 最小索引词长度，小于这个长度的词不会被索引。 min_word_len = 1 ## 字符集编码类型，能够为sbcs,utf-8。对于Coreseek，还能够有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5 charset_type = sbcs ## 字符表和大小写转换规则。对于Coreseek，这个字段无效。 # 'sbcs' default value is # charset_table = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF # # 'utf-8' default value is # charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F ## 忽略字符表。在忽略字符表中的先后词会被连起来当作一个单独关键词处理。 # ignore_chars = U+00AD ## 是否启用通配符，默认为0，不启用 # enable_star = 1 ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。 ## 最小前缀索引长度 ## 为何要有这个配置项呢？ ## 首先这个是当启用通配符配置启用的前提下说的，前缀索引使得一个关键词产生了多个索引项，致使索引文件体积和搜索时间增长巨大。 ## 那么咱们就有必要限制下前缀索引的前缀长度，好比example，当前缀索引长度设置为5的时候，它只会分解为exampl，example了。 # min_prefix_len = 0 ## 最小索引中缀长度。理解同上。 # min_infix_len = 0 ## 前缀索引和中缀索引字段列表。并非全部的字段都须要进行前缀和中缀索引。 # prefix_fields = filename # infix_fields = url, domain ## 词汇展开 ## 是否尽量展开关键字的精确格式或者型号形式 # expand_keywords = 1 ## N-Gram索引的分词技术 ## N-Gram是指不按照词典，而是按照字长来分词，这个主要是针对非英文体系的一些语言来作的（中文、韩文、日文） ## 对coreseek来讲，这两个配置项能够忽略。 # ngram_len = 1 # ngram_chars = U+3000..U+2FA1F ## 词组边界符列表和步长 ## 哪些字符被看作分隔不一样词组的边界。 # phrase_boundary = ., ?, !, U+2026 # horizontal ellipsis # phrase_boundary_step = 100 ## 混合字符列表 # blend_chars = +, &, U+23 # blend_mode = trim_tail, skip_pure ## html标记清理，是否从输出全文数据中去除HTML标记。 html_strip = 0 ## HTML标记属性索引设置。 # html_index_attrs = img=alt,title; a=title; ## 须要清理的html元素 # html_remove_elements = style, script ## searchd是预先打开所有索引仍是每次查询再打开索引。 # preopen = 1 ## 字典文件是保持在磁盘上仍是将他预先缓冲在内存中。 # ondisk_dict = 1 ## 因为在索引创建的时候，须要创建临时文件和和副本，还有旧的索引 ## 这个时候磁盘使用量会暴增，因而有个方法是临时文件重复利用 ## 这个配置会极大减小创建索引时候的磁盘压力，代价是索引创建速度变慢。 # inplace_enable = 1 # inplace_hit_gap = 0 # preallocated hitlist gap size # inplace_docinfo_gap = 0 # preallocated docinfo gap size # inplace_reloc_factor = 0.1 # relocation buffer size within arena # inplace_write_factor = 0.1 # write buffer size within arena ## 在通过太短的位置后增长位置值 # overshort_step = 1 ## 在通过 停用词 处后增长位置值 # stopword_step = 1 ## 位置忽略词汇列表 # hitless_words = all # hitless_words = hitless.txt ## 是否检测并索引句子和段落边界 # index_sp = 1 ## 字段内须要索引的HTML/XML区域的标签列表 # index_zones = title, h*, th } index test1stemmed : test1 { path = /home/yejianfeng/instance/coreseek/var/data/test1stemmed morphology = stem_en } index dist1 { type = distributed local = test1 local = test1stemmed ## 分布式索引（distributed index）中的远程代理和索引声明 agent = localhost:9313:remote1 agent = localhost:9314:remote2,remote3 # agent = /var/run/searchd.sock:remote4 ## 分布式索引（ distributed index）中声明远程黑洞代理 # agent_blackhole = testbox:9312:testindex1,testindex2 ## 远程代理的链接超时时间 agent_connect_timeout = 1000 ## 远程查询超时时间 agent_query_timeout = 3000 } index rt { type = rt path = /home/yejianfeng/instance/coreseek/var/data/rt ## RT索引内存限制 # rt_mem_limit = 512M ## 全文字段定义 rt_field = title rt_field = content ## 无符号整数属性定义 rt_attr_uint = gid ## 各类属性定义 # rt_attr_bigint = guid # rt_attr_float = gpa # rt_attr_timestamp = ts_added # rt_attr_string = author } indexer { ## 创建索引的时候，索引内存限制 mem_limit = 32M ## 每秒最大I/O操做次数，用于限制I/O操做 # max_iops = 40 ## 最大容许的I/O操做大小，以字节为单位，用于I/O节流 # max_iosize = 1048576 ## 对于XMLLpipe2数据源容许的最大的字段大小，以字节为单位 # max_xmlpipe2_field = 4M ## 写缓冲区的大小，单位是字节 # write_buffer = 1M ## 文件字段可用的最大缓冲区大小，字节为单位 # max_file_field_buffer = 32M } ## 搜索服务配置 searchd { # listen = 127.0.0.1 # listen = 192.168.0.1:9312 # listen = 9312 # listen = /var/run/searchd.sock ## 监听端口 listen = 9312 listen = 9306:mysql41 ## 监听日志 log = /home/yejianfeng/instance/coreseek/var/log/searchd.log ## 查询日志 query_log = /home/yejianfeng/instance/coreseek/var/log/query.log ## 客户端读超时时间 read_timeout = 5 ## 客户端持久链接超时时间，即客户端读一次之后，持久链接，而后再读一次。中间这个持久链接的时间。 client_timeout = 300 ## 并行执行搜索的数目 max_children = 30 ## 进程id文件 pid_file = /home/yejianfeng/instance/coreseek/var/log/searchd.pid ## 守护进程在内存中为每一个索引所保持并返回给客户端的匹配数目的最大值 max_matches = 1000 ## 无缝轮转。防止 searchd 轮换在须要预取大量数据的索引时中止响应 ## 当进行索引轮换的时候，可能须要消耗大量的时间在轮换索引上。 ## 可是启动了无缝轮转，就以消耗内存为代价减小轮转的时间 seamless_rotate = 1 ## 索引预开启，是否强制从新打开全部索引文件 preopen_indexes = 1 ## 索引轮换成功以后，是否删除以.old为扩展名的索引拷贝 unlink_old = 1 ## 属性刷新周期 ## 就是使用UpdateAttributes()更新的文档属性每隔多少时间写回到磁盘中。 # attr_flush_period = 900 ## 索引字典存储方式 # ondisk_dict_default = 1 ## 用于多值属性MVA更新的存储空间的内存共享池大小 mva_updates_pool = 1M ## 网络通信时容许的最大的包的大小 max_packet_size = 8M ## 崩溃日志文件 # crash_log_path = /home/yejianfeng/instance/coreseek/var/log/crash ## 每次查询容许设置的过滤器的最大个数 max_filters = 256 ## 单个过滤器容许的值的最大个数 max_filter_values = 4096 ## TCP监听待处理队列长度 # listen_backlog = 5 ## 每一个关键字的读缓冲区的大小 # read_buffer = 256K ## 无匹配时读操做的大小 # read_unhinted = 32K ## 每次批量查询的查询数限制 max_batch_queries = 32 ## 每一个查询的公共子树文档缓存大小 # subtree_docs_cache = 4M ## 每一个查询的公共子树命中缓存大小 # subtree_hits_cache = 8M ## 多处理模式（MPM）。 可选项；可用值为none、fork、prefork，以及threads。 默认在Unix类系统为form，Windows系统为threads。 workers = threads # for RT to work ## 并发查询线程数 # dist_threads = 4 ## 二进制日志路径 # binlog_path = # disable logging # binlog_path = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there ## 二进制日志刷新 # binlog_flush = 2 ## 二进制日志大小限制 # binlog_max_log_size = 256M ## 线程堆栈 # thread_stack = 128K ## 关键字展开限制 # expansion_limit = 1000 ## RT索引刷新周期 # rt_flush_period = 900 ## 查询日志格式 ## 可选项，可用值为plain、sphinxql，默认为plain。 # query_log_format = sphinxql ## MySQL版本设置 # mysql_version_string = 5.0.37 ## 插件目录 # plugin_dir = /usr/local/sphinx/lib ## 服务端默认字符集 # collation_server = utf8_general_ci ## 服务端libc字符集 # collation_libc_locale = ru_RU.UTF-8 ## 线程服务看守 # watchdog = 1 ## 兼容模式 # compat_sphinxql_magics = 1 }

Coreseek部分

简介

Coreseek 是一款中文全文检索/搜索软件，以GPLv2许可协议开源发布，基于Sphinx(也就是说coreseek里面含有sphinx，因此你不用本身单独去安装sphinx)研发并独立发布，专攻中文搜索和信息处理领域，适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景。商业使用（例如, 嵌入到其余程序中）须要得到商业受权。
Coreseek是一个支持中文的全文搜索引擎，意图为其余应用提供高速、低空间占用、高相关度结果的中文全文搜索能力。CoreSeek能够很是容易的与SQL数据库和脚本语言集成。
在Sphinx发行版本中提供的原生搜索API支持PHP、Python、Perl、Rudy和Java。搜索API很是轻量化，能够在几个小时以内移植到新的语言上。第三方API接口和插件提供了对Perl、C#、Haskell、Ruby-on-Rails支持，以及对其余可能的语言或者框架的支持。

二,安装Coreseek
注:本文是以centos+mysql作为数据源支持为基础的coreseek安装教程.mysql安装略过.

1,下载coreseek-4.1-beta.tar.gz

近日Coreseek官网出问题了，我留个下载连接

百度云盘连接：http://pan.baidu.com/s/1hsPpwFE 密码：eiug

cd /usr/local/src/

而后上传刚刚下载的

coreseek-4.1-beta.tar.gz文件放到当前目录下

$ tar xzvf coreseek-4.1-beat.tar.gz
$ cd coreseek-4.1-beat.tar.gz
安装coreseek以前须要先安装须要预装的软件：

$yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

2,安装mmseg
$ cd mmseg-3.2.14
$ ./bootstrap #输出的warning信息能够忽略，若是出现error则须要解决
$ ./configure --prefix=/usr/local/mmseg3
$ make && make install
$ cd ..

##若是提示libtool: unrecognized option `--tag=CC' ，请查看libtool问题解决方案
##安装完成后，mmseg使用的词典和配置文件，将自动安装到/usr/local/mmseg3/etc中
##中文分词测试，若是显示不正常，请检查当前环境下的locale和UTF-8中文字符显示设置
$ /usr/local/mmseg3/bin/mmseg -d /usr/local/mmseg3/etc src/t1.txt
中文/x 分/x 词/x 测试/x
中国人/x 上海市/x

Word Splite took: 1 ms.

3,安装coreseek
$ cd csft-4.1
##执行configure，进行编译配置：
$ sh buildconf.sh
$ ./configure --prefix=/usr/local/coreseek --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql

如查提示找不到mysql includes file则使用下面的编译命令

$ ./configure --prefix=/usr/local/coreseek --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql-includes=/alidata/server/mysql/include/ --with-mysql-libs=/alidata/server/mysql/bin/
$ make && make install

4,测式coreseek
$ cd ../testpack
$ /usr/local/coreseek/bin/indexer -c etc/csft.conf
##如下为正常状况下的提示信息：
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

     using config file 'etc/csft.conf'...
    total 0 reads, 0.000 sec, 0.0 kb/call avg, 0.0 msec/call avg
    total 0 writes, 0.000 sec, 0.0 kb/call avg, 0.0 msec/call avg
##
##csft-4.0版显示：ERROR: nothing to do.
##
$ /usr/local/coreseek/bin/indexer -c etc/csft.conf --all
##如下为正常索引所有数据时的提示信息：（csft-4.0版相似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

     using config file 'etc/csft.conf'...
    indexing index 'xml'...
    collected 3 docs, 0.0 MB
    sorted 0.0 Mhits, 100.0% done
    total 3 docs, 7585 bytes
    total 0.075 sec, 101043 bytes/sec, 39.96 docs/sec
    total 2 reads, 0.000 sec, 5.6 kb/call avg, 0.0 msec/call avg
    total 7 writes, 0.000 sec, 3.9 kb/call avg, 0.0 msec/call avg

$ /usr/local/coreseek/bin/indexer -c etc/csft.conf xml
##如下为正常索引指定数据时的提示信息：（csft-4.0版相似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

     using config file 'etc/csft.conf'...
    indexing index 'xml'...
    collected 3 docs, 0.0 MB
    sorted 0.0 Mhits, 100.0% done
    total 3 docs, 7585 bytes
    total 0.069 sec, 109614 bytes/sec, 43.35 docs/sec
    total 2 reads, 0.000 sec, 5.6 kb/call avg, 0.0 msec/call avg
    total 7 writes, 0.000 sec, 3.9 kb/call avg, 0.0 msec/call avg

$ /usr/local/coreseek/bin/search -c etc/csft.conf
##如下为正常测试搜索时的提示信息：（csft-4.0版相似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

using config file 'etc/csft.conf'...
index 'xml': query '': returned 3 matches of 3 total in 0.093 sec

    displaying matches:
    1. document=1, weight=1, published=Thu Apr 1 22:20:07 2010, author_id=1
    2. document=2, weight=1, published=Thu Apr 1 23:25:48 2010, author_id=1
    3. document=3, weight=1, published=Thu Apr 1 12:01:00 2010, author_id=2

words:

$ /usr/local/coreseek/bin/search -c etc/csft.conf -a Twittter和Opera都提供了搜索服务
##如下为正常测试搜索关键词时的提示信息：（csft-4.0版相似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

using config file 'etc/csft.conf'...
index 'xml': query 'Twittter和Opera都提供了搜索服务 ': returned 3 matches of 3 total in 0.038 sec

    displaying matches:
    1. document=3, weight=24, published=Thu Apr 1 12:01:00 2010, author_id=2
    2. document=1, weight=4, published=Thu Apr 1 22:20:07 2010, author_id=1
    3. document=2, weight=3, published=Thu Apr 1 23:25:48 2010, author_id=1

    words:
    1. 'twittter': 1 documents, 3 hits
    2. '和': 3 documents, 15 hits
    3. 'opera': 1 documents, 25 hits
    4. '都': 2 documents, 4 hits
    5. '提供': 0 documents, 0 hits
    6. '了': 3 documents, 18 hits
    7. '搜索': 2 documents, 5 hits
    8. '服务': 1 documents, 1 hits

$ /usr/local/coreseek/bin/searchd -c etc/csft.conf
##如下为正常开启搜索服务时的提示信息：（csft-4.0版相似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

using config file 'etc/csft.conf'...
listening on all interfaces, port=9312

三,配置coreseek支持mysql数据源

1,配置csft_mysql.conf文件
复制mysql配置文件到coreseek安装目录etc/下(好比/usr/local/coreseek/etc/)
$ cp /usr/src/coreseek-4.1-beta/testpack/etc/csft_mysql.conf /usr/local/coreseek/etc/
$ cd /usr/local/coreseek/etc/
$ vi csft_mysql.conf
下面加红部分是须要你本身配置的

官方参考文档:数据源配置：mysql数据源 http://www.coreseek.cn/products-install/datasource/

其余数据源请参考官方
==============================================================
#源定义
source phperz
{
type = mysql

    sql_host                = localhost
    sql_user                = root
    sql_pass                = xxxx
    sql_db                    = phperz
    sql_port                = 3306
    sql_query_pre            = SET NAMES utf8

    sql_query                = SELECT id,title,descs,status from article
                                                              #sql_query第一列id需为整数
                                                              #title、content做为字符串/文本字段，被全文索引
    sql_attr_uint            = status           #从SQL读取到的值必须为整数
    #sql_attr_timestamp        = date_added #从SQL读取到的值必须为整数，做为时间属性

sql_query_info_pre = SET NAMES utf8 #命令行查询时，设置正确的字符集
sql_query_info = SELECT * FROM article WHERE id=$id #命令行查询时，从数据库读取原始数据信息
}

#index定义
index phperz
{
    source            = phperz             #对应的source名称
    path            =  /usr/local/coreseek/var/data/phperz #请修改成实际使用的绝对路径，例如：/usr/local/coreseek/var/...
    docinfo            = extern
    mlock            = 0
    morphology        = none
    min_word_len        = 1
    html_strip                = 0

    #中文分词配置，详情请查看：http://www.coreseek.cn/products-install/coreseek_mmseg/
    charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux环境下设置，/符号结尾
    #charset_dictpath = etc/                             #Windows环境下设置，/符号结尾，最好给出绝对路径，例如：C:/usr/local/coreseek/etc/...
    charset_type        = zh_cn.utf-8
}
#全局index定义
indexer
{
    mem_limit            = 128M
}

#searchd服务定义
searchd
{
    listen                  =   9312
    read_timeout        = 5
    max_children        = 30
    max_matches            = 1000
    seamless_rotate        = 0
    preopen_indexes        = 0
    unlink_old            = 1
    pid_file = /usr/local/coreseek/var/log/searchd_mysql.pid #请修改成实际使用的绝对路径，例如：/usr/local/coreseek/var/...
    log = /usr/local/coreseek/var/log/searchd_mysql.log        #请修改成实际使用的绝对路径，例如：/usr/local/coreseek/var/...
    query_log = /usr/local/coreseek/var/log/query_mysql.log #请修改成实际使用的绝对路径，例如：/usr/local/coreseek/var/...
}
==============================================================

2,创建索引
路经部分须要改为你本身的地址
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all

可能出现的错误
ERROR: index 'phperz': sql_connect: Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (2) (DSN=mysql://root:***@localhost:3306/phperz).
这是由于mysql的sock文件路经不正确致使的.
确认一下你的mysql.sock路经,创建一个软链接,好比
ln -s /tmp/mysql.sock /var/lib/mysql/mysql.sock

四,coreseek+PHP使用方式

Sphinx集成到php程序中有两种方式
1.Sphinx php 模块(此次咱们选择使用的方式)
2.Sphinx api 类(位于coreseek源码包里的csft里的api文件夹里有一个sphinxapi.php,使用的时候包含这个php文件便可)
咱们要使用sphinx须要作如下几件事:
1.首先要有数据
2.创建sphinx配置文件
3.生成索引
4,启动searchd 服务进程,并开启端口9312(/usr/local/coreseek/bin/searchd -c etc/csft_mysql.conf &)
5.用php客户程序去连接sphinx服务
/usr/local/coreseek/bin/searchd
启动进程命令 searchd
-c 指定配置文件
--stop 中止服务
--pidfile 显示指定pid文件
-p 指定端口(默认9312)
注意:这里启动的服务是searchd
使用php sphinx的模块
下载 sphinx-1.1.0.tgz
tar zvxf sphinx-1.1.0.tgz
cd sphinx-1.1.0
/usr/local/php/bin/phpize #用于生成一个configure的脚本
进入coreseek源码包的csft/api/libsphinxclent 目录下执行configure
./configure
make && make install
进入sphinx-1.1.0.gzt的源码包目录下执行configure用于生成so 的shpinx模块
./configure --with-php-config=/usr/local/webserver/php/bin/php-config --with-sphinx
make && make install
安装成功后会有提示
Build complete.
Don't forget to run 'make test'.
Installing shared extensions: /usr/local/php/lib/php/extensions/no-debug-non-zts-20090626/ (这个目录是sphinx.so所在的目录)
而后咱们编辑php的ini文件在extension中加入
extension=sphinx.so
而后重启nginx和php的服务
最后打印一下phpinfo 查看sphinx是否开启成功
若是成功开启就可使用php手册里的sphinx的方法和代码了
复制安装止录下的/usr/local/src/coreseek-4.1-beta/testpack/api/sphinxapi.php文件到你的项目里
你的程序里include sphinxapi.php
php使用方法见/usr/local/src/coreseek-4.1-beta/testpack/api/test.php
另附上测试代码

案例一：

<pre name="code" class="php"><?php  
/** 
@Time    2016年09月 
@Author  云天河Blog 
@link    http://blog.csdn.net/myboyli/article/details/52653534 
*/  
if(!isset($_GET['key_word'])){  
  $_GET['key_word']="云天河Blog";  
}  
@$key_word    =    trim($_GET['key_word']);  
echo "<small>请在url上，输入  参数key_word  的相关get信息，来查询</small><br/>";  
echo "当前key_word为：<font color='red'>$key_word</font><br/>Sphinx返回值以下数组<br/>";  
$sphinx = new SphinxClient();  
//sphinx的主机名和端口  
$sphinx->SetServer ( 'localhost', 9312 );  
//设置返回结果集为php数组格式  
$sphinx->SetArrayResult ( true );  
//匹配结果的偏移量，参数的意义依次为：起始位置，返回结果条数，最大匹配条数  
$sphinx->SetLimits(0, 20, 1000);  
//最大搜索时间  
$sphinx->SetMaxQueryTime(10);  
//执行简单的搜索，这个搜索将会查询全部字段的信息，要查询指定的字段请继续看下文  
$index = '*' ;//索引源是配置文件中的 index 类，若是有多个索引源可以使用,号隔开：'email,diary' 或者使用'*'号表明所有索引源  
$result = $sphinx->query ($key_word, $index);   
echo '<pre>';  
print_r($result);  
echo '</pre>';  
//释放资源  
$sphinx=null;

更多关于Sphinx的PHP用法请参阅https://my.oschina.NET/melonol/blog/127441

五,coreseek平常维护

启动
/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf
中止
/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf --stop
创建索引
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all
重建索引
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all --rotate

你须要把启动命令加到开机自启动里把重建索引命令加到计划任务里天天执行