laravel5下全文搜索和中文分词:TNTSearch+jieba-php

时间 2019-11-18

标签 laravel5 laravel 全文搜索中文分词 tntsearch+jieba tntsearch jieba php 栏目搜索引擎繁體版

原文原文链接

这套组合能够在不依赖第三方的状况下实现中文全文搜索，项目演示；php

laravel new tntsearch

Bashlaravel

建立一个文章表和文章模型；git

php artisan make:model Models/Article -m

Bashgithub

新建数据库，数据表（略）；web

修改 .env 数据库配置项；sql

DB_DATABASE=homestead
DB_USERNAME=homestead
DB_PASSWORD=secret

PHP数据库

生成测试数据;数组

注意：**必定要是用模型方法，不然会致使插入的内容不被会搜索，由于没有更新索引（**这很重要！！！），以此，下面的方法不行：app

public function run()
{
    DB::table('articles')->insert([
        [
            'title' => 'TNTSearch',
            'content' => '一个用PHP编写的功能齐全的全文搜索引擎'
        ],
        [
            'title' => 'jieba-php',
            'content' => '"结巴"中文分词:作最好的php中文分词、中文断词组件'
        ]
    ]);
}

PHPcomposer

改用如下方法填充数据：

public function add_data()
{
    $article_m = new Article();
    $article_m ->title = 'TNTSearch';
    $article_m ->content = '一个用PHP编写的功能齐全的全文搜索网站';
    $article_m ->save();
}

PHP

同理：修改数据也须要用到模型方法：

public function update_data()
{
    $article = Article::find(1);
$article ->title = "jieba-php";
    $article ->content = ""结巴"中文分词:作最好的php中文分词、中文断词组件。";
    $article ->save();
}

PHP

同理：删除数据也须要用到索引方法：

public function delate_data()
{
    $article = Article::find(1);
    $article ->delete();
}

PHP

/routes/web.php

<?php
use App\Models\Article;

Route::get('search', function () {
    // 为查看方便都转成数组
    dump(Article::all()->toArray());
});

PHP

准备工做终于作完了；另外由于依赖 SQLite 存储索引；再确认下本身的 php 开启了如下扩展；

pdo_sqlite
sqlite3
mbstring

Bash

如今开始正题；

之前；咱们须要本身 require scout； scout 是 laravel 官方提供的用于全文搜索的扩展包；它为咱们提供了方便的命令行；并且当咱们增删改查文章后它会自动同步索引；而后 require tntsearch 为 scout 提供的 laravel-scout-tntsearch-driver ; 再而后编写使用中文分词的逻辑；如今有了 vanry 为咱们造的轮子 laravel-scout-tntsearch ; 之前到如今这中间的步骤就能够省略了；直接 require laravel-scout-tntsearch-driver ;

composer require vanry/laravel-scout-tntsearch

Bash

添加 Provider ； config/app.php

'providers' => [

    // ...

    /**
     * TNTSearch 全文搜索
     */
    Laravel\Scout\ScoutServiceProvider::class,
    Vanry\Scout\TNTSearchScoutServiceProvider::class,
],

PHP

中文分词 require jieba-php

composer require fukuball/jieba-php

Bash

发布配置项;

php artisan vendor:publish --provider="Laravel\Scout\ScoutServiceProvider"

Bash

配置项中增长 tntsearch ； /config/scout.php ；

'tntsearch' => [
    'storage' => storage_path('indexes'), //必须有可写权限
    'fuzziness' => env('TNTSEARCH_FUZZINESS', false),
    'searchBoolean' => env('TNTSEARCH_BOOLEAN', false),
    'asYouType' => false,

    'fuzzy' => [
        'prefix_length' => 2,
        'max_expansions' => 50,
        'distance' => 2,
    ],

    'tokenizer' => [
        'driver' => env('TNTSEARCH_TOKENIZER', 'default'),

        'jieba' => [
            'dict' => 'small',
            //'user_dict' => resource_path('dicts/mydict.txt'), //自定义词典路径
        ],

        'analysis' => [
            'result_type' => 2,
            'unit_word' => true,
            'differ_max' => true,
        ],

        'scws' => [
            'charset' => 'utf-8',
            'dict' => '/usr/local/scws/etc/dict.utf8.xdb',
            'rule' => '/usr/local/scws/etc/rules.utf8.ini',
            'multi' => 1,
            'ignore' => true,
            'duality' => false,
        ],
    ],

    'stopwords' => [
        '的',
        '了',
        '而是',
    ],
],

PHP

增长配置项； /.env ;

SCOUT_DRIVER=tntsearch
TNTSEARCH_TOKENIZER=jieba

Bash

模型中定义全文搜索； /app/Models/Article.php

<?php

namespace App\Models;

use Illuminate\Database\Eloquent\Model;
use Laravel\Scout\Searchable;

class Article extends Model
{
    use Searchable;

    /**
     * 索引的字段
     *
     * @return array
     */
    public function toSearchableArray()
    {
        return $this->only('id', 'title', 'content');
    }
}

PHP

php 默认的 memory_limit 是 128M；为了防止 PHP Fatal error: Allowed memory size of n bytes exhausted；咱给增长到 256M 以解决内存不够报错的问题; /app/Providers/AppServiceProvider.php

public function boot()
{
    /**
     * 增长内存防止中文分词报错
     */
    ini_set('memory_limit', "256M");
}

PHP

生成索引；

php artisan scout:import "App\Models\Article"

Bash

使用起来也至关简单；只须要把要搜索的内容传给 search() 方法便可; /routes/web.php

<?php
use App\Models\Article;

Route::get('search', function () {
    // 为查看方便都转成数组
    dump(Article::all()->toArray());
    dump(Article::search('功能齐全的搜索引擎')->get()->toArray());
});

PHP

成功的查出了数据；最后咱们再测下修改数据、删除数据后的同步索引(上文有提到)；

参考连接： 1.https://baijunyao.com/article/154 2.https://learnku.com/docs/laravel/5.7/scout/2309