Haystack

时间 2019-11-07

标签 haystack 繁體版

原文原文链接

什么是Haystack

Haystack是django的开源全文搜索框架(全文检索不一样于特定字段的模糊查询，使用全文检索的效率更高 )，该框架支持Solr,Elasticsearch,Whoosh, **Xapian搜索引擎它是一个可插拔的后端（很像Django的数据库层），因此几乎你全部写的代码均可以在不一样搜索引擎之间便捷切换html

安装

pip install django-haystack

配置

###添加Haystack到INSTALLED_APPSgit

跟大多数Django的应用同样，你应该在你的设置文件(一般是settings.py)添加Haystack到INSTALLED_APPS. 示例： github

INSTALLED_APPS = [
    'django.contrib.admin',
    'django.contrib.auth',
    'django.contrib.contenttypes',
    'django.contrib.sessions',
    'django.contrib.sites',

    # 添加
    'haystack',

    # 你的app
    'blog',
]

###修改settings.py数据库

在你的settings.py中，你须要添加一个设置来指示站点配置文件正在使用的后端，以及其它的后端设置。 HAYSTACK——CONNECTIONS是必需的设置，而且应该至少是如下的一种： django

Solr示例

HAYSTACK_CONNECTIONS = {
    'default': {
        'ENGINE': 'haystack.backends.solr_backend.SolrEngine',
        'URL': 'http://127.0.0.1:8983/solr'
        # ...or for multicore...
        # 'URL': 'http://127.0.0.1:8983/solr/mysite',
    },
}

Elasticsearch示例

HAYSTACK_CONNECTIONS = {
    'default': {
        'ENGINE': 'haystack.backends.elasticsearch_backend.ElasticsearchSearchEngine',
        'URL': 'http://127.0.0.1:9200/',
        'INDEX_NAME': 'haystack',
    },
}

Whoosh示例

#须要设置PATH到你的Whoosh索引的文件系统位置
import os
HAYSTACK_CONNECTIONS = {
    'default': {
        'ENGINE': 'haystack.backends.whoosh_backend.WhooshEngine',
        'PATH': os.path.join(os.path.dirname(__file__), 'whoosh_index'),
    },
}

Xapian示例

#首先安装Xapian后端（http://github.com/notanumber/xapian-haystack/tree/master）
#须要设置PATH到你的Xapian索引的文件系统位置。
import os
HAYSTACK_CONNECTIONS = {
    'default': {
        'ENGINE': 'xapian_backend.XapianEngine',
        'PATH': os.path.join(os.path.dirname(__file__), 'xapian_index'),
    },
}

处理数据

建立`SearchIndexes`

SearchIndexes对象是Haystack决定那些数据应该放入索引和处理流数据的方式。你能够把它们看做是Django的Models或Forms，它们是基于字段和数据操做/存储的。后端

你一般为你指望索引的每个Model都建立一个惟一的SearchIndex。虽然你能够在不一样的model中重复使用相同的SearchIndex，只要你当心的作而且字段名很规范。api

为了创建SearchIndex，全部的都是indexes.SearchIndex和indexe.Indexable的子类。定义要存储数据的字段，定义get_model方法。session

咱们会在下面建立和Note模型对应的NoteIndex。这个代码一般在search_indexes.py中。尽管这不是必须的。这使得Haystack能自动的检测到它。NoteIndex应该看起来像：app

import datetime
from haystack import indexes
from myapp.models import Note

class NoteIndex(indexes.SearchIndex, indexes.Indexable):
    text = indexes.CharField(document=True, use_template=True)
    author = indexes.CharField(model_attr='user')
    pub_date = indexes.DateTimeField(model_attr='pub_date')

    def get_model(self):
        return Note

    def index_queryset(self, using=None):
        """Used when the entire index for model is updated."""
        return self.get_model().objects.filter(pub_date__lte=datetime.datetime.now())

每一个SerachIndex须要有一个（仅有一个）一个字段document=True.这个指示着Haystack和搜索引擎把那个字段做为主要的检索。框架

当你选择document=True字段时，它应该在你的SearchIndex类里面始终如一，以免后端的混淆。一个便捷的命名是text。
在全部的样例中这个text字段名并无什么特殊。它也能够是其余任何命名，你能够叫它pink_polka_dot也是没有关系的。只是简单便利的交作text。

另外，咱们在text字段上提供了use_template=True。这容许咱们使用一个数据模板（而不是容易出错的级联）来构建文档搜索引擎索引。你应该在模板目录下创建新的模板search/indexes/myapp/note_text.txt，并将下面内容放在里面。

{{ object.title }}
{{ object.user.get_full_name }}
{{ object.body }}

此外，咱们增长了其余字段（author和pub_date）。当咱们提供额外的过滤选项的时候这是颇有用的。来至Haystack的多个SearchField类能处理大多数的数据。

一个常见的主题是容许管理员用户在将来添加内容，而不立刻在网站展现，直到将来某个时间点。咱们特别自定义了index_queryset方法来防止将来的这些项添加到索引。

设置视图

添加`SearchView`到你的`URLconf`

在你的URLconf中添加下面一行：

(r'^search/', include('haystack.urls')),

这会拉取Haystack的默认URLconf，它由单独指向SearchView实例的URLconf组成。你能够经过传递几个关键参数或者彻底从新它来改变这个类的行为。

搜索模板

你的搜索模板(默认在search/search.html)将可能很是简单。下面的足够让你的搜索运行(你的template/block应该会不一样)

{% extends 'base.html' %}

{% block content %}
    <h2>Search</h2>

    <form method="get" action=".">
        <table>
            {{ form.as_table }}
            <tr>
                <td> </td>
                <td>
                    <input type="submit" value="Search">
                </td>
            </tr>
        </table>

        {% if query %}
            <h3>Results</h3>

            {% for result in page.object_list %}
                <p>
                    <a href="{{ result.object.get_absolute_url }}">{{ result.object.title }}</a>
                </p>
            {% empty %}
                <p>No results found.</p>
            {% endfor %}

            {% if page.has_previous or page.has_next %}
                <div>
                    {% if page.has_previous %}<a href="?q={{ query }}&page={{ page.previous_page_number }}">{% endif %}« Previous{% if page.has_previous %}</a>{% endif %}
                    |
                    {% if page.has_next %}<a href="?q={{ query }}&page={{ page.next_page_number }}">{% endif %}Next »{% if page.has_next %}</a>{% endif %}
                </div>
            {% endif %}
        {% else %}
            {# Show some example queries to run, maybe query syntax, something else? #}
        {% endif %}
    </form>
{% endblock %}

须要注意的是page.object_list其实是SearchResult对象的列表。这些对象返回索引的全部数据。它们能够经过{{result.object}}来访问。因此{{ result.object.title}}实际使用的是数据库中Note对象来访问title字段的。

重建索引

这是最后一步，如今你已经配置好了全部的事情，是时候把数据库中的数据放入索引了。Haystack附带的一个命令行管理工具使它变得很容易。

简单的运行./manage.py rebuild_index。你会获得有多少模型进行了处理并放进索引的统计。