[原创]一种基于Python爬虫和Lucene检索的垂直搜索引擎的实现方法介绍

时间 2019-11-11

标签原创一种基于 python 爬虫 lucene 检索垂直搜索引擎实现方法介绍栏目 Python 繁體版

原文原文链接

声明：本文首发在博客园晨星落羽，Shulin_Cao和lvmememe首页，转载请注明出处。php

前言html

　　2016.5到2017.5，咱们三人（lvmememe，Shulin_Cao，晨星落羽）共同完成了一个本科生科研项目——简体中文版儿童搜索引擎。在作的过程当中咱们发现，搜索引擎的框架其实都差很少，一些技术好比网页爬虫、网页提取、信息检索在大多数垂直搜索引擎中是通用的，只不过数据库中存的资源不一样而已。好比把全网资源都包罗进来，就成了百度，把购物信息包罗进来，就成了淘宝。所以就有了这篇文章，把咱们在作项目的过程当中用到的技术分享出来，但愿可以对搜索引擎感兴趣的朋友有所帮助。本文会详细说明项目中咱们已经实现的功能使用的技术，同时也会阐述一些咱们但愿之后可能会实现的功能。本文指望达到的效果是，一年之后，当我已经忘记如今用到的技术细节，本身再照着这篇文章作，依然能够作出一个一样的搜索引擎。
前端

　　事实上，本文介绍的框架是一种最基本的简易框架，项目的完成也不表明项目的完善，咱们还有许多功能鉴于时间限制和自身水平的限制，暂时没有实现。这些功能在文章中也会说起，只是没法展开细讲。尤为是机器学习、人工智能、数据挖掘等技术，在本文中不会涉及，本文关注更多的是网页爬虫（信息获取）、词条排序（信息检索）、前端后端通信（信息展现），用到的语言主要包括Python、Java、PHP和前端网页制做的语言。
java

　　目前，项目已经发表了五篇论文，包括三篇中文期刊和两篇国际会议。python

　　　　1. 儿童搜索引擎的现状与分析mysql

　　　　2. 面向搜索引擎的结构化信息生成系统的设计与实现git

　　　　3. 基于 Lucene 与 Socket 通讯的中文搜索引擎的设计与实现github

　　　　4. An Algorithm to Extract and Judge the Main Text Based on the Law of Total Probabilitysql

　　　　5. KidSE: A Search Engine Designed for Children which Supports Simplified Chinese数据库

　　其中，第一篇论文目前已经发表，后面四篇已经收到录用通知等待发表。本文的不少想法也都是对论文中的内容进行整合。后续发表后会对论文连接进行更新。

　　或许在专业人士看来，本文所讲解的技术也只是几十年前的古老技术，可是咱们写这篇博客的目的也不是炫耀本身的技术有多高超，只是想分享一下本身的成果。但愿大牛们谅解咱们做为低年级本科生水平有限，对于文章的错误，欢迎批评指正，若是有好的想法，也欢迎多多交流！

　　项目github：https://github.com/1049451037/kidsearch

　　事实上，这篇博客的样例工程并非儿童搜索引擎，按照这篇文章作完以后，会作成一个文章搜索引擎，它经过全网自动判别文章类网页，并提取内容，自动入库，天下文章，皆为我有。是否是很期待？那咱们开始吧！

　　1. 垂直搜索引擎的介绍

　　　　1.1 垂直搜索引擎的概念