从Lucene到Elasticsearch:Lucene 文件检索项目实战

项目需求::java

  • 构建一个类百度文库小型文件检索系统

架构设计图::git

文件内容抽取:架构

  • 内容解析提取工具:Tika
    • 文件类型检测、文件内容提取的库
    • Lucene 子项目、java 写成
    • 普遍应用于搜索引擎、内容分析、文本翻译、数字资产管理等多个领域

  • Tika 还能够解析图像、音频、视频等多种文件

参见代码::https://gitee.com/jly521/TikaDemo.git工具

自动解析:搜索引擎

  • 两种:
    • Tika tika = new Tika();
    • Parser parser = new AutoDetectParser();

参见代码::https://gitee.com/jly521/filesearchnew.git架构设计

相关文章
相关标签/搜索