全文检索 — Lucene_01（全文检索介绍、Lucene全文检索流程、创建索引入门程序、查询索引入门程序、luke的简单使用）

Author： ruki_in_HDU
发布时间：November 21, 2019
2945views
No comments
6975 words
Categories： Tech

一、什么是全文检索

1.1 数据的分类

1.1.1 结构化数据

格式固定、长度固定、数据类型固定
- 如：数据库中的数据

1.1.2 非结构化数据

格式不固定、长度不固定、数据类型不固定
- word文档、pdf文档、邮件、html、txt

1.2 数据的查询

1.2.1 结构化数据的查询

SQL语句
- 简单、数据快

1.2.2 非结构化数据的查询

需求：从文本文件中找出包含特定单词的文件
- 目测
- 顺序扫描。使用程序将文件读取到内存中，随后匹配字符串。
- 把非结构化数据转换为结构化数据
- 先依据空格进行字符串拆分，得到一个单词列表，基于单词列表创建一个索引。
  然后查询索引，分局单词和文档的对应关系找到文档列表，这就是全文检索。
  - 索引：一个为了提高查询速度，创建某种数据结构的集合。

1.3 全文检索

先创建索引，然后查询索引的过程叫做全文索引。
- 索引一次创建可以多次使用。

二、全文检索的应用场景

只要是有搜索的地方，就可以使用全文检索技术。

2.1 搜索引擎

百度
360
谷歌

2.2 站内搜索

论坛搜索
微博
文章搜索

2.3 电商搜索

淘宝搜索
京东搜索

三、什么是Lucene

Lucene是一个基于java开发的全文检索工具包
Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言，Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库，虽然与搜索引擎有关，但不应该将信息检索程序库与搜索引擎相混淆。

四、 Lucene实现全文检索的流程

4.1 创建索引

4.1.1 获得文档

原始文档：要基于哪些数据来进行搜索，那么这些搜索对象就是原始文档。
- 搜索引擎：使用爬虫获得原始文档
- 站内搜索：对数据库中的数据进行查找。
- 案例：直接使用io流读取磁盘上的文件。

4.1.2 构建文档对象

对应每个原始文档创建一个Document
每个Document对象中包含多个域（Field），域中保存的就是原始文档数据。

每个文档都有一个唯一的编号，就是文档id

4.1.3 分析文档

分词的过程。（案例）
1. 根据空格进行字符串的拆分
2. 把单词统一转换成小写
3. 去除标点符号
4. 去除停用词（无意义的词）
每个关键词都封装成一个Term对象
- Term包含两部分的内容
  - 关键词所在的域
  - 关键词本身
- 不同的域中拆分出来的相同的关键词是不同的Term

4.1.4 创建索引

基于关键词列表创建一个索引，保存到索引库中
索引库（三部分内容）：
- 索引
- document对象
- 关键词和文档的对应关系

创建索引是对语汇单元索引，通过词语找文档，这种索引的结构叫做倒排索引结构
- 倒排索引，也叫反向索引结构，包括索引和文档两部分，索引即词汇表，它的规模较小，而文档集合较大。

传统方法是根据文件找到文件的该内容，在文件内容中匹配搜索的关键字，这种方式是顺序扫描方法，数据量大、搜索慢。

4.2 查询索引

4.2.1 用户查询接口

用户输入查询条件的地方
- 如：百度的搜索框

4.2.2 把关键词封装成一个查询对象

要查询的域
要搜索的关键词

4.2.3 执行查询

根据要查询的关键词到对应的域上进行搜索
找到关键词，根据关键词找到对应的文档

4.2.4 渲染结果

根据文档的结果，找到文档对象，对关键词进行高亮显示，分页处理，页面展示。

五、入门程序

5.1 创建索引

5.1.1 创建环境

下载Lucene，jdk最低要求1.8

5.1.2 工程搭建

添加jar包
- lucene-analyzers-common-8.3.0.jar
- lucene-core-8.3.0.jar
- commons-io.jar

5.1.3 步骤

创建一个Directory对象，指定索引库保存的位置。
基于Directory对象创建一个IndexWriter对象
读取磁盘上的文件，对应每个文件创建一个文档对象
向文档对象中添加域
把文档对象写入索引库
关闭IndexWriter对象

    @Test
    public void createIndex() throws Exception {
        //1. 创建一个Directory对象，指定索引库保存的位置。
        //把索引库保存在内存中
        //Directory directory = new RAMDirectory();
        //把索引库保存在磁盘中
        Directory directory = FSDirectory.open(new File("F:\\lucenetest\\index").toPath());
        //2. 基于Directory对象创建一个IndexWriter对象
        IndexWriter indexWriter = new IndexWriter(directory, new IndexWriterConfig());
        //3. 读取磁盘上的文件，对应每个we年创建一个文档对象
        File dir = new File("F:\\Java\\12-lucene\\02.参考资料\\searchsource");
        File[] files = dir.listFiles();
        for (File file : files) {
            //获取文件名
            String fileName = file.getName();
            //获取文件路径
            String filePath = file.getPath();
            //获取文件内容
            String fileContent = FileUtils.readFileToString(file, "utf-8");
            //获取文集大小
            long fileSize = FileUtils.sizeOf(file);
            //创建Field
            //参数1：域的名称；参数2：域的内容；参数3：是否存储
            Field fieldName = new TextField("name", fileName, Field.Store.YES);
            Field fieldPath = new TextField("path", filePath, Field.Store.YES);
            Field fieldContent = new TextField("content", fileContent, Field.Store.YES);
            Field fieldSize = new TextField("size", fileSize + "", Field.Store.YES);
            //创建文档对象
            Document document = new Document();

        //4. 向文档对象中添加域
            document.add(fieldName);
            document.add(fieldPath);
            document.add(fieldContent);
            document.add(fieldSize);
        //5. 把文档对象写入索引库
            indexWriter.addDocument(document);
        }

        //6. 关闭indexwriter对象
        indexWriter.close();
    }

5.2 使用luke查看索引库中的内容

luke的版本必须和Lucene的版本相同才能进行可视化查看。

5.3 查询索引库

5.3.1 步骤

创建一个Director对象，指定索引库的位置
创建一个IndexReader对象
创建一个IndexSearcher对象，构造方法中的参数indexReader对象
创建一个Query对象，TermQuery
执行查询，得到一个TopDocs对象
取查询结果的总记录数
取文档列表
打印文档中的内容
关闭IndexReader对象

    @Test
    public void searchIndex() throws Exception {
        //1. 创建一个`Director`对象，指定索引库的位置
        Directory directory = FSDirectory.open(new File("F:\\lucenetest\\index").toPath());
        //2. 创建一个`IndexReader`对象
        IndexReader indexReader = DirectoryReader.open(directory);
        //3. 创建一个`IndexSearcher`对象，构造方法中的参数`indexReader`对象
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);
        //4. 创建一个`Query`对象，`TermQuery`
        Query query = new TermQuery(new Term("content", "spring"));//在content域中，找spring这个关键字
        //5. 执行查询，得到一个`TopDocs`对象
        //参数1：查询对象；参数2：查询结果返回的最大记录数
        TopDocs topDocs = indexSearcher.search(query, 10);
        //6. 取查询结果的总记录数
        System.out.println(topDocs.totalHits);
        //7. 取文档列表
        ScoreDoc[] scoreDocs = topDocs.scoreDocs;
        //8. 打印文档中的内容
        for (ScoreDoc scoreDoc : scoreDocs) {
            //取文档id
            int docId = scoreDoc.doc;
            //根据id取文档对象
            Document document = indexSearcher.doc(docId);
            System.out.println(document.get("name"));
            System.out.println(document.get("path"));
            System.out.println(document.get("size"));
            System.out.println(document.get("content"));
            System.out.println("----------------");
        }
        //9. 关闭`IndexReader`对象
        indexReader.close();
    }

Last modification：November 21st, 2019 at 03:31 pm

全文检索 — Lucene_01（全文检索介绍、Lucene全文检索流程、创建索引入门程序、查询索引入门程序、luke的简单使用）

ruki_in_HDU • 2019 年 11 月 21 日

一、什么是全文检索

1.1 数据的分类

1.1.1 结构化数据

格式固定、长度固定、数据类型固定
- 如：数据库中的数据

1.1.2 非结构化数据

格式不固定、长度不固定、数据类型不固定
- word文档、pdf文档、邮件、html、txt

1.2 数据的查询

1.2.1 结构化数据的查询

SQL语句
- 简单、数据快

1.2.2 非结构化数据的查询

需求：从文本文件中找出包含特定单词的文件
- 目测
- 顺序扫描。使用程序将文件读取到内存中，随后匹配字符串。
- 把非结构化数据转换为结构化数据
- 先依据空格进行字符串拆分，得到一个单词列表，基于单词列表创建一个索引。
  然后查询索引，分局单词和文档的对应关系找到文档列表，这就是全文检索。
  - 索引：一个为了提高查询速度，创建某种数据结构的集合。

1.3 全文检索

先创建索引，然后查询索引的过程叫做全文索引。
- 索引一次创建可以多次使用。

二、全文检索的应用场景

只要是有搜索的地方，就可以使用全文检索技术。

2.1 搜索引擎

百度
360
谷歌

2.2 站内搜索

论坛搜索
微博
文章搜索

2.3 电商搜索

淘宝搜索
京东搜索

三、什么是Lucene

Lucene是一个基于java开发的全文检索工具包
Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言，Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库，虽然与搜索引擎有关，但不应该将信息检索程序库与搜索引擎相混淆。

四、 Lucene实现全文检索的流程

4.1 创建索引

4.1.1 获得文档

原始文档：要基于哪些数据来进行搜索，那么这些搜索对象就是原始文档。
- 搜索引擎：使用爬虫获得原始文档
- 站内搜索：对数据库中的数据进行查找。
- 案例：直接使用io流读取磁盘上的文件。

4.1.2 构建文档对象

对应每个原始文档创建一个Document
每个Document对象中包含多个域（Field），域中保存的就是原始文档数据。

每个文档都有一个唯一的编号，就是文档id

4.1.3 分析文档

分词的过程。（案例）
1. 根据空格进行字符串的拆分
2. 把单词统一转换成小写
3. 去除标点符号
4. 去除停用词（无意义的词）
每个关键词都封装成一个Term对象
- Term包含两部分的内容
  - 关键词所在的域
  - 关键词本身
- 不同的域中拆分出来的相同的关键词是不同的Term

4.1.4 创建索引

基于关键词列表创建一个索引，保存到索引库中
索引库（三部分内容）：
- 索引
- document对象
- 关键词和文档的对应关系

创建索引是对语汇单元索引，通过词语找文档，这种索引的结构叫做倒排索引结构
- 倒排索引，也叫反向索引结构，包括索引和文档两部分，索引即词汇表，它的规模较小，而文档集合较大。

传统方法是根据文件找到文件的该内容，在文件内容中匹配搜索的关键字，这种方式是顺序扫描方法，数据量大、搜索慢。

4.2 查询索引

4.2.1 用户查询接口

用户输入查询条件的地方
- 如：百度的搜索框

4.2.2 把关键词封装成一个查询对象

要查询的域
要搜索的关键词

4.2.3 执行查询

根据要查询的关键词到对应的域上进行搜索
找到关键词，根据关键词找到对应的文档

4.2.4 渲染结果

根据文档的结果，找到文档对象，对关键词进行高亮显示，分页处理，页面展示。

五、入门程序

5.1 创建索引

5.1.1 创建环境

下载Lucene，jdk最低要求1.8

5.1.2 工程搭建

添加jar包
- lucene-analyzers-common-8.3.0.jar
- lucene-core-8.3.0.jar
- commons-io.jar

5.1.3 步骤

创建一个Directory对象，指定索引库保存的位置。
基于Directory对象创建一个IndexWriter对象
读取磁盘上的文件，对应每个文件创建一个文档对象
向文档对象中添加域
把文档对象写入索引库
关闭IndexWriter对象

    @Test
    public void createIndex() throws Exception {
        //1. 创建一个Directory对象，指定索引库保存的位置。
        //把索引库保存在内存中
        //Directory directory = new RAMDirectory();
        //把索引库保存在磁盘中
        Directory directory = FSDirectory.open(new File("F:\\lucenetest\\index").toPath());
        //2. 基于Directory对象创建一个IndexWriter对象
        IndexWriter indexWriter = new IndexWriter(directory, new IndexWriterConfig());
        //3. 读取磁盘上的文件，对应每个we年创建一个文档对象
        File dir = new File("F:\\Java\\12-lucene\\02.参考资料\\searchsource");
        File[] files = dir.listFiles();
        for (File file : files) {
            //获取文件名
            String fileName = file.getName();
            //获取文件路径
            String filePath = file.getPath();
            //获取文件内容
            String fileContent = FileUtils.readFileToString(file, "utf-8");
            //获取文集大小
            long fileSize = FileUtils.sizeOf(file);
            //创建Field
            //参数1：域的名称；参数2：域的内容；参数3：是否存储
            Field fieldName = new TextField("name", fileName, Field.Store.YES);
            Field fieldPath = new TextField("path", filePath, Field.Store.YES);
            Field fieldContent = new TextField("content", fileContent, Field.Store.YES);
            Field fieldSize = new TextField("size", fileSize + "", Field.Store.YES);
            //创建文档对象
            Document document = new Document();

        //4. 向文档对象中添加域
            document.add(fieldName);
            document.add(fieldPath);
            document.add(fieldContent);
            document.add(fieldSize);
        //5. 把文档对象写入索引库
            indexWriter.addDocument(document);
        }

        //6. 关闭indexwriter对象
        indexWriter.close();
    }

5.2 使用luke查看索引库中的内容

luke的版本必须和Lucene的版本相同才能进行可视化查看。

5.3 查询索引库

5.3.1 步骤

创建一个Director对象，指定索引库的位置
创建一个IndexReader对象
创建一个IndexSearcher对象，构造方法中的参数indexReader对象
创建一个Query对象，TermQuery
执行查询，得到一个TopDocs对象
取查询结果的总记录数
取文档列表
打印文档中的内容
关闭IndexReader对象

    @Test
    public void searchIndex() throws Exception {
        //1. 创建一个`Director`对象，指定索引库的位置
        Directory directory = FSDirectory.open(new File("F:\\lucenetest\\index").toPath());
        //2. 创建一个`IndexReader`对象
        IndexReader indexReader = DirectoryReader.open(directory);
        //3. 创建一个`IndexSearcher`对象，构造方法中的参数`indexReader`对象
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);
        //4. 创建一个`Query`对象，`TermQuery`
        Query query = new TermQuery(new Term("content", "spring"));//在content域中，找spring这个关键字
        //5. 执行查询，得到一个`TopDocs`对象
        //参数1：查询对象；参数2：查询结果返回的最大记录数
        TopDocs topDocs = indexSearcher.search(query, 10);
        //6. 取查询结果的总记录数
        System.out.println(topDocs.totalHits);
        //7. 取文档列表
        ScoreDoc[] scoreDocs = topDocs.scoreDocs;
        //8. 打印文档中的内容
        for (ScoreDoc scoreDoc : scoreDocs) {
            //取文档id
            int docId = scoreDoc.doc;
            //根据id取文档对象
            Document document = indexSearcher.doc(docId);
            System.out.println(document.get("name"));
            System.out.println(document.get("path"));
            System.out.println(document.get("size"));
            System.out.println(document.get("content"));
            System.out.println("----------------");
        }
        //9. 关闭`IndexReader`对象
        indexReader.close();
    }

一、什么是全文检索

1.1 数据的分类

1.1.1 结构化数据

1.1.2 非结构化数据

1.2 数据的查询

1.2.1 结构化数据的查询

1.2.2 非结构化数据的查询

1.3 全文检索

二、全文检索的应用场景

2.1 搜索引擎

2.2 站内搜索

2.3 电商搜索

三、什么是Lucene

四、 Lucene实现全文检索的流程

4.1 创建索引

4.1.1 获得文档

4.1.2 构建文档对象

4.1.3 分析文档

4.1.4 创建索引

4.2 查询索引

4.2.1 用户查询接口

4.2.2 把关键词封装成一个查询对象

4.2.3 执行查询

4.2.4 渲染结果

五、入门程序

5.1 创建索引

5.1.1 创建环境

5.1.2 工程搭建

5.1.3 步骤

5.2 使用luke查看索引库中的内容

5.3 查询索引库

5.3.1 步骤