本地和Docker安装IK中文分词器

前言

之前我们创建索引，查询数据，都是使用的默认的分词器，分词效果不太理想，会把text的字段分成一个一个汉字，然后搜索的时候也会把搜索的句子进行分词，我们前面也介绍了分词，由于IK分词器的优势，这里就需要更加智能的分词器IK分词器了。

ik分词器的下载和安装，测试

第一：下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases ，这里你需要根据你的Es的版本来下载对应版本的IK，这里我使用的是6.4.0的ES，所以就下载ik-6.4.0.zip的文件。

ik-6.4.0.zip文件

第二：解压-->将文件复制到 es的安装目录/plugin/ik下面即可，完成之后效果如下：

到这里已经完成了，不需要去elasticSearch的 elasticsearch.yml 文件去配置。

第三：重启ElasticSearch

第四：测试效果

未使用ik分词器的时候测试分词效果：

POST book/_analyze
{
  "text": "我是中国人"
}
//结果是：
{
  "tokens": [
    {
      "token": "我",
      "start_offset": 0,
      "end_offset": 1,
      "type": "",
      "position": 0
    },
    {
      "token": "是",
      "start_offset": 1,
      "end_offset": 2,
      "type": "",
      "position": 1
    },
    {
      "token": "中",
      "start_offset": 2,
      "end_offset": 3,
      "type": "",
      "position": 2
    },
    {
      "token": "国",
      "start_offset": 3,
      "end_offset": 4,
      "type": "",
      "position": 3
    },
    {
      "token": "人",
      "start_offset": 4,
      "end_offset": 5,
      "type": "",
      "position": 4
    }
  ]
}

使用IK分词器之后，结果如下：

POST book_v6/_analyze
{
  "analyzer": "ik_max_word",
  "text": "我是中国人"
}
//结果如下：
{
  "tokens": [
    {
      "token": "我",
      "start_offset": 0,
      "end_offset": 1,
      "type": "CN_CHAR",
      "position": 0
    },
    {
      "token": "是",
      "start_offset": 1,
      "end_offset": 2,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "中国人",
      "start_offset": 2,
      "end_offset": 5,
      "type": "CN_WORD",
      "position": 2
    },
    {
      "token": "中国",
      "start_offset": 2,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 3
    },
    {
      "token": "国人",
      "start_offset": 3,
      "end_offset": 5,
      "type": "CN_WORD",
      "position": 4
    }
  ]
}

对于上面两个分词效果的解释：

1. 如果未安装ik分词器，那么，你如果写 "analyzer": "ik_max_word"，那么程序就会报错，因为你没有安装ik分词器

2. 如果你安装了ik分词器之后，你不指定分词器，不加上 "analyzer": "ik_max_word" 这句话，那么其分词效果跟你没有安装ik分词器是一致的，也是分词成每个汉字。

创建指定分词器的索引

索引创建之后就可以使用ik进行分词了，当你使用ES搜索的时候也会使用ik对搜索语句进行分词，进行匹配。

PUT book_v5
{
  "settings":{
    "number_of_shards": "6",
    "number_of_replicas": "1",  
     //指定分词器  
    "analysis":{   
      "analyzer":{
        "ik":{
          "tokenizer":"ik_max_word"
        }
      }
    }
  },
  "mappings":{
    "novel":{
      "properties":{
        "author":{
          "type":"text"
        },
        "wordCount":{
          "type":"integer"
        },
        "publishDate":{
          "type":"date",
          "format":"yyyy-MM-dd HH:mm:ss || yyyy-MM-dd"
        },
        "briefIntroduction":{
          "type":"text"
        },
        "bookName":{
          "type":"text"
        }
      }
    }
  }
}

关于ik分词器的分词类型（可以根据需求进行选择）：

ik_max_word：会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合；

ik_smart：会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。如下：

POST book_v6/_analyze
{
  "analyzer": "ik_smart",
  "text": "我是中国人"
}
//结果
{
  "tokens": [
    {
      "token": "我",
      "start_offset": 0,
      "end_offset": 1,
      "type": "CN_CHAR",
      "position": 0
    },
    {
      "token": "是",
      "start_offset": 1,
      "end_offset": 2,
      "type": "CN_CHAR",
      "position": 1
    },
    {
      "token": "中国人",
      "start_offset": 2,
      "end_offset": 5,
      "type": "CN_WORD",
      "position": 2
    }
  ]
}

Docker安装IK分词

下载IK分词器：

elasticsearch-analysis-ik-7.1.0.zip

进入容器：

docker exec -it es /bin/bash

在plugins目录下创建ik文件夹：

mkdir /usr/share/elasticsearch/plugins/ik

退出容器：exit

拷贝下载好的ik分词器压缩包到ik文件夹中：

docker cp /orcas/software/elasticsearch-analysis-ik-7.1.0.zip es:/usr/share/elasticsearch/plugins/ik/

重新进入容器

进入ik目录：

cd /usr/share/elasticsearch/plugins/ik

解压：

unzip elasticsearch-analysis-ik-7.1.0.zip 
rm -rf elasticsearch-analysis-ik-7.1.0.zip

重启容器：

docker restart es

建议热更新自定义的IK分词，github中描述如下：

  
	location
 	
	location

location 是指一个 url，比如 http://yoursite.com/getCustomDict，该请求只需满足以下两点即可完成分词热更新。

该 http 请求需要返回两个头部(header)，一个是 Last-Modified，一个是 ETag，这两者都是字符串类型，只要有一个发生变化，该插件就会去抓取新的分词进而更新词库。

该 http 请求返回的内容格式是一行一个分词，换行符用即可。

满足上面两点要求就可以实现热更新分词了，不需要重启 ES 实例。

可以将需自动更新的热词放在一个 UTF-8 编码的 .txt 文件里，放在 nginx 或其他简易 http server 下，当 .txt 文件修改时，http server 会在客户端请求该文件时自动返回相应的 Last-Modified 和 ETag。可以另外做一个工具来从业务系统提取相关词汇，并更新这个 .txt 文件。

展开阅读全文

页面更新：2024-04-02

标签：分词汉字组合国歌中华人民共和国中文容器两点索引中国人两个效果版本类型文件测试科技

1 2 3 4 5

本地和Docker安装IK中文分词器

前言

ik分词器的下载和安装，测试

创建指定分词器的索引

Docker安装IK分词

容器日志采集利器：filebeat深度剖析与实践

Django简介、ORM、核心模块

Linux系统清除缓存

Docker与VM虚拟机的区别以及Docker的特点

DRF 过滤器 filters.FilterSet 过滤类功能大全

亿级数据毫秒级返回！ElasticSearch是如何做到的？

Python Elasticsearch DSL 的使用

crontab 执行docker exec命令（mysql备份）

Django认证系统

Antrl4入门、安装、案例

必须掌握的30种SQL语句优化

Elasticsearch的搜索类型

Druid的imply方式安装

python将zip压缩包转为gz.tar的方法

Django 模型 models详解

容器日志采集利器：filebeat深度剖析与实践

Elasticsearch的搜索类型

Elasticsearch分布式搜索引擎架构(万字总结)

Django实现文件导出功能

华为Mate40的麒麟9000性能测试：依旧被骁龙865吊打

小米Mix暴力测试：陶瓷机身果然彪悍！

杜蕾斯表白黑科技，这次天猫超级品牌日玩出新花样！

苹果正在测试折叠屏的iPhone，据说会比安卓折叠屏便宜

你的安卓手机版本是多少？再不更新手机，明年可能都上不了

除了双屏+10G超大内存，vivo NEX双屏版还有这些黑科技！