如何在Elasticsearch中离线安装IK分词器?
admin
2023-02-16 12:40:05
0

Elasticsearch自带的分词器对中文分词不是很友好,所以我们下载开源的IK分词器来解决这个问题。首先进入到plugins目录中下载分词器,下载完成后然后解压,再重启es即可。具体步骤如下: 注意:elasticsearch的版本和ik分词器的版本需要保持一致,不然在重启的时候会失败。可以在这查看所有版本,选择合适自己版本的右键复制链接地址即可。在该链接中找到符合自己版本的:https://github.com/medcl/elasticsearch-analysis-ik/releases

docker exec -it elasticsearch /bin/bash
cd /usr/share/elasticsearch/plugins/ 
elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.5.1/elasticsearch-analysis-ik-7.5.1.zip
exit 
docker restart elasticsearch 

由于通过上述方式安装由于网络问题可能实现不了,所以可以通过离线安装

通过https://github.com/medcl/elasticsearch-analysis-ik/releases下载对应版本安装包
在es的plugins文件下(/usr/share/elasticsearch/plugins/)创建ik文件夹
cd /usr/share/elasticsearch/plugins/
mkdir ik
将下载好的安装包拷贝在这个文件夹下,同时减压即可

注意:安装es的ik分词器需要安装jdk

测试:

POST http://localhost:9200/_analyze?pretty=true
{
  "analyzer": "ik_max_word",
  "text": "中国人民的儿子"
}

结果:

{
  "tokens" : [
    {
      "token" : "中国人民",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "中国人",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "中国",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "国人",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "人民",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "的",
      "start_offset" : 4,
      "end_offset" : 5,
      "type" : "CN_CHAR",
      "position" : 5
    },
    {
      "token" : "儿子",
      "start_offset" : 5,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 6
    }
  ]
}

相关内容

热门资讯

泰国总理:连续两起施工事故涉事... △15日,泰国曼谷一施工起重机坍塌,砸中行驶车辆当地时间1月15日,泰国总理阿努廷表示,15日泰国曼...
万亿蓝海加速成型!2026年低... 千米之下,万亿蓝海加速成型。低空经济连续两年写入政府工作报告并纳入“十五五”规划建议,政策红利持续释...
维沃申请对话方法专利,控制语音... 国家知识产权局信息显示,维沃移动通信有限公司申请一项名为“对话方法、装置及电子设备”的专利,公开号C...
我国科研团队首次直接证实量子力... 记者从中国科学院大学获悉,近日,该校科研团队与多所高校联合,首次直接观测到量子力学预言的米格达尔(M...
从此世间无棋圣 澎湃新闻记者 马作宇自从1988年3月被国家体委正式授予 “棋圣” 称号至今,聂卫平就是中国棋坛唯一...
百台机器人“打工” 规模化采集... 湖北人形机器人创新中心办公区。 刘茜/摄 证券时报记者 刘茜 训练数据的不足,是机器人应用之路上的...
人形机器人开始“打零工” 徐佩玉 祝莹晰 日前,在山东青岛市人形机器人数据采集训练场,人形机器人在学习整理文具。 张进刚摄(...
PCB关键原材料玻纤布供应紧张... 当地时间周三,有关高端玻璃纤维布(glass cloth)供应紧张的消息引发市场骚动。有消息称,苹果...
不用去CES,这里超前体验! 在刚刚落幕的2026年国际消费电子展(CES)上,以海信、TCL、创维为代表的中国家电品牌,凭借Mi...
东阳光药AI制药新突破:推出P... 中证报中证网讯(记者 万宇)1月14日晚,东阳光药发布公告称,公司已推出PROTAC机制AI智能研发...