Elasticsearch如何进行词语扩展引入?
admin
2023-02-16 13:00:14
0

进行词语扩展引入的问题我们在此解决

首先看下效果

GET /operation/_search
{
  "query": {
    "match": {
      "store_name": "凯悦"
    }
  }
}

结果

{
  "took" : 38,
  "timed_out" : false,
  "_shards" : {
    "total" : 3,
    "successful" : 3,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 0,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  }
}

此时的分词器对凯悦二字的分词如下

{
  "tokens" : [
    {
      "token" : "凯悦",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    }
  ]
}

因为我们的索引在创建的时候凯悦词语还没有被扩展,所以创建索引的时候分词器会把凯悦分成两个字,而此时分词器将凯悦分词成一个词语凯悦,故而无法搜索到任何文档。

解决思路一:

首先想到的是重建索引,因为此时分词器词典中已经有了凯悦这个词语,然后在全量复制文档到新的索引中,如果是数据量不大的情况下是可以快速迁移,如果数据量大的话不建议这样做,然而有些情况可能只是部分文档与要扩展词语相关,所以这个方法比较笨拙,不建议使用。

解决思路二:

通过Elasticsearch官方提供的API接口update_by_query可以将与凯悦相关的文档重新分词

具体操作如下

POST /operation/_update_by_query
{
  "query": {
    "bool": {
      "must": [
        {"term": {"store_name": "凯"}},
        {"term": {"store_name": "悦"}}
      ]
    }
  }
}

意思是必须满足如上两个条件的文档才会被检索到并进行分词修改,即文档名称同时包含才被重新分词

执行结果

{
  "took" : 240,
  "timed_out" : false,
  "total" : 4,
  "updated" : 4,
  "deleted" : 0,
  "batches" : 1,
  "version_conflicts" : 0,
  "noops" : 0,
  "retries" : {
    "bulk" : 0,
    "search" : 0
  },
  "throttled_millis" : 0,
  "requests_per_second" : -1.0,
  "throttled_until_millis" : 0,
  "failures" : [ ]
}

可以看到有四条文档被修改

再次通过凯悦搜索此时就没有质保含的文档出现了

相关内容

热门资讯

回击特朗普,英国向格陵兰岛派遣... 英国《独立报》1月15日报道,英国已向格陵兰岛派遣一名军事人员,此举与丹麦加强在北极及高纬度地区军事...
名企前CEO被指出轨已婚高管,... 开年的“大厂反腐第一案”已经拉开帷幕。记者获悉,日前迅雷起诉前CEO陈磊利用“影子公司”(兴融合),...
印度仿制药的优势与挑战 新华社新德里1月15日电 在全球医药可及性探索中,印度仿制药凭借工艺优化、专利灵活运用与产业集群效应...
德马布局具身智能多垂类赛道,重... 来源:滚动播报 (来源:财闻) 德马科技锚定“智能物流+具身机器人”双轮驱动战略,针对智能物流垂类场...
新弘立取得高碱度覆盖剂投料装置... 国家知识产权局信息显示,韶关市新弘立冶金实业有限公司取得一项名为“高碱度覆盖剂投料装置”的专利,授权...
“棋圣”聂卫平去世!60~70... 1月15日,中国围棋协会发布消息,中国围棋协会名誉主席、有着“棋圣”之称的聂卫平,因病去世,享年74...
上海尧治申请微通道铝扁管先进生... 国家知识产权局信息显示,上海尧治自动化系统工程有限公司申请一项名为“一种微通道铝扁管的先进生产制造工...
联发科2026开年首发:天玑9... 2026年1月15日,全球半导体巨头联发科(MediaTek)正式发布了两款极具战略意义的移动平台—...
天津大学原校长金东寒已从中国工... 澎湃新闻记者 岳怀让1月15日,澎湃新闻查询中国工程院官网“全体院士名单”注意到,曾任天津大学校长的...
大行评级|瑞银:重申腾讯为首选... 瑞银发表研报指,腾讯近期在人工智能部门进行了组织架构重组,并加快了人才引进,展现其对人工智能的坚定承...