中文分词字段情况数

最新ik分词器中文分词器哪个比较好用？

[更新]

日期：2023-08-20 08:08:48

分类：行业

3590 阅读

最新ik分词器

中文分词器哪个比较好用？

中文分词器哪个比较好用？

用IK或庖丁，这两个都有对Lucene的封装接口，IKAnalyzer和PaodingAnalyzer，我一直用IK，中科院的Ictclas是要收费的，而且是用DLL，和Java结合不好

ik复印纸什么意思？

ik copy photocopy paper IK副本复印纸 copy 英[kpi] 美[kɑ:pi] n. 复制品; 一份; （报刊等的）稿件; 准备排印的书面材料; vt. 复制; 抄写; 容许复制的; vt. 复制; 模仿; 仿造…的样式或图案; 抄写; [例句]The reporter apparently obtained a copy of Steves resignation letter 那记者显然弄到了史蒂夫辞职信的复印件。 [其他] 第三人称单数：copies 复数：copies 现在分词：copying 过去式：copied过去分词：copied

es 索引规范？

必须手动指定分片数。
分片数会影响查询效率。
分两种情况：
数据量大而分片数较少。将影响单分片的查询效率。导致最终查询时间慢。
数据量不大但分片数过多。分片数过多影响聚合效率，也会导致最终查询慢。
不建议使用es的默认分片数（根据es版本的不同，默认分片数为5或者1），不适合实际使用情况。
一般根据数据量或者数据存储大小来判断。大概5到10G，1000w到3000w条数据一个分片。
将无需分词查询的字段类型设为keyword。
es中字符串有两种类型，text 和 keyword。如果该字段不需要分词查询（如feed_id），类型设为keyword即可。
keyword类型的字段不会被分词，节约es内存空间。
需要中文分词的字段，必须指定分词器。一般为#34ik_smart#34。
如果不指定分词器，es将会使用默认分词器。默认分词器不支持中文，会把中文分为一个个汉字的形式。浪费空间且不符合实际使用情况。

最新ik分词器 中文分词器哪个比较好用？

中文分词器哪个比较好用？

ik复印纸什么意思？

es 索引规范？

最新ik分词器中文分词器哪个比较好用？