最新ik分词器 中文分词器哪个比较好用?

[更新]
·
·
分类:行业
3542 阅读

最新ik分词器

中文分词器哪个比较好用?

中文分词器哪个比较好用?

用IK或庖丁,这两个都有对Lucene的封装接口,IKAnalyzer和PaodingAnalyzer,我一直用IK,中科院的Ictclas是要收费的,而且是用DLL,和Java结合不好

ik复印纸什么意思?

ik copy photocopy paper IK副本复印纸 copy 英[kpi] 美[kɑ:pi] n. 复制品; 一份; (报刊等的) 稿件; 准备排印的书面材料; vt. 复制; 抄写; 容许复制的; vt. 复制; 模仿; 仿造…的样式或图案; 抄写; [例句]The reporter apparently obtained a copy of Steves resignation letter 那记者显然弄到了史蒂夫辞职信的复印件。 [其他] 第三人称单数:copies 复数:copies 现在分词:copying 过去式:copied过去分词:copied

es 索引规范?

必须手动指定分片数。
分片数会影响查询效率。
分两种情况:
数据量大而分片数较少。将影响单分片的查询效率。导致最终查询时间慢。
数据量不大但分片数过多。分片数过多影响聚合效率,也会导致最终查询慢。
不建议使用es的默认分片数(根据es版本的不同,默认分片数为5或者1),不适合实际使用情况。
一般根据数据量或者数据存储大小来判断。大概5到10G,1000w到3000w条数据一个分片。
将无需分词查询的字段类型设为keyword。
es中字符串有两种类型,text 和 keyword。如果该字段不需要分词查询(如feed_id),类型设为keyword即可。
keyword类型的字段不会被分词,节约es内存空间。
需要中文分词的字段,必须指定分词器。一般为#34ik_smart#34。
如果不指定分词器,es将会使用默认分词器。默认分词器不支持中文,会把中文分为一个个汉字的形式。浪费空间且不符合实际使用情况。