Apostrophe 用于土耳其语的一种filter ASCII folding 将文本中ASCII中的制表符转化为对应ASCII 其他字符 CJK bigram,CJK width 专门用于中日韩语的filter

Classic 经典分词器

Common grams

GET /_analyze{ "tokenizer" : "whitespace", "filter" : [ { "type": "common_grams", "common_words": ["is", "the"] } ], "text" : "the quick fox is brown"}

[ the, the_quick, quick, fox, fox_is, is, is_brown, brown ]

官方文档地址

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-tokenfilters.html

Conditional

条件过滤,结合script,可以在生成token 时加入条件判断语句进行筛选

Decimal digit

把一些非阿拉伯数字的字符转化为阿拉伯数字

Delimited payload

分隔符有效区filter

Dictionary decompounder

字典分解:根据给点的单词字典,将一个term里的字符串进行进一步分解

Edge n-gram

带词边界的ngram分解

Elision

元音省略

Fingerprint

排序 去重 拼接 成新的keyword

Flatten graph

实验性功能

Hunspell

使用hunspell 对term进行filter

Hyphenation decompounder

断字分解:和Dictionary decompounder类似,但有相关需要时,是更推荐使用这个

Keep types

根据term类型进行filter

Keep words

只保留特定单词

Keyword marker

指定配置中的单词不被stemming处理

Keyword repeat

term 单词同时,也保留单词原单词进行index

KStem

对于英文性能更高效的分词器,要求输入文本必须是小写

Length

根据token 长度对其进行筛选

Limit token count

限定text 分解后Index token数量的filter

Lowercase

将全部token转化为小写

MinHash

Multiplexer

可以给自定义token filter 自定义设置多个filter组

N-gram

临接拆词

Normalization

包含集中非english的normalization filter

Pattern capture

使用正则表达式组进行filter

Pattern replace

正则替换filter

Phonetic

语音token : 被插件替换:analysis-phonetic

Porter stem

波特分词法

Predicate script

谓词脚本:有点像condition filter

Remove duplicates

Reverse

token 反转

Shingle

一般用于提升语句查询速度

Snowball

可以多种语言的 stemmer 对token 进行提取词干操作

Stemmer

手动设置stemmer 的语言种类

Stemmer override

手动设置stemmer 规则

Stop

停用词filter

Synonym

同义词

Synonym graph

用于search_ananlyzer的同义词filter

Trim

去重文本左右的留白

Truncate

产生默认字符串长度10以内的token

Unique

去重

Uppercase

大写化

Word delimiter

使用分隔符分隔token

Word delimiter graph

results matching ""

    No results matching ""