Apostrophe 用于土耳其语的一种filter ASCII folding 将文本中ASCII中的制表符转化为对应ASCII 其他字符 CJK bigram,CJK width 专门用于中日韩语的filter
Classic 经典分词器
Common grams
GET /_analyze{ "tokenizer" : "whitespace", "filter" : [ { "type": "common_grams", "common_words": ["is", "the"] } ], "text" : "the quick fox is brown"}
[ the, the_quick, quick, fox, fox_is, is, is_brown, brown ]
官方文档地址
https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-tokenfilters.html
Conditional
条件过滤,结合script,可以在生成token 时加入条件判断语句进行筛选
Decimal digit
把一些非阿拉伯数字的字符转化为阿拉伯数字
Delimited payload
分隔符有效区filter
Dictionary decompounder
字典分解:根据给点的单词字典,将一个term里的字符串进行进一步分解
Edge n-gram
带词边界的ngram分解
Elision
元音省略
Fingerprint
排序 去重 拼接 成新的keyword
Flatten graph
实验性功能
Hunspell
使用hunspell 对term进行filter
Hyphenation decompounder
断字分解:和Dictionary decompounder类似,但有相关需要时,是更推荐使用这个
Keep types
根据term类型进行filter
Keep words
只保留特定单词
Keyword marker
指定配置中的单词不被stemming处理
Keyword repeat
term 单词同时,也保留单词原单词进行index
KStem
对于英文性能更高效的分词器,要求输入文本必须是小写
Length
根据token 长度对其进行筛选
Limit token count
限定text 分解后Index token数量的filter
Lowercase
将全部token转化为小写
MinHash
略
Multiplexer
可以给自定义token filter 自定义设置多个filter组
N-gram
临接拆词
Normalization
包含集中非english的normalization filter
Pattern capture
使用正则表达式组进行filter
Pattern replace
正则替换filter
Phonetic
语音token : 被插件替换:analysis-phonetic
Porter stem
波特分词法
Predicate script
谓词脚本:有点像condition filter
Remove duplicates
略
Reverse
token 反转
Shingle
一般用于提升语句查询速度
Snowball
可以多种语言的 stemmer 对token 进行提取词干操作
Stemmer
手动设置stemmer 的语言种类
Stemmer override
手动设置stemmer 规则
Stop
停用词filter
Synonym
同义词
Synonym graph
用于search_ananlyzer的同义词filter
Trim
去重文本左右的留白
Truncate
产生默认字符串长度10以内的token
Unique
去重
Uppercase
大写化
Word delimiter
使用分隔符分隔token
Word delimiter graph
略