令牌生成器会将整个输入拆分为令牌,令牌过滤器将对每个令牌应用某种转换。
例如,假设输入为
The quick brown fox。如果使用edgeNGram 令牌生成器 ,则将获得以下令牌:
T
Th
The
The
(最后一个字符是一个空格)The q
The qu
The qui
The quic
The quick
The quick
(最后一个字符是一个空格)The quick b
The quick br
The quick bro
The quick brow
The quick brown
The quick brown
(最后一个字符是一个空格)The quick brown f
The quick brown fo
The quick brown fox
但是,如果您使用标准的令牌生成器将输入分成单词/令牌,然后使用edgeNGram 令牌过滤器 ,则会得到以下令牌
T
,Th
,The
q
,qu
,qui
,quic
,quick
b
,br
,bro
,brow
,brown
f
,fo
,fox
如您所见,在edgeNgram 标记生成器 或 标记过滤器 之间进行选择取决于您要如何对文本进行切片和切块以及如何进行搜索。
我建议您看一下优秀的elyzer工具,该工具提供一种可视化分析过程并查看每个步骤(令牌化和令牌过滤)过程中生成的内容的方法。
从ES
2.2开始,
_analyze端点还支持说明功能,该功能在分析过程的每个步骤中显示详细信息。



