StandardTokenizerFactory:-
标记空白,并去除字符
文档:-
在标点符号处拆分单词,删除标点符号。但是,不带空格的点被认为是令牌的一部分。除非连词中有数字,否则用连字符分割单词。在这种情况下,整个令牌将被解释为产品编号,并且不会拆分。将电子邮件地址和Internet主机名识别为一个令牌。
将其用于要在字段数据上搜索的字段。
例如-
http://example.com/I-am+example?Text=-Hello
会生成7个令牌(用逗号分隔)-
http,example.com,I,am,example,Text,Hello
KeywordTokenizerFactory:-
关键字Tokenizer根本不分割输入。
对该字符串不执行任何处理,并且整个字符串被视为单个实体。
这实际上并没有进行任何标记化。它返回原始文本作为一个术语。
主要用于排序或构面需求,在筛选多个单词并进行排序时,您希望匹配精确的构面,因为排序不适用于标记化字段。
例如
http://example.com/I-am+example?Text=-Hello
会生成一个令牌-
http://example.com/I-am+example?Text=-Hello



