对于此类算法,建议您研究生物信息学领域。这里有一个类似的问题设置,因为您有大文件(基因组序列),在其中要寻找某些签名(基因,特殊的众所周知的短碱基序列等)。
同样,考虑到多态恶意软件,该领域应为您提供很多服务,因为在生物学上,获得精确匹配似乎同样困难。(不幸的是,我不知道有合适的近似搜索/匹配算法可以指向您。)
这个方向的一个例子是改编Aho
Corasick算法之类的东西,以便同时搜索多个恶意软件签名。
类似地,像Boyer
Moore算法之类的算法为您提供了绝佳的搜索运行时间,尤其是对于较长的序列(对于大小为N的文本,您在其中寻找大小为M的模式即次线性搜索时间的O(N
/ M)的平均情况)。



