好吧,看起来数据量很大,存储所有频率的成本也许很高。 当数据量太大 以至于我们无法希望将其全部存储时,我们进入 数据流算法领域 。
该领域的有用书籍:
Muthukrishnan-“数据流:算法和应用程序”
我从上文中选择的与该问题密切相关的参考文献: Mokuani,Manku-“数据流上的近似频率计数”
[pdf]
顺便说一下,斯坦福大学的Motwani(编辑)是一本非常重要的“随机化算法”书的作者。 本书的第11章处理这个问题 。 编辑: 对不起,不好的参考,该特定的章节是在另一个问题上。经过检查后,我建议使用
Muthukrishnan的
书中的5.1.2节
__(可在线获取)。
嘿,不错的面试问题。



