假设您有一本电话簿,其中包含人,其中有一个
String firstName和一个
StringlastName。碰巧在您的电话簿中,有100,000个人拥有相同的知识
firstName = "John"。
由于您是从数据库或文件中获取数据的,因此这些字符串不会被中断,因此您的JVM内存包含char数组
{'J', 'o', 'h','n'}10万次,每个John字符串一次。每个阵列占用20个字节的内存,因此,这些100k Johns占用2 MB的内存。通过重复数据删除,JVM将认识到“ John”已被重复多次,并使所有这些John字符串指向同一基础char数组,从而将内存使用量从2MB减少到20个字节。
您可以在JEP中找到更详细的说明。特别是:
当前,许多大型Java应用程序已成为内存瓶颈。测量表明,在这些类型的应用程序中,大约25%的Java堆活动数据集被String对象占用。此外,这些String对象中大约有一半是重复项,其中重复项表示
string1.equals(string2)为true。从本质上讲,在堆上具有重复的String对象只是浪费内存。[…]
实际的预期收益最终将减少约10%的堆。请注意,此数字是根据广泛应用计算得出的平均值。特定应用程序的堆减少量可能上下波动很大。



