本文分析是基于JDK11中的HashMap源码
概念HashMap是由数组+链表组成, 它是线程不安全的, 且允许key和value的值为null。遍历时无序。
在JDK1.8中, 当数组中的元素大于64并且链表元素大于8时会转换为红黑树结构。
HashMap中的数组又称为哈希桶, 每个桶里存放的是链表, 链表中的每个节点就是HashMap的元素。
哈希桶的长度为2的N次方
HashMap继承了AbstractMap, 实现了Map, Cloneable, Serializable接口
public class HashMap结构 属性extends AbstractMap implements Map , Cloneable, Serializable { }
//默认初始容量16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
static final int TREEIFY_THRESHOLD = 8;
static final int UNTREEIFY_THRESHOLD = 6;
static final int MIN_TREEIFY_CAPACITY = 64;
//最大容量 2的30次方
static final int MAXIMUM_CAPACITY = 1 << 30;
//默认的加载因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//哈希桶, 存放链表 长度是2的N次方,初始化时为0
transient Node[] table;
//HashMap的元素数量的阈值, 当HashMap内元素数量超过阈值时, 会发生扩容resize()
int threshold;
//加载因子,用于计算哈希表元素数量的阈值。 threshold = 哈希桶.length * loadFactor;
final float loadFactor;
构造方法
//默认构造方法, 加载因子默认为0.75f
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}
//制定初始化容量的构造方法
public HashMap(int initialCapacity) {
this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
//新建一个HashMap, 同时将另一个map m中的所有元素加入表中
public HashMap(Map extends K, ? extends V> m) {
this.loadFactor = DEFAULT_LOAD_FACTOR;
putMapEntries(m, false);
}
//制定初始化容量以及加载因子
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
扩容方法
final NodeputVal方法[] resize() { //oldTab 为当前表的哈希桶 Node [] oldTab = table; //当前哈希桶的容量 length int oldCap = (oldTab == null) ? 0 : oldTab.length; //当前的阈值 int oldThr = threshold; //初始化新的容量和阈值为0 int newCap, newThr = 0; if (oldCap > 0) { //如果当前容量大于0 if (oldCap >= MAXIMUM_CAPACITY) { //如果当前容量已经到达上限 //则设置阈值是2的31次方-1 并返回哈希桶不再扩容 threshold = Integer.MAX_VALUE; return oldTab; } else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY) //如果旧的容量大于等于默认初始容量16 //新阈值等于旧阈值的两倍 newThr = oldThr << 1; } else if (oldThr > 0) //如果当前表是空的,但是有阈值。代表是初始化时指定了容量、阈值的情况 newCap = oldThr; //那么新表的容量就等于旧的阈值 else { //如果当前表是空的,而且也没有阈值。代表是初始化时没有任何容量/阈值参数的情况 //此时新表的容量为默认的容量 16 newCap = DEFAULT_INITIAL_CAPACITY; //新的阈值为默认容量16 * 默认加载因子0.75f = 12 newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY); } if (newThr == 0) { //如果新的阈值是0,对应的是 当前表是空的,但是有阈值的情况 //根据新表容量和加载因子求出新的阈值 float ft = (float)newCap * loadFactor; //进行越界修复 newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ? (int)ft : Integer.MAX_VALUE); } //更新阈值 threshold = newThr; //根据新的容量 构建新的哈希桶 @SuppressWarnings({"rawtypes","unchecked"}) Node [] newTab = (Node [])new Node[newCap]; //更新哈希桶引用 table = newTab; //如果以前的哈希桶中有元素, 将当前哈希桶中的所有节点转移到新的哈希桶中 if (oldTab != null) { for (int j = 0; j < oldCap; ++j) { //遍历旧哈希桶 //取出当前的节点 e Node e; if ((e = oldTab[j]) != null) { //如果当前桶中有元素,则将链表赋值给e oldTab[j] = null; //将原哈希桶置空以便GC if (e.next == null) //如果当前链表中就一个元素,(没有发生哈希碰撞) //直接将这个元素放置在新的哈希桶中, 此处取下标用的是哈希值与桶长度-1, 因为哈希桶的长度是2的n次方, 这样做相当于取模运算 newTab[e.hash & (newCap - 1)] = e; else if (e instanceof TreeNode) //如果发生过哈希碰撞 ,而且是节点数超过8个,转化成了红黑树 ((TreeNode )e).split(this, newTab, j, oldCap); else { //如果发生过哈希碰撞,节点数小于8个。则要根据链表上每个节点的哈希值,依次放入新哈希桶对应下标位置。 //因为扩容是容量翻倍,所以原链表上的每个节点,现在可能存放在原来的下标,即low位, 或者扩容后的下标,即high位。high位=low位+原哈希桶容量 //低位链表的头结点、尾节点 Node loHead = null, loTail = null; //高位链表的头节点、尾节点 Node hiHead = null, hiTail = null; //临时节点 存放e的下一个节点 Node next; do { next = e.next; if ((e.hash & oldCap) == 0) { //利用哈希值与旧的容量,可以得到哈希值取模后,是大于等于oldCap还是小于oldCap,等于0代表小于oldCap,应该存放在低位,否则存放在高位 //给头尾节点指针赋值 if (loTail == null) loHead = e; else loTail.next = e; loTail = e; } else { //高位也是相同的逻辑 if (hiTail == null) hiHead = e; else hiTail.next = e; hiTail = e; } } while ((e = next) != null); //循环直到链表结束 //将低位链表存放在原index处, if (loTail != null) { loTail.next = null; newTab[j] = loHead; } //将高位链表存放在新index处 if (hiTail != null) { hiTail.next = null; newTab[j + oldCap] = hiHead; } } } } } return newTab; }
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
//tab存放 当前的哈希桶, p用作临时链表节点
Node[] tab; Node p; int n, i;
//如果当前哈希表是空的,代表是初始化
if ((tab = table) == null || (n = tab.length) == 0)
//那么直接去扩容哈希表,并且将扩容后的哈希桶长度赋值给n
n = (tab = resize()).length;
//如果当前index的节点是空的,表示没有发生哈希碰撞。 直接构建一个新节点Node,挂载在index处即可。
//这里再啰嗦一下,index 是利用 哈希值 & 哈希桶的长度-1,替代模运算
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {//否则 发生了哈希冲突。
//e
Node e; K k;
//如果哈希值相等,key也相等,则是覆盖value操作
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;//将当前节点引用赋值给e
else if (p instanceof TreeNode)//红黑树暂且不谈
e = ((TreeNode)p).putTreeval(this, tab, hash, key, value);
else {//不是覆盖操作,则插入一个普通链表节点
//遍历链表
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {//遍历到尾部,追加新节点到尾部
p.next = newNode(hash, key, value, null);
//如果追加节点后,链表数量》=8,则转化为红黑树
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
//如果找到了要覆盖的节点
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
//如果e不是null,说明有需要覆盖的节点,
if (e != null) { // existing mapping for key
//则覆盖节点值,并返回原oldValue
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
//这是一个空实现的函数,用作linkedHashMap重写使用。
afterNodeAccess(e);
return oldValue;
}
}
//如果执行到了这里,说明插入了一个新的节点,所以会修改modCount,以及返回null。
//修改modCount
++modCount;
//更新size,并判断是否需要扩容。
if (++size > threshold)
resize();
//这是一个空实现的函数,用作linkedHashMap重写使用。
afterNodeInsertion(evict);
return null;
}
newNode方法
// Create a regular (non-tree) node
Node newNode(int hash, K key, V value, Node next) {
return new Node<>(hash, key, value, next);
}
其他方法
//根据期望容量cap,返回2的n次方形式的 哈希桶的实际容量 length。 返回值一般会>=cap
static final int tableSizeFor(int cap) {
//经过下面的 或 和位移 运算, n最终各位都是1。
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
//判断n是否越界,返回 2的n次方作为 table(哈希桶)的阈值
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
//将另一个Map的所有元素加入表中,参数evict初始化时为false,其他情况为true
final void putMapEntries(Map extends K, ? extends V> m, boolean evict) {
//拿到m的元素数量
int s = m.size();
//如果数量大于0
if (s > 0) {
//如果当前表是空的
if (table == null) { // pre-size
//根据m的元素数量和当前表的加载因子,计算出阈值
float ft = ((float)s / loadFactor) + 1.0F;
//修正阈值的边界 不能超过MAXIMUM_CAPACITY
int t = ((ft < (float)MAXIMUM_CAPACITY) ?
(int)ft : MAXIMUM_CAPACITY);
//如果新的阈值大于当前阈值
if (t > threshold)
//返回一个 》=新的阈值的 满足2的n次方的阈值
threshold = tableSizeFor(t);
}
//如果当前元素表不是空的,但是 m的元素数量大于阈值,说明一定要扩容。
else if (s > threshold)
resize();
//遍历 m 依次将元素加入当前表中。
for (Map.Entry extends K, ? extends V> e : m.entrySet()) {
K key = e.getKey();
V value = e.getValue();
putVal(hash(key), key, value, false, evict);
}
}
}
加载因子为什么是0.75
为什么不是0.5或1.0?
首先如果加载因子比较大, 那么扩容发生的频率就比较低, 与之对应浪费的空间也会比较小。不过发生hash冲突的几率也会变得比较大, 比如加载因子是1的时候, 如果HashMap的长度为128, 那么可能HashMap的实际存储元素数量在64至128之间的比较多, 而这个时间段发生的hash冲突就比较大, 造成数据中其中一条链表较长, 就会影响性能。
而当加载因子比较小的时候, 扩容的频率就会变高, 因此会占用更多的空间, 但元素的存储就比较稀疏, 发生哈希冲突的可能性就比较小, 因此操作性能会比较高, 比如设置成0.5, 相同128长度的HashMap, 当数量达到65的时候就会触发HashMap的扩容, 扩容后长度为256, 256里面只存储了65个元素的话就会有很多的空间被浪费。
所以综合了以上情况就取了0.5到1.0之间的平均数0.75作为加载因子
另外一提, 0.75与泊松分布的关系, 当负载因子等于0.75, 带入泊松分布公式中, 计算出长度为8时, 概率 = 0.00000006, 这个0.00000006概率已经很小了, 所以链表长度为8时, 转换成红黑树。
使用红黑树的原因红黑树是为了解决二叉查找树的缺陷, 因为二叉查找树在某些情况下回退化成一个线性结构。
红黑树是一种二叉查找树, 同时也是一种弱平衡二叉树, 相对于要求严格的AVL树来说, 它的旋转次数少, 所以对于搜索, 插入(最多两次旋转), 删除(最多三次旋转)操作较多的情况下, 通常使用红黑树。
红黑树在查找, 插入, 删除的性能都是O(logn), 且性能稳定。
小结运算尽量都用位运算替代取下标是用哈希值和桶长度-1做 与运算 (n-1) & hash , 因为桶的长度是2的n次方, 所以相当于一个取模, 更高效扩容时, 如果发生哈希碰撞, 节点数小于8个。则要根据链表上每个节点的hash值, 依次放入 链表节点
每个节点(Node)的哈希值, 是将key的hashCode和value的hashCode进行异或运算得到的。
static class Node哈希碰撞和扰动函数 扩容机制implements Map.Entry { final int hash; //哈希值 final K key; V value; Node next; //链表后置节点 Node(int hash, K key, V value, Node next) { this.hash = hash; this.key = key; this.value = value; this.next = next; } public final K getKey() { return key; } public final V getValue() { return value; } public final String toString() { return key + "=" + value; } //每一个节点的hash值,是将key的hashCode 和 value的hashCode异或得到的。 public final int hashCode() { return Objects.hashCode(key) ^ Objects.hashCode(value); } //设置新的value 同时返回旧value public final V setValue(V newValue) { V oldValue = value; value = newValue; return oldValue; } public final boolean equals(Object o) { if (o == this) return true; if (o instanceof Map.Entry) { Map.Entry,?> e = (Map.Entry,?>)o; if (Objects.equals(key, e.getKey()) && Objects.equals(value, e.getValue())) return true; } return false; } }
先讲一下插入的原理, 由于原始结构是数据+链表, HashMap通过Key的HashCode, 经过扰动函数处理过后得到Hash值, 然后通过(数组长度 - 1) & Hash判断当前元素存放的位置, 如果当前位置存在元素, 就判断该元素与要存入的元素的hash值以及key是否相同, 如果相同的直接覆盖, 不同的通过拉链法解决冲突, 所谓拉链法就是将链表和数组相结合, 即创建一个链表数组, 数组中每个元素就是一个链表,若遇到Hash冲突, 就将冲突的值加入到链表即可。在JDK1.8之后, 如果数组的长度超过64位, 链表的长度超过8, 就会转换成红黑树以减少搜索时间(TreeMap, TreeSet的底层都用到了红黑树)。
再说一下扩容的过程
- 判断当前容量大小是否为空, 如果为空(为设置初始值), 则把容量扩容为16获取key的HashCode, 对HashCode进行扰动处理, 计算出元素的下标根据下标判断有无hash碰撞, 如果没有, 直接放入哈希桶中如果发生碰撞, 比较两个key是否相同, 相同则覆盖, 不同则以链表的方式插入到尾部(尾插法)如果插入过后链表的长度超过了阈值(TREEIFY_THRESHOLD=8), 则把链表转换为红黑树插入成功后, 如果元素个数达到了阈值(threshold = 哈希桶.length * loadFactor), 则执行扩容操作判断(不超过Integer的最大值)扩容成功后, 对元素下标进行重新计算
因为底层哈希桶的数据结构是数据, 所以也会涉及到扩容的问题。
在putVal方法的29行调用了一个方法treeifyBin
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
//如果追加节点后,链表数量>=8,则转化为红黑树
if (binCount >= TREEIFY_THRESHOLD - 1)
treeifyBin(tab, hash);
break;
}
}
注意转红黑树链表长度是要超过8, 而不是达到8, binCount的自增是++binCount, 当binCount=0,put的第2个元素,binCount 1对应put的第3个元素,1对以此类推,当binCount=7时此时put的是第9个元素,而上面的已经说了binCount >=7时调用treeifyBin方法,所以链表长度是要超过8。
再来看treeifyBin的代码实现
final void treeifyBin(NodeAPI方法 JDK1.7和JDK1.8 HashMap的变化[] tab, int hash) { int n, index; Node e; //判断数组长度是否小于64,小于则进行扩容,否则转红黑树 if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY) resize(); else if ((e = tab[index = (n - 1) & hash]) != null) { TreeNode hd = null, tl = null; do { TreeNode p = replacementTreeNode(e, null); if (tl == null) hd = p; else { p.prev = tl; tl.next = p; } tl = p; } while ((e = e.next) != null); if ((tab[index] = hd) != null) hd.treeify(tab); } }
| 不同点 | JDK1.7 | JDK1.8 |
|---|---|---|
| 存储结构 | 数组+链表 | 数组+链表+红黑树 |
| 初始化方式 | inflateTable()方法 | 集成到扩容方法resize()方法 |
| Hash值计算方式 | 扰动处理=9次扰动=4次位运算+5次异或运算 | 扰动处理=2次扰动=1次位运算+1次异或运算 |
| 存放数据的规则 | 无冲突时, 存放数据; 冲突时, 存放链表 | 无冲突时, 存放数据; 冲突 & 数组长度 < 8, 存放到单链表; 冲突&数组长度>64 & 链表长度 >8, 树化并存放在红黑树 |
| 插入数据方式 | 头插法 | 尾插法(直接插入链表尾部or红黑树) |
| 扩容后存储位置的计算 | HashCode ->> 扰动函数 ->> (Hash & length-1) | 按照扩容后的规律计算(扩容后的位置 = 原位置 or 原位置 + 旧容量) |
- 线程安全, HashMap是非线程安全的, HashTable是线程安全的, HashTable的方法都用synchronized修饰的效率, 由于线程安全的问题, HashMap的性能优于HashTableHashMap允许key和value为null, HashTable不允许key和value为null数据结构, JDK1.8以后HashMap能转换成红黑树, HashTable没有这种功能
首先将数据分为一段一段的存储, 然后给每一段数据配一把段锁, 当一个线程占用锁访问其中一个段数据时, 其他段的数据也能被其他线程访问到在1.7中, ConcurrentHashMap采用了Segment + HashEntry的方式实现:
一个ConcurrentHashMap里包含一个Segment数组, Segment的结构与HashMap类似, 是一种数组+链表结构, 一个Segment包含一个HashEntry数组。每个HashEntry是一个链表结构的元素, 每个Segment守护着一个HashEntry数组里的元素, 当对HashEntry数组进行修改时, 必须获得对应的Segment的锁。
Segment使用了ReentrantLock 可重入锁
JDK1.8 ConcurrentHashMap放弃了Segment臃肿的设计, 取而代之的是采用Node + CAS + Synchronized来保证线程安全, synchronized只锁定当前链表的首节点或红黑树的首节点, 这样只要hash不冲突, 就不会产生并发。
Node是ConcurrentHashMap中最核心最重要的内部类, Node存储K-V, 所有插入ConcurrentHashMap中的数据都会包装在Node中。在HashMap中其核心数据结构是链表, 而在ConcurrentHashMap中如果链表的数据过长会转换为红黑树来处理, 通过将链表的节点包装成TreeNode, 放在TreeBin中, 然后经由TreeBin完成红黑树的转换。TreeBin不负责键值对的包装, 用于在链表转换为红黑树时, 包装TreeNode节点, 用来构建红黑树。
HashMap的源码中, 在进行运算时都优先使用各种位运算来替代常规运算, 以此来提升效率
与运算替代模运算
hash & (table.length-1) 替代 hash % (table.length)
if ((e.hash & oldCap) == 0) 判断扩容后, 节点e处于低区还是高区
扩容后立即将老数组的引用置为null, 以便GC回收
扩容操作时,会new一个新的Node数组作为哈希桶,然后将原哈希表中的所有数据(Node节点)移动到新的哈希桶中,相当于对原哈希表中所有的数据重新做了一个put操作。所以性能消耗很大,可想而知,在哈希表的容量越大时,性能消耗越明显。



