hashmap底层原理绝对看得懂（Hash算法及HashMap底层实现原理）

阁楼烟火 2023-03-29 01:15:03

收藏赞分享

1. 哈希表结构的优势？

哈希表作为一种优秀数据结构

本质上存储结构是一个数组，辅以链表和红黑树

数组结构在查询和插入删除复杂度方面分别为O(1)和O(n)

链表结构在查询和插入删除复杂度方面分别为O(n)和O(1)

二叉树做了平衡两者都为O(lgn)

而哈希表两者都为O(1)

2. 哈希表简介

哈希表本质是一种(key,value)结构

由此我们可以联想到，能不能把哈希表的key映射成数组的索引index呢？

如果这样做的话那么查询相当于直接查询索引，查询时间复杂度为O(1)

其实这也正是当key为int型时的做法将key通过某种做法映射成index，从而转换成数组结构

3. 数据结构实现步骤

1.使用hash算法计算key值对应的hash值h(默认用key对应的hashcode进行计算(hashcode默认为key在内存中的地址)),得到hash值

2.计算该(k,v)对应的索引值index

索引值的计算公式为 index = (h % length) length为数组长度

3.储存对应的(k,v)到数组中去，从而形成a[index] = node<k,v>,如果a[index]已经有了结点

即可能发生碰撞，那么需要通过开放寻址法或拉链法(Java默认实现）解决冲突

当然这只是一个简单的步骤，只实现了数组实际实现会更复杂

hash表数组类似下图

索引	0	1	2	3	4	5	6	7
---	null	null	<10,node1>	<27,node2>	null	null	null	null

4. 概念区分4.1 哈希算法

h 通过hash算法计算得到的的一个整型数值

h可以近似看做一个由key的hashcode生成的随机数，区别在于相同的hashcode生成的h必然相同

而不同的hashcode也可能生成相同h，这种情况叫做hash碰撞，好的hash算法应尽量避免hash碰撞

(ps:hash碰撞只能尽量避免，而无法杜绝,由于h是一个固定长度整型数据,原则上只要有足够多的输入，就一定会产生碰撞)

关于hash算法有很多种，这里不展开赘述，只需要记住h是一个由hashcode产生的伪随机数即可

同时需要满足key.hashcode -> h 分布尽量均匀(下文会解释为何需要分布均匀)

了解更多请私信

4.2 解决碰撞冲突

由上我们可以知道，不同的hashcode可能导致相应的h即发生碰撞

那么我们需要把相应的<k,v>放到hashmap的其他存储地址

4.2.1开放寻址法

通过在数组以某种方式寻找数组中空余的结点放置

基本思想是：当关键字key的哈希地址p=H（key）出现冲突时

以p为基础，产生另一个哈希地址p1，如果p1仍然冲突，再以p为基础，产生另一个哈希地址p2，…，直到找出一个不冲突的哈希地址pi。

4.2.2链式地址

通过引入链表数组中每一个实体存储为链表结构，如果发生碰撞，则把旧结点指针指向新链表结点，此时查询碰撞结点只需要遍历该链表即可

在这种方法下，数据结构如下所示

int类型数据 hashcode 为自身值

hashmap底层原理绝对看得懂（Hash算法及HashMap底层实现原理）(1)

5. HashMap的底层实现原理

HashMap 是一个用于存储Key-Value 键值对的集合，每一个键值对也叫做Entry。这些个Entry 分散存储在一个数组当中，这个数组就是HashMap 的主干。

HashMap 数组每一个元素的初始值都是Null。

hashmap底层原理绝对看得懂（Hash算法及HashMap底层实现原理）(2)

5.1 Put 方法的原理

调用Put方法的时候发生了什么呢？

比如调用 hashMap.put(“apple”, 0) ，插入一个Key为“apple”的元素。这时候我们需要利用一个哈希函数来确定Entry的插入位置（index）：

index = Hash（"apple"）

假定最后计算出的index是2，那么结果如下：

hashmap底层原理绝对看得懂（Hash算法及HashMap底层实现原理）(3)

但是，因为HashMap的长度是有限的，当插入的Entry越来越多时，再完美的Hash函数也难免会出现index冲突的情况。比如下面这样：

hashmap底层原理绝对看得懂（Hash算法及HashMap底层实现原理）(4)

这时需要利用链表来解决。

HashMap数组的每一个元素不止是一个Entry对象，也是一个链表的头节点。每一个Entry对象通过Next指针指向它的下一个Entry节点。当新来的Entry映射到冲突的数组位置时，只需要插入到对应的链表即可：

hashmap底层原理绝对看得懂（Hash算法及HashMap底层实现原理）(5)

新来的Entry节点插入链表时，使用的是“头插法。

5.2 Get方法的原理

使用Get方法根据Key来查找Value的时候，发生了什么呢？

首先会把输入的Key做一次Hash映射，得到对应的index：

index = Hash（“apple”）

由于刚才所说的Hash冲突，同一个位置有可能匹配到多个Entry，这时候就需要顺着对应链表的头节点，一个一个向下来查找。假设我们要查找的Key是“apple”：

hashmap底层原理绝对看得懂（Hash算法及HashMap底层实现原理）(6)

第一步，我们查看的是头节点Entry6，Entry6的Key是banana，显然不是我们要找的结果。

第二步，我们查看的是Next节点Entry1，Entry1的Key是apple，正是我们要找的结果。

之所以把Entry6放在头节点，是因为HashMap的发明者认为，后插入的Entry被查找的可能性更大。

5.3 HashMap的初始长度

初始长度为16，且每次自动扩容或者手动初始化的时候必须是2的幂。

如何进行位运算呢？有如下的公式（Length是HashMap的长度）：

之前说过，从Key映射到HashMap数组的对应位置，会用到一个Hash函数：

index = Hash（“apple”）

如何实现一个尽量均匀分布的Hash函数呢？我们通过利用Key的HashCode值来做某种运算。

index = HashCode（Key） & （Length - 1）

下面我们以值为“book”的Key来演示整个过程：

计算book的hashcode，结果为十进制的3029737，二进制的101110001110101110 1001。

假定HashMap长度是默认的16，计算Length-1的结果为十进制的15，二进制的1111。

把以上两个结果做与运算，101110001110101110 1001 & 1111 = 1001，十进制是9，所以 index=9。

可以说，Hash算法最终得到的index结果，完全取决于Key的Hashcode值的最后几位。这里地位运算其实是一种快速取模算法。

HashMap 的size为什么必须是2的幂?。这是因为2的幂用二进制表示时所有位都为1，例如16-1=15 的二进制就是1111B。我们说了Hash算法是为了让hash 的分布变得均匀。其实我们可以把1111看成四个通道，表示跟1111 做&运算后分布是均匀的。假如默认长度取10，二进制表示为1010，这样就相当于有两个通道是关闭的，所以计算出来的索引重复的几率比较大。

6. 更多Hash相关的内容

彻底搞懂下面关于hash内容

了解更多请私信

hashmap底层原理绝对看得懂（Hash算法及HashMap底层实现原理）(7)

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

秒懂生活

hashmap底层原理绝对看得懂（Hash算法及HashMap底层实现原理）

猜您喜欢

吃哪十种食物最容易变胖（5种易变胖的食物）

一招解决喝水都会胖的体质（还在抱怨连喝水都发胖）

专家说这三种食物容易长胖（这6种食物极易长胖）

每天吃泥鳅好处和坏处有哪些（偶尔吃一次泥鳅）

兴风作浪的姐姐们什么时候播出（都等着姐姐们兴风作浪）

乘风破浪的姐姐是边播边录吗（乘风破浪的姐姐）

暖春小花真实身份是谁的孩子（还记得暖春里的小花吗）

热门推荐

排行榜