hashmap底层原理绝对看得懂(Hash算法及HashMap底层实现原理)

1. 哈希表结构的优势?

哈希表作为一种优秀数据结构

本质上存储结构是一个数组,辅以链表和红黑树

数组结构在查询和插入删除复杂度方面分别为O(1)和O(n)

链表结构在查询和插入删除复杂度方面分别为O(n)和O(1)

二叉树做了平衡 两者都为O(lgn)

而哈希表两者都为O(1)

2. 哈希表简介

哈希表本质是一种(key,value)结构

由此我们可以联想到,能不能把哈希表的key映射成数组的索引index呢?

如果这样做的话那么查询相当于直接查询索引,查询时间复杂度为O(1)

其实这也正是当key为int型时的做法 将key通过某种做法映射成index,从而转换成数组结构

3. 数据结构实现步骤

1.使用hash算法计算key值对应的hash值h(默认用key对应的hashcode进行计算(hashcode默认为key在内存中的地址)),得到hash值

2.计算该(k,v)对应的索引值index

索引值的计算公式为 index = (h % length) length为数组长度

3.储存对应的(k,v)到数组中去,从而形成a[index] = node<k,v>,如果a[index]已经有了结点

即可能发生碰撞,那么需要通过开放寻址法或拉链法(Java默认实现)解决冲突

当然这只是一个简单的步骤,只实现了数组 实际实现会更复杂

hash表 数组类似下图

索引

0

1

2

3

4

5

6

7

---

null

null

<10,node1>

<27,node2>

null

null

null

null

4. 概念区分4.1 哈希算法

h 通过hash算法计算得到的的一个整型数值

h可以近似看做一个由key的hashcode生成的随机数,区别在于相同的hashcode生成的h必然相同

而不同的hashcode也可能生成相同h,这种情况叫做hash碰撞,好的hash算法应尽量避免hash碰撞

(ps:hash碰撞只能尽量避免,而无法杜绝,由于h是一个固定长度整型数据,原则上只要有足够多的输入,就一定会产生碰撞)

关于hash算法有很多种,这里不展开赘述,只需要记住h是一个由hashcode产生的伪随机数即可

同时需要满足key.hashcode -> h 分布尽量均匀(下文会解释为何需要分布均匀)

了解更多请私信

4.2 解决碰撞冲突

由上我们可以知道,不同的hashcode可能导致相应的h即发生碰撞

那么我们需要把相应的<k,v>放到hashmap的其他存储地址

4.2.1开放寻址法

通过在数组以某种方式寻找数组中空余的结点放置

基本思想是:当关键字key的哈希地址p=H(key)出现冲突时

以p为基础,产生另一个哈希地址p1,如果p1仍然冲突,再以p为基础,产生另一个哈希地址p2,…,直到找出一个不冲突的哈希地址pi。

4.2.2链式地址

通过引入链表 数组中每一个实体存储为链表结构,如果发生碰撞,则把旧结点指针指向新链表结点,此时查询碰撞结点只需要遍历该链表即可

在这种方法下,数据结构如下所示

int类型数据 hashcode 为自身值

hashmap底层原理绝对看得懂(Hash算法及HashMap底层实现原理)(1)

5. HashMap的底层实现原理

HashMap 是一个用于存储Key-Value 键值对的集合,每一个键值对也叫做Entry。这些个Entry 分散存储在一个数组当中,这个数组就是HashMap 的主干。

HashMap 数组每一个元素的初始值都是Null。

hashmap底层原理绝对看得懂(Hash算法及HashMap底层实现原理)(2)

5.1 Put 方法的原理

调用Put方法的时候发生了什么呢?

比如调用 hashMap.put(“apple”, 0) ,插入一个Key为“apple”的元素。这时候我们需要利用一个哈希函数来确定Entry的插入位置(index):

index = Hash("apple")

假定最后计算出的index是2,那么结果如下:

hashmap底层原理绝对看得懂(Hash算法及HashMap底层实现原理)(3)

但是,因为HashMap的长度是有限的,当插入的Entry越来越多时,再完美的Hash函数也难免会出现index冲突的情况。比如下面这样:

hashmap底层原理绝对看得懂(Hash算法及HashMap底层实现原理)(4)

这时需要利用链表来解决。

HashMap数组的每一个元素不止是一个Entry对象,也是一个链表的头节点。每一个Entry对象通过Next指针指向它的下一个Entry节点。当新来的Entry映射到冲突的数组位置时,只需要插入到对应的链表即可:

hashmap底层原理绝对看得懂(Hash算法及HashMap底层实现原理)(5)

新来的Entry节点插入链表时,使用的是“头插法。

5.2 Get方法的原理

使用Get方法根据Key来查找Value的时候,发生了什么呢?

首先会把输入的Key做一次Hash映射,得到对应的index:

index = Hash(“apple”)

由于刚才所说的Hash冲突,同一个位置有可能匹配到多个Entry,这时候就需要顺着对应链表的头节点,一个一个向下来查找。假设我们要查找的Key是“apple”:

hashmap底层原理绝对看得懂(Hash算法及HashMap底层实现原理)(6)

第一步,我们查看的是头节点Entry6,Entry6的Key是banana,显然不是我们要找的结果。

第二步,我们查看的是Next节点Entry1,Entry1的Key是apple,正是我们要找的结果。

之所以把Entry6放在头节点,是因为HashMap的发明者认为,后插入的Entry被查找的可能性更大。

5.3 HashMap的初始长度

初始长度为16,且每次自动扩容或者手动初始化的时候必须是2的幂。

如何进行位运算呢?有如下的公式(Length是HashMap的长度):

之前说过,从Key映射到HashMap数组的对应位置,会用到一个Hash函数:

index = Hash(“apple”)

如何实现一个尽量均匀分布的Hash函数呢?我们通过利用Key的HashCode值来做某种运算。

index = HashCode(Key) & (Length - 1)

下面我们以值为“book”的Key来演示整个过程:

计算book的hashcode,结果为十进制的3029737,二进制的101110001110101110 1001。

假定HashMap长度是默认的16,计算Length-1的结果为十进制的15,二进制的1111。

把以上两个结果做与运算,101110001110101110 1001 & 1111 = 1001,十进制是9,所以 index=9。

可以说,Hash算法最终得到的index结果,完全取决于Key的Hashcode值的最后几位。这里地位运算其实是一种快速取模算法。

HashMap 的size为什么必须是2的幂?。这是因为2的幂用二进制表示时所有位都为1,例如16-1=15 的二进制就是1111B。我们说了Hash算法是为了让hash 的分布变得均匀。其实我们可以把1111看成四个通道,表示跟1111 做&运算后分布是均匀的。假如默认长度取10,二进制表示为1010,这样就相当于有两个通道是关闭的,所以计算出来的索引重复的几率比较大。

6. 更多Hash相关的内容

彻底搞懂下面关于hash内容

了解更多请私信

hashmap底层原理绝对看得懂(Hash算法及HashMap底层实现原理)(7)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页