首页 >> 大全

MAP哈希表

2023-10-08 大全 23 作者:考证青年

Map接口

1. 说一下 的实现原理?

概述: 是基于哈希表的Map接口的非同步实现。此实现提供所有可选的映射操作,并允许使用null值和null键。此类不保证映射的顺序,特别是它不保证该顺序恒久不变

的数据结构:是一个“散列表”的数据结构,即数组和链表的结合体

基于 Hash 算法实现的:

①当我们往中put元素时,利用key的重新hash计算出当前对象的元素在数组中的下标

②存储时,如果出现hash值相同的key,此时有两种情况。(1)如果key相同,则覆盖原始值;(2)如果key不同(出现冲突),则将当前的key-value放入链表中

③获取时,直接找到hash值对应的下标,在进一步判断key是否相同,从而找到对应值

理解了以上过程就不难明白是如何解决hash冲突的问题,核心就是使用了数组的存储方式,然后将冲突的key的对象放入链表中,一旦发现冲突就在链表中做进一步的对比。

Jdk 1.8中对的实现做了优化,当链表长度大于阈值(默认为8)时,该链表会转为红黑树来提高查询效率,从原来的O(n)到O(logn)

2.的put方法的具体流程?

当我们put的时候,首先计算 key的hash值,这里调用了 hash方法,hash方法实际是让key.()与key.()>>>16进行异或操作,高16bit补0,一个数和0异或不变

所以 hash 函数大概的作用就是:高16bit不变,低16bit和高16bit做了一个异或,目的是减少碰撞。按照函数注释,因为数组大小是2的幂,计算下标index = (table. - 1) & hash,如果不做 hash 处理,相当于散列生效的只有几个低 bit 位,为了减少散列的碰撞

设计者综合考虑了速度、作用、质量之后,使用高16bit和低16bit异或来简单处理减少碰撞,而且JDK8中用了复杂度 O(logn)的树结构来提升碰撞下的性能

①判断键值对数组table[i]是否为空或为null,是的话执行()进行扩容

②根据键key计算hash值得到插入的数组索引 i ,如果table[i]==null,直接新建节点添加,再判断是否扩容,如果table[i]不为空,代表数组中这个位置已经有元素了

③判断table[i]的首个元素是否和key一样,如果相同(以及)直接覆盖value,若不同则只代表相同,发生哈希冲突

④判断table[i] 是否为,即table[i] 是否是红黑树,如果是红黑树,则直接在树中插入键值对,否则考虑插入链表中

⑤遍历table[i],判断链表长度是否大于8,(数组长度小于64时会首先进行扩容)大于8且数组长度大于64的话把链表转换为红黑树,在红黑树中执行插入操作,否则进行链表的插入操作;遍历过程中若发现key已经存在直接覆盖value即可

⑥插入成功后,判断实际存在的键值对数量size是否超过了最大容量,如果超过,进行扩容

3.的扩容操作是怎么实现的?

①在jdk1.8中,方法是在中的键值对大于阀值时或者初始化时,就调用方法进行扩容

哈希表js_map哈希表_

②每次扩展的时候,都是扩展2倍

③扩展后Node对象的位置要么在原位置,要么移动到原偏移量两倍的位置。

在()中,我们看到在这个函数里面使用到了2次()方法,()方法表示的在进行第一次初始化时会对其进行扩容,或者当该数组的实际大小大于其临界值值(第一次为12),这个时候在扩容的同时也会伴随的桶上面的元素进行重新分发,这也是JDK1.8版本的一个优化的地方,在1.7中,扩容之后需要重新去计算其Hash值,根据Hash值对其进行分发,但在1.8版本中,则是根据在同一个桶的位置中进行判断(e.hash & )是否为0,重新进行hash分配后,该元素的位置要么停留在原始位置,要么移动到原始位置+增加的数组大小这个位置上

4.是怎么解决哈希冲突的?

什么是哈希冲突?当两个不同的输入值,根据同一散列函数计算出相同的散列值的现象,我们就把它叫做冲突(哈希碰撞)

hash()函数

相比于返回的int类型,初始的容量大小16要远小于int类型的范围如果使用取余,那么相当于参与运算的只有的低位,高位是没有起到任何作用的,所以我们的思路就是让取值出的高位也参与运算,进一步降低hash碰撞的概率,使得数据分布更平均,我们把这样的操作称为扰动,与自己右移16位进行异或运算(高低位异或)

链地址法(使用散列表)和扰动函数我们成功让我们的数据分布更平均,哈希碰撞减少,但是当我们的中存在大量数据时,加入我们某个下对应的链表有n个元素,那么遍历时间复杂度就为O(n),为了针对这个问题,JDK1.8在中新增了红黑树的数据结构,进一步使得遍历复杂度降低至O(logn)

总结:

①使用链地址法(使用散列表)来链接拥有相同hash值的数据

②使用2次扰动函数(hash函数)来降低哈希冲突的概率,使得数据分布更平均

③引入红黑树进一步降低遍历的时间复杂度,使得遍历更快(O(N) -> O(logN))

5.能否使用任何类作为 Map 的 key?

可以使用任何类作为 Map 的 key,然而在使用之前,需要考虑以下几点:

①如果类重写了 () 方法,也应该重写 () 方法

②类的所有实例需要遵循与 () 和 () 相关的规则

③如果一个类没有使用 (),不应该在 () 中使用它

④用户自定义 Key 类最佳实践是使之为不可变的,这样 () 值可以被缓存起来,拥有更好的性能。不可变的类也可以确保 () 和 () 在未来不会改变,这样就会解决与可变相关的问题了

6.为什么中、这样的包装类适合作为K?

、等包装类的特性能够保证Hash值的不可更改性和计算准确性,能够有效的减少Hash碰撞的几率

①都是final类型,即不可变性,保证key的不可更改性,不会存在获取hash值不同的情况

②内部已重写了()、()等方法,遵守了内部的规范,不容易出现Hash值计算错误的情况

7.如果使用作为的Key,应该怎么办呢?

重写()和()方法

①重写()是因为需要计算存储数据的存储位置,需要注意不要试图从散列码计算中排除掉一个对象的关键部分来提高性能,这样虽然能更快但可能会导致更多的Hash碰撞

②重写()方法,需要遵守自反性、对称性、传递性、一致性以及对于任何非null的引用值x,x.(null)必须返回false的这几个特性,目的是为了保证key在哈希表中的唯一性

8.为什么不直接使用()处理后的哈希值直接作为table的下标?

()方法返回的是int整数类型,其范围为-(2 ^ 31)~(2 ^ 31 - 1),约有40亿个映射空间,而的容量范围是在16(初始化默认值)~2 ^ 30,通常情况下是取不到最大值的,并且设备上也难以提供这么多的存储空间,从而导致通过()计算出的哈希值可能不在数组大小范围内,进而无法匹配存储位置

9. 的长度为什么是2的幂次方,为什么是两次扰动?

为了能让 存取高效,尽量较少碰撞,也就是要尽量把数据分配均匀

我们首先可能会想到采用%取余的操作来实现。但是,重点来了:“取余(%)操作中如果除数是2的幂次则等价于与其除数减一的与(&)操作(也就是说 hash%==hash&(-1)的前提是 是2的 n 次方;)。” 并且 采用二进制位操作 &,相对于%能够提高运算效率,这就解释了 的长度为什么是2的幂次方

那为什么是两次扰动呢?

这样就是加大哈希值低位的随机性,使得分布更均匀,从而提高对应数组存储下标位置的随机性&均匀性,最终减少Hash冲突,两次就够了,已经达到了高位低位同时参与运算的目的

10. 和 的区别

①对整个桶数组进行了分割分段(),然后在每一个分段上都用lock锁进行保护,相对于的锁的粒度更精细了一些,并发性能更好(JDK1.8之后启用了一种全新的方式实现,利用CAS算法。直接用 Node 数组+链表+红黑树的数据结构来实现,并发控制使用 和 CAS 来操作) 而没有锁机制,不是线程安全的

②的键值对允许有null,但是都不允许

辅助工具类

11. Array 和 有何区别?

①Array 可以存储基本数据类型和对象, 只能存储对象

②Array 是指定固定大小的,而 大小是自动扩展的

③Array 内置方法没有 多,比如 、、 等方法只有 有

12. 和 的区别?

①接口实际上是出自java.lang包,它有一个 ( obj)方法用来排序

②接口实际上是出自 java.util 包,它有一个( obj1, obj2)方法用来排序

一般我们需要对一个集合使用自定义排序时,我们就要重写方法或方法

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了