Redis集群技术一致性哈希算法(解决服务器均衡问题 )
浏览量:471
一致性哈希算法
麻省理工学院提出的一种分布式哈希(DHT)实现算法,目前在 cache 系统中应用越来越广泛;
使用场景
比如你有 N 个 cache 服务器(简称 cache ),那么如何将一个对象 object 映射到 N 个 cache 上呢,你很可能会采用类似下面的通用方法计算 object 的 hash 值,然后均匀的映射到到 N 个 cache(hash(object)%N) 正常运行成功了,你还需要考虑两个情况:
1.缓存服务器down机了
假设一个 cache 服务器 m down 掉了(在实际应用中必须要考虑这种情况),这样所有映射到 cache服务器的 m 的对象都会失效,怎么办,需要把 cache服务器 m 从 cache 中移除,这时候 cache服务器的机器 是 N-1 台,映射公式变成了 hash(object)%(N-1) ;
2.突然你的用户多了,cache服务器不够用了
由于访问加重,需要添加 cache服务器 ,这时候 cache服务器 是 N+1 台,映射公式变成了 hash(object)%(N+1) ;
1 和 2 意味着什么?这意味着突然之间几乎所有的 cache 都失效了,所有访问都会直接冲向后台服务器,后果可想而知
哈希算法的定义
1、平衡性(Balance):平衡性是指哈希的结果能够尽可能分布到所有的缓冲中去,这样可以使得所有的缓冲空间都得到利用。很多哈希算法都能够满足这一条件。
2、分散性(Spread):在分布式环境中,终端有可能看不到所有的缓冲,而是只能看到其中的一部分。当终端希望通过哈希过程将内容映射到缓冲上时,由于不同终端所见的缓冲范围有可 能不同,从而导致哈希的结果不一致,最终的结果是相同的内容被不同的终端映射到不同的缓冲区中。这种情况显然是应该避免的,因为它导致相同内容被存储到不 同缓冲中去,降低了系统存储的效率。分散性的定义就是上述情况发生的严重程度。好的哈希算法应能够尽量避免不一致的情况发生,也就是尽量降低分散性。
3、单调性(Monotonicity):单调性是指如果已经有一些内容通过哈希分派到了相应的缓冲中,又有新的缓冲加入到系统中。哈希的结果应能够保证原有已分配的内容可以被映射到原有的或者新的缓冲中去,而不会被映射到旧的缓冲集合中的其他缓冲区。
4、负载(Load):负载问题实际上是从另一个角度看待分散性问题。既然不同的终端可能将相同的内容映射到不同的缓冲区中,那么对于一个特定的缓冲区而言, 也可能被不同的用户映射为不同 的内容。与分散性一样,这种情况也是应当避免的,因此好的哈希算法应能够尽量降低缓冲的负荷。
consistent hashing 算法的原理
consistent hashing 是一种 hash 算法,简单的说,在移除 / 添加一个 cache 时,它能够尽可能小的改变已存在 key 映射关系,尽可能的满足单调性的要求。
环形hash 空间
按照常用的hash算法来将对应的key哈希到一个具有2^32次方个桶的空间中,即0~(2^32)-1的数字空间中。现在我们可以将这些数字头尾相连,想象成一个闭合的环形。如下图
神回复
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。