数据平台缓存技术方案MemcachedRedis.docx

资源描述

数据平台缓存技术方案MemcachedRedis.docx

《数据平台缓存技术方案MemcachedRedis.docx》由会员分享，可在线阅读，更多相关《数据平台缓存技术方案MemcachedRedis.docx（19页珍藏版）》请在冰点文库上搜索。

数据平台缓存技术方案MemcachedRedis.docx

数据平台缓存技术方案MemcachedRedis

数据平台前端缓存技术方案（M/R）

version:

v1.0

缓存Memcached（M）

M的概念

M是高性能的分布式存缓存服务器，协议简单。

通过缓存数据库的查询结果，减少数据库访问次数，提高动态Web应用的速度和扩展性。

M支持下述语言

M的设计

M的机制

守护进程机制：

UNIXDaemon；Socket事件处理机制：

非阻塞、Libevent异步事件处理、Epoll/Kqueue；存管理机制：

Slab存分配、LRU对象清除、Hash快速检索Item。

存管理中，Slab中分成小单位Chunk，Chunk中存有实际数据Item。

下述是M的Slab存结构图和分配实例图。

Slab存结构图

Slab存分配实例图

Slab计算占用存图

Item数据存储格式图

M的架构设计

M的设计遵从原则是，首次访问从RDBMS中取得数据，按一定规则保存到M后，第二次访问从M中取得数据显示到浏览器页面中。

M架构层次图

M的服务端并没有分布式功能，各个服务器之间没有互相通信以共享信息。

M的分布式完全取决于客户端的实现，如下图所示。

M使用说明图

如需要在M中保存键名为“tokyo”的数据时，通过客户端应用程序的算法，根据Key来决定选择哪个服务器节点进行存储。

服务器选定之后，命令其保存键名“tokyo”和键值“data”。

Set实例图

如需要在M中获取键名为“tokyo”的数据时。

把键名“tokyo”传给客户端函数库，通过和数据保存相同的算法，根据Key选择服务器节点。

只要算法一致，就能选对服务器，发送命令取得键值“data”。

Get实例图

M的客户端算法

余数分散

根据服务器台数的余数进行分散，求得Key的整数Hash值H，除以服务器的台数N，由余数指向选中服务器，即H%N。

算法的数据分散性比较优秀，但不足的是当添加/移除服务器时（包括服务器Down机事件），缓存重组的代价相当大。

因为添加/移除服务器后，余数必定发生改变，客户端在获取数据时，就无法通过算法获取和保存时相同的服务器，严重影响了缓存的命中率。

大部分负载会在事件发生的同时，增大数据库的压力。

一致性哈希

一致性哈希算法，ConsistentHashing是一种分布式算法，常用于负载均衡。

M客户端选择这种算法，解决将Key-Value均匀分配到众多M服务器上的问题。

它可以取代传统的取模操作，解决了上述取模操作无法应对增删M服务器所遇到的问题。

一致性哈希算法图

一致性哈希算法增加节点图

普通一致性哈希算法有个潜在的问题是：

节点Hash后会不均匀地分布在环上，这样大量的Key在寻找节点时，会存在命中各个节点的概率差别较大，无法实现有效的负载均衡。

如有三个节点Node1,Node2,Node3，分布在环上时三个节点挨的很近，落在环上的key寻找节点时，大量key顺时针总是分配给Node2，而其它两个节点被找到的概率都会很小。

这种问题的解决方案有:

改善Hash算法，均匀分配各节点到环上；使用虚拟节点的思想，为每个物理服务器节点在圆上分配100～200个点。

这样就能抑制分布不均匀，最大限度地减小服务器增减时的缓存重新分布。

用户数据映射在虚拟节点上，就表示用户数据真正存储位置是在该虚拟节点对应的实际物理服务器上。

M的Java客户端实现（集群）

Google的Memcached实现

官方推荐的Java客户端之一Whalin开源实现基础上做再次封装的产物。

增加实现了缓存服务接口化，使用配置文件代替代码初始化客户端，集群的实现，LocalCache客户端本地缓存的使用。

旧SocketIO代码里面有太多的Synchronized（同步），多多少少会影响性能，改造SocketIO部分，优化Synchronized，添置了读入缓存页。

接口类图

集群、客户端的初始化通过配置文件生成，配置容如下：

集群中多节点软负载均衡，当前采用简单的Hash算法加取余来分发数据，数据在多节点上进行异步冗余存储，防止数据丢失，数据在分发到某一失败节点时可以转向到其他可用节点，节点恢复可用后数据Lazy复制，例如，当A,B两台机器作为集群的时候，如果A出现了问题，系统会去B获取数据，当A正常以后，如果应用在A中没有拿到数据可以去B获取数据，并且复制到A上。

Spring+XMemcached实现

M的Java客户端中，XMemcached支持所有的文本协议和二进制协议。

支持动态添加和删除M节点。

支持客户端统计。

支持节点的权重设置,支持nio的连接池，网路实现层是长连接形式，无需重复创建多个Client对象，在高负载环境下提高吞吐量。

利用Spring框架可以直接配置客户端集群，按照规定算法（Ketama等），自动Build出客户端对象，具体如下图。

集群服务配置图

客户端对象配置图

缓存Redis（R）

R的简介

redis是一个key-value存储系统。

和Memcached类似，它支持存储的value类型相对更多，包括string（字符串）、list（链表）、set（集合）和zset（有序集合）。

这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。

在此基础上，redis支持各种不同方式的排序。

与memcached一样，为了保证效率，数据都是缓存在存中。

区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件，并且在此基础上实现了master-slave（主从）同步。

R的master-slave（主从）架构

图2.1master-slave模式

当设置好slave服务器后，slave会建立和master的连接，然后发送sync命令。

无论是第一次同步建立的连接还是连接断开后的重新连接，master都会启动一个后台进程，将数据库快照保存到文件中，同时master主进程会开始收集新的写命令并缓存起来。

后台进程完成写文件后，master就发送文件给slave，slave将文件保存到磁盘上，然后加载到存恢复数据库快照到slave上。

接着master就会把缓存的命令转发给slave。

而且后续master收到的写命令都会通过开始建立的连接发送给slave。

从master到slave的同步数据的命令和从client发送的命令使用相同的协议格式。

当master和slave的连接断开时slave可以自动重新建立连接。

如果master同时收到多个slave发来的同步连接命令，只会使用启动一个进程来写数据库镜像，然后发送给所有slave。

流程如下图所示：

图2.3redis主从数据复制流程

Redis复制机制的缺陷

从上面的流程可以看出，Slave从库在连接Master主库时，Master会进行存快照，然后把整个快照文件发给Slave，也就是没有象MySQL那样有复制位置的概念，即无增量复制，这会给整个集群搭建带来非常多的问题。

比如一台线上正在运行的Master主库配置了一台从库进行简单读写分离，这时Slave由于网络或者其它原因与Master断开了连接，那么当Slave进行重新连接时，需要重新获取整个Master的存快照，Slave所有数据跟着全部清除，然后重新建立整个存表，一方面Slave恢复的时间会非常慢，另一方面也会给主库带来压力。

所以基于上述原因，如果你的Redis集群需要主从复制，那么最好事先配置好所有的从库，避免中途再去增加从库。

redis的master/slave模式下，master提供数据读写服务，而slave只提供读服务。

客服端通过ConsistentHashing算法选择要访问的slave缓存服务节点，运行图如下图所示：

图2.2redis运行图

R的特性

✧可以将缓存数据持久化到磁盘

✧不支持集群，但支持主从模式

✧value支持数据类型：

string（字符串）、list（列表）、sets（集合）或者是orderedsets（被排序的集合）和hash（哈希）。

✧基于客服端来实现分布式（通过ConsistentHashing算法选择

服务器节点，算法详情请参考1.4节）

✧事务支持（MULTI,EXEC及DISCARD三个命令让Redis的使用者可以将Redis命令打包进行原子性的操作）

✧支持Publish/subscribe（使用该功能可以很容易实现一个实时消息平台）

R的Java客户端实现

redis主页上列出的java 客户端有Jedis 、JRedis和 JDBC-Redis三种，面分别介绍三种客户端的优缺点。

支持redis版本

性能

维护