Mysql百万数据量级数据快速导入Redis

时间 2020-02-12

标签 mysql 百万数据量级快速导入 redis 栏目 MySQL 繁體版

原文原文链接

前言

随着系统的运行，数据量变得愈来愈大，单纯的将数据存储在mysql中，已然不能知足查询要求了，此时咱们引入Redis做为查询的缓存层，将业务中的热数据保存到Redis，扩展传统关系型数据库的服务能力，用户经过应用直接从Redis中快速获取经常使用数据，或者在交互式应用中使用Redis保存活跃用户的会话，均可以极大地下降后端关系型数据库的负载，提高用户体验。php

传统命令的缺点

使用传统的redis client命令在大数据量的导入场景下存在以下缺陷：java

因为redis是单线程模型，虽然避免了多线程下线程切换所耗费的时间，单一顺序的执行命令也很快，可是在大批量数据导入的场景下，发送命令所花费的时间和接收服务器响应结果耗费的时间就会被放大。mysql

假如须要导入100万条数据，那光是命令执行时间，就须要花费100万*（t1 + t2）。redis

除了逐条命令发送，固然redis设计确定也会考虑这个问题，因此出现了pipelining管道模式。sql

可是pipelining在命令行中是没有的，使得咱们又须要编写新的处理代码，来接收批量的响应。可是只有不多不多的客户端代码支持，好比php-redis的扩展就不支持异步。docker

pipelining管道模式，其实就是减小了TCP链接的交互时间，当一批命令执行完毕后，一次性发送结果。shell

其实现原理是采用FIFO(先进先出)的队列来保证数据的顺序性。数据库

只有一小部分客户端支持非阻塞I/O，并非全部的客户端都可以以一种有效的方式解析应答，以最大化吞吐量。后端

因为这些缘由，将庞大数据导入到Redis的首选方法是生成一个包含Redis协议数据格式，批量的发送过去。缓存

数据导入Redis热身

采用nc命令导入数据

nc是netcat的简写，nc的做用有：

（1）实现任意TCP/UDP端口的侦听，增长-l参数后，nc能够做为server以TCP或UDP方式侦听指定端口

（2）端口的扫描，nc能够做为client发起TCP或UDP链接

（3）机器之间传输文件

（4）机器之间网络测速

采用pipe模式导入数据

然而，使用nc监听并非一个很是可靠的方式来执行大规模的数据导入，由于netcat并不真正知道什么时候传输了全部数据，也没法检查错误。在2.6或更高版本的Redis中，Redis -cli脚本支持一种称为pipe管道模式的新模式，这种模式是为了执行大规模插入而设计的。使用管道模式的命令运行以下:

由上图，能够看到pipe命令的返回结果，txt文件中有多少行命令，返回的replies数就是多少，errors表示其中执行错误的命令条数。

redis协议学习

协议的格式为：

*<参数数量>  \r\n
$<参数 1 的字节数量>  \r\n
<参数 1 的数据> \r\n
...
$<参数 N 的字节数量> \r\n
<参数 N 的数据> \r\n复制代码

好比：插入一条hash类型的数据。

HSET  id  book1  book_description1复制代码

根据Redis协议，总共有4个部分，因此开头为*4，其他内容解释以下：

内容	长度	协议命令
HSET	4	$4
id	2	$2
book1	5	$5
book_description1	17	$17

注意一下：HSET命令自己也做为协议的其中一个参数来发送。

构造出来的协议数据结构：

*4\r\n$4\r\nHSET\r\n$2\r\nid\r\n$5\r\nbook1\r\n$17\r\nbook_description1\r\n

格式化一下：

*4\r\n
$4\r\n
HSET\r\n
$2\r\n
idvvvv\r\n
$5\r\n
book1\r\n
$17\r\n
book_description1\r\n复制代码

RESP协议 bulk

Redis客户机使用一种称为RESP (Redis序列化协议)的协议与Redis服务器通讯。

redis-cli pipe模式须要和nc命令同样快，而且解决了nc命令不知道什么时候命令结束的问题。

在发送数据的同时，它一样会去读取响应，尝试去解析。

一旦输入流中没有读取到更多的数据以后，它就会发送一个特殊的20比特的echo命令，标识最后一个命令已经发送完毕若是在响应结果中匹配到这个相同数据后，说明本次批量发送是成功的。

使用这个技巧，咱们不须要解析发送给服务器的协议来了解咱们发送了多少命令，只须要解析应答便可。

在解析应答时，redis会对解析的应答进行一个计数，在最后可以告诉用户大量插入会话向服务器传输的命令的数量。也就是上面咱们使用pipe模式实际操做的响应结果。

将输入数据源换成mysql

上面的例子中，咱们以一个txt文本为输入数据源，使用了pipe模式导入数据。

基于上述协议的学习和理解，咱们只须要将mysql中的数据按照既定的协议经过pipe模式导入Redis便可。

实际案例--从Mysql导入百万级数据到Redis

首先造数据

因为环境限制，因此这里没有用真实数据来实现导入，那么咱们就先使用一个存储过程来造一百万条数据把。使用存储过程以下：

DELIMITER $$
USE `cb_mon`$$

DROP PROCEDURE IF EXISTS `test_insert`$$
CREATE DEFINER=`root`@`%` PROCEDURE `test_insert`()
BEGIN
    
        DECLARE i INT DEFAULT 1;
        WHILE i<= 1000000
            DO
            INSERT INTO t_book(id,number,NAME,descrition)
            VALUES (i, CONCAT("00000",i) , CONCAT('book',i)
            , CONCAT('book_description',i));    
            SET i=i+1;
        END WHILE ;
        COMMIT;
    END$$

DELIMITER ;复制代码

调用存储过程：

CALL test_insert();复制代码

查看表数据：

按协议构造查询语句

按照上述redis协议，咱们使用以下sql来构造协议数据

SELECT
  CONCAT(
    "*4\r\n",
    "$",
    LENGTH(redis_cmd),
    "\r\n",
    redis_cmd,
    "\r\n",
    "$",
    LENGTH(redis_key),
    "\r\n",
    redis_key,
    "\r\n",
    "$",
    LENGTH(hkey),
    "\r\n",
    hkey,
    "\r\n",
    "$",
    LENGTH(hval),
    "\r\n",
    hval,
    "\r"
  )
FROM
  (SELECT
    "HSET" AS redis_cmd,
    id AS redis_key,
    NAME AS hkey,
    descrition AS hval
  FROM
    cb_mon.t_book
  ) AS t limit 1000000 复制代码

并将内容保存至redis.sql 文件中。

编写脚本使用pipe模式导入redis

编写shell脚本。因为我在主机上是经过docker安装的redis和mysql，如下脚本供参考：

#!/bin/bash
starttime=`date +'%Y-%m-%d %H:%M:%S'`

docker exec -i 899fe01d4dbc mysql --default-character-set=utf8   
--skip-column-names --raw < ./redis.sql
| docker exec -i 4c90ef506acd redis-cli --pipe

endtime=`date +'%Y-%m-%d %H:%M:%S'`
start_seconds=$(date --date="$starttime" +%s);
end_seconds=$(date --date="$endtime" +%s);

echo "脚本执行耗时： "$((end_seconds-start_seconds))"s"复制代码

执行截图：

能够看到百万级的数据导入redis，只花费了7秒，效率很是高。

注意事项

若是mysql表特别大，能够考虑分批导入，或者将表拆分，不然在导入过程当中可能会发生

lost connection to mysql server during query复制代码

因为maxallowedpacked和超时时间限制，查询数据的过程当中，可能会形成链接断开，因此在数据表的数据量特别大的时候，须要分页或者将表拆分导入。

总结

本篇文章主要探讨了，Mysql百万级数据量级下，如何高效的迁移到Redis中去，逐步实现目标的过程当中，总结了以下几点

redis单线程执行命令，避免了线程切换所消耗的时间，可是在超大数据量级下，其发送、响应接收的时延不可忽视。
网络nc命令的应用场景，及在数据导入时存在的缺点。
redis RESP协议的理解和应用。
百万量级Mysql数据的Redis快速导入案例。

hello,我是【侠梦的开发笔记】的号主，为了方便你们学习讨论，我建立了一个java疑难攻坚互助你们庭，和其余传统的学习交流不一样。本群主要致力于解决项目中的疑难问题，在遇到项目难以解决的问题时，均可以在这个你们庭里寻求帮助。公众号回复【问题的答案】进入：java中Integer包装类的基本数据类型是？若是你也经历过遇到项目难题，无从下手，他人有可能能够给你提供一些思路和见解，一百我的就有一百种思路，一样，若是你也乐于帮助别人，那解决别人遇到的问题，也一样对你是一种锻炼。