运维的苦，谁懂？一次“心惊肉跳”的迁库经历！

2018-05-09

运维的苦，谁懂？一次“心惊肉跳”的迁库经历！

IT 运维工程师一直是个“苦逼”的职业，“锄禾日当午，不如运维苦，对着破电脑，一调一下午”是对运维工作的一个形象的描述。下面看看本文作者一次惊心肉跳的数据库迁移经历。

事件起源

整个事件的起源还要从我最近入职了一家区块链金融公司说起，公司业务发展比较迅猛，突破百万用户也是近在眼前。

整个系统都在阿里云上运行，每天都能看到用户的不断增长，即兴奋又担忧，为什么这么说呢？

由于我过来的时候，公司业务就已经上线了，系统接过来之后，快速了解了所有的应用服务都是在 Docker Swarm 跑起来的，也包括 MySQL 数据库。

按照这种用户量发展下去，MySQL 在容器中运行用不了多久肯定会撑不住，以至于我就有了迁库的想法。

我开始隐隐的担忧起来，毕竟不想每天提心吊胆的做运维。所以立即重新规划了新的方案和大家一起探讨。

最终总监和相关技术负责人都敲定用 RDS 做为数据库新的方案，周星驰的功夫中也说到：“天下武功，唯快不破”，于是就开始干起来。

迁移计划

原架构图

如上图所示，分析一下原来的架构图：

从入口层（CDN）→到安全层（WAF）→最后到达应用层（ECS集群）。
Docker Swarm 打通了 ECS 集群中的每台服务器，在每台 ECS 宿主机安装 Docker engine 并部署了公司需要的应用服务和数据库（Nginx、PHP、Redis、MySQL等）。
MySQL 容器通过本文件挂载到容器中实现数据持久化。
业务项目以 PHP 为主，PHP 也是运行在容器中，通过 PHP 指定的配置文件连接到 MySQL 容器中。

随便展示一下其中一个库的 docker-compose yaml 文件：

version: "3" 
services: 
  ussbao: 
    # replace username/repo:tag with your name and image details 
    image: 隐藏此镜像信息 
    deploy: 
      replicas: 1 
      restart_policy: 
        condition: on-failure 
    environment: 
      MYSQL_ROOT_PASSWORD: 隐藏此信息 
    volumes: 
      - "/data//mysql/db1/:/var/lib/mysql/" 
      - "/etc/localtime:/etc/localtime" 
      - "/etc/timezone:/etc/timezone" 
networks: 
  default: 
    external: 
      name: 隐藏此信息

从上面的信息可以看出来，每个库只运行了一个 MySQL 容器，并没有主从或读写分离的方案。

而且也没有对数据库做任何优化，数据库这样跑下去让笔者很担忧，正常来说，都会把数据库独立部署运行。

调整后架构图

从上图可以看出来，笔者只是把 MySQL 独立出来了，开通 RDS 实例来跑数据库，当然还开通了其他的一些服务（比如 OSS、云 Redis 等），这些不是本文的重点，就没有画出来。

Nginx 和 PHP 服务还是在 Docker Swarm 中运行。本文只是对迁移后出了问题的库进行分享，下面来看看迁移的方案吧。

迁移流程方案

迁移流程的方案：开通 RDS 实例→备份 SQL→导入到 RDS→修改数据库配置文件→测试验证。

迁移步骤如下：

根据业务量规划开通 RDS 实例，创建数据库和用户
提前做好 RDS 白名单，添加允许访问 RDS 的 IP 地址
mysqldump 备份 Docker 中的 MySQL
把备份好的 .sql 文件导入到 RDS 中
修改 PHP 项目的数据库配置文件
清空 PHP 项目的缓存文件或目录
测试验证
RDS 定时备份

具体迁移细节就不展示了，我是在夜深人静的时候进行迁移操作的，确定大半夜没人访问我们的 App 和网站了才开干的。

我们的业务情况有点像股市，我们是晚上 12 点不许操作和交易，第 2 天早上 9 点开盘，9 点钟是并发的高峰期，就像朝阳大悦城上午开门一样，大批的顾客同时并发过来了。

所以那天晚上在 12 点 15 分准时开干，按计划和提前准备的配置、命令、脚本进行操作的。

把 Docker 中运行的 MySQL 迁移到 RDS 上非常顺利，好几个库的迁移不到半个小时就结束了，并且把网站和 App 的流程都跑了一遍，也都是妥妥的。

最终把提前准备好的备份脚本放在 crontab 中定时执行，可以看下脚本内容：

#!/bin/bash 
#数据库IP 
dbserver='*******' 
#数据库用户名 
dbuser='ganbing' 
#数据库密码 
dbpasswd='************' 
#备份数据库,多个库用空格隔开 
dbname='db1 db2 db3' 
#备份时间 
backtime=`date +%Y%m%d%H%M` 
out_time=`date +%Y%m%d%H%M%S` 
#备份输出路径 
backpath='/data/backup/mysql/' 
logpath=''/data/backup/logs/' 
 
echo "################## ${backtime} #############################"  
echo "开始备份"  
#日志记录头部 
echo "" >> ${logpath}/${dbname}_back.log 
echo "-------------------------------------------------" >> ${logpath}/${dbname}_back.log 
echo "备份时间为${backtime},备份数据库 ${dbname} 开始" >> ${logpath}/${dbname}_back.log 
 
#正式备份数据库 
for DB in $dbname; do 
  source=`/usr/bin/mysqldump  -h ${dbserver} -u ${dbuser} -p${dbpasswd} ${DB} > ${backpath}/${DB}-${out_time}.sql` 2>> ${backpath}/mysqlback.log; 
  #备份成功以下操作 
  if [ "$?" == 0 ];then 
    cd $backpath 
    #为节约硬盘空间，将数据库压缩 
    tar zcf ${DB}-${backtime}.tar.gz ${DB}-${backtime}.sql > /dev/null 
    #删除原始文件，只留压缩后文件 
    rm -f ${DB}-${backtime}.sql 
    #删除15天前备份，也就是只保存15天内的备份 
    find $backpath -name "*.tar.gz" -type f -mtime +15 -exec rm -rf {} \; > /dev/null 2>&1 
    echo "数据库 ${dbname} 备份成功!!" >> ${logpath}/${dbname}_back.log 
  else 
  #备份失败则进行以下操作 
  echo "数据库 ${dbname} 备份失败!!" >> ${logpath}/${dbname}_back.log 
  fi 
done 
 
echo "完成备份" 
echo "################## ${backtime} #############################"