超大文件上传到Azure Linux虚拟机最佳实践

客户在实际进行迁移的时候,每每碰到须要将本地数据中心的超大文件,好比单个200GB的文件,或者总共1TB的无数文件上传到Azure上的状况,尤为是传到Azure的Linux虚拟机的场景,这种场景包括:算法

  • 大日志文件上传到Azure进行分析shell

  • 数据库备份文件导入导出数据库

  • 大数据文件下载到本地等等api

尤为是要将数据库备份文件导入到Linux虚拟机进行数据库恢复,通常用户经常会选择传统的FTP方式进行处理,这样的方式一般会花费用户十几个小时,甚至几天的时间进行文件传输,可是在云计算的时代,其实有很是多的工具和方法可使用,让你大幅度下降时间和成本,今天咱们就以250GB数据库文件上传到Linux虚拟机为例,来看看怎么利用这些工具。服务器

基本流程:网络

  1. 在本地安装或者使用一个Windows机器,内核数目和内存可能的话最好大一些,由于azcopy会根据内核数计算并发线程数多线程

  2. 安装azcopy并发

  3. 在Azure上建立storage account,容器containerapp

  4. 利用azcopy上传本地文件到Blob storageide

  5. 在Linux虚拟机利用Azure CLI下载云端文件到本地Linux虚拟机

  6. 若是Azure上是Windows虚拟机,使用azcopy下载

     

限制和优化建议:

  1. 单个block blob的文件不能超过195GB,因此若是你的本地单个文件超过这个大小,你能够选择:

    1. 分割文件成小份

    2. 利用压缩软件压缩文件到较小大小

  2. 若是你本地的机器比较强大,而且单个文件的确比较大,建议你本地压缩,能够节约整体时间,你开始压缩的时候,大体能够知道这个压缩须要多长时间,

  3. 你的虚拟机和你的存储账号入伍特别须要,请放在一个区域,好比都在北京或者上海,一边最大限度的下降延迟,提高速度

  4. Azcopy会最大限度的利用你的数据中心的带宽,若是你但愿下降带宽占用,能够限制azcopy的并发处理数目,利用/NC来作限制,默认状况下,若是你是操做blob storage,azcopy的并发线程数是你处理器数目的8倍;对于Table的操做,默认的并发线程数是你的处理器数目。

  5. 上传下载速度和你的磁盘速度,网络带宽等都有关系,若是须要处理大规模文件,能够考虑临时调整你的数据中心带宽大小

 

在本示例中,基本环境以下:

  1. 备份文件未压缩前210GB,压缩后60GB

  2. 用户数据中心服务器,Windows Server 2012,16 cores,32GB

  3. Azure Linux虚拟机:A4, SUSE 11 SP3

基本配置步骤以下:

  1. 在用户数据中心Windows Server上下载并安装azcopy,请安装最新版本:

    http://aka.ms/downloadazcopy

  2. 在Azure上建立一个存储帐号,并取得存储帐号的主访问密钥:

3. 在该存储帐号下建立一个容器,名字为upload,你能够按照本身的须要命名:

 

4. 利用Azcopy,上传你本地的文件到Blob storage,注意要用到上个步骤建立到的存储帐号和帐号的key,假定当前的上传文件名为FULL0606.zip,放在你的E盘:

 

Azcopy.exe /Source:E:\ /Dest: https://myhousestorage.blob.core.chinacloudapi.cn/upload /DestKey:YOURSTORAGEKEY /Pattern:"FULL0606.zip"

参数说明:

/Souce:你的源文件地址,写目录,具体文件名写后面,如C:\data

/Dest:你的存储帐号的容器地址,能够在你的容器页面看到

/DestKey:存储账号的主访问密钥

更多关于azcopy的详细用法和命令,请参考:

https://azure.microsoft.com/en-us/documentation/articles/storage-use-azcopy/


5. 传统方式下,用户会使用FTP的模式,通过调优,大概速度是3.5MB/s,而使用了azcopy,因为它有多线程,网络优化等底层功能的支持,速度能够达到近11MB/s,用户数据中心带宽100M,这个速度是至关不错的:

6. 在将数据上传到Azure blob storage以后,须要在Linux虚拟机上将他下载到本地,在Windows上有Powershell,azcopy等工具,在Linux系统上,有Azure CLI做为跨平台的工具能够管理Azure的各项服务,关于如何在Linux上安装配置Azure CLI,请参考:

 

http://cloudapps.blog.51cto.com/3136598/1842181

 

7. 在Linux虚拟机上,直接使用Azure的CLI命令下载上传到Blob storage上的压缩文件便可,在同一个region,速度大约30MB,但实际速度依赖于网络情况和当前负载:

# azure storage blob download upload FULL0606.zip ./

 

若是须要把Linux虚拟机上的大文件下载到本地,能够考虑逆序使用上述方法,azcopy通过了网络优化,压缩优化和算法优化,是Azure上数据处理的神器:)

在以前客户的方案中,文件上传到Linux虚拟机大约须要17个小时,通过选择合适的方法,数据上传,下载大约总共2个小时的时间,因此根据不一样的场景选择不一样的工具和方法很重要。

相关文章
相关标签/搜索