若是你是一位运维工程师,你极可能会面对几十台、几百台甚至上千台服务器,除了批量操做外,环境同步、数据同步也是必不可少的技能。算法
说到“同步”,不得不提的利器就是rsync,今天就来讲说我从这个工具中看到的同步的艺术。服务器
[不带任何选项]网络
咱们常常这样使用rsync:运维
$ rsync main.c machineB:/home/userB
1 只要目的端的文件内容和源端不同,就会触发数据同步,rsync会确保两边的文件内容同样。
2 但rsync不会同步文件的“modify time”,凡有数据同步的文件,目的端的文件的“modify time”老是会被修改成最新时刻的时间。
3 rsync不会太关注目的端文件的rwx权限,若是目的端没有此文件,那么权限会保持与源端一致;若是目的端有此文件,则权限不会随着源端变动。
4 只要rsync有对源文件的读权限,且对目标路径有写权限,rsync就能确保目的端文件同步到和源端一致。
5 rsync只能以登录目的端的帐号来建立文件,它没有能力保持目的端文件的输主和属组和源端一致。(除非你使用root权限,才有资格要求属主一致、属组一致)ssh
[-t选项]ide
咱们常常这样使用-t选项:工具
$ rsync -t main.c machineB:/home/userB
1 使用-t选项后,rsync总会想着一件事,那就是将源文件的“modify time”同步到目标机器。ui
2 带有-t选项的rsync,会变得更聪明些,它会在同步前先对比两边文件的时间戳和文件大小,若是一致,则就认为两边文件同样,对此文件就再也不采起更新动做了。
3 由于rsync的聪明,也会反被聪明误。若是目的端的文件的时间戳、大小和源端彻底一致,可是内容恰巧不一致时,rsync是发现不了的。这就是传说中的“坑”!
4 对于rsync自做聪明的状况,解决办法就是使用-I选项。idea
[-I选项]spa
咱们常常这样使用-I选项:
$ rsync -I main.c machineB:/home/userB
1 -I选项会让rsync变得很乖很老实,它会挨个文件去发起数据同步。
2 -I选项能够确保数据的一致性,代价即是速度上会变慢,由于咱们放弃了“quick check”策略。(quick check策略,就是先查看文件的时间戳和文件大小,依次先排除一批认为相同的文件)
3 不管状况如何,目的端的文件的modify time总会被更新到当前时刻。
【-v选项】
这个选项,简单易懂,就是让rsync输出更多的信息,咱们能够举一个例子:
$ rsync -vI main.c machineB:/home/userB main.c sent 81 bytes received 42 bytes 246.00 bytes/sec total size is 11 speedup is 0.09
你增长越多的v,就能够得到越多的日志信息。
$ rsync -vvvvt abc.c machineB:/home/userB cmd= machine=machineB user= path=/home/userB cmd[0]=ssh cmd[1]=machineB cmd[2]=rsync cmd[3]=--server cmd[4]=-vvvvte. cmd[5]=. cmd[6]=/home/userB opening connection using: ssh machineB rsync --server -vvvvte. . /home/userB note: iconv_open("ANSI_X3.4-1968", "ANSI_X3.4-1968") succeeded. (Client) Protocol versions: remote=28, negotiated=28 (Server) Protocol versions: remote=30, negotiated=28 [sender] make_file(abc.c,*,2) [sender] flist start=0, used=1, low=0, high=0 [sender] i=0 abc.c mode=0100664 len=11 flags=0 send_file_list done file list sent send_files starting server_recv(2) starting pid=31885 recv_file_name(abc.c) received 1 names [receiver] i=0 abc.c mode=0100664 len=11 recv_file_list done get_local_name count=1 /home/userB recv_files(1) starting generator starting pid=31885 count=1 delta transmission enabled recv_generator(abc.c,0) abc.c is uptodate generate_files phase=1 send_files phase=1 recv_files phase=1 generate_files phase=2 send files finished total: matches=0 hash_hits=0 false_alarms=0 data=0 generate_files finished recv_files finished client_run waiting on 14318 sent 36 bytes received 16 bytes 104.00 bytes/sec total size is 11 speedup is 0.21 _exit_cleanup(code=0, file=main.c, line=1031): entered _exit_cleanup(code=0, file=main.c, line=1031): about to call exit(0)
[-z选项]
这是个压缩选项,只要使用了这个选项,rsync就会把发向对端的数据先进行压缩再传输。对于网络环境较差的状况下建议使用。
通常状况下,-z的压缩算法会和gzip的同样。
[-r选项]
咱们在第一次使用rsync时,每每会遇到这样的囧境:
$ rsync superman machineB:/home/userB skipping directory superman
若是你不额外告诉rsync你须要它帮你同步文件夹的话,它是不会主动承担的,这也正是rsync的懒惰之处。
因此,若是你真的想同步文件夹,那就要加上-r选项,即recursive(递归的、循环的),像这样:
$ rsync -r superman machineB:/home/userB
咱们在上面的讲解中说过,若是时间戳和文件大小彻底一致,只有文件内容不一样,且你没有使用-I选项的话,那么,rsync是不会进行数据同步的。
那么,提个问题:“由于在Linux的世界里,文件夹也是文件,若是这类文件(文件夹)也只有内容不一样,而时间戳和文件大小都相同,rsync会发现么?”
实验你们能够本身动手作,结论在这里告诉你们:
对于文件夹,rsync是会明察秋毫的,只要你加了-r选项,它就会恪尽职守的进入到文件夹里去检查,而不会只对文件夹自己作“quick check”的。
[-l选项]
若是咱们要同步一个软连接文件,你猜rsync会提示什么?
$ ll total 128 -rw-rw-r-- 1 userA userA 11 Dec 26 07:00 abc.c lrwxrwxrwx 1 userA userA 5 Dec 26 11:35 softlink -> abc.c $ rsync softlink machineB:/home/userB skipping non-regular file "softlink"
嗯,你猜对了,rsync又无情地拒绝了咱们。它一旦发现某个文件是软连接,就会无视它,除非咱们增长-l选项。
$ rsync -l softlink machineB:/home/userB
使用了-l选项后,rsync会彻底保持软连接文件类型,原本来本的将软连接文件复制到目的端,而不会“follow link”到指向的实体文件。
若是我恰恰就想让rsync采起follow link的方式,那就用-L选项就能够了。你能够本身试试效果。
[-p选项]
这个选项的全名是“perserve permissions”,顾名思义,就是保持权限。
若是你不使用此选项的话,rsync是这样来处理权限问题的:
1 若是目的端没有此文件,那么在同步后会将目的端文件的权限保持与源端一致;
2 若是目的端已存在此文件,那么只会同步文件内容,权限保持原有不变。
若是你使用了-p选项,则不管如何,rsync都会让目的端保持与源端的权限一致的。
[-g选项和-o选项]
这两个选项是一对,用来保持文件的属组(group)和属主(owner),做用应该很清晰明了。不过要注意的一点是,改变属主和属组,每每只有管理员权限才能够。
[-D选项]
-D选项,原文解释是“preserve devices(root only)”,从字面意思看,就是保持设备文件的原始信息。因为博主没有实际体验过它的好处,因此没有太多发言权。
[-a选项]
1 -a选项是rsync里比较霸道的一个选项,由于你使用-a选项,就至关于使用了-rlptgoD这一坨选项。以一敌七,惟-a选项也。(在看了前文以后,你应该能够很轻松的理解这七个选项的做用了)
2 -a选项的学名应该叫作archive option,中文叫作归档选项。使用-a选项,就代表你但愿采起递归方式来同步,且尽量的保持各个方面的一致性。
3 可是-a选项也有阿克琉斯之踵,那就是-a没法同步“硬连接”状况。若是有这方面需求,要加上-H选项。
[--delete选项、--delete-excluded选项和--delete-after选项]
三个选项都是和“删除”有关的:
1 –delete:若是源端没有此文件,那么目的端也别想拥有,删除之。(若是你使用这个选项,就必须搭配-r选项一块儿)
2 –delete-excluded:专门指定一些要在目的端删除的文件。
3 –delete-after:默认状况下,rsync是先清理目的端的文件再开始数据同步;若是使用此选项,则rsync会先进行数据同步,都完成后再删除那些须要清理的文件。
看到这么多delete,你是否有点肝颤? 的确,在rsync的官方说明里也有这么一句话:
This option can be dangerous if used incorrectly! It is a very good idea to run first using the dry run option (-n) to see what files would be deleted to make sure important files aren't listed.
从这句话里,咱们学到了一个小技巧,那就是-n选项,它是一个吓唬人的选项,它会用受影响的文件列表来警告你,但不会真的去删除,这就让咱们有了确认的机会和回旋的余地。咱们看看实际用法吧:
$ rsync -n --delete -r . machineB:/home/userB/ deleting superman/xxx deleting main.c deleting acclink
[--exclude选项和--exclude-from选项]
若是你不但愿同步一些东西到目的端的话,可使用–exclude选项来隐藏,rsync仍是很重视你们隐私的,你能够屡次使用–exclude选项来设置不少的“隐私”。
若是你要隐藏的隐私太多的话,在命令行选项中设置会比较麻烦,rsync仍是很体贴,它提供了–exclude-from选项,让你能够把隐私一一列在一个文件里,而后让rsync直接读取这个文件就行了。
[--partial选项]
这就是传说中的断点续传功能。默认状况下,rsync会删除那些传输中断的文件,而后从新传输。但在一些特别状况下,咱们不但愿重传,而是续传。
咱们在使用中,常常会看到有人会使用-P选项,这个选项实际上是为了偷懒而设计的。之前人们老是要手动写–partial –progress,以为太费劲了,倒不如用一个新的选项来代替,因而-P应运而生了。有些读者会问–partial我知道做用了,可–progress是干什么用的呢?为何不少人要使用它呢,它有那么大的吸引力?(真有…)
[--progress选项]
使用这个选项,rsync会显示出传输进度信息,有什么用呢,rsync给了一个颇有意思的解释:
This gives a bored user something to watch.
好了,写了这么多,你们看的已经很乏味了,去实际用用–progress解解闷,是个不错的选择 ^_^