Linux虚拟内存(swap)调优篇-“swappiness”,“vm.dirty_background_ratio”和“vm.dirty_ratio”html
做者:尹正杰linux
版权声明:原创做品,谢绝转载!不然将追究法律责任。api
个人kafka集群在上线一段时间后,发现内存使用达到峰值时系统开始使用swap。在swap的过程当中系统性能会有所降低,表现为较大的服务延迟。对这种状况,能够经过调节swappiness内核参数下降系统对swap的使用,从而避免没必要要的swap对性能形成的影响。接下来,咱们就一块儿学习一下如何调优该参数吧!缓存
一.建立交换分区app
1>.什么是虚拟内存异步
若是物理内存不够用时,能够将那些最近不多使用的页面数据(Page)置换出去,即切换到硬盘上,可是要注意的是内存文件的格式和硬盘中文件的格式是不同的,因此这个分区必须格式化成跟内存兼容的模式不能转换成文件的格式。以便把内存的page直接存入这个分区,方便内存直接调用。而这个页面(page)数据对于32位的操做系统一个page大概是4K左右,对于64位操做系统这个page大小是可变的,4k-2M的大小都是比较常见的。事实上到底能使用多大的页面(page)取决于CPU而不取决于内存哟!这就是虚拟内存的概念。在linux上咱们称之为交换分区。记住,虚拟内存必须是一个单独的分区。ide
2>.虚拟内存能代替物理内存运行程序吗?性能
答案是否认的,只是使用虚拟内存暂时保存数据,而不是代替物理内存运行程序。 学习
3>.虚拟内存的做用优化
当运行某个大程序、大游戏,须要的内存超过空闲内存但小于物理内存总量时,会暂时把内存里这些数据放到磁盘上的虚拟内存里,空出物理内存运行游戏。等退出游戏后,又会把虚拟内存里的东西读出来,放回物理内存。因此,虚拟内存,并非用来虚拟物理内存的,而是暂存数据的。若是对内存的需求大于物理内存总量,那虚拟内存设多大都无论用。电脑内存过低,根本的方法仍是增长物理内存,才能流畅。虚拟内存机制上就无论用,即便管用,比物理内存低100倍的速度,也管不上什么实际的做用。因此,虚拟内存大了是没用的,反而白占用磁盘空间。
4>.交换分区经常使用的参数介绍
交换分区: mkswap 格式化为虚拟内存 -L label 指定卷标 swapon 启动虚拟内存 -a 启动全部的虚拟分区 -p:指定优先级 swapoff 关闭虚拟内存 更多参数请参考man mkswap
5>.案例实操-建立交换分区的步骤
[root@yinzhengjie ~]# fdisk /dev/sdb #对第二块硬盘进行分区调整 WARNING: DOS-compatible mode is deprecated. It's strongly recommended to switch off the mode (command 'c') and change display units to sectors (command 'u'). Command (m for help): p #查看当前分区状况 Disk /dev/sdb: 10.7 GB, 10737418240 bytes 255 heads, 63 sectors/track, 1305 cylinders Units = cylinders of 16065 * 512 = 8225280 bytes Sector size (logical/physical): 512 bytes / 512 bytes I/O size (minimum/optimal): 512 bytes / 512 bytes Disk identifier: 0x8614a108 Device Boot Start End Blocks Id System /dev/sdb1 1 132 1060258+ 83 Linux /dev/sdb2 133 264 1060290 83 Linux /dev/sdb3 265 526 2104515 83 Linux /dev/sdb4 527 1305 6257317+ 5 Extended /dev/sdb5 527 919 3156741 83 Linux /dev/sdb6 920 1181 2104483+ 83 Linux #我想讲第6个分区弄成交换分区。 Command (m for help): t #调整分区ID Partition number (1-6): 6 #选择分区编号为6 Hex code (type L to list codes): L #查看分区类型所对应的ID号,咱们发现“82”就是交换分区的编号 0 Empty 24 NEC DOS 81 Minix / old Lin bf Solaris 1 FAT12 39 Plan 9 82 Linux swap / So c1 DRDOS/sec (FAT- 2 XENIX root 3c PartitionMagic 83 Linux c4 DRDOS/sec (FAT- 3 XENIX usr 40 Venix 80286 84 OS/2 hidden C: c6 DRDOS/sec (FAT- 4 FAT16 <32M 41 PPC PReP Boot 85 Linux extended c7 Syrinx 5 Extended 42 SFS 86 NTFS volume set da Non-FS data 6 FAT16 4d QNX4.x 87 NTFS volume set db CP/M / CTOS / . 7 HPFS/NTFS 4e QNX4.x 2nd part 88 Linux plaintext de Dell Utility 8 AIX 4f QNX4.x 3rd part 8e Linux LVM df BootIt 9 AIX bootable 50 OnTrack DM 93 Amoeba e1 DOS access a OS/2 Boot Manag 51 OnTrack DM6 Aux 94 Amoeba BBT e3 DOS R/O b W95 FAT32 52 CP/M 9f BSD/OS e4 SpeedStor c W95 FAT32 (LBA) 53 OnTrack DM6 Aux a0 IBM Thinkpad hi eb BeOS fs e W95 FAT16 (LBA) 54 OnTrackDM6 a5 FreeBSD ee GPT f W95 Ext'd (LBA) 55 EZ-Drive a6 OpenBSD ef EFI (FAT-12/16/ 10 OPUS 56 Golden Bow a7 NeXTSTEP f0 Linux/PA-RISC b 11 Hidden FAT12 5c Priam Edisk a8 Darwin UFS f1 SpeedStor 12 Compaq diagnost 61 SpeedStor a9 NetBSD f4 SpeedStor 14 Hidden FAT16 <3 63 GNU HURD or Sys ab Darwin boot f2 DOS secondary 16 Hidden FAT16 64 Novell Netware af HFS / HFS+ fb VMware VMFS 17 Hidden HPFS/NTF 65 Novell Netware b7 BSDI fs fc VMware VMKCORE 18 AST SmartSleep 70 DiskSecure Mult b8 BSDI swap fd Linux raid auto 1b Hidden W95 FAT3 75 PC/IX bb Boot Wizard hid fe LANstep 1c Hidden W95 FAT3 80 Old Minix be Solaris boot ff BBT 1e Hidden W95 FAT1 Hex code (type L to list codes): 82 #设置该分区的标号 Changed system type of partition 6 to 82 (Linux swap / Solaris) Command (m for help): P #查看当前分区状况 Disk /dev/sdb: 10.7 GB, 10737418240 bytes 255 heads, 63 sectors/track, 1305 cylinders Units = cylinders of 16065 * 512 = 8225280 bytes Sector size (logical/physical): 512 bytes / 512 bytes I/O size (minimum/optimal): 512 bytes / 512 bytes Disk identifier: 0x8614a108 Device Boot Start End Blocks Id System /dev/sdb1 1 132 1060258+ 83 Linux /dev/sdb2 133 264 1060290 83 Linux /dev/sdb3 265 526 2104515 83 Linux /dev/sdb4 527 1305 6257317+ 5 Extended /dev/sdb5 527 919 3156741 83 Linux /dev/sdb6 920 1181 2104483+ 82 Linux swap / Solaris Command (m for help): W #保存并退出 The partition table has been altered! Calling ioctl() to re-read partition table. Syncing disks. [root@yinzhengjie ~]# [root@yinzhengjie ~]# fdisk -l /dev/sdb #查看分区信息 Disk /dev/sdb: 10.7 GB, 10737418240 bytes 255 heads, 63 sectors/track, 1305 cylinders Units = cylinders of 16065 * 512 = 8225280 bytes Sector size (logical/physical): 512 bytes / 512 bytes I/O size (minimum/optimal): 512 bytes / 512 bytes Disk identifier: 0x8614a108 Device Boot Start End Blocks Id System /dev/sdb1 1 132 1060258+ 83 Linux /dev/sdb2 133 264 1060290 83 Linux /dev/sdb3 265 526 2104515 83 Linux /dev/sdb4 527 1305 6257317+ 5 Extended /dev/sdb5 527 919 3156741 83 Linux /dev/sdb6 920 1181 2104483+ 82 Linux swap / Solaris [root@yinzhengjie ~]#
[root@yinzhengjie ~]# kpartx -af /dev/sdb [root@yinzhengjie ~]# partx -a /dev/sdb #重读分区表信息,其实也能够不用敲击这些命令的若是你是一块新硬盘的话。 BLKPG: Device or resource busy error adding partition 1 BLKPG: Device or resource busy error adding partition 2 BLKPG: Device or resource busy error adding partition 3 BLKPG: Device or resource busy error adding partition 4 BLKPG: Device or resource busy error adding partition 5 BLKPG: Device or resource busy error adding partition 6 [root@yinzhengjie ~]#
[root@yinzhengjie ~]# mkswap /dev/sdb6 #将分区格式化成swap格式 Setting up swapspace version 1, size = 2104476 KiB no label, UUID=41687bb2-c775-489c-9b32-1e4be73c233b #看见没有,这里是“no label”,是由于我没有定义卷标名。 [root@yinzhengjie ~]# [root@yinzhengjie ~]# mkswap -L myswap /dev/sdb6 #用-L参数定义一个卷标名。 Setting up swapspace version 1, size = 2104476 KiB LABEL=myswap, UUID=0553b99a-ee75-4476-8eda-70c591206467 #看见没,“LABEL=myswap”这就是我定义的卷标名称。 [root@yinzhengjie ~]#
[root@yinzhengjie ~]# cat /proc/meminfo | grep "^S" #查看当前交换分区大小 SwapCached: 0 kB SwapTotal: 2031612 kB #目前交换分区大小为2G SwapFree: 2031612 kB #表示空闲交换分区大小 Shmem: 1444 kB Slab: 75020 kB SReclaimable: 15620 kB SUnreclaim: 59400 kB [root@yinzhengjie ~]# [root@yinzhengjie ~]# swapon /dev/sdb6 #启用咱们已经格式化好的交换分区“/dev/sdb” [root@yinzhengjie ~]# cat /proc/meminfo | grep "^S" #再次查看当前交换分区大小 SwapCached: 0 kB SwapTotal: 4136088 kB #咱们发现交换分区大小变大了2G SwapFree: 4136088 kB Shmem: 1444 kB Slab: 75148 kB SReclaimable: 15656 kB SUnreclaim: 59492 kB [root@yinzhengjie ~]# [root@yinzhengjie ~]# swapoff /dev/sdb6 #关闭交换分区“/dev/sdb” [root@yinzhengjie ~]# [root@yinzhengjie ~]# cat /proc/meminfo | grep "^S" #验证是否关闭成功 SwapCached: 0 kB SwapTotal: 2031612 kB #发现的确是少了2G的空间 SwapFree: 2031612 kB Shmem: 1444 kB Slab: 75068 kB SReclaimable: 15636 kB SUnreclaim: 59432 kB [root@yinzhengjie ~]#
6>.Linux清除swap方法
想要了解更多关于文件系统的知识,详情请参考:https://www.cnblogs.com/yinzhengjie/p/6840563.html 。
二.swappiness参数在内存与交换分区之间优化做用
swappiness的值的大小对如何使用swap分区是有着很大的联系的。先前,人们建议把vm.swapiness设置为0,它意味着“除非发生内存益处,不然不要进行内存交换”。直到Linux内核3.5-rcl版本发布,这个值的意义才发生了变化。这个变化被一直到其余的发行版本上,包括RedHat企业版内核2.6.32-303。在发生变化以后,0意味着“在任何状况下都不要发生交换”。因此如今建议把这个值设置为1。swappiness=100的时候表示积极的使用swap分区,而且把内存上的数据及时的搬运到swap空间里面。
1>.linux的swappiness参数的默认设置为60([root@yinzhengjie ~]# cat /proc/sys/vm/swappiness)
也就是说,你的内存在使用到100-60=40%的时候,就开始出现有交换分区的使用。你们知道,内存的速度会比磁盘快不少,这样子会加大系统io,同时造的成大量页的换进换出,严重影响系统的性能,因此咱们在操做系统层面,要尽量使用内存,对该参数进行调整。
2>.临时调整swappiness的方法([root@yinzhengjie ~]# sysctl vm.swappiness=1)
3>.永久调整swappiness的方法([root@yinzhengjie ~]# echo "vm.swappiness=1" >> /etc/sysctl.conf)
在linux中,能够经过修改swappiness内核参数,下降系统对swap的使用,从而提升系统的性能。简单地说这个参数定义了系统对swap的使用倾向,默认值为60,值越大表示越倾向于使用swap。不推荐设为0,由于这样作会对3.5以上的kernel禁止对swap的使用,我推荐打击设置一个较小对值,好比1,它只是最大限度地下降了使用swap的可能性。
4>.查看swappiness参数的当前设置
三.使用vm.dirty_ratio和vm.dirty_background_ratio更好的Linux磁盘缓存和性能
1>.脏页对概念
脏页是linux内核中的概念,由于硬盘的读写速度远赶不上内存的速度,系统就把读写比较频繁的数据事先放到内存中,以提升读写速度,这就叫高速缓存,linux是以页做为高速缓存的单位,当进程修改了高速缓存里的数据时,该页就被内核标记为脏页,内核将会在合适的时间把脏页的数据写到磁盘中去,以保持高速缓存中的数据和磁盘中的数据是一致的。
2>.相关参数解释
[root@yinzhengjie ~]# sysctl -a | grep dirty vm.dirty_background_bytes = 0 vm.dirty_background_ratio = 10 vm.dirty_bytes = 0 vm.dirty_expire_centisecs = 3000 vm.dirty_ratio = 30 vm.dirty_writeback_centisecs = 500 [root@yinzhengjie ~]# vm.dirty_background_ratio : 是内存能够填充“脏数据”的百分比。这些“脏数据”在稍后是会写入磁盘的,pdflush/flush/kdmflush这些后台进程会稍后清理脏数据。举一个例子,我有32G内存,那么有3.2G的内存能够待着内存里,超过3.2G的话就会有后来进程来清理它。 vm.dirty_ratio: 是绝对的脏数据限制,内存里的脏数据百分比不能超过这个值。若是脏数据超过这个数量,新的IO请求将会被阻挡,直到脏数据被写进磁盘。这是形成IO卡顿的重要缘由,但这也是保证内存中不会存在过量脏数据的保护机制。 vm.dirty_background_bytes和vm.dirty_bytes是 指定这些参数的另外一种方法。若是设置_bytes版本,则_ratio版本将变为0,反之亦然。 vm.dirty_expire_centisecs : 指定脏数据能存活的时间。在这里它的值是30秒。当 pdflush/flush/kdmflush 进行起来时,它会检查是否有数据超过这个时限,若是有则会把它异步地写到磁盘中。毕竟数据在内存里待过久也会有丢失风险。 vm.dirty_writeback_centisecs: 指定多长时间 pdflush/flush/kdmflush 这些进程会起来一次。
以上说明饮用自:https://blog.csdn.net/csCrazybing/article/details/78127308
3>.调整内核对脏页对处理方式可让咱们从中获益
脏页会被冲刷到磁盘上,调整内核对脏页的处理方式可让咱们从中获益。Kafka依赖I/O性能为生产者提供了快速的响应。这就是为何日志片断通常要保存在快速磁盘上,不论是单个快速磁盘(如SSD)仍是具备NVRAM缓存的磁盘子系统(如RAID)。这样一来,在后台刷新进程将脏页写入磁盘以前,能够减小脏页的数量,这个能够经过vm.dirty_backgroud_ratio设置为小于10的值来实现。改值指的是系统内存的百分比,大部分状况下设置为5就能够来。它不该该被设置为0,由于那样会促使内核频繁地刷新页面,从而下降内核为底层设备的磁盘写入提供缓冲的能力。
经过设置vm.dirty_ratio参数能够增长被内核进程刷新到磁盘以前的脏页数量,能够将它设置为大于20的值(这也是系统内存的百分比),这个值可设置的范围很广,60~80是个比较合理的区间。不过调整这个参数会带来一些风险,包括未刷新磁盘操做的数量和同步刷新引发的长时间I/O等待。若是篡改参数设置了较高的值,建议启用Kafka的复制功能,避免因系统崩溃形成数据丢失。
为了给这些参数设置合适的值,最好是在Kafka集群运行期间检查脏页的数量,不论是在生产环境仍是在模拟环境。能够在“/proc/vmstat”文件里查看当前脏页的数量。
4>. 减小Cache(虚拟机的典型应用)
你能够针对要作的事情,来制定一个合适的值。 在一些状况下,咱们有快速的磁盘子系统,它们有自带的带备用电池的NVRAM caches,这时候把数据放在操做系统层面就显得相对高风险了。因此咱们但愿系统更及时地往磁盘写数据。 能够在/etc/sysctl.conf中加入下面两行,并执行"sysctl -p" vm.dirty_background_ratio = 5 vm.dirty_ratio = 10
这是虚拟机的典型应用。不建议将它设置成0,毕竟有点后台IO能够提高一些程序的性能。
5>.增长Cache(适合数据并非很重要的场景,要求读写的效率想到高的场景)
在一些场景中增长Cache是有好处的。例如,数据不重要丢了也不要紧,并且有程序重复地读写一个文件。容许更多的cache,你能够更多地在内存上进行读写,提升速度。 vm.dirty_background_ratio = 50 vm.dirty_ratio = 80
有时候还会提升vm.dirty_expire_centisecs 这个参数的值,来容许脏数据更长时间地停留。
6>.增减兼有(若是你部署kafka集群的话,我推荐使用这个方案,在《Kafka 权威指南》一书中,也有相关的记载哟!)
有时候系统须要应对突如其来的高峰数据,它可能会拖慢磁盘。(好比说,每一个小时开始时进行的批量操做等) 这个时候须要允许更多的脏数据存到内存,让后台进程慢慢地经过异步方式将数据写到磁盘当中。 vm.dirty_background_ratio = 5 vm.dirty_ratio = 80
这个时候,后台进行在脏数据达到5%时就开始异步清理,但在80%以前系统不会强制同步写磁盘。这样可使IO变得更加平滑。
7>.案例实操-调整内核对脏页的处理方式
[root@yinzhengjie ~]# sysctl -a | grep vm.dirty sysctl: reading key "net.ipv6.conf.all.stable_secret" sysctl: reading key "net.ipv6.conf.default.stable_secret" sysctl: reading key "net.ipv6.conf.ens160.stable_secret" sysctl: reading key "net.ipv6.conf.lo.stable_secret" vm.dirty_background_bytes = 0 vm.dirty_background_ratio = 10 vm.dirty_bytes = 0 vm.dirty_expire_centisecs = 3000 vm.dirty_ratio = 30 vm.dirty_writeback_centisecs = 500 [root@yinzhengjie ~]# [root@yinzhengjie ~]# cat /etc/sysctl.conf | grep -v ^# vm.swappiness=1 [root@yinzhengjie ~]# [root@yinzhengjie ~]# echo "vm.dirty_background_ratio=5" >> /etc/sysctl.conf [root@yinzhengjie ~]# [root@yinzhengjie ~]# echo "vm.dirty_ratio=80" >> /etc/sysctl.conf [root@yinzhengjie ~]# [root@yinzhengjie ~]# cat /etc/sysctl.conf | grep -v ^# vm.swappiness=1 vm.dirty_background_ratio=5 vm.dirty_ratio=80 [root@yinzhengjie ~]# [root@yinzhengjie ~]# sysctl -p vm.swappiness = 1 vm.dirty_background_ratio = 5 vm.dirty_ratio = 80 [root@yinzhengjie ~]# [root@yinzhengjie ~]# [root@yinzhengjie ~]# sysctl -a | grep vm.dirty sysctl: reading key "net.ipv6.conf.all.stable_secret" sysctl: reading key "net.ipv6.conf.default.stable_secret" sysctl: reading key "net.ipv6.conf.ens160.stable_secret" sysctl: reading key "net.ipv6.conf.lo.stable_secret" vm.dirty_background_bytes = 0 vm.dirty_background_ratio = 5 vm.dirty_bytes = 0 vm.dirty_expire_centisecs = 3000 vm.dirty_ratio = 80 vm.dirty_writeback_centisecs = 500 [root@yinzhengjie ~]# [root@yinzhengjie ~]# sysctl -q vm.dirty_background_ratio vm.dirty_background_ratio = 5 [root@yinzhengjie ~]# [root@yinzhengjie ~]# sysctl -q vm.dirty_ratio vm.dirty_ratio = 80 [root@yinzhengjie ~]# [root@yinzhengjie ~]#