NUMA的取舍与优化设置

时间 2019-11-10

标签 numa 取舍优化设置繁體版

原文原文链接

在os层numa关闭时,打开bios层的numa会影响性能，QPS会降低15-30%;html

在bios层面numa关闭时，不管os层面的numa是否打开，都不会影响性能。 node

      安装numactl:
      #yum install numactl -y
     #numastat      等同于 cat /sys/devices/system/node/node0/numastat ，在/sys/devices/system/node/文件夹中记录系统中的全部内存节点的相关详细信息。　     #numactl --hardware  列举系统上的NUMA节点mysql

#numactl --show 查看绑定信息linux

      Redhat或者Centos系统中能够经过命令判断bios层是否开启numa
      # grep -i numa /var/log/dmesg
      若是输出结果为： No NUMA configuration found
      说明numa为disable，若是不是上面内容说明numa为enable,例如显示：NUMA: Using 30 for the hash shift.
      能够经过lscpu命令查看机器的NUMA拓扑结构。ios

当发现numa_miss数值比较高时，说明须要对分配策略进行调整。例如将指定进程关联绑定到指定的CPU上，从而提升内存命中率。算法

---------------------------------------------sql

如今的机器上都是有多个CPU和多个内存块的。之前咱们都是将内存块当作是一大块内存，全部CPU到这个共享内存的访问消息是同样的。这就是以前广泛使用的SMP模型。可是随着处理器的增长，共享内存可能会致使内存访问冲突愈来愈厉害，且若是内存访问达到瓶颈的时候，性能就不能随之增长。NUMA（Non-Uniform Memory Access）就是这样的环境下引入的一个模型。好比一台机器是有2个处理器，有4个内存块。咱们将1个处理器和两个内存块合起来，称为一个NUMA node，这样这个机器就会有两个NUMA node。在物理分布上，NUMA node的处理器和内存块的物理距离更小，所以访问也更快。好比这台机器会分左右两个处理器（cpu1, cpu2），在每一个处理器两边放两个内存块(memory1.1, memory1.2, memory2.1,memory2.2)，这样NUMA node1的cpu1访问memory1.1和memory1.2就比访问memory2.1和memory2.2更快。因此使用NUMA的模式若是能尽可能保证本node内的CPU只访问本node内的内存块，那这样的效率就是最高的。mongodb

在运行程序的时候使用numactl -m和-physcpubind就能制定将这个程序运行在哪一个cpu和哪一个memory中。玩转cpu-topology 给了一个表格，当程序只使用一个node资源和使用多个node资源的比较表（差很少是38s与28s的差距）。因此限定程序在numa node中运行是有实际意义的。数据库

可是呢，话又说回来了，制定numa就必定好吗？--numa的陷阱。SWAP的罪与罚文章就说到了一个numa的陷阱的问题。现象是当你的服务器还有内存的时候，发现它已经在开始使用swap了，甚至已经致使机器出现停滞的现象。这个就有多是因为numa的限制，若是一个进程限制它只能使用本身的numa节点的内存，那么当自身numa node内存使用光以后，就不会去使用其余numa node的内存了，会开始使用swap，甚至更糟的状况，机器没有设置swap的时候，可能会直接死机！因此你可使用numactl --interleave=all来取消numa node的限制。缓存

综上所述得出的结论就是，根据具体业务决定NUMA的使用。

若是你的程序是会占用大规模内存的，你大多应该选择关闭numa node的限制（或从硬件关闭numa）。由于这个时候你的程序颇有概率会碰到numa陷阱。

另外，若是你的程序并不占用大内存，而是要求更快的程序运行时间。你大多应该选择限制只访问本numa node的方法来进行处理。

---------------------------------------------------------------------

内核参数overcommit_memory ：

它是内存分配策略

可选值：0、一、2。

0:表示内核将检查是否有足够的可用内存供应用进程使用；若是有足够的可用内存，内存申请容许；不然，内存申请失败，并把错误返回给应用进程。

1:表示内核容许分配全部的物理内存，而无论当前的内存状态如何。

2:表示内核容许分配超过全部物理内存和交换空间总和的内存

内核参数zone_reclaim_mode：

可选值0、1

a、当某个节点可用内存不足时：

一、若是为0的话，那么系统会倾向于从其余节点分配内存

二、若是为1的话，那么系统会倾向于从本地节点回收Cache内存多数时候

b、Cache对性能很重要，因此0是一个更好的选择

----------------------------------------------------------------------

mongodb的NUMA问题

mongodb日志显示以下:

WARNING: You are running on a NUMA machine.

We suggest launching mongod like this to avoid performance problems:

numactl –interleave=all mongod [other options]

解决方案，临时修改numa内存分配策略为 interleave=all （在全部node节点进行交织分配的策略）：

1.在原启动命令前面加numactl –interleave=all

如# numactl --interleave=all ${MONGODB_HOME}/bin/mongod --config conf/mongodb.conf

2.修改内核参数

echo 0 > /proc/sys/vm/zone_reclaim_mode ; echo "vm.zone_reclaim_mode = 0" >> /etc/sysctl.conf

----------------------------------------------------------------------

1、NUMA和SMP

NUMA和SMP是两种CPU相关的硬件架构。在SMP架构里面，全部的CPU争用一个总线来访问全部内存，优势是资源共享，而缺点是总线争用激烈。随着PC服务器上的CPU数量变多（不只仅是CPU核数），总线争用的弊端慢慢愈来愈明显，因而Intel在Nehalem CPU上推出了NUMA架构，而AMD也推出了基于相同架构的Opteron CPU。

NUMA最大的特色是引入了node和distance的概念。对于CPU和内存这两种最宝贵的硬件资源，NUMA用近乎严格的方式划分了所属的资源组（node），而每一个资源组内的CPU和内存是几乎相等。资源组的数量取决于物理CPU的个数（现有的PC server大多数有两个物理CPU，每一个CPU有4个核）；distance这个概念是用来定义各个node之间调用资源的开销，为资源调度优化算法提供数据支持。

2、NUMA相关的策略

一、每一个进程（或线程）都会从父进程继承NUMA策略，并分配有一个优先node。若是NUMA策略容许的话，进程能够调用其余node上的资源。

二、NUMA的CPU分配策略有cpunodebind、physcpubind。cpunodebind规定进程运行在某几个node之上，而physcpubind能够更加精细地规定运行在哪些核上。

三、NUMA的内存分配策略有localalloc、preferred、membind、interleave。

localalloc规定进程从当前node上请求分配内存；

而preferred比较宽松地指定了一个推荐的node来获取内存，若是被推荐的node上没有足够内存，进程能够尝试别的node。

membind能够指定若干个node，进程只能从这些指定的node上请求分配内存。

interleave规定进程从指定的若干个node上以RR（Round Robin 轮询调度）算法交织地请求分配内存。

由于NUMA默认的内存分配策略是优先在进程所在CPU的本地内存中分配，会致使CPU节点之间内存分配不均衡，当某个CPU节点的内存不足时，会致使swap产生，而不是从远程节点分配内存。这就是所谓的swap insanity 现象。

MySQL采用了线程模式，对于NUMA特性的支持并很差，若是单机只运行一个MySQL实例，咱们能够选择关闭NUMA，关闭的方法有三种：

1.硬件层，在BIOS中设置关闭

2.OS内核，启动时设置numa=off；

3.能够用numactl命令将内存分配策略修改成interleave（交叉)。

若是单机运行多个MySQL实例，咱们能够将MySQL绑定在不一样的CPU节点上，而且采用绑定的内存分配策略，强制在本节点内分配内存，这样既能够充分利用硬件的NUMA特性，又避免了单实例MySQL对多核CPU利用率不高的问题

3、NUMA和swap的关系

可能你们已经发现了，NUMA的内存分配策略对于进程（或线程）之间来讲，并非公平的。在现有的Redhat Linux中，localalloc是默认的NUMA内存分配策略，这个配置选项致使资源独占程序很容易将某个node的内存用尽。而当某个node的内存耗尽时，Linux又恰好将这个node分配给了某个须要消耗大量内存的进程（或线程），swap就妥妥地产生了。尽管此时还有不少page cache能够释放，甚至还有不少的free内存。

4、解决swap问题

虽然NUMA的原理相对复杂，实际上解决swap却很简单：只要在启动MySQL以前使用numactl –interleave来修改NUMA策略便可。

值得注意的是，numactl这个命令不只仅能够调整NUMA策略，也能够用来查看当前各个node的资源使用状况，是一个很值得研究的命令。

1、CPU　　首先从CPU提及。　　你仔细检查的话，有些服务器上会有的一个有趣的现象：你cat /proc/cpuinfo时，会发现CPU的频率居然跟它标称的频率不同：　　#cat /proc/cpuinfo　　processor : 5　　model name : Intel(R) Xeon(R) CPU E5-2620 0 @2.00GHz　　cpu MHz : 1200.000　　这个是Intel E5-2620的CPU，他是2.00G * 24的CPU，可是，咱们发现第5颗CPU的频率为1.2G。　　这是什么缘由呢?　　这些其实都源于CPU最新的技术：节能模式。操做系统和CPU硬件配合，系统不繁忙的时候，为了节约电能和下降温度，它会将CPU降频。这对环保人士和抵制地球变暖来讲是一个福音，可是对MySQL来讲，多是一个灾难。　　为了保证MySQL可以充分利用CPU的资源，建议设置CPU为最大性能模式。这个设置能够在BIOS和操做系统中设置，固然，在BIOS中设置该选项更好，更完全。因为各类BIOS类型的区别，设置为CPU为最大性能模式千差万别，咱们这里就不具体展现怎么设置了。　　而后咱们看看内存方面，咱们有哪些能够优化的。　　i) 咱们先看看numa　　非一致存储访问结构 (NUMA ： Non-Uniform Memory Access) 也是最新的内存管理技术。它和对称多处理器结构 (SMP ： Symmetric Multi-Processor) 是对应的。简单的队别以下：　　如图所示，详细的NUMA信息咱们这里不介绍了。可是咱们能够直观的看到：SMP访问内存的都是代价都是同样的;可是在NUMA架构下，本地内存的访问和非本地内存的访问代价是不同的。对应的根据这个特性，操做系统上，咱们能够设置进程的内存分配方式。目前支持的方式包括：　　--interleave=nodes　　--membind=nodes　　--cpunodebind=nodes　　--physcpubind=cpus　　--localalloc　　--preferred=node　　简而言之，就是说，你能够指定内存在本地分配，在某几个CPU节点分配或者轮询分配。除非是设置为--interleave=nodes轮询分配方式，即内存能够在任意NUMA节点上分配这种方式之外。其余的方式就算其余NUMA节点上还有内存剩余，Linux也不会把剩余的内存分配给这个进程，而是采用SWAP的方式来得到内存。有经验的系统管理员或者DBA都知道SWAP致使的数据库性能降低有多么坑爹。　　因此最简单的方法，仍是关闭掉这个特性。　　关闭特性的方法，分别有：能够从BIOS，操做系统，启动进程时临时关闭这个特性。　　a) 因为各类BIOS类型的区别，如何关闭NUMA千差万别，咱们这里就不具体展现怎么设置了。　　b) 在操做系统中关闭，能够直接在/etc/grub.conf的kernel行最后添加numa=off，以下所示：　　kernel /vmlinuz-2.6.32-220.el6.x86_64 ro root=/dev/mapper/VolGroup-root rd_NO_LUKS LANG=en_US.UTF-8 rd_LVM_LV=VolGroup/root rd_NO_MD quiet SYSFONT=latarcyrheb-sun16 rhgb crashkernel=auto rd_LVM_LV=VolGroup/swap rhgb crashkernel=auto quiet KEYBOARDTYPE=pc KEYTABLE=us rd_NO_DM numa=off　　另外能够设置 vm.zone_reclaim_mode=0尽可能回收内存。　　c) 启动MySQL的时候，关闭NUMA特性：　　numactl --interleave=all mysqld　　固然，最好的方式是在BIOS中关闭。　　ii) 咱们再看看vm.swappiness。　　vm.swappiness是操做系统控制物理内存交换出去的策略。它容许的值是一个百分比的值，最小为0，最大运行100，该值默认为60。vm.swappiness设置为0表示尽可能少swap，100表示尽可能将inactive的内存页交换出去。　　具体的说：当内存基本用满的时候，系统会根据这个参数来判断是把内存中不多用到的inactive 内存交换出去，仍是释放数据的cache。cache中缓存着从磁盘读出来的数据，根据程序的局部性原理，这些数据有可能在接下来又要被读取;inactive 内存顾名思义，就是那些被应用程序映射着，可是长时间不用的内存。　　咱们能够利用vmstat看到inactive的内存的数量：　　#vmstat -an 1　　procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----　　r b swpd free inact active si so bi bo in cs us sy id wa st　　1 0 0 27522384 326928 1704644 0 0 0 153 11 10 0 0 100 0 0　　0 0 0 27523300 326936 1704164 0 0 0 74 784 590 0 0 100 0 0　　0 0 0 27523656 326936 1704692 0 0 8 8 439 1686 0 0 100 0 0　　0 0 0 27524300 326916 1703412 0 0 4 52 198 262 0 0 100 0 0　　经过/proc/meminfo 你能够看到更详细的信息：　　#cat /proc/meminfo | grep -i inact　　Inactive: 326972 kB　　Inactive(anon): 248 kB　　Inactive(file): 326724 kB　　这里咱们对不活跃inactive内存进一步深刻讨论。 Linux中，内存可能处于三种状态：free，active和inactive。众所周知，Linux Kernel在内部维护了不少LRU列表用来管理内存，好比LRU_INACTIVE_ANON, LRU_ACTIVE_ANON, LRU_INACTIVE_FILE , LRU_ACTIVE_FILE, LRU_UNEVICTABLE。其中LRU_INACTIVE_ANON, LRU_ACTIVE_ANON用来管理匿名页，LRU_INACTIVE_FILE , LRU_ACTIVE_FILE用来管理page caches页缓存。系统内核会根据内存页的访问状况，不定时的将活跃active内存被移到inactive列表中，这些inactive的内存能够被交换到swap中去。　　通常来讲，MySQL，特别是InnoDB管理内存缓存，它占用的内存比较多，不常常访问的内存也会很多，这些内存若是被Linux错误的交换出去了，将浪费不少CPU和IO资源。 InnoDB本身管理缓存，cache的文件数据来讲占用了内存，对InnoDB几乎没有任何好处。　　因此，咱们在MySQL的服务器上最好设置vm.swappiness=1或0