运维技术干货 — 不只是 Linux 运维最佳实践

咱们面对的是一个不断变化的世界,业务需求在变,技术架构在变,开源工具与商业系统异构部署,新工具和技术概念层出不穷,惟有一套科学的技术方法论才能应对这些变化。不少时候,咱们在面对新的问题时,会束手无措。所以,在 OSC 第 132 期高手问答中,咱们策划了“Linux 运维最佳实践”的主题,并邀请了@xufengnju(胥峰)做为高手嘉宾。html

@xufengnju(胥峰),资深运维专家,有 10 年运维经验,在业界颇具威望和影响力。也是盛大游戏高级研究员,2006 年毕业于南京大学,2011 年加入盛大游戏,工做至今,曾参与盛大游戏多款大型端游和手游的上线运维,主导运维自动化平台的功能设计和实施。拥有工信部认证高级信息系统项目管理师资格。前端

自动化运维在近几年一直都是很火热的话题,技术也一直在进步,所以对于技术人员来讲,最重要的思惟上、思想上的适应与转变。毕竟技术不是运维的终极追求,思想才是运维人员应该毕生修炼的目标!本次高手问答的高手嘉宾对运维服务体系有着深度的思考,所以问答中产生的内容也是十分有质量。ios

本文从多个角度整理了与运维相关的内容,包括工具的选择、运维中遇到的问题、自动化运维相关等等。git

1、工欲善其事必先利其器,如何选择工具?

1. 对服务器安全和监控,能够推荐一些开源工具吗?监控好像也就 nagios, cacti, zabbix,还有其余能够推荐的吗?安全方面如何监控?github

监控工具各有侧重点,zabbix 同时支持 snmp 和本身的 agent,也支持自定义模板,在大部分场景下都是不错的选择。算法

另外,不要把 zabbix 视为只能监控服务器信息,经过自定义模板,也能够监控业务层面的指标。安全监控分为主动检测,如 Tenable Nessus,以及 IDS、IPS。数据库

2. Linux 运维中,服务器版本都用什么版本?CentOS 5 仍是 CentOS 六、Ubuntu?为何选择这个版本?有作哪些测试?编程

目前咱们以 CentOS6.X 为主。不一样 Linux 分支各有特色,好比 Ubuntu 新版本发布较快,若是追求内核版本升级速度的话,能够考虑。CentOS 一直是咱们的主要 Linux 发行版,主要是考虑到它的稳定性以及熟悉程度最高。后端

3. 对于使用缓存有什么推荐吗?通常就 Redis, Codis。还有那些比较好用的开源软件?缓存

对于相似 session-id 这样的能够非持久存储的数据,能够考虑 memcached,使用一致性哈希算法分布式存储。

4. 作自动化发布,除了 Jenkins 持续集成工具,还有那些好用的工具呢?

目前我所知道的,通常都是 Hudson 或者 Jenkins,后者是前者分支出来的。这些工具都有丰富的插件,灵活使用这些插件是关键所在。

5. 问个 MySQL 问题,三个版本(MySQL(官方版本)、Percona Server 、MariaDB)您建议使用哪一个版本,缘由是?

咱们团队通常使用的是官方版本。主要是考虑到支持和生态。

6. 服务器日志收集和分析有什么好工具推荐吗?ELK 貌似有点复杂,不太会用,有其余的推荐么?

ELK 确实是目前使用比较普遍的日志收集和分析的工具。虽然有些学习成本,但仍是值得去研究和尝试的。

7. 书里有开源出一些工具和脚本吗,哪里能够下载到?

书上的脚本我正在整理,其中一部分经过 git 能够下载 https://github.com/xufengnju/books.git

8. 请问大家如今运维都是基于 Ansible 吗?咱们以前都是用 chef puppt 来管理。最近感受 Ansible 很火,还没实践用过,请问这个用起来差异大吗?

请问你运维有实践过 IaaS 平台的吗,有没有一些经验交流?

  1. 各类不一样的批量管理工具各具特色,根据本身的熟悉程度和实际业务须要选择一个彻底掌握便可
  2. 目前 IaaS 平台是自研的,基于 KVM

2、绝知此事要躬行,运维中遇到问题?

1. LVS 和 HAPROXY 后端服务器规模能够到什么程度,好比有多少个应用,多少台后端服务器?

这个取决于应用的类型,在实际的业务场景下,须要关注 LVS 等负载均衡器自己的链接数、PPS 数据以及延迟。若是后端吞吐量比较大,能够考虑 LVS 的 DR 模式。通常状况下,负载均衡器不太会成为瓶颈。

负载均衡器自己的链接数、PPS 数据以及延迟如何进行计算和统计?

经过开源的 Zabbix 模板或者自定义模板,这些都不难实现。

有没有相关的命令集进行统计,或者详细的统计实例?

针对 HAProxy 建议参考我们书中 P76 页最佳实践 29 HAProxy 监控的内容。Zabbix 模板技术,建议参考下我们书中第 12 章的内容。可使用的命令包括 ipvsadm,netstat 等。

2. 对于涉及多个平台(Unix, Linux, Windows)的统一管理(认证,配置,服务)有什么好的解决方案或者思路么?

先说下认证这一块吧。Unix、Linux 都支持 OpenLDAP 认证,能够考虑,这个和 Windows 下的 AD 是兼容的。配置和服务能够考虑下开源的通用产品,好比 Ansible 或者 Salt。目前咱们用的自研系统,思路和 Ansible 相似。

3. 如何监控服务,业务运行状态监控你是怎么作的?

咱们的监控系统是自研的,对游戏来讲,很重要的一个业务指标是在线人数,它是经过监控系统周期性轮询游戏服务器来进行收集和绘制图表的。

4. 大家是如何批量管理各个业务模块的机器系统及配置的。咱们目录使用 Ansible 使用批量命令和脚本,业务上使用上线平台 SVN 管理业务程序及配置。是否开发了 CMDB 平台?

咱们批量管理服务器的方式是 ssh,思路和 Ansible 相似。CMDB 提供基础数据的管理,是自研的。

5. 请问有使用过流量镜像吗?就是把线上的流量镜像一份,引到测试环境,用真实的用户数据测试,想了解下从 0 开始实施的过程。

关于流量镜像的原理,能够参考《Linux 运维最佳实践》第 15 章中网卡混杂模式和 RawSocket 技术。看了这一部分后,你应该能够本身写一套。我没有亲自实践过,你能够本身关注下 tcpcopy 这个项目。

6. CentOS 6 要如何作系统和网络优化?/etc/sysctl.conf 中的这个参数

net.ipv4.tcp_max_tw_buckets = 6000

要如何设置,是越多越好吗?设置成 16000?

net.ipv4.tcp_max_tw_buckets = 16000

对于系统优化来讲,要有针对性。tcp_max_tw_buckets 针对的是 time wait bucket,如系统中 timewait 状态较多,能够考虑 net.ipv4.tcp_tw_reusenet.ipv4.tcp_tw_recycle 这 2 个值调整。另外,若是使用长链接对于减小该状态的链接数有效。

7. 若是有 100 多台服务器,大部分都是在提供业务的服务器,如何升级呢?除了停机维护,如今有什么比较好的解决方案吗?

若是自己业务切分比较好,例如采用无状态的微服务等架构,能够经过前端负载均衡器进行灰度升级。若是应用作的很差,只有单台的这种,或者集中数据库,就比较麻烦了。

8. LVS 和 HAPROXY 分别能支持多少相似 FARM 的概念?

你说的 FARM 应该是某硬件负载均衡设备的专有名词,应该是负载均衡组的概念。在 LVS 和 HAProxy 里面,负载均衡组的数量上没有硬限制,但实践中通常不会配置太多,由于这涉及到维护成本以及 HA 环境下主备切换时的开销。

9. 系统是 CentOS release 6.5 (Final), 系统没有自动回收内存,16G,我本身写了个 Shell 脚本,每次执行判断小于 1G 的时候回收内存

能够关注下 sysctl 中 swap 以及 swappiness 的一些配置

10. 请问若是是有不少 ECS/VPS,系统通常是 CentOS。目前不少堡垒机也有相似的 SSH 同步密钥下发命令等功能,可是若是还有 Win的堡垒机支持不多。有别的开源工具或者办法来混合管理全部的 Linux, Windows 机器吗? 

在个人这个演讲里面讲到了异构系统的批量管理方法,你能够参考下。

http://www.build.net/greatops/453250.html。另外,你能够参考下 Ansible 或者 salt。

3、自动化运维相关,工程师思惟?

1. 能够说下什么是自动化运维,如何才算服务器作了自动化运维?包括哪些?自动化发布,有问题能够回滚?

运维自动化是一个仁者见仁智者见智的概念。个人理解是,运维自动化要打通从代码开发完到正式上线的全部环节,包括版本构建、打通自动测试、自动化上线以及自动化监控。

在这个大命题下,能够根据本身工做环境和自动化水平的不一样,选择一两个痛点开始进行自动化实践。最后造成完总体系。

2. 想请问一下自动化运维怎么作的?须要从那些方面考虑?我所考虑到的有实施运维,平常巡检维护,以及故障自动化处理,和提醒。除了这些请问还要注意那些方面?另外,随着 IT 技术的突飞猛进,涌现了不少新的应用,请问该若是有一个基本的路子来作运维,或者规律,流程来达到运维需求?例如如今比较火的OpenStack Docker 大数据。这些技术实现功能只是很小的一步,更多的是上线后的运维。更可能是想要一种思路,能列举你们遇到过的问题,以及问题如何处理? 

你的问题很好,但这个话题比较大。我先说下个人理解吧。传统的运维服务流程 ITIL 还有必定的价值,但须要结合一些 DevOps 思想来进行适当的改造,融合二者的长处。从拥抱变化开始,以一种开放的态度来进行运维。但不变的一点是,觉得业务创造价值为最终目标,这就是运维的目标。

3. 实现运维自动化,最主要就是配置管理、状态管理和变动管理,其中配置管理要如何来作,有什么好的方法分享下吗?

对配置管理,我认为应该分为“基础架构资源配置管理”和“软件/应用配置管理”。

前者是通常意义上的 CMDB 的范畴,这个能够根据本身业务特色在开源 CMDB 方案的基础上作必定的适配;

对于后者,一方面是系统(例如版本控制系统的结合),一方面是流程(例如和变动管理挂钩)。在咱们的实践中,这 2 个方面都有涉及。

4. 请问你主导运维自动化平台的功能设计和实施,是经过 Python 开发管理工具吗?另外,大家是从新开发,仍是根据 Saltstack 之类的进行二次开发。

底层使用 SSH 协议创建服务器管理通道,上层使用 PHP 开发管理界面以及封装一些经常使用操做,好比密码修改、脚本下发和执行等。彻底自主开发。

4、作好安全措施很重要,安全相关的问题

1. 运维离不开安全,服务器的安全也很重要,书中有讲运维安全这块吗,如何把控安全这块?

书中有安全主题。安全是一个庞大的体系,书中主要讲了保障 Linux 系统安全的一些措施。其余安全主题,好比社会工程和入侵检测,可能须要看更专业的书。你能够先看看我们《Linux 运维最佳实践》是否能知足你的基本安全需求。谢谢支持。

2. Web 安全监控有开源解决方案吗,可否作到在接入层就把一些可能的漏洞拦掉?Suricata?

Suricata 没有研究和实践过。《Linux 运维最佳实践》中第 11 章 Web 服务器安所有分提到了几个工具,你能够参考下。但 ModSecurity 规则在上线前要进行严格详细测试,不要出现误判。另外,建议对生产环境进行按期的安全扫描,例如使用 Tenable Nessus 工具等。安全专家的人工渗透测试也是必须的。

5、Docker 很火热,在运维中结合使用?

1. 在网易游戏运维中是否用到了最近很火的 Docker 技术以及应用在哪,存在什么问题,如何解决?

目前咱们在调研 Docker 技术,只有少许游戏测试使用。须要根据不一样的业务模型选择对应的网络模型和存储方案。Docker 技术会改变传统的运维方式,要考虑和原有运维系统整合以及运维习惯的调整所带来的挑战。另外,我不是网易公司的,我目前在盛大游戏工做。 

2. Docker 化对运维影响深远吗?

Docker 化对运维有影响,它带来的影响包括:持续交付、微服务以及 DevOps 理念的冲击。做为运维,咱们要拥抱这个变化,经过不断学习和实践来迎接这些挑战。

3. 为什么国内没有一家成熟的 Docker 方案公布细节呢?

Docker 仍是一个新生事物,各家使用的场景和模式有所不一样,并且会有一些二次开发的管理系统和调度系统。

6、不是全部对比都会产生伤害,工程师想的只是最优方案

1. 游戏服务器运维和网站服务器运维以及 APP 服务器运维,有哪些不一样点和相同点?

这个问题颇有表明性。不一样点是,网站和 APP 运维接触的通用开源软件比较多,游戏运维接触的大部分都是自研的程序。

共同点是,都须要掌握操做系统知识、软件硬件以及网络知识,还有排查问题的思路和容量规划等。二者都须要引入运维自动化的思惟和体系。《Linux 运维最佳实践》最后 2 章描述了游戏运维的相关体系和技术。

2. 做为运维人员,Python 这样的脚本在进行系统管理和监控的时候相比 Shell 有怎样的优点呢?

做为高级编程语言,Python 有很是丰富的库,包括核心库和第三方库,不少时候不须要本身造轮子;

相比 Shell,它有更好的控制力、重试机制,好比对 Socket 设置超时等等。

3. CentOS 比起 Ubuntu 来讲有啥优点?为何服务器大多用 CentOS?

不一样 Linux 分支各有特色,好比 Ubuntu 新版本发布较快,若是追求内核版本升级速度的话,能够考虑。CentOS 一直是咱们的主要 Linux 发行版,稳定性以及熟悉程度最高。

选择某个发行版时,要考虑它的生态,好比上下游的支持,还有一点,就是运维人员招聘的方便程度,国内熟悉 CentOS 的稍多一些。

4. 想问下只有一台服务器,有多个应用,是用 LVS 作负载好仍是 Nginx?差异大吗?

你说的后端应用是基于 HTTP 或者 HTTPS 的吗?若是是的话,而且吞吐量不大的状况下,使用 Nginx 便可;若是非 HTTP 或者 HTTPS 的 TCP 应用,建议使用 LVS;若是 HTTP 或者 HTTPS 吞吐量特别大的状况下,使用 LVS DR 模式。

7、You Need Backup,与备份相关的一些问题

1. 1000 台机器规模,备份系统应该要作到什么程度?

1000 台服务器,要区分业务类型,若是类型单一,备份就比较好作。若是类型多,那么要考虑的地方包括:数据库更新的频率(全备+增量备份?仍是只使用全备)、数据备份的大小、数据集中归档的要求

2. 备份是怎么作的?上百 T 的图片、附件有什么高雅的备份方案?

在线备份这一块,能够考虑使用 erasure coding 算法,在增长必定可靠性的能力下,不至于致使备份存储的成本太高。同时要考虑离线备份,好比磁带。

8、路漫漫其修远兮,运维工程师的职业生涯

1. 你以为在将来,运维的核心会是什么,自动化,预判或是其余?

我以为,将来的运维应该是智能化的。把如今须要人作的容量规划、扩缩容、排障所有实现智能化。运维的任务就是编程,把本身的能力灌输到机器上。固然,理想很丰满,现实很骨感。这须要咱们的不懈努力。

2. 做为工做 4 年多的测试工做者,在运维方面也是有必定的涉猎,在公司维护本身的测试环境,有时候也须要必定运维功底,从 Windows Server 到 Linux,学习不少,也总结了不少。上家公司着手 Docker 部署的时候恰好离开公司了。真是有点遗憾,后续工做也没时间去实践,目前使用的是 ng 负载,采用 Tomcat 部署方案,工做实在比较忙,很想在运维方面也有必定的提高!不知道从何入手好,求大神指教。

从你的描述来看,目前是兼职运维。我建议是否能够考虑,在搭建环境以外,多多研究下其中的原理,同时用自动化脚本维护这些环境呢。相信你也有一些编程经验,这些对于你后续实践运维也是有帮助的。另外,就是能够多看看别人总结的运维案例,少走一些弯路。

3. 运维技术挺杂的,如何看待这种杂?给人感受好像什么都会点,对于工做 5-6 年的运维来讲,有什么好的学习建议?

如你所说,运维技术要求范围确实蛮广的。我以为,对于工做了必定时间的运维同窗来讲,能够考虑的方向有如下几个:

  1. DevOps 实践(增强本身的编程能力,系统学习一门高级编程语言,运维自动化)
  2. 对本身的技术薄弱点重点学习,好比系统学习网络知识
  3. 看一些比较好的运维技术书籍,学习别人的干货

4. 因为运维系统有全面的数据收集、自动处理、报警和自动恢复的机制,咱们这里将运维和 BI 结合在一块儿。扩展运维工具和架构,将已成熟的 BI 接入运维体系,解放业务专员的工做,常规的业务分析、报表、数据监控均可依赖这套运维系统。在咱们这里,运维从一层平台逐渐变成一种框架,有须要的场景均可以套用。技术一直在变,但最重要的不是技术,而是用技术提供服务的思想。

除了和 BI 结合,运维思惟还能够和哪些相关业务场景结合,能够在新的方向上产生价值呢?

我很赞同你的想法和实践,“用技术提供服务的思想”。我我的认为,运维的终极目标多是“没有运维工程师的”自运维,或者叫智能运维,是 AI 在运维领域的深度融合和实践。容量规划算法的不断优化、基于公有云的资源自动调度都应该是智能化的。固然,实现这个目标还有很长的路要走。

5. Devops 对运维有那些改变,能简单说下嘛?

Devops 从概念提出到如今已经有一段比较长的时间了,整体来讲,我认为它带来的变化是:持续交付能力须要打通研发、测试和部署运维的整个链路,它对运维自动化的能力要求更高了。咱们必须经过掌握一些运维自动化框架加上必定的编程能力才能根据业务场景来应对这种变化。另外,对运维来讲,就是要拥抱变化,以开放的态度进行协做。

6. 如今哪一个版本的 Linux 使用最普遍,还有 Linux 运维,咱们须要学习一些语言吗,好比 Python 之类,这样才能算是一个真正的好运维?

不要犹豫了,当即开始学习编程吧,无论 Perl 仍是 Python,熟悉哪种都行。在这里,我不对比 Perl 和 Python 的优缺点。坚持用本身的代码(加上别人的框架和库)来解决重复的运维问题,你会成长的更快。CentOS 用的比较多。

《Linux 运维最佳实践》第 18 章是使用 Perl 进行系统自动化编程的内容,你能够先看看。若是感兴趣的话,当即开始吧。

7. 请问您写书,是怎么坚持写下来的?是把平时工做重点的问题,记录下来,天天写一点,再总结吗?写书有什么工具软件吗,仍是只是用 Word 来写?能分享下写运维书籍的方法吗?

这个问题很是好,也是我想分享的。写书的素材依赖于平时的积累,建议你们平时多写写标准的文档,word 格式能够参考我们这本书的编排。比较重要的 3 点是:

  1. visio 图要保留下来,不能只存图片,由于可能还要调整排版
  2. 有些故障现场,尽可能记录详细,现象和分析过程、辅助的日志和抓包文件等,建议都保留下来
  3. 脚本按照分类保存下来,以便查找

有关 Linux 运维最佳实践的问答内容至此结束,各位读者能够转到原贴浏览更多内容。欢迎你们在开源中国的技术问答区踊跃提问和回答,一块儿交流、学习和进步。