服务器维护实施步骤

时间 2020-01-22

标签服务器维护实施步骤繁體版

原文原文链接

为了有效地维护服务器，服务器管理员必须执行主动的硬件和软件检查。而服务器的维护清单必须包括除尘、日志查看、软件补丁程序测试等。

即便具备服务器的性能和冗余功能，增长的工做负载整合和可靠性指望也会对服务器硬件形成损害。html

服务器维护清单应涵盖物理元素以及系统的软件层配置。还必须考虑到如下事实：完全维护须要的时间、人工时间和测试。使用清单有助于服务器管理员定义目标，并保持IT团队的正常运转。linux

1.制定维护程序数据库

服务器管理员常常忽略计划维护窗口。不要等到出现故障时才开始维护;要留出时间进行例行的服务器预防性维护。安全

维护频率取决于服务器设备的使用年限、数据中心和须要维护的服务器数量。例如，与部署在高效微粒空气过滤、冷却良好的数据中心中的新服务器相比，位于设备柜中的老旧服务器须要更频繁的检查。服务器

组织能够根据供应商或第三方提供商的例行程序制定例行维护计划;若是供应商的服务合同每四个月或六个月要求进行系统检查，须要遵循这个时间表。网络

2.为准备停机作好准备工具

解决服务器维护清单上的项目以前，首先须要制定计划。这包括检查系统日志中是否有须要更加直接关注的错误或事件。若是系统日志代表特定内存模块有错误，则应订购替换的双列直插式内存(DIMM)并将其安装。一样，若是有可用的固件、操做系统或代理补丁/更新，请在计划的维护窗口以前先进行测试和审查。性能

制定明确的计划以使系统脱机并使其恢复服务。在进行虚拟化以前，服务器及其驻留的应用程序将须要停机才能容纳维护窗口，但这迫使服务器管理员在晚上或周末实施维护。测试

虚拟服务器支持迁移工做负载而不是停机，所以服务器管理员能够将应用程序迁移到其余服务器，而且只要在底层主机系统上进行服务器维护，它们就将保持可用状态。在维修以前，须要首先了解虚拟机的去向，将虚拟机迁移到选定的系统，并在关闭服务器进行维护以前验证每一个工做负载是否正常运行。操作系统

此时，服务器管理员能够关闭服务器并将其从机架中移除。

3.检查气流路径

在服务器宕机以后，须要目视检查其外部和内部气流路径。清除全部可能阻碍冷却空气的积尘和碎屑。

从外部空气入口和出口开始，而后进入系统机箱，查看CPU散热器和风扇部件、内存，以及全部冷却风扇叶片和风道。从机架上卸下服务器以后，须要确保服务器清洁。采用干净、干燥的压缩空气清除防静电工做区上的灰尘或碎屑。

除尘并非一个新的过程，但仍然是必要的。灰尘是一种绝热材料，所以去除灰尘尤其重要，由于替代的冷却方案和美国供暖、制冷和空调工程师学会(ASHRAE)的建议已提升了数据中心的工做温度。灰尘和其余气流障碍会致使服务器消耗更多的能量，甚至可能致使组件故障。

4.检查本地硬盘

服务器依靠内部硬盘进行引导、工做负载启动和存储以及用户数据。磁盘介质问题损害了工做负载的性能和稳定性，并致使硬盘过早故障。使用“检查硬盘”实用程序之类的工具来验证硬盘的完整性，并尝试恢复硬盘上的任何坏的扇区。

采用磁性媒质的硬盘并不完美。其常见的问题包括损坏扇区和碎片化。在发生存储错误后，RAID在保持数据完整性方面有很大的进步，但体积较小的1U机架服务器没法提供足够的物理空间来部署硬盘阵列。

只要NT文件系统和文件分配表硬盘文件碎片不会消失，只要文件系统使用第一个可用集群的硬盘空间便可。碎片会减慢服务器硬盘的速度并致使故障。Optimize-Volume实用程序WindowsServer2016对存储层进行碎片整理和处理。

5.验证日志数据和事件

服务器在事件日志中记录了大量的事件信息。没有仔细检查系统、恶意软件和其余事件日志，没有服务器维护清单是不完整的。固然，关键的系统问题应当即引发管理人员和技术人员的注意，但无数小问题可能预示着长期的问题。

在检查日志时，管理员应检查报告设置并验证正确的警报和警报接收者。例如在检查日志时，管理员应检查报告设置，并验证正确的警报和警报接收者。例如，若是技术人员离开服务器组，则须要更新服务器的报告系统。

还要仔细检查联系方式。若是错误发生在工做时间以外，则向技术人员所在公司的电子邮件地址提供发生错误的报告将是无效的。

当日志检查发现长期或重复出现的问题时，主动调查能够在问题升级以前解决问题。若是服务器的日志报告内存中的可恢复错误，它将不会触发严重警报。可是，若是有重复的状况代表模块出现问题，则管理员能够执行更详细的分析，以识别即将发生的故障。

若是问题不够严重，不会关闭服务器，管理员能够将服务器恢复到生产状态，直到出现替换硬件。

6.测试补丁和更新

服务器的软件栈(BIOS、操做系统、管理程序、驱动程序和应用程序)必须协同工做。不幸的是，软件代码不多是没有问题的，因此这一难题的部分常常被修补或更新，以修复错误、提升安全性、简化互操做性，以及提升性能。

任何软件都不该具备自动更新。管理员应肯定是否须要修补程序或升级，而后完全评估和测试更改。

软件开发人员可能没法测试每种可能的硬件和软件组合，所以须要明智地选择补丁和更新，以免性能问题或工做流程中断。例如，监视代理程序补丁可能会致使重要的工做负载问题，由于新代理程序占用的带宽比预期的要多。

向DevOps的迁移具备较小且更频繁的更新，这增长了出现问题的可能性。组织仍必须在实验室中测试任何修补程序或更新，而后才能将其部署到沙盒或测试安装程序中，而且始终具备还原原始软件配置的能力。

7.记录全部系统更改

在维护时段内，服务器可能会发生不少事情，例如硬件、软件或系统配置更改。服务器管理员完成服务器维护清单后，对他们进行仔细检查并记录全部新系统状态相当重要。例如，更改网络适配器、添加或更换内存或更新操做系统会更改系统的配置。

依赖系统配置管理工具的组织可能须要更新或发现任何更改，在容许系统从新投入使用以前，将这些更改记录到配置管理数据库中。服务器管理员必须更新任何强制的或所需的状态配置状态，以容许进行更改。

还要验证系统的安全状态，例如防火墙设置、反恶意软件版本或扫描频率和入侵检测设置。安全检查确保系统软件的更改不会无心间暴露出在先前配置中关闭的全部攻击面。

服务器从新联机后，不要忘记更新任何系统备份或灾难恢复(DR)内容。

验证服务器的备份/灾难恢复频率保持不变，除非必须特别调整任何相关设置以反映服务器的新用例。

本文地址：https://www.linuxprobe.com/server-maintenance-steps.html