Linux运维常见的硬件及系统问题

在Linux系统中,日志数据主要包括三种类型:node

  • 内核及系统日志   :   这种日志数据由系统服务rsyslog统一管理,根据其主配置文件/etc/rsyslog.conf中的设置决定将内核消息及各类系统程序消息记录到什么位置。shell

  • 用户日志    :    用与记录Linux系统用户登陆及退出系统的相关信息,包括用户名、登陆的终端、登陆时间、来源主机、正在使用的进程操做等。数据库

  • 程序日志     :    有些应用程序会选择由本身独立管理一份日志文件(而不是交给rsyslog服务管理),用于记录本程序运行过程当中的各类事件消息。bootstrap

Linux系统自己和大部分服务器程序的日志文件默认都放在目录/var/log/下,一部分程序公用一个日志文件,一部分程序使用单个日志文件,而有些大型服务器程序因为日志文件不止一个,因此会在/var/log/目录中创建相应的子目录存放日志文件。缓存

 

经常使用的日志文件:安全

  • /var/log/messages     :      记录Linux内核消息及各类应用程序的公共日志信息、包括启动、1/0错误、网络错误、程序故障等。bash

  • /var/log/cron   :     记录crond计划任务产生的事件信息。服务器

  • /var/log/dmesg    :     记录Linux系统在引导过程当中的各类事件信息。网络

  • /var/log/maillog   :     记录进入或发出系统的电子邮件活动。架构

  • /var/log/lastlog    :     记录每一个用户最近的登陆事件。

  • /var/log/secure    :    记录用户认证相关的安全事件信息。

  • /var/log/wtmp        :    记录每一个用户登陆、注销及系统启动和停机事件。

  • /var/log/btmp    :     记录失败的、错误的登陆尝试及验证事件。

       内核及系统日志功能主要由默认安装rsyslog软件包提供。rsyslog服务所使用的配置文件为/etc/rsyslog.conf。

         在Linux内核中,根据日志消息的重要程度不一样,将其分为不一样的优先级别(数字等级越小、优先级越高、消息越重要)

  • 0 EMERG(紧急)     :    会致使主机系统不可用的状况。

  • 1 ALERT(警告)    :    必须立刻采起措施解决的问题。

  • 2 CRIT(严重)    :    比较严重的错误。

  • 3 ERR(错误)    :    运行出现错误。

  • 4 WARNING(提醒)    :    可能影响系统功能,须要提醒用户的重要事件。

  • 5 NOTICE(注意)    :   不会影响正常功能,可是须要注意的事件。

  • 6 INFO(信息)    :   通常信息。

  • 7 DEBUG(调试)     :      程序或系统调试信息等。

        内核及大多数系统消息都被记录到公共日志文件/var/log/messages中,而其余一些程序消息被记录到各自独立的日志文件中,此外日志消息还可以记录到特定的存储设备中,或者直接发送给指定用户。

       对于rsyslog服务统一管理的大部分日志文件,使用的日志记录格式基本上都相同。以公共日志/var/log/messages文件的记录格式,其中每一行表示一条日志消息,每一条消息都均包括如下四个字段。

  • 时间标签   :   消息发出的日期和时间。

  • 主机名     :   生成消息的计算机的名称。

  • 子系统名称    :   发出消息的应用程序的名称。

  • 消息    :    消息的具体内容。

       在Linux系统中,一部分应用程序 并无使用rsyslog服务来管理日志,而是由程序本身维护日志记录。

出现如下一些注意现象

  • 用户在很是规的时间登陆,或者用户登陆系统的IP地址和以往的不同。

  • 用户登陆失败的日志记录,尤为是那些一再连续尝试进入失败的日志记录。

  • 非法使用或不正当使用超级用户权限。

  • 无端或者非法从新启动各项网络服务的记录。

  • 不正常的日志记录,日志残缺不全,或者是wtmp这样的日志文件也缺乏了中间的记录文件。

 

1、服务器常见故障和现象

一、有关服务器没法启动的主要缘由 :

     ①市电或电源线故障(断电或接触不良)

     ②电源或电源模组故障

     ③内存故障(通常伴有报警声)

     ④CPU故障(通常也会有报警声)

     ⑤主板故障

     ⑥其它插卡形成中断冲突

 

2、服务器没法启动

     一、检查电源线和各类I/O接线是否链接正常。

     二、检查链接电源线后主板是否加电。

     三、将服务器设为最小配置(只接单颗cpu,最少的内存,只链接显示器和键盘)直接短接主板开关跳线,看看是否可以启动。

     四、检查电源,将全部的电源接口拔下,将电源的主板供电口的绿线和黑线短接,看看电源是否启动。

     五、若是判断电源正常,则须要用替换法来排除故障,替换法是在最小化配置下先由最容易替换的配件开始替换(内存、cpu、主板)

 

3、系统频繁重启 ?

一、形成系统频繁重启的缘由:

     ①电源故障(替换法判断解决)

     ②内存故障(可从BIOS错误报告中查出)

     ③网络端口数据流量过大(工做压力过大)

     ④软件故障(更新或重装操做系统解决)

 

4、服务器死机故障判断处理:

服务器死机故障比较难以判断,通常分为软件和硬件两个方面。

一、第一方面-软件故障

     ①首先检查操做系统的系统日志,能够经过系统日志来判断部分形成死机的缘由。

     ②电脑病毒的缘由。

     ③系统软件的bug或漏洞形成的死机,这种故障须要在判断硬件无端障后作出,并且须要软件提供商提供帮助。

     ④软件使用不当或系统工做压力过大,能够请客户适当下降服务器的工做压力来看看是否可以解决

 

二、第二方面-硬件故障

     ①硬件冲突

     ②电源故障或电源供电不足,能够经过对比计算服务器电源全部的负载功率的值来做出判断。

     ③硬盘故障(经过扫描硬盘表面来检查是否有坏道)

     ④内存故障(能够经过主板BIOS中的错误报告和操做系统的报错信息来判断)

     ⑤主板故障(使用替换法来判断)

     ⑥CPU故障(使用替换法)

     ⑦板卡故障(通常是SCSI/RAID卡或其余pci设备也有可能形成系统死机,可用替换法判断处理)

注意:系统死机故障须要在处理完后须要在一段时间内进行必定压力的拷机测试来尽一步检查故障是否完全解决。

 

5、安装操做系统时提示找不到硬盘?

一、故障缘由:

     无物理硬盘设备

     硬盘线缆链接问题

     没有安装硬盘控制器驱动或驱动不相符

 

6、如何得到驱动程序?

     一、使用随机光盘制做相应驱动

 

7、为何用正确的驱动仍然没法加载硬盘控制器驱动?

     一、查看是否启用了hostraid功能。

 

8、新购买的一块硬盘,安装到机器上以后,机器自检没法经过?

     一、将新的硬盘取下,机器是否能够自检经过;

     二、检查新增长的硬盘的ID号是否与原来的硬盘的ID号相同,若是硬盘的ID号相同的话,自检将没法经过。

 

9、如何格式化SCSI硬盘?

     一、有操做系统的状况:使用磁盘管理工具格式化;

     二、无操做系统的状况:在SCSI管理控制界面格式化;

     三、以ADAPTEC Raid卡为例:开机-出现CTRL+A 信息时,按CTRL+A进 入

          ①选中通道A

          ②选中SCSI UTILITY-将检测到硬盘-选中要检测的硬盘

          ③选中FORMAT可对硬盘进行全面格式化

          ④选中VERIFY可对硬盘进行检测,检查是否有坏道

          注意:在格式化硬盘时不能中断或停电,否则会损坏磁盘

 

10、在Aisino 系列中有RAID卡机器,当其中一个硬盘不能正常工做RAID报警,但系统能正常运行,怎么办?

          一、用一个新硬盘,确保容量大于或等于不能正常工做的硬盘,最好用相同型号的硬盘替换便可。

          二、RAID卡相关常见故障

          第一类: RAID卡自己有问题     

          ①常常表现为RAID信息丢失,硬盘常常掉线,不能作REBUILD,开机自检时检测不到硬盘或时间长。

典型故障A:做完RAID1,安装操做系统,一切正常,但第二次重启系统时,发出报警声,经检查发现一块硬盘掉线,REBUILD后,又恢复正常,但重启后又掉线。怀疑为硬盘故障,校验硬盘后均无问题。最后更换RAID卡,故障解决。

典型故障B:机器常常死机,且有时候启动速度很是慢。观察系统日志,发如今系统启动时有这样一个错误提示:设备/devices/scsi/port0 在传输等待的时间内没有响应。更换RAID卡后,恢复正常。

第二类: 硬盘自己问题

①表现为硬盘掉线,在RAID阵列中的状态为DEAD,或者在做REBUILD时,做到某一进度就不能继续

典型故障:硬盘掉线后,作REBUILD时,做到20%时出现错误提示没法继续进行。在确认掉线硬盘,硬盘盒及SCSI电缆都能正常工做后,对在线硬盘进行校验,发现有坏道,修复硬盘,重作REBUILD,恢复正常。

第三类: 硬盘盒或模组的接触问题

①此类问题常常表现为RAID卡根本检测不到硬盘,此类问题比较简单,但在处理硬盘盒相关机器时,须要注意一些问题。

典型故障:RIAD卡中检测不到硬盘,把SCSI电缆接到主板的ULTRA160接口上,故障依旧,拔出硬盘盒(不包括硬盘盒后面的托架)更换,故障依旧,更换硬盘,仍是不行。最后卸下硬盘盒后面的托架(非热插拔部分),发现后托架上80PIN接口上的一根针弯曲,校直弯针,恢复正常。

 

11、在服务器上使用的SCSI硬盘,为何硬盘的ID号不能设置为7?

一、SCSI控制器中,默认将ID=7设置为硬盘控制器占,因此硬盘的ID号不能设置为7

 

12、为何开机自检没法经过?

一、解决方法:

①机器切断电源,将机箱打开,用“COMS CLEAR”跳线的跳线帽将“COMS CLEAR”跳线的另外两个针短接(跳线参看主板说明书)

②机器加电,自检,等机器自检完闭,报CMOS已被清除,而后将机器电源关掉,把跳线复原便可

③机器从新开机

 

十3、物理内存插槽报错

一、解决方法:

①开机-按F2进入“SETUP”-“ADVANCED”–“MEMORY CONFIGURATION” 回车-“CLEAR DIMM ERRORS” 直接回车

 

十四 、远程桌面链接超出最大链接数

  因为服务器默认为容许链接数为2个,若是登录后忘记注销,而是直接关闭远程桌面的话,服务器识别这次登录仍是留在服务器端的。出现这种状况,最多见的就是重启服务器,可是,若是是高峰期,重启服务器带来的损失是显而易见的。那么此时,就能够利用mstsc/console指令进行强行登录了。打开“运行”框,键入“mstsc/v:xxx.xxx.xxx.xxx(服务器IP)/console”,便可强行登录到远程桌面了。

 

十五 、 系统端口隐患

  对于服务器来讲,首要保障稳定性和安全性。所以,咱们仅需保证服务器最基本的功能便可,就像声卡都是默认禁止的。咱们并不须要太多的功能,也不须要太多的端口支持。像一些没必要要,并且风险较高的端口大可封掉。而一些必要的,又有风险的端口,好比:338九、80等端口,咱们能够经过修改注册表的方法将其设置不特殊的秘密端口,这样服务器端口的安全隐患就不复存在了。

十六 、IDC服务器租用链接不上的解决方法

       1、本地网络不通

  首先检查一下本身的本地网络是否连通,若是本地网络不通确定是没法链接服务器的,检查本地网络的方法你们也都比较熟悉,就再也不给你们详细的介绍。

  2、登陆服务器的帐号或密码错误

  这个是是最多见的缘由,链接服务器的时候须要登陆帐号密码,若是输入的帐号密码错误会有相应的提示。遇到这种状况,能够选择找回密码,或者是联系服务器供应商解决,不过在这里提醒你们,服务器链接的帐号密码要妥善保管。

  3、没有相应的权限

  虚拟主机和共享服务器出现权限不足的状况概率会大一些,若是是租用的独立服务器不能登陆是由于这个缘由,能够直接找到服务器供应商,他们通常都有相应的解决方案,比本身解决要快的多。

  4、机房的网络或服务器的硬件出现了问题

  这种状况是比较少见的,固然也是最很差解决的一种状况。若是是机房的网络或者服务器出现了问题,那就不只是没法登陆服务器了,就连网站也会没法正常打开。这种状况是能够检测的,一般是使用第三方软件或者是用ping命令检查,若是测试结果显示的是超时的,就说明是服务器硬件或者网络出现了问题,这个能够找到服务器供应商帮助解决的,他们是提供这样的售后服务的。

 

十7、LINUX中止iis占用80端口

主机的服务器使用的是APMServ,但是启动的时候会提示80端口被占用,Apache启动失败,提示某些程序占用80端口,可是检查时却不是,这样的状况极可能是由于机器上的IIS启动了,因此只要关闭IIS程序Apache就能够启动了,服务器托管怎么中止iis占用80端口?

启动IIS: 
net start iisadmin (IIS的整个服务)
net start w3svc 
中止IIS: 
net stop iisadmin /y (会自动中止www、ftp和smtp服务)
若是用的IIS自带FTP还能够执行
net start MSFtpsvc
命令来启动FTP
步骤:
1.新建一个记事本,命名为IIS.txt
2.打开IIS.txt记事本,添加以下代码:
@echo off
net stop iisadmin /yes
net start iisadmin
net start w3svc
3.另存为IIS.bat便可,双击IIS.bat就开始批处理命令。

 

十8、客户没法远程连接

先测试一下能不能远程链接那台服务器,若是能,说明客户的网络有问题;不能远程链接,先ping一下服务器的IP,不能ping通,就查看此IP是否被封,没有被封,接显示器查看服务器的IP、掩码、网关、DNS、防火墙、端口号、远程链接是否开启。若是IP能ping通,则查看一下远程链接是否开启,若是配置正常,客户不能远程连接,可能超过了最大链接数,须要重启清除掉链接记录,仍是不能解决,及时上级汇报,尽可能减小客户损失。

十9、服务器丢包严重

查看流量监控图,服务器有没有超过峰值,有没有被限速,有没有IP被攻击,而后ping问题服务器的IP,询问运营商流量问题,查看是否丢包严重。

 

二10、排除系统启动类故障——MBR扇区故障

1)备份MBR扇区数据

        因为MBR扇区中包含了整个硬盘的分区表记录,所以该扇区的备份文件必须存放到其余的存储设备中,不然在恢复时将没法读取到备份文件。

[root@localhost ~]# mkdir /backup
[root@localhost ~]# mount /dev/sda3 /backup/
[root@localhost ~]# dd if=/dev/sda of=/backup/sda.mbr.bak bs=512 count=1
记录了1+0 的读入
记录了1+0 的写出
512字节(512 B)已复制,0.00029813 秒,1.7 MB/秒

2)模拟MBR扇区故障

        使用dd命令,人为的将MBR扇区的记录覆盖,模拟出MBR扇区被损坏的故障状况(切记先作好备份,并且将备份文件存放到其余硬盘)。

[root@localhost ~]# dd if=/dev/zero of=/dev/sda bs=512 count=1
记录了1+0 的读入
记录了1+0 的写出
512字节(512 B)已复制,0.00141057 秒,363 kB/秒

       完成上述操做后重启系统,将会出现“Operating system not found”的提示信息,表示没法找到可用的操做系统,所以没法启动主机。

3)从备份文件中恢复MBR扇区数据

       当出现安装向导界面,选择“Rescue installed system”,将以“急救模式”引导光盘中的Linux系统。

       以后依次按Enter键接受默认的语言、键盘格式,提示是否配置网卡时通常选择“NO”,而后系统会自动查找硬盘中的Linux分区并尝试将其挂载到“/mnt/sysimage”目录(选择“Continue”确认并继续)。会出现rescue窗口,单击“OK”按钮。

    单击“Skip”键后将进入到“bash-4.1#”提示符的Bash Shell环境,只要执行相应的命令挂载保存有备份文件的硬盘分区,并将数据恢复到硬盘“/dev/sda”中。

完成恢复后,执行“exit”命令退出临时shell环境,执行“reboot”命令,系统将会自动重启。

二11、

二12、

二十3、

 

 

注 意 :     

重启服务器的好处
通常来讲,若是是正常的重启是没有什么坏处,相反,对于操做系统而言反而有好处。重启服务器能够清除内存碎片,从新优化软件调用级别,中断无用的网络端口等。

          一、重启服务器对服务器的保养有必定的做用,释放内存,缓解CPU压力。服务器运行时间长,会形成不少冗余的DLL程序,致使系统运行速度较慢。系统重启会使电脑恢复到默认加载状态,也就是说在还未重启时的不少应用程序进程都驻留在内存中,会使电脑变慢,重启后它们就没了。

          二、还有就是有的一些对电脑的配置要从新启动后才能生效。

          三、重启服务器可使有些程序能够获得更新。

 

重启服务器的危害
          一、正在进行写硬盘操做时,即硬盘灯在不停地闪动时,断电或者强制重启,对硬盘的伤害较大。

          二、热启动(CTRL+ALT+DEL),对硬件上不会有损伤(软件上有时会发生程序非法停止致使数据丢失的问题);若是是冷启动(直接开关电源),就会对硬件尤为是硬盘形成伤害。除非没法正常关机能够考虑热启动。

          三、重启的忽然来电会有大量电流涌入电源,反复进行会使机器寿命大大下降,并且在硬盘正在读写的时候忽然地断电也很是容易引发硬盘出现坏道从而损失数据。

          4.非正常重启的危害:首先,这样轻则会使硬盘掉数据,形成逻辑坏道,重则形成物理的坏道,损坏硬盘磁头伺服电路。还有,这也会形成主板的二度伤害,主板在一通一断当中对电路部分的冲击是比较大的。再则也会对电源形成必定的损害。

重启   

          一、有外网IP

碰到服务器重启,先肯定服务器的位置,若是设备有外网IP,先长ping外网IP,找到设备后,重启设备,重启时,须要等电源灯全灭以后,停顿2-3S再开启服务器,若是IP显示断过又通了,说明重启好了/完毕。

          一、没有外网IP

直接接显示器重启,由于没法在外部测试设备的连通性,接显示器,设备重启到登陆界面,设备重启已经完成。

 

系统负载

  • 问题一:Cpu 负载高,IO 负载低

1. 内存不够2. 磁盘性能差3. SQL 问题 ------> 去数据库层,进一步排查 SQL 问题4. IO 出问题了(磁盘到临界了、Raid 设计很差、Raid 降级、锁、在单位时间内 TPS 太高)5. TPS 太高: 大量的小数据 IO、大量的全表扫描
  • 问题二:IO 负载高,Cpu 负载低

大量小的 IO 写操做1. autocommit,产生大量小 IO。2. IO/PS,磁盘的一个定值,硬件出厂的时候,厂家定义的一个每秒最大的 IO 次数。大量大的 IO 写操做1. SQL 问题的概率比较大。
  • 问题三:IO 和 Cpu 负载都很高

1. 硬件不够了或 SQL 存在问题。

 

基础优化

优化思路

 

定位问题点

 

硬件 --> 系统 --> 应用 --> 数据库 --> 架构(高可用、读写分离、分库分表)

 

处理方向

 

明确优化目标、性能和安全的折中、防患未然。

 

硬件优化

 

  • 主机方面

 

1. 根据数据库类型,主机 CPU 选择、内存容量选择、磁盘选择。

2. 平衡内存和磁盘资源。

3. 随机的 I/O 和顺序的 I/O。

4. 主机 RAID卡的 BBU (Battery Backup Unit) 关闭。

 

  • Cpu 的选择

 

Cpu 的两个关键因素:核数、主频,根据不一样的业务类型进行选择:

 

1. Cpu 密集型:计算比较多,OLTP-->主频很高的 Cpu、核数还要多。

2. IO 密集型:查询比较多,OLAP-->核数要多,主频不必定高的。

 

  • 内存的选择

 

1. OLAP 类型数据库,须要更多内存,和数据获取量级有关。

2. OLTP 类型数据通常内存是 Cpu 核心数量的 2 倍到 4 倍,没有最佳实践。

 

  • 存储方面

 

1. 根据存储数据种类的不一样,选择不一样的存储设备。

2. 配置合理的 RAID 级别(Raid五、Raid十、热备盘)。

3. 对于操做系统来说,不须要太特殊的选择,最好作好冗余(Raid 1)(SSD、SAS 、SATA)

4. Raid卡:主机 Raid 卡选择:

  4.1 实现操做系统磁盘的冗余(Raid 1)。

  4.2 平衡内存和磁盘资源。

  4.3  随机的 I/O 和顺序的 I/O。

  4.4 主机 Raid卡的 BBU (Battery Backup Unit) 要关闭。

 

  • 网络设备方面

 

使用流量支持更高的网络设备(交换机、路由器、网线、网卡、HBA卡)。

注意:以上这些规划应该在初始设计系统时就应该考虑好。

 

服务器硬件优化

 

一、物理状态灯。

二、自带管理设备:远程控制卡(FENCE 设备:IPMI、ILO、IDARC),开关机、硬件监控。

三、第三方的监控软件、设备(Snmp、Agent)对物理设施进行监控。

四、存储设备:自带的监控平台。EMC2(HP 收购了)、日立(hds)、IBM低端 OEM hds,高端存储是本身技术,华为存储。

 

系统优化

  • Cpu

基本不须要调整,在硬件选择方面下功夫便可。

  • 内存

基本不须要调整,在硬件选择方面下功夫便可。

  • Swap

MySQL 尽可能避免使用 Swap。

阿里云的服务器中默认 Swap 为 0 。

  • IO 

Raid、No LVM、 Ext 4 或 XFS、SSD、IO 调度策略。

  • Swap 调整方法

要关闭 Swap 分区,可以使用如下方法。

 

1. 临时关闭方法

修改  /proc/sys/vm/swappiness 的内容改为 0 。

2. 永久关闭方法

/etc/sysctl.conf 文件中添加 vm.swappiness=0 。


       这个参数决定了 Linux 是倾向于使用 Swap,仍是倾向于释放文件系统 Cache。在内存紧张的状况下,数值越低越倾向于释放文件系统 Cache。

      固然,这个参数只能减小使用 Swap 的几率,并不能避免 Linux 使用 Swap。

 

如何处理内网、外网的数据交互的同时保障网络安全?

网络安全系统主要依靠防火墙、网络防病毒系统等技术在网络层构筑一道安全屏障,并经过把不一样的产品集成在同一个安全管理平台上实现网络层的统1、集中的安全管理。

网络层安全平台

选择网络层安全平台时主要考虑这个安全平台可否与其余相关的网络安全产品集成,可否对这些安全产品进行统一的管理,包括配置各相关安全产品的安全策略、维护相关安全产品的系统配置、检查并调整相关安全产品的系统状态等。

一个完善的网络安全平台至少须要部署如下产品: 

防火墙、网络的安全核心提供边界安全防御和访问权限控制; 

网络防病毒系统、杜绝病毒传播提供全网同步的病毒更新和策略设置提供全网杀毒。

安全网络拓扑结构划分

防火墙主要是防范不一样网段之间的攻击和非法访问。因为攻击的对象主要是各种计算机,因此要科学地划分计算机的类别来细化安全设计。在整个内网当中,根据用途能够将计算机划分为三类:内部使用的工做站与终端,对外提供服务的应用服务器,以及重要数据服务器。这三类计算机的做用不一样,重要程度不一样,安全需求也不一样。

第1、重点保护各类应用服务器,特别是要保证数据库服务的代理服务器的绝对安全,不能容许用户直接访问。对应用服务器则要保证用户的访问是受到控制的要可以限制可以访问该服务器的用户范围使其只能经过指定的方式进行访问。 

第2、数据服务器的安全性要大于对外提供多种服务的WWW服务器、E-mail服务器等应用服务器。因此数据库服务器在防火墙定义的规则上要严于其余服务器。 

第3、内部网络有可能会对各类服务器和应用系统的直接的网络攻击,因此内部办公网络也须要和代理服务器、对外服务器、WWW、E-mail等隔离开。 

第4、不能容许外网用户直接访问内部网络。

上述安全需求须要经过划分出安全的网络拓扑结构,并经过VLAN划分、安全路由器配置和防火墙网关的配置来控制不一样网段之间的访问控制。划分网络拓扑结构时,一方面要保证网络的安全;另外一方面不能对原有网络结构作太大的更改。为此建议采用以防火墙为核心的支持非军事化区的三网段安全网络拓扑结构。

兆端口模式可否实现POE供电?用a或b标准打的线是否能够跑千兆?

按照a或者b标准打的线能跑千兆,可是8芯线必须所有互通(由于百兆只要两端的1326互通就能够了)

POE供电方式有两种:一种是两对线传输信息,两对线供电;另外一种方式是线对即传输信息又输送电源。POE供电主要取决于网络设备的功能,传输线路没有问题。

IDC数据机房机柜专用PDU如何布局规划?

IDC机房PDU规划布局建议考虑以下原则:

(1)服务器主机、存储设备、服务器机柜宜分区布置,主机、存储设备、服务器机柜及UPS、空调机等设备应按产品要求留出检修空间,容许相邻设备的维修间距部分重叠。

(2)设备之间走道净宽不该小于1200mm,才能够包装充足的安装检修空间。

(3)划分阶段进入机房的设备及预留扩充设备的相对位置,既要符合计算机系统的工艺流程,又要方便从此扩充设备的进场就位及线缆的链接。

(4)服务器机柜侧面可无间距排列,并柜,以便于强、弱电线(缆)的敷设。每排机柜之间的距离最好符合地板模数,以免机柜先后出现小于30Omm的补边地板。

(5)放置发热量较大的服务器如IBM690、670等服务器机柜时,其机柜前面之间的净距离不该小于2.lm,以避免热密度过高从而影响设备的散热。

(6)设备较多的服务器机房建议列头柜方式,使综合布线线缆聚集到列头柜而不是核心柜从而节省双绞线与光纤,同时便于使用二级网络交换设备,也便于安装使用服务于某列机柜的KVM系统。

(7)新风机的安装位置应保证新风是取自室外新鲜、清洁的空气,新风人口应不影响大楼外观,迸风口下缘距室外地坪不宜小于2m;当新凤入口设在绿化地带时,进风口下缘不宜小于lm,以减小尘埃污染,延缓空气过滤器的清洗时间,延长空气过滤器的寿命。

(8)机房精密空调机在有效送风距离内,送风方向应与设备排列方向一致;采用地板下送风方式时,空调机送风方向应与地板下强、弱电线槽顺向布置的方向一致,以减小空调系统的阻力、充分发挥空调系统效率。

(9)排风机安装位置应保证其排风口高于新风入口并避免送风、排风短路。

(10)新风管道的送风口位置应使新风与空调机回风充分混合。

(11)配电柜布置宜靠近末端负载以减小线缆,方便维护管理。

(12)应有畅通的疏散通道。

(13)鉴于市场上主流服务器及服务器机柜的散热方式大多数为先后向通风方式,所以先后向通风的服务器机柜宜采用面对面、背靠背的布置方式。在机柜正面布置地板送风口,使气流造成冷热通道,以减小前排机柜排出的热气流对后排机柜的影响,充分发挥空调系统的效能。

直流UPS系统和传统交流UPS系统相比哪一个更节能?

       直流UPS 产品由交流配电单元、整流模块、蓄电池、直流配电单元、电池管理单元及监控模块组成,适用于工矿企业、教育、商务、银行、证劵等行业、计算机、服务器、办公自动化设备、安防监控等设备,还可应用于医疗和网络设备。在交流掉电或故障时能不间断地给设备提供稳定的后备电源,保证设备能正常工做一段时间,保存相关重要数据。

      其产品效率、带载能力、可靠性相对交流UPS有大幅度的提升,但价格却比交流UPS便宜,输入电源转换过程零间断,保证负载良好稳定的工做。

      直流UPS系统有效的节能只有1-6%范围。

 

在数据中心机房内Fiber Channel布线有何特殊要求?

在数据中心机房内光缆通道主要用于万兆网络,选用时注意如下几点:

传输距离:OM3多模光纤为300m-550m,单模光纤为10-40km

采用光纤的链接器件和适配器为SC、LC或按照网络设备的端口类型选用

若是采用敞开的电缆桥架敷设方式光缆要达到相应的防火等级(A级或B级机房)

光配线模块的设置位置(如设备机柜顶部、敞开式桥架上、布线列头柜及各类配线机柜内)

网络检测经过,但链接PC显示网络断开?

这钟问题主要从如下几方面检查

1.网线水晶头是否全通

2.pc端或墙端接触不良

3.对应的交换机接口有问题,也就这些吧

 

电源故障的缘由示例

供电设备故障        一、忽然高负载用电,致使电闸跳闸

                             二、启动时电流太高致使电压波动

                             三、设备老化致使输出功率降低

                             四、输电装置或电子设备的开关等发生"电力噪声";                   

雷电致使的故障    一、输电系统故障致使停电(可用UPS应对)

                             二、因避雷设施机制引起的瞬间停电和电力变弱

                             三、雷电引起的电力噪声

                             四、因雷电引起的电压异常徒增与电流异常徒增(雷电浪涌电流)(须要使用防浪涌电流装置)                                 

人为引发的 故障     一、故意或不当心切断电源缆线致使跳闸

                              二、预先通知了的、因为施工或检查等商业缘由的停电                                                          

 

CPU使用率上升的主要缘由  :

  • 用户通讯量处理增多。
  • 出现突发通讯量。
  • 用量(sizing,即关于路由器可以处理的带宽和用户数量等规模的预计设计)不合适,网络设备处理目不暇接。

当CPU的使用率很高,会引发如下问题。

  • 性能降低,使经过该设备的用户数据响应迟缓。
  • 设备上运行的业务没法正常响应,进而会致使如下问题。

     Telnet/SSH响应迟缓,或设备没法进行Telnet/SSH链接。

     控制端口响应迟缓。

     设备上网络接口对ping命令的应答迟缓甚至无应答。

     没法进行更新路由等管理类的通讯交互。

  • 缓存发生故障的几率高。

                             

在路由器中使用的主要工具软件包 : ping、Traceroute、telnet、ssh、rlogin、ftp、tftp;

路由器使用的内存种类 : ROM 、RAM、 NVRAM、闪存。

 

启动路由器的流程 : 

一、通电后会执行保存在ROM中的POST(上电自检)程序。该步骤主要识别物理接口等设备上的部件。完成对硬件的检测。

二、当POST执行完毕后,执行在ROM中保存的bootstrap程序,

三、检索闪存内的IOS镜像,并将其加载到RAM中。

四、IOS启动后在NVRAM中检索startup-config信息,若是存在该文件则将以running-config的形式在RAM中展开。当设备刚出厂,在NVRAM中不存在start-config时,则经过

 

一个 EXT3 的文件分区,当使用 touch test.file 命令建立一个新文件时报错,报错的信息是提示磁盘已满,可是采用 df -h 命令查看磁盘大小时,只使用了,60%的磁盘空间,  为何会出现这个状况,说说你的理由。

答:两种状况,一种是磁盘配额问题,另一种就是 EXT3 文件系统的设计不适合不少小文件跟大文件的一种文件格式,出现不少小文件时,容易致使 inode 耗尽了。

 

当文件系统受到破坏时,如何检查和修复系统?
参考答案:
成功修复文件系统的前提是要有两个以上的主文件系统,并保证在修复以前首先卸载将被修复的文件系统。
使用命令 fsck 对受到破坏的文件系统进行修复。fsck 检查文件系统分为 5 步每一步检查系统不一样部分的链接特性并对上一步进行验证和修改。在执行 fsck 命令时,检查首先从超级块开始,而后是分配的磁盘块、路径名、目录的链接性、连接数目以及空闲块链表、i-node。

 

某 Linux 主机的/etc/rc.d/rc.inet1 文件中有以下语句,请修正错误,并解释其内容。
/etc/rc.d/rc.inet1:
……
ROUTE add –net default gw 192.168.0.101 netmask 255.255.0.0 metric 1
ROUTE add –net 192.168.1.0 gw 192.168.0.250 netmask 255.255.0.0 metric 1
参考答案:
修正错误:
(1)ROUTE 应改成小写:route;(2)netmask 255.255.0.0 应改成:netmask
255.255.255.0;
(3)缺省路由的子网掩码应改成:netmask 0.0.0.0;
(4)缺省路由必须在最后设定,不然其后的路由将无效。
解释内容:
(1)route:创建静态路由表的命令;(2)add:增长一条新路由;
(3)-net 192.168.1.0:到达一个目标网络的网络地址;
(4)default:创建一条缺省路由;(5)gw 192.168.0.101:网关地址;
(6)metric 1:到达目标网络通过的 路由器 数(跳数)。

 

某 Linux 主机的/etc/rc.d/rc.inet1 文件中有以下语句,请修正错误,并解释其内容。
/etc/rc.d/rc.inet1:
……
ROUTE add –net default gw 192.168.0.101 netmask 255.255.0.0 metric 1
ROUTE add –net 192.168.1.0 gw 192.168.0.250 netmask 255.255.0.0 metric 1
参考答案:
修正错误:
(1)ROUTE 应改成小写:route;(2)netmask 255.255.0.0 应改成:netmask
255.255.255.0;
(3)缺省路由的子网掩码应改成:netmask 0.0.0.0;
(4)缺省路由必须在最后设定,不然其后的路由将无效。
解释内容:
(1)route:创建静态路由表的命令;(2)add:增长一条新路由;
(3)-net 192.168.1.0:到达一个目标网络的网络地址;
(4)default:创建一条缺省路由;(5)gw 192.168.0.101:网关地址;
(6)metric 1:到达目标网络通过的 路由器 数(跳数)

 

 

 

 

 

 

 

 

 

 

 

                                                          

参考连接 : 

浅谈 MySQL 优化实施方案  :  https://mp.weixin.qq.com/s/-lru6FAhkXTo7gLCCfWlyg

企业数据中心运维应该掌握 13 件事 :https://mp.weixin.qq.com/s/QkoUZfNWXgCiSNOYm6ufcg

相关文章
相关标签/搜索