常常有人问咱们,平常常见问题有哪些,如何解决?您可想象,咱们是全球最大的大型互联网系统外包服务运营商,因此几乎碰到过全部问题。程序员
咱们运行各种游戏、电商、移动通信、广告、财经、社交活动、旅游及其它多种网站,因此在各类系统平台上碰到过各类各样的问题。在全球十几个国家有几百万用户,每秒需处理几千个事务,系统问题及系统崩溃常有发生、避之不及。数据库
可是,有些共性问题是咱们常常碰到,常常处理的,基本上这些问题能够归到一些大的分类,如可靠性问题、系统性能问题、系统扩展问题及系统安全问题。安全
对于可靠性问题,其产生根源众多,如过载、代码问题、服务器崩溃、数据库问题、带宽、硬件、云问题、CDN、数据中心问题等。咱们也见证过一些系统更新,还未经完善测试便加以运用所带来的问题,这些问题是人为的,由程序员、内容编辑人员、游戏开发人员甚至是咱们的成员所形成的。服务器
从长远来看,咱们最大的也是常常碰到的问题即是磁盘空间问题。客户数量激增、博客量也骤增。无论你提供多大的磁盘空间,为了处理数据及其它事务,他们会把磁盘空间消耗殆尽。因此,咱们就像其它的系统管理员同样,竭尽所能,想尽一切办法增大磁盘、增长存储空间。所幸的是当今的3TB 磁盘真的很大,可不幸的是数据文件也很大并且采用云储存代价很高。因此咱们常常接到此类通知,配合客户需求,手动或自动清理存储空间。架构
数据库问题是一个司空见惯的问题,从过载到常见的复制问题。客户常常误解复制、不明白复制需求及复制效果,因此常常产生问题,而咱们也就一直不断地来解决这些问题,包括使用新型的探测、监控及管理工具使系统正常运行、保证数据准确性。这一工做变得愈来愈重要,由于数据在电子商务及广告业变得愈来愈关键、愈来愈面向财务。并发
其它的可靠性问题还包括PHP, Java 及其它Django问题,固然还包括系统崩溃以及咱们平常监控、管理及解决的问题。特别对于中国而言,咱们天天要处理的主要问题就是带宽问题,带宽时而好、时而差、时而又恢复正常。 同时,在中国某些地区,带宽问题一直存在,前一秒链接的很好,后一秒就断线了。在今天,要恢复链接,一般至少要联系数据中心、电信部门、还要弄清楚要链接什么和什么。负载均衡
系统性能问题包括超负荷,就是常见的CPU、RAM 及IO 被大量占用;不少用户(有时是同一天同一时间)登陆到客户网站形成了各类问题。在一望无际的互联网世界中,可谓事事难料、变幻莫测。ide
常常碰到的问题就是:写的不好的PHP代码忽然增长了负载,形成系统CPU不够;或某些程序占用空间大,致使RAM不够;以及SQL不好,没有索引,使数据库崩溃,没法处理并发事件、上锁甚至是进行输入输出操做。工具
系统扩展问题有别于其它问题,为应付将来几天、几周甚至几个月的事务增加,而需快速创建或扩展系统时,更需另当别论。由于一般状况下,系统架构时并未考虑此事,负载均衡作的不好,甚至没有负载均衡,或者是没有便携式PHP/Java会话而致使没法实现均衡。性能
常常有客户到咱们这里说,他们的系统遇到“瓶颈”了,前一分钟还运行的很好,而后,忽然有一天由于过载崩溃了。从理论上说,不该该出现这种状况,可是,若是使用的监控软件不好,没法显示系统是否接近系统上限的话,那么这种状况就会常常发生。不幸的是,系统CPU使用量在95%和100%时,用户体验是大相径庭的:95%时,可能系统运行的有点慢,而在100%时,系统就根本没法工做。
系统安全一直是一个挑战,虽然咱们的系统从整体上来讲很安全,可是,咱们的客户使用的代码不安全,使用的附加工具,如Cpanel 或各种管理界面如PHPMyAdmin 也不安全。因此,咱们一不留神,这些坏蛋就有了可乘之机,有道是:“千里之堤毁于蚁穴。”
所幸的是,咱们的安全是多层次的,并且所分配的权限是最低的,因此,对系统安全的破坏性不多发生。可是,偶尔也会有系统破坏,咱们就必须清理系统,更改受权,增长客户日志及安全监控器等等。有时,咱们还作审计工做,查看是否有***存在及其藏匿位置。
最后,咱们常常碰见的问题就是如何节省开支。这不算是技术问题,可是,咱们常常发现客户在系统及服务器上花费颇多,甚至花过多的冤枉钱。他们会由于系统慢,本身不知道如何解决或调试系统;或者虽然站点功能颇多,可是殊不知道如何将其虚拟化并置于私云中,因此就采购了许多服务器。
在此,咱们经过调试系统即可以对其进行扩展,而无需购买新系统,或者以更经济的建立私云的方式扩展系统,即可为客户节省大量开支。
(Authored by Steve Mushero / ChinaNetCloud CEO & CTO 本博客英文原文请点此查看)