桌面云可靠性漫谈

  漫谈两篇,上篇谈的性能,接下来聊聊可靠性。程序员

  1.关于可靠性服务器

    可靠性在技术领域实际有2个参数,一个是availability,一个durability,前者反映系统是否可用,后者反映数据是否丢失,有必定关联性,数据不可用,显然系统网络

    也是不可用的。但就重要性来看,后者显然更重要。如:你的PC 机因各类故障致使2天不可用,心情会极其不爽,这是availability,若是告诉你保存在PC上的10几年分布式

    的相片丢失了,估计你砍人的心都有了,这就是durability。若是告诉你存在电脑上自拍的小电影泄露出去了,······这个,不是咱此次的重点,下次再聊。工具

    可靠性问题,在传统的IT 系统中,是靠应用开发商和硬件、平台软件等供应商共同来保证的,从业界统计来看,应用开发商形成的可靠性问题占70%以上,因此选对性能

    应用提供商是关键。剩下的30%可靠性事故是硬件和平台软件来保证的。应用开发商为了解决这部分的可靠性问题,须要进行大量的可靠性开发工做,这须要有经验云计算

    的工程师,同时也会致使应用代码急剧增长,进一步加大应用软件的可靠性风险---显然系统越复杂,可靠性风险越高。设计

    有经验的软件工程师是很难招聘和不跳槽的,这须要投入不少的人力成本。精简IT,下降软件开发难度,这就是包括华为在内的大部分IT 厂商的追求。因此你们在这个日志

    领域不断推陈出新,如现有小型机、FCSAN,后有IPSAN、NAS、中间件,再有容灾、备份等等技术手段,这些东西对企业IT来说就是高昂的capex成本;像华为在中间件

    电信领域,或者如淘宝这类的互联网厂家,招聘大量的有经验的工程师,在最垃圾的硬件上构建最可靠的系统,同样也能达到目的,这种付出的人力成本是opex.

    因此提高可靠性,要么购买昂贵的系统,要么雇佣昂贵的程序员,这是每一个企业不得不考虑的选择。

  2.云计算的可靠性基础

    云计算的出现,在设备和程序员的选择之间达到了一个新的平衡,以合理的代价提高了可靠性。通常的云计算系统都提供的故障HA、容灾、备份、快照等手段,

   不一样的方案在成本上略有差别,从个人观点来看,相对传统IT,故障HA时一个最低成本、可靠性提高最明显的特性,最大的好处在于云平台对应用软件的硬件环境

   作了标准化,应用不须要跟硬件打交道了,不用担忧硬件厂家兼容性、停产替换等事情了,应用的开发难度答复下降。

    云平台自己可靠性设计,在于大规模条件下的软件能力,10个刀片左右的虚拟化系统的可靠性其实比较好设计,若是一个云平台管理的规模上百、千、万服务器,

    系统软件难度大幅上升。从特性对标上来说,你们都差很少,就不啰嗦了。

  3.桌面云的可靠性

    桌面云是基于云平台的一种应用,革命的对象是PC机,其余好处不啰嗦了,就可靠性和可维护性上讲,提高太明显了。客户不用再担忧PC机停产找不到配件,

    数据中心的服务器替换不会影响用户,若是采用华为的DSWare(一体机内置的分布式存储),则硬盘更换也对用户不感知了,之前IT为了保证可靠性,若是硬件损坏

    就须要当即更换设备,如今不用,每周推着小推车金数据中心,看见坏的硬件就把它换下来,这种惬意的维护方式再也不是梦想,再不用羡慕Google数据中心的维护人员

    在办公室能够遛狗的幸福生活了。

    等等,愿景很美好,华为桌面云难道不会有故障吗?坦率地讲,可靠性是个几率问题,没人能够拍胸脯保证系统永远正常工做,可是华为的桌面云中有不少有意思的

    可靠性设计,可以极大下降可靠性事故。

    1)桌面云中管理系统的故障,不会形成数据面的不可用,如已经在使用桌面可以继续正常工做,不会影响用户办公,但会影响还未登陆链接进桌面的用户。

    2)全部的管理部件都是双部件运行,其中DB和ITA是准备运行,其余部件都是负荷分担方式运行,如HDC、WI部件,系统默认安装是2台,实际上能够部署更多,

      以进一步提高可靠性。管理系统的进程异常都有自我保护,若是代码出问题,会自动重启;全部管理不见不管启动的前后顺序,异常状况下维护更简单;管理系统的

      数据还提供自动备份到第三方设备上的能力。

    3)对于用户链接的可靠性,全部在VM里的协议软件都有误删停机制,还有防止被修改等,万一还有问题,如用户删除了Windows 系统文件等,还能够经过自助维护

      平台进行恢复操做。

    4)对于第三方重要部件,如AD异常,系统日志会有提示,并且有工具来检测AD是否正常工做;网络若是有异常,客户端上有红黄绿灯来标识等。

    5)前面说到,durability很关键,若是客户选择IPSAN来建设,那跟其余供应商没什么区别,IPSAN通常采用RAID0或者RAID5来建设,在可靠性上讲,这实际上

      就是2跟数据,因为硬盘故障后,raid组须要有个重建时间,硬盘容量越大,可靠性就会越低,所以及时更换坏件仍是必须的。若是采用华为的一体机DSware

      来存储,系统默认是提供了3分数据,可靠性大幅提高,为了兼顾成本和性能需求,采用的大容量的SATA盘来下降每用户成本,采用SSD来提高性能。DSware

      中任何硬件损坏,系统会自动把数据从新分布。这个数据从新分布的速度也远超SAN,可靠性也是有保障的。(若是三分数据仍发生故障,用户能够去买彩票了,

      由于买彩票的中奖率远比DSWare三分数据发生数据丢失的几率高)若是真的仍是不放心,那就要用到容灾和备份了,由于系统在底层没法判断数据有效性,只能

      所有数据同步或者备份,这会极大增长成成本,系统复杂度大幅上升,好比除了增长1:1的计算和存储容量外,还需增长数据中心间的大带宽。最佳的方案建议

      采用在用户虚拟机中安装第三方的网盘系统,用户本身选择少许的重要数据自动备份,同时在灾备中心创建pool型虚拟机,万一出现系统故障,用户登陆POOL

      虚拟机,从网盘上去下载用户数据,这样也能低成本迅速恢复办公环境。

    6)最后,来谈谈综合能力。桌面云系统涉及到网络、服务器、存储、云平台软件、桌面云软件,仍是比较复杂的,华为具有端到端的能力包括研发能力,同时

      本身已经建设并用10万桌面云,该碰的问题全碰到了,因此尽管放心华为的品质,虽然华为刚进入IT领域,但多年在电信领域的技术积累,不能以通常眼光

      来看待。举个例子,某国内著名的医疗设备制造商想上桌面云,华为和IXX受邀去投标,由于华为在IT领域是新兵,最后IXX以高价中标,其中集成由IXX

      完成,设备状况是服务器IXX提供,存储EXX,云平台VXX,桌面云CXX,都是名牌货,可是最后项目在努力1年后失败,该企业CIO黯然离职,项目终止。

      因此,别看各厂商各谈各的技术有多牛,系统异常状况下的端到端的问题定位和处理能力,才是选择供应商的关键。

相关文章
相关标签/搜索