DIY Hadoop大数据五大注意点

      这是一篇Hadoop大数据熟知5大陷阱的文章。这篇文章会给你们带来一些关于Hadoop和大数据的相关知识详解,但愿本篇文章能帮助到你,对你有所收获,让咱们开始学习吧。安全

  虽然Hadoop能够运行在廉价的商品计算机硬件,且用户很容易添加节点,可是它有一些细节是很昂贵的,尤为是你在生产环境中运行Hadoop。服务器

  甲骨文公司大数据产品经理Jean-Pierre Dijck称:“IT部门认为‘我已经有服务器,我还能够买到便宜的服务器,我也有人员,因此咱们不用花多少钱就能够构建本身的Hadoop集群’,这固然是一件好事,可是IT部门在部署时会发现这里会有不少他们没有预料到的额外开销。”网络

  Dijcks列举了IT领导在DIY Hadoop集群时的5个常见错误:模块化

  1.他们试图以廉价的方式构建Hadoopoop

  不少IT部门不清楚Hadoop集群应该完成什么使命(除了分析某些类型的数据),因此他们会购买尽量便宜的服务器。学习

  “Hadoop被认为是可自愈的,因此当服务器的一个节点出现故障,构不成大问题,”Dijcks称,“但若是你购买廉价的服务器,不少节点出现故障那么你就要花更多时间来修复硬件,若是一大堆节点都不运行了,这就会形成大问题。”测试

  若是你的Hadoop集群只是实验,那么以上这些可能不是问题。然而,不少实验性项目一般最后都会进入生产环境。IT部门认为,“咱们已经投入了大量的时间,咱们已经作了不少工做,如今咱们须要将其投入生产,”Dijcks说道,“在实验期间,若是环境出现问题,只要从新启动便可,但在生产环境,集群须要可以抵御硬件故障、人为交互故障以及任何可能发生的事情。”大数据

  Forrester公司在其2016年第二季度报告“大数据Hadoop优化系统”中指出,咱们须要大量时间和精力用于安装、配置、调试、升级和监控通用Hadoop平台的基础设施,而预配置Hadoop优化系统可提供更快的时间价值、下降成本、最小化管理工做以及模块化扩展功能。优化

DIY Hadoop大数据五大注意点_Hadoop_大数据_服务器_课课家教育

  2.太多“厨师”操作系统

  大多数IT部门将本身分为软件、硬件和网络组,而Hadoop集群跨越了这些分组,因此DIY Hadoop集群最终会成为不少有说服力的“厨师”的产物。

  Dijcks称:“在这种状况中,你有一个食谱来参考,但负责不一样领域的人并不会彻底遵循食谱,由于他们喜欢与食谱要求略有不一样的作法。“因此最终,Hadoop集群不会按照预期那样运行。

  在进行故障排除后,系统应该可以启动以及让IT运营人员在生产环境中运行,但Dijcks称:“这是另外一个学习曲线开始的地方,他们可能不熟悉Hadoop集群,你会看到不少人为错误、停机时间等一系列问题。”

  3.他们没有意识到Hadoop DIY项目是特洛伊木马

  在Hadoop集群转移到生产环境后,企业一般会发现他们须要安排专门的工做人员来保持其运行。Dijcks称:“固然,这个工做人员的大部分时间花费在维护上,而不是创新。”此外,这名工做人员还须要了解Hadoop系统。

  他警告道:“你不能指望人们在很短期内变成Hadoop专家。”即便你雇佣经验丰富的工做人员,但IT环境差别性很大--DIY Hadoop集群组件也是如此。所以,在你特定环境中的全部配置、链接和相互关系都须要花时间来了解。

  4. 他们低估了更新的复杂性和频率

  新版Hadoop(例如来自Cloudera和Hortonworks)每三个月发布一次,这些一般包含新特性、新功能、更新、漏洞修复等。

  “除了保持Hadoop集群运行所需的全部人类操做外,每三个月都会有新的升级版本,”Dijcks称,“你完成升级的那一刻,你必须开始规划下一次升级。这至关复杂,因此有些人开始跳过更新。”即便你跳过几回更新,最终你仍是会须要更新,例如从5.4升级到5.7。

  虽然Cloudera和Hortonworks会尝试测试尽量多的场景,“他们不能测试你特定操做系统版本或者对特定工做操做的影响,”Dijcks称,“你的环境可能有思科路由器或者Red Hat操做系统或者IBM硬件,同时,若是这个集群正用于大数据生产项目,而你须要更新时,就有可能会制造出明显的停机时间。”

而你须要更新时,就有可能会制造出明显的停机时间。”

  5. 他们没有准备好应对安全挑战

  在Hadoop早期,安全没有被视为一个大问题,由于集群仍位于防火墙后面。而如今,安全已经成为最大的问题。

  目前Kerberos身份验证已经内置到Hadoop来解决这些问题,但有些IT企业不知道如何处理此协议,“整合Kerberos到企业的Active Directory很是复杂,”他表示,“你须要在Active Directory和一系列组件之间进行很是多集成工做。且这方面的文档很是少,最要命的是这涉及到安全管理员和IT其余团队,这些人员几乎是使用彻底不一样的语言。”

  有些IT部门最终会与Cloudera、Hortonworks或其余第三方签署合同以保护他们的DIY Hadoop集群。“这须要一些时间才能完成设置、测试等工做,”Dijcks称,“而后每过三个月,你都须要从新作一次,以确保应用和配置等一切的正常运行。

相关文章
相关标签/搜索