数据自古就有,并不稀奇,数据前面加了一个“大”以后,这些年被吵的火热,有的人说掌握数据就是掌控将来,到底如何掌控将来,你们都莫衷一是。火热的背后,做为一技术人员,咱们应该仔细思考。算法 1、关于工具编程 提及大数据,首先想到的是Hadoop以及Hadoop周边生态Hive、Sqoop、Hbase、Zookeeper等,把大数据与这些工具对等,是错误的,大数据也并非非这些工具不可,若是轻量级的技术能够解决,不必用这些重框架。Hadoop当然强大,可是维护优化成本比较高,不花几年功夫去研究,很可贵心应手的去使用。做为一个技术人员,使用工具当然重要,真正应该去领悟的是工具背后的设计哲学。架构 2、什么是大数据框架 对于什么是大数据,这又是一个抽象的概念,做为一个技术人员,我定义不了这个概念,我只能用个人一些经验来浅显的描述大数据。运维 一、可视化机器学习 二、数据采集、清洗、清除噪声工具 三、程序设计(Java、R)oop 四、条件几率学习 五、优化大数据 六、算法、统计模型、机器学习 七、检查数据一致性 八、直觉 九、各类各样软件知识 十、写报告 …… 也许还有不少标签,经验有限,并不能一一列全。对于一个数据技术人员而言,他须要有以下技能: 一、数据可视化 二、机器学习 三、数学 四、统计学 五、计算机科学 六、行业知识 值的说明的是,行业知识每每决定了该数据产品的深度和运用度。是否存在这样一个精通全部技能而且是业务专家呢?答案确定是否认的。 那么大数据怎么作,怎么才叫有成果,要作的什么程度,如何检验,肯定怎么样的方向,这即是我苦苦思索的问题。 3、关于职业 一些耳熟能详的词Hadoop、MapReduce、HDFS、HBase、Hive、Pig、Sqoop、JStorm、Mahout,做为技术人员,一听到这些词汇,总会有敬畏与崇拜之心,或许不少人认为掌握了这些工具,就掌握的大数据,然而并不是如此。工具始终是工具,写过MapReduce、Hive SQL,用过Sqoop导数据,这些并非大数据,这些只是最基本的吧。 不少公司对于大数据岗位职责界定模糊,或许不少公司但愿一我的专多项技能:业务架构师、建模工程师、Hadoop运维工程师、算法工程师、JavaEE架构师等等 对于据说过大数据这个概念,想投身其中的年轻人,我只能说这是一个坑,大数据必然是作的多,精的少,花的时间多,收获小。为何这样说,要作的精,一定是对某一行业某一业务的深入的认识,比方说电商的推荐业务,没有多年业务积累,怎么构建出业务模型,没有高深的数学功力,怎么构建出数据模型,没有深厚的编程功底,怎么写出优质算法出来数据…… 一贯痴迷技术的我,我也只能说大数据是无底深渊。 4、关于规划 我不止一次问本身,JavaEE架构作的好好的,为何选择大数据这个坑,其实最初的理由就是对技术的向往与执着,我甘愿跳坑,跳坑了不作出一点东西来,又不甘心出来,只能用这句话来描述心里的挣扎“宝宝内心苦,可是宝宝不说”。 大数据范围那么广,工具那么多,我能够作一点什么。思来想去,我想作一个开放式数据处理平台,初衷也是简化大数据处理。 Hadoop使用门槛高,把你图形化、厌倦了Hive的命令行,把你图形化、厌倦了用脚本批处理任务,写个流程引擎把你图形化,Hadoop安装麻烦,把你图形化安装、Hadoop查看文件麻烦,把你图形化,机器学习算法很差写,把你图形化…… |