瞎谈大数据

        数据自古就有,并不稀奇,数据前面加了一个“大”以后,这些年被吵的火热,有的人说掌握数据就是掌控将来,到底如何掌控将来,你们都莫衷一是。火热的背后,做为一技术人员,咱们应该仔细思考。算法

        1、关于工具编程

        提及大数据,首先想到的是Hadoop以及Hadoop周边生态Hive、Sqoop、Hbase、Zookeeper等,把大数据与这些工具对等,是错误的,大数据也并非非这些工具不可,若是轻量级的技术能够解决,不必用这些重框架。Hadoop当然强大,可是维护优化成本比较高,不花几年功夫去研究,很可贵心应手的去使用。做为一个技术人员,使用工具当然重要,真正应该去领悟的是工具背后的设计哲学。架构

2、什么是大数据框架

        对于什么是大数据,这又是一个抽象的概念,做为一个技术人员,我定义不了这个概念,我只能用个人一些经验来浅显的描述大数据。运维

一、可视化机器学习

二、数据采集、清洗、清除噪声工具

三、程序设计(Java、R)oop

四、条件几率学习

五、优化大数据

六、算法、统计模型、机器学习

七、检查数据一致性

八、直觉

九、各类各样软件知识

十、写报告

……

也许还有不少标签,经验有限,并不能一一列全。对于一个数据技术人员而言,他须要有以下技能:

一、数据可视化

二、机器学习

三、数学

四、统计学

五、计算机科学

六、行业知识

        值的说明的是,行业知识每每决定了该数据产品的深度和运用度。是否存在这样一个精通全部技能而且是业务专家呢?答案确定是否认的。

那么大数据怎么作,怎么才叫有成果,要作的什么程度,如何检验,肯定怎么样的方向,这即是我苦苦思索的问题。

3、关于职业

        一些耳熟能详的词Hadoop、MapReduce、HDFS、HBase、Hive、Pig、Sqoop、JStorm、Mahout,做为技术人员,一听到这些词汇,总会有敬畏与崇拜之心,或许不少人认为掌握了这些工具,就掌握的大数据,然而并不是如此。工具始终是工具,写过MapReduce、Hive SQL,用过Sqoop导数据,这些并非大数据,这些只是最基本的吧。

        不少公司对于大数据岗位职责界定模糊,或许不少公司但愿一我的专多项技能:业务架构师、建模工程师、Hadoop运维工程师、算法工程师、JavaEE架构师等等

        对于据说过大数据这个概念,想投身其中的年轻人,我只能说这是一个坑,大数据必然是作的多,精的少,花的时间多,收获小。为何这样说,要作的精,一定是对某一行业某一业务的深入的认识,比方说电商的推荐业务,没有多年业务积累,怎么构建出业务模型,没有高深的数学功力,怎么构建出数据模型,没有深厚的编程功底,怎么写出优质算法出来数据……

        一贯痴迷技术的我,我也只能说大数据是无底深渊。

4、关于规划

        我不止一次问本身,JavaEE架构作的好好的,为何选择大数据这个坑,其实最初的理由就是对技术的向往与执着,我甘愿跳坑,跳坑了不作出一点东西来,又不甘心出来,只能用这句话来描述心里的挣扎“宝宝内心苦,可是宝宝不说”。

        大数据范围那么广,工具那么多,我能够作一点什么。思来想去,我想作一个开放式数据处理平台,初衷也是简化大数据处理。

        Hadoop使用门槛高,把你图形化、厌倦了Hive的命令行,把你图形化、厌倦了用脚本批处理任务,写个流程引擎把你图形化,Hadoop安装麻烦,把你图形化安装、Hadoop查看文件麻烦,把你图形化,机器学习算法很差写,把你图形化……

相关文章
相关标签/搜索