大数据的应用开发过于偏向底层,具备学习难度大,涉及技术面广的问题,这制约了大数据的普及。如今须要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,下降大数据的学习门槛,下降开发难度,提升大数据项目的开发效率。算法
大数据在工做中的应用有三种:与业务相关,好比用户画像、风险控制等;安全
与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工做。框架
第一类:历来源来看分为内部数据和外部数据;数据源的特色决定数据采集与数据存储的技术选型,我根据数据源的特色将其分为四大类:运维
第二类:从结构来看分为非结构化数据和结构化数据;分布式
第三类:从可变性来看分为不可变可添加数据和可修改删除数据;性能
第四类,从规模来看分为大量数据和小量数据学习
大数据平台第一个要素就是数据源,咱们要处理的数据源每每是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先通过数据采集、数据存储,以后才是数据分析和数据处理。大数据
从整个大的生态圈能够看出,要完成数据工程须要大量的资源;数据量很大须要集群;要控制和协调这些资源须要监控和协调分派;面对大规模的数据怎样部署更方便更容易;还牵扯到日志、安全、还可能要和云端结合起来,这些都是大数据圈的边缘,一样都很重要。优化
大快大数据平台(DKH),是大快公司为了打通大数据生态系统与传统非大数据公司之间的通道而设计的一站式搜索引擎级,大数据通用计算平台。传统公司经过使用DKH,能够轻松的跨越大数据的技术鸿沟,实现搜索引擎级的大数据平台性能。搜索引擎
DKH标准平台技术构架图