用一顿饭的时间与聊聊大数据

五年前,一晚上之间,“大数据”一词开始红遍大江南北,再碰到别人问我时,我终于能够用一个网红词来轻松回答:“作大数据的!”html

(感谢移动互联网的发展,感谢各大IT厂商的炒做,感谢国家的重视和规划,感谢全部TV和AV)linux

但就在上个周末,跟老妈电话聊家常时,她忽然很好学地问了我一个颇有深度的问题: “我知道你是作大数据的,但大家大数据到底都在作些什么?”算法

我一时词穷,不知道该从何提及。而相似的问题在知乎上也常常被一些即将面临就业、被“大数据”三个字圈粉、但愿成为数据人的莘莘学子们所追问,由于人懒,基本上都没有好好回答过。数据库

因而,为了给普及“大数据”贡献点绵薄之力,为了让边缘人士们对大数据多一点基本理解,也是为了能回答老妈的问题,我决定写篇文章(省点电话费)来介绍一下大数据以及数据人的平常工做。网络

大数据虽然已是你们耳熟能详的热词,但数据领域里的许多术语和概念仍然会让人不明就里,因此我准备从“作饭”这个普通人应该都有基本了解,老妈更是熟稔于心的领域来切入。机器学习

【主菜】性能

正所谓“巧妇难为无米之炊”,作饭首先得有食材,大数据也同样,没有数听说什么都是扯淡,因此数据就是数据人的食材(只要有数据,我不用吃饭)。学习

作饭一般都要包括“买菜~洗菜~配菜~炒菜”这几个必需环节,不管你是开饭店仍是家里每日三餐,作饭的规模大小会有不一样,但流程倒是同样的。而这几个环节其实正好对应了数据人的平常工做内容:大数据

               买菜(数据采集)~洗菜(数据清洗)~配菜(数据建模)~炒菜(数据加工).net

一、买菜(数据采集)

买菜,出门首先要考虑去哪里买,到地以后溜达溜达看看买什么食材,看中一个以后讨价、还价、交钱,肉、蛋、青菜,各类要买的食材都得按这个流程来一遍,买齐以后就走人回家了。

对于数据人来讲,咱们把这个买菜的过程叫作数据采集。

菜市场就是咱们一般所说的数据源。

买菜的选择不少:超市(种类较少,质量上乘),农贸市场(种类较多,菜品通常),露天早市(啥均可能有,运气好还能吃到野味)。

数据源其实也同样,数据库(超市)中存储告终构化的业务数据、交易数据,传感器(农贸市场)产生大量半结构化日志数据、机器数据,网络上(早市)
充斥着各类良莠不齐的非结构化数据。

到了菜市场咱们得选菜,全部的食材我都想吃,但钱永远是不够的,因此我只能有选择性的买,这个过程叫数据调研,哪些数据是有用的,哪些数据用得起,得有个筛选。

溜达了一圈,肯定要买猪肉、鸡蛋和黄瓜,得跟卖家挑肥拣瘦、讨价还价、敲定斤两,这个过程叫数据接口规范。

费劲口舌,劳心劳力把菜买齐以后提菜回家,这个过程叫数据传输。

根据买菜方式、习惯的的不同,数据采集还能够细分出不少类型:

  • 肉类保质期长,一次买一周的量,能够叫全量采集。
  • 青菜讲究新鲜,每次只买当天的菜,能够叫增量采集。
  • 天天早上都得去买菜的,能够叫批量采集。
  • 卖家每次上了新菜都主动给你往家送的(土豪专用),能够叫流式采集。

二、洗菜(数据清洗)

洗菜就很好理解了,不管哪里来的食材,都多少存在卫生或者质量问题,买回来后都得洗干净、摘清楚才能吃,否则小则影响口感,大则损害健康。

数据也是同样,拿回来以后得检查一下,数据内容有没有缺斤少两,数据值里有没有烂菜叶,否则后面的报表、分析出来的结果就全是错误结论了,咱们把这个检查、纠正数据自己错误的过程叫作数据清洗。

因为数字世界里各类数据源的多样性、复杂度远远高于现实生活里的菜市场,数据清洗流程须要面对和处理的问题也就远远多于洗菜,为了解决和防范数据产生、使用过程当中出现的各方面问题,数据领域细分出了一个专门的研究方向叫数据治理,好比:

  • 为了了解各个菜市场的状况,咱们须要记录每一个菜市场、每一个卖家的猪肉、鸡蛋、黄瓜等各类食材的大小、颜色、价格等特色,这个叫元数据管理。
  • 记录完以后发现每家的特色都不同,彻底没有可比性,因而咱们决定对猪肉、鸡蛋、黄瓜的大小、颜色、价格进行统一规定、统必定价,这个叫数据标准管理。
  • 定完标准以后,咱们得按期对各个菜市场进行检查,看看他们有没有按标准办事,这个叫数据质量管理。

三、配菜(数据建模)

配菜指的是根据要炒什么菜,将须要的各类食材事先搭配好放在一块儿,好比说咱们要炒木须肉,那就把猪肉、鸡蛋、黄瓜都洗净、切好放在一个碗里,这样在炒菜的时候能够手到擒来,无需处处找食材,可以很好的提高炒菜的效率。

通常家庭作饭可能不会严格这么作,但对于餐饮行业来讲,这是必备环节,想一想买回来一车的食材,洗净、切好以后,若是没有必定的摆放规律,不能充分保证大厨炒菜时的效率,客户半天吃不到菜,那这个饭店的翻台率和回头率绝对高不了,仍是趁早关门大吉。(老妈是个统筹规划能力很强的精细人,不管是宴请宾客仍是每日三餐,都会在炒菜以前把各个菜所须要的食材进行事先搭配,因此让我得以了解。)

而在数据工程里,也一样有个专业性很强甚至被神话的配菜流程,这就是传说中的数据建模。数据建模就是创建数据存放模型,把各个数据源过来的各类数据根据必定的业务规则或者应用需求对数据从新进行规划、设计和整理。

配菜这个流程也许在作饭过程当中不起眼,有时候无关紧要,可是在数据工程里,数据建模倒是个很是关键的环节,因此多说两句。

数据的种类之多、复杂度之高远远超过食材,好比一个银行,内部和业务、流程、管理相关的IT系统通常都超过100个,这也就是100多个菜市场,而每一个菜市场可以提供的食材少则数百个,多则成千上万个,这都放在一块儿就是几十万个食材,再加上外部更加复杂的其余数据源,这么多不一样类型、不一样标准的食材放在一块儿,怎么才能让后面的炒菜更加高效和科学,其复杂度和可研究性也的确远远高于真正的配菜。

正由于如此,在数据发展史上出现了很多专业的建模(配菜)方法论:

  • 好比说按食材种类进行摆放的(猪肉放一堆,鸡蛋放一堆,黄瓜放一堆),咱们叫范式建模,你要是开个火锅店或者准备吃火锅,那确定是采用范式建模来配菜了
  • 好比按菜品种类进行摆放的(炒木须肉的放一堆,炒宫保鸡丁的放一堆),咱们叫维度建模,你要是吃个家常炒菜,那采用维度建模方法来配菜就更合理了

各类方法论都有其产生背景、适用场景和支持者,为了避免引发战争,这里就不作深刻讨论了。

在这些方法论基础上,通过不断的实践和研究,一些领先的数据厂商推出了标准的行业数据模型,什么叫行业数据模型呢,由于每一个行业的业务特色不同,好比说银行业、电信业、零售业的业务模式就有很大差别,数据也是不同的,因此不一样行业的数据怎么摆放,数据模型怎么设计,有着很强的行业独特性,因此每一个行业都须要本身特定的数据模型,这叫术业有专攻。

上面这段话没看懂?没事。简单来讲,行业数据模型就是“饭店筹备攻略”。

好比说你以为川菜很赚钱,想开个川菜馆,但你只是个标准吃货,只吃过猪肉没看过猪跑,怎么办?没事,我这有本“川菜开店筹备攻略”,里面什么都有:

  • 首先,攻略里会告诉你川菜里有哪些知名、流行、畅销的菜品(好比水煮肉、毛血旺等等),按期更新,图文并茂,这样菜单有了。
  • 其次,每一个菜品应该用什么样的食材,分别的配比是什么样的,攻略里已经终结出来了,并且是来自各大名厨的经验和终结,因而菜谱也有了。
  • 再次,每种食材在后厨的摆放位置是什么样的,这么摆放可以在厨房的有限空间里最大化的提升大厨们工做效率,详细的设计图纸攻略里也给你画好了,这样厨房设计图也有了。
  • 最后,我还告诉你每种食材去哪里能买到,哪里最经济实惠,连供应链都帮你打通了

因此,万事具有,只欠东风,你只要找个门面,雇两个蓝翔毕业生,咱们就能够开业大吉,财源滚滚了。什么,找门面很麻烦,没事,咱们连店面均可以提供,欢迎加入咱们的加盟连锁计划,咱们不但提供攻略,连店面也一块儿提供,带精装修的、锅碗瓢盆包罗万象。(传说中的一体机要出场了,固然,这是另一个故事,先不展开了。)

固然,若是不想开川菜店,我这里还有粤菜、湘菜、鲁菜……,嗯,“八大菜系开店攻略”我这里都有。

(以上内容稍微有点夸大,开个饭店不是一本攻略能够搞定的,作大数据也不是只有模型就能够的。不过不少时候,外人眼里的数据模型就是这么一本“葵花宝典”。)

说点题外话,因为数据建模的专业性太强,很是须要经验的积累,因而在数据行业里衍生了一个专门负责配菜的工种叫“模型设计师”,某全球知名厂商T公司的模型设计师就是业内各大猎头和甲方的香饽饽,T公司一度被挖成重灾区。

四、炒菜(数据加工)

炒菜相信你们都不陌生,若是配菜是个艺术活,那炒菜就绝对是个技术活了。各位大厨不但要有能力把各类食材组合起来炒熟,还得灵活运用油、盐、酱、醋等多种配料,保证菜品的色香味俱全。并且既然是开门迎客,各类消费者的需求都要可以响应,并且要响应的既快又好。

数据加工就是在炒菜,是个将各类数据进行计算、汇总、准备的流程,是为最后的数据应用和数据消费者服务的。客户的要求老是千奇百怪的,因此根据数据消费者的需求不一样,数据加工的形式也是百花齐放。

  • 老板们时间宝贵,注重宏观,因此通常只看重要指标,而且要求图文并茂、简单易懂。这就比如皇帝天天都吃满汉全席,全部菜品都是固定的,可是菜品得色香味俱全、上菜速度得快。因此大厨们得事先把数据加工成仪表盘、可视化大屏等让人对关键指标一目了然、而且卖相高大上的数据应用,而且采用各类技术手段保证数据应用的性能(上菜的速度),否则皇帝饿了的时候不能及时上菜,谁都背不起这个锅。
  • 官员们各管一摊,天天都要面对各类平常工做和突发状况,因此他们对数据的要求是既要有常规菜品能知足平常管理须要,也要能有额外菜品来应对突发状况,并且上菜速度也不能慢,县官不如现管嘛。因此参考自助餐的模式,数据大厨们能够将数据加工成多维分析、自助分析这类数据应用,根据经验和官员们的口味爱好,将有可能用到的菜品统统提供出来,官员们饿了的时候能够根据须要随意品尝,贴心又暖胃。
  • 员工们也有数据需求,但一般需求简单,难点在于人多、需求量大,因此将数据加工成报表这种相似于快餐的数据应用就是是最好的方式。

数据加工除了知足以上各类数据需求,还有个不得不提的职责就是数据创新。这就比如为了保证饭店的竞争力和消费者们的新鲜感,不时推出新菜品也是大厨们的职责所在。而在数据圈里,经过数据进行创新已经成为潮流和共识,因而,数据分析师、数据科学家这些角色开始粉末登场。

他们的工做就是经过经过尝试各类数据(食材)和参数(调料)的组合方式来探索和发掘新的业务机会。而因为食材的量实在太大,配料比例的波动范围就更是无止境,难以靠人力把各类组合方式进行穷尽。因而,随着数学理论和技术发展,经过算法让计算机自动进行食材组合、调料配比从而产生新的发现成为可能,也就是咱们现场常常听到的数据挖掘、机器学习了。


【甜点】
码字很累,洋洋洒洒写了很多,但感受有些点尚未写透,有些方面还写的比较牵强,但领会精神最重要,放张大图,你们意会一下吧。

水平通常,能力有限,抛砖引玉,欢迎各类意见和探讨。

原文来自:http://blog.csdn.net/TG229dvt5I93mxaQ5A6U/article/details/79202322

本文地址:http://www.linuxprobe.com/big-data-talk.html编辑:张雄,审核员:逄增宝

相关文章
相关标签/搜索