关于大数据你应该了解的五件事儿

摘要: 本文从基本概念、行业趋势、学习途径等几个方面介绍了大数据的相关内容,适合对大数据感兴趣的读者做为入门材料阅读。web

随着科技的发展,目前已经步入了大数据的时代,不少社交媒体和互联网公司也很是关注大数据这一行业。那么对于大数据而言,这里有五件事情是你应该了解的。数据库

1.大数据是什么?

简单地说,大数据指的是经过计算分析大数据集,以揭示与数据某一方面相关的模式或趋势。对于大数据而言,数据量没有必定的要求,只要足够得出可靠的结论便可。编程

clipboard.png

M-brain从如下八个“V”方面说明大数据:网页爬虫

1.VOLUME:可以发现本身想要的信息吗?安全

2.VALUE:当你最须要它的时候你能发现它吗?机器学习

3.VERACITY:处理的是有用信息仍是虚假信息?编程语言

4.VISUALISATION:一眼就能看明白吗?它能促进决定吗?oop

5.VARIETY:一张图比一千个词更有价值吗?得到的信息均衡吗?学习

6.VELOCITY:从信息得到动力,危机和机遇同时存在,将来的前景会如何?大数据

7.VISCOSITY:是否受到困扰?须要采起进一步行动吗?

8.VIRALITY:它是否传达了一个能够粘贴到演示文档中的信息?

2.如何可以接触大数据?

数据在现实生活中无处不在,并且随着时间的推移会积累的愈来愈多。经过谷歌搜索就可使你几乎可以找到全部的数据库。不少人不知道那些已经存在的数据可供访问和分析,若是你不知道的话,能够在KD Nuggets网站上找到可供访问和挖掘的数据列表。如何访问和使用这些数据主要分为如下六个方面:

数据提取

在进行任何事情以前,都须要使用一些数据。现实中能够经过多种方式得到所须要的数据,但一般的作法是经过API调用公司的web服务得到相关数据。

数据存储

大数据面临的主要难题之一是如何存储并管理它,这彻底取决于负责创建数据存储的预算和我的具有的专业知识,由于对于大多数数据管理者来讲,都须要具有一些编程方面的知识。良好设计的数据库容许用户安全地、直接地存储和查询数据。

数据清洗

无论你喜欢与否,数据集有各类各样的形式和大小。在考虑如何存储数据以前,须要确保它是干净的,且转化成可以被接受的格式。

数据挖掘

数据挖掘是从数据库中洞察一些信息的过程,这样作的目的是根据当前持有的数据提供预测并做出决定。

数据分析

一旦收集了全部的数据后,就须要对其进行相关任务的分析、寻找有趣的模型或趋势。优秀的数据分析师会发现一些不一样寻常的东西或其余人以前没有发现的内容。

数据可视化

对于数据处理而言,对其最重要的多是数据可视化。可视化是在完成全部工做后输出一个能被任何人理解的可视化载体,这能够经过使用编程语言(如Plot.ly、d3.js)或软件(如Tableau)实现。

3.与大数据相关的职业

随着市场对大数据相关需求的增长,与之相关的职业需求数量也在上升。根据相关机构的统计研究,一个大数据工程师每一年的平均工资是150000美圆。

clipboard.png

根据相关研究报道,超过80%的数据科学家有硕士学位,使得他们可以从事这个领域的任何工做。

4.新兴行业

简而言之,大数据行业是一个正在快速成长的行业。不少公司和我的都对大数据很是关注,下图是谷歌趋势图。从下图中能够看到,搜索词“大数据”从2004年到如今的流行程度增加迅猛。

clipboard.png

根据IDC提供的数据,“大数据和业务分析(BDA)”在2017年的全球收入达到150.8亿美圆,比2016年同比增加12.4%。估计到2020年末,大数据的全球收入可能达到210亿美圆。

5.如何学习

大数据是一个宽泛的主题,所以所须要学习的内容涵盖多方面的知识。想要从事该领域工做的人们须要具有一系列的特定技能,包括如下技能中的一个或多个:

1.掌握一种与数据分析有关的编程语言,好比R、Python、SAS和SQL语言等

2.对数学和统计学有很好的理解与掌握

3.具有网页爬虫经验

4.基本的Excel技能

一些网站提供在线大数据课程,好比Coursera、Simpli Learn等。若是你正在寻找一个大学在线课程,能够从Masters Portal列出的全英国95个数据科学和大数据硕士课程中选择一个适合本身的课程,典型的教学大纲可能包括如下几个方面:

1.与大数据相关的数学知识

2.Python脚本

3.大数据的商业和科学应用

4.大型数据库和非关系型数据库,包括MongoDb、Cassandra和Neo4j

5.数据分析、机器学习和使用Weka、R和Scikit-Learn可视化数据

6.大问题的优化和探索

7.使用Hadoop、Spark、Hive和MapReduce集群计算

做者信息

Dan Clark,卡迪夫大学学生,专一于Web开发、数据可视化。

文章原标题《5 Things You Need to Know about Big Data》,做者:Dan Clark

更为详细的内容,请查看原文

相关文章
相关标签/搜索