认识大数据

一、什么是大数据?

        1.一、概念:

大数据自己是一个抽象的概念。
从通常意义上讲,大数据是指没法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。
通常状况下,若是当前的工具没法处理一个数据集的话,那么这个数据集在当下就会被称之是大数据集;
目前,业界对大数据尚未一个统一的定义,可是你们广泛认为,大数据具有 Volume、Velocity、Variety 和 Value 四个特征,简称“4V”,即数据体量巨大、数据速度快、数据类型繁多和数据价值密度低,
技术分享图片
主要有4V特征:
1)Volume:表示大数据的数据体量巨大。
数据集合的规模不断扩大,已经从 GB 级增长到 TB 级再增长到 PB 级,近年来,数据量甚至开始以 EB 和 ZB 来计数。
例如,一个中型城市的视频监控信息一天就能达到几十 TB 的数据量。百度首页导航天天须要提供的数据超过 1-5PB,若是将这些数据打印出来,会超过 5000 亿张 A4 纸。
图 2 展现了每分钟互联网产生的各种数据的量。
                     互联网每分钟产生的数据
2)Velocity:表示大数据的数据产生、处理和分析的速度在持续加快。
加速的缘由是数据建立的实时性特色,以及将流数据结合到业务流程和决策过程当中的需求。
数据处理速度快,处理模式已经开始从批处理转向流处理。
业界对大数据的处理能力有一个称谓——“ 1 秒定律”,也就是说,能够从各类类型的数据中快速得到高价值的信息。大数据的快速处理能力充分体现出它与传统的数据处理技术的本质区别。
 
3)Variety:表示大数据的数据类型繁多。
传统 IT 产业产生和处理的数据类型较为单一,大部分是结构化数据。
随着传感器、智能设备、社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生的数据类型无以计数。
如今的数据类型再也不只是格式化数据,更多的是半结构化或者非结构化数据,如 XML、邮件、博客、即时消息、视频、照片、点击流、  日志文件等。
企业须要整合、存储和分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。
 
4)Value:表示 大数据的数据价值密度低
大数据因为体量不断加大,单位数据的价值密 度在不断下降,然而数据的总体价值在提升。
以监控视频为例,在一小时的视频中,有用的数据可能仅仅只有一两秒,可是却会很是重要。
如今许多专家已经将大数据等同于黄金和石油,这表示大数据 当中蕴含了无限的商业价值
 
根据中商产业研究院发布的《2018-2023 年中国大数据产业市场前景及投资机会研究报告》显示,2017 年中国大数据产业规模达到 4700 亿元,同比增加 30%。
随着大数据在各行业的融合应用不断深化,预计 2018 年中国大数据市场产值将突破 6000 亿元达到 6200 亿元。
 
经过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润。

        1.二、大数据的产生:

                    
大数据是信息通讯技术发展积累至今,按照自身技术发展逻辑,从提升生产效率向更高级智能阶段的天然生长。
无处不在的信息感知和采集终端为咱们采集了海量的数据,而以云计算 为表明的计算技术的不断进步,为咱们提供了强大的计算能力。
从采用数据库做为数据管理的主要方式开始,人类社会的数据产生方式大体经历了 3 个阶段,而正是数据产生方式的巨大变化才最终致使大数据的产生。

1)运营式系统阶段。

数据库的出现使得数据管理的复杂度大大下降,在实际使用中,数据库大多为运营系统所采用,做为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。
人类社会数据量的第一次大的飞跃正是在运营式系统开始普遍使用数据库时开始的。
这个阶段的最主要特色是,数据的产生每每伴随着必定的运营活动;并且数据是记录在数据库中的,例如,商店每售出一件产品就会在数据库中产生一条相应的销售记录。这种数据的产生方式是被动的。

2)用户原创内容阶段。

互联网的诞生促令人类社会数据量出现第二次大的飞跃,可是真正的数据爆发产生于 Web 2.0 时代,而 Web 2.0 的最重要标志就是用户原创内容。这类数据近几年一直呈现爆炸性的增加。主要有如下两个方面的缘由。
    • 是以博客、微博和微信为表明的新型社交网络的岀现和快速发展,使得用户产生数据的意愿更增强烈。
    • 是以智能手机、平板电脑为表明的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表本身意见的途径更为便捷。这个阶段的数据产生方式是主动的。

3)感知式系统阶段。

 
 
人类社会数据量第三次大的飞跃最终致使了大数据的产生,今天咱们正处于这个阶段。此次飞跃的根本缘由在于感知式系统的普遍使用。
 
随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备普遍地布置于社会的各个角落,经过这些设备来对整个社会的运转进行监控。
这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。
简单来讲,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本缘由。

二、大数据产生的意义?

             2.一、大数据的做用已经意义:

大数据虽然孕育于信息通讯技术,但它对社会、经济、生活产生的影响毫不限于技术层面。
更本质上,它是为咱们看待世界提供了一种全新的方法,即决策行为将日益基于数据分析,而不是像过去更多凭借经验和直觉。具体来说,大数据将有如下做用。
1)对大数据的处理分析正成为新一代信息技术融合应用的结点。
移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。
云计算为这些海量、多样化的大数据提供存储和运算平台。经过对不一样来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值,大数据具备催生社会变革的能量。
2)大数据是信息产业持续高速增加的新引擎。
面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生出一体化数据存储处理服务器、内存计算等市场。
在软件与服务领域,大数据将引起数据快速处理分析技术、数据挖掘技术和软件产品的发展。
3)大数据利用将成为提升核心竞争力的关键因素。
各行各业的决策正在从“业务驱动”向“数据驱动”转变。在商业领域,对大数据的分析可使零售商实时掌握市场动态并迅速作出应对,能够为商家制定更加精准有效的营销策略提供决策支持,能够帮助企业为消费者提供更加及时和个性化的服务。
在医疗领域,可提升诊断准确性和药物有效性。
在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要做用。
4)大数据时代,科学研究的方法手段将发生重大改变。
例如,抽样调查是社会科学的基本研究方法,在大数据时代,研究人员可经过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。

三、大数据的处理流程?

         大数据的数据来源普遍,应用需求和数据类型都不尽相同,可是 最基本的处理流程是一致的
         整个大数据的处理流程能够定义为,在合适工具的辅助下,对普遍异构的数据源进行抽取和集成,将结果按照必定的标准进行统一存储,而后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,并利用恰当的方式将结果展示给终端用户。
         具体来说,大数据处理的基本流程能够分为数据抽取与集成、数据分析和数据解释等步骤。

    3.一、数据的抽取与集成

大数据的一个重要特色就是多样性,这就意味着数据来源极其普遍,数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。
要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出数据的实体和关系,通过关联和聚合以后采用统必定义的结构来存储这些数据。
在数据集成和提取时,须要对数据进行清洗,保证数据质量及可信性。同时还要特别注意大数据时代数据模式和数据的关系,大数据时代的数据每每是先有数据再有模式,而且模式是在不断的动态演化之中的。
数据抽取和集成技术并非一项全新的技术,在传统数据库领域此问题就已经获得了比较成熟的研究。随着新的数据源的涌现,数据集成方法也在不断的发展之中。
从数据集成模型来看,现有的数据抽取与集成方式能够大体分为 4 种类型:基于物化或 ETL 方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎,以及基于搜索引擎的方法。
          ETL 数据清洗工程师
         ETL ,是英文Extract-Transform-Load的缩写,用来描述将数据历来源端通过萃取(extract)、转置(transform)、加载(load)至目的端的过程。 ETL 一词较经常使用在 数据仓库 ,但其对象并不限于 数据仓库
意义 : 把非结构化 不能处理的数据 转成 结构化能够处理的数据 hive hbase 

3.二、数据分析

数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。
从异构数据源抽取和集成的数据构成了数据分析的原始数据。
根据不一样应用的需求能够从这些数据中选择所有或部分进行分析。
 
小数据时代的分析技术,如统计分析、数据挖掘和机器学习等,并不能适应大数据时代数据分析的需求,必须作出调整。
大数据时代的数据分析技术面临着一些新的挑战,主要有如下几点。
 
 
1)数据量大并不必定意味着数据价值的增长,相反这每每意味着数据噪音的增多。
 
所以,在数据分析以前必须进行数据清洗等预处理工做,可是预处理如此大量的数据,对于计算资源和处理算法来说都是很是严峻的考验。
 
2)大数据时代的算法须要进行调整。 --> java Math 类掌握
 
首先,大数据的应用经常具备实时性的特色,算法的准确率再也不是大数据应用的最主要指标。在不少场景中,算法须要在处理的实时性和准确率之间取得一个平衡。
 
其次,分布式并发计算系统是进行大数据处理的有力工具,这就要求不少算法必须作出调整以适应分布式并发的计算框架,算法须要变得具备可扩展性。
许多传统的数据挖掘算法都是线性执行的,面对海量的数据很难在合理的时间内获取所需的结果。所以须要从新把这些算法实现成能够并发执行的算法,以便完成对大数据的处理。
最后,在选择算法处理大数据时必须谨慎,当数据量增加到必定规模之后,能够从小量数据中挖掘出有效信息的算法并必定适用于大数据。
3)数据结果的衡量标准。
对大数据进行分析比较困难,可是对大数据分析结果好坏的衡量倒是大数据时代数据分析面临的更大挑战。
大数据时代的数据量大,类型混杂,产生速度快,进行分析的时候每每对整个数据的分布特色掌握得不太清楚,从而会致使在设计衡量的方法和指标的时候遇到许多困难。
 
                        ps: 数仓、数开、数据挖掘的职位就在第二阶段 

3.三、数据解释           

数据分析是大数据处理的核心,可是用户每每更关心对结果的解释。若是分析的结果正确,可是没有采用适当的方法进行解释,则所获得的结果极可能让用户难以理解,极端状况下甚至会引发用户的误解。数据解释的方法不少,比较传统的解释方式就是以文本形式输出结果或者直接在电脑终端上显示结果。这些方法在面对小数据量时是一种可行的选择。可是大数据时代的数据分析结果每每也是海量的,同时结果之间的关联关系极其复杂,采用传统的简单解释方法几乎是不可行的。
 
解释大数据分析结果时,能够考虑从如下两个方面提高数据解释能力。
 
1)引入可视化技术。可视化做为解释大量数据最有效的手段之一率先被科学与工程计算领域采用。该方法经过将分析结果以可视化的方式向用户展现,可使用户更易理解和接受。常见的可视化技术有标签云、历史流、空间信息流等。
 
2)让用户可以在必定程度上了解和参与具体的分析过程。这方面既能够采用人机交互技术,利用交互式的数据分析过程来引导用户逐步地进行分析,使得用户在获得结果的同时更好地理解分析结果的过程,也能够采用数据溯源技术追溯整个数据分析的过程,帮助用户理解结果。

一、什么是大数据?

        1.一、概念:

大数据自己是一个抽象的概念。
从通常意义上讲,大数据是指没法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。
通常状况下,若是当前的工具没法处理一个数据集的话,那么这个数据集在当下就会被称之是大数据集;
目前,业界对大数据尚未一个统一的定义,可是你们广泛认为,大数据具有 Volume、Velocity、Variety 和 Value 四个特征,简称“4V”,即数据体量巨大、数据速度快、数据类型繁多和数据价值密度低,
技术分享图片
主要有4V特征:
1)Volume:表示大数据的数据体量巨大。
数据集合的规模不断扩大,已经从 GB 级增长到 TB 级再增长到 PB 级,近年来,数据量甚至开始以 EB 和 ZB 来计数。
例如,一个中型城市的视频监控信息一天就能达到几十 TB 的数据量。百度首页导航天天须要提供的数据超过 1-5PB,若是将这些数据打印出来,会超过 5000 亿张 A4 纸。
图 2 展现了每分钟互联网产生的各种数据的量。
                     互联网每分钟产生的数据
2)Velocity:表示大数据的数据产生、处理和分析的速度在持续加快。
加速的缘由是数据建立的实时性特色,以及将流数据结合到业务流程和决策过程当中的需求。
数据处理速度快,处理模式已经开始从批处理转向流处理。
业界对大数据的处理能力有一个称谓——“ 1 秒定律”,也就是说,能够从各类类型的数据中快速得到高价值的信息。大数据的快速处理能力充分体现出它与传统的数据处理技术的本质区别。
 
3)Variety:表示大数据的数据类型繁多。
传统 IT 产业产生和处理的数据类型较为单一,大部分是结构化数据。
随着传感器、智能设备、社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生的数据类型无以计数。
如今的数据类型再也不只是格式化数据,更多的是半结构化或者非结构化数据,如 XML、邮件、博客、即时消息、视频、照片、点击流、  日志文件等。
企业须要整合、存储和分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。
 
4)Value:表示 大数据的数据价值密度低
大数据因为体量不断加大,单位数据的价值密 度在不断下降,然而数据的总体价值在提升。
以监控视频为例,在一小时的视频中,有用的数据可能仅仅只有一两秒,可是却会很是重要。
如今许多专家已经将大数据等同于黄金和石油,这表示大数据 当中蕴含了无限的商业价值
 
根据中商产业研究院发布的《2018-2023 年中国大数据产业市场前景及投资机会研究报告》显示,2017 年中国大数据产业规模达到 4700 亿元,同比增加 30%。
随着大数据在各行业的融合应用不断深化,预计 2018 年中国大数据市场产值将突破 6000 亿元达到 6200 亿元。
 
经过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润。

        1.二、大数据的产生:

                    
大数据是信息通讯技术发展积累至今,按照自身技术发展逻辑,从提升生产效率向更高级智能阶段的天然生长。
无处不在的信息感知和采集终端为咱们采集了海量的数据,而以云计算 为表明的计算技术的不断进步,为咱们提供了强大的计算能力。
从采用数据库做为数据管理的主要方式开始,人类社会的数据产生方式大体经历了 3 个阶段,而正是数据产生方式的巨大变化才最终致使大数据的产生。

1)运营式系统阶段。

数据库的出现使得数据管理的复杂度大大下降,在实际使用中,数据库大多为运营系统所采用,做为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。
人类社会数据量的第一次大的飞跃正是在运营式系统开始普遍使用数据库时开始的。
这个阶段的最主要特色是,数据的产生每每伴随着必定的运营活动;并且数据是记录在数据库中的,例如,商店每售出一件产品就会在数据库中产生一条相应的销售记录。这种数据的产生方式是被动的。

2)用户原创内容阶段。

互联网的诞生促令人类社会数据量出现第二次大的飞跃,可是真正的数据爆发产生于 Web 2.0 时代,而 Web 2.0 的最重要标志就是用户原创内容。这类数据近几年一直呈现爆炸性的增加。主要有如下两个方面的缘由。
    • 是以博客、微博和微信为表明的新型社交网络的岀现和快速发展,使得用户产生数据的意愿更增强烈。
    • 是以智能手机、平板电脑为表明的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表本身意见的途径更为便捷。这个阶段的数据产生方式是主动的。

3)感知式系统阶段。

 
 
人类社会数据量第三次大的飞跃最终致使了大数据的产生,今天咱们正处于这个阶段。此次飞跃的根本缘由在于感知式系统的普遍使用。
 
随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备普遍地布置于社会的各个角落,经过这些设备来对整个社会的运转进行监控。
这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。
简单来讲,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本缘由。

二、大数据产生的意义?

             2.一、大数据的做用已经意义:

大数据虽然孕育于信息通讯技术,但它对社会、经济、生活产生的影响毫不限于技术层面。
更本质上,它是为咱们看待世界提供了一种全新的方法,即决策行为将日益基于数据分析,而不是像过去更多凭借经验和直觉。具体来说,大数据将有如下做用。
1)对大数据的处理分析正成为新一代信息技术融合应用的结点。
移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。
云计算为这些海量、多样化的大数据提供存储和运算平台。经过对不一样来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值,大数据具备催生社会变革的能量。
2)大数据是信息产业持续高速增加的新引擎。
面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生出一体化数据存储处理服务器、内存计算等市场。
在软件与服务领域,大数据将引起数据快速处理分析技术、数据挖掘技术和软件产品的发展。
3)大数据利用将成为提升核心竞争力的关键因素。
各行各业的决策正在从“业务驱动”向“数据驱动”转变。在商业领域,对大数据的分析可使零售商实时掌握市场动态并迅速作出应对,能够为商家制定更加精准有效的营销策略提供决策支持,能够帮助企业为消费者提供更加及时和个性化的服务。
在医疗领域,可提升诊断准确性和药物有效性。
在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要做用。
4)大数据时代,科学研究的方法手段将发生重大改变。
例如,抽样调查是社会科学的基本研究方法,在大数据时代,研究人员可经过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。

三、大数据的处理流程?

         大数据的数据来源普遍,应用需求和数据类型都不尽相同,可是 最基本的处理流程是一致的
         整个大数据的处理流程能够定义为,在合适工具的辅助下,对普遍异构的数据源进行抽取和集成,将结果按照必定的标准进行统一存储,而后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,并利用恰当的方式将结果展示给终端用户。
         具体来说,大数据处理的基本流程能够分为数据抽取与集成、数据分析和数据解释等步骤。

    3.一、数据的抽取与集成

大数据的一个重要特色就是多样性,这就意味着数据来源极其普遍,数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。
要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出数据的实体和关系,通过关联和聚合以后采用统必定义的结构来存储这些数据。
在数据集成和提取时,须要对数据进行清洗,保证数据质量及可信性。同时还要特别注意大数据时代数据模式和数据的关系,大数据时代的数据每每是先有数据再有模式,而且模式是在不断的动态演化之中的。
数据抽取和集成技术并非一项全新的技术,在传统数据库领域此问题就已经获得了比较成熟的研究。随着新的数据源的涌现,数据集成方法也在不断的发展之中。
从数据集成模型来看,现有的数据抽取与集成方式能够大体分为 4 种类型:基于物化或 ETL 方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎,以及基于搜索引擎的方法。
          ETL 数据清洗工程师
         ETL ,是英文Extract-Transform-Load的缩写,用来描述将数据历来源端通过萃取(extract)、转置(transform)、加载(load)至目的端的过程。 ETL 一词较经常使用在 数据仓库 ,但其对象并不限于 数据仓库
意义 : 把非结构化 不能处理的数据 转成 结构化能够处理的数据 hive hbase 

3.二、数据分析

数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。
从异构数据源抽取和集成的数据构成了数据分析的原始数据。
根据不一样应用的需求能够从这些数据中选择所有或部分进行分析。
 
小数据时代的分析技术,如统计分析、数据挖掘和机器学习等,并不能适应大数据时代数据分析的需求,必须作出调整。
大数据时代的数据分析技术面临着一些新的挑战,主要有如下几点。
 
 
1)数据量大并不必定意味着数据价值的增长,相反这每每意味着数据噪音的增多。
 
所以,在数据分析以前必须进行数据清洗等预处理工做,可是预处理如此大量的数据,对于计算资源和处理算法来说都是很是严峻的考验。
 
2)大数据时代的算法须要进行调整。 --> java Math 类掌握
 
首先,大数据的应用经常具备实时性的特色,算法的准确率再也不是大数据应用的最主要指标。在不少场景中,算法须要在处理的实时性和准确率之间取得一个平衡。
 
其次,分布式并发计算系统是进行大数据处理的有力工具,这就要求不少算法必须作出调整以适应分布式并发的计算框架,算法须要变得具备可扩展性。
许多传统的数据挖掘算法都是线性执行的,面对海量的数据很难在合理的时间内获取所需的结果。所以须要从新把这些算法实现成能够并发执行的算法,以便完成对大数据的处理。
最后,在选择算法处理大数据时必须谨慎,当数据量增加到必定规模之后,能够从小量数据中挖掘出有效信息的算法并必定适用于大数据。
3)数据结果的衡量标准。
对大数据进行分析比较困难,可是对大数据分析结果好坏的衡量倒是大数据时代数据分析面临的更大挑战。
大数据时代的数据量大,类型混杂,产生速度快,进行分析的时候每每对整个数据的分布特色掌握得不太清楚,从而会致使在设计衡量的方法和指标的时候遇到许多困难。
 
                        ps: 数仓、数开、数据挖掘的职位就在第二阶段 

3.三、数据解释           

数据分析是大数据处理的核心,可是用户每每更关心对结果的解释。若是分析的结果正确,可是没有采用适当的方法进行解释,则所获得的结果极可能让用户难以理解,极端状况下甚至会引发用户的误解。数据解释的方法不少,比较传统的解释方式就是以文本形式输出结果或者直接在电脑终端上显示结果。这些方法在面对小数据量时是一种可行的选择。可是大数据时代的数据分析结果每每也是海量的,同时结果之间的关联关系极其复杂,采用传统的简单解释方法几乎是不可行的。
 
解释大数据分析结果时,能够考虑从如下两个方面提高数据解释能力。
 
1)引入可视化技术。可视化做为解释大量数据最有效的手段之一率先被科学与工程计算领域采用。该方法经过将分析结果以可视化的方式向用户展现,可使用户更易理解和接受。常见的可视化技术有标签云、历史流、空间信息流等。
 
2)让用户可以在必定程度上了解和参与具体的分析过程。这方面既能够采用人机交互技术,利用交互式的数据分析过程来引导用户逐步地进行分析,使得用户在获得结果的同时更好地理解分析结果的过程,也能够采用数据溯源技术追溯整个数据分析的过程,帮助用户理解结果。
相关文章
相关标签/搜索