1.大数据概述

大数据具备四个特征:

数据量大(Volume)数据库

大数据的起始数据单位至少是拍字节(约1000个太字节)、艾字节(约1000个拍字节)或泽字节(约1000个艾字节)。架构

类型繁多(Variety)框架

大数据的数据格式是多样化的,如文字、图片、视频、音频、地理位置信息等,数据也能够有不用的来源,如传感器,互联网等。分布式

价值密度低(Value)工具

随着物联网的普遍应用,信息感知无处不在,信息海量,但价值密度较低,例如监控视频,在接二连三的监控中,有用的数据可能仅有一二秒。如何经过强大的计算机更迅速的完成数据的价值“提纯”成为目前大数据背景下亟待解决的问题。oop

速度快,时效高(Velocity)学习

速度快这一点是大数据区分与传统数据挖掘最显著的特征。到目前2020年,全球数据使用量达到了大约35泽字节(35ZB)。另外数据还具备必定的时效性,是不停变化的,数据量能够随时间逐渐增大,也可在空间上不断移动变化的数据。若是采集到的数据不通过流转,最终会过时做废。(如数据处理软件达不到”秒”处理,所带来的商业价值就会大打折扣)。大数据

大数据身边的应用案例:

大数据在医疗领域的应用优化

医疗行业很早就遇到了海量数据和非结构数据的挑战,而近年来不少国家都在积极推动医疗信息化发展,这使得不少医疗机构有资金来作大数据分析。云计算

大数据在零售和电商行业的应用

零售行业能够利用大数据技术进行精准营销。例如,商家能够更具客户消费喜爱和趋势,进行商品的精准营销,下降营销成本。在将来,电商还能够利用大数据预测流行趋势、消费趋势、地域消费特色、客户消费习惯、各类消费行为的相关热度、消费热点、影响消费的重要因素等。

大数据在金融行业的应用

大数据在金融行业应用范围较广。大数据在金融行业的应用能够总结为如下5个方面:精准营销,风险管控,决策支持,效率替身,产品设计。

大数据在交通出行领域的应用

目前,交通领域的大数据应用主要体如今两个方面,一方面能够利用大数据来实现即时信号灯调度,提升已有线路运行能力。另外一方面经过大数据了解车辆密度,合理进行道路规划。

大数据在教育领域的应用

大数据教育领域的应用主要集中在自适应个性化学习、英语语音测评、教育机器人、只能陪练、分级阅读等几个方面。

大数据在制造业的应用

在将来,利用工业大数据将提高制造业水平,主要集中在产品故障诊断与预测、分析工艺流程、改进生产工艺、优化生产过程能耗、工业供应链分析与优化、生产计划与排程等方面。

大数据的处理流程:

数据收集

大数据的采集不是抽样调查,它强调数据尽量完整和全面,尽可能保证每个数据精确有用。对于Web数据,多采用爬虫方式进行收集,这须要对爬虫软件进行时间设置以保障收集到的数据具备时效性。(数据的采集技术有ETL工具,如Sqoop等、日志采集工具(如Flume,Kafka等))。

数据预处理与存储

大数据收集来的数据会有不少重复数据、无用数据、噪声数据,会有数据值缺失和数据冲突的状况等,因此须要对数据进行预处理和清洗。(预处理环节主要包括数据清理、数据集成、数据归约、数据转换处理等内容)

数据处理与分析

数据处理,数据的分布式处理技术与存储形式和业务数据类型相关。大数据处理的主要模型有MapReduce分布式计算框架、Spark分布式内存计算系统、Storm分布式流计算系统等。

数据分析,大数据分析技术包括已有数据的分布式统计分析技术和未知数据的分布式挖掘、深度学习技术三种。分布式统计分析可由数据处理完成,分布式挖掘和深度学习则在大数据分析阶段完成。

数据可视化与应用环节

数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互式处理。因此,大数据可视化是影响大数据可用性和易于理解性质量的关键因素。

大数据、云计算、人工智能的关系:

云计算与大数据

大数据必然没法用单台的计算机进行处理,必须采用分布式架构,它的特点在于对海量数据进行分布式数据挖掘。因此它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。云计算的应用须要大数据,而云计算则为大数据的处理和数据挖掘提供了最佳的技术解决方案。总体来看是相辅相成,不断发展的关系。

大数据与人工智能的关系

若是把人工智能比做一个无限潜力的婴儿,某一领域专业的海量的深度的数据就是喂养这个婴儿的奶粉。奶粉的数量决定了婴儿是否能长大,而奶粉的质量则决定婴儿后续的智力发育水平。

可是不是全部问题只要有,就可以作到这么好,这要受限于4个条件限制:首先是须要有大量的数据,第二是彻底信息,第三是肯定性,第四是但领域和单任务。只有这4个限定条件知足后才有可能作到达到或者超过人类水平的人工智能。

大数据分类存储的方式:

存储主要利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理。

大数据如何进行预处理:

数据清理

对数据的不一致检测、噪声数据的识别、数据过滤与修正等。

数据集成

将多个数据源的数据进行集成,从而造成集中、统一的数据库、数据立方体等。

数据归约

在不损害分析结果准确性的前提降低低数据集规模,使之简化,包括维归约、数量规约、数据抽样等技术。

数据转换处理

包括基于规则或元数据的转换、基于模型与学习的转换等技术,可用过转换实现数据统一,有利于提升大数据的一致性和可用性。

 

 

————摘自北京邮电大学出版社的《大数据导论初版》