大数据时代数据处理技术及应用

大数据时代数据处理技术及应用     算法

  现现在,人们所处的社会是信息化社会,人们再也不认为数据是静止而陈旧的。之前,一旦完成了数据收集的目的后,数据便会没有任何用处变为废弃物。例如在火车到达终点站后,火车票的数据就没有用处了。而现现在数据已经成为了一种商业资本,一项重要的经济投入,能够创造更多的经济利益。现代社会的一切事物几乎都是由互联网为基础而衍生的无数行业与机遇,那么在这个极具机遇与挑战的信息时代咱们天天都在接触、使用、传播、产生数之不尽的数据,而这些存储在云端服务器的海量0、1编码便逐步汇集成为了大数据。数据在这个时代已经成为一种资源,一种筹码,由于它不为人们所感知,但却与咱们每个互联网用户如影随行,日夜相伴。数据库

    如今咱们每一个人口袋里都有一个移动智能终端,它时时刻刻都在不停地记录、传输、接收着大量的信息,而网络将无数智能终端联系在一块儿,共同构成了一个庞大的关系网络,纷繁复杂。而云端服务器将这些存储下来,在一系列高端算法的分析与概括即可以获得必定质量的事件预测。这仅仅是一个开始,大数据时代对咱们的生活,以及整个世界交流的方式提出了挑战。最使人震惊的是,社会须要放弃它对于因果关系的渴求,而仅仅须要关注相关关系。也就是咱们只须要知道是什么,而不须要知道为何。编程

1、   大数据的特色服务器

大数据5V特征:网络

  1.Volume(大致量):便可从数百TB到数十数百PB、甚至EB的规模。过去的时代是小数据时代,只能利用随机抽样的方法对某一项数据用局部替代总体,并渴望从最少的数据得到最多的信息,可是这样的方法是有很大局限性的,例如人口普查,只能挨个的去记录和整理,那么当数据收集齐全时,数据自己就已通过时了,那是徒劳的,低效的。而在当今的大数据时代,数据再也不深藏于各处,而是即时上传、记录、分析、存储。这不只使得数据被最大化的利用,而且使得全部的数据都能“发声”,告诉人们想获得的信息,并从中得到相应的利益。分布式

  二、Variety(多样性):即大数据包括各类格式和形态的数据。获得数据的方法数之不尽,曾今咱们对于数据的认识是片面的,咱们单纯的认为数据只是指数值类数据,但在互联网时代,一切事物都是能够被“量化”的,你说的话,打印的文字,看的书籍,浏览的网页等都被称为数据,由于在互联网时代数据是使用约定俗成的关键词,对客观事物的数量、属性、位置及其相互关系进行抽象表示,以适合在这个领域中用人工或天然的方式进行保存、传递和处理。包括的范围极为普遍,几乎能够容纳一切事物。事物的种类繁杂与多样化便使得大数据时代具备多样性,举个例子:沃尔玛超市员工将啤酒和尿布摆放在一块儿,而两者的联系就是经过大数据分析所发现的。因而可知任何两种或多种彻底不相干的事物在大数据的分析下均可以拥有直接或间接地联系。正如六度空间理论。难以证明,但却客观存在。函数

  三、Velocity(时效性):即不少大数据须要在必定的时间限度下获得及时处理。在前面的大致量中也已经阐述了在现代信息爆炸的时代,数据量与秒俱增,信息量大的十分可怕,海量数据“喷涌”而出,甚是惊人,而数据的价值也如新闻通常,一旦超过了“保质期”,再多的数据也只不过是昨日黄花,一文不值。生活中的许许多多的数据都具备时效性,例如人口普查的数据、飞机票等相关数据若是不可以实时更新,便会给人们的生活带来许多不便。从而大数据的时效性相当重要。工具

  四、Veracity(准确性):即处理的结果要保证必定的准确性。数据收集时不可避免的会收集到许许多多的虚假信息,而这些不真实的信息必然会给后期的数据记录和分析带来偏差。那么在大数据时代对于数据的真实性与准确性也有必定的要求。post

  五、Value(大价值):即大数据包含不少深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。就拿咱们最经常使用的购物APP—“淘宝”来讲吧,淘宝是阿里旗下的网购应用平台,天天有数以亿计的人们使用它,而在淘宝的云端服务器,天天都在处理着无数的数据,卖家的信息、买家的信息、商品的相关信息、物流信息,这些数据聚集起来便构成了一个大数据,阿里便经过买家的浏览商品的记录和下单的记录为买家接连不断的推荐相关商品,以后你的淘宝主界面便全都是你所关注的同类型商品(固然对于不常使用的人来讲这是一件使人反感的事情,例如我本身)并且每当你打开淘宝,便会向你推荐一堆你以前买过或浏览过的商品,这对于购物爱好者们天然是一件开心而且享受的事情,对于卖家也是如此。这个流程即是大数据的分析所带来的巨大商业利益。记录“足迹”,分析喜爱,推荐商品,用户下单,阿里即可轻松获取巨额利益。因而可知大数据的商业价值无处不在。学习

2、大数据处理算法

   在给定的资源约束下,以大数据为输入,再给定时间约束内可生成知足给订约束结果的算法称为大数据算法。大数据处理算法能够不是一个精确的算法,由于在海量的数据面前,人们逐渐开始以损失必定的精确度来换取大数据里蕴藏的丰富资源,由于大数据中的精确性再也不是人们最关心的事物了,由于在大量的数据面前,精确是几乎不可能作到的,那么大数据所具有的性质便由精确性转变为了混杂性,全部数据都集中在一块,并且种类繁多,甚是惊人。而对于大数据的处理也有着各类各样的困难,而针对不一样种类的困难,算法设计师们也设计出了相应的算法来解决对应的困难。具体的困难分为以下四种:

1)  访问所有数据的时间过长。

解决方法:那么咱们则能够应用读取部分数据的方法来实现对于庞大数据的快速处理的功能。而对应的算法则是---时间亚性算法。该算法的实现过程以下

输入:m个顶点的平面图,任意两点之间的距离存储在矩阵D中,即点i到点j的距离为Dij

    -输入大小是n=m2

    -最大的Dij是图的直径

    -点之间的距离对称且知足三角不等式

输出:该图的直径和距离最大的Dij

要求: 运行时间为o(n)

2)  数据难以放入内存计算

解决方法一:将数据存储在磁盘上----外存算法

 

解决方法二:仅基于少许数据进行计算----空间亚线性算法

过程以下:

输入:一组数据,其大小未知

输出:这组数据的k个均匀抽样

要求:

    --仅扫描数据一次

    --空间复杂性为O(k)

    --扫描到数据的前n个数字时(n>k),保存当前已扫描数据的k个均匀抽样

 

3)  单个计算机难以保存所有数据,计算须要总体数据

解决方案:并行处理----------并行算法

介绍以下:

MapReduce 是由Google公司的Jeffrey Dean 和 Sanjay Ghemawat 开发的分布式编程模型。

•MapReduce实现了两个主要功能

–Map把一个函数应用于集合中的全部成员,而后返回一个基于这个处理的结果集。

–Reduce是把从两个或更多个Map中,经过多个线程,进程或者独立系统并行执行处理的结果集进行分类和概括。

–Map() 和 Reduce() 两个函数可能会并行运行,即便不是在同一的系统的同一时刻。

*MapReduce模型

用户定义的MapReduce函数(无状态)

•输入: 一个key/value对元组的列表 (k1/v1)

    –用户的map函数被应用于每一个key/value对

    –产生中间key/value对列表

•输出: 一个key/value对元组的列表 (k2/v2)

    –中间值基于key值分组

    –用户的reduce函数被应用于每一个组

•每一个元组都是独立的

    –能够用分布式大规模并行的方式进行处理

    –总输入能远大于工人的内存

 

4)  计算能力不足或知识不足

解决方法:众包算法

众包:

    •协调一个群体(互联网上的一大群人)作 “微工做” (每人作一点贡献) 来解决软件或者单我的难以解决的问题

    •经过一系列的机制和方法来指导和协调群体的行为,从而达到目的

例如:Wikipedia,amazon。

   算法多种多样,但对于大数据算法而言并无高低之分,就如同厨房里的油盐酱醋通常,并无地位高低,它们互相发挥着自身的特色,使得厨房可以为咱们呈上一道又一道的美食,算法亦如此,各有所长各有所短,取长补短,相互配合才能让大数据最大化的为人们所利用,促使互联网时代更加蓬勃发展,生机盎然。

3、   大数据的商业应用

现在大数据的商业应用主要集中在行为标签、智能推荐、管理系统、数据整理与展现以及广告检测智能系统等,国内外大量企业都已经开始或准备开始利用大数据创造新的利润增加点。由此将大数据应用发展到社会的各行各业,小到我的生活,大到企业国家的发展,大数据也逐渐变成了一种极为宝贵的商业资源。

大数据的商业应用分为八类,城市生活、金融行业、零售行业、农牧业、房地产行业、广告业、医疗行业、互联网技术。其中最引人关注的即是金融行业。大数据在金融行业应用范围较广,典型的案例有花旗银行利用IBM沃森电脑为财富管理客户推荐产品,美国银行利用客户点击数据集为客户提供特点服务。中国金融行业大数据应用开展的较早,但都是以解决大数据效率问题为主,不少金融行业创建了大数据平台,对金融行业的交易数据进行采集和处理。

金融行业过去的大数据应用以分析自身财务数据为主,以提供动态财务报表为主,以风险管理为主。在大数据价值变现方面,开展的不够深刻,这同金融行业每一年上万亿的净利润相比是不匹配的。如今已经有一些银行和证券开始和移动互联网公司合做,一块儿进行大数据价值变现,其中招商银行、平安集团、兴业银行、国信证券、海通证券和TalkingData在移动大数据精准营销、获客、用户体验等方面进行了很多的尝试,大数据价值变现效果还不错,大数据正在帮助金融行业进行价值变现。大数据在金融行业的应用能够总结为如下五个方面:

  (1)精准营销:依据客户消费习惯、地理位置、消费时间进行推荐

  (2)风险管控:依据客户消费和现金流提供信用评级或融资支持,利用客户社交行为记录实施信用卡反欺诈

  (3)决策支持:利用抉策树技术进抵押贷款管理,利用数据分析报告实施产业信贷风险控制

  (4)效率提高:利用金融行业全局数据了解业务运营薄弱点,利用大数据技术加快内部数据处理速度

  (5)产品设计:利用大数据计算技术为财富客户推荐产品,利用客户行为数据设计知足客户需求的金融产品

    大数据已然深刻到咱们生活的方方面面,互联网时代天天也在发生着翻天覆地的变化,一次又一次的互联网产业的变革都将会主导着整个社会的变革。大数据向咱们展现了一个又一个神奇而美好的预测与结果,可是数据的根源依然是人类自己,若是本身可以很好的把握住本身的生活与行为,在加以大数据的分析的参考答案,咱们将不断改进和创新,向全世界释放无限的价值,促令人类世界更加美好与便捷。人类自身的命运应由咱们本身来掌控,而非麻木的为冰冷机器所主宰。20世纪末,咱们迎来了PC互联网时代,5年前咱们迎来了移动互联网时代,几年后全新的互联网时代又将向咱们走来,将来是科技的,将来是神秘的,每一个人都憧憬着更加美好的将来,而当下的人们正在让本身的将来逐渐流失与手心,信息社会是繁华的、廉价的、共享的、同时也是危险的。但凡人们没法控制人性的阴暗面,那么互联网与大数据将会成为一个任人操纵的掠夺工具,正如一年前的电信诈骗案—“徐玉玉案”,犯罪嫌疑人经过非法手段获取了她的全部身份信息以及她的家人的详细信息,以后便骗取了她的大学报名费,致使了受害人伤心欲绝,最终不幸离开人世。社会是多元的,数据是无罪的,可是当咱们没法正确的使用这一切时,危险也将愈来愈近。而网络世界的无尽繁华也一样使得众多青少年丧失自我,例子更是举不甚举。大数据与互联网让咱们明白了信息时代的美丽,也一样让咱们感到了危机,由于时代飞速发展,思想和知识如果跟不上时代的步伐,往后的生活一定是举步维艰,假若有心成为人上人,那么就应当务实基础,脚踏实地的学习与作人,在正确的时间作正确的事,将来就在眼前,让咱们一块儿拥抱这个伟大的时代吧!

                                                                                                                 ------------yuhaow【数据库课程小论文】

 
 
 
好文要顶  关注我 
相关文章
相关标签/搜索