走进大数据的世界

在这个网络飞速发展的时代,PC、手机愈来愈智能,每一个人链接网络世界的成本愈来愈低,端产生的流量就愈来愈庞大,若是把这些数据都存储下来利用,大数据就诞生了。咱们作个简单的计算:中国7亿(15年统计)手机网民,天天浏览30分钟网页(图片、视频流量更大),大约会浏览30个网页,每一个网页1KB流量,则会产生30KB流量,那么全国手机网民会产生至少20P数据流量。这么大的数据,如今我的硬盘最大也才16T吧,可是全国网民天天都要产生1000个最大硬盘的数据,对服务商来讲,如此庞大的数据,就是大数据了。若是想要将这个庞大的数据利用起来,好比作个智能推荐的功能,那就涉及到下面要介绍的大数据相关的技术了。sql

img

谁会用大数据

大数据的利用价值还在不断被挖掘,就像一个巨大的宝藏库。目前,大数据大多在金融、电商、信用评估、视频等领域,而且作智能推荐的较多。比较知名的企业:数据库

  • 亚马逊 | 阿里巴巴 | 美团 等电商利用大数据作智能推荐和广告决策
  • 银行 | 信贷 等征信企业会经过大数据评估我的或企业的信用等级
  • T-Mobile | 中国移动 等移动运营商经过大数据智能推荐消费套餐
  • YouTube | 搜狐 等视频网站经过大数据智能推荐视频
  • Starbucks 等餐饮企业经过大数据决策店面地区和位置

消费者研究公司Mintel在2015年的报告中指出43%的喝茶饮的顾客不会添加糖,星巴克便根据这份报告创造了两个不加糖的冰茶K-杯、芒果绿色冰茶桃色红茶。网络

iced-tea

大数据怎么存储

目前存储大数据通常采用NoSQL (Not Only SQL)分布式数据库。架构

传统的数据库如Oracle、MySql等都是关系型数据库,存储的是结构化的数据,能够经过SQL语句进行增删改查等操做。可是NoSQL是一种能够水平向扩展以及分布式计算的数据存储技术,存储半结构化的数据,而且再也不使用SQL语句做为操做方式,而是使用列存储或者key-value等多种形式进行存储查询操做。框架

常见的NoSQL数据库分类:机器学习

  • 列存储: HBase
  • 文档存储: MongoDB
  • Key-Value存储: Redis

nosql-vs-sql

使用NoSQL的公司有:Google、Facebook、Adobe、Linkedin等nosql

大数据怎么处理

因为大数据的数据量之大,传统的数据处理软件很难快速的计算出想要的结果,所以大数据的处理技术也相对较困难和复杂。通常的,处理大数据会使用如下流程:分布式

1. 数据采集

首先须要从传统的(分布式)数据库中读取数据,进行清洗、转换、集成,最后加载到数据仓库。学习

二、数据存取

通常以分布式云存储为架构,存储时须要使用NoSQL数据库为主,关系数据库为辅的方式进行存储。大数据

三、数据处理

对数据的处理通常采用天然语言处理,天然语言处理是研究人与计算机交互的语言问题的一门学科。天然语言处理后能将数据进行分割成很小的单位。

四、统计分析

统计分析时会利用多种分析技术,如logistic回归分析、聚类分析、假设检验、显著性检验、等。

五、数据挖掘

挖掘有价值的数据,采用的手段如分类、估计、预测、相关性分组或关联规则、聚类。  

六、模型预测

该阶段的目的是进行将来目标预测,经过创建预测模型、机器学习、建模仿真等手段进行计算。 

七、结果呈现

最终的处理结果会经过云计算、标签云、关系图等进行展现。

处理大数据的框架愈来愈多,使得处理大数据也愈来愈方便,但更多的是根据商业用途和业务场景进行划分,选取最合适的技术最重要。

bigdata-hanle

大数据离咱们远吗?

大数据好像生来就是大企业在玩儿的东西,虽然咱们每一个人可能都贡献了一些数据,但咱们离大数据是否是很远?答案是否。最典型的,淘宝的商品推荐功能。想必每一个人都有淘宝购物的经历,在准备搜索某个宝贝的时候,淘宝客户端会实时推送不一样的商品,有时候用户会发现推送的商品正是本身想要购买的。但用户并无该商品的购买记录。那淘宝是如何作到的呢?答案就是大数据+智能推荐。淘宝背后正是对千万用户的消费习惯进行分析挖掘,才能作到这样的准确推荐。

相关文章
相关标签/搜索