在这个网络飞速发展的时代,PC、手机愈来愈智能,每一个人链接网络世界的成本愈来愈低,端产生的流量就愈来愈庞大,若是把这些数据都存储下来利用,大数据就诞生了。咱们作个简单的计算:中国7亿(15年统计)手机网民,天天浏览30分钟网页(图片、视频流量更大),大约会浏览30个网页,每一个网页1KB流量,则会产生30KB流量,那么全国手机网民会产生至少20P数据流量。这么大的数据,如今我的硬盘最大也才16T吧,可是全国网民天天都要产生1000个最大硬盘的数据,对服务商来讲,如此庞大的数据,就是大数据了。若是想要将这个庞大的数据利用起来,好比作个智能推荐的功能,那就涉及到下面要介绍的大数据相关的技术了。sql
大数据的利用价值还在不断被挖掘,就像一个巨大的宝藏库。目前,大数据大多在金融、电商、信用评估、视频等领域,而且作智能推荐的较多。比较知名的企业:数据库
- 亚马逊 | 阿里巴巴 | 美团 等电商利用大数据作智能推荐和广告决策
- 银行 | 信贷 等征信企业会经过大数据评估我的或企业的信用等级
- T-Mobile | 中国移动 等移动运营商经过大数据智能推荐消费套餐
- YouTube | 搜狐 等视频网站经过大数据智能推荐视频
- Starbucks 等餐饮企业经过大数据决策店面地区和位置
消费者研究公司Mintel在2015年的报告中指出43%的喝茶饮的顾客不会添加糖,星巴克便根据这份报告创造了两个不加糖的冰茶K-杯、芒果绿色冰茶桃色红茶。网络
目前存储大数据通常采用NoSQL (Not Only SQL)分布式数据库。架构
传统的数据库如Oracle、MySql等都是关系型数据库,存储的是结构化的数据,能够经过SQL语句进行增删改查等操做。可是NoSQL是一种能够水平向扩展以及分布式计算的数据存储技术,存储半结构化的数据,而且再也不使用SQL语句做为操做方式,而是使用列存储或者key-value等多种形式进行存储查询操做。框架
常见的NoSQL数据库分类:机器学习
- 列存储: HBase
- 文档存储: MongoDB
- Key-Value存储: Redis
使用NoSQL的公司有:Google、Facebook、Adobe、Linkedin等nosql
因为大数据的数据量之大,传统的数据处理软件很难快速的计算出想要的结果,所以大数据的处理技术也相对较困难和复杂。通常的,处理大数据会使用如下流程:分布式
首先须要从传统的(分布式)数据库中读取数据,进行清洗、转换、集成,最后加载到数据仓库。学习
通常以分布式云存储为架构,存储时须要使用NoSQL数据库为主,关系数据库为辅的方式进行存储。大数据
对数据的处理通常采用天然语言处理,天然语言处理是研究人与计算机交互的语言问题的一门学科。天然语言处理后能将数据进行分割成很小的单位。
统计分析时会利用多种分析技术,如logistic回归分析、聚类分析、假设检验、显著性检验、等。
挖掘有价值的数据,采用的手段如分类、估计、预测、相关性分组或关联规则、聚类。
该阶段的目的是进行将来目标预测,经过创建预测模型、机器学习、建模仿真等手段进行计算。
最终的处理结果会经过云计算、标签云、关系图等进行展现。
处理大数据的框架愈来愈多,使得处理大数据也愈来愈方便,但更多的是根据商业用途和业务场景进行划分,选取最合适的技术最重要。
大数据好像生来就是大企业在玩儿的东西,虽然咱们每一个人可能都贡献了一些数据,但咱们离大数据是否是很远?答案是否。最典型的,淘宝的商品推荐功能。想必每一个人都有淘宝购物的经历,在准备搜索某个宝贝的时候,淘宝客户端会实时推送不一样的商品,有时候用户会发现推送的商品正是本身想要购买的。但用户并无该商品的购买记录。那淘宝是如何作到的呢?答案就是大数据+智能推荐。淘宝背后正是对千万用户的消费习惯进行分析挖掘,才能作到这样的准确推荐。