大数据分析案例

部分数据来源于网络,若有侵权请告知。html

1、大数据分析在商业上的应用

一、体育赛事预测前端

世界杯期间,谷歌、百度、微软和高盛等公司都推出了比赛结果预测平台。百度预测结果最为亮眼,预测全程64场比赛,准确率为67%,进入淘汰赛后准确率为94%。如今互联网公司取代章鱼保罗试水赛事预测也意味着将来的体育赛事会被大数据预测所掌控。android

“在百度对世界杯的预测中,咱们一共考虑了团队实力、主场优点、最近表现、世界杯总体表现和博彩公司的赔率等五个因素,这些数据的来源基本都是互联网,随后咱们再利用一个由搜索专家设计的机器学习模型来对这些数据进行汇总和分析,进而作出预测结果。”---百度北京大数据实验室的负责人张桐git

 

 

二、股票市场预测github

去年英国华威商学院和美国波士顿大学物理系的研究发现,用户经过谷歌搜索的金融关键词或许能够金融市场的走向,相应的投资战略收益高达326%。此前则有专家尝试经过Twitter博文情绪来预测股市波动。算法

理论上来说股市预测更加适合美国。中国股票市场没法作到双向盈利,只有股票涨才能盈利,这会吸引一些游资利用信息不对称等状况人为改变股票市场规律,所以中国股市没有相对稳定的规律则很难被预测,且一些对结果产生决定性影响的变量数据根本没法被监控。数据库

目前,美国已经有许多对冲基金采用大数据技术进行投资,而且收获甚丰。中国的中证广发百度百发100指数基金(下称百发100),上线四个多月以来已上涨68%。编程

和传统量化投资相似,大数据投资也是依靠模型,但模型里的数据变量几何倍地增长了,在原有的金融结构化数据基础上,增长了社交言论、地理信息、卫星监测等非结构化数据,而且将这些非结构化数据进行量化,从而让模型能够吸取。api

因为大数据模型对成本要求极高,业内人士认为,大数据将成为共享平台化的服务,数据和技术至关于食材和锅,基金经理和分析师能够经过平台制做本身的策略。缓存

http://v.youku.com/v_show/id_XMzU0ODIxNjg0.html

 

三、市场物价预测

CPI表征已经发生的物价浮动状况,但统计局数据并不权威。但大数据则可能帮助人们了解将来物价走向,提早预知通货膨胀或经济危机。最典型的案例莫过于马云经过阿里B2B大数据提早知晓亚洲金融危机,固然这是阿里数据团队的功劳。

 

四、用户行为预测

基于用户搜索行为、浏览行为、评论历史和我的资料等数据,互联网业务能够洞察消费者的总体需求,进而进行针对性的产品生产、改进和营销。《纸牌屋》 选择演员和剧情、百度基于用户喜爱进行精准广告营销、阿里根据天猫用户特征包下生产线定制产品、亚马逊预测用户点击行为提早发货均是受益于互联网用户行为 预测。

购买前的行为信息,能够深度地反映出潜在客户的购买心理和购买意向:例如,客户 A 连续浏览了 5 款电视机,其中 4 款来自国内品牌 S,1 款来自国外品牌 T;4 款为 LED 技术,1 款为 LCD 技术;5 款的价格分别为 4599 元、5199 元、5499 元、5999 元、7999 元;这些行为某种程度上反映了客户 A 对品牌承认度及倾向性,如偏向国产品牌、中等价位的 LED 电视。而客户 B 连续浏览了 6 款电视机,其中 2 款是国外品牌 T,2 款是另外一国外品牌 V,2 款是国产品牌 S;4 款为 LED 技术,2 款为 LCD 技术;6 款的价格分别为 5999 元、7999 元、8300 元、9200 元、9999 元、11050 元;相似地,这些行为某种程度上反映了客户 B 对品牌承认度及倾向性,如偏向进口品牌、高价位的 LED 电视等。

http://36kr.com/p/205901.html

 

五、人体健康预测

中医能够经过望闻问切手段发现一些人体内隐藏的慢性病,甚至看体质即可知晓一我的未来可能会出现什么症状。人体体征变化有必定规律,而慢性病发生前人体已经会有一些持续性异常。理论上来讲,若是大数据掌握了这样的异常状况,即可以进行慢性病预测。

 

六、疾病疫情预测

基于人们的搜索状况、购物行为预测大面积疫情爆发的可能性,最经典的“流感预测”便属于此类。若是来自某个区域的“流感”、“板蓝根”搜索需求愈来愈多,天然能够推测该处有流感趋势。

Google成功预测冬季流感:
2009年,Google经过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并创建一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至能够具体到特定的地区和州。

 

七、灾害灾难预测

气象预测是最典型的灾难灾害预测。地震、洪涝、高温、暴雨这些天然灾害若是能够利用大数据能力进行更加提早的预测和告知便有助于减灾防灾救灾赈灾。 与过往不一样的是,过去的数据收集方式存在着死角、成本高等问题,物联网时代能够借助廉价的传感器摄像头和无线通讯网络,进行实时的数据监控收集,再利用大 数据预测分析,作到更精准的天然灾害预测。

 

八、环境变迁预测

除了进行短期微观的天气、灾害预测以外,还能够进行更加长期和宏观的环境和生态变迁预测。森林和农田面积缩小、野生动物植物濒危、海岸线上升,温 室效应这些问题是地球面临的“慢性问题“。若是人类知道越多地球生态系统以及天气形态变化数据,就越容易模型化将来环境的变迁,进而阻止很差的转变发生。 而大数据帮助人类收集、储存和挖掘更多的地球数据,同时还提供了预测的工具。

 

九、交通行为预测

基于用户和车辆的LBS定位数据,分析人车出行的个体和群体特征,进行交通行为的预测。交通部门可预测不一样时点不一样道路的车流量进行智能的车辆调度,或应用潮汐车道;用户则能够根据预测结果选择拥堵概率更低的道路。

百度基于地图应用的LBS预测涵盖范围更广。春运期间预测人们的迁徙趋势指导火车线路和航线的设置,节假日预测景点的人流量指导人们的景区选择,平时还有百度热力图来告诉用户城市商圈、动物园等地点的人流状况,指导用户出行选择和商家的选点选址。

多尔戈夫的团队利用机器学习算法来创造路上行人的模型。无人驾驶汽车行驶的每一英里路程的状况都会被记录下来,汽车电脑就会保持这些数据, 并分析各类不一样的对象在不一样的环境中如何表现。有些司机的行为可能会被设置为固定变量(如“绿灯亮,汽车行”),可是汽车电脑不会死搬硬套这种逻辑,而是 从实际的司机行为中进行学习。

       这样一来,跟在一辆垃圾运输卡车后面行驶的汽车,若是卡车中止行进,那么汽车可能会选择变道绕过去,而不是也跟着停下来。谷歌已创建了70万英里的行驶数据,这有助于谷歌汽车根据本身的学习经验来调整本身的行为。

 

http://www.5lian.cn/html/2014/chelianwang_0522/42125_4.html

 

十、能源消耗预测

加州电网系统运营中心管理着加州超过80%的电网,向3500万用户每一年输送2.89亿兆瓦电力,电力线长度超过25000英里。该中心采用了 Space-Time Insight的软件进行智能管理,综合分析来自包括天气、传感器、计量设备等各类数据源的海量数据,预测各地的能源需求变化,进行智能电能调度,平衡全 网的电力供应和需求,并对潜在危机作出快速响应。中国智能电网业已在尝试相似大数据预测应用。

 

2、大数据分析种类

  • 按照数据分析的实时性,分为实时数据分析和离线数据分析两种。

实时数据分析通常用于金融、移动和互联网B2C等产品,每每要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要知足这样的需求, 能够采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都须要比较高的软硬件成本。目前比较新 的海量数据实时分析工具备EMC的Greenplum、SAP的HANA等。

对于大多数反馈时间要求不是那么严苛的应用,好比离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,经过 数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的ETL工具每每完全失效,主要缘由是数据格式转换的开销太大,在性能上没法知足海量数 据的采集需求。互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的 Timetunnel、Hadoop的Chukwa等,都可以知足每秒数百MB的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。

  • 按照大数据的数据量,分为内存级别、BI级别、海量级别三种。

这里的内存级别指的是数据量不超过集群的内存最大值。不要小看今天内存的容量,Facebook缓存在内存的Memcached中的数据高达 320TB,而目前的PC服务器,内存也能够超过百GB。所以能够采用一些内存数据库,将热点数据常驻内存之中,从而取得很是快速的分析能力,很是适合实 时分析业务。图1是一种实际可行的MongoDB分析架构。

 

图1 用于实时分析的MongoDB架构

MongoDB大集群目前存在一些稳定性问题,会发生周期性的写堵塞和主从同步失效,但仍不失为一种潜力十足的能够用于高速数据分析的NoSQL。

此外,目前大多数服务厂商都已经推出了带4GB以上SSD的解决方案,利用内存+SSD,也能够轻易达到内存分析的性能。随着SSD的发展,内存数据分析必然能获得更加普遍的

应用。

BI级别指的是那些对于内存来讲太大的数据量,但通常能够将其放入传统的BI产品和专门设计的BI数据库之中进行分析。目前主流的BI产品都有支持TB级以上的数据分析方案。种类繁多。

海量级别指的是对于数据库和BI产品已经彻底失效或者成本太高的数据量。海量数据级别的优秀企业级产品也有不少,但基于软硬件的成本缘由,目前大多 数互联网企业采用Hadoop的HDFS分布式文件系统来存储数据,并使用MapReduce进行分析。本文稍后将主要介绍Hadoop上基于 MapReduce的一个多维数据分析平台。

 

3、大数据分析通常过程

3.1 采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的 数据,而且用户能够经过这些数据库来进行简单的查询和处理工做。好比,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除 此以外,Redis和MongoDB这样的NoSQL数据库也经常使用于数据的采集。
在大数据的采集过程当中,其主要特色和挑战是并发数高,由于同时有可能会有成千上万的用户 来进行访问和操做,好比火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,因此须要在采集端部署大量数据库才能支撑。而且如何在这些数据库之间 进行负载均衡和分片的确是须要深刻的思考和设计。

3.2 导入/预处理
虽然采集端自己会有不少数据库,可是若是要对这些海量数据进行有效的分析,仍是应该将这 些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,而且能够在导入基础上作一些简单的清洗和预处理工做。也有一些用户会在导入时使 用来自Twitter的Storm来对数据进行流式计算,来知足部分业务的实时计算需求。
导入与预处理过程的特色和挑战主要是导入的数据量大,每秒钟的导入量常常会达到百兆,甚至千兆级别。

3.3 统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通 的分析和分类汇总等,以知足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求能够使用Hadoop。
统计与分析这部分的主要特色和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

3.4 挖掘
与前面统计和分析过程不一样的是,数据挖掘通常没有什么预先设定好的主题,主要是在现有数 据上面进行基于各类算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于 统计学习的SVM和用于分类的NaiveBayes,主要使用的工具备Hadoop的Mahout等。该过程的特色和挑战主要是用于挖掘的算法很复杂,并 且计算涉及的数据量和计算量都很大,经常使用数据挖掘算法都以单线程为主。

 

 

4、大数据分析工具

4.1 Hadoop

Hadoop 是一个可以对大量数据进行分布式处理的软件框架。可是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,由于它假设计算元素和存储会失败,所以它维护多个工做数据副本,确保可以针对失败的节点从新分布处理。Hadoop 是高效的,由于它以并行的方式工做,经过并行处理加快处理速度。Hadoop 仍是可伸缩的,可以处理 PB 级数据。此外,Hadoop 依赖于社区服务器,所以它的成本比较低,任何人均可以使用。

Hadoop是一个可以让用户轻松架构和使用的分布式计算平台。用户能够轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有如下几个优势:

⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇能够方便地扩展到数以千计的节点中。

⒊高效性。Hadoop可以在节点之间动态地移动数据,并保证各个节点的动态平衡,所以处理速度很是快。            

⒋高容错性。Hadoop可以自动保存数据的多个副本,而且可以自动将失败的任务从新分配。

Hadoop带有用 Java 语言编写的框架,所以运行在 Linux 生产平台上是很是理想的。Hadoop 上的应用程序也能够使用其余语言编写,好比 C++。

 

4.2 HPCC

HPCC,High Performance Computing and Communications(高性能计算与通讯)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通讯”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是经过增强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国 实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美圆,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络链接能力。

该项目主要由五部分组成:

一、高性能计算机系统(HPCS),内容包括从此几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;

二、先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;

三、国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;

四、基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计经过奖励调查者-开始的,长期 的调查在可升级的高性能计算中来增长创新意识流,经过提升教育和高性能的计算训练和通讯来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支 持这些调查和研究活动;

五、信息基础结构技术和应用(IITA ),目的在于保证美国在先进信息技术开发方面的领先地位。

 

4.3 Storm

Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm能够很是可靠的处理庞大的数据流,用于处理Hadoop的批量数据。 Storm很简单,支持许多种编程语言,使用起来很是有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、 阿里巴巴、乐元素、Admaster等等。

Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种经过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测 试,每一个节点每秒钟能够处理100万个数据元组。Storm是可扩展、容错,很容易设置和操做。

 

4.4 Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel.

据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍,“Drill”已经做为Apache孵化器项目来运做,将面向全球软件工程师持续推广。

该项目将会建立出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。

“Drill”项目其实也是从谷歌的Dremel项目中得到灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。

经过开发“Drill”Apache开源项目,组织机构将有望创建Drill所属的API接口和灵活强大的体系架构,从而帮助支持普遍的数据源、数据格式和查询语言。

 

4.5 RapidMiner

RapidMiner是世界领先的数据挖掘解决方案,在一个很是大的程度上有着先进技术。它数据挖掘任务涉及范围普遍,包括各类数据艺术,能简化数据挖掘过程的设计和评价。

功能和特色

  • 免费提供数据挖掘技术和库
  • 100%用Java代码(可运行在操做系统)
  • 数据挖掘过程简单,强大和直观
  • 内部XML保证了标准化的格式来表示交换数据挖掘过程
  • 能够用简单脚本语言自动进行大规模进程
  • 多层次的数据视图,确保有效和透明的数据
  • 图形用户界面的互动原型
  • 命令行(批处理模式)自动大规模应用
  • Java API(应用编程接口)
  • 简单的插件和推广机制
  • 强大的可视化引擎,许多尖端的高维数据的可视化建模
  • 400多个数据挖掘运营商支持

耶鲁大学已成功地应用在许多不一样的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘。

 

4.6 Pentaho BI

Pentaho BI 平台不一样于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商 务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,可以集成在一块儿,构成一项项复杂的、完整的商务智能解 决方案。

Pentaho BI 平台,Pentaho Open BI 套件的核心架构和基础,是以流程为中心的,由于其中枢控制器是一个工做流引擎。工做流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程能够很容易的被定制,也能够添加新的流程。BI 平台包含组件和报表,用以分析这些流程的性能。目前,Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工做流管理等等。这些组件经过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 Pentaho的发行,主要以Pentaho SDK的形式进行。

Pentaho SDK共包含五个部分:Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代码的主体;Pentaho数据库为 Pentaho平台的正常运行提供的数据服务,包括配置信息、Solution相关的信息等等,对于Pentaho平台来讲它不是必须的,经过配置是能够 用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例,它演示了如何使Pentaho平台在没有应用服务器 支持的状况下独立运行;

Pentaho解决方案示例是一个Eclipse工程,用来演示如何为Pentaho平台开发相关的商业智能解决方案。

Pentaho BI 平台构建于服务器,引擎和组件的基础之上。这些提供了系统的J2EE 服务器,安全,portal,工做流,规则引擎,图表,协做,内容管理,数据集成,分析和建模功能。这些组件的大部分是基于标准的,可以使用其余产品替换之。

 

4.7 SAS Enterprise Miner

  • § 支持整个数据挖掘过程的完备工具集
  • § 易用的图形界面,适合不一样类型的用户快速建模
  • § 强大的模型管理和评估功能
  • § 快速便捷的模型发布机制, 促进业务闭环造成

 

5、数据分析算法

大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学 习等(见图1)。分类是最多见的机器学习应用问题,好比垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等,本质上都是分类问题。分类学习也是 机器学习领域,研究最完全、使用最普遍的一个分支。

最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,机器学习顶级期刊)杂志发表了一篇有趣的论文。他们让179种不一样的分类学习方法(分类学习算法)在UCI 121个数据集上进行了“大比武”(UCI是机器学习公用数据集,每一个数据集的规模都不大)。结果发现Random Forest(随机森林)和SVM(支持向量机)名列第1、第二名,但二者差别不大。在84.3%的数据上、Random Forest压倒了其它90%的方法。也就是说,在大多数状况下,只用Random Forest 或 SVM事情就搞定了。

 

https://github.com/linyiqun/DataMiningAlgorithm

KNN

K最近邻算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类状况,哪一个分类的类型占多数,则此测试点的分类与此相同,因此在这里,有的时候能够复制不一样的分类点不一样的权重。近的点的权重大点,远的点天然就小点。详细介绍连接

Naive Bayes

朴素贝叶斯算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话归纳就是条件几率的相互转换推导。详细介绍连接

 朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是由于这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类 项,求解在此项出现的条件下各个类别出现的几率,哪一个最大,就认为此待分类项属于哪一个类别。通俗来讲,就比如这么个道理,你在街上看到一个黑人,我问你你 猜这哥们哪里来的,你十有八九猜非洲。为何呢?由于黑人中非洲人的比率最高,固然人家也多是美洲人或亚洲人,但在没有其它可用信息下,咱们会选择条件 几率最大的类别,这就是朴素贝叶斯的思想基础。

SVM

支持向量机算法。支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候能够经过核函数转为线性的状况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍连接

Apriori

Apriori算法是关联规则挖掘算法,经过链接和剪枝运算挖掘出频繁项集,而后根据频繁项集获得关联规则,关联规则的导出须要知足最小置信度的要求。详细介绍连接

PageRank

网页重要性/排名算法。PageRank算法最先产生于Google,核心思想是经过网页的入链数做为一个网页好快的断定标准,若是1个网页内部包含了多个指向外部的连接,则PR值将会被均分,PageRank算法也会遭到LinkSpan攻击。详细介绍连接

RandomForest

随机森林算法。算法思想是决策树+boosting.决策树采用的是CART分类回归数,经过组合各个决策树的弱分类器,构成一个最终的强分类器,在构造决策树的时候采起随机数量的样本数和随机的部分属性进行子决策树的构建,避免了过度拟合的现象发生。详细介绍连接

Artificial Neural Network

“神经网络”这个词实际是来自于生物学,而咱们所指的神经网络正确的名称应该是“人工神经网络(ANNs)”。
人工神经网络也具备初步的自适应与自组织能力。在学习或训练过程当中改变突触权重值,以适应周围环境的要求。同一网络因学习方式及内容不一样可具备不一样的功 能。人工神经网络是一个具备学习能力的系统,能够发展知识,以至超过设计者原有的知识水平。一般,它的学习训练方式可分为两种,一种是有监督或称有导师的 学习,这时利用给定的样本标准进行分类或模仿;另外一种是无监督学习或称无为导师学习,这时,只规定学习方式或某些规则,则具体的学习内容随系统所处环境 (即输入信号状况)而异,系统能够自动发现环境特征和规律性,具备更近似人脑的功能。 

 

6、 案例

6.1 啤酒与尿布
   

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个使人难于理解的现象:在某些特定的 状况下,“啤酒”与“尿布”两件看上去毫无关系的商品会常常出如今同一个购物篮中,这种独特的销售现象引发了管理人员的注意,通过后续调查发现,这种现象 出如今年轻的父亲身上。

在美国有婴儿的家庭中,通常是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,每每会顺便为本身购买啤酒,这样就会出现啤 酒与尿布这两件看上去不相干的商品常常会出如今同一个购物篮的现象。若是这个年轻的父亲在卖场只能买到两件商品之一,则他颇有可能会放弃购物而到另外一家商 店, 直到能够一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲能够同时找到这两件商品, 并很快地完成购物;而沃尔玛超市也可让这些客户一次购买两件商品、而不是一件,从而得到了很好的商品销售收入,这就是“啤酒与尿布” 故事的由来。

固然“啤酒与尿布”的故事必须具备技术方面的支持。1993年美国学者Agrawal提出经过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提 出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪 90 年代尝试将 Aprior算法引入到 POS机数据分析中,并得到了成功,因而产生了“啤酒与尿布”的故事。 

 

6.2 数据分析帮助辛辛那提动物园提升客户满意度

 

辛辛那提动植物园成立于1873年,是世界上著名的动植物园之一,以其物种保护和保存以及高成活率繁殖饲养计划享有极高声誉。它占地面积71英亩, 园内有500种动物和3000多种植物,是国内游客人数最多的动植物园之一,曾荣获Zagat十佳动物园,并被《父母》(Parent)杂志评为最受儿童 喜欢的动物园,每一年接待游客130多万人。

辛辛那提动植物园是一个非营利性组织,是俄亥州同时也是美国国内享受公共补贴最低的动植物园,除去政府补贴,2600万美圆年度预算中,自筹资金部 分达到三分之二以上。为此,须要不断地寻求增长收入。而要作到这一点,最好办法是为工做人员和游客提供更好的服务,提升游览率。从而实现动植物园与客户和 纳税人的共赢。

借助于该方案强大的收集和处理能力、互联能力、分析能力以及随之带来的洞察力,在部署后,企业实现了如下各方面的受益:

-          帮助动植物园了解每一个客户浏览、使用和消费模式,根据时间和地理分布状况采起相应的措施改善游客体验,同时实现营业收入最大化。

-          根据消费和游览行为对动植物园游客进行细分,针对每一类细分游客开展营销和促销活动,显著提升忠诚度和客户保有量。.

-          识别消费支出低的游客,针对他们发送具备战略性的直寄广告,同时经过具备创意性的营销和激励计划奖励忠诚客户。

-          360度全方位了解客户行为,优化营销决策,实施解决方案后头一年节省40,000多美圆营销成本,同时强化了可测量的结果。

-          采用地理分析显示大量未实现预期结果的促销和折扣计划,从新部署资源支持产出率更高的业务活动,动植物园每一年节省100,000多美圆。

-          经过强化营销提升总体游览率,2011年至少新增50,000人次“游览”。

-          提供洞察结果强化运营管理。例如,即将关门前冰激淋销售出现高潮,动植物园决定延长冰激淋摊位营业时间,直到关门为止。这一措施夏季天天可增长2,000美圆收入。

-          与上年相比,餐饮销售增长30.7%,零售销售增长5.9%。

-          动植物园高层管理团队能够制定更好的决策,不须要 IT 介入或提供支持。

-          将分析引入会议室,利用直观工具帮助业务人员掌握数据。

 

6.3 云南昭通警察打中学生事件舆情分析

原由:  

5月20日,有网友在微博上爆料称:云南昭通鲁甸二中初二学生孔德政,对着3名到该校出警并准备上车返回的警察说了一句“打电话那个,下来”,车内的两名警员听到动静后下来,追到该学生后就是一顿拳打脚踢。

5月26日,昭通市鲁甸县公安局新闻办回应此事:鲁甸县公安局已对当事民警中止执行职务,对殴打学生的两名协警做出辞退处理,并将根据调查状况依法依规做进一步处理。同时,鲁甸县公安局将加大队伍教育管理力度,坚定防止此类事件的再次发生。

通过:

 

5月26日,事件的舆情热度急剧上升,媒体报道内容侧重于“班主任称此学平生时爱起哄学习成绩差”“被打学生的同窗去派出所讨说法”“学校要求学生删除照片”等方面,而学校要求删除图片等行为的曝光让事件舆情有扩大化趋势。

5月26日晚间,新华网发布新闻《警方回应“云南一学生遭2名警察暴打”:民警停职协警辞退》,中央主流网络媒体公布官方处置结果,网易、新浪、腾讯等门户网站予以转发,从而让官方的处置得以较大范围传播。

 

昭通警察打中学生事件舆论关注度走势(抽样条数:290条)

总结:

“警察打学生,并且有图有真相,在事发5天后,昭通市鲁甸县警方最终仍是站在了舆论的风口浪尖。事发后当地官方积极回应,并于5月26日将涉事人予以处理,果断的责任切割较为有效地抚平了舆论情绪,从而较好地化解了这次舆论危机。

  从事件的传播来看,事发时间是5月20日,舆论热议则出如今25日,4天的平静期让鲁甸警方想固然地觉得事件就此告终,或许当事人都已淡忘此 事。若是不是云南当地活跃网友“直播云南”于5月25日发布关于此事的消息,并被当地传统媒体《生活新报》关注的话,事情或许真的就此结束,然而舆情发展 不容许假设的存在。这一点,至少给咱们以警示,对微博等自媒体平台上的负面信息要实时监测,对普通草根要监测,对本地实名认证的活跃网友更需监测。从某种 角度看,本地实名认证的网友是更为强大的“舆论发动机”,负面消息一旦经他们发布或者转发,所带来的传播和造成的舆论压力更大。

  在此事件中,校方也扮演着极为重要的角色。不管是被打学生的班主任,仍是学校层面,面对此事件的回应都欠稳当。学校层面的“删除照片”等指示极 易招致网友和学生的反感,在此反感情绪下,只会加重学生传播事件的冲动。班主任口中该学生“学习很差、爱起哄”等负面印象被理解成“该学生活该被打”,在 教师总体形象不佳的背景下,班主任的这些言论是责任感缺失的一种体现。校方和班主任的不恰当行为让事件处置难度和舆论引导难度明显增长,实在不应。“ --- 人民网舆情监测室主任舆情分析师 朱明刚

 

7、大数据云图展现

 

 

做者:Stephen Cui
出处:http://www.cnblogs.com/cuiyansong 若是您以为文章写的还不错,请点击“推荐一下”,谢谢。

相关文章
相关标签/搜索