身边的大数据和咱们的着手点

身边的大数据和咱们的着手点算法

2014年8月17日~数据库

从上次在图书馆外等小孩借书开始考虑这个问题,已经有好几个月了。一直在思考,也动手作了一些尝试,可是一直“在过程当中”。期间,再次翻阅了《大数据时代》和相关的网上资源,天天除了工做,总在思考将这段的思路总结一下。编程

早期的精确统计,或随机取样,到如今的“样本=所有”的大数据思想出现,我感受咱们能够作点事情了。虽然一直忙碌于“企业应用”的事情,不过总有一份“互联网的基因”存在。从最先采集的50多POI,到最近收集的300多移动上网过程数据,作一个数据分析,作一下大数据时代的尝试。数组

大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,可是现在的信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。如今,咱们是时候把聚光灯打想“I”,开始关注信息自己了。app

不管是成熟的互联网仍是正热的移动互联,都在天天产生大量的数据,若是不进行处理挖掘,这些数据将老是沉睡冰藏在各地的硬盘中。如今处理能力和存储空间都变的愈来愈廉价,是时候将“数据”变成“信息”,将“信息”变成“知识”,用知识来指导组织的运营和个体的平常生活了。运维

“数据”可能仍是硬盘的负载,“知识”就是提升人们幸福感的源泉。编程语言

本文是我在“负载”向“源泉”前进过程当中的一些思考总结,供见着参考,但愿同业者交流。分布式

1、        多大算是大数据

听说微软的拼写检查基础数据量是千万条,谷歌的的智能翻译基础数据量是千亿,有次听利物浦大学的教授讲的,所谓“大数据”至少要到10的10次方,到这个数量级,咱们日常的数据来源是较可贵到了。函数

不过,看《大数据时代》分析的摔跤比赛样本,使用的是“11年时间里,约64000场摔跤比赛的记录”,要经过这些大数据来寻找其异常性。仍是分析出了比赛成败的人为因素和心理因素。工具

看来,所谓“大”,也要看数据样本的对象了。因此我把这里叫作“身边的大数据”比较合适。这里的身边的大数据包括:我对本身的位置行为采集和记录,一些参与测试者的上网过程记录。

若是,你有本身的大数据资源,咱们也能够一块儿分析。

2、        对大数据的指望

面对一个数据集合的时候,人都带有必定指望的,至少是“初步的认识和指望”。若是漫无目的地“从里面找出规律”,也不知道是什么规律了。

“对数据特征的初步了解和理解”,任何事情不可能凭空造出个算法或模型来,就像“TRIZ理论”,对发明问题也能够提供些解决套路同样。

听过一个恐龙级公司分析银行数据,基本的指望包括:

l  银行用户的资金变更状况,逐减的是夕阳客户,波动式上升的就是朝阳客户。

l  朝阳客户的地域分布状况,增长相应的门店和客服经理,提高客户服务的满意度。

l  朝阳客户的行为特征,提供更加贴心的服务,挖掘潜在的客户价值。

l  门店的储户增加状况,储蓄增加状况。月度,年度波动状况,避免骗储增业绩的状况。

l  在初期“指望项”以外,在数据分析过程当中,一些中间结果,作一些统计分析,能够产生其它数据结果,好比:

n  客户的年龄段

n  不一样客户到访门店的时间段特征

n  不一样时间段,不一样门店的排队状况

n  重要客户车位占用和预留计划

n  客流量和天气的关联变更

n  储蓄量、投资量与国家经济增加的关联变化

n  银行关键业务指标预测和后续投资量

n  投资和风险回报的关联关系

 

3、        数据处理过程和产生的结果

首先,持有一个大数据集(好比银行),或者能得到持续增加的大数据源(好比互联网应用),根据对数据特征的初步了解和理解,进行统计分析,能够产生初步的数据规律模型。

模型的创建和改进,能够从如下维度,从对数据的基础特性了解和理解,创建多维度模型:

l  指望的结果模型

l  分析过程当中间结果模型

l  实际结果模型

l  人工辨识的数据特征模型

l  多维度数据统计模型

身边的大数据和咱们的着手-1.

2014年9月3日,百度世界发布的大数据应用产品“城市预测”,“景点预测”,“高考预测”,“世界杯预测”,“欧洲联赛预测”,“经济指数预测”。虽然感受玄妙,可是对掌握这样的资源,有能创建相应的预测模型仍是佩服不已。

身边的大数据和咱们的着手-2.

4、        个人数据处理模型

建模(提纲):

l  时间特性

l  地点和位置特性

l  日增特性

l  人的移动特性(轨迹)

l  异常排序统计

l  上网过程和天气变化的关联

l  综合分析出人的特性

至目前,已有的“大数据集”,按照以上模型进行一次单机“非遍历”处理,须要45分钟以上。接下来我计划进行一些专业处理环境的搭建和尝试。

欢迎关注后续。谢谢!

5、        附录

Hadoop和Storm

Storm是一个免费开源、分布式、高容错的实时计算系统。它与其余大数据解决方案的不一样之处在于它的处理方式。

Hadoop 在本质上是一个批处理系统,数据被引入Hadoop文件系统 (HDFS) 并分发到各个节点进行处理。当处理完成时,结果数据返回到 HDFS 供始发者使用。Hadoop的高吞吐,海量数据处理的能力使得人们能够方便地处理海量数据。可是,Hadoop的缺点也和它的优势一样鲜明——延迟大,响应缓慢,运维复杂。Storm就是为了弥补Hadoop的实时性为目标而被创造出来。

 

S语言和R语言

S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、做图的解释型语言。它的丰富的数据类型(向量、数组、列表、对象等)特别有利于实现新的统计算法,其交互式运行方式及强大的图形及交互图形功能使得咱们能够方便的探索数据。

目前S语言的实现版本主要是S-PLUS。它基于S语言,并由MathSoft公司的统计科学部进一步完善。做为统计学家及通常研究人员的通用方法工具箱,S-PLUS强调演示图形、探索性数据分析、统计方法、开发新统计工具的计算方法,以及可扩展性。

S-PLUS能够直接用来进行标准的统计分析获得所需结果,可是它的主要的特色是它能够交互地从各个方面去发现数据中的信息,并能够很容易地实现一个新的统计方法。

R语言是统计领域普遍使用的,诞生于1980年左右的S语言的一个分支。 R语言是S语言的一种实现。S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、做图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。

R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤为强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。与其说R是一种统计软件,还不如说R是一种数学计算的环境,由于R并非仅仅提供若干统计程序、使用者只需指定数据库和若干参数即可进行一个统计分析。R的思想是:它能够提供一些集成的统计工具,但更大量的是它提供各类数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合须要的新的统计计算方法。

本文地址,http://blog.xufun.cn/?p=655

相关文章
相关标签/搜索