一.肯定分析目的和内容:
1.引导数据收集方向
2.指导数据分析目标
了解业务,了解需求
二.收集数据:
1.读取公司内部的数据(公司业务积累数据,日志,)
2.数据抓取(抓取网络上的相关数据,补充数据源)
3.购买其它平台的业务数据
数据库:mysql(结构化),hive(仓库) ,oracle
hbase,mongodb,redis,memcachedb
Bigtable:一个结构化数据的分布式存储系统 google
DynamoDB是亚马逊的key-value模式的存储平台
nosql数据库介绍:http://www.pc6.com/infoview/Article_67065.html
数据抓取:python,jsoup,httpclient,htmlunit,fiddler4(分析工具),nutch
使用图文教程:http://blog.csdn.net/chaoyu168/article/details/51065644
数据抽取:flume,Kafka
Flume:Flume 是管道流方式,提供了不少的默认实现,让用户经过参数部署,及扩展API.
Flume安装介绍:http://blog.csdn.net/u012135300/article/details/51320343
Kafka:Kafka是一个可持久化的分布式的消息队列。
Kafka安装介绍:http://www.cnblogs.com/darkprince/p/5114425.html
三.处理数据:
1.清洗:处理垃圾数据和错误,清洗出业务需求数据
2.转化:整理出有规则的数据格式(能够是文本,json,表格等)
3.提取:编写清洗模板,便于拓展和调整
4.计算:根据预约的字段,计算出相应的值
ETL: kettle
kettle安装使用介绍:http://www.cnblogs.com/zhangchenliang/p/4179775.html
ETL数据清洗工具:http://blog.csdn.net/xiaoshunzi111/article/details/51881740 (没多大用)
四.分析数据:
1.加工、整理和分析、使其转化为信息
数据建模:关系模型,多维模型 http://www.2cto.com/database/201401/272744.html
数据库建模工具:http://www.cnblogs.com/liangxiaofeng/p/5798590.html
mahout,spark mllib,
18算法介绍:https://my.oschina.net/u/2510243/blog/808270html
五.展示数据:
1.各类图形结果和表格展现
数据可视化工具:http://www.360doc.com/content/16/0606/00/888124_565383093.shtml
六.撰写报告:
1.对数据分析过程的总结和呈现,把分析原由,过程,结果及建议呈现出来,以供决策
python