一. 最佳实践算法
数据都存在热、冷的差别。通常建议把冷数据存放在OSS中,热数据放在本地HDFS中。晚上00:00-06:00按需运行,运行完成后释放集群,节约成本。晚上ECS水位低,比较容易申请到大集群。架构
服务端会把这些信息存储在OSS中,再启动E-MapReduce中的Hive脚本分析这些数据,如:统计pv和uv,再把每一个连接的访问状况存储在RDS中,最后经过报表系统展现。
框架
Hadoop HDFS是一个经历了长时间考验且具备高可靠性的数据存储系统,已经可以实现海量数据的高可靠性存储。同时基于云上的特性,也能够在OSS等服务上进行数据的额外备份,来达到更高的数据可靠性。