每秒2万条html
一分2*60=120万git
一小时 120*60=7200万github
每条按1K计算服务器
72000000*1K=70312.5Mb=68.6645508Gbide
硬盘oop
一个月 69G*24*31=51336G=50Tspa
每数据备份三份: 50T*3=150Thtm
数据冗余20%: 150*0.2=30T内存
文件系统:3Thadoop
总共硬盘:150+30+3=183T
规划
20台服务器
每台5个硬盘,每一个硬盘2T
每台内存: 128GB(spark随计算复杂度对内存需求越高)
每台:24CPU
参考博客
http://www.itweet.cn/2016/01/25/Hadoop-Disk-Planning/
https://hadoopecosystemtable.github.io/
http://www.aboutyun.com/thread-17211-1-1.html
https://bigdata-ny.github.io/2016/08/21/airbnb-hadoop-hive/
https://yq.aliyun.com/articles/59064
http://www.ha97.com/5673.html