数据量估计

每秒2万条html


一分2*60=120万git


一小时 120*60=7200万github



每条按1K计算服务器


72000000*1K=70312.5Mb=68.6645508Gbide


硬盘oop


一个月 69G*24*31=51336G=50Tspa


每数据备份三份: 50T*3=150Thtm


数据冗余20%: 150*0.2=30T内存


文件系统:3Thadoop


总共硬盘:150+30+3=183T


规划 


20台服务器


每台5个硬盘,每一个硬盘2T


每台内存: 128GB(spark随计算复杂度对内存需求越高)


每台:24CPU



参考博客


http://www.itweet.cn/2016/01/25/Hadoop-Disk-Planning/


https://hadoopecosystemtable.github.io/


http://www.aboutyun.com/thread-17211-1-1.html


https://bigdata-ny.github.io/2016/08/21/airbnb-hadoop-hive/



https://yq.aliyun.com/articles/59064

















http://www.ha97.com/5673.html

相关文章
相关标签/搜索