大数据生态圈相关总结

hadoop 1,数据越来越大,尤其是搜索引擎公司,数据的类别---分为三种,结构型,非结构型,半结构型,对应产生的数据库,关系型数据库,非关系型数据库;数据的来源---自己公司业务,爬虫(网络),购买(第三方交易);数据的处理---缺失字段,重要补全,不重要删除,隐私字段则脱敏 2,谷歌三篇论文  GFS(google filesystem)、产生了hdfs,解决海量数据存储;MAPREDUCE
相关文章
相关标签/搜索