超级干货 :一文读懂大数据处理框架

提及大数据处理啊,一切都起源于Google公司的经典论文。在当时(2000年左右),因为网页数量急剧增长,Google公司内部平时要编写不少的程序来处理大量的原始数据:爬虫爬到的网页、网页请求日志;计算各类类型的派生数据:倒排索引、网页的各类图结构等等。这些计算在概念上很容易理解,但因为输入数据量很大,单机难以处理。因此须要利用分布式的方式完成计算,而且须要考虑如何进行并行计算、分配数据和处理失败
相关文章
相关标签/搜索