大数据之Hadoop(四)

查找场景 设想一种场景,一种是需要在1亿行数据中查到相同的行。这么大的数据如果读入内存中进行计算,那么对机器的要求非常高非常耗费成本;其次,也有单点故障的风险。如果考虑用100台机器进行计算,可以采用下面的算法: 1)计算每行数据的哈希值,并用hash值为文件名创建文件;如果文件已经存在,则将改行数据追加到文件中 2)相同的行一定在同一个文件中,在同一个较小的文件中查找相同的行 因此1一亿数据查找
相关文章
相关标签/搜索