大数据之Hadoop（四）

时间 2020-12-25

原文原文链接

查找场景设想一种场景，一种是需要在1亿行数据中查到相同的行。这么大的数据如果读入内存中进行计算，那么对机器的要求非常高非常耗费成本；其次，也有单点故障的风险。如果考虑用100台机器进行计算，可以采用下面的算法： 1）计算每行数据的哈希值，并用hash值为文件名创建文件；如果文件已经存在，则将改行数据追加到文件中 2）相同的行一定在同一个文件中，在同一个较小的文件中查找相同的行因此1一亿数据查找

>>阅读原文<<