记录一个问题: 有一个10G大小的文件,文件内为一行一个的整数,给定可以使用内存为2G.要求统计出现次数最多的数字。.net
一、流式数据处理(这块后面单独写吧,埋坑....)blog
二、分文件处理内存
读入部分文件,对数值模10.取值相同放入一个文件。而后处理10个文件。统计出现次数最多的。方法
我认为上面这种方案能够解决一种状况。就是文件数值不重复。或者重复较少的状况统计
假设一种极端状况。文件内容所有取模值所有相同。或者超过2G就不在适用上面的方法了。而更适合将相同的数字放入同一个文件。数据
状况不一样解决方案也不尽相同。没有银弹
---------------------
做者:乔帆
来源:CSDN
原文:https://blog.csdn.net/weixin_40596063/article/details/82895458
版权声明:本文为博主原创文章,转载请附上博文连接!文件