探寻C++最快的读取文件的方案

时间 2019-11-08

标签探寻 c++ 最快读取文件方案栏目 C&C++ 繁體版

原文原文链接

在竞赛中，遇到大数据时，每每读文件成了程序运行速度的瓶颈，须要更快的读取方式。相信几乎全部的C++学习者都在cin机器缓慢的速度上栽过跟头，因而今后之后发誓不用cin读数据。还有人说Pascal的read语句的速度是C/C++中scanf比不上的，C++选手只能干着急。难道C++真的低Pascal一等吗？答案是不言而喻的。一个进阶的方法是把数据一会儿读进来，而后再转化字符串，这种方法传说中很不错，但具体如何从没试过，所以今天就索性把能想到的全部的读数据的方式都测试了一边，结果是惊人的。 linux

竞赛中读数据的状况最多的莫过于读一大堆整数了，因而我写了一个程序，生成一千万个随机数到data.txt中，一共55MB。而后我写了个程序主干计算运行时间，代码以下： ios

#include <ctime> int main()
{ int start = clock(); //DO SOMETHING printf("%.3lf\n",double(clock()-start)/CLOCKS_PER_SEC);
}

最简单的方法就算写一个循环scanf了，代码以下：数组

const int MAXN = 10000000; int numbers[MAXN]; void scanf_read()
{
    freopen("data.txt","r",stdin); for (int i=0;i<MAXN;i++)
        scanf("%d",&numbers[i]);
}

但是效率如何呢？在个人电脑Linux平台上测试结果为2.01秒。接下来是cin，代码以下函数

const int MAXN = 10000000; int numbers[MAXN]; void cin_read()
{
    freopen("data.txt","r",stdin); for (int i=0;i<MAXN;i++) std::cin >> numbers[i];
}

出乎个人意料，cin仅仅用了6.38秒，比我想象的要快。cin慢是有缘由的，其实默认的时候，cin与stdin老是保持同步的，也就是说这两种方法能够混用，而没必要担忧文件指针混乱，同时cout和stdout也同样，二者混用不会输出顺序错乱。正由于这个兼容性的特性，致使cin有许多额外的开销，如何禁用这个特性呢？只需一个语句std::ios::sync_with_stdio(false);，这样就能够取消cin于stdin的同步了。程序以下：学习

const int MAXN = 10000000; int numbers[MAXN]; void cin_read_nosync()
{
    freopen("data.txt","r",stdin); std::ios::sync_with_stdio(false); for (int i=0;i<MAXN;i++) std::cin >> numbers[i];
}

取消同步后效率究竟如何？经测试运行时间锐减到了2.05秒，与scanf效率相差无几了！有了这个之后能够放心使用cin和cout了。测试

接下来让咱们测试一下读入整个文件再处理的方法，首先要写一个字符串转化为数组的函数，代码以下大数据

const int MAXS = 60*1024*1024; char buf[MAXS]; void analyse(char *buf,int len = MAXS)
{ int i;
    numbers[i=0]=0; for (char *p=buf;*p && p-buf<len;p++) if (*p == ' ')
            numbers[++i]=0; else numbers[i] = numbers[i] * 10 + *p - '0';
}

把整个文件读入一个字符串最经常使用的方法是用fread，代码以下： spa

const int MAXN = 10000000; const int MAXS = 60*1024*1024; int numbers[MAXN]; char buf[MAXS]; void fread_analyse()
{
    freopen("data.txt","rb",stdin); int len = fread(buf,1,MAXS,stdin);
    buf[len] = '\0';
    analyse(buf,len);
}

上述代码有着惊人的效率，经测试读取这10000000个数只用了0.29秒，效率提升了几乎10倍！掌握着种方法简直无敌了，不过，我记得fread是封装过的read，若是直接使用read，是否是更快呢？代码以下：指针

const int MAXN = 10000000; const int MAXS = 60*1024*1024; int numbers[MAXN]; char buf[MAXS]; void read_analyse()
{ int fd = open("data.txt",O_RDONLY); int len = read(fd,buf,MAXS);
    buf[len] = '\0';
    analyse(buf,len);
}

测试发现运行时间仍然是0.29秒，可见read不具有特殊的优点。到此已经结束了吗？不，我能够调用Linux的底层函数mmap，这个函数的功能是将文件映射到内存，是全部读文件方法都要封装的基础方法，直接使用mmap会怎样呢？代码以下： code

const int MAXN = 10000000; const int MAXS = 60*1024*1024; int numbers[MAXN]; char buf[MAXS]; void mmap_analyse()
{ int fd = open("data.txt",O_RDONLY); int len = lseek(fd,0,SEEK_END); char *mbuf = (char *) mmap(NULL,len,PROT_READ,MAP_PRIVATE,fd,0);    
    analyse(mbuf,len);
}

经测试，运行时间缩短到了0.25秒，效率继续提升了14%。到此为止我已经没有更好的方法继续提升读文件的速度了。回头测一下Pascal的速度如何？结果使人大跌眼镜，竟然运行了2.16秒之多。程序以下：

const
    MAXN = 10000000;
var
    numbers :array[0..MAXN] of longint;
    i :longint; begin assign(input,'data.txt'); reset(input); for i:=0 to MAXN do read(numbers[i]); end.

为确保准确性，我又换到Windows平台上测试了一下。结果以下表：

方法/平台/时间(秒)	Linux gcc	Windows mingw	Windows VC2008
scanf	2.010	3.704	3.425
cin	6.380	64.003	19.208
cin取消同步	2.050	6.004	19.616
fread	0.290	0.241	0.304
read	0.290	0.398	不支持
mmap	0.250	不支持	不支持
Pascal read	2.160	4.668

从上面能够看出几个问题

Linux平台上运行程序广泛比Windows上快。
Windows下VC编译的程序通常运行比MINGW（MINimal Gcc for Windows）快。
VC对cin取消同步与否不敏感，先后效率相同。反过来MINGW则很是敏感，先后效率相差8倍。
read本是linux系统函数，MINGW可能采用了某种模拟方式，read比fread更慢。
Pascal程序运行速度实在使人不敢恭维。