本文来自:智趣网-C/C++语言编程技术交流论坛
http://www.bczh.net 在性能优化方面永远注意80-20原则,即20%的程序消耗了80%的运行时间,于是咱们要改进效率,最主要是考虑改进那20%的代码。不要优化程序中开销不大的那80%,这是劳而无功的。 第一招:以空间换时间 计算机程序中最大的矛盾是空间和时间的矛盾,那么,从这个角度出发逆向思惟来考虑程序的效率问题,咱们就有了解决问题的第1招--以空间换时间。好比说字符串的赋值: 方法A:一般的办法 #define LEN 32 char string1 [LEN]; memset (string1,0,LEN); strcpy (string1,"This is a example!!"); 方法B: const char string2[LEN] ="This is a example!"; char * cp; cp = string2 ; 使用的时候能够直接用指针来操做。 从上面的例子能够看出,A和B的效率是不能比的。在一样的存储空间下,B直接使用指针就能够操做了,而A须要调用两个字符函数才能完成。B的缺点在于灵活性没有A好。在须要频繁更改一个字符串内容的时候,A具备更好的灵活性;若是采用方法B,则须要预存许多字符串,虽然占用了大量的内存,可是得到了程序执行的高效率。 若是系统的实时性要求很高,内存还有一些,那我推荐你使用该招数。 第二招: 使用宏而不是函数。 这也是第一招的变招。函数和宏的区别就在于,宏占用了大量的空间,而函数占用了时间。你们要知道的是,函数调用是要使用系统的栈来保存数据的,若是编译器里有栈检查选 项,通常在函数的头会嵌入一些汇编语句对当前栈进行检查;同时,CPU也要在函数调用时保存和恢复当前的现场,进行压栈和弹栈操做,因此,函数调用须要一 些CPU时间。 而宏不存在这个问题。宏仅仅做为预先写好的代码嵌入到当前程序,不会产生函数调用,因此仅仅是占用了空间,在频繁调用同一个宏的时候,该现象尤为突出。 举例以下: 方法C: #define bwMCDR2_ADDRESS 4 #define bsMCDR2_ADDRESS 17 int BIT_MASK(int __bf) { return ((1U << (bw ## __bf)) - 1)<< (bs ## __bf); } void SET_BITS(int __dst, int __bf, int __val) { __dst = ((__dst) & ~(BIT_MASK(__bf))) | \ (((__val) << (bs ## __bf)) & (BIT_MASK(__bf)))) } SET_BITS(MCDR2, MCDR2_ADDRESS,ReGISterNumber); 方法D: #define bwMCDR2_ADDRESS 4 #define bsMCDR2_ADDRESS 17 #define bmMCDR2_ADDRESS BIT_MASK(MCDR2_ADDRESS) #define BIT_MASK(__bf) (((1U << (bw ## __bf)) - 1) << (bs ## __bf)) #define SET_BITS(__dst, __bf, __val) \ ((__dst) = ((__dst) & ~(BIT_MASK(__bf))) | \ (((__val) << (bs ## __bf)) & (BIT_MASK(__bf)))) SET_BITS(MCDR2, MCDR2_ADDRESS, RegisterNumber); D方法是我看到的最好的置位操做函数,是arm公司源码的一部分,在短短的三行内实现了不少功能,几乎涵盖了全部的位操做功能。C方法是其变体,其中滋味还需你们仔细体会。第三招:数学方法解决问题 如今咱们演绎高效C语言编写的第二招--采用数学方法来解决问题。数学是计算机之母,没有数学的依据和基础,就没有计算机的发展,因此在编写程序的时候,采用一些数学方法会对程序的执行效率有数量级的提升。举例以下,求 1~100的和。 方法E: int I , j; for (I = 1 ;I<=100; I ++) { j += I; } 方法F int I; I = (100 * (1+100)) / 2 这个例子是我印象最深的一个数学用例,是个人计算机启蒙老师考个人。当时我只有小学三年级,惋惜我当时不知道用公式 N×(N+1)/ 2 来解决这个问题。方法E循环了100次才解决问题,也就是说最少用了100个赋值,100个判断,200个加法(I和j);而方法F仅仅用了1个加法,1 次乘法,1次除法。效果天然不言而喻。因此,如今我在编程序的时候,更多的是动脑筋找规律,最大限度地发挥数学的威力来提升程序运行的效率。 第四招:使用位操做 使用位操做。减小除法和取模的运算。在计算机程序中数据的位是能够操做的最小数据单位,理论上能够用"位运算"来完成全部的运算和操做。通常的位操做是用来控制硬件的,或者作数据变换使用,可是,灵活的位操做能够有效地提升程序运行的效率。举例以下: 方法G int I,J; I = 257 /8; J = 456 % 32; 方法H int I,J; I = 257 >>3; J = 456 - (456 >> 4 << 4); 在字面上好像H比G麻烦了好多,可是,仔细查看产生的汇编代码就会明白,方法G调用了基本的取模函数和除法函数,既有函数调用,还有不少汇编代码和寄存器参与运算;而方法H则仅仅是几句相关的汇编,代码更简洁,效率更高。固然,因为编译器的不一样,可能效率的差距不大,可是,以我目前遇到的MS C ,arm C 来看,效率的差距仍是不小。 对于以2的指数次方为"*"、"/"或"%"因子的数学运算,转化为移位运算"<< >>"一般能够提升算法效率。由于乘除运算指令周期一般比移位运算大。 C语言位运算除了能够提升运算效率外,在嵌入式系统的编程中,它的另外一个最典型的应用,并且十分普遍地正在被使用着的是位间的与(&)、或(|)、非(~)操做,这跟嵌入式系统的编程特色有很大关系。咱们一般要对硬件寄存器进行位设置,譬如,咱们经过将AM186ER型80186处理器的中断屏蔽控制寄存器的第低6位设置为0(开中断2),最通用的作法是: #define INT_I2_MASK 0x0040 wTemp = inword(INT_MASK); outword(INT_MASK, wTemp &~INT_I2_MASK); 而将该位设置为1的作法是: #define INT_I2_MASK 0x0040 wTemp = inword(INT_MASK); outword(INT_MASK, wTemp | INT_I2_MASK); 判断该位是否为1的作法是: #define INT_I2_MASK 0x0040 wTemp = inword(INT_MASK); if(wTemp & INT_I2_MASK) { … /* 该位为1 */ } 运用这招须要注意的是,由于CPU的不一样而产生的问题。好比说,在PC上用这招编写的程序,并在PC上调试经过,在移植到一个16位机平台上的时候,可能会产生代码隐患。因此只有在必定技术进阶的基础下才可使用这招。 第五招:汇编嵌入 在熟悉汇编语言的人眼里,C语言编写的程序都是垃圾"。这种说法虽然偏激了一些,可是却有它的道理。汇编语言是效率最高的计算机语言,可是,不可能靠着它来写一个操做系统吧?因此,为了得到程序的高效率,咱们只好采用变通的方法--嵌入汇编,混合编程。嵌入式C程序中主要使用在线汇编,即在C程序中直接插入_asm{ }内嵌汇编语句。 举例以下,将数组一赋值给数组二,要求每一字节都相符。 char string1[1024],string2[1024]; 方法I int I; for (I =0 ;I<1024;I++) *(string2 + I) = *(string1 + I) 方法J #ifdef _PC_ int I; for (I =0 ;I<1024;I++) *(string2 + I) = *(string1 + I); #else #ifdef _arm_ __asm { MOV R0,string1 MOV R1,string2 MOV R2,#0 loop: LDMIA R0!, [R3-R11] STMIA R1!, [R3-R11] ADD R2,R2,#8 CMP R2, #400 BNE loop } #endif 再举个例子: /* 把两个输入参数的值相加,结果存放到另一个全局变量中 */ int result; void Add(long a, long *b) { _asm { MOV AX, a MOV BX, b ADD AX, [BX] MOV result, AX } } 方法I是最多见的方法,使用了1024次循环;方法J则根据平台不一样作了区分,在arm平台下,用嵌入汇编仅用128次循环就完成了一样的操做。这里有朋友会说,为何不用标准的内存拷贝函数呢?这是由于在源数据里可能含有数据为0的字节,这样的话,标准库函数会提早结束而不会完成咱们要求的操做。这个例程典型应用于LCD数据的拷贝过程。根据不一样的CPU,熟练使用相应的嵌入汇编,能够大大提升程序执行的效率。 虽然是必杀技,可是若是轻易使用会付出惨重的代价。这是由于,使用了嵌入汇编,便限制了程序的可移植性,使程序在不一样平台移植的过程当中,卧虎藏龙,险象环生!同时该招数也与现代软件工程的思想相违背,只有在无可奈何的状况下才能够采用。 第六招, 使用寄存器变量 当对一个变量频繁被读写时,须要反复访问内存,从而花费大量的存取时间。为此,C语言提供了一种变量,即寄存器变量。这种变量存放在CPU的寄存器中,使用时,不须要访问内存,而直接从寄存器中读写,从而提升效率。寄存器变量的说明符是register。对于循环次数较多的循环控制变量及循环体内反复使用的变量都可定义为寄存器变量,而循环计数是应用寄存器变量的最好候选者。 (1) 只有局部自动变量和形参才能够定义为寄存器变量。由于寄存器变量属于动态存储方式,凡须要采用静态存储方式的量都不能定义为寄存器变量,包括:模块间全局变量、模块内全局变量、局部static变量; (2) register是一个"建议"型关键字,意指程序建议该变量放在寄存器中,但最终该变量可能由于条件不知足并未成为寄存器变量,而是被放在了存储器中,但编译器中并不报错(在C++语言中有另外一个"建议"型关键字:inline)。 下面是一个采用寄存器变量的例子: /* 求1+2+3+….+n的值 */ WORD Addition(BYTE n) { register i,s=0; for(i=1;i<=n;i++) { s=s+i; } return s; } 本程序循环n次,i和s都被频繁使用,所以可定义为寄存器变量。 /*www.cyuyan.com.cn*/ 第七招: 利用硬件特性 首先要明白CPU对各类存储器的访问速度,基本上是: CPU内部RAM > 外部同步RAM > 外部异步RAM > FLASH/ROM 对于程序代码,已经被烧录在FLASH或ROM中,咱们可让CPU直接从其中读取代码执行,但一般这不是一个好办法,咱们最好在系统启动后将FLASH或ROM中的目标代码拷贝入RAM中后再执行以提升取指令速度; 对于UART等设备,其内部有必定容量的接收BUFFER,咱们应尽可能在BUFFER被占满后再向CPU提出中断。例如计算机终端在向目标机经过RS-232传递数据时,不宜设置UART只接收到一个BYTE就向CPU提中断,从而无谓浪费中断处理时间; 若是对某设备能采起DMA方式读取,就采用DMA读取,DMA读取方式在读取目标中包含的存储信息较大时效率较高,其数据传输的基本单位是块,而所传输的数据是从设备直接送入内存的(或者相反)。DMA方式较之中断驱动方式,减小了CPU 对外设的干预,进一步提升了CPU与外设的并行操做程度。