在C/C++中使用OpenMP优化代码方便又简单,代码中须要并行处理的每每是一些比较耗时的for循环,因此重点介绍一下OpenMP中for循环的应用。我的感受只要掌握了文中讲的这些就足够了,若是想要学习OpenMP能够到网上查查资料。ios
工欲善其事,必先利其器。若是尚未搭建好omp开发环境的能够看一下OpenMP并行程序设计——Eclipse开发环境的搭建编程
首先,如何使一段代码并行处理呢?omp中使用parallel制导指令标识代码中的并行段,形式为:数组
#pragma omp parallel多线程
{学习
每一个线程都会执行大括号里的代码优化
}spa
好比下面这段代码:.net
#include <iostream>
#include "omp.h"
using namespace std;
int main(int argc, char **argv) {
//设置线程数,通常设置的线程数不超过CPU核心数,这里开4个线程执行并行代码段
omp_set_num_threads(4);
#pragma omp parallel
{
cout << "Hello" << ", I am Thread " << omp_get_thread_num() << endl;
}
}
omp_get_thread_num()是获取当前线程id号
以上代码执行结果为:线程
Hello, I am Thread 1
Hello, I am Thread 0
Hello, I am Thread 2
Hello, I am Thread 3
能够看到,四个线程都执行了大括号里的代码,前后顺序不肯定,这就是一个并行块。设计
带有for的制导指令:
for制导语句是将for循环分配给各个线程执行,这里要求数据不存在依赖。
使用形式为:
(1)#pragma omp parallel for
for()
(2)#pragma omp parallel
{//注意:大括号必需要另起一行
#pragma omp for
for()
}
注意:第二种形式中并行块里面不要再出现parallel制导指令,好比写成这样就不能够:
#pragma omp parallel
{
#pragma omp parallel for
for()
}
第一种形式做用域只是紧跟着的那个for循环,而第二种形式在整个并行块中能够出现多个for制导指令。下面结合例子程序讲解for循环并行化须要注意的地方。
假如不使用for制导语句,而直接在for循环前使用parallel语句:(为了使输出不出现混乱,这里使用printf代替cout)
#include <iostream>
#include <stdio.h>
#include "omp.h"
using namespace std;
int main(int argc, char **argv) {
//设置线程数,通常设置的线程数不超过CPU核心数,这里开4个线程执行并行代码段
omp_set_num_threads(4);
#pragma omp parallel
for (int i = 0; i < 2; i++)
//cout << "i = " << i << ", I am Thread " << omp_get_thread_num() << endl;
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
输出结果为:
i = 0, I am Thread 0
i = 0, I am Thread 1
i = 1, I am Thread 0
i = 1, I am Thread 1
i = 0, I am Thread 2
i = 1, I am Thread 2
i = 0, I am Thread 3
i = 1, I am Thread 3
从输出结果能够看到,若是不使用for制导语句,则每一个线程都执行整个for循环。因此,使用for制导语句将for循环拆分开来尽量平均地分配到各个线程执行。将并行代码改为这样以后:
#pragma omp parallel for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
输出结果为:
i = 4, I am Thread 2
i = 2, I am Thread 1
i = 0, I am Thread 0
i = 1, I am Thread 0
i = 3, I am Thread 1
i = 5, I am Thread 3
能够看到线程0执行i=0和1,线程1执行i=2和3,线程2执行i=4,线程3执行i=5。线程0就是主线程
这样整个for循环被拆分并行执行了。上面的代码中parallel和for连在一块使用的,其只能做用到紧跟着的for循环,循环结束了并行块就退出了。
上面的代码能够改为这样:
#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
这写法和上面效果是同样的。须要注意的问题来了:若是在parallel并行块里再出现parallel会怎么样呢?回答这个问题最好的方法就是跑一遍代码看看,因此把代码改为这样:
#pragma omp parallel
{
#pragma omp parallel for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
输出结果:
i = 0, I am Thread 0
i = 0, I am Thread 0
i = 1, I am Thread 0
i = 1, I am Thread 0
i = 2, I am Thread 0
i = 2, I am Thread 0
i = 3, I am Thread 0
i = 3, I am Thread 0
i = 4, I am Thread 0
i = 4, I am Thread 0
i = 5, I am Thread 0
i = 5, I am Thread 0
i = 0, I am Thread 0
i = 1, I am Thread 0
i = 0, I am Thread 0
i = 2, I am Thread 0
i = 1, I am Thread 0
i = 3, I am Thread 0
i = 2, I am Thread 0
i = 4, I am Thread 0
i = 3, I am Thread 0
i = 5, I am Thread 0
i = 4, I am Thread 0
i = 5, I am Thread 0
能够看到,只有一个线程0,也就是只有主线程执行for循环,并且总共执行4次,每次都执行整个for循环!因此,这样写是不对的。
固然,上面说的for制导语句的两种写法是有区别的,好比两个for循环之间有一些代码只能有一个线程执行,那么用第一种写法只须要这样就能够了:
#pragma omp parallel for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
//这里是两个for循环之间的代码,将会由线程0即主线程执行
printf("I am Thread %d\n", omp_get_thread_num());
#pragma omp parallel for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
离开了for循环就剩主线程了,因此两个循环间的代码是由线程0执行的,输出结果以下:
i = 0, I am Thread 0
i = 2, I am Thread 1
i = 1, I am Thread 0
i = 3, I am Thread 1
i = 4, I am Thread 2
i = 5, I am Thread 3
I am Thread 0
i = 4, I am Thread 2
i = 2, I am Thread 1
i = 5, I am Thread 3
i = 0, I am Thread 0
i = 3, I am Thread 1
i = 1, I am Thread 0
可是若是用第二种写法把for循环写进parallel并行块中就须要注意了!
因为用parallel标识的并行块中每一行代码都会被多个线程处理,因此若是想让两个for循环之间的代码由一个线程执行的话就须要在代码前用single或master制导语句标识,master由是主线程执行,single是选一个线程执行,这个到底选哪一个线程不肯定。因此上面代码能够写成这样:
#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
#pragma omp master
{
//这里的代码由主线程执行
printf("I am Thread %d\n", omp_get_thread_num());
}
#pragma omp for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
效果和上面的是同样的,若是不指定让主线程执行,那么将master改为single便可。
到这里,parallel和for的用法都讲清楚了。接下来就开始讲并行处理时数据的同步问题,这是多线程编程里都会遇到的一个问题。
为了讲解数据同步问题,先由一个例子开始:
#include <iostream>
#include "omp.h"
using namespace std;
int main(int argc, char **argv) {
int n = 100000;
int sum = 0;
omp_set_num_threads(4);
#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < n; i++) {
{
sum += 1;
}
}
}
cout << " sum = " << sum << endl;
}
指望的正确结果是100000,可是这样写是错误的。看代码,因为默认状况下sum变量是每一个线程共享的,因此多个线程同时对sum操做时就会由于数据同步问题致使结果不对,显然,输出结果每次都不一样,这是没法预知的,以下:
第一次输出sum = 58544
第二次输出sum = 77015
第三次输出sum = 78423
那么,怎么去解决这个数据同步问题呢?解决方法以下:
方法一:对操做共享变量的代码段作同步标识
代码修改以下:
#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < n; i++) {
{
#pragma omp critical
sum += 1;
}
}
}
cout << " sum = " << sum << endl;
critical制导语句标识的下一行代码,也能够是跟着一个大括号括起来的代码段作了同步处理。输出结果100000
方法二:每一个线程拷贝一份sum变量,退出并行块时再把各个线程的sum相加
并行代码修改以下:
#pragma omp parallel
{
#pragma omp for reduction(+:sum)
for (int i = 0; i < n; i++) {
{
sum += 1;
}
}
}
reduction制导语句,操做是退出时将各自的sum相加存到外面的那个sum中,因此输出结果就是100000啦~~
方法三:这种方法貌似不那么优雅
代码修改以下:
int n = 100000;
int sum[4] = { 0 };
omp_set_num_threads(4);
#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < n; i++) {
{
sum[omp_get_thread_num()] += 1;
}
}
}
cout << " sum = " << sum[0] + sum[1] + sum[2] + sum[3] << endl;
每一个线程操做的都是以各自线程id标识的数组位置,因此结果固然正确。
数据同步就讲完了,上面的代码中for循环是一个一个i平均分配给各个线程,若是想把循环一块一块分配给线程要怎么作呢?这时候用到了schedule制导语句。下面的代码演示了schedule的用法:
#include <iostream>
#include "omp.h"
#include <stdio.h>
using namespace std;
int main(int argc, char **argv) {
int n = 12;
omp_set_num_threads(4);
#pragma omp parallel
{
#pragma omp for schedule(static, 3)
for (int i = 0; i < n; i++) {
{
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
}
}
}
上面代码中for循环并行化时将循环不少不少块,每一块大小为3,而后再平均分配给各个线程执行。
输出结果以下:
i = 6, I am Thread 2
i = 3, I am Thread 1
i = 7, I am Thread 2
i = 4, I am Thread 1
i = 8, I am Thread 2
i = 5, I am Thread 1
i = 0, I am Thread 0
i = 9, I am Thread 3
i = 1, I am Thread 0
i = 10, I am Thread 3
i = 2, I am Thread 0
i = 11, I am Thread 3
从输出结果能够看到:线程0执行i=0 1 2,线程1执行i=3 4 5,线程2执行i=6 7 8,线程3执行i=9 10 11,若是后面还有则又从线程0开始分配。
OK,for循环并行化的知识基本讲完了,还有一个有用的制导语句barrier,用它能够在并行块中设置一个路障,必须等待全部线程到达时才能经过,这个通常在并行处理循环先后存在依赖的任务时使用到。
是否是很简单?