OpenMP笔记(二)

时间 2019-12-17

标签 openmp 笔记繁體版

原文原文链接

原文：https://www.bearoom.xyz/2019/02/18/openmp2/web

OpenMP是由三部分组成的：指令、库函数和环境变量。并发

1、指令

在C/C++中使用OpenMP须要用到的指令通常是：

＃pragma omp 指令 [子句[子句]…]

指令有如下常见的11种：ide

atomic 内存位置将会原子更新（Specifies that a memory location that will be updated atomically.）
barrier 线程在此等待，直到全部的线程都运行到此barrier。用来同步全部线程。
critical 其后的代码块为临界区，任意时刻只能被一个线程运行。
flush 全部线程对全部共享对象具备相同的内存视图（view of memory）
for 用在for循环以前，把for循环并行化由多个线程执行。循环变量只能是整型
- parallel for， parallel 和 for语句的结合，也是用在一个for循环以前，表示for循环的代码将被多个线程并行执行。
master 指定由主线程来运行接下来的程序。
ordered 指定在接下来的代码块中，被并行化的 for循环将依序运行（sequential loop）
parallel 表明接下来的代码块将被多个线程并行各执行一遍。
sections 将接下来的代码块包含将被并行执行的section块。
- parallel sections，parallel和sections两个语句的结合
single 以后的程序将只会在一个线程（未必是主线程）中被执行，不会被并行执行。
threadprivate 指定一个全局或者静态变量是线程局部存储（thread local storage），也就是不一样并行块中的同个线程里，这个变量是全局的。

子句有如下常见的几种：svg

copyin 让threadprivate的变量的值和主线程的值相同。
copyprivate 不一样线程中的变量在全部线程中共享。
default 用来指定并行处理区域内的变量的使用方式，缺省是shared。
firstprivate 对于线程局部存储的变量，其初值是进入并行区以前的值。
if 判断条件，可用来决定是否要并行化。
lastprivate 在一个循环并行执行结束后，指定变量的值为循环体在顺序最后一次执行时获取的值，或者#pragma sections在中，按文本顺序最后一个section中执行获取的值。
nowait 忽略barrier的同步等待。
num_threads 设置线程数量的数量。默认值为当前计算机硬件支持的最大并发数。通常就是CPU的内核数目。超线程被操做系统视为独立的CPU内核。
ordered 使用于 for，能够在将循环并行化的时候，将程序中有标记 directive ordered 的部分依序运行。
private 指定变量为线程局部存储。
reduction Specifies that one or more variables that are private to each thread are the subject of a reduction operation at the end of the parallel region.
schedule 设置for循环的并行化方法；有 dynamic、guided、runtime、static 四种方法。shared 指定变量为全部线程共享。
- (1)、schedule(static, chunk_size) 把chunk_size数目的循环体的执行，静态依序指定给各线程。
- (2)、 schedule(dynamic, chunk_size) 把循环体的执行按照chunk_size（缺省值为1）分为若干组（即chunk），每一个等待的线程得到当前一组去执行，执行完后从新等待分配新的组。
- (3)、schedule(guided, chunk_size) 把循环体的执行分组，分配给等待执行的线程。最初的组中的循环体执行数目较大，而后逐渐按指数方式降低到chunk_size。
- (4)、schedule(runtime) 循环的并行化方式不在编译时静态肯定，而是推迟到程序执行时动态地根据环境变量OMP_SCHEDULE 来决定要使用的方法。
shared 指定变量为全部线程共享。

2、库函数

库函数(Run-Time Library Routines)在头文件omp.h中有声明： ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190901170408893.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3l6MnpjeA==,size_16,color_FFFFFF,t_70) 1.void omp_set_num_threads(int _Num_threads)：在后续并行区域设置线程数，此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域。说明：此函数只能在串行代码部分调用。

2.int omp_get_num_threads(void)：返回当前线程数目。说明：若是在串行代码中调用此函数，返回值为1。函数

3.int omp_get_max_threads(void)：若是在程序中此处遇到未使用 num_threads() 子句指定的活动并行区域，则返回程序的最大可用线程数量。说明：能够在串行或并行区域调用，一般这个最大数量由omp_set_num_threads()或OMP_NUM_THREADS环境变量决定。oop

4.int omp_get_thread_num(void)：返回当前线程id.id从1开始顺序编号，主线程id是0。ui

5.int omp_get_num_procs(void)：返回程序可用的处理器数。atom

6.void omp_set_dynamic(int _Dynamic_threads)：启用或禁用可用线程数的动态调整.(缺省状况下启用动态调整.)此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域。若是 _Dynamic_threads 的值为非零值,启用动态调整；不然，禁用动态调整。操作系统

7.int omp_get_dynamic(void)：肯定在程序中此处是否启用了动态线程调整。启用了动态线程调整时返回非零值；不然,返回零值。线程

8.int omp_in_parallel(void)：肯定线程是否在并行区域的动态范围内执行。若是在活动并行区域的动态范围内调用，则返回非零值；不然，返回零值.活动并行区域是指 IF 子句求值为 TRUE 的并行区域。

9.void omp_set_nested(int _Nested)：启用或禁用嵌套并行操做。此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域。_Nested 的值为非零值时启用嵌套并行操做；不然，禁用嵌套并行操做。缺省状况下，禁用嵌套并行操做。

10.int omp_get_nested(void)：肯定在程序中此处是否启用了嵌套并行操做.启用嵌套并行操做时返回非零值；不然，返回零值，互斥锁操做嵌套锁操做功能。
11.void omp_init_lock(omp_lock_t * _Lock)：
12.void omp_init_nest_lock(omp_nest_lock_t * _Lock)：初始化一个（嵌套）互斥锁。
13.void omp_destroy_lock(omp_lock_t * _Lock)：
14.void omp_destroy_nest_lock(omp_nest_lock_t * _Lock)：结束一个（嵌套）互斥锁的使用并释放内存。

15.void omp_set_lock(omp_lock_t * _Lock);
16.void omp_set_nest_lock(omp_nest_lock_t * _Lock);得到一个（嵌套）互斥锁.

17.void omp_unset_lock(omp_lock_t * _Lock)：
18.void omp_unset_nest_lock(omp_nest_lock_t * _Lock)：释放一个（嵌套）互斥锁。

19.int omp_test_lock(omp_lock_t * _Lock)：
20.int omp_test_nest_lock(omp_nest_lock_t * _Lock)：试图得到一个（嵌套）互斥锁,并在成功时放回真（true），失败是返回假（false）。

21.double omp_get_wtime(void)：获取wall clock time，返回一个double的数，表示从过去的某一时刻经历的时间，通常用于成对出现，进行时间比较。此函数获得的时间是相对于线程的，也就是每个线程都有本身的时间。

22.double omp_get_wtick(void)：获得clock ticks的秒数。

3、环境变量

OpenMP的第三部分是环境变量，以下

一、OMP_SCHEDULE
仅适用于DO，PARALLEL DO（Fortran）和
（C / C ++）指令并行，它们的schedule子句设置为RUNTIME。此变量的值肯定如何在处理器上调度循环的迭代。例如：

export OMP_SCHEDULE="guided, 4" 
export OMP_SCHEDULE="dynamic"

二、OMP_NUM_THREADS 设置执行期间要使用的最大线程数。例如：

``` export OMP_NUM_THREADS=8 ```

三、OMP_DYNAMIC
启用或禁用动态调整可用于执行并行区域的线程数。有效值为TRUE或FALSE。例如

export OMP_DYNAMIC=TRUE

四、OMP_PROC_BIND
启用或禁用绑定处处理器的线程。有效值为TRUE或FALSE。例如：

export OMP_PROC_BIND=TRUE

五、OMP_NESTED
启用或禁用嵌套并行性。有效值为TRUE或FALSE。例如：

export OMP_NESTED=TRUE

六、OMP_STACKSIZE
控制建立（非主）线程的堆栈大小。例如

export OMP_STACKSIZE=2000500B 
export OMP_STACKSIZE="3000 k " 
export OMP_STACKSIZE=10M 
export OMP_STACKSIZE=" 10 M " 
export OMP_STACKSIZE="20 m " 
export OMP_STACKSIZE=" 1G" 
export OMP_STACKSIZE=20000

七、OMP_WAIT_POLICY

提供有关等待线程的所需行为的OpenMP实现的提示。兼容的OpenMP实现可能会也可能不会遵照环境变量的设置。有效值为ACTIVE和PASSIVE。ACTIVE指定等待线程应该主动处于活动状态，即在等待时消耗处理器周期。PASSIVE指定等待线程应该主要是被动的，即在等待时不消耗处理器周期。ACTIVE和PASSIVE行为的细节是实现定义的。例子：

export OMP_WAIT_POLICY=ACTIVE 
export OMP_WAIT_POLICY=active 
export OMP_WAIT_POLICY=PASSIVE 
export OMP_WAIT_POLICY=passive

八、OMP_MAX_ACTIVE_LEVELS
控制嵌套活动并行区域的最大数量。此环境变量的值必须是非负整数。若是请求的OMP_MAX_ACTIVE_LEVELS值大于实现能够支持的嵌套活动并行级别的最大数量，或者该值不是非负整数，则程序的行为是实现定义的。例：

export OMP_MAX_ACTIVE_LEVELS=2

九、OMP_THREAD_LIMIT
设置要用于整个OpenMP程序的OpenMP线程数。此环境变量的值必须是正整数。若是请求的OMP_THREAD_LIMIT值大于实现能够支持的线程数，或者该值不是正整数，则程序的行为是实现定义的。例：

export OMP_THREAD_LIMIT=8

> 袅袅城边柳， 青青陌上桑。 提笼忘采叶， 昨夜梦渔阳。
>   *--张仲素 《春闺思》*