openMP学习笔记Word下载.doc

资源描述

openMP学习笔记Word下载.doc

《openMP学习笔记Word下载.doc》由会员分享，可在线阅读，更多相关《openMP学习笔记Word下载.doc（9页珍藏版）》请在冰点文库上搜索。

openMP学习笔记Word下载.doc

返回线程号

omp_set_num_threads,

设置并行执行代码时的线程个数

omp_init_lock,初始化一个简单锁

omp_set_lock，上锁操作

omp_unset_lock，解锁操作，要和omp_set_lock函数配对使用。

omp_destroy_lock，omp_init_lock函数的配对操作函数，关闭一个锁

OpenMP的子句有以下一些

private,

指定每个线程都有它自己的变量私有副本。

firstprivate，指定每个线程都有它自己的变量私有副本，并且变量要被继承主线程中的初值。

lastprivate，主要是用来指定将线程中的私有变量的值在并行处理结束后复制回主线程中的对应变量。

reduce，用来指定一个或多个变量是私有的，并且在并行处理结束后这些变量要执行指定的运算。

nowait，忽略指定中暗含的等待

num_threads，指定线程的个数

schedule，指定如何调度for循环迭代

shared，指定一个或多个变量为多个线程间的共享变量

ordered，用来指定for循环的执行要按顺序执行

copyprivate，用于single指令中的指定变量为多个线程的共享变量

copyin，用来指定一个threadprivate的变量的值要用主线程的值进行初始化。

default，用来指定并行处理区域内的变量的使用方式，缺省是shared

2num_threads子句

parallel语句后面要跟一个大括号对将要并行执行的代码括起来。

voidmain（intargc,char*argv[]）{

#pragmaompparallel

{

printf（“Hello,World!

/n”）;

}

执行以上代码将会打印出以下结果

Hello,World!

可以看得出parallel语句中的代码被执行了四次，说明总共创建了4个线程去执行parallel语句中的代码。

也可以指定使用多少个线程来执行，需要使用num_threads子句：

#pragmaompparallelnum_threads（8）

ThreadId=%d/n”,omp_get_thread_num（））;

执行以上代码，将会打印出以下结果：

ThreadId=2

ThreadId=6

ThreadId=4

ThreadId=0

ThreadId=5

ThreadId=7

ThreadId=1

ThreadId=3

从ThreadId的不同可以看出创建了8个线程来执行以上代码。

所以parallel指令是用来为一段代码创建多个线程来执行它的。

parallel块中的每行代码都被多个线程重复执行。

和传统的创建线程函数比起来，相当于为一个线程入口函数重复调用创建线程函数来创建线程并等待线程执行完。

threadprivate子句

threadprivate子句用来指定全局的对象被各个线程各自复制了一个私有的拷贝，即各个线程具有各自私有的全局对象。

用法如下：

#pragmaompthreadprivate（list）

下面用threadprivate命令来实现一个各个线程私有的计数器，各个线程使用同一个函数来实现自己的计数。

计数器代码如下：

int

counter=0;

#pragma

ompthreadprivate（counter）

increment_counter（）

counter++;

return（counter）;

如果对于静态变量也同样可以使用threadprivate声明成线程私有的，上面的counter变量如改成用static类型来实现时，代码如下：

increment_counter2（）

staticint

threadprivate和private的区别在于threadprivate声明的变量通常是全局范围内有效的，而private声明的变量只在它所属的并行构造中有效。

threadprivate的对应只能用于copyin，copyprivate，schedule，num_threads和if子句中，不能用于任何其他子句中。

用作threadprivate的变量的地址不能是常数。

对于C++的类（class）类型变量，用作threadprivate的参数时有些限制，当定义时带有外部初始化时，必须具有明确的拷贝构造函数。

对于windows系统，threadprivate不能用于动态装载（使用LoadLibrary装载）的DLL中，可以用于静态装载的DLL中，关于windows系统中的更多限制，请参阅MSDN中有关threadprivate子句的帮助材料。

有关threadprivate命令的更多限制方面的信息，详情请参阅OpenMP2.5规范。

4shared子句

shared子句用来声明一个或多个变量是共享变量。

shared（list）

需要注意的是，在并行区域内使用共享变量时，如果存在写操作，必须对共享变量加以保护，否则不要轻易使用共享变量，尽量将共享变量的访问转化为私有变量的访问。

循环迭代变量在循环构造区域里是私有的。

声明在循环构造区域内的自动变量都是私有的。

default子句

default子句用来允许用户控制并行区域中变量的共享属性。

default（shared

none）

使用shared时，缺省情况下，传入并行区域内的同名变量被当作共享变量来处理，不会产生线程私有副本，除非使用private等子句来指定某些变量为私有的才会产生副本。

如果使用none作为参数，那么线程中用到的变量必须显示指定是共享的还是私有的，除了那些由明确定义的除外。

copyin子句

copyin子句用来将主线程中threadprivate变量的值拷贝到执行并行区域的各个线程的threadprivate变量中，便于线程可以访问主线程中的变量值，

copyin（list）

copyin中的参数必须被声明成threadprivate的，对于类类型的变量，必须带有明确的拷贝赋值操作符。

对于前面threadprivate中讲过的计数器函数，如果多个线程使用时，各个线程都需要对全局变量counter的副本进行初始化，可以使用copyin子句来实现，示例代码如下：

main（intargc,

char*argv[]）

iterator;

ompparallelsections

copyin（counter）

{

omp

section

count1;

for

（iterator=0;

iterator<

100;

iterator++）

count1=increment_counter（）;

}

printf（"

count1=%ld/n"

count1）;

count2;

200;

count2=increment_counter（）;

count2=%ld/n"

count2）;

counter=%ld/n"

counter）;

打印结果如下：

count1=100

count2=200

counter=0

从打印结果可以看出，两个线程都正确实现了各自的计数。

copyprivate子句

copyprivate子句提供了一种机制用一个私有变量将一个值从一个线程广播到执行同一并行区域的其他线程。

copyprivate（list）

copyprivate子句可以关联single构造，在single构造的barrier到达之前就完成了广播工作。

copyprivate可以对private和threadprivate子句中的变量进行操作，但是当使用single构造时，copyprivate的变量不能用于private和firstprivate子句中。

下面便是一个使用copyprivate的代码例子：

ompparallel

count;

ompsinglecopyprivate（counter）

counter=50;

count=increment_counter（）;

ThreadId:

%ld,count=%ld/n"

omp_get_thread_num（）,count）;

打印结果为：

2,count=51

0,count=51

3,count=51

1,count=51

如果没有使用copyprivate子句，那么打印结果为：

2,count=1

1,count=1

3,count=1

从打印结果可以看出，使用copyprivate子句后，single构造内给counter赋的值被广播到了其他线程里，但没有使用copyprivate子句时，只有一个线程获得了single构造内的赋值，其他线程没有获取single构造内的赋值。

8OpenMP程序设计的两个小技巧

1、动态设置并行循环的线程数量

在实际情况中，程序可能运行在不同的机器环境里，有些机器是双核，有些机器是4核甚至更多核。

并且未来硬件存在升级的可能，CPU核数会变得越来越多。

如何根据机器硬件的不同来自动设置合适的线程数量就显得很重要了，否则硬件升级后程序就得进行修改，那将是一件很麻烦的事情。

比如刚开始在双核系统中开发的软件，线程数量缺省都设成2，那么当机器升级到4核或8核以后，线程数量就不能满足要求了，除非修改程序。

线程数量的设置除了要满足机器硬件升级的可扩展性外，还需要考虑程序的可扩展性，当程序运算量增加或减少后，设置的线程数量仍然能够满足要求。

显然这也不能通过设置静态的线程数量来解决。

在具体计算需要使用多少线程时，主要需要考虑以下两点：

1）

当循环次数比较少时，如果分成过多数量的线程来执行，可能会使得总运行时间高于较少线程或一个线程执行的情况。

并且会增加能耗。

2）

如果设置的线程数量远大于CPU核数的话，那么存在着大量的任务切换和调度等开销，也会降低整体效率。

那么如何根据循环的次数和CPU核数来动态地设置线程的数量呢？

下面以一个例子来说明动态设置线程数量的算法，假设一个需要动态设置线程数的需求为：

1、

以多个线程运行时的每个线程运行的循环次数不低于4次

2、

总的运行线程数最大不超过2倍CPU核数

下面代码便是一个实现上述需求的动态设置线程数量的例子

const

MIN_ITERATOR_NUM=4;

ncore=omp_get_num_procs（）;

//获取执行核的数量

max_tn=n/MIN_ITERATOR_NUM;

tn=max_tn>

2*ncore?

2*ncore:

max_tn;

//tn表示要设置的线程数量

ompparallel

if（tn>

1）num_threads（tn）

（i=0;

i++）

ThreadId=%ld/n"

omp_get_thread_num（））;

//Dosomeworkhere

在上面代码中，根据每个线程运行的循环次数不低于4次，先计算出最大可能的线程数max_tn，然后计算需要的线程数量tn，tn的值等于max_tn和2倍CPU核数中的较小值。

然后在parallelfor构造中使用if子句来判断tn是否大于1，大于1时使用单个线程，否则使用tn个线程，，这样就使得设置的线程数量满足了需求中的条件。

比如在一个双核CPU上，n=64，最终会以2倍CPU核数（4个）线程运行，而不会以max_tn=64/4＝16个线程运行。

在实际情况中，当然不能每个循环都象上面一样写几行代码来计算一遍，可以将其写成一个独立的功能函数如下：

constintg_ncore=omp_get_num_procs（）;

//获取执行核的数量

/**

计算循环迭代需要的线程数量

根据循环迭代次数和CPU核数及一个线程最少需要的循环迭代次数

来计算出需要的线程数量，计算出的最大线程数量不超过CPU核数

@param

intn-

循环迭代次数

intmin_n-

单个线程需要的最少迭代次数

@return

int-

线程数量

intdtn（intn,intmin_n）

intmax_tn=n/min_n;

inttn=max_tn>

g_ncore?

g_ncore:

if（tn<

1）

tn=1;

returntn;

这样每次并行化循环时就可以直接使用函数dtn（）来获取合适的线程数量，前面的代码可以简写成如下形式：

num_threads（dtn（n,MIN_ITERATOR_NUM））

当然具体设置多少线程要视情况而定的，一般情况下线程数量刚好等于CPU核数可以取得比较好的性能，因为线程数等于CPU核数时，每个核执行一个任务，没有任务切换开销。

2、嵌套循环的并行化

在嵌套循环中，如果外层循环迭代次数较少时，如果将来CPU核数增加到一定程度时，创建的线程数将可能小于CPU核数。

另外如果内层循环存在负载平衡的情况下，很难调度外层循环使之达到负载平衡。

下面以矩阵乘法作为例子来讲述如何将嵌套循环并行化，以满足上述扩展性和负载平衡需求。

一个串行的矩阵乘法的函数代码如下：

矩阵串行乘法函数

int*a-

指向要相乘的第个矩阵的指针

introw_a-

矩阵a的行数

intcol_a-

矩阵a的列数

int*b-

指向要相乘的第个矩阵的指针

introw_b-

矩阵b的行数

intcol_b-

矩阵b的列数

int*c-

计算结果的矩阵的指针

intc_size-

矩阵c的空间大小（总元素个数）

void-

无

voidMatrix_Multiply（int*a,introw_a,intcol_a,

int*b,introw_b,intcol_b,

int*c,intc_size）

if（col_a!

=row_b||c_size<

row_a*col_b）

return;

inti,j,k;

//#pragmaompforprivate（i,j,k）

for（i=0;

row_a;

introw_i=i*col_a;

introw_c=i*col_b;

for（j=0;

col_b;

j++）

c[row_c+j]=0;

for（k=0;

row_b;

k++）

c[row_c+j]+=a[row_i+k]*b[k*col_b+j];

如果在外层循环前加上OpenMP的for语句时，它就变成了一个并行的矩阵乘法函数，但是这样简单地将其并行化显然无法满足前面所述的扩展性需求。

其实可以采用一个简单的方法将最外层循环和第2层循环合并成一个循环，下面便是采用合并循环后的并行实现。

voidParallel_Matrix_Multiply（int*a,introw_a,intcol_a,

int*c,intc_size）

=row_b）

intindex;

intborder=row_a*col_b;

i=0;

展开阅读全文