并行计算实验报告(高性能计算与网格技术)Word文档格式.doc

上传人:聆听****声音 文档编号:270259 上传时间:2023-04-28 格式:DOC 页数:15 大小:205.50KB
下载 相关 举报
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第1页
第1页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第2页
第2页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第3页
第3页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第4页
第4页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第5页
第5页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第6页
第6页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第7页
第7页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第8页
第8页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第9页
第9页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第10页
第10页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第11页
第11页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第12页
第12页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第13页
第13页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第14页
第14页 / 共15页
并行计算实验报告(高性能计算与网格技术)Word文档格式.doc_第15页
第15页 / 共15页
亲,该文档总共15页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

并行计算实验报告(高性能计算与网格技术)Word文档格式.doc

《并行计算实验报告(高性能计算与网格技术)Word文档格式.doc》由会员分享,可在线阅读,更多相关《并行计算实验报告(高性能计算与网格技术)Word文档格式.doc(15页珍藏版)》请在冰点文库上搜索。

并行计算实验报告(高性能计算与网格技术)Word文档格式.doc

参考文档sy6.doc所使用的并行算法:

在LU分解的过程中,主要的计算是利用主行i对其余各行j,(j>

i)作初等行变换,各行计算之间没有数据相关关系,因此可以对矩阵A按行划分来实现并行计算。

考虑到在计算过程中处理器之间的负载均衡,对A采用行交叉划分:

设处理器个数为p,矩阵A的阶数为n,,对矩阵A行交叉划分后,编号为i(i=0,1,…,p-1)的处理器存有A的第i,i+p,…,i+(m-1)p行。

然后依次以第0,1,…,n-1行作为主行,将其广播给所有处理器,各处理器利用主行对其部分行向量做行变换,这实际上是各处理器轮流选出主行并广播。

若以编号为my_rank的处理器的第i行元素作为主行,并将它广播给所有处理器,则编号大于等于my_rank的处理器利用主行元素对其第i+1,…,m-1行数据做行变换,其它处理器利用主行元素对其第i,…,m-1行数据做行变换。

根据上述算法原理用代码表示如下(关键代码):

for(k=0;

k<

N;

k++)

{

for(i=0;

i<

THREADS_NUM;

i++){

thread_data_arrray[i].thread_id=i;

thread_data_arrray[i].K_number=k;

thread_data_arrray[i].chushu=a[k][k];

//创建线程

rc=pthread_create(&

pid[i],NULL,work,(void*)&

thread_data_arrray[i]);

}

i++){

//等待线程同步

rc=pthread_join(pid[i],&

ret);

}

void*work(void*arg)

{

structthread_data*my_data;

my_data=(structthread_data*)arg;

intmyid=my_data->

thread_id;

//线程ID

intmyk=my_data->

K_number;

//外层循环计数K

floatmychushu=my_data->

chushu;

//对角线的值

ints,e;

inti,j;

s=(N-myk-1)*myid/THREADS_NUM;

//确定起始循环的行数的相对位置

e=(N-myk-1)*(myid+1)/THREADS_NUM;

//确定终止循环的行数的相对位置

for(i=s+myk+1;

e+myk+1;

i++) //由于矩阵规模在缩小,找到偏移位置

a[i][myk]=a[i][myk]/mychushu;

for(j=myk+1;

j<

N;

j++)

a[i][j]=a[i][j]-a[i][myk]*a[myk][j];

//printMatrix(a);

returnNULL;

}

第一部分为入口函数,其创建指定的线程数,并根据不同的线程id按行划分矩阵,将矩阵的不同部分作为参数传递给线程,在多处理器电脑上,不同的线程并行执行,实现并行计算LU分解。

在LU分解的过程中,主要的计算是利用主行i对其余各行j,(j)i)做初等行变换,由于各行计算之间没有数据相关关系,因此可以对矩阵按行划分来实现并行算法。

考虑到计算过程中处理器负载的均衡,对矩阵采用行交叉划分;

假设处理器个数为p,矩阵的阶数为n,则每个处理器处理的行数为。

由于在OpenMP和MPI中并行算法的实现不太一样,所以接下来的两小节中我将分别针对两个编程环境设计LU分解的并行实现。

3.2、OpenMP编程

因为OpenMP是基于线程的编程模型,所以设计了一个基于多线程的OpenMP的LU分解算法,关键代码如下:

for(k=0;

omp_set_num_threads(THREADS_NUM);

#pragmaompparallelprivate(tid)

tid=omp_get_thread_num();

//当前线程ID

intmyid=tid;

printf("

helloworldfromOMPthread%d\n"

tid);

intmyk=k;

floatmychushu=A[k][k];

ints,e;

inti,j;

s=(N-myk-1)*myid/THREADS_NUM;

//确定起始循环的行数的相对位置

e=(N-myk-1)*(myid+1)/THREADS_NUM;

for(i=s+myk+1;

i++) //由于矩阵规模在缩小,找到偏移位置

{

A[i][myk]=A[i][myk]/mychushu;

for(j=myk+1;

A[i][j]=A[i][j]-A[i][myk]*A[myk][j];

 //对行进行初等行变换

其主要思想为:

外层设置一个列循环,在每次循环中开设THREAD_NUMS个线程,每个线程处理的矩阵A的行为上述的m,一次循环过后则完成对应列的变换,这样在N此循环过后便可完成矩阵A的LU分解。

即L为A[k][j]中k>

j的元素,其对角线上元素为1.0,其它为0,U为A[k][j]中k<

=j的元素,其余为0。

这里如果我们使用的是一般的多线程编程,则在开启THREAD_NUMS个线程后,在下次循环开始之前,需要手动配置等待线程同步,不然可能出现错误。

但由于OpenMP使用Fork-Join并行执行模型,其会在线程队执行完以后才转到主线程执行,所以不需要等待线程同步。

详细的代码请参看附带源程序。

3.3、MPI编程

设处理器个数为p,矩阵A的阶数为n,,对矩阵A行交叉划分后,编号为i(i=0,1,…,p-1)的处理器存有A的第i,i+p,…,i+(m-1)p行。

若以编号为my_rank的处理器的第i行元素作为主行,并将它广播给所有处理器,则编号大于等于my_rank的处理器利用主行元素对其第i+1,…,m-1行数据做行变换,其它处理器利用主行元素对其第i,…,m-1行数据做行变换,计算完成后,编号为0的处理器收集各处理器中的计算结果,并从经过初等行变换的矩阵A中分离出下三角矩阵L和上三角矩阵U。

关键代码如下:

/*0号进程采用行交叉划分将矩阵A划分为大小m*M的p块子矩阵,依次发送给1至p-1号进程*/

if(my_rank==0)

{

for(i=0;

i<

m;

i++)

for(j=0;

j<

M;

j++)

a(i,j)=A((i*p),j);

if((i%p)!

=0)

{

i1=i%p;

i2=i/p+1;

MPI_Send(&

A(i,0),M,MPI_FLOAT,i1,i2,MPI_COMM_WORLD);

}

}

else

MPI_Recv(&

a(i,0),M,MPI_FLOAT,0,i+1,MPI_COMM_WORLD,&

status);

for(i=0;

for(j=0;

p;

/*j号进程负责广播主行元素*/

if(my_rank==j)

v=i*p+j;

for(k=v;

f[k]=a(i,k);

MPI_Bcast(f,M,MPI_FLOAT,my_rank,MPI_COMM_WORLD);

else

MPI_Bcast(f,M,MPI_FLOAT,j,MPI_COMM_WORLD);

/*编号小于my_rank的进程(包括my_rank本身)利用主行对其第i+1,…,m-1行数据做行变换*/

if(my_rank<

=j){

for(k=i+1;

{

a(k,v)=a(k,v)/f[v];

for(w=v+1;

w<

w++)

a(k,w)=a(k,w)-f[w]*a(k,v);

}

/*编号大于my_rank的进程利用主行对其第i,…,m-1行数据做行变换*/

if(my_rank>

j){

for(k=i;

/*0号进程从其余各进程中接收子矩阵a,得到经过变换的矩阵A*/

A(i*p,j)=a(i,j);

if(my_rank!

MPI_Send(&

a(i,0),M,MPI_FLOAT,0,i,MPI_COMM_WORLD);

for(i=1;

MPI_Recv(&

a(j,0),M,MPI_FLOAT,i,j,MPI_COMM_WORLD,&

for(k=0;

A((j*p+i),k)=a(j,k);

3.4、程序调优:

OpenMP和MPI混合编程

我们知道OpenMP是基于线程的并行编程模型,一个共享存储的进程由多个线程组成,OpenMP就是基于已有线程的共享编程模型;

而MPI属于消息传递的并行编程模型,这个从前两小节中可以看到,因为在LU的MPI实现中,我们对矩阵采用交叉划分,根据p(处理器号)划分行,因此可以对每个划分出来的矩阵采用多线程并行算法,也即可以采用OpenMP计算。

在MPI的编号大于等于my_rank的处理器利用主行元素对其第i+1,…,m-1行数据做行变换,其它处理器利用主行元素对其第i,…,m-1行数据做行变换部分采用OpenMP计算,所以混合编程的核心代码如下:

if(my_rank<

inttid;

omp_set_num_threads(THREADS_NUM);

#pragmaompparallelprivate(tid)

tid=omp_get_thread_num();

intmyid=tid;

intmyk=i+1;

floatmychushu=f[v];

ints,e;

intc,d;

s=(m-myk-1)*myid/THREADS_NUM;

e=(m-myk-1)*(myid+1)/THREADS_NUM;

for(c=s+myk+1;

c<

e+myk+1;

c++){

a(c,v)=a(c,v)/mychushu;

for(d=v+1;

d<

d++){

a(c,d)=a(c,d)-f[d]*a(c,v);

四、程序运行效果及分析

这里将通过测试在确定的线程下,对于随机生成的不同大小的矩阵,串行及OpenMP&

MPI的运行时间来分析程序性能。

并通过改变线程的数量,在不同情况下多次测量,测试编译参数对程序性能的影响。

4.1、固定线程数时,不同矩阵大小下性能测试

a.当线程数为5时:

测试得到的不同矩阵大小下的加速比数据如图1所示:

图1

根据图1中所示测得的数据,生成折线图如下:

b.当线程数为100时,测得的实验数据如图2所示:

图2

根据图2中所示测得实验数据生成的折线图如下:

结果分析:

从以上的结果可以看出在不同的线程下,OpenMP的性能都会随着矩阵规模的增大而变好,也就是在矩阵规模变大时,OpenMP的加速比变大,虽然在实验中有出现下降,但总体来说加速比在增大。

同时,可以看到在矩阵很小时,加速比几乎为零,也即此时的OpenMP运行时间比串行时间久,这主要是在矩阵规模很小时,OpenMP多线程减少的计算时间相比为维护这么多线程花费的时间要少很多,所以在数据规模很小时,不应该采用OpenMP编程并行编程。

相反,在数据规模很大时,采用OpenMP并行编程模型,将带来巨大的性能提升。

4.2、固定矩阵大小时,不同线程数下的性能测试

a.当矩阵大小为2000时,测得的数据如图3所示:

图3

根据图3测得实验数据,生成的折线图如下:

b.当矩阵大小为4000时,测得的数据如图4所示:

图4

根据图4测得实验数据,生成的折线图如下:

从上面的实验测试可以看出,在不同的线程数量下,OpenMP运行的加速比不同,同线程数量变大时,OpenMP的加速比并没有如所期望的一样变大,相反随线程数量的增加,OpenMP的加速比变小了。

因为OpenMP是基于多线程的编程模型,而我们知道多线程程序性能的提高是基于多CPU同时运行线程,而本次程序测试的主机为4核的,也即可以同时运行4个线程,因此当线程数量增多到超过CPU数量时,多余的线程实际上并没有得到执行,相反这个时候还需要额外维护这大量的线程,因此性能降低,所以加速比随线程增多而有所降低。

因此,在进行OpenMP并行编程时,我们需要根据所运行的主机的CPU数量合理的设置线程的数量,以获得最大的加速比。

以上是针对OpenMP并行算法与串行算法的性能的比较,下面再简单对不同进程情况下MPI的LU并行算法与串行算法的性能比较。

c.分别在矩阵大小为3000和4000时测得的实验数据如下:

根据测得的实验数据,生成的折线图如下:

从上面的实验测试结果,可以看出,在进程为4时,MPI的加速比为最大,而在两边变化时,加速比有所下降。

也即在进行MPI并行编程时,合理设置进程也是非常重要的,一般也是根据运行主机的CPU的数量来设置,如本次主机的CPU数量为4,所以设置进程数为4,每个CPU分别负责执行一个进程,在进程数量过多时,进程没有被执行,反而还增加了维护进程的开销,我们知道这个开销是很大的。

结论:

无论是MPI并行编程还是OpenMP并行编程,都要在大数据量时才能体现其优点,在运行大数据量时,MPI与OpenMP能极大的提高程序运行性能,提供较高的加速比。

因为MPI要维护进程,进行消息传递等,而OpenMP要维护线程等,而这都是要花费时间的,特别是在进程或线程数量很大时,维护、通信、同步等的开销很大,所以在数据量很小时,不能采用MPI或OpenMP编程,因为其开销比其带来的性能提升要大。

另外,在采用MPI及OpenMP编程时,要根据运行主机合理的设置进程或线程的数量。

否则将不能最大化其性能。

具体过程可参照上述分析。

最后感谢xx老师对我们的辛苦教学以及xx助教对我们的悉心指导。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2