gpu并行计算工程师笔试面试文档格式.docx

资源描述

gpu并行计算工程师笔试面试文档格式.docx

《gpu并行计算工程师笔试面试文档格式.docx》由会员分享，可在线阅读，更多相关《gpu并行计算工程师笔试面试文档格式.docx（12页珍藏版）》请在冰点文库上搜索。

gpu并行计算工程师笔试面试文档格式.docx

（1）时间：

程序串行运行时间是指在串行计算机上，程序从开始到运行结束所用的时间。

并行运行程序是从并行计算开始时刻到最后的处理器完成运算所经过的时间。

（2）总并行开销：

并行系统的开销函数或总开销为由所有处理器话费的总时间，除去在单个处理器上求解相同问题时最快的串行算法所需要的时间。

所有处理器所用总时间减去完成有用工作所花费的时间，剩余部分即是开销。

　　（3）加速比：

在单个处理器上求解问题所花的时间与用p个相同处理器并行计算机求解同一问题所花时间之比。

　　（4）效率：

处理器被有效利用部分时间的度量，它定义为加速比与处理器数目的比率。

在理想的并行系统中，加速比等于p，效率等于1。

实际上，加速比小于p而效率在0和1之间，它依赖于处理器被利用的效率。

　　（5）成本：

并行运行时间与所用处理器数目的乘积。

成本反映每个处理器求解问题所花费时间的总和。

另外，移植性、伸缩性和对各类语言的支持度也是评价指标。

　　3．影响并行编程模型性能的关键因素多核处理器系统采用单芯片多处理器核的设计，这些处理器核相互独立，每个拥有一套完整的硬件执行环境，可以同时执行多道指令。

在高速缓存设计方面，每个核拥有独立的片上缓存和共享的最后一级缓存。

基于多核处理器的系统特征，影响并行程序性能的因素主要包括存储带宽、片上缓存一致性和负载均衡。

（1）存储带宽。

在多核系统中，最后一级缓存是被各个核所共享的，如果位于同核上的多个线程同时对不同的数据集进行操作，将会导致最后一级缓存与主存之间频繁地传送数据。

由于在主存和缓存之间传送数据的速度远小于cpu的计算速度，因此有限的存储带宽成为了影响多核环境下并行程序性能的瓶颈。

（2）片上缓存一致性。

所谓片上缓存一致性，是指多核系统中各个核的片上缓存位于相同存储空间上的数据必须保持一致。

虽然多核系统共享的cache体系结构在最后一级cache上减少了cache一致性问题，但由于每个核

　　都拥有独立的cache，很可能出现一个核上的cache数据和另一个核上不一致的现象，这通常发生在位于不同核上运行的两个线程写入位于同一cache行上的两个数据，即使某个线程所需的位于某个cache块中的数据没有被重写过，但存储系统还是会把该cache块标记无效，这就是通常意义上的伪共享问题Ⅲ。

如果这样的多个核同时写入位于同一cache行上数据的操作非常频繁，将会严重影响程序的性能。

　　（3）负载均衡。

在多核系统中，各核负载是否均衡也是影响程序性能的一个重要因素。

如果出现某一核上在进行计算的同时另一核空闲等待的情况，那么这样的负载是不均衡的，多核资源的利用率是不高的。

　　4.关键因素的相关优化技术及分析比较

（1）如何减少有限存储带宽上的竞争。

对于多个核同时在一个大数据集上进行操作的情况，如果数据集的大小超过最后一级共享缓存的容量，由于不同核操作的数据不同，将会在主存和高速缓存之间频繁地传送数据，我们使用cache块技术有效减少不必要的数据传送捌。

即将一个大的数据集划分为多个比最后一级缓存容量小的子数据集，在各核上运行的线程对一个子数据集计算完毕后，继续对下一个子数据集进行计算，直到所有子数据集计算完毕为止。

使用cache块技术虽然会增加同步开销，但可以有效减少存储竞争，提升程序性能。

图所示是在二级缓存为2mb的双核cpu环境下不同大小数据集上进行500次循环读写操作分别采用cache块技术和简单平均划分数据集的运行时间对比。

从图中我们可以看到一旦数据集大小超过了最后一级缓存的容量，由于各核上执行的是反复读写的操作，导致了在主存和最后一级缓存之间频繁地传送数据，而采用cache块划分的并行处理方式就能有效减少不必要的数据传送，提升程序性能。

（2）如何减少片上缓存的一致性。

如前所述，片上缓存的不一致性是由于多核处理器环境下不同核上的线程对处于同一cache行上的数据进行写操作，导致硬件逻辑将cache块标记为无效而在主存与cache传送数据所带来的开销。

通常情况下有两种方法可以处理这样的问题，一个是将不同核上需要经常执行写操作的数据分配到不同的cache行上，另一个是将不同线程操作的共享变量拷贝到本地局部变量中，这样就不会导致某一核对某一地址数据进行写操作时导致其他核片上缓存失效的情况发生。

　　（3）如何使各核负载均衡。

多核环境下程序在各核上任务分配是否均衡在很大程度上影响着程序的性能。

对于一个给定的任务，如果各核工作负载均衡，可以更充分地利用多核资源，提升程序性能。

比如对于有i／0操作的任务，可以将计算任务和i／0任务合理地分配给各核，而不是某一个核上计算任务过多，而某一个核上i／0任务过多导致cpu过多地去等待。

具体的方法可以使用线程的亲属属性，即将某一线程绑定到一个具体的核上去运行。

　　5.小结

　　本文首先对编程模型的定义以及分类进行了描述，把当前的编程模型的种类进行了概述。

然后对并行编程模型的性能的评价指标进行了详细的描述，通过性能指标来判断不同编程模型的优缺点。

有许多影响并行编程模型功能的因素，通过这些因素来制定相关的优化技术，从而来改善并行编程模型的性能。

　　参考文献：

　　1.akhtefs,Robertj．多核程序设计技术——通过软件多线程提升性能【m】．北京：

电子工业出版社。

20xx．

　　2.mpi与openmp并行程序设计（c语言版），michaelj.quinn著，陈文光等译，清华大学出版社。

　　3.并行计算综论，jackdongarra等著，莫则尧等译，电子工业出版社。

　　4.并行计算系列丛书，陈国良，高等教育出版社。

　　5.并行计算导论（中、英文版均有），ananthgrama等著，机械工业出版社。

　　篇二：

华科并行计算上机作业

　　并行计算实验报告

　　小组成员：

　　20xx年5月19日星期二实验1打印设备信息

　　实验目的：

了解熟悉gpu设备的数目和相关硬件的属性，熟悉cudac的上机环境。

　　程序代码:

　　#include"

cuda_runtime.h"

device_launch_parameters.h"

stdlib.h"

stdio.h"

　　intmain（void）{

　　cudadevicepropprop;

　　intcount;

　　cudagetdevicecount（

　　for（inti=0;

i　　cudagetdeviceproperties（

　　printf（"

---generalinformationfordevice%d---\n"

i）;

name:

%s\n"

prop.name）;

computecapability:

%d.%d\n"

prop.major,prop.minor）;

clockrate:

%d\n"

prop.clockRate）;

devicecopyoverlap:

）;

　　if（prop.deviceoverlap）printf（"

enabled\n"

　　elseprintf（"

disabled\n"

printf（"

kernelexecutiontimeout:

if（prop.kernelexectimeoutenabled）printf（"

elseprintf（"

---memoryinformationfordevice%d---\n"

totalglobalmem:

%ld\n"

prop.totalglobalmem）;

totalconstantmem:

prop.totalconstmem）;

maxmempitch:

prop.mempitch）;

texturealignment:

prop.texturealignment）;

---mpinformationfordevice%d---\n"

（gpu,并行计算工程师,笔试面试）multiprocessorcount:

prop.multiprocessorcount）;

sharedmempermp:

prop.sharedmemperblock）;

Registerspermp:

prop.regsperblock）;

threadsinwarp:

prop.warpsize）;

maxthreadsperblock:

prop.maxthreadsperblock）;

maxthreaddimensions:

（%d,%d,%d）\n"

　　prop.maxthreadsdim[0],

　　prop.maxthreadsdim[1],prop.maxthreadsdim[2]）;

maxgriddimensions:

　　prop.maxgridsize[0],prop.maxgridsize[1],prop.maxgridsize[2]）;

　　}printf（"

\n"

}system（"

pause"

　　实验结果：

　　实验2数列求和

运用并行计算的方法求数列的和

　　实验思路：

先利用sepreate（）函数将数组一分为二（奇偶分法），然后利用add（）函数将其逐位相加，得到一个元素数减半的数组，然后同上重复运行，直到元素个数只剩一为止。

　　其中子函数sepreate（）和add（）在gpu上运行，这样可实现并行的一次性相加和一次性分离，加快了程序的执行速度。

最后，可将结果输出。

　　编程中要注意的是内存和显存上的数据无法共用，必须通过cudamemcpy（）函数实现从设备到主机和从主机到设备的数据拷贝。

此外还要注意在显存上对数组的定义。

　　程序代码：

　　#include

　　#definen100

　　#definen0256

　　__global__voidadd（int*a,int*sum）{

　　inttid=threadidx.x;

　　intn=n0/2;

　　while（tid　　{

　　a[tid]=a[tid]+a[tid+n];

　　}

　　if（tid==0）

　　voidmain（）

　　{

　　inta[n0]={0},sum;

*sum=a[tid];

n=n/2;

　　int*dev_a,*dev_sum;

　　cudamalloc（（void**）

i　　{

　　a[i]=i+1;

　　cudamemcpy（dev_a,a,n0*sizeof（int）,cudamemcpyhosttodevice）;

　　add>

（dev_a,dev_sum）;

　　cudamemcpy（

sum=%d\n"

sum）;

　　cudaFree（dev_a）;

　　cudaFree（dev_sum）;

　　实验3矩阵乘法

用并行计算和分块并行计算求矩阵的乘积。

先对两向量各位同时进行点乘运算（如图），每个线程可按数组存放顺序计算多次乘法，顺序存取可加快运行速度。

　　其次，如果对每个线程中的和在cpu中相加会大大降低效率，而利用__shared__声明的变量表示这是sharedmemory，是一个block中每个thread都共享的内存。

　　一，矩阵乘法的并行计算

　　__global__voidmatrixmulkernel（float*md,float*nd,float*pd,intwidth）

　　//2维的线程id号

　　inttx=threadidx.x;

intty=threadidx.y;

　　//pvalue用来保存被每个线程计算完成后的矩阵的元素

　　floatpvalue=0;

　　//每个线程计算一个元素

　　for（intk=0;

k　　floatmelement=md[ty*width+k];

　　floatnelement=nd[k*width+tx];

　　pvalue+=melement*nelement;

　　//将计算结果写入设备存储器中

　　pd[ty*width+tx]=pvalue;

　　voidmatrixmulondevice（float*m,float*n,float*p,intwidth）{

　　intsize=width*width*sizeof（float）;

　　float*md,*nd,*pd;

　　dim3dimblock（width,width）;

//设置调用内核函数时的线程数目

　　dim3dimgrid（1,1）;

　　cudamalloc（//在设备存储器上给m和n矩阵分配空间，并将数据复制到设备存储器中

　　cudamemcpy（md,m,size,cudamemcpyhosttodevice）;

　　cudamalloc（

　　cudamemcpy（nd,n,size,cudamemcpyhosttodevice）;

//在设备存储器上给p矩阵分配空间

　　//内核函数调用，//只使用了一个线程块（dimgrid（1,1）），此线程块中有width*width个线程

　　matrixmulkernel>

（md,nd,pd,width）;

　　cudamemcpy（p,pd,size,cudamemcpydevicetohost）;

//从设备中读取p矩阵的数据cudaFree（md）;

cudaFree（nd）;

cudaFree（pd）;

//释放设备存储器中的空间

　　intwidth=4;

　　floatm[16]={1,4,3,2,4,2,6,2,2,7,1,6,4,2,3,1};

　　floatn[16]={2,4,2,6,0,2,6,3,4,3,1,0,1,2,3,2};

　　floatp[16];

　　matrixmulondevice（m,n,p,width）;

%f"

p[i]）;

　　if（i%4==3）printf（"

　　篇三：

并行计算考试复习

　　1在并行机系统中，主流操作系统有unix/linux，aix（ibm），hpux（hp），solaris（sun），iRix（sgi）等。

　　2常用的并行算法设计的基本技术有划分，分治，倍增，流水域，破对称，平衡树等设计技术。

　　3matlab并行程序编写过程分为创建对象，创建工作，指定工作任务，提交工作，等待和返回计算任务结果六步。

　　1.云计算是对（d）技术的发展与运用

　　a.并行计算b网格计算c分布式计算d三个选项都是

　　2.ibm在20xx年11月退出了“改进游戏规则”的（a）计算平台，为客户带来即买即用的云计算平台。

　　a.蓝云b.蓝天c.aRuzed.ec2

　　3.微软于20xx年10月推出云计算操作系统是（c）

　　a.googleappengineb.蓝云c.azured.ec2

　　4.20xx年，（a）先后在无锡和北京建立了两个云计算中心

　　a.ibmb.googlec.amazond.微软

　　5.将平台作为服务的云计算服务类型是（b）

　　a.iaasb.paasc.saasd.三个选项都不是

　　6.将基础设施作为服务的云计算服务类型是（a）

　　7.iaas计算实现机制中，系统管理模块的核心功能是（a）

　　a.负载均衡b监视节点的运行状态c应用apid.节点环境配置

　　8.云计算体系结构的（c）负责资源管理、任务管理用户管理和安全管理等工作

　　a.物理资源层b.资源池层c.管理中间件层d.soa构建层

　　9.下列不属于google云计算平台技术架构的是（d）

　　a.并行数据处理mapReduceb.分布式锁chubby

　　c.结构化数据表bigtabled.弹性云计算ec2

　　10.在目前gFs集群中，每个集群包含（b）个存储节点

　　a.几百个b.几千个c.几十个d.几十万个

　　11.下列选项中，哪条不是gFs选择在用户态下实现的原因（d）

　　a.调试简单b.不影响数据块服务器的稳定性c.降低实现难度，提高通用性d.容易扩展

　　12.gFs中主服务器节点存储的元数据包含这些信息（bcd）

　　a.文件副本的位置信息b.命名空间

　　c.chunk与文件名的映射d.chunk副本的位置信息

　　13.单一主服务器（master）解决性能瓶颈的方法是（abcd）

　　a.减少其在数据存储中的参与程度b.不适用master读取数据

　　c.客户端缓存元数据d.采用大尺寸的数据块

　　14.（b）是google提出的用于处理海量数据的并行编程模式和大规模数据集的并行运算的软件

　　架构。

　　a.gFsb.mapReducec.chubbyd.bittable

　　15.mapreduce适用于（d）

　　a.任意应用程序b.任意可在windowsservet20xx上运行的程序c.可以串行处理的应用程序d.可以并行处理的应用程序

　　16.mapReduce通常把输入文件按照（c）mb来划分

　　a.16b32c64d128

　　17.（d）是google的分布式数据存储于管理系统

　　a.gFsb.mapReducec.chubbyd.bigtable

　　18.在bigtable中，（a）主要用来存储子表数据以及一些日志文件

　　a.gFsb.chubbyc.sstabled.mapReduce

　　19.googleappengine使用的数据库是（c）

　　a.改进的sqlserverb.orackc.datestored.亚马逊的simpledb

　　20.亚马逊aws采用（a）虚拟化技术

　　a.未使用b.hyper-Vc.Vmwared.xen

　　21.在云计算系统中，提供“云端”服务模式是（d）公司的云计算服务平台。

　　a.ibmb.googlec.amaxond.微软

　　22.下列四种云计算方案中，服务间的耦合度最高的是（c）

　　a.亚马逊awsb.微软azuRec.googleappengined.ibm的“蓝云”

　　23.从研究现状上看，下面不属于云计算特点的是（c）

　　a.超大规模b.虚拟化c.私有化d.高可靠性

　　24.与网络计算相比，不属于云计算特征的是（b）

　　a.资源高度共享b.适合紧耦合科学计算c.支持虚拟机d.适用于商业领域

　　25.memcache主要应用于（d）

　　a.静态页面缓存b.动态页面缓存c.页面片段缓存d.数据缓存

　　第１题

（1）什么是并行计算？

（2）它的优点有哪些？

（3）可以通过哪些结构完成并行计算？

　　1．并行计算就是在并行计算或分布式计算机等高性能计算系统上所做的超级计算。

　　2．计算极大地增强了人们从事科学研究的能力，大大地加速了把科技转化为生产力的过程，深刻地改变着人类认识世界和改造世界的方法和途径。

计算科学的理论和方法，作为新的研究手段和新的设计与创造技术的理论基础，正推动着当代科学与技术向纵深发展。

　　3．单指令多数据流simd、对称多处理机smp、大规模并行处理机mpp、工作站机群cow、分布共享存储dsm多处理机。

　　第2题什么是网络计算？

它的特点？

它与分布式计算、集群计算的关系？

　　网络计算：

在工作站机群cow环境下进行的计算称为网络计算。

　　特点：

网络计算结合了客户机/服务器结构的健壮性、internet面向全球的简易通用的数据访问方式和分布式对象的灵活性，提供了统一的跨平台开发环境，基于开放的和事实上的标准，把应用和数据的复杂性从桌面转移到智能化的网络和基于网络的服务器，给用户提供了对应用和信息的通用、快速的访问方式。

　　与分布式计算、集群计算的关系：

　　分布式计算是一门计算机科学，它研究如何把一个需要非常巨大的计算能力才能

展开阅读全文