高级计算机体系结构作业汇总非标准答案.docx
《高级计算机体系结构作业汇总非标准答案.docx》由会员分享,可在线阅读,更多相关《高级计算机体系结构作业汇总非标准答案.docx(23页珍藏版)》请在冰点文库上搜索。
![高级计算机体系结构作业汇总非标准答案.docx](https://file1.bingdoc.com/fileroot1/2023-7/11/25939c69-79de-488d-9157-83b87bc59cdc/25939c69-79de-488d-9157-83b87bc59cdc1.gif)
高级计算机体系结构作业汇总非标准答案
ExplaintheConcepts
ComputerArchitecture
系统结构
由程序设计者所看到的一个计算机系统的属性。
即计算机系统的软硬件界面。
AdvancedCA
高级系统结构
新型计算机系统结构。
基于串行计算机结构,研究多指令多数据计算机系统,具有并发、可扩展和可编程性。
为非冯式系统结构。
Amdahllaw
Amdahl定律
系统中某部件由于采用某种方式时系统性能改进后,整个系统性能的提高与该方式的使用频率或占的执行时间的比例有关。
SCALARPROCESSING
标量处理机
在同一时间内只处理一条数据。
LOOK-AHEAD
先行技术
通过缓冲技术和预处理技术,解决存储器冲突,使运算器能够专心与数据的运算,从而大幅提高程序的执行速度。
PVP
向量型并行计算处理机
以流水线结构为主的并行处理器。
SMP
对称多处理机系统
任意处理器可直接访问任意内存地址,使用共享存储器,访问延迟、带宽、机率都是等价的。
MPP
大规模并行计算机系统
物理和逻辑上均是分布内存,能扩展至成百上千处理器,采用专门设计和定制的高通信带宽和低延迟的互联网络。
DSM
分布式共享存储系统
内存模块物理上局部于各个处理器内部,但逻辑上是共享存储的。
COW
机群系统
每个节点都是一个完整的计算机,各个节点通过高性能网络相互连接,网络接口和I/O总线松耦合连接,每个节点有完整的操作系统。
GCE
网格计算环境
利用互联网上的计算机的处理器闲置处理能力来解决大型计算问题的一种科学计算。
CISC
复杂指令集计算机
通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。
RISC
精简指令集计算机
尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用段子程序来实现。
VMM
虚拟机监视器
作为软硬件的中间层,在应用和操作系统所见的执行环境之间。
SUPERCOMPUTER
超级计算机
数百数千甚至更多的处理器组成的能计算普通计算机不能完成的大型复杂问题的计算机。
SVM
共享虚拟存储器
存储器虚拟化为一个共享的存储器,并提供单一的地址空间。
MAINFRAME
大型计算机
作为大型商业服务器,一般用于大型事务处理系统,特别是过去完成的且不值得重新编写的数据库应用系统方面。
COMPUTERSYSTEMONCHIP
片上计算机系统
在单个芯片上集成的一个完整系统。
PARALLELARCHITECTUREINTOSINGLECHIP
单片并行结构
在单个芯片上采用的并行体系结构
MOORElaw
Moore定律
当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。
UMA
一致存储访问
采用集中式存储的模式,提供均匀的存储访问。
NUMA
非一致存储访问
内存模块局部在各个结点内部,所有局部内存模块构成并行机的全局内存模块。
COMA
全高速缓存存储访问
采用分布式存储模式,通过高速缓存提供快速存储访问。
CC-NUMA
全高速缓存非一致性均匀访问
存在专用硬件设备保证在任意时刻,各结点Cache中数据与全局内存数据的一致性。
NORMA
非远程存储访问
利用私有的存储器通过互联网络进行消息传递。
SHELLARCHITECTURE
Shell结构
用专门定制的Shell电路将商用微处理器和节点的其它部分(包括板级Cache、局存、NIC和DISK)连接起来。
PRAM
随机存取并行机器模型
共享存储的SIMD模型,假定存在一个容量无限大的共享存储器,有有限或无限个功能相同的处理器,且他们都具有简单的算术运算和逻辑判断功能,在任何时刻处理器都可以通过共享存储单元相互交互数据。
BSP
整体同步并行计算模型
分布存储的MIMD计算模型,将处理器和路由器分开,强调了计算任务和通信任务的分开。
采用障碍同步的方式以硬件实现的全局同步是在可控的粗粒度级,从而提供了执行紧耦合同步式并行算法的有效方式。
LOGP
分布存储的、点到点通信的多处理机模型
L(Latency)表示信息从源到目的地所需的时间;O(Overhead)表示处理器接受或发送一条消息所需额外开销,并且在此期间处理器不能做作任何操作;G(Gap)表示处理器连续进行两次发送或接收消息之间必须有的时间间隔;P(Processor)表示处理器的数目。
1.ExplaintheFlynnclassifyanditssemantics.
1)单指令流单数据流(SingleInstructionStreamSingleDataStream,SISD)
SISD其实就是传统的顺序执行的单处理器计算机,其指令部件每次只对一条指令进行译码,并只对一个操作部件分配数据。
2)单指令流多数据流(SingleInstructionStreamMultipleDataStream,SIMD)
SIMD以并行处理机为代表,结构如图,并行处理机包括多个重复的处理单元PU1~PUn,由单一指令部件控制,按照同一指令流的要求为它们分配各自所需的不同的数据。
3)多指令流单数据流(MultipleInstructionStreamSingleDataStream,MISD)
MISD的结构,它具有n个处理单元,按n条不同指令的要求对同一数据流及其中间结果进行不同的处理。
一个处理单元的输出又作为另一个处理单元的输入。
4)多指令流多数据流(MultipleInstructionStreamMultipleDataStream,MIMD)
MIMD的结构,它是指能实现作业、任务、指令等各级全面并行的多机系统,多处理机就属于MIMD。
2.WherearethedifficultiesofParallelProcessing?
Whatis‘Parallel(并行)、concurrent(并发)andSimultaneous(同时)’separately?
1)并行处理的难度:
a)处理单元的多少以及其功能的强弱;
b)处理单元的连接方式以及其处理结构;
c)同步与互斥的实现;
d)处理单元之间的数据传输;
e)不同存储层次上的数据一致性。
2)并行:
两个或多个事件在同一时刻发生;
并发:
两个或多个事件在同一时间间隔内发生;
同时:
两个或多个事件在同一时间内完成。
3.Assumethatasystemcomponentbespeededto10times,Itspastprocessingtimeaccountsfor40%ofthesystem,howmuchwillbethesystemperformanceimproved?
4.PleasedrawthememoryHierarchychart。
5.ExplainingConceptions
RISC
精简指令集计算机
尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用段子程序来实现。
CISC
复杂指令集计算机
通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。
VLIW
超大规模集成电路
指几毫米见方的硅片上集成上万至百万晶体管、线宽在1微米以下的集成电路。
SUPER-SCALAR
超标量
通过内置多条流水线来同时执行多个处理器,其实质是以空间换取时间。
SUPER-PIPELINE
超流水线
通过细化流水、提高主频,使得在一个机器周期内完成一个甚至多个操作,其实质是以时间换取空间。
SUPER-SCALAR-SUPER-PIPELINE
超标量超流水线
在一个基本时钟周期内能够分时发送多组指令,并且每组指令又可包涵一条或多条指令。
IPC
单位时钟周期内所执行的指令数
SINGLEISSUE
单发射结构
在一个时钟周期内只从存储器中取出一条指令,并且只对一条指令进行译码,只执行一条指令,只写一个运算结果。
MULTIPLEISSUE
多发射结构
在一个基本时钟周期内同时从指令Cache中读出多条指令,同时对多条指令进行译码。
OOO
乱序执行结构
能够不按照程序提供的顺序完成计算任务,是一种加快处理器运算速度的架构。
Multi-Threading
多线程
同时运行多个轻量级任务。
6.Inidealcase,pleasegivetheperformancesforSUPER-SCALAR,SUPERPIPELINE,SUPER-SCALAR-SUPER-PIPELINE,andgiveN=8examplesandtheiraverageIPC.
1)性能
超标量性能:
S(m,1)=T(1,1)/T(m,1)=(K+N-1)/(K+(N-m)/m)
超流水性能:
S(1,n)=T(1,1)/T(1,n)=n(k+N-1)/nk+N-1
超标量超流水性能:
S(m,n)=T(1,1)/T(m,n)=(K+N-1)/(K+(N-m)/(mn))
其中,N表示不相关指令数,m表示指令的并行度,n表示指令流水线的并行度,K表示指令流水线的阶段数
2)N=8的周期图
超标量:
F-D-E-W
F-D-E-W
F-D-E-W
F-D-E-W
F-D-E-W
F-D-E-W
F-D-E-W
F-D-E-W
1234567
IPC=8/7=1.14
超流水:
F|D|E|W||||
F|D|E|W||||
|F|D|E|W|||
|F|D|E|W|||
||F|D|E|W||
||F|D|E|W||
|||F|D|E|W|
|||F|D|E|W|
1234567
IPC=8/7=1.14
超标量超流水:
F|D|E|W||
F|D|E|W||
F|D|E|W||
F|D|E|W||
|F|D|E|W|
|F|D|E|W|
|F|D|E|W|
|F|D|E|W|
12345
IPC=8/5=1.60
7.PleasedescribetheCPUtechnologyinrecentyears,andgiveanexampletoillustratetheirtechnicalparameters.
1)Hyperthreading
Threadsareindependentpartsofacomputerprogram.Multi-taskingoperatingsystems(e.g.WindowsorLinux)workbyallocatingeachthreadacertainamountof"CPUtime"inwhichtoexecutesomeinstructions.Thismeansthattheycanrundozensofprograms"atthesametime".
Multi-processorsystemsallowtheOStoliterallyruntwoormoreprogramthreadssimultaneouslyondifferentCPUs.ThismeansthatthereislesscompetitionforCPUtimeandthereforethecomputershouldoperatemorequickly.However,multiprocessorsystemsareexpensive.
Hyper-ThreadingTechnology(HTT)wasintroducedbyInteltogiveacost-effectivecompromise.Byduplicatingsomeofthepartsofthemaincoreitpretendstobetwoprocessors.Thisgivesasmallspeedincrease(upto30%).
2)DualCore&multi-core
Dualcoredesignshavetwocoresonasinglechip,sometimessharingL2cachememoryandalwayssharingbusinterfaces.Adual-corechipisnotasgoodashavingtwoprocessors;howeveritgivestypically25%–75%fasterperformancethanasinglecoreprocessor.
TheAthlon64X2andPentiumDwerethefirstdual-coreprocessorsreleasedforthePC,followedbytheIntelCoreDuo,Core2DuoandAMDAthlonFX60.Intelhasreleasedafour-coreCore2Quadroprocessor.
corename
process
processor
socket
typicalL2cache
Willamette
180nm
Pentium4
478
256KB
Northwood
130nm
Celeron
478
128KB
Prescott
90nm
CeleronD/P4
478
256KB/1MB
Prescott2M
90nm
Pentium4(6xx)
775
2MB
CedarMill
65nm
Pentium4(6xx)
775
2MB
Smithfield
90nm
PentiumD(8xx)
775
2MB
Presler
65nm
PentiumD(9xx)
775
4MB
Yonah
65nm
CoreDuo/Solo
775
4MB
Conroe
65nm
Core2Duo
775
4MB
corename
process
processor
socket
typicalL2cache
Thoroughbred
130nm
AthlonXP
A
256KB
Barton
130nm
AthlonXP
A
512KB
Palermo
90nm
Sempron
754
128KB
Clawhammer
130nm
Athlon64
754
1MB
Newcastle
130nm
Athlon64
754
512KB
Sledgehammer
130nm
Athlon64/FX
939
1MB
Winchester
90nm
Athlon64
939
512KB
Venice
90nm
Athlon64
939
512KB
Manchester
90nm
Athlon64X2
939
1MB
Toledo
90nm
Athlon64X2
939
2MB
ThediagrambelowshowsthearchitectureofaConroecore:
8.Pleasegivecomputingtraceofa[i+7]=b[j+1]+c[k+8]+d[m+10]forT9000
a[i+7]=b[j+1]+c[k+8]+d[m+10]
1|2|3|4|5|6|7|8|9|…
Fj|||||||||
Fb|||||||||
|Fb[j]||||||||
||Fb[j+1]|||||||
|Fk||||||||
|Fc||||||||
||Fc[k]|||||||
|||Fc[k+8]||||||
||||Eadd|||||
||Fm|||||||
||Fd|||||||
|||Fd[m]||||||
||||Fd[m+10]|||||
|||||Eadd||||
|||Fi||||||
|||Fa||||||
||||Fa[i]|||||
|||||||Wa[i+7]||
2|3|4|4|3|1||1||
9.Howtosolvethemulticorememorywallproblem?
解决“内存墙”问题包括内存带宽和内存等待时间两大基本途径,前者的应对方法是采用提高内存总线位宽和传输倍率的技术;后者是采用多级缓存和数据预取、多线程和乱序执行等技术。
其中,数据预取有硬件预取和软件预取。
硬件数据预取技术不同于指令的预取,主要包括顺序预取(SequentialPrefetching)、流缓存(StreamBuffers)、步幅预取(StridePredictionbasedPrefetching)、Markov预取和混合方法等。
软件数据预取技术是一个通过在计算和访问储时间上交叉的方法来隐藏存储访问延时的延迟容忍技术,适宜于提高多线程应用程序的性能。
而对于多核“内存墙”问题目前还不能从根本上有所突破,从而将不大可能继续大幅度增加处理器的核心数量来提升处理性能,而需要另辟蹊径满足日益增长的对高性能计算的需求。
随着“多线程”、“多核处理器”、“多核内存”等技术的进一步发展,也许可以找到解决“内存墙”问题的一种可能途径。
10.Simplecomputerdesigntest(10points)
SupposedthereareasimpleCPUwithA15-A0,D7-D0,readandwrite,anregisterandTri-statebuffersforI/Odevice,a8k*8ROMwithA12-A0,D7-D0,CEandOE,anda8k*8RAMwithA12-A0,D7-D0,CE,RDandWR.Pleaseyoudesignthecircuitofasimplecomputer.
处理器CPU地址宽度为16位,数据宽度为8位,采用独立编址方式:
ROM+RAM地址分配如下:
0x0000~0x1FFF对应8k*8ROM,地址空间为8kB;
0x2000~0x3FFF对应8k*8RAM,地址空间为8kB。
I/ODevice地址分配如下:
0x0~0x3对应I/Odevice,地址空间为4B。
11.Thereisaprogramina40MHzprocessor,itsnumberofintegerarithmeticinstructionsis45000andtheclockis1.Thenumberofinstructionswithdataoperationsis32000andtheclockis2.Thenumberoffloatinstructionsis15000anditsclock2.ThenumberofinstructionssuchasJMPetcis8000anditsclockis2.PleasegiveitsCPI、MIPSandtheCPUexecutiontime.
12.IfthecommunicationcostinaSP2machineist(m)=46+(0.035)m,pleasegiveits(渐进带宽)r∞andits(半峰值信息长度)m1/2.
13.IfaN*NmatrixAismultipliedbyaN*NmatrixB,itstimeisT1=CN3s,buttheexecutiontimeinamachinewithnnodesisTn=(CN3/n+bN2/square-root(N))s,here,C,Nandbisaconstant.PleaseyougiveitsSpeedupunderfix-workload,fix-timeandfix-memoryusage.
由
可知
,因此
固定负载:
固定时间:
存储受限:
14.n:
thetotalcoresofthemulti-processer;r:
thetotalcoresofaprocesser;perf(r):
theperformanceofaprocesser.
异构:
公式:
15.Concepts
Statenetwork(静态网络)
指固定连接的一类网络,在程序运行期间,该网络点到点的连接保持不变。
Dynamicnetwork(动态网络)
在程序运行期间,网络中点到点的连接可以动态的变化。
crossbar(交叉开关)
又称路由器,用于建立交叉网络,可以有程序控制动态设置其处于“开”或“关”的状态,能提供所有源与目的之间的动态连接。
Multi-buses(多总线)
指在计算机体系结构中包含多条总线,一条总线包括数据总线、地址总线和控制总线。
16.DrawN=25MESH
17.pleasegivethesinglecubefunctionby