高级计算机体系结构作业汇总非标准答案.docx

资源描述

高级计算机体系结构作业汇总非标准答案.docx

《高级计算机体系结构作业汇总非标准答案.docx》由会员分享，可在线阅读，更多相关《高级计算机体系结构作业汇总非标准答案.docx（23页珍藏版）》请在冰点文库上搜索。

高级计算机体系结构作业汇总非标准答案.docx

高级计算机体系结构作业汇总非标准答案

ExplaintheConcepts

ComputerArchitecture

系统结构

由程序设计者所看到的一个计算机系统的属性。

即计算机系统的软硬件界面。

AdvancedCA

高级系统结构

新型计算机系统结构。

基于串行计算机结构，研究多指令多数据计算机系统，具有并发、可扩展和可编程性。

为非冯式系统结构。

Amdahllaw

Amdahl定律

系统中某部件由于采用某种方式时系统性能改进后，整个系统性能的提高与该方式的使用频率或占的执行时间的比例有关。

SCALARPROCESSING

标量处理机

在同一时间内只处理一条数据。

LOOK-AHEAD

先行技术

通过缓冲技术和预处理技术，解决存储器冲突，使运算器能够专心与数据的运算，从而大幅提高程序的执行速度。

PVP

向量型并行计算处理机

以流水线结构为主的并行处理器。

SMP

对称多处理机系统

任意处理器可直接访问任意内存地址,使用共享存储器，访问延迟、带宽、机率都是等价的。

MPP

大规模并行计算机系统

物理和逻辑上均是分布内存，能扩展至成百上千处理器，采用专门设计和定制的高通信带宽和低延迟的互联网络。

DSM

分布式共享存储系统

内存模块物理上局部于各个处理器内部,但逻辑上是共享存储的。

COW

机群系统

每个节点都是一个完整的计算机，各个节点通过高性能网络相互连接，网络接口和I/O总线松耦合连接，每个节点有完整的操作系统。

GCE

网格计算环境

利用互联网上的计算机的处理器闲置处理能力来解决大型计算问题的一种科学计算。

CISC

复杂指令集计算机

通过设置一些复杂的指令，把一些原来由软件实现的常用功能改用硬件实现的指令系统实现，以此来提高计算机的执行速度。

RISC

精简指令集计算机

尽量简化计算机指令功能，只保留那些功能简单，能在一个节拍内执行完的指令，而把复杂指令用段子程序来实现。

VMM

虚拟机监视器

作为软硬件的中间层，在应用和操作系统所见的执行环境之间。

SUPERCOMPUTER

超级计算机

数百数千甚至更多的处理器组成的能计算普通计算机不能完成的大型复杂问题的计算机。

SVM

共享虚拟存储器

存储器虚拟化为一个共享的存储器，并提供单一的地址空间。

MAINFRAME

大型计算机

作为大型商业服务器，一般用于大型事务处理系统，特别是过去完成的且不值得重新编写的数据库应用系统方面。

COMPUTERSYSTEMONCHIP

片上计算机系统

在单个芯片上集成的一个完整系统。

PARALLELARCHITECTUREINTOSINGLECHIP

单片并行结构

在单个芯片上采用的并行体系结构

MOORElaw

Moore定律

当价格不变时，集成电路上可容纳的晶体管数目，约每隔18个月便会增加一倍，性能也将提升一倍。

UMA

一致存储访问

采用集中式存储的模式，提供均匀的存储访问。

NUMA

非一致存储访问

内存模块局部在各个结点内部，所有局部内存模块构成并行机的全局内存模块。

COMA

全高速缓存存储访问

采用分布式存储模式，通过高速缓存提供快速存储访问。

CC-NUMA

全高速缓存非一致性均匀访问

存在专用硬件设备保证在任意时刻，各结点Cache中数据与全局内存数据的一致性。

NORMA

非远程存储访问

利用私有的存储器通过互联网络进行消息传递。

SHELLARCHITECTURE

Shell结构

用专门定制的Shell电路将商用微处理器和节点的其它部分（包括板级Cache、局存、NIC和DISK）连接起来。

PRAM

随机存取并行机器模型

共享存储的SIMD模型，假定存在一个容量无限大的共享存储器，有有限或无限个功能相同的处理器，且他们都具有简单的算术运算和逻辑判断功能，在任何时刻处理器都可以通过共享存储单元相互交互数据。

BSP

整体同步并行计算模型

分布存储的MIMD计算模型，将处理器和路由器分开，强调了计算任务和通信任务的分开。

采用障碍同步的方式以硬件实现的全局同步是在可控的粗粒度级，从而提供了执行紧耦合同步式并行算法的有效方式。

LOGP

分布存储的、点到点通信的多处理机模型

L（Latency）表示信息从源到目的地所需的时间；O（Overhead）表示处理器接受或发送一条消息所需额外开销，并且在此期间处理器不能做作任何操作；G（Gap）表示处理器连续进行两次发送或接收消息之间必须有的时间间隔；P（Processor）表示处理器的数目。

1.ExplaintheFlynnclassifyanditssemantics.

1）单指令流单数据流（SingleInstructionStreamSingleDataStream，SISD）

SISD其实就是传统的顺序执行的单处理器计算机，其指令部件每次只对一条指令进行译码，并只对一个操作部件分配数据。

2）单指令流多数据流（SingleInstructionStreamMultipleDataStream，SIMD）

SIMD以并行处理机为代表，结构如图，并行处理机包括多个重复的处理单元PU1～PUn，由单一指令部件控制，按照同一指令流的要求为它们分配各自所需的不同的数据。

3）多指令流单数据流（MultipleInstructionStreamSingleDataStream，MISD）

MISD的结构，它具有n个处理单元，按n条不同指令的要求对同一数据流及其中间结果进行不同的处理。

一个处理单元的输出又作为另一个处理单元的输入。

4）多指令流多数据流（MultipleInstructionStreamMultipleDataStream，MIMD）

MIMD的结构，它是指能实现作业、任务、指令等各级全面并行的多机系统，多处理机就属于MIMD。

2.WherearethedifficultiesofParallelProcessing?

Whatis‘Parallel（并行）、concurrent（并发）andSimultaneous（同时）’separately？

1）并行处理的难度：

a）处理单元的多少以及其功能的强弱；

b）处理单元的连接方式以及其处理结构；

c）同步与互斥的实现；

d）处理单元之间的数据传输；

e）不同存储层次上的数据一致性。

2）并行：

两个或多个事件在同一时刻发生；

并发：

两个或多个事件在同一时间间隔内发生；

同时：

两个或多个事件在同一时间内完成。

3.Assumethatasystemcomponentbespeededto10times，Itspastprocessingtimeaccountsfor40%ofthesystem，howmuchwillbethesystemperformanceimproved？

4.PleasedrawthememoryHierarchychart。

5.ExplainingConceptions

RISC

精简指令集计算机

尽量简化计算机指令功能，只保留那些功能简单，能在一个节拍内执行完的指令，而把复杂指令用段子程序来实现。

CISC

复杂指令集计算机

通过设置一些复杂的指令，把一些原来由软件实现的常用功能改用硬件实现的指令系统实现，以此来提高计算机的执行速度。

VLIW

超大规模集成电路

指几毫米见方的硅片上集成上万至百万晶体管、线宽在1微米以下的集成电路。

SUPER-SCALAR

超标量

通过内置多条流水线来同时执行多个处理器，其实质是以空间换取时间。

SUPER-PIPELINE

超流水线

通过细化流水、提高主频，使得在一个机器周期内完成一个甚至多个操作，其实质是以时间换取空间。

SUPER-SCALAR-SUPER-PIPELINE

超标量超流水线

在一个基本时钟周期内能够分时发送多组指令，并且每组指令又可包涵一条或多条指令。

IPC

单位时钟周期内所执行的指令数

SINGLEISSUE

单发射结构

在一个时钟周期内只从存储器中取出一条指令，并且只对一条指令进行译码，只执行一条指令，只写一个运算结果。

MULTIPLEISSUE

多发射结构

在一个基本时钟周期内同时从指令Cache中读出多条指令，同时对多条指令进行译码。

OOO

乱序执行结构

能够不按照程序提供的顺序完成计算任务，是一种加快处理器运算速度的架构。

Multi-Threading

多线程

同时运行多个轻量级任务。

6.Inidealcase,pleasegivetheperformancesforSUPER-SCALAR,SUPERPIPELINE,SUPER-SCALAR-SUPER-PIPELINE,andgiveN=8examplesandtheiraverageIPC.

1）性能

超标量性能：

S（m,1）=T（1,1）/T（m,1）=（K+N-1）/（K+（N-m）/m）

超流水性能：

S（1,n）=T（1,1）/T（1,n）=n（k+N-1）/nk+N-1

超标量超流水性能：

S（m,n）=T（1,1）/T（m,n）=（K+N-1）/（K+（N-m）/（mn））

其中，N表示不相关指令数，m表示指令的并行度，n表示指令流水线的并行度，K表示指令流水线的阶段数

2）N=8的周期图

超标量:

F-D-E-W

1234567

IPC=8/7=1.14

超流水:

F|D|E|W||||

|F|D|E|W|||

||F|D|E|W||

|||F|D|E|W|

1234567

IPC=8/7=1.14

超标量超流水:

F|D|E|W||

|F|D|E|W|

12345

IPC=8/5=1.60

7.PleasedescribetheCPUtechnologyinrecentyears,andgiveanexampletoillustratetheirtechnicalparameters.

1）Hyperthreading

Threadsareindependentpartsofacomputerprogram.Multi-taskingoperatingsystems（e.g.WindowsorLinux）workbyallocatingeachthreadacertainamountof"CPUtime"inwhichtoexecutesomeinstructions.Thismeansthattheycanrundozensofprograms"atthesametime".

Multi-processorsystemsallowtheOStoliterallyruntwoormoreprogramthreadssimultaneouslyondifferentCPUs.ThismeansthatthereislesscompetitionforCPUtimeandthereforethecomputershouldoperatemorequickly.However,multiprocessorsystemsareexpensive.

Hyper-ThreadingTechnology（HTT）wasintroducedbyInteltogiveacost-effectivecompromise.Byduplicatingsomeofthepartsofthemaincoreitpretendstobetwoprocessors.Thisgivesasmallspeedincrease（upto30%）.

2）DualCore&multi-core

Dualcoredesignshavetwocoresonasinglechip,sometimessharingL2cachememoryandalwayssharingbusinterfaces.Adual-corechipisnotasgoodashavingtwoprocessors;howeveritgivestypically25%–75%fasterperformancethanasinglecoreprocessor.

TheAthlon64X2andPentiumDwerethefirstdual-coreprocessorsreleasedforthePC,followedbytheIntelCoreDuo,Core2DuoandAMDAthlonFX60.Intelhasreleasedafour-coreCore2Quadroprocessor.

corename

process

processor

socket

typicalL2cache

Willamette

180nm

Pentium4

478

256KB

Northwood

130nm

Celeron

478

128KB

Prescott

90nm

CeleronD/P4

478

256KB/1MB

Prescott2M

90nm

Pentium4（6xx）

775

2MB

CedarMill

65nm

Pentium4（6xx）

775

2MB

Smithfield

90nm

PentiumD（8xx）

775

2MB

Presler

65nm

PentiumD（9xx）

775

4MB

Yonah

65nm

CoreDuo/Solo

775

4MB

Conroe

65nm

Core2Duo

775

4MB

corename

process

processor

socket

typicalL2cache

Thoroughbred

130nm

AthlonXP

256KB

Barton

130nm

AthlonXP

512KB

Palermo

90nm

Sempron

754

128KB

Clawhammer

130nm

Athlon64

754

1MB

Newcastle

130nm

Athlon64

754

512KB

Sledgehammer

130nm

Athlon64/FX

939

1MB

Winchester

90nm

Athlon64

939

512KB

Venice

90nm

Athlon64

939

512KB

Manchester

90nm

Athlon64X2

939

1MB

Toledo

90nm

Athlon64X2

939

2MB

ThediagrambelowshowsthearchitectureofaConroecore:

8.Pleasegivecomputingtraceofa[i+7]=b[j+1]+c[k+8]+d[m+10]forT9000

a[i+7]=b[j+1]+c[k+8]+d[m+10]

1|2|3|4|5|6|7|8|9|…

Fj|||||||||

Fb|||||||||

|Fb[j]||||||||

||Fb[j+1]|||||||

|Fk||||||||

|Fc||||||||

||Fc[k]|||||||

|||Fc[k+8]||||||

||||Eadd|||||

||Fm|||||||

||Fd|||||||

|||Fd[m]||||||

||||Fd[m+10]|||||

|||||Eadd||||

|||Fi||||||

|||Fa||||||

||||Fa[i]|||||

|||||||Wa[i+7]||

2|3|4|4|3|1||1||

9.Howtosolvethemulticorememorywallproblem?

解决“内存墙”问题包括内存带宽和内存等待时间两大基本途径，前者的应对方法是采用提高内存总线位宽和传输倍率的技术；后者是采用多级缓存和数据预取、多线程和乱序执行等技术。

其中，数据预取有硬件预取和软件预取。

硬件数据预取技术不同于指令的预取，主要包括顺序预取（SequentialPrefetching）、流缓存（StreamBuffers）、步幅预取（StridePredictionbasedPrefetching）、Markov预取和混合方法等。

软件数据预取技术是一个通过在计算和访问储时间上交叉的方法来隐藏存储访问延时的延迟容忍技术，适宜于提高多线程应用程序的性能。

而对于多核“内存墙”问题目前还不能从根本上有所突破，从而将不大可能继续大幅度增加处理器的核心数量来提升处理性能，而需要另辟蹊径满足日益增长的对高性能计算的需求。

随着“多线程”、“多核处理器”、“多核内存”等技术的进一步发展，也许可以找到解决“内存墙”问题的一种可能途径。

10.Simplecomputerdesigntest（10points）

SupposedthereareasimpleCPUwithA15-A0,D7-D0,readandwrite,anregisterandTri-statebuffersforI/Odevice,a8k*8ROMwithA12-A0,D7-D0,CEandOE,anda8k*8RAMwithA12-A0,D7-D0,CE,RDandWR.Pleaseyoudesignthecircuitofasimplecomputer.

处理器CPU地址宽度为16位，数据宽度为8位，采用独立编址方式：

ROM+RAM地址分配如下：

0x0000~0x1FFF对应8k*8ROM，地址空间为8kB；

0x2000~0x3FFF对应8k*8RAM，地址空间为8kB。

I/ODevice地址分配如下：

0x0~0x3对应I/Odevice，地址空间为4B。

11.Thereisaprogramina40MHzprocessor，itsnumberofintegerarithmeticinstructionsis45000andtheclockis1.Thenumberofinstructionswithdataoperationsis32000andtheclockis2.Thenumberoffloatinstructionsis15000anditsclock2.ThenumberofinstructionssuchasJMPetcis8000anditsclockis2.PleasegiveitsCPI、MIPSandtheCPUexecutiontime.

12.IfthecommunicationcostinaSP2machineist（m）=46+（0.035）m,pleasegiveits（渐进带宽）r∞andits（半峰值信息长度）m1/2.

13.IfaN*NmatrixAismultipliedbyaN*NmatrixB,itstimeisT1=CN3s,buttheexecutiontimeinamachinewithnnodesisTn=（CN3/n+bN2/square-root（N））s，here,C,Nandbisaconstant.PleaseyougiveitsSpeedupunderfix-workload,fix-timeandfix-memoryusage.

由

可知

，因此

固定负载：

固定时间：

存储受限：

14.n:

thetotalcoresofthemulti-processer;r:

thetotalcoresofaprocesser;perf（r）:

theperformanceofaprocesser.

异构：

公式：

15.Concepts

Statenetwork（静态网络）

指固定连接的一类网络，在程序运行期间，该网络点到点的连接保持不变。

Dynamicnetwork（动态网络）

在程序运行期间，网络中点到点的连接可以动态的变化。

crossbar（交叉开关）

又称路由器，用于建立交叉网络，可以有程序控制动态设置其处于“开”或“关”的状态，能提供所有源与目的之间的动态连接。

Multi-buses（多总线）

指在计算机体系结构中包含多条总线，一条总线包括数据总线、地址总线和控制总线。

16.DrawN=25MESH

17.pleasegivethesinglecubefunctionby

展开阅读全文