intel NehalemEP处理器首发深度评测第五部分Word文档格式.docx

资源描述

intel NehalemEP处理器首发深度评测第五部分Word文档格式.docx

《intel NehalemEP处理器首发深度评测第五部分Word文档格式.docx》由会员分享，可在线阅读，更多相关《intel NehalemEP处理器首发深度评测第五部分Word文档格式.docx（15页珍藏版）》请在冰点文库上搜索。

intel NehalemEP处理器首发深度评测第五部分Word文档格式.docx

25.52MB/s/MHz

9.43MB/s/MHz

　　FloatBuff'

　　12.75GB/s

16.58GB/s

25.50MB/s/MHz

　　MemoryLatencyBenchmark

　　内存延迟测试

　　Memory（RandomAccess）Latency

　　（越小越好）

　　81ns

106ns

108ns

　　Memory（RandomAccess）LatencyvsSPEED

0.16ns/MHz

　　SpeedFactor

　　61.40

83.80

95.20

　　InternalDataCache

　　4clocks

　　3clocks

　　L2On-boardCache

　　10clocks

16clocks

18clocks

　　L3On-boardCache

　　48clocks

　　58clocks

　　CacheandMemoryBenchmark

　　缓存及内存测试

　　Cache/MemoryBandwidth

　　143.24GB/s

77.08GB/s

68.88GB/s

　　Cache/MemoryBandwidthvsSPEED

50.01MB/s/MHz

32.89MB/s/MHz

26.52MB/s/MHz

　　20.90

36.00

111.90

InternalDataCache

448.46GB/s

299.00GB/s

421.23GB/s

L2On-boardCache

421.42GB/s

162.91GB/s

122.68GB/s

　　SiSoftwareSandra对比，用蓝色标出了性能特出的项目

　　和上一页类似，采用了直联架构之后，Nehalem-EP的缓存/内存性能大幅度提升，凭着3.2GHz的QPI总线和三通道DDR3-1333，这个成绩在Nehalem-EP当中也是最好的。

对比AMDShanghai，Nehalem-EP居然在内存带宽测试上不及（很奇怪），其余的都是Nehalem-EP平台占优。

并且在缓存子系统中，除了L1Data时钟周期略长之外，L2、L3都比AMDShanghai要快。

　　SPECCPU2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等，此外，各种日常操作也主要是基于整数操作。

SPECCPU2006的整数运算包含了400.perlbenchPERL编程语言、401.bzip2压缩、403.gccC编译器、429.mcf组合优化、445.gobmk人工智能：

围棋、456.hmmer基因序列搜索、458.sjeng人工智能：

国际象棋、462.libquantum物理：

量子计算、464.h264ref视频压缩、471.omnetpp离散事件仿真、473.astar寻路算法、483.xalancbmkXML处理共12项。

　　IntelNehalem-EP/GainestownXeonX5570SPECCPU2006整数运算性能

　　对比频率更高的Harpertown，Nehalem-EP/Gainestown的性能可谓让人大吃一惊：

提升超过了100%，XeonX5570的得分为183，比XeonE5430的74.8分高144.7％，成绩斐然——当然CPU的主频也高了10.2%，同频率下的提升也达到了122.1%。

在测试当中，403.gccC编译器（270.1%）、429.mcf组合优化（336.0%）、462.libquantum物理：

量子计算（379.8%）、471.omnetpp离散事件仿真（370.2%）、473.astar寻路算法（182.1%）、483.xalancbmkXML处理（218.8%）这6项的提升都很明显，这些项目都能因直联架构而获益。

所有的项目都能从超线程当中获得提升。

　　SPECCPU2006的浮点运算测试包括的全部都是科学运算，科学运算需要用到大量的高精度浮点数据，如410.bwaves流体力学、416.gamess量子化学、433.milc量子力学、434.zeusmp物理：

计算流体力学、435.gromacs生物化学/分子力学、436.cactusADM物理：

广义相对论、437.leslie3d流体力学、444.namd生物/分子、447.dealII有限元分析、450.soplex线形编程、优化、453.povray影像光线追踪、454.calculix结构力学、459.GemsFDTD计算电磁学、465.tonto量子化学、470.lbm流体力学、481.wrf天气预报、482.sphinx3语音识别共17项测试。

　　IntelNehalem-EP/GainestownXeonX5570SPECCPU2006浮点运算性能

　　浮点运算上的提升比整数上更大，Nehalem-EP/Gainestown的得分为153，比Harpertown的57分高168.4％，单位频率的提升达到了143.6%，这是IMC、QPI、HTT的集合成果，表明了Nehalem架构的强大优势（Nehalem-EP测试上仍然是整数性能表现强于浮点性能表现）。

在测试当中，410.bwaves流体力学（406.3%）、433.milc量子力学（365.2%）、434.zeusmp物理：

计算流体力学（140.4%）、436.cactusADM物理：

广义相对论（115.8%）、437.leslie3d流体力学（410.7%）、450.soplex线形编程、优化（329.1%）、459.GemsFDTD计算电磁学（273.8%）、465.tonto量子化学（131.9%）、470.lbm流体力学（318.2%）、481.wrf天气预报（197.7%）、482.sphinx3语音识别（472.6%）这11个项目的提升都很大，提升幅度都是几倍几倍的，最高的是482.sphinx3语音识别（472.6%），XeonX5570的性能是XeonE5430的5.7倍以上。

　　ScienceMarkv2.0Membench

　　ScienceMarkv2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件，MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块，它可以测试系统内存带宽、L1Cache延迟、L2Cache延迟和系统内存延迟，另外还可以测试不同指令集的性能差异。

　　ScienceMarkv2.0MembenchL1测试成绩

　　ScienceMarkv2.0MembenchL2测试成绩

　　ScienceMarkv2.0Membench内存测试成绩

　　首先我们进行的是ScienceMark的测试，主要考察系统的缓存和内存子系统情况。

L1/L2Cache的成绩主要是跟处理器频率相关，因为目前的处理器当中L1Cache都是和处理器核心同频率的，而L2Cache基本上也是——当前的处理器L2都是全速的（放置在处理器内但不在同一个芯片上的PentiumII为半速L2，而Pentium之前的处理器L2则和处理器分离，速度更低）。

越快的频率，L1/L2性能就越好。

而内存带宽主要由两部分相关：

比较大的部分是内存架构，小部分是内存操作指令（集），例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量，而不同的SSE版本性能也有不同。

ScienceMarkMembench

厂商

Intel

产品型号

Nehalem-EP

　　IntelGainestown

　　XeonX55702.93GHz

AS650

　　AMDShanghai

　　Operton23782.40GHz

PowerEdge2900III

　　IntelHarpertown

　　XeonE54302.66GHz

内存技术参数

4GBR-ECCDDR3-1333SDRAMx6

L1带宽（MB/s）

47880.48

48167.88

55376.16

L2带宽（MB/s）

19604.64

14314.34

16757.55

内存带宽（MB/s）

10116.61

6672.76

4485.09

L1CacheLatency（ns）

32BytesStride

2cycles

　　0.68ns

1.25ns

1.13ns

L1AlgorithmBandwidth（MB/s）

Compiler

43072.25

34042.63

25201.96

REPMOVSD

43467.25

34864.10

25467.15

ALURegCopy

11949.09

12166.94

13093.65

MMXRegCopy

22537.36

25698.47

25242.19

SSEPAlign

47773.13

48167.40

52826.21

SSE2PAlign

L2CacheLatency（ns）

4BytesStride

3cycles

　　1.02ns

16BytesStride

1.50ns

64BytesStride

8cycles

　　2.73ns

3.75ns

4.51ns

256BytesStride

6.25ns

512BytesStride

7cycles

　　2.39ns

4.89ns

L2AlgorithmBandwidth（MB/s）

18039.64

11609.57

11880.48

12140.00

12536.88

8788.90

9273.71

8577.86

14083.83

12042.45

13408.31

18731.92

16719.97

5833.93

14289.88

MemoryLatency（ns）

1.67ns

5cycles

　　1.70ns

5.00ns

22cycles

　　7.50ns

20.00ns

19.17ns

102cycles

　　34.77ns

34.58ns

59.77ns

117cycles

　　39.88ns

81.24ns

68.04ns

MemoryAlgorithmBandwidth（MB/s）

9210.17

2872.77

3178.45

2887.02

3220.23

8156.00

2654.29

2789.34

9306.18

2943.85

2972.91

MMXReg3dNow

6631.75

MMXRegSSE

8781.26

3978.53

8580.24

5765.46

4128.59

SSEPAlignSSE

9524.07

6611.10

4390.48

8560.83

5766.87

4326.42

SSE2PAlignSSE

9555.13

6612.42

4441.71

MMXBlock4kb

7743.82

4450.46

4063.30

MMXBlock16kb

8321.35

4677.49

4479.88

SSEBlock4kb

7890.10

4074.79

SSEBlock16kb

8355.86

4681.34

　　基本上，与处理器结合最紧密的L1，或L2（在有L3的情况下）的延迟总是跟处理器频率密集相关的，从总体测试结果来看，Nehalem-EPXeonX5570全面强于基准平台，不过有两项数值很奇怪：

SSE2PAlign的L1测试和L2测试，这个数值明显不正常。

　　CineBenchR10

　　CineBench是基于Cinem4D工业三维设计软件引擎的测试软件，用来测试对象在进行三维设计时的性能，它可以同时测试处理器子系统、内存子系统以及显示子系统，我们的平台偏向于服务器多一些，因此就只有前两个的成绩具有意义。

和大多数工业设计软件一样，CineBench可以完善地支持多核/多处理器，它的显示子系统测试基于OpenGL。

　　Nehalem-EP/GainestownXeonX5570测试成绩

　　处理器

双路IntelGainestown

双路AMDShanghai

双路IntelHarpertown

显卡

　　CPUBenchmark

Rendering（1CPU）

4410CB-CPU

1797CB-CPU

2931CB-CPU

Rendering（xCPU）

　　28172CB-CPU

　　10734CB-CPU

　　16806CB-CPU

　　MultiprocessorSpeedup

　　6.39x

　　5.97x

　　5.73x

　　OpenGLBenchmark

　　OpenGLStandard

　　224CB-GFX

　　98CB-GFX

176CB-GFX

　　IntelNehalem-EP/GainestownXeonX5570测试成绩对比

　　单处理器的渲染性能，XeonX5570要比XeonE5430要高50.5%，频率上要高10.2%，架构提升很明显。

　　在多处理器的渲染测试中，X5570性能要高67.6%，多处理器加速比为6.39x。

　　Iometer2006.07.27

　　我们的基准服务器采用了三块15000RPM的SeagateCheetah15K.5硬盘。

Nehalem-EP测试样机则是用两块7200RPMSeagateBarracuda7200.11。

基准平台使用了LSIMegaRAIDSAS8408E硬件阵列卡组建了RAID5阵列，而测试样机使用了一块集成的LSI　MegaRAIDSAS阵列卡。

显而易见，Nehalem-EP测试样机的磁盘子系统比较糟糕。

　　IO读

　　IO写

　　读吞吐量

　　写吞吐量

　　由于是软阵列，阵列缓存由驱动在主内存中维护，因此512B连续读取IOps和连续吞吐量都很不错，当然……实际应用是另一回事。

　　NetBenchv7.03

　　NetBench7.03Ent_dm.tst测试脚本模拟的是企业级文件服务器应用，它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量，还需要其具有较高的IO处理能力，并且需要较为平衡的读取能力和写入能力。

　　NetBench性能测试

　　由于是SATA软阵列——它们的曲线都表现出类似于正态分布一样：

在某处具有一个波峰，两侧则逐渐下滑。

Nehalem-EP测试样机的峰值吞吐量在20台测试客户机时达到，为850Mbps，此后随着客户端的增加，滑落到400Mbps附近。

基准平台属于硬件阵列，Shanghai平台属于SASHost-RAID半软半硬阵列。

展开阅读全文

intel NehalemEP处理器首发深度评测 第五部分Word文档格式.docx

intel NehalemEP处理器首发深度评测第五部分Word文档格式.docx