Intel至强Sandy Bridge处理器首发评测.docx

资源描述

Intel至强Sandy Bridge处理器首发评测.docx

《Intel至强Sandy Bridge处理器首发评测.docx》由会员分享，可在线阅读，更多相关《Intel至强Sandy Bridge处理器首发评测.docx（39页珍藏版）》请在冰点文库上搜索。

Intel至强Sandy Bridge处理器首发评测.docx

Intel至强SandyBridge处理器首发评测

【IT168 评测中心】前不久，Intel对外发布了最新的基于SandyBridge微架构的32nm至强处理器——E3系列。

虽然这并非是Intel第一次发布基于SandyBridge微架构的产品，虽然E3仅仅面向单路应用而生，但不管怎么说，E3的出现的确标志着Intel在至强处理器发展中迈出了重要的一步，也是Tick-Tock战略中重要的内容（Tock）。

IT168评测中心有幸在第一时间拿到了至强E3系列的产品，接下来我们将为大家展示的是SandyBridge架构强大的性能与未来广阔的发展趋势。

Intel发布SandyBridge微架构32nm至强处理器

得益于桌面级SandyBridge处理器的成功，许多人对于至强SandyBrideg处理器也充满了期待。

虽然对于至强处理器应用的服务器环境来说，多媒体性能并非是人们应该关注的内容。

而每当提到SandyBridge的技术特点——环形总线、AVX指令集、TurboBoost2等内容都是众多报道中频繁出现的内容。

究竟这些技术为我们带来了什么？

它们的存在会有哪些的好处。

这些还要从SandyBrideg之前的Nehalem开始说起。

按照Intel著名的时钟规律——Tick-Tock来看，SandyBridge明显属于后者，也就是Tock范畴。

Tock主要是指处理器微架构方面的改变，而核心工艺的上一次升级已经由我们熟悉的Westmere完成了，下一次22nm的升级还要再等等才行。

在进行系统的分析之前，我们先来看看最新的至强SandyBridge处理器路线图。

相比以往的产品来说，SandyBridge至强处理器采用了与桌面级酷睿处理器类似的命名规范，分为E3、E5和E7三个系列。

其中，E3系列是面向入门级单路服务器的产品，E5系列则面对了主流的双路服务器平台。

唯一有特点的是E7，这款产品虽然在型号上采用了新的命名规则，但是在本质上E7还是上一代架构的产品，它还有一个大家非常熟悉的名字——Westmere-EX。

至强处理器路线图

本次我们要介绍的至强E3系列属于面向单路服务器应用的产品，使用的是LGA115接口，也就是图中的SandyBridge-DT。

按照产品布局分析，SandyBridge-DT主要定位在入门级的单路服务器，虽然同样是单路，但是高端应用的任务则是由SandyBridge-EN来承担。

正如我们刚才提到的，新一代的至强SandyBridge处理器给我们带来的一个印象就是采用了环形总线架构，这也是Intel在继Nehalem和Westmere之后继续使用环形总线的架构。

SandyBridge核外架构图

SandyBridge处理器使用了新的环形总线设计。

事实上从之前的Nehalem开始，Intel就转向了融合核心的理念。

在Nehalem当中，Intel将内存控制器融入其中，而在接下来的Westmere当中，GPU也作为融入的对象而出现（只是那时候的GPU还仅仅使用的是45nm工艺）。

在之前的8核心Nehalem-EX上，我们就看到了环形总线的身影，不过当时的产品在性能和功耗上并没有表现出明显的优势。

本次SandyBridge使用的是重新设计的核外结构，全新的RingBus环形总线更能够较好的展示出SandyBridge的真实性能。

通过上图大家可以看到，RingBus环形总线连接各个CPU核心、LLC缓存（L3缓存）、融合进去的GPU以及SystemAgent（系统北桥）等部分。

这个图片或许可以更好的说明问题。

新的RingBus环形总线由四条独立的环组成，分别是数据环DataRing、请求环RequestRing、响应环AcknowledgeRing和侦听环SnoopRing。

借助于环形总线，CPU与GPU可以共享LLC缓存，将大幅度提升GPU性能。

在这个环形总线上，分布着多个RingStop，也就是俗称的“站台”。

这个“站台”在每个CPU/LLC块上具有两个连接点，而之前使用环形总线的产品，也就是Nehalem-EX环在每个CPU/LLC块上只有一个连接点。

环形总线的存在，可以大大减少核心访问三级缓存的周期。

在以往的产品中，多个核心共享一个三级缓存，需要访问的话必须先经过流水线发送请求，在进行优先级排序之后才能进行。

新的环形总线将三级缓存分割成了若干部分，借助于每个站台，核心可以快速的访问LLC。

LLC小容量缓存的延迟优势与核心频率一致性在这里也就体现了出来，这就使得SandyBridge的周期相比以往产品有所缩减，从原来的35-40个缩减到了26-31个。

同时，由于每个核心与LLC之间可以提供若干带宽，使得SandyBridge的整体带宽也提升了4倍。

在SandyBridge处理器中，Intel使用了一个全新的概念——SystemAgent（系统助手）。

事实上，SystemAgent也就是我们之前所说的核外架构，只是Intel本次给予了其全新的命名，而在以往的名称中，我们亲切的称之为系统北桥。

系统助手

SystemAgent包含了比以往产品更为丰富的功能，包括整合内存控制器、支持16条PCIE2.0通道的PCIE控制器、图形处理器（GPU）、电源控制单元（PCU）以及DMI总线的IO接口。

PCI-E控制器，可提供16条PCI-E2.0信道，支持单条PCI-Ex16或者两条PCI-Ex8插槽；重新设计的双通道DDR3内存控制器，内存延迟也恢复了正常水平（Westmere将内存控制器移出CPU、放到了GPU上）；此外还有DMI总线接口、显示引擎、电源控制单元（PCU）。

系统助手的频率要低于其他部分，有自己独立的电源层。

在SandyBridge处理器中，最大的改进要算是增加了全新的AVX指令集——AdvancedVectorExtensions，高级矢量扩展。

这个指令集的增加是X86处理器中的重要内容，不仅仅是提供了更为良好的性能，同时也是对现有指令集的整合与优化。

介绍AVX指令集之前，先要引入一个向量的概念。

所谓向量，就是多个标量的组合，通常意味着SIMD（单指令多数据），就是一个指令同时对多个数据进行处理，达到很大的吞吐量。

早在1996年，Intel就在X86架构上应用了MMX（多媒体扩展）指令集，那时候还仅仅是64位向量。

到了1999年，SSE（流式SIMD扩展）指令集出现了，这时候的向量提升到了128位。

如今，SandyBridge的AVX将向量化宽度扩展到了256位，原有的16个128位XMM寄存器扩充为256位的YMM寄存器，可以同时处理8个单精度浮点数和4个双精度浮点数。

换句话说，SandyBridge的浮点吞吐能力可以达到前代的两倍。

不过现在，AVX的256位向量还仅仅能够支持浮点运算。

不过AVX的特别之处在于，它可以应用128位的SIMD整数和SIMD浮点路径。

AVX指令集是和SandyBridge微架构紧密结合的，因此，微架构的浮点寄存器也要从128位扩展到256位，此外，Load单元也要适应一次载入256位的能力，SandyBridge没有直接扩展原有Load单元的位宽，而是通过增加了一个Load单元来达到256bitLoad的能力。

在进行新性能扩展的同时，AVX指令集的出现对于原有的X86指令集也进行了优化与重新组合——这主要源于AVX指令集新的操作码编码方式。

AVX指令集的编码方式叫做VEX（VectorExtension），其主要用途是缩短指令长度，降低无谓的代码冗余，并且也降低了对解码器的压力，实现的方式也很特别——压缩各式各样的Prefix前缀，集中到一个比较固定的字段中，从而达到了精简指令集的目的。

既然我们一直在讨论SandyBridge核心，那么不谈到其特色的整合GPU显然是不合适的，虽然对于服务器的应用来说多媒体性能的确是无足轻重。

其实我们在文章最初就提到过，作为Tioc-Tock时钟式的重要内容，其实从Wesrtmere32nm处理器开始，Intel就在处理器中整合了GPU，不过仅仅是将二者封装在一个Die上。

因为45nm的GPU与32nm的CPU在制程上不一致，最重要的是关键的内存控制器被放在了45nm的GPU当中，造成了32nmWestmere性能并没有想象的那么出色。

而在Tock中，SandyBridge的出现解决了这一问题，特别是将GPU整合在了环形总线之内，实现了二者真正的融合。

SandyBridgeGPU有自己的电源岛和时钟域，也支持TurboBoost技术，可以独立加速或降频，并共享三级缓存。

显卡驱动会控制访问三级缓存的权限，甚至可以限制GPU使用多少缓存。

将图形数据放在缓存里就不用绕道去遥远而“缓慢”的内存了，这对提升性能、降低功耗都大有裨益。

可编程着色硬件被称为EU，包含着色器、核心、执行单元等，可以从多个线程双发射时取指令。

内部ISA映射和绝大多数DX10.1API指令一一对应，架构很像CISC，结果就是有效扩大了EU的宽度，IPC也显著提升。

抽象数学运算由EU内的硬件负责，性能得以同步提高。

Intel此前的图形架构中，寄存器文件都是即时重新分配的。

如果一个线程需要的寄存器较少，剩余寄存器就会分配给其他线程。

这样虽能节省核心面积，但也会限制性能，很多时候线程可能会面临没有寄存器可用的尴尬。

在芯片组集成时代，每个线程平均64个寄存器，WestmereHDGraphics提高到平均80个，Sandybridge则每个线程固定为120个。

好了，介绍了这么多，终于轮到我们本次评测的主角——至强E3系列登场了。

关于至强E3系列，一共有7款产品，其中两款为超低功耗版的产品。

它们的主频最低为2.2GHz，最高为2.5GHz。

本次我们拿到的测试产品是E3系列中的E3-1275和E3-1220。

前者是E3系列中的高端产品，主频为3.4GHz，支持超线程技术，TDP为80W；后者是E3系列标准版中的最低规格，主频仅为3.1GHz，不支持超线程技术。

其中，整合GPU的处理器命名统一以5结尾。

至强E3-1220处理器

至强E3-1275处理器

LGA1155接口处理器

至强E3系列处理器采用的是LGA1155接口，从处理器的背面来看其布局与LGA1156有非常大的区别，也就是说用户不可能直接从LGA1156平滑升级到LGA1155处理器，必须要更换平台。

对于桌面级的SandyBridge处理器来说，6系列芯片组，包括P67和H67都是比较好的选择。

而在本次测试中，由于我们暂未难道应用于E3系列处理器的主板，因此在测试中我们只能选择P67芯片组进行。

这次，我们将针对高端的E3-1270处理器进行测试。

对于至强E3-1270处理器的测试，我们搭建了一套专门的平台，具体配置如下：

平台信息服务器

产品名称

至强E3-1275处理器

平台类型

IntelP67芯片组

处理器子系统

处理器型号

IntelXeonE3-1275

处理器架构

Intel32nmSandyBridge

代号

SandyBridge

处理器封装

Socket1155LGA

核心/线程数量

4/8

主频

3.4GHz

处理器指令集

MMX,SSE,SSE2,SSE3,

SSE4.1,SSE4.2,EM64T,VT-x,AES

外部总线

2×QPI

2933MHz

6.40GT/s

单向12.8GB/s（QPI）

双向25.6GB/s（QPI）

L1CodeCache

4×32KB8路集合关联

L1DataCache

4×32KB4路集合关联

L2Cache

4×256KB8路集合关联

L3Cache

8MB16路集合关联

服务器主板

主板型号

IntelDP67BG

主板芯片组

IntelP67

北桥芯片特性

2×QPI

VT-dGen2

内存子系统

内存控制器

每CPU集成双通道R-ECCDDR31333

内存类型

2GBR-ECCDDR31333SDRAM×4条

存储子系统

磁盘控制器

IntelICH10RSATAAHCIController

磁盘控制器规格

4xSATA3Gb/s+2xSATA6Gb/s

AHCIw/NCQ

RAID0/1/10

控制器驱动

IntelMatrixStorageManager8.8.0.1009

硬盘型号数量

Seagate

Barracuda7200.12

ST3250318AS

硬盘规格

7200RPM

500GB

SATA3Gb/s

NCQ

16MBCache

网络连通性

网卡控制器

Intel82576EB PortGigabitNetworkController

网卡驱动

IntelPROSet15.8.76.0

软件环境

操作系统

WindowsServer2008R2EnterpriseEditionSP1x64

本次我们为这款平台搭配的是WindowsServer2008R2操作系统，而且还增加了SP1补丁。

刚刚我们在介绍AVX指令集的时候提到，这个指令集在SP1版本下有比较好的表现，因此我们特别安装了SP1补丁。

平台方面，P67平台是当下我们的无奈选择，好在这个是Intel原厂的主板，还算是比较搭配。

出于测试SPECCPU2006的考虑，我们为平台搭配了4条宇瞻DDR31333内存，这样系统的内存容量达到了16GB。

对于服务器的测试，我们主要从产品满足用户应用的角度出发，分功能和性能两个方面来考察。

其中性能测试主要体现的是服务器在提供特定服务时的具体的事务处理能力，而在功能上，主要反映的是服务器的可靠性、可扩展性以及易用性等方面的特征。

另外，由于不论是最终用户还是处理器厂商，大家对于服务器的能耗问题都给以了很高的重视，为此，我们也继续将能耗作为考察服务器使用成本的重要指标。

网络测试环境

贴近应用的性能测试

在实际的应用中，不同的应用条件对于服务器子系统性能的要求也有一定的偏重，因此同一服务器在不同应用中所表现出的性能状况常会出现较大差异。

为了能准确反映出服务器的性能状况，我们选择了Web、文件服务器和数据库等三种较为普遍的应用作为测试重点。

之所以选用以上三种应用作为性能测试点，这几项应用相对较为普遍是原因之一，此外我们也考虑到这三种应用对于服务器子系统的要求也各有偏重，这样可以更全面的考察服务器各子系统的性能状况。

讲求实用的功能测试

可靠性、可扩展性和易用性同样也是用户关心的内容，但不同的用户对这三方面的需求会有所不同。

比如一些中高端服务器产品，在应用中多采用专用机房或托管方式，这时其易用性中的可管理性方面就显得非常重要，远程管理会让工程师及时了解服务器工作状况，实现及时有效的管理和维护。

而对于入门级服务器来说，由于很多用户会随着业务的增长会对其处理能力、存储容量有进一步的要求，这时其可扩展性就显得更为重要。

可靠性是服务器的一个关键特性，它反映了服务器在应用过程中系统能否确保长时间正常工作，这也是服务器与普通PC之间的重要区别。

对于以上三个方面，我们都制定了详细项目进行逐一考察。

兼顾使用成本的能效测试

服务器的售价反映的它是一次性的购买成本，而后期的使用成本是一个不容小视的问题，作为一个要求7×24连续工作的设备，它所产生的电费将是一笔不小的开销。

实际上在评判服务器的运算能力时，一定不能将功耗问题视而不见，性能功耗比是衡量服务器运算效能的一个重要指标，测试中我们利用功率分析仪对服务器在加电关机、开机空载以及满负载三种状态下的功耗进行测定，为服务器的能效以及使用成本的估算提供数据支持。

对于服务器性能方面的考察，我们主要分为子系统测试和应用性能测试。

在子系统测试中我们按处理器、内存以及磁盘等各个子系统进行了分项测试，当然各子系统的测试成绩也是相辅相成，也需要其它子系统的支持，并非是完全独立的，只是对考察的子系统有所偏重而已。

处理器子系统测试

对服务器处理器子系统的考察，我们主要采用的是业界公认的SPECCPU2006测试，该项测试通过对数十个典型应用程序的运行，来测试系统处理器子系统在应用中的整、浮点运算效率。

SPECCPU2006测试具有很好的开放性，因此在业界为广大用户所接受，可以利用这一公开的测试结果进行系统间运算性能的比较。

此外SiSoftwareSandra也有测试子项可用于处理器运算性能测试，其结果通常以每秒完成的指令数来表现。

也可以用作不同处理器间运算效率的比较。

SPECCPU2006v1.1

SPEC是标准性能评估公司（StandardPerformanceEvaluationCorporation）的简称。

SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织，这个组织的目标是建立、维护一套用于评估计算机系统的标准。

SPECCPU2006是SPEC组织推出的CPU子系统评估软件最新版，我们之前使用的是SPECCPU2000。

和上一个版本一样，SPECCPU2006包括了CINT2006和CFP2006两个子项目，前者用于测量和对比整数性能，后者则用于测量和对比浮点性能，SPECCPU2006中对SPECCPU2000中的一些测试进行了升级，并抛弃/加入了一些测试，因此两个版本测试得分并没有可比较性。

SPECCPU测试中，测试系统的处理器、内存子系统和使用到的编译器（SPECCPU提供的是源代码，并且允许测试用户进行一定的编译优化）都会影响最终的测试性能，而I/O（磁盘）、网络、操作系统和图形子系统对于SPECCPU2006的影响非常的小。

SPECfp测试过程中同时执行多个实例（instance），测量系统执行计算密集型浮点操作的能力，比如CAD/CAM、科学计算等方面应用可以参考这个结果。

SPECint测试过程中同时执行多个实例（instances），然后测试系统同时执行多个计算密集型整数操作的能力，可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。

我们在被测服务器中安装了IntelC++11.1.034Compiler、IntelFortran11.1.034Compiler这两款SPECCPU2006必需的编译器，通过最新出现的QxS编译参数，IntelCompiler10版本开始支持对IntelSSE4指令集进行优化（假如只支持SSE3，则使用QxT编译参数）。

我们另外安装了MicrosoftVisualStudio2003SP1提供必要的库文件。

按照SPEC的要求我们根据自己的情况编辑了新的Config文件，使用了较多的编译选项。

我们根据被测系统选择实际可同时处理的线程数量，最后得到SPECratebase测试结果（基于base标准编译，SPECbaserate测试代表系统同时处理多个任务的能力）。

和其它测试部件不同，SPECCPU2006需要大量的系统物理内存，我们的SPEC测试在64位的WindowsServer2008R2下完成，对于每个运算核心，最低配置1.5GB内存。

内存子系统测试

对于内存子系统的考察，也是利用SiSoftwareSandra来实现，在该软件中有相应组件可进行内存带宽、内存延迟等方面的测试。

SiSoftwareSandrav2011

SiSoftwareSandra是一款可运行在32bit和64bitWindows操作系统上的分析软件，这款软件可以对于系统进行方便、快捷的基准测试，还可以用于查看系统的软件、硬件等信息。

从2007开始，Sandra的Arithmeticbenchmarks增加了对SSE3&SSE4SSE4的支持，在Multi-Mediabenchmark中增加了对于SSE4的支持，另外还升级了FileSystembenchmark和RemovableStoragebenchmark两个子项目。

对于新的硬件的支持当然也是该软件每次升级的重要内容之一，SiSoftwareSandra2010对NUMA架构以及最新的Windows7/WindowsServer2008R2提供了更好的支持，此外测试项目和测试结果也有了略微的变化。

SiSoftwareSandra所有的基准测试都针对SMP和SMT进行了优化，最高可支持32/64路平台。

激动人心的时刻终于到来了。

对于一款处理器来说，许多人都喜欢使用CPU-Z来观察它的规格。

下面我们就一起来看看至强SandyBridge处理器给我们带来了什么。

因为测试处理器为ES版，所以依然识别为Corei7处理器，不过下面一行倒是看得很清楚——E31275

8MB三级缓存，由4个核心共享，每核心分配2MB

测试主板使用的是P67芯片组

我们使用了4条宇瞻4GBDDR31333内存，系统总内存容量为16GB

AIDA64（原EVEREST）是一个测试软硬件系统信息的工具，它可以详细的显示出PC硬件每一个方面的信息。

支持上千种（3400+）主板，支持上百种（360+）显卡，支持对并口/串口/USB这些PNP设备的检测，支持对各式各样的处理器的侦测。

支持查看远程系统信息和管理，结果导出为HTML、XML功能。

之前这款软件命名为AIDA32，后改名为EVEREST，现在又改名为AIDA64，真是够折腾的。

E3-1275支持超线程技术，我们可以看到完整的8个线程

P67主板仅能够支持双通道内存，不过我们刚刚在介绍SystemAgent的说过，这个双通道是经过重新设计的

系统北桥实际上就是SystemAgent，因为我们使用的是P67而非H67，所以显示自带的GPU已禁用

主板南桥信息

SPECCPU2006的浮点运算测试包括的全部都是科学运算，科学运算需要用到大量的高精度浮点数据，如410.bwaves流体力学、416.gamess量子化学、433.milc量子力学、434.zeusmp物理：

计算流体力学、435.gromacs生物化学/分子力学、436.cactusADM物理：

广义相对论、437.leslie3d流体力学、444.namd生物/分子、447.dealII有限元分析、450.soplex线形编程、优化、453.povray影像光线追踪、454.calculix结构力学、459.GemsFDTD计算电磁学、465.tonto量子化学、470.lbm流体力学、481.wrf天气预报、482.sphinx3语音识别共17项测试。

首先我们看到的是浮点预算的测试成绩，我们采用的对比处理器为至强X3430。

至强X3430是上一代的单路服务器产品，采用45nm工艺，其主频为2.4GHz，4核心4线程。

从这个测试结果来看，E3-1275大幅度领先于对比产品，许多项目的性能提升在一倍以上。

这个原因是多方面的。

首先从主频上来看，E3-1275相比X3430提升了1GHz的主频，差距很明显；其次是超线程的应用，8线程相比4线程也提升了一倍；第三是处理器微架构的差别，包括整体的设计及制造工艺。

因此，至强E3-1275的明显优势也就没什么好奇怪的了。

SPECCPU2006整

展开阅读全文