细读ps3之cpube架构.docx

资源描述

细读ps3之cpube架构.docx

《细读ps3之cpube架构.docx》由会员分享，可在线阅读，更多相关《细读ps3之cpube架构.docx（28页珍藏版）》请在冰点文库上搜索。

细读ps3之cpube架构.docx

细读ps3之cpube架构

详细解读多核心Cell处理器

关键词：

多核 cell

阅读提示：

本文对Cell处理器的架构做了详细的介绍，在服务器领域，除了intel,amd提供的处理器以外，cell处理器也非常适合用作服务器的处理器。

采用Cell处理器的服务器适用处理对网络带宽有较高要求的多媒体等应用。

一、引言

请看几件非常有趣的事情：

1.由于Intel在关于它们的多核心微处理器构架的将来计划上变得比以前更公开了，Intel的SpringIDF2005变成了一个多核心CPU的节日。

Intel的计划中有10款以上的多核心CPU设计，而它们在IDF上解释得很清楚了。

2.在GDC2005上，AGEIA宣布它们已经开发了一个物理处理单元（PhysicsProcessingUnit，PPU），它能够被用于处理非常现实的物理及人工智能模型。

3.JohanDeGelas在他探索更高处理能力的道路上更进了一步，发现多核心CPU在游戏市场中有相当大的潜力，不过要以增加程序调试时间为代价。

那么，这三件事有什么共同之处呢？

三者的结合基本上概括了我们已经知道的关于Cell微处理器-多核心CPU的内容，它的一部分是为了相当难编程的并行物理/AI处理而设计的。

在宏观层面上，Cell是不难理解的；最让人感兴趣的是设计者如何达到目的。

在这篇文章中，我们将集中于Cell的设计主张和构建模块，最终目的是理解Cell为什么会这样设计。

作为IBM，Sony和Toshiba之间的共同投资，Cell微处理器是Sony即将到来的Playstation3的核心部件。

不过，这一次Sony和Toshiba还打算在从消费电子到服务器和工作站的所有产品中使用Cell（或它的一部分）。

如果你还没有什么概念的话，那也该知道Cell作为微处理器，特别是非x86的微处理器，已经让某些人寄予了非常高的期望了。

使用模式

在进入Cell的构架之前，让我们来谈一点关于Cell及其它微处理器当前面对的工作负荷类型。

在过去，办公应用程序性能是隐藏在微处理器发展背后的推动因素。

在多重任务处理和E-mail应用上，以前是单个应用程序执行，而我们在很大程度上谈论的是办公应用软件，文字处理，电子制表软件等等。

因此，大多数微处理器是为了惊人的单个应用程序，单个任务性能设计的。

由于微处理器变得更加强劲了，所以软件也升级了-多任务处理环境诞生了。

然而，大多数的电脑用户仍然集中在单个应用程序使用上，所以微处理器发展继续侧重于单线程性能（单个应用程序，单个任务性能）。

几年过去了，单线程的性能要求提高了。

MicrosoftWord不再是作为界定的应用程序了，而像游戏，媒体处理和动态内容创建这些东西变成了占用最多CPU的应用软件。

这就是我们现今面对的工作负荷，办公，3D游戏，3D内容创建和媒体编码/解码/转码的混合消耗了我们的CPU周期。

但为了了解Cell这么一个新构架的创建，你必须理解这些工作量的极限在哪。

正如今天需要执行的应用程序类型与10年前运行的那些大不相同一样，同样的情况在下一个十年也会发生。

而假定一个新的微处理器构架要5年左右来开发的话，那么现在引入一个面向这些新的使用模式的新构架是切实可行的。

Intel在最近的IDF上就将来的使用模式谈了很多，比如像实时声音识别（甚至是翻译），开放式搜索（例如Google图像搜索），游戏中更好的物理和AI模型，更多特性丰富的用户界面（例如手势识别）等等这些东西。

这些是将来的使用模式，而同样地，它们对微处理器和相关的构架有不同的一套要求。

支持这些使用模式类型需要的性能等级明显比我们今天可用到的更高。

按照惯例，从一代微处理器到下一代，性能的增长通过优化单线程性能来实现。

有许多改进单线程性能的方法，要么提高时钟速度，要么增加每个时钟执行的指令数（IPC）。

更进一步说，从一个单独的线程中能够实现越多的并行处理，性能就会越好-这类并行是指指令级的并行（ILP），它包括在一个线程中同时执行尽可能多的指令。

通过增加ILP改进性能所具有的问题是从一代到下一代，只能带来10％-20％的性能增长。

然而，我们谈到用于未来的使用模式要求明显多于过去已经获得的这类提升。

由于功率限制阻止了时钟速度放得太高，那显然需要另一种改进性能的方法。

在微处理器行业中主要的厂商几乎一致认同，获得必要的性能提升的唯一办法就是向多核心构架迁移。

通过多线程应用程序和多核心处理器的结合，应该能够满足这些类型的应用程序所需要的性能增长。

与侧重于提高ILP来改进性能不同，这些多核心处理器是在线程级上并行操作来改进性能的（线程级并行-TLP）。

不过事情并不是这么简单的。

需要做出许多深思熟虑后的决定。

在多核心微处理器中每个核心需要多大的运算能力？

是需要强劲处理器的小型阵列还是较简单处理器的大型阵列？

它们相互之间如何通信？

怎样处理为多核心处理器提供足够的内存带宽呢？

Cell微处理器就是对这些问题的一个解答。

二、Cell的宏观概述

Cell是跟即将到来的AMD和Intel多核心CPU几乎一样的多核心处理器，唯一的差异是Cell的构架不是完全同类的核心集。

Cell的执行核心

Cell构架以9个独立核心的配置登场：

一个PowerPCProcessingElement（PPE）及八个SynergisticProcessingElement（SPE）。

PPE和SPE是明显不同的，但全部八个SPE是彼此相同的。

PPE是IBM对Cell方案的主要贡献。

它似乎也跟被用在下一代Xbox控制台中的核心非常相似，就是说IBM对Cell所承担的义务并不是一定要让它用在从消费电子到PC的所有设备中，而仅仅是两个主要的游戏控制台而已。

PPE是一个新核心，不同于IBM制造的其它任何PowerPC核心。

虽然PPE拥有现代任何通用微处理器的基本功能，但它有目的地作了简化。

PPE在Cell中的作用是处理任何通用微处理器能够运行的任务；基本上任何能够在Athlon64上运行的就会在PPE上运行。

PPE配备了64KBL1缓存和512KBL2缓存，并且拥有类似于IntelHyperThreading的SMT技术。

PPE使用了一个严格有序的核心，这在桌面x86市场上从最初的Pentium消亡以来就再没有见到过了（PentiumPro把无序执行带到了x86市场），所以向有序核心的转变是一个引人注意的地方。

PPE还只是一个2流程核心，那意味着它最多能够同时执行两条指令。

作为对照，Athlon64是3流程核心，所以立即可以感觉到，PPE是比任何桌面产品简单得多的核心。

PPE还支持IBM的VMX指令集（即Altivec）。

跟Cell处理器的其它核心非常相似的是，PPE被设计为运行在非常高的时钟速度下。

关于PPE没有太多让人感觉不平常的地方，也就是它是一个小，高速，有效率的核心。

跟Pentium4或Athlon64相比，PPE无疑会落败，但PPE的构架符合性能需求上的变化。

例如，商业/办公应用程序中的性能需要非常强劲，非常快的通用微处理器，但游戏控制台中的性能则不然。

最初的Xbox使用了修改过的IntelCeleron733MHz处理器，而当时最快的桌面产品有2.0GHz的Pentium4和1.60GHz的AthlonXP。

假如Cell的第一个应用是Sony的Playstation3，那么PPE的简单是不出奇的。

如果Cell想要进军PC的话，那PPE显然必须得到加强，或至少搭配多个PPE才行。

Cell的Die的主要部分由八个SynergisticProcessingElement（SPE）组成。

如果把PPE看作是通用微处理器的话，那么SPE就是稍微有些特殊侧重点的通用处理器了。

每个SPE是一个功能完整的独立微处理器，但被极度简化了，并且不像PPE那样通用。

SPE没有缓存，但每个SPE却拥有256KB的局部存储器（稍后我们将讨论局部存储器和缓存之间的差异）。

每个SPE还拥有总共达7个的执行单元，包括一个整数单元，所以SPE能够执行整数运算以及SIMD浮点计算。

SPE是双流程的，也就是说它们最多能够执行2条并行的指令。

SPE和PPE两者都采用双流程，引起了对Cell晶体管数量和芯片大小的关注，因为增加流程宽度直接关系到这两个关键的项目。

SPE没有分支预报器，意味着它们完全依靠软件分支预报。

编译器有方法能够消除分支，而SPE构架非常有助于像解开回路这样的事情。

任何初级程序员对回路都很熟悉，在那里一行或多行代码被重复，直到满足某个条件为止。

那个条件（例如i<100）的校验通常会导致分支，所以消除那个分支的一个办法是简单地解开回路。

如果在一个应该执行100次的回路中有一条语句，那要么可以把它留在回路中并照样执行，要么可以取消回路并简单地复制该语句100次。

最终结果是相同的-唯一的差别是在一种情况下有分支条件，而另一种情况导致了更多行待执行的代码。

打开回路具有的问题是需要很多寄存器来解开若干循环，那就是每个SPE拥有128个寄存器的原因了。

SPE原先应该使用VMX（Altivec）ISA，但由于需要多于32个的寄存器，SPE执行了新的ISA，支持128个寄存器。

每个SPE在每个时钟只能够处理两条指令，也就是说每个SPE最多能够同时执行两条指令。

微处理器的流程宽度在很大程度上可以决定微处理器将有多大；例如，Itanium2采用6流程核心，所以作为2流程核心的SPE明显小于大多数的通用微处理器。

最后，我们在SPE上看到的是它们牺牲了一些正常的改进ILP的技巧，以便能够在一个单独的Die上塞进更多的SPE，为了更大的TLP而有效地牺牲掉一些ILP。

既然行业前进的方向是这样，那么向极其侧重TLP设计的迁移是很有意义的，但同时，它将相当依赖于使用非常特殊的开发模型的开发商。

很明显，Cell的设计师把SPE当作运行高度并行化工作量的手段，正如DerekWilson在他关于AGEIAPhysXPPU的文章中所提到的：

“特征很好地适应PC内专门的处理器的图形，它的性质之一就是任务是可无限并行化的。

每个帧需要处理数十万，甚至上亿个的像素。

渲染需要处理得越细致，并行任务就变得越多。

这对物理模型同样成立。

相对于现实世界，物理世界是连续的，而不是离散的。

拥有越多的处理能力，就能够立刻模拟更多的东西，从而能够越实际地逼近现实世界。

”

由于NVIDIA为Playstation3提供GPU，所以Cell的SPE阵列在游戏控制台中由一个明确的目的-物理及AI处理。

许多人认为，SPE的阵列能够接管GPU的像素处理工作量，但对于高性能控制台来说，那不是很有意义的选择。

SPE阵列能够提供更好的基于CPU的3D渲染，但对于这个SPE阵列来说，那将是艰苦的工作，不如使用专门的GPU硬件。

Cell的On-Die内存控制器

多年以来，我们知道Rambus的内存和接口技术远远领先于竞争对手。

问题是它以前从未在PC上得到很好地实现。

在RDRAM用于PC的早期，Rambus品牌收到了相当负面的评价，并且由于Rambus对DDR世界的诉讼使得该公司的形象变得更差了。

Rambus在许多消费电子设备中已经获得了成功，例如HDTV及Playstation2，所以当Cell宣布大量使用Rambus技术的时候，并不让人太过吃惊。

正如我们早先报导的，在Cell上大约90％的针脚用到了Rambus技术。

剩下的10％大部分是测试针脚，所以Rambus基本上掌握了出入Cell处理器的所有数据。

它们以两个方法来做到这一点：

首先，Cell包含了一个On-Die双通道XDR内存控制器，每条通道有36-bit宽（ECC为32-bit）。

Cell的XDR内存总线运行在400MHz下，但XDR内存以8倍于内存总线时钟的速度传输数据-那意味着获得了3.2GHz数据通讯数据。

最终结果是类似于GPU显存带宽的25.6GB/s。

我们知道，在增加处理器核心数量的时候，内存带宽需求会惊人地增长-由于Cell中的9个核心，XDR是理想的选择。

注意到GeForce6800GT就向它的GPU提供了32GB/s的显存带宽，所以看到Playstation3的GPU搭配它自己的局部存储器以及能够共享系统内存和带宽也不会太令人吃惊。

标注为MIC的模块是XDR内存控制器，而XIO模块是物理层-所有的输入接收器和输出驱动器都在XIO模块中。

数据管线也放在了XIO模块中。

正如在AMD的Athlon64上已经看到的，拥有On-Die内存控制器显著减少了内存延时，这也发生在Cell上。

Cell的On-DieFlexIO接口

Cell另一个重要的I/O技术也受Rambus控制-FlexIO接口。

Cell配备了两个可配置的FlexIO接口，每个为48-bit宽，拥有6.4GHz数据通讯速度。

BEI模块是北桥接口，而FlexIO模块是物理FlexIO层。

“可配置”这个词是特别重要的，因为它意味着无需连接每条线路。

进一步解释这个概念，就是不要把FlexIO接口看作只能连接到一个芯片的，而是具有不同宽度FlexIO接口的多个芯片。

Cell可配置FlexIO接口的一个可能的实现

虽然Cell的XDR接口提供了超过任何PC微处理器2倍的内存带宽，但Cell的FlexIO接口达到了76.8GB/s-几乎10倍于AMD的Athlon64芯片对芯片的带宽。

在Playstation3中，几乎可以预料到NVIDIA的GPU和Cell处理器之间将占用这个极其巨大的带宽了，但它也可能被用做某些相当繁重的I/O接口。

在任何高性能游戏控制台中，主要的需求之一就是带宽，而由于Rambus，Cell拥有了足够的带宽。

三、Cell的有序构架

我们已经提到，PPE和SPE两者都是有序核心，但为了了解有序核心对性能的影响，我们首先必须知道一点背景知识。