ARM的CPU分类.docx - 冰点文库

资源描述

ARM的CPU分类.docx

《ARM的CPU分类.docx》由会员分享，可在线阅读，更多相关《ARM的CPU分类.docx（16页珍藏版）》请在冰点文库上搜索。

ARM的CPU分类.docx

ARM的CPU分类

ZT：

armcpu的架构及分类说明

今天在编译mplayerformx27ads的时候，碰到了armv5te与armv6优化的问题。

默认的交叉编译器支持armv5te也支持armv6，就默认使用了mplayer中mpeg4的armv6解码代码，结果在mx27ads版上，播放mpeg4视频时颜色空间转换出错。

对比x86后总算找到了这个问题，顺手根据ARM官方资料和网上资料整理了一篇armcpu的架构及分类说明。

ARM微处理器系列

ARM微处理器目前包括下面几个系列，以及其它厂商基于ARM体系结构的处理器，除了具有

ARM体系结构的共同特点以外，每一个系列的ARM微处理器都有各自的特点和应用领域。

－ARM7系列

－ARM9系列

－ARM9E系列

－ARM10E系列

－ARM11系列

－Cortex系列

－SecurCore系列

－OptimoDEDataEngines

－Xcale

其中，ARM7、ARM9、ARM9E和ARM10为4个通用处理器系列，每一个系列提供一套相对独特的性能来满足不同应用领域的需求。

SecurCore系列专门为安全要求较高的应用而设计。

以下我们来详细了解一下各种处理器的特点及应用领域。

ARM7系列

ARM7系列微处理器为低功耗的32位RISC处理器，最适合用于对价位和功耗要求较高的消费

类应用。

ARM7微处理器系列具有如下特点：

－具有嵌入式ICE－RT逻辑，调试开发方便。

－极低的功耗，适合对功耗要求较高的应用，如便携式产品。

－能够提供0.9MIPS/MHz的三级流水线结构。

－代码密度高并兼容16位的Thumb指令集。

－对操作系统的支持广泛，包括WindowsCE、Linux、PalmOS等。

－指令系统与ARM9系列、ARM9E系列和ARM10E系列兼容，便于用户的产品升级换代。

－主频最高可达130MIPS，高速的运算处理能力能胜任绝大多数的复杂应用。

ARM7系列微处理器的主要应用领域为：

工业控制、Internet设备、网络和调制解调器设备、移

动电话等多种多媒体和嵌入式应用。

ARM7系列微处理器包括如下几种类型的核：

ARM7TDMI、ARM7TDMI-S、

ARM720T、ARM7EJ。

其中，ARM7TMDI是目前使用最广泛的32位嵌入式RISC处理器，属低端

ARM处理器核。

TDMI的基本含义为：

T：

支持16为压缩指令集Thumb；

D：

支持片上Debug；ARM应用系统开发详解──基于S3C4510B的系统设计 3

M：

内嵌硬件乘法器（Multiplier）

I：

嵌入式ICE，支持片上断点和调试点；

Samsung公司的S3C4510B即属于该系列的处理器。

ARM9系列

ARM9系列微处理器在高性能和低功耗特性方面提供最佳的性能。

具有以下特点：

－5级整数流水线，指令执行效率更高。

－提供1.1MIPS/MHz的哈佛结构。

－支持32位ARM指令集和16位Thumb指令集。

－支持32位的高速AMBA总线接口。

－全性能的MMU，支持WindowsCE、Linux、PalmOS等多种主流嵌入式操作系统。

－MPU支持实时操作系统。

－支持数据Cache和指令Cache，具有更高的指令和数据处理能力。

ARM9系列微处理器主要应用于无线设备、仪器仪表、安全系统、机顶盒、高端打印机、数字照相机和数字摄像机等。

ARM9系列微处理器包含ARM920T、ARM922T和ARM940T三种类型，以适用于不同的应用场合。

ARM9E系列

ARM9E系列微处理器为可综合处理器，使用单一的处理器内核提供了微控制器、DSP、Java

应用系统的解决方案，极大的减少了芯片的面积和系统的复杂程度。

ARM9E系列微处理器提供了

增强的DSP处理能力，很适合于那些需要同时使用DSP和微控制器的应用场合。

ARM9E系列微处理器的主要特点如下：

－支持DSP指令集，适合于需要高速数字信号处理的场合。

－5级整数流水线，指令执行效率更高。

－支持32位ARM指令集和16位Thumb指令集。

－支持32位的高速AMBA总线接口。

－支持VFP9浮点处理协处理器。

－全性能的MMU，支持WindowsCE、Linux、PalmOS等多种主流嵌入式操作系统。

－MPU支持实时操作系统。

－支持数据Cache和指令Cache，具有更高的指令和数据处理能力。

－主频最高可达300MIPS。

ARM9系列微处理器主要应用于下一代无线设备、数字消费品、成像设备、工业控制、存储设备和网络设备等领域。

ARM9E系列微处理器包含ARM926EJ-S、ARM946E-S和ARM966E-S三种类型，以适用于不同的应用场合。

ARM10E系列

ARM10E系列微处理器具有高性能、低功耗的特点，由于采用了新的体系结构，与同等的ARM9器件相比较，在同样的时钟频率下，性能提高了近50％，同时，ARM10E系列微处理器采用了两种先进的节能方式，使其功耗极低。

ARM10E系列微处理器的主要特点如下：

－支持DSP指令集，适合于需要高速数字信号处理的场合。

ARM应用系统开发详解──基于S3C4510B的系统设计 4

－6级整数流水线，指令执行效率更高。

－支持32位ARM指令集和16位Thumb指令集。

－支持32位的高速AMBA总线接口。

－支持VFP10浮点处理协处理器。

－全性能的MMU，支持WindowsCE、Linux、PalmOS等多种主流嵌入式操作系统。

－支持数据Cache和指令Cache，具有更高的指令和数据处理能力

－主频最高可达400MIPS。

－内嵌并行读/写操作部件。

ARM10E系列微处理器主要应用于下一代无线设备、数字消费品、成像设备、工业控制、通信和信息系统等领域。

ARM10E系列微处理器包含ARM1020E、ARM1022E和ARM1026EJ-S三种类型，以适用于不同的应用场合。

ARM11系列

ARM11系列微处理器是ARM公司近年推出的新一代RISC处理器，它是ARM新指令架构——ARMv6的第一代设计实现。

该系列主要有ARM1136J,ARM1156T2和RM1176JZ三个内核型号，分别针对不同应用领域。

ARMv6架构通过以下几点来增强处理器的性能：

　　·多媒体处理扩展

　　使MPEG4编码/解码加快一倍

　　音频处理加快一倍

　　·增强的Cache结构

　　实地址Cache

　　减少Cache的刷新和重载

　　减少上下文切换的开销

　　·增强的异常和中断处理

　　使实时任务的处理更加迅速=支持Unaligned和Mixed-endian数据访问

　　使数据共享、软件移植更简单，也有利于节省存储器空间

对绝大多数应用来说，ARMv6保持了100%的二进制向下兼容，使用户过去开发的程序可以进一步继承下去。

ARMv6 保持了所有过去架构中的T（Thumb指令）和E（DSP指令）扩展，使代码压缩和DSP处理特点得到延续；为了加速Java代码执行速度的ARMJazalle技术也继续在ARMv6架构中发挥重要作用。

ARM11处理器是为了有效的提供高性能处理能力而设计的。

在这里需要强调的是，ARM并不是不能设计出运行在更高频率的处理器，而是，在处理器能提供超高性能的同时，还要保证功耗、面积的有效性。

ARM11优秀的流水线设计是这些功能的重要保证。

Cortex系列

新的ARMCortex处理器系列包括了ARMv7架构的所有系列，含有面向复杂操作系统、实时的和微控制器应用的多种处理器。

ARMCortex-A系列是针对日益增长的，运行包括Linux、WindowsCE和Symbian在内的操作系统的消费者娱乐和无线产品设计的；ARMCortex-R系列针对的是需要运行实时操作系统来进行控制应用的系统，包括有汽车电子、网络和影像系统；ARMCortex-M系列则是为那些对开发费用非常敏感同时对性能要求不断增加的嵌入式应用所设计的

ARMCortex-M系列支持Thumb-2指令集，它是Thumb指令集的扩展集，可以执行所有已存的为早期的处理器编写的代码。

通过一个前向的转换方式，为ARMCortex-M系列处理器所写的用户代码可以与ARMCortex-R系列微处理器完全兼容。

ARMCortex-M系列系统代码（例如实时操作系统）可以很容易地移植到基于ARMCortex-R系列的系统。

ARMCortex-A和-R系列处理器还支持ARM32位指令集，向后完全兼容早期的ARM处理器，包括从1995年发布的ARM7TDMI处理器到最近的ARM11处理器系列。

在命名方式上，基于ARMv7架构的ARM处理器已经不再延用过去的数字命名方式，而是冠以Cortex的代号。

基于v7A的称为"Cortex-A系列"，基于v7R的称为"Cortex-R系列"，基于v7M的称为"Cortex-M3"。

Cortex-M系列处理器主要包含ARMCortex-M1,ARMCortex-M3两款处理器。

Cortex-R系列处理器目前包括ARMCortex-R4和ARMCortex-R4F两个型号，主要适用于实时系统的嵌入式处理器。

Cortex-A系列处理器目前包括ARMCortex-A8,ARMCortex-A9-MPCore,ARMCortex-A9-SingleCoreProcessor。

SecurCore系列

SecurCore系列微处理器专为安全需要而设计，提供了完善的32位RISC技术的安全解决方案，

因此，SecurCore系列微处理器除了具有ARM体系结构的低功耗、高性能的特点外，还具有其独特

的优势，即提供了对安全解决方案的支持。

SecurCore系列微处理器除了具有ARM体系结构各种主要特点外，还在系统安全方面具有如下

的特点：

－带有灵活的保护单元，以确保操作系统和应用数据的安全。

－采用软内核技术，防止外部对其进行扫描探测。

－可集成用户自己的安全特性和其他协处理器。

SecurCore系列微处理器主要应用于一些对安全性要求较高的应用产品及应用系统，如电子商

务、电子政务、电子银行业务、网络和认证系统等领域。

SecurCore系列微处理器包含SecurCoreSC100、SecurCoreSC110、SecurCoreSC200和SecurCore

SC210四种类型，以适用于不同的应用场合。

OptimoDEDataEngines

ARM的OptimoDEDataEngine是许可使用的IP，它具有一个相关工具环境、一个数据路径函数资源库以及具有各种并行机制和性能的预配置微结构。

OptimoDE定位于高性能嵌入式信号处理应用，开发者能够使用它作为单机处理器或具有微处理器核的设计中。

它支持并行性、虚拟无限的数据路径配置（包括混合宽度）、用户扩展以及访问固定功能或可编

程的数据引擎。

OptimoDEDataEngine与ARM的DSP接口规范兼容，这种接口规范规定了核与核之间基于邮箱的指令控制讯息和大量数据传送的接口、纠错和追踪接口以及多核纠错协议、还有针对处理器交互通信的软件API。

　　通过支持可编程性能，OptimoDE设计流程使设计者能够冻结DataEngine的结构，继续通过软件改变来调整算法。

这种方法使具有相似要求的多个算法能够使用同样的DataEngine硬件。

在开发者将设计提交给工厂或者批量供应后，他们还能重新编程OptimoDEDataEngine，重新生成代码来包容增加的设计改进或替代算法，而不用改变底层的硬件结构。

工具环境使设计者能够配置和扩展数据路径资源单元的类型和数目。

设计者还能配置本地存储的类型和大小以及交互连接的级别。

ARM提供一个C编译器和性能分析工具，开发者使用它们用C或C++来对OptimoDEDataEngine进行编程。

一旦数据引擎在一个设计中组合应用，OptimoDE工具环境就能够自动生成仿真模型，设计者使用它可以验证集成过程。

OptimoDEDataEngine具有AMBA兼容特性并能和ARM的多种系统IP一起工作。

Xscale系列

Xscale 处理器是基于ARMv5TE体系结构的解决方案，是一款全性能、高性价比、低功耗的处理器。

它支持16位的Thumb指令和DSP指令集，已使用在数字移动电话、个人数字助理和网络产

品等场合。

Xscale 处理器是以前Intel主要推广的一款ARM微处理器.但在2006年11月8日，Marvell完成了对英特尔公司手机和应用处理器业务部门的收购。

根据该项收购协议，英特尔将在2008年6月前为Marvell制造和供应芯片.

ARMv7的Cortex系列微处理器

2008-12-0713:

10:

11| 分类：

arm|字号订阅

ARMCortex系列的三款产品全都集成了Thumb®-2指令集，可满足各种不同的日益增长的市场需求。

ARMCortex系列的三款处理器：

ARMCortex-A系列:

针对复杂操作系统以及用户应用设计的应用处理器

ARMCortex-R系列:

实时系统专用嵌入式处理器

ARMCortex-M系列:

针对微控制器和低成本应用专门优化的深嵌入式处理器

在arm的官网上有最新的Cortex核介绍

ARMCortex-A9MPCore

ARMCortex-A8

下面引自刁智华的《ARMv7的Cortex系列微处理器技术特点》，介绍了Cortex-M3、Cortex-R4和Cortex-A8

/**************************************************************************************************************************************/

引言

　　Cortex系列处理器是基于ARMv7架构的，分为Cortex-M、Cortex-R和Cortex-A三类。

ARM系列微处理器的核心及体系结构如表1所列。

　　1ARMCortex处理器技术特点

　　ARMv7架构是在ARMv6架构的基础上诞生的。

该架构采用了Thumb-2技术，它是在ARM的Thumb代码压缩技术的基础上发展起来的，并且保持了对现存ARM解决方案的完整的代码兼容性。

Thumb-2技术比纯32位代码少使用31％的内存，减小了系统开销。

　　同时能够提供比已有的基于Thumb技术的解决方案高出38％的性能。

ARMv7架构还采用了NEON技术，将DSP和媒体处理能力提高了近4倍，并支持改良的浮点运算，满足下一代3D图形、游戏物理应用以及传统嵌入式控制应用的需求。

此外，ARMv7还支持改良的运行环境，以迎合不断增加的JIT（JustInTime）和DAC（DynamicAdaptiveCompilation）技术的使用。

　　在与早期的ARM处理器软件兼容性方面，ARMv7架构在设计时充分考虑到了。

ARMCortex-M系列支持Thumb-2指令集（Thumb指令集的扩展集），可以执行所有已存的为早期处理器编写的代码。

通过一个前向的转换方式，为ARMCortex-M系列处理器所写的用户代码可以与ARMCortex-R系列微处理器完全兼容。

　　ARMCortex-M系列系统代码（如实时操作系统）可以很容易地移植到基于ARMCortex-R系列的系统上。

ARMCortex-A和Cortex-R系列处理器还支持ARM32位指令集，向后完全兼容早期的ARM处理器，包括从1995年发布的ARM7TDMI处理器到2002年发布的ARMll处理器系列。

图1为v5～v7架构的处理器技术比较。

由于应用领域的不同，基于v7架构的Cortex处理器系列所采用的技术也不相同。

　　在命名方式上，基于ARMv7架构的ARM处理器已经不再延用过去的数字命名方式，而是冠以Cortex的代号。

基于v7A的称为"Cortex-A系列"，基于v7R的称为"Cortex-R系列"，基于v7M的称为"Cortex-M3"。

　　2ARMCortex-M3处理器技术特点

　　ARMCortex-M3处理器是为存储器和处理器的尺寸对产品成本影响极大的各种应用专门开发设计的，其结构如图2所示。

它整合了多种技术，减少使用内存，并在极小的RISC内核上提供低功耗和高性能，可实现由以往的代码向32位微控制器的快速移植。

ARMCortex-M3处理器是使用最少门数的ARMCPU，相对于过去的设计大大减小了芯片面积，可减小装置的体积或采用更低成本的工艺进行生产，仅33000门的内核性能可达1.2DMIPS／MHz。

此外，基本系统外设还具备高度集成化特点，集成了许多紧耦合系统外设，合理利用了芯片空间，使系统满足下一代产品的控制需求。

　　ARMCortex-M3处理器结合了执行Thumb-2指令的32位哈佛微体系结构和系统外设，包括NestedVec-toredInterruptController和Arbiter总线。

该技术方案在测试和实例应用中表现出较高的性能：

在台机电180nm工艺下，芯片性能达1.2DMIPS／MHz，时钟频率高达100MHz。

Cortex-M3处理器还实现了Tail-Chaining中断技术。

该技术是一项完全基于硬件的中断处理技术，最多可减少12个时钟周期数，在实际应用中可减少70％中断；推出了新的单线调试技术，避免使用多引脚进行JTAG调试，并全面支持RealView编译器和RealView调试产品。

RealView工具向设计者提供模拟、创建虚拟模型、编译软件、调试、验证和测试基于ARMv7架构的系统等功能。

　　为微控制器应用而开发的Cortex-M3拥有以下性能：

　　实现单周期Flash应用最优化；

　　准确快速地中断处理，永不超过12周期，仅6周期tail-chaining（末尾连锁）；

　　有低功耗时钟门控（ClockCating）的3种睡眠模式；

　　单周期乘法和乘法累加指令；

　　ARMThumb-2混合的16／32位同有指令集，无模式转换；

　　包括数据观察点和Flash补丁在内的高级调试功能；

　　原子位操作，在一个单一指令中读取／修改／编写；

　　1.25DMIPS／MHz（与O.9DMIPS／MHz的ARM7和1.1DMIPS／MHz的ARM9相比）。

　　3ARMCortex-R处理器技术特点

　　ARMCortex-R系列处理器目前包括ARMCortex-R4和ARMCortex-R4F两个型号，主要适用于实时系统的嵌入式处理器。

　　3.1ARMCortex-R4处理器技术特点

　　Cortex-R4处理器结构如图3所示。

该处理器支持手机、硬盘、打印机及汽车电子设计，能协助新一代嵌入式产品快速执行各种复杂的控制算法与实时工作的运算；可通过内存保护单元（MPU，MemoryProtectionUnit）、高速缓存以及紧密耦合内存（TCM，TightlyCoupledMemory）让处理器针对各种不同的嵌入式应用进行最佳化调整，且不影响基本的ARM指令集兼容性。

这种设计能够在延用原有程序代码的情况下，降低系统的成本与复杂度，同时其紧密耦合内存功能也能提供更小的规格及更高效率的整合，并带来快速的响应时间。

　　Cortex-R4处理器采用ARMv7体系结构，让它能与现有的程序维持完全的回溯兼容性，能支持现今建立在全球各地数十亿的系统；并已针对Thumb-2指令进行最佳化设计。

此项特性带来很多的利益，其中包括：

更低的时钟速度所带来的省电效益；更高的性能将各种多功能特色带人移动电话与汽车产品的设计；更复杂的算法支持更高性能的数码影像与内建硬盘的系统。

运用Thumb-2指令集，加上RealView开发套件，使芯片内部存储器的容量最多得以降低30％，大幅降低系统成本，其速度比在ARM946E-S处理器所使用的Thumb指令集高出40％。

由于存储器在芯片中的占用空间愈来愈多，因此这项设计将大幅节省芯片容量，让芯片制造商运用这款处理器开发各种SoC（SystemonaChip）器件。

　　相比于前几代的处理器，Cortex-R4处理器高效率的设计方案，使其能以更低的时钟达到更高的性能；经过最佳化设计的ArtisanMetro内存，则进一步降低嵌入式系统的体积与成本。

处理器搭载一个先进的微架构，具备双指令发送功能，采用90nm工艺并搭配ArtisanAdvantage程序库的组件，底面积不到1mm2，耗电量低于0.27mW／MHz，并能提供超过600DMIPS的性能。

　　Cortex-R4处理器在各种安全应用上加入容错功能和内存保护机制，支持最新版OSEK实时操作系统；支持RealViewDevelop系列软件开发工具、RealViewCreate系列ESL工具与模块，以及CoreSight除错与追踪技术，协助设计者迅速开发各种嵌入式系统。

　　3.2ARMCortex-R4F处理器技术特点

　　Cortex-R4F处理器结构如图4所示。

该处理器拥有针对汽车市场而开发的各项先进功能，包括自动除错功能、可相互连结的错误侦测机制，以及可选择优化的浮点运算单元（FPU，Floating-PointUnit）。

ECC技术能监控内存存取作业，侦测并校正各种错误。

当发生内存错误时，ECC逻辑除通报错误并停止系统运作外，还会加以校正。

　　它还拥有Cortex-R4系列的各项先进功能，能够透过高效能内存保护单元、高速缓存，以及紧密耦合内存，使处理器能针对各种不同的应用进行最佳化调整；同时将传统处理器中的错误侦测功能延伸至整个SoC中，系统会不断地扫描先前侦错的资料，以提升系统的可靠度。

基于对安全性能的重视，Cortex-R4F处理器特别搭载了高分辨率内存保护机制，能严密控制独立的软件作业。

　　Cortex-R4F处理器中执行浮点运算的FPU，提供胜过固定小数点操作数的动态范围及精准度。

该FPU与ARM其他处理器核心之间的FPU均维持回溯兼容性，并针对各种汽车应用常见的单精度处理作业进行优化。

使用单倍精度格式，而非双倍精度的数值资料，不仅能将数据处理速度提升至2倍，更能维持必要的精度以提高SoC设计的效率。

　　Cortex-R4F处理器采用一套具备双指令发送功能的先进微架构，透过ARMArtisanAdvantage程序库中针对90

展开阅读全文