DSP芯片的基本结构和特征Word文件下载.docx

上传人:b****2 文档编号:616548 上传时间:2023-04-29 格式:DOCX 页数:40 大小:72.86KB
下载 相关 举报
DSP芯片的基本结构和特征Word文件下载.docx_第1页
第1页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第2页
第2页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第3页
第3页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第4页
第4页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第5页
第5页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第6页
第6页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第7页
第7页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第8页
第8页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第9页
第9页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第10页
第10页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第11页
第11页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第12页
第12页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第13页
第13页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第14页
第14页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第15页
第15页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第16页
第16页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第17页
第17页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第18页
第18页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第19页
第19页 / 共40页
DSP芯片的基本结构和特征Word文件下载.docx_第20页
第20页 / 共40页
亲,该文档总共40页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

DSP芯片的基本结构和特征Word文件下载.docx

《DSP芯片的基本结构和特征Word文件下载.docx》由会员分享,可在线阅读,更多相关《DSP芯片的基本结构和特征Word文件下载.docx(40页珍藏版)》请在冰点文库上搜索。

DSP芯片的基本结构和特征Word文件下载.docx

在每个指令周期,三个不同的指令处于激活状态,每个指令处于不同的阶段。

例如,在第N个指令取指时,前一个指令即第N-1个指令正在译码,而第N-2个指令则正在执行。

一般来说,流水线对用户是透明的。

2.2.3专用的硬件乘法器

在一般形式的FIR滤波器中,乘法是DSP的重要组成部分。

对每个滤波器抽头,必须做一次乘法和一次加法。

乘法速度越快,DSP处理器的性能就越高。

在通用的微处理器中,乘法指令是由一系列加法来实现的,故需许多个指令周期来完成。

相比而言,DSP芯片的特征就是有一个专用的硬件乘法器。

在TMS320系列中,由于具有专用的硬件乘法器,乘法可在一个指令周期完成。

从最早的TMS32010实现FIR的每个抽头算法可以看出,滤波器每个抽头需要一条乘法指令MPY:

LT;

装乘数到T寄存器

DMOV;

在存储器中移动数据以实现延迟

MPY;

相乘

APAC;

将乘法结果加到ACC中

其他三条指令用来将乘数装入到乘法器电路(LT),移动数据(DMOV)以及将乘法结果(存在乘积寄存器P中)加到ACC中(APAC)。

因此,若采用256抽头的FIR滤波器,这四条指令必须重复执行256次,且256次乘法必须在一个抽样间隔完成。

在典型的通用微处理器中,每个抽头需要30~40个指令周期,而TMS32010只需4条指令。

如果采用特殊的DSP指令或采用TMS320C54X等新一代的DSP芯片,可进一步降低FIR抽头的计算时间。

2.2.4特殊的DSP指令

DSP芯片的另一个特征是采用特殊的指令。

2.2.3节中介绍的DMOV就是一个特殊的DSP指令,它完成数据移位功能。

在数字信号处理中,延迟操作非常重要,这个延迟就是由DMOV来实现的。

TMS32010中的另一个特殊指令是LTD,它在一个指令周期完成LT、DMOV和APAC三条指令。

LTD和MPY指令可以将FIR滤波器抽头计算从4条指令降为2条指令。

在第二代处理器中,如TMS320C25,增加了2条更特殊的指令,即RPT和MACD指令,采用这2条特殊指令,可以进一步将每个抽头的运算指令数从2条降为1条:

RPTK255;

重复执行下条指令256次

MACD;

LT,DMOV,MPY及APAC

2.2.5快速的指令周期

哈佛结构、流水线操作、专用的硬件乘法器、特殊的DSP指令再加上集成电路的优化设计,可使DSP芯片的指令周期在200ns以下。

TMS320系列处理器的指令周期已经从第一代的200ns降低至现在的20ns以下。

快速的指令周期使得DSP芯片能够实时实现许多DSP应用。

2.3TI定点DSP芯片

自1982年TI推出第一个定点DSP芯片TMS32010以来,TI的定点DSP芯片已经经历了TMS320C1X、TMS320C2X/C2XX、TMS320C5X、TMS320C54X、TMS320C62X等几代产品,产品的性能价格比不断提高,应用越来越广泛。

下面分别介绍这些芯片的主要特征。

2.3.1TMS320C1X

2.3.1.1基本特点

第一代TMS320系列DSP芯片包括:

TMS32010、TMS32011、TMS320C10、TMS320C15/E15和TMS320C17/E17。

其中,TMS32010和TMS32011采用2.4μm的NMOS工艺,而其他几种则采用1.8μmCMOS工艺。

这些芯片的典型工作频率为20MHz。

TMS320第一代DSP芯片的主要特点如下:

指令周期:

160ns/200ns/280ns

片RAM:

144字/256字(TMS320C15/E15/C17/E17)

片ROM:

1.5K字/4K字(TMS320C15/C17)

4K字片程序EPROM(TMS320E15/E17)

4K字外部全速存储器扩展

并行乘法器:

乘积为32位

桶形移位器:

将数据从存储器移到ALU

并行移位器

允许文本交换的4×

12位堆栈

两个间接寻址的辅助寄存器

双通道串行口(TMS32011,TMS320C17/E17)

片压扩硬件(TMS32011,TMS320C17/E17)

协处理器接口(TMS320C17/E17)

器件封装:

40脚双列直插(DIP)/44脚塑封(PLCC)

2.3.1.2TMS320C10

TMS320DSP芯片的第一代产品是基于TMS32010和它的CMOS版本TMS320C10的结构。

TMS32010于1982年推出,是第一个能够达到5个MIPS的微处理器。

TMS32010采用改进的哈佛结构,即程序和数据空间相互独立。

程序存储器可在片(1.5K字)或片外(4K字)。

片数据RAM为144字。

有四个基本的算术单元:

算术逻辑单元(ALU)、累加器(ACC)、乘法器和移位器。

(1)ALU:

32位数据操作的通用算术逻辑单元。

ALU可进行加、减和逻辑运算;

(2)ACC:

累加器存储ALU的输出,也是ALU的一个输入。

它采用32位字长操作,分高16位和低16位两部分。

处理器提供高16位和低16位的专门指令:

SACH(高16位)和SACL(低16位);

(3)乘法器:

16×

16位并行乘法器由三个单元组成:

T寄存器、P寄存器和乘法器阵列。

T寄存器存储被乘数,P寄存器存储32位乘积。

为了使用乘法器,被乘数首先必须从数据RAM中装入到T寄存器,可用LT、LTA和LTD指令。

然后执行MPY(乘)或MPYK(乘立即数)指令。

乘和累加器操作可用LTA、LTD和MPY、MPYK指令在两个指令周期完成;

(4)移位器:

有两个移位器可用于数据移位。

一个是桶形移位器,另一个是并行移位器。

桶形移位器又称定标移位器。

当数据存储器的数据送入累加器或与累加器中的数据进行运算时,先通过这个移位器进行0~16位左移,然后再进行运算。

并行移位器即输出移位器,其作用是将累加器中的数据左移0、1或4位后再送入数据存储器中,以实现小数运算或小数乘积的调整。

在TMS32010/C10基础上又派生了多个处理器,它们可提供不同的处理器速度、存储器扩展和各种I/O集成。

2.3.1.3TMS320C1X的其他芯片

1.TMS320C15/E15

TMS320C15/E15与TMS32010的代码和管脚全兼容,提供256字的片RAM和4K字的片ROM(C15)或EPROM(E15)。

TMS320C15的指令周期有200ns和160ns(TMS320C15-25)两种。

2.TMS320C17/E17

TMS320C17/E17是一个专用的微处理器。

它有4K字的片程序ROM(C17)或EPROM(E17),一个全双工串行通信的双通道串行口,片硬件压扩器(μ律/A律),一个用于串行通信的串行口定时器,及一个协处理器接口。

协处理器接口可以在处理器和4/8/16位微处理器之间提供直接接口。

TMS320C17/E17与TMS32010目标代码兼容,且可用相同的开发工具。

该处理器是基于TMS320C10的CPU核,外加片的外设存储器和I/O模块。

TMS320C17/E17可认为是半定制的DSP芯片。

表2.1是TMS320第一代产品的比较表。

表2.1TMS320第一代处理器

DSP芯片

指令周期

(ns)

制造工艺

片程序ROM(字)

片程序EPROM(字)

片数据RAM(字)

片外程序(字)

TMS32010

200

NMOS

1.5K

144

4K

TMS32010-25

160

TMS32010-14

280

TMS32011

TMS320C10

CMOS

TMS320C10-25

TMS320C15

256

TMS320C15-25

TMS320E15

TMS320C17

TMS320C17-25

TMS320E17

2.3.2TMS320C2X

第二代TMS320DSP芯片包括TMS32020、TMS320C25/E25、TMS320C26及TMS320C28。

在这些芯片中,TMS32020是一个过渡的产品,其指令周期为200ns,与TMS32010相当,而其硬件结构则与TMS320C25一致。

在第二代DSP芯片中,TMS320C25是一个典型的代表,其他芯片都是由TMS320C25派生出来的。

其中TMS320E25将部4K字的ROM改为EPROM;

TMS320C26去掉了部的4K字ROM,而将片RAM增加到1.5K字;

TMS320C28则将部ROM增加到8K字。

由于TMS320C25的典型性,下面就讨论TMS320C25的基本特征和结构。

2.3.2.1TMS320C25的基本特征

TMS320C25:

100ns,TMS320C25-33:

120ns,TMS320C25-50:

80ns

片掩膜ROM:

4K字

544字,分B0、B1和B2三块

程序和数据空间均为64K字

具有8级硬件堆栈、8个辅助寄存器

具有全静态双缓冲串行口,可与许多串行器件直接接口

与低速片外存储器通信的等待状态插入

采用HOLD操作的DMA

FFT变换用的比特反转寻址

扩展精度算术和自适应滤波支持

从外部存储器全速执行的MAC/MACD指令

具有在多处理器之间进行同步的能力,支持多处理器共享存储器

1.8μmCMOS工艺,68脚PGA或PLCC封装

2.3.2.2TMS320C25的结构

TMS320C25是第二代TMS320中与TMS32020管脚全兼容的CMOS版本,但指令执行速度是TMS32020的2倍,且增加了硬件和软件资源。

指令集是TMS32010和TMS32020的超集,在源代码级与它们兼容。

此外,在代码级与TMS32020兼容,因此,TMS32020的程序可不用修改直接在TMS320C25上运行。

100ns的指令周期可提供较强的运算能力。

由于大部分指令在一个指令周期执行,处理器在1秒可执行1000万条指令(10MIPS)。

运算能力的增加主要得益于乘累加指令(MAC)和带数据移位的乘累加指令(MACD)、具有专用算术单元的8个辅助寄存器、适合于自适应滤波和扩展精度运算的指令集支持、比特反转寻址、快速的I/O支持等。

指令集中提供在两个存储空间中进行数据移动的指令。

在外部,程序和数据存储空间在同一总线上复用,从而使得在尽量减少芯片引脚的情况下最大程度地扩大两个空间的地址围。

在部,TMS320C25结构通过保持程序和数据总线结构分离以使指令全速执行来获得最大的处理能力。

芯片部的程序执行采用三级流水线形式。

流水线对用户来说是透明的。

但是,在某些情况下流水线可能被打断(如跳转指令),在这种情况下,指令执行时间要考虑流水线必须清空和重新填充。

两块大的片RAM在系统设计时提供了很大的灵活性,其中一块既可配置为程序存储器也可配置为数据存储器。

片外64K字的数据空间可直接寻址,从而使DSP算法实现更为方便。

片4K字的掩膜ROM可用来降低系统成本,若程序不超过4K字,可使TMS320C25不用扩展片外程序存储器。

剩下的64K字程序空间在片外,大量的程序可在片外存储器中全速运行。

程序也可从片外慢速EPROM中装入到片高速RAM中全速运行。

此外,还有硬件定时器、串行口和数据块搬移功能。

下面介绍TMS320C25的存储器分配、中央算术逻辑单元(CALU)、硬件乘法器、控制操作、串行口和I/O接口。

1.存储器分配

TMS320C25具有4K字的片程序ROM和544字的片RAM。

RAM分为三块:

B0、B1、B2。

其中,B0块(256字)既可配置为数据存储器(用CNFD指令),也可配置为程序存储器(用CNFP指令)。

其余288字(B1和B2块)只能是数据存储器。

544字的片RAM可使C25能处理512字的数据阵列,如可进行256点复数FFT运算,且尚有32字用作中间结果的暂存。

TMS320C25提供片外可直接寻址的程序和数据空间各64K字。

寄存器组包含8个辅助寄存器(AR0~AR7),它们可用作数据存储器的间接寻址和暂存,从而增加芯片的灵活性和效率。

这些寄存器既可用指令直接寻址,也可用3比特的辅助寄存器指针(ARP)间接寻址。

辅助寄存器和ARP既可从数据存储器装数,也可装入立即数。

寄存器的容也可存入数据存储器中。

辅助寄存器组与辅助寄存器算术单元(ARAU)相连接,用ARAU访问信息表无需CALU参与地址操作,这样可让CALU进行其他操作。

2.中央算术逻辑单元

CALU包含一个16位的定标移位器(Scaling),一个16×

16位的并行乘法器,一个32位的累加器和一个32位的算术逻辑单元(ALU)。

移位器根据指令要求提供0到16位的数据左移。

累加器和乘法器输出端的移位器适合于数值的归一化、比特提取、扩展精度算术和溢出保护。

典型的ALU指令实现包含以下三步:

(1)数据在数据总线上从RAM中获取;

(2)数据移交给完成算术运算的定标移位器和ALU;

(3)结果送回累加器。

32位累加器可分为2个16位以进行数据存储:

SACH(高16位)和ACCL(低16位)。

累加器有一个进位位可方便加法和减法的多精度运算。

3.硬件乘法器

TMS320C25具有一个16×

16位的硬件乘法器,它能在一个指令周期计算一个32位乘积。

有两个寄存器与乘法器相关:

①16位暂存寄存器TR,用于保存乘法器的一个操作数;

②32位乘积寄存器PR,用于保存乘积。

乘积寄存器的输出可左移1位或4位,这对于实现小数算术运算或调整小数乘积很有用。

PR的输出也可右移6位,这样可连续执行128次乘/加而无溢出。

无符号乘(MPYU)指令可方便扩展精度乘法。

4.I/O接口

I/O空间由16个输入口和16个输出口组成。

这些口可提供全16位并行I/O接口。

输入(IN)和输出(OUT)操作典型的是2个周期,但若用重复指令,可变成单周期指令。

I/O器件映射到I/O地址空间,其方式与存储器映射方式相同。

与不同速度的存储器或I/O器件接口采用READY线完成。

TMS320C25也支持外部程序/数据存储器的DMA,其他处理器通过置HOLD\为低后可完全控制TMS320C25的外部存储器,使C25将其地址、数据和控制线呈高阻状态。

外部处理器和C25的通信可通过中断来完成。

TMS320C25芯片提供两种DMA方式,一种是加上HOLD后停止执行;

另一种是C25继续执行,但执行是在片ROM和RAM中进行,这可大大提高性能。

2.3.2.3TMS320C25的软件

TMS320C25的指令总共有133条,其中97条是单周期指令。

在另外36条指令中,21条包括跳转、调用、返回等,这些指令需重新装入程序计数器,使执行流水线中断。

另外7条指令是双字和长立即数指令。

剩下的8条指令(IN,OUT,BLKD,BLKP,TBLR,TBLW,MAC,MACD)支持I/O操作、存储器之间的数据交换或提供处理器部额外的并行操作,而且这8条指令与重复计数器配合使用时可成为单周期指令。

这主要利用了处理器的并行机制,使得复杂的计算可用很少的几条指令来完成。

由于大多数指令用单16位字编码,故可在一个周期完成。

存储器寻址方式有三种:

直接寻址、间接寻址和立即数寻址。

直接寻址和间接寻址都用来访问数据存储器,立即数寻址利用由程序计数器确定的存储器容。

使用直接寻址方式时,指令字的7位和9位数据存储器页指针(DP)构成16位的数据存储器地址。

其中,每页长128字,共有512页,故可寻址64K的数据空间。

间接寻址借助于8个辅助寄存器(AR0~AR7)。

表2.2列出了7种间接寻址方式。

其中的比特反转寻址可大大提高FFT运算的I/O效率。

其中,OP表示某种运算,NARP表示新的ARP。

表2.2TMS320C25的寻址方式

寻址方式

操作

OPA

直接寻址

OP*(,NARP)

间接寻址;

AR不变

OP*+(,NARP)

当前AR加1

OP*-(,NARP)

当前AR减1

OP*0+(,NARP)

AR0加到当前AR

OP*0-(,NARP)

当前AR减去AR0

OP*BR0+(,NARP)

AR0加到AR()

OP*BR0-(,NARP)

当前AR减去AR0()

2.3.3TMS320C5X

TMS320C5X是TI公司的第五代产品,是继TMS320C1X和TMS320C2X之后的第三代定点DSP处理器。

它的核心中央处理器(CPU)以TMS320C25的核心CPU为基础,增强型结构大幅度地提高了整体性能。

TMS320C5X工作速度是TMS320C25的2倍以上,对于TMS320C1X和TMS320C2X具有源代码向上兼容特性。

这种兼容性保留了过去开发的软件,便于系统升级到更高性能的DSP系统。

TMS320C5X系列有TMS320C50/C51/C52/C53等多种产品,它们的主要区别是片RAM、ROM等资源的多少,如TMS320C50部具有10K字RAM和2K字ROM,其中2K字ROM已经固化了引导程序;

TMS320C51部具有2K字RAM和8K字ROM;

TMS320C52部具有1K字RAM和4K字ROM,减少了一个串行口;

TMS320C53部则有4K字RAM和16K字ROM。

芯片的其他性能则是完全相同的。

下面以TMS320C50为例介绍TMS320C5XDSP芯片。

2.3.3.1TMS320C50的基本特征

TMS320C50的主要特点包括:

25/35/50ns的指令周期(20~40MIPS)

224K×

16位最大可寻址外部存储空间(64K程序、64K数据、64KI/O、32K全局)

算术逻辑单元(ALU),32位累加器(ACC)以及32位加法器的缓冲器(ACCB)

并行逻辑单元(PLU)

结果具有32位的16×

16位并行乘法器

单周期乘累加指令

具有一个专用算术单元的8个辅助寄存器,可用于间接寻址

8级硬件堆栈

0~16位数据左移和右移

两个间接寻址的循环缓冲器,用于循环寻址

程序代码的单指令重复和程序块重复

全双工同步串行口,用于完成TMS320C5X与其他串行器件之间的直接通信

时分多址访问(TDM)串行口

部定时器,可用软件控制

64K并行I/O口,其中16个有存储器映像

可软件编程的等待状态发生器

扩展保持操作,用于并发外部DMA

四级流水线操作,用于延迟跳转、调用、返回指令

比特反转寻址方式,用于FFT运算

JTAG扫描仿真接口(IEEE标准,P1149.1)

1.核心CPU

TMS320C5XCPU的增强功能在提高性能和通用性的同时,保持了对TMS320C1X和TMS320C2X源代码的兼容性。

硬件的改进包括:

一个32位累加器缓冲器,附加定标能力,利用附加硬件功能的新指令。

新的控制功能包括:

独立的并行逻辑单元(PLU)和一组文本交换寄存器。

数据管理方面的改进包括:

采用新的块搬移指令和存储器映像寄存器指令。

TMS320C50有28个存储器映像寄存器和16个存储器映像的I/O口。

2.片ROM

TMS320C50拥有2K×

16位掩蔽ROM,部固化了引导程序。

该存储器把程序从外部ROM/EPROM、串行口或并行I/O口引导至运行速度较快的SRAM中。

这块引导ROM可通过PMST状态寄存器中的MP/MC\位从程序存储空间去除。

如果该ROM未选,则TMS320C50由片外存储器启动执行。

3.片数据RAM

TMS320C50具有1056字的片RAM,这块RAM可在每个机器周期访问两次(双寻址RAM),只要两次访问不是“写”操作。

这块存储空间主要用于存储数据,但是如果需要也可用于存储程序和数据。

其配置有两种方式:

所有的1056字都作为数据存储区,或者将其中的544字作为数据存储器,512字作为程序存储区。

可通过状态寄存器ST1中的CNF位选择设置。

4.片程序/数据RAM

TMS320C50还具有9K字的片RAM。

这一存储区可以由软件设置映射到程序或数据存储空间。

程序从片外存储器引导后,可装入到该存储区全速运行。

5.片存储器安全

TMS320C50可以通

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2