后端流程初学必看DOC.docx

资源描述

后端流程初学必看DOC.docx

《后端流程初学必看DOC.docx》由会员分享，可在线阅读，更多相关《后端流程初学必看DOC.docx（48页珍藏版）》请在冰点文库上搜索。

后端流程初学必看DOC.docx

后端流程初学必看DOC

基本后端流程（漂流&雪拧）

-----2010/7/3---2010/7/8

本教程将通过一个8*8的乘法器来进行一个从verilog代码到版图的整个流程（当然只是基本流程，因为真正一个大型的设计不是那么简单就完成的），此教程的目的就是为了让大家尽快了解数字IC设计的大概流程，为以后学习建立一个基础。

此教程只是本人探索实验的结果，并不代表内容都是正确的，只是为了说明大概的流程，里面一定还有很多未完善并且有错误的地方，我在今后的学习当中会对其逐一完善和修正。

此后端流程大致包括一下内容：

1.逻辑综合（逻辑综合是干吗的就不用解释了把？

）

2.设计的形式验证（工具formality）

形式验证就是功能验证，主要验证流程中的各个阶段的代码功能是否一致，包括综合前RTL代码和综合后网表的验证，因为如今IC设计的规模越来越大，如果对门级网表进行动态仿真的话，会花费较长的时间（规模大的话甚至要数星期），这对于一个对时间要求严格的asic设计来说是不可容忍的，而形式验证只用几小时即可完成一个大型的验证。

另外，因为版图后做了时钟树综合，时钟树的插入意味着进入布图工具的原来的网表已经被修改了，所以有必要验证与原来的网表是否逻辑等价。

3.静态时序分析（STA），某种程度上来说，STA是ASIC设计中最重要的步骤，使用primetime对整个设计布图前的静态时序分析，没有时序违规，则进入下一步，否则重新进行综合。

（PR后也需作signoff的时序分析）

4.使用cadence公司的SOCencounter对综合后的网表进行自动布局布线（APR）

5.自动布局以后得到具体的延时信息（sdf文件，由寄生RC和互联RC所组成）反标注到网表，再做静态时序分析，与综合类似，静态时序分析是一个迭代的过程，它与芯片布局布线的联系非常紧密，这个操作通常是需要执行许多次才能满足时序需求，如果没违规，则进入下一步。

6.APR后的门级功能仿真（如果需要）

7.进行DRC和LVS，如果通过，则进入下一步。

8.用abstract对此8*8乘法器进行抽取，产生一个lef文件，相当于一个hardmacro。

9.将此macro作为一个模块在另外一个top设计中进行调用。

10.设计一个新的ASIC,第二次设计，我们需要添加PAD，因为没有PAD，就不是一个完整的芯片，具体操作下面会说。

11.重复第4到7步

1.逻辑综合

1）设计的8*8verilog代码如下

modulemux（clk,clr,data1,data2,dataout）;

inputclk,clr;

input[7:

0]data1,data2;

outputreg[15:

0]dataout;

always@（posedgeclk）

begin

if（!

clr）

begin

dataout<=0;

end

else

begin

dataout<=data1*data2;

end

endmodule

2）综合之前，我们要选取库，写好约束条件，修改dc的启动文件synopsys_dc.setup，目标库选择TSMC（此设计都是用TSMC18的库）的typical.db。

（选择max库会比较好）

Dc的命令众多，但是最基本的命令差不多，此设计的约束文件命令如下：

create_clock-period10[get_portsclk]//用于时钟的创建

set_clock_latency-source-max0.2[get_portsclk]//外部时钟到core的clk连线延时

set_clock_latency-max0.1[get_portsclk]//core的clk到寄存器clk端的net连线延时

set_clock_uncertainty-setup2[get_portsclk]//时钟延时的不确定性，求setup违规时会被计算进去

set_clock_uncertainty–hold1【all_clocks】

set_input_delay-max0.5-clockclk[get_ports[list[remove_from_coll[all_inputs]clk]]//输入延时，外部信号到input端的连线延时

set_output_delay-max0.5-clockclk[all_outputs]//输出延时

set_driving_cell-lib_cellINVX4[all_inputs]//输入端的驱动强度

set_load-pin_load0.0659726[all_outputs]//输出端的驱动力

set_wire_load_model-nametsmc18_wl10-librarytypical//内部net的连线模型

set_wire_load_modeenclosed//定义建模连线负载相关模式

set_max_area0

compile

report_timing

report_constraint

change_names-ruleverilog–hier

set_fix_multiple_ports_net–all

write-formatverilog-hier-outputmux.sv//输出网表，自动布局布线需要

write-formatddc-hier-outputmux.ddc//输出ddc

write_sdfmux.sdf//输出延时文件，静态时序分析时需要

write_sdcmux.sdc//输出约束信息，自动布局布线需要

3）逻辑综合

启动design_vision。

Read->mux.v

输入约束文件。

File->excutescript->verti.con

之后会产生mux.sv,mux.sdc,mux.sdf,mux.ddc等文件

4）时序分析

综合以后我们需要分析一下时序，看时序是否符合我们的要求，综合实际上是一个setup时间的满足过程，但是我们综合的时候，连线的负载只是库提供的（即上面的wire_load），并不是实际的延时，所以一般做完综合以后，时间余量（slack）应该为时钟的30%（经验值），以便为后面实际布局布线留下充足的延时空间。

因为如果slack太小，甚至接近于0，虽然我们看起来是没有时序违规的，但是实际布局以后，时序肯定无法满足。

使用report_timing命令，可以查看时序分析报告：

****************************************

Report:

timing

-pathfull

-delaymax

-max_paths1

-sort_bygroup

Design:

mux

Version:

D-2010.03-SP1

Date:

FriJul212:

29:

442010

****************************************

OperatingConditions:

typicalLibrary:

typical（模型库）

WireLoadModelMode:

enclosed

Startpoint:

data2[4]（inputportclockedbyclk）

Endpoint:

dataout_reg_15_

（risingedge-triggeredflip-flopclockedbyclk）

PathGroup:

clk

PathType:

max

Des/Clust/PortWireLoadModelLibrary

------------------------------------------------

muxtsmc18_wl10typical（线载模型及库）

PointIncrPath

--------------------------------------------------------------------------

clockclk（riseedge）0.000.00

clocknetworkdelay（ideal）0.000.00

inputexternaldelay0.500.50f

data2[4]（in）0.010.51f

mult_14/b[4]（mux_DW_mult_uns_0）0.000.51f

mult_14/U131/Y（INVX1）0.541.05r

mult_14/U161/Y（NOR2X1）0.141.18f

mult_14/U39/S（CMPR42X1）0.681.87f

mult_14/U12/CO（ADDFX2）0.322.19f

mult_14/U11/CO（ADDFX2）0.232.42f

mult_14/U10/CO（ADDFX2）0.232.65f

mult_14/U9/CO（ADDFX2）0.232.88f

mult_14/U8/CO（ADDFX2）0.233.10f

mult_14/U7/CO（ADDFX2）0.233.33f

mult_14/U6/CO（ADDFX2）0.233.56f

mult_14/U5/CO（ADDFX2）0.233.79f

mult_14/U4/CO（ADDFX2）0.234.02f

mult_14/U3/CO（ADDFX2）0.234.25f

mult_14/U2/CO（ADDFX2）0.224.47f

mult_14/product[15]（mux_DW_mult_uns_0）0.004.47f

dataout_reg_15_/RN（DFFTRXL）0.004.47f

dataarrivaltime4.47

clockclk（riseedge）10.0010.00

clocknetworkdelay（ideal）0.3010.30

clockuncertainty-0.1010.20

dataout_reg_15_/CK（DFFTRXL）0.0010.20r

librarysetuptime-0.1910.01

datarequiredtime10.01

--------------------------------------------------------------------------

datarequiredtime10.01

dataarrivaltime-4.47

--------------------------------------------------------------------------

slack（MET）5.55

我们来看以上报告，dc报告的时候会显示出关键路径，即延时最大的路径，时序分析包括两段，前面一段是信号的延迟时间，即dataarrivaltime为4.47，下面是计算要求时间，也即相对于时钟，设计所能忍受的最大延时，由于到达寄存器clk端延时，即clocknetworkdelay，所以设计增加了0.30的余量，同样由于时钟的不确定度（可能提前也可能延后0.1），我们取最坏情况，就是时钟超前0.1，则时间余量减去0.1，最后一个是门的建立时间要求，是0.19，最后得到数据的要求时间。

Slack是要求时间减去到达时间的差值，slack越大越好。

越大说明留给布局布线的时序越宽松。

从报告中我们看出，时序余量为5.55，说明时序达到了要求，足够满足我们以后布局布线的时序要求。

当然，我们有专门的时序分析工具，primetime，下面会稍微介绍。

2.形式验证

1）怎么保证综合前和综合后的网表逻辑功能是一致的呢，对门级网表进行动态仿真，又太浪费时间，于是，一款强大的验证工具formality，给了我们很好的帮助。

2）形式验证数据准备：

综合前RTL代码，综合后的网表，综合所用到的库。

3）验证过程如下：

1.首先我们打开formality，命令为fm_shell（命令行界面），formality（图形界面）。

初学者一般使用图形界面，使用图形界面的时候，工具会自动产生一个log文件，记录命令，我们可以将这个文件内容做一个fms格式，这样在下次验证的时候可以使用命令界面。

2.打开formality如下

第一步：

首先我们加入原RTL代码，reference->read_designfile->verilog->mux.v，选择好以后loadfile

第二步：

然后选择库，没加库之前，FM会自动加载与工艺无关的库，所以我们要自己把自己的目标库加上去，reference->readDBlibarary->DB，选择typical.db

第三步：

设置top名reference->settopdesign我们选择mux为top名

同样的方法对网表进行设置（第二个菜单栏implementation）

然后转到第四栏，点击runmatching

最后转到第五栏，verify，如果网表无错，会显示验证通过。

3静态时序分析

静态时序分析主要针对大型ASIC设计，

4自动布局布线

1）数据准备

第一：

需要综合后的网表以及时序约束文件mux.sv,mux.sdc

第二：

需要自动布局布线的物理库（lef文件，这里用到tsmc18_6lm_cic.lef,tsmc18_6lm_antenna_cic.lef）

为了能够了解lef文档的作用，这里对lef做简单的介绍，lef一般分为两种：

一种是技术物理库，主要包含工艺信息，设计规则信息，金属通孔信息等。

下例是对金属一层的定义，TYPE指明METAL1是可布线层，WIDTH定义的是METAL1的默认布线宽度，SPACING用于设定METAL1布线间距。

DIRECTIONHORIZONTAL指明METAL1是用于水平走线，当然这并不意味着它不能垂直走线，在一些布线资源较少的区域，还是可以选择垂直布线的。

具体介绍，可以参考相关技术文档。

LAYERMETAL1

TYPEROUTING;

WIDTH0.230;

MAXWIDTH9.9;

AREA0.202;

SPACING0.230;

SPACING0.6RANGE10.0100000.0;

PITCH0.560;

DIRECTIONHORIZONTAL;

EDGECAPACITANCE9.1090e-05;

ENDMETAL1

另外一种就是单元物理库，定义了单元库中各单元的信息，文件又有两部分一种是SITE语句对布局（placement）最小单位的定义，另一部分是采用MACRO语句对单元属性及几何形状的描述，下例是对一个与门为例来看看lef是如何描述它的。

MACRO是单元定义的关键字，每一个MACRO代表一个单元。

CLASScore说明该单元是用于芯片的核心区，SIZE确定了单元的面积大小，比如5.04是代表该单元的高度，后面我们做单元供电route的时候，可以看到它们的宽度就是这个数值。

再后面就是定义引脚A，B，Y，VDD，VSS等。

MACROAND2X1

CLASSCORE;

FOREIGNAND2X10.0000.000;

ORIGIN0.0000.000;

LEQAND2XL;

SIZE2.640BY5.040;

SYMMETRYxy;

SITEtsm3site;

PINY

DIRECTIONOUTPUT;

PORT

LAYERMETAL1;

RECT2.3552.3802.5002.660;

END

ENDY

PINB

DIRECTIONINPUT;

PORT

LAYERMETAL1;

RECT0.8002.3151.2152.895;

END

ENDB

PINA

DIRECTIONINPUT;

PORT

LAYERMETAL1;

RECT0.1501.8200.5652.315;

END

ENDA

PINVSS

DIRECTIONINOUT;

USEground;

SHAPEABUTMENT;

PORT

LAYERMETAL1;

RECT1.790-0.4002.6400.400;

RECT1.450-0.4001.7900.575;

RECT0.000-0.4001.4500.400;

END

ENDVSS

PINVDD

DIRECTIONINOUT;

USEpower;

SHAPEABUTMENT;

PORT

LAYERMETAL1;

RECT1.7554.6402.6405.440

END

ENDVDD

OBS

LAYERMETAL1;

RECT1.8351.9351.8852.355;

END

ENDAND2X1

第三：

时序库文件，typical.lib，也就是时序文件，定义了门的各种时序信息，某种意义来讲，这个和综合使用的db库是等价的。

2）布局布线过程：

第一步：

打开encounter把数据输入，另外在advanced栏的Power相应位置填上VDD,和VSS。

如下图，设置完以后，记得把设置的配置文件做一个save以便于下次使用

第二步：

打开以后，我们可以看到芯片区域，左边粉红色的就是标准单元，中间那个就是我们要设计的区域，64%是指cell面积的占有率，一般来说控制在70%左右，布线的时候不会引起拥塞。

另外我们需要对芯片进行稍微的更改，Floorplan->specifyfloorplan.，将coretoIO那些项都填上45，留给电源环的放置。

第三步：

添加电源环

设置如下图，

NET填写VDD和VSS，layer选择顶层的两层金属，宽度设置为20（这个不定，可以根据实际设计来定），offset选择centerinchannel，则电源环会被设置在IO与core之间。

之后电源环就加进去了，当然这是一个小电路，电源规划比较简单，对于一个复杂的电路，还需要横竖添加stripes，降低IRdrop。

第四步：

自动布局以及布置标准单元，因为此设计较小，并没有block，所以可以直接进行标准单元的放置。

Place->standardcellsandblocaks->OK

然后我们发现标准单元已经被加进去了：

第五步：

布置好了以后，我们需要将电源，地，等接口先连接起来，首先我们在floorplan中选择globalnetconnection，分别将VDD,VSS等都连接起来。

然后我们需要specifyroute将电源和地线先连接起来，选择route->specifyroute

因为我们这个设计只有标准单元，所以我们只要选择标准单元的布线即可：

完成以后，点击OK，会得到下面的图：

每行的row都有线连接到外面的电源环

第六步：

时钟树综合（CTS），这是一个APR设计中最重要的一环，为什么要进行时钟树综合呢，简单地说，因为信号传输的延时，我们需要让相应路径的时钟路径的也具有同样的延时，通过添加时钟缓冲器的方法，来消除各路径的建立时间，具体请参考相关书籍和资料。

添加好时钟树以后的版图如下：

加了时钟树以后的版图密集了很多，因为加了很多buf。

时钟树的脚本：

AutoCTSRootPinclk

Period10ns

MaxDelay500ps#set_clock_latency

MinDelay0ps#set_clock_latency

MaxSkew100ps

SinkMaxTran400ps

BufMaxTran400ps

ObstructionNO

DetailReportYES

PadBufAfterGateNO

RouteClkNetNO

PostOptYES

OptAddBufferYES

OptAddBufferLimit100

NoGatingNO

BufferCLKBUFX1CLKBUFXLCLKBUFX2CLKBUFX3CLKBUFX4CLKBUFX8CLKBUFX12CLKBUFX16CLKBUFX20CLKINVXLCLKINVX1CLKINVX2CLKINVX3CLKINVX4CLKINVX8CLKINVX12CLKINVX16CLKINVX20

END

然后将脚本选中，并进行时钟树综合。

第七步：

优化设计，命令optDesign–postCTS，然后report_timing查看时序报告，确定无违规，再进行完全布线。

第八步：

完全布线，route->nanoroute->route

之后得到的版图如下所示：

第九步：

保存设计，提取需要的数据。

这里特别注意提取gds文件的时候，需要指定库文件中的streamOut.map文件，和mergegds（tsmc18_core.gds）文件，如图所示

保存网表，并将此版图提取的网表做一次formality，与原代码匹配成功。

再提取def文件，保存为mux.def

5第二次静态时序分析

用版图实际提取的延时文件进行

6APR后仿真

用modelsim对版图提取的网表和sdf文件进行仿真。

7用calibre对版图进行DRC及其LVS验证

在做这步之前，我们需要把相关的文档拷贝到icfb的工作目录下

Encounter导出的gds文档：

这里是mux8.gds（注意merge库的map文件）

技术文档如：

0.18um_Virtuoso4.4.tf，可以在厂家提供的库中去找

显示文件：

display.drf

Caliber验证文件：

drc，lvs文档

第一步：

将encounter的版图数据导入virtuoso，打开icfb&，选择file->import->stream

然后将版图信息和技术文件填入：

导入成功以后会出现我们所做的库，mux就是我们encounter中所画的版图。

我们把版图打开：

这就是我们所画的版图然后在此进行drc，和lvs，通过以后再进行下面的工作。

第二步：

drc检查

此处有错，并不是逻辑有问题，是因为密度不够的问题，需要在encounter阶段加FILLER，FILLER是与逻辑无关的，因为代工厂的流片加工要求，需要加的，密度不够，加工容易引起问题。

所以如果DRC报类似错误，如果是需要流片的版图，除非代工厂同意，否则必须清除这些错误。

第三步：

展开阅读全文