工业抽样推算操作手册.docx

资源描述

工业抽样推算操作手册.docx

《工业抽样推算操作手册.docx》由会员分享，可在线阅读，更多相关《工业抽样推算操作手册.docx（31页珍藏版）》请在冰点文库上搜索。

工业抽样推算操作手册.docx

工业抽样推算操作手册

规模以下工业抽样调查推算操作手册

（年报和半年报）

年报和半年报采用的样本是一致的，在数据处理上的唯一区别是在年报调查中，企业部分多“实收资本”等7个调查指标，下面以年报数据为例来阐述用STATA软件进行总量和方差推算的方法和步骤，在半年报中，只需要在企业部分少推算“实收资本”等7个调查指标即可。

一、数据转换

用Stata/Transfer将基层表Foxpro数据库转换成Stata数据集。

二、目录企业总量和方差推算步骤

第一步，给基层表数据集赋予基础权数。

通过将基层表数据集和样本数据集进行横向合并来对基层表数据集赋予基础权数。

在进行两个数据集横向合并之前，必须确保两个数据集中的观察记录是一一对应关系，换句话说就是，通过变量“qyfrdm”能够实现两个数据集之间的完全匹配。

两个数据集的观察记录是否一一对应，可以从横向匹配的结果中看出。

usen01_nb.dta,clear

sortqyfrdm

saven01_nb.dta,replace

useyb_mlqy**.dta,clear

keepqyfrdmbscodetotal_csamp_cweight

sortqyfrdm

mergeqyfrdmusingn01_nb.dta

countif_merge!

localnonqys=r（N）

if`nonqys'>0{

display"基层表数据集和样本数据集有部分企业不对应！

listqymcqyfrdm_mergeif_merge!

clear

}

else{

drop_merge

savemlqy**.dta,replace

}

说明：

上述命令中包含的“**”表示省代码，下同；将赋予了基础权数的基层表数据集保存成mlqy**.dta是为了使n01_nb.dta不发生任何改变，便于数据管理。

第二步，新增一个变量并命名为dws，作为有效样本单位和无效样本单位的标识变量，用于估计企业数。

变量dws的赋值方法为：

有效样本单位赋值为1，无效样本单位赋值为0。

usemlqy**.dta,clear

gendws=1

replacedws=0ifreason>=2

savemlqy**.dta,replace

第三步，根据样本企业回答情况，对样本企业的基础权数进行调整。

如果没有无回答样本企业，则不需要进行权数调整；如果最终层内只有少数样本企业无回答，则在最终层内部进行权数调整；如果最终层内绝大部分样本企业无回答，则首先需要进行最终层合并，然后在合并层内进行权数调整。

权数调整的范围是最终层（或合并层）内的有效样本。

调整权数的具体方法参见《规模以下工业抽样调查方案》。

为了保存权数调整过程，需要新增一个变量（baseweight）保存基础权数，将调整后的权数保存在变量weight中。

需要注意的是，只能调整基层表数据集中的权数，不能调整样本数据集中的权数，因为本次调查中的无回答企业，在下次调查中仍然要作为样本企业进行调查，并按照在当次调查中是否回答调查表决定是否进行权数调整。

（下同）

例一（最终层内有少数样本企业无回答情况举例）：

某省发现有1个无回答样本企业，其的基础权数为20，层代码为10611，该层中共抽取了5个样本，假设剩下4个样本企业都是有回答的有效样本企业，则调整因子为5/4，4个有回答的样本企业的权数被调整为20*5/4=25，同时，将那个无回答样本企业的权数调整为“0”。

usemlqy**.dta,clear

genbaseweight=weight

replaceweight=baseweight*5/4ifcode==10611

replaceweight=0ifcode==10611&reason==1

savemlqy**.dta,replace

例二（最终层内有多数样本企业无回答情况举例）：

某省发现4个无回答企业，都来自于同一层，层代码为10611，其基础权数都为20，该层中共抽取了5个样本企业，此时，需要将该层中剩下的1个有回答的有效样本企业与临近的层合并后，再进行权数调整。

比如有一个临近的层代码为10621，该层中共抽取了5个样本企业，基础权数为10，但其中有1个样本企业消亡，属于无效样本企业。

将层代码10611替换成10621，然后在合并层10621内对5（=1+4）个有回答的有效样本企业的权数进行调整，调整因子为

，原来属于层10611的1个有回答的有效样本企业的权数调整为20*14/6=46.67，原来属于层10621的4个有回答的有效样本企业的权数调整为10*14/6=23.33。

同时，将4个无回答样本企业的权数调整为“0”。

由于设置fpc要求fpc标识变量（total_c）在同一层内取值相同，因此，需要对合并层内观察记录的fpc标识变量（total_c）进行调整，调整为合并前两个层的total_c之和，即20*5+10*5=150。

usemlqy**.dta,clear

genbaseweight=weight

replacecode=10621ifcode==10611

replaceweight=baseweight*14/6ifcode==10621anddws==1

replaceweight=0ifcode==10621&reason==1

genbasetotal=total_c

replacetotal_c=150ifcode==10621

savemlqy**.dta,replace

第四步，在基层数据中设置抽样设计信息。

usemlqy**.dta,clear

svysetstratacode

svysetpweightweight

svysetfpctotal_c

savemlqy**.dta,replace

说明：

是否设置“有限总体校正系数（fpc）”只会影响方差估计值的大小。

当每个最终层的抽样比都比较小，即每个最终层的权数都比较大时，是否设置“有限总体校正系数（fpc）”对推算结果的影响不大，但是，当有些最终层的抽样比比较大，特别地，当有全选层，即抽样比等于1，权数等于1时，需要设置“有限总体校正系数（fpc）”，否则会高估方差。

因此，统一要求设置“有限总体校正系数（fpc）”。

在STATA中，设置“有限总体校正系数（fpc）”有两种方法，一是将最终层的总体单位数（total_c）设置成“有限总体校正系数（fpc）”，二是将最终层的抽样比设置成“有限总体校正系数（fpc）”，两种设置方法得到的结果是一致的。

要求统一采用第一种方法。

第五步，进行总量和方差估计（包括估计企业数及其方差）。

首先，需要将各调查指标的计量单位转换成万元，a01（全部从业人员期末数）除外；第二，计算各指标的样本汇总值；第三，估计企业数及各调查指标的总量和方差。

usemlqy**.dta,clear

forvara*:

replaceX=X/10

replacea01=a01*10

egenhz00=sum（dws）

egenhz01=sum（a01）

egenhz02=sum（a02）

egenhz03=sum（a03）

egenhz04=sum（a04）

egenhz05=sum（a05）

egenhz06=sum（a06）

egenhz07=sum（a07）

egenhz08=sum（a08）

egenhz09=sum（a09）

egenhz10=sum（a10）

egenhz11=sum（a11）

egenhz12=sum（a12）

egenhz13=sum（a13）

egenhz14=sum（a14）

egenhz15=sum（a15）

svytotaldwsa*

第六步，制综合表

方法一：

首先，编写STATA命令文件（do-file），将推算结果保存到一个STATA数据集中，然后将此STATA数据集用Stata/Transfer转换成Foxpro数据库文件，导入到《规模以下工业抽样调查数据管理系统》中，制表输出。

方法二：

用EXCEL制表。

具体方法为：

在STATA结果窗口中选中推算结果表，在EDIT菜单中选用“copytable”功能复制推算结果表，然后打开一个EXCEL文件，执行“粘贴”操作，即将STATA的推算结果拷贝到EXCEL中了，最后在EXCEL文件中计算相对误差（STATA推算结果中没有计算相对误差的参数选项），并编辑制表。

举例说明将推算结果保存在一个STATA数据集中的过程。

首先，按照综合表的变量结构构造一个数据集；然后，将系统自动保存在内存距阵变量e（est）、e（V_db）等中的推算结果，逐个地存放到数据集的指定位置。

usemlqy**.dta,clear

forvara*:

replaceX=X/10

replacea01=a01*10

egenhz00=sum（dws）

egenhz01=sum（a01）

┋

egenhz15=sum（a15）

svytotaldwsa*

matrixpoint=e（est）

matrixvariance=e（V_db）

replacesmc="（省名称）"

genstr2sdm="（省代码）"

keepsmcsdmhz00hz01hz02hz03hz04hz05hz06hz07hz08hz09hz10hz11hz12hz13hz14hz15

ordersmcsdmhz00hz01hz02hz03hz04hz05hz06hz07hz08hz09hz10hz11hz12hz13hz14hz15

gena00=.

genjfc00=.

genxdw00=.

gena01=.

genjfc01=.

genxdw01=.

gena02=.

genjfc02=.

genxdw02=.

gena03=.

genjfc03=.

genxdw03=.

gena04=.

genjfc04=.

genxdw04=.

gena05=.

genjfc05=.

genxdw05=.

gena06=.

genjfc06=.

genxdw06=.

gena07=.

genjfc07=.

genxdw07=.

gena08=.

genjfc08=.

genxdw08=.

gena09=.

genjfc09=.

genxdw09=.

gena10=.

genjfc10=.

genxdw10=.

gena11=.

genjfc11=.

genxdw11=.

gena12=.

genjfc12=.

genxdw12=.

gena13=.

genjfc13=.

genxdw13=.

gena14=.

genjfc14=.

genxdw14=.

gena15=.

genjfc15=.

genxdw15=.

formata00hz00%10.0f

formata01a02a03a04a05a06a07a08a09a10a11a12a13a14a15%15.2f

formathz01hz02hz03hz04hz05hz06hz07hz08%10.2f

formathz09hz10hz11hz12hz13hz14hz15%10.2f

formatjfc00jfc01jfc02jfc03jfc04jfc05jfc06jfc07jfc08%15.2f

formatjfc09jfc10jfc11jfc12jfc13jfc14jfc15%15.2f

formatxdw00xdw01xdw02xdw03xdw04xdw05xdw06xdw07xdw08%6.2f

formatxdw09xdw10xdw11xdw12xdw13xdw14xdw15%6.2f

keepin1

forvaluesi=0/15{

if`i'<10{

localj=`i'+1

replacea0`i'=point[1,`j']in1

replacejfc0`i'=sqrt（variance[`j',`j']）in1

replacexdw0`i'=1.96*jfc0`i'/a0`i'*100

}

else{

localj=`i'+1

replacea`i'=point[1,`j']in1

replacejfc`i'=sqrt（variance[`j',`j']）in1

replacexdw`i'=1.96*jfc`i'/a`i'*100

}

savezhbml_nb**.dta,replace

clear

注：

当用于推算的数据集中某个或某些估计变量含有缺省值（.）时，内部函数e（V_db）只保存方差估计值，是一个[1，n]距阵；当数据集中所有估计变量都不含有缺省值时，内部函数e（V_db）保存的是n个估计变量的协方差估计值，是一个[n，n]距阵。

因此，统一要求用于推算的数据集中不能包含缺省值。

如果发现有缺省值存在，则可以用以下命令将缺省值替换成0。

forvara*:

replaceX=0ifX==.

三、个体经营工业单位总量和方差推算步骤

第一步，给基层表数据集赋予基础权数。

usen04_nb.dta,clear

sortdm

saven04_nb.dta,replace

useyb_gtyjd**.dta,clear

keepdmpseudocodetotal_csamp_cweight

sortdm

mergedmusingn04_nb.dta

drop_merge

savegt**.dta,replace

第二步，新增一个变量并命名为dws，用于估计个体经营工业单位数。

变量dws的赋值方法为：

对有调查资料的个体经营工业单位赋值为1，对没有个体经营工业单位的样本PSU观察记录赋值为0。

usegt**.dta,clear

gendws=1

replacedws=0ifreason==1

savegt**.dta,replace

第三步，根据样本PSU和个体经营工业单位的回答情况，对个体经营工业单位的基础权数进行调整。

如果某个样本PSU内有部分无回答个体经营工业单位，则需要在该样本PSU内部，对其他有回答个体经营工业单位的权数进行调整；如果最终层中只有少数无回答样本PSU，则需要在最终层内对其他有回答样本PSU的权数进行调整；如果某个最终层中绝大多数的样本PSU无回答，则首先需要进行最终层合并，然后在合并层内对其他有回答样本PSU进行权数调整；如果没有无回答个体经营工业单位和样本PSU，则不需要进行权数调整。

权数调整的范围是最终层（或合并层）内的有效样本。

调整权数的具体方法参见《规模以下工业抽样调查方案》。

例一（样本PSU内部出现部分个体经营工业单位无回答情况举例）：

某省某样本PSU里有10个个体经营工业单位，其地址代码为110101001001，基础权数为12，因而，该样本PSU内的10个个体经营工业单位的基础权数为12。

调查发现，该样本PSU中有2个无回答个体经营工业单位（营业但不回答调查表），则需要调整该样本PSU中8个有回答个体经营工业单位的权数，调整因子为10/8=5/4，权数调整为12*5/4=15。

同时，将2个无回答个体经营工业单位的权数调整为“0”。

usegt**.dta,clear

genbaseweight=weight

replaceweight=baseweight*5/4ifdm=="110101001001"

replaceweight=0ifcode=="110101001001"&reason==3

savegt**.dta,replace

例二（最终层内有少数样本PSU无回答情况举例）：

某省发现有1个无回答样本PSU，其的基础权数为20，层代码为111，该层中共抽取了5个样本PSU，假设剩下4个样本PSU都是有效样本PSU，则调整因子为5/4，4个有效样本PSU的权数，即这4个有效样本PSU内所有个体经营工业单位的权数被调整为20*5/4=25，同时，将那个无回答样本PSU的权数调整为“0”。

usegt**.dta,clear

genbaseweight=weight

replaceweight=baseweight*5/4ifcode==111

replaceweight=0ifcode==111&reason==2

savegt**.dta,replace

例三（最终层内有较多样本PSU无回答情况举例）：

某省发现4个无回答样本PSU，都来自于同一层，层代码为111，其基础权数都为20，该层中共抽取了5个样本PSU，此时，需要将该层中剩下的1个有回答样本PSU与临近的层合并后，再对合并层中有回答样本PSU的权数进行调整。

比如有一个临近的层代码为112，该层中共抽取了5个样本PSU，基础权数为10，但其中有1个样本PSU没有个体经营工业单位，属于无效样本PSU。

首先将层代码111替换成112，然后在合并层112内对5（=1+4）个有回答的有效样本PSU的权数进行调整，调整因子为

，原来属于层111的1个样本PSU的权数调整为20*14/6=46.67，原来属于层112的4个样本PSU的权数调整为10*14/6=23.33。

同时，将4个无回答样本PSU的权数调整为“0”。

usegt**.dta,clear

genbaseweight=weight

replacecode=112ifcode==111

replaceweight=baseweight*14/6ifcode==112anddws==1

replaceweight=0ifcode==112&reason==2

genbasetotal=total_c

replacetotal_c=150ifcode==112

savegt**.dta,replace

第四步，在基层数据中设置抽样设计信息。

usegt**.dta,clear

svysetstratacode

svysetpweightweight

svysetpsudm

svysetfpctotal_c

savegt**.dta,replace

第五步，进行总量和方差估计（包括估计个体经营工业单位数及其方差）。

首先，需要将各调查指标的计量单位转换成万元，a01（全部从业人员期末数）除外；第二，计算各指标的样本汇总值；第三，估计单位数及各调查指标的总量和方差。

usegt**.dta,clear

forvara0*:

replaceX=X/10

replacea01=a01*10

egenhz00=sum（dws）

egenhz01=sum（a01）

egenhz02=sum（a02）

egenhz04=sum（a04）

svytotaldwsa0*

第六步，制综合表

参见目录企业部分。

四、非目录企业总量和方差推算步骤

第一步，给基层表数据集赋予基础权数。

usen02_nb.dta,clear

sortdm

saven02_nb.dta,replace

useyb_gtyjd**.dta,clear

keepdmpseudocodetotal_csamp_cweight

sortdm

mergedmusingn02_nb.dta

replacereason=1ifreason==.

forvara*:

replaceX=0ifX==.

drop_merge

savefmlqy**.dta,replace

第二步，新增一个变量并命名为dws，用于估计非目录企业数。

变量dws的赋值方法为：

对有调查资料的非目录企业赋值为1，对没有非目录企业的样本PSU观察记录赋值为0。

usefmlqy**.dta,clear

gendws=1

replacedws=0ifreason==1

savefmlqy**.dta,replace

第三步，根据样本PSU和非目录企业的回答情况，对非目录企业的基础权数进行调整。

如果某个样本PSU内有部分无回答非目录企业，则需要在该样本PSU内部，对其他有回答非目录企业的权数进行调整；如果最终层中只有少数无回答样本PSU，则需要在最终层内对其他有回答样本PSU的权数进行调整；如果某个最终层中绝大多数的样本PSU无回答，则首先需要进行最终层合并，然后在合并层内对其他有回答样本PSU进行权数调整；如果没有无回答非目录企业和样本PSU，则不需要进行权数调整。

调整权数的具体方法参见《规模以下工业抽样调查方案》。

由于非目录企业的无回答权数调整方法与个体经营工业单位相同，因此，可以参照个体经营工业单位子总体的三种无回答情况举例，将其中的“个体经营工业单位”替换成“非目录企业”来理解非目录企业无回答权数调整过程。

第四步，用下列命令在基层数据中设置抽样设计信息，然后保存数据集。

usefmlqy**.dta,clear

svysetstratacode

svysetpweightweight

svysetpsudm

svysetfpctotal_c

savefmlqy**.dta,replace

第五步，进行总量和方差估计（包括估计非目录企业数及其方差）。

usefmlqy**.dta,clear

forvara*:

replaceX=X/10

replacea01=a01*10

egenhz00=sum（dws）

egenhz01=sum（a01）

┋

egenhz15=sum（a15）

svytotaldwsa*

第六步，制综合表。

参见目录企业部分。

五、企业子总体总量和方差推算步骤

第一步，统一PSU标识变量，纵向合并（追加）目录企业和非目录企业基层表数据集。

在进行数据集追加之前，需要检查两个数据集中同名变量的类型是否一致，主要是指“字符型”和“数值型”的区别，对于“数值型”内部的细分类不一致无关紧要。

usefmlqy**.dta,clear

genstr12ppsu=dm

savetemp1.dta,replace

usemlqy00.dta,clear

展开阅读全文