基于数据挖掘方法的居民教育消费情况研究报告.docx

上传人:b****1 文档编号:13852241 上传时间:2023-06-18 格式:DOCX 页数:22 大小:378.07KB
下载 相关 举报
基于数据挖掘方法的居民教育消费情况研究报告.docx_第1页
第1页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第2页
第2页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第3页
第3页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第4页
第4页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第5页
第5页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第6页
第6页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第7页
第7页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第8页
第8页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第9页
第9页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第10页
第10页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第11页
第11页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第12页
第12页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第13页
第13页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第14页
第14页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第15页
第15页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第16页
第16页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第17页
第17页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第18页
第18页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第19页
第19页 / 共22页
基于数据挖掘方法的居民教育消费情况研究报告.docx_第20页
第20页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

基于数据挖掘方法的居民教育消费情况研究报告.docx

《基于数据挖掘方法的居民教育消费情况研究报告.docx》由会员分享,可在线阅读,更多相关《基于数据挖掘方法的居民教育消费情况研究报告.docx(22页珍藏版)》请在冰点文库上搜索。

基于数据挖掘方法的居民教育消费情况研究报告.docx

基于数据挖掘方法的居民教育消费情况研究报告

基于数据挖掘方法的居民教育消费情况研究

以为例

国家统廿局调査总臥青松、妙正、肖瑶

i要

肖前,居民教育消费逐曽多,其占总消费的比重也在不Bi増大,教育消贯增多,促进了居民生活质量以及综合素质的提升,反过来也会促进居民收人的增加。

而目前很少有人利用机器学习的方法建立模里,系统地研究影响教育消贯的因素并对教育消费进行预測。

分林和研究城乡居民教育消费悄况有较为重要的理论和现实意义。

本文数据育接取自城乡一体化住户调查基础数据(共1440余JJ个数据),在进行数据预处理之后,首先通iliiSU分桥、聚类分林、相关分桥等统it手段,结合定量方法与可视化方法,对数据进行探索性分析;然后使用决策树,师机森林,bagging,boosting0种数据挖掘方法,结合十折交叉验证,建立居民教育消费支出的重要影喑因素及预测模里。

研究表明,当建模数据直接取自大数据时,在统廿模里中恰当引入数摇挖掘方法研究影喑教育消费的因素并对教育消费进行预測有良好的效果。

论文有《!

!

下结论:

影叫家庭教育支岀的重要变量是家庭世代数、工资性收人、家庭中年轻人比例;教育消费与家庭工资性收人在一定围密切相关,工资性收人超11一定标准后,教育消费并不会增加;教育消费在屈于硬性消费,不同家庭对于教育的投人和重视程贋差别较小,低收人家庭往往通过缩减其他消费来满足教育的需求。

关键词:

教育消费支出预測决策柵I®机森林baggingboosting

第一章引言

1.1研究意义与研究目的

砸着社会经济的发展,城乡居民生活水平的不Bi提高,城乡居民涓费结构也在不®i升级,居民在教育方面的消费越来極多,其占总涓费的比重也在不Bifflto同时,教育消费増多,促进了居民生活质量以及综合素质的提升,反过来也会促进居民收入的l@UDo因而,分tfi和研究域乡居民教育消贯悄况有较为重要的现实恿义。

目前,较少见有人利用机器学习的方法建立模里,系统地研究影响教育消费的因素并对教育消费进行预测。

本文01利用城乡一体化住户调查的分户数册,首先,进行探索性分林,从描述性分析、聚类、相关分桥中对数据有初步认识;其次,使用决策榊、IT机SUsbagging,boosting方法建立居民教育消费影响因素和预測模型,发现影响居民教育消费的影响因素,并选择最优的预測模型。

1.2研究现狀

“需求创造”对消费结枸升级的效应。

皓和胡載彌⑴基干“需求创造”理论对我国城瞋和农村居民消费結构升级的经济贈长效应进行实证分林。

实址研究给杲表明,城乡居民消费结构不Bi升级,人民生活质量不Bi改善;医疗保健、交通通爪等消贾支出增长速度大体上快于消费支岀总額的増长速度,是消费增长驱动力;与城镇居民相比,农村居民消费结构升级速度M快,开始了新一轮的“追赴”;城乡居民消费结构变动对涓费増长具有显普的冲击效应和时变性影响。

未来我国居民消费结构将迎来持续升级的黄金发展时期,对消费増长支撑作用也将不Bi加大。

家庭生命周期対消费的影响。

志兰和江林⑵认为,家區是一个动态的消费主体,毎个生金周期阶段中的家庭,其消费恿向、消费結构和水平都具有独特的特点。

他们重贞研究了家Kigali为的心理颐向,致力干从消费行为学的係度来探索家鬼生命周期对消费愆愿不同层面的彫响。

研究结果表明,不同生命周期阶段的家庭在消费总量、消贯档次、借贷消费、奢侈品消费及不同产品和服务的消费恿愿上会呈现不同的偏好,在特定产晶和服务消费恿愿的作用強度也具有明显差异。

年龄阶段对消贵的影喑。

袁志M等將养老保险制度引人Samuelson(1958)和

Diamond(1965)的叠代模型(OLG)[3],推导岀子女数量可以通11改变养老金收益和代际转務金額来影叫最优储蓄率,认为为了保址退休后的涓费水平,城瞋居民只能为子女储备更多的资本,以提高其未来的劳动生产率,进而得出结论认为子女数量的下降是城猿居民消费降低的主要原因。

壬德文等[4]IIS岀人口转变对居民Bl蓄率晞有显著性影响,在少儿折养比大幅度下降,引致劳动年龄人口经济负担噸轻、協蓄增加的同时,人口老龄化速度加快使得人口转变对恫蓄的质献率减弱oModigliani和Cao[5]以中M1953-2000年的时间序列数据为研究依据,将中国的低消费(高储蓄)率归结为长期的人均收人増长率和儿童抚养系数转变的结果,这与袁志刚和壬德文等⑹的结论相一致。

与前述观贞不同的是,壬金营等在研究中引人“标准消费人”牌念,S出人口折养系数的提高,使得人均收人提高所带来消费水平提高的速度减慢,老龄It将会薛低未来的消费水平和消费比率。

文星等[7]也对人口年龄結构变化对中国居民消贯的影响进IlTffi究,不同的是他们呆用了动态面板GMM估计方法,结果表明,儿童折养系数对中国居民消费具有攒弱的负向影喑,而老年抚养系数变化的影响并不显普。

2005年,0:

盟开展的“家區教育和培W支出的调查容”(Europeanmission,2005)的诅查报告综合家庭教育支出的主要影喑因素为经济原因、制度原因、个人因素和文化感知原因、社会因素和其他[8]。

这是五个极具8U舌力的因素划分,目前大多数已有文献发现的家庭教育消费的影响因素几平都可以划归为此五类因素之中。

综上所述,现有文献研究了收入悄况、家庭结构、年龄结构等对萌费的影购,以及消费结构的升级变化,很少对教育消费的影喑因素jjfig因素、系统地分#(,并进行教育支出预測[9-15]。

本文01利用城乡一体化住户调查的分户数据,使用决策ffls淹机森林、bagging,boosting方法建立居民教育消费影“因素和预測模里,发现影响居民教育消费的影响因素,并选择最优的预测模型。

1.3论文结枸及创新点

1.3.1论文结枸

本文结构如下:

第一章,引言。

第二章,相关理论介给。

第三章,探索性分桥。

BISIB标选取员数IKJIII介绍,变量描述性分折,聚类分桥,相关分桥。

第四章,教育消费影响因素及预測模里实证分析。

分别决策Ws®机森林.bagging,boosting方法建立居民教育消费影冷I因素和预测模型。

第五章,结论。

包祐研究总结,研究不足和展望。

1.3.2创新点

(1)目前,较少见有人利用机器学习的方法建立模世,全面地研究影响教育消费的因素并对教育消费进行预測。

论文以省为例,通il建立模里,系筑地对我国居民教育消费进行深入分析。

(2)现有研究名数使用回旧分析等方法研究影响因素,本文将统it模里与数据挖掘方法相结合,研究了影响教育消费的重要因素,并取得良好效果。

(3)通过本文研究,发现一些具有价值的结论:

影响家庭教育支岀的重要变量是家庭世代数、工资性收入、家陡中年轻人比例;农村贫困家庭教育支岀低;教育消费在屈干硕性消费,不同家庭对于教育的投人和重视程度差别较小;教育消费与家庭工资性收入在一定围密切相关。

第二章相关理堆介绍

2.1数据来躱相关荫况

本文数据直接取自省2013年城乡一怵化住户调查大数据样本。

目前,省域乡一lilttt户调查共涉83个调查县(市、区),660个i8|查小区,约6600户调查户,毎

条记录有2186«细顶指标,总共有1400余JJ个数据。

调查果用日记帐和间卷调查相给合的方式果集基础数据。

国家统计局使用貌一的抽样框,以省为总体,在对县级诅查网点代表性进行评估的基本上,果用分层、多阶段I®机抽样方法抽选涮查住宅,晞定调查户。

在95%的置信度下,分省居民及分省分城乡居民人均可支配收人、消费支出以及主要收入顶和消费顶的抽样锲差控制在3%以。

2.2消费函数理堆介易

在研究消费间题时,凯恩斯提岀了绝对收人假说,第一次将收人因素引人宏观消费函数理论分析中,讨论了短期消费行为的姬视性,但该模型在说明消费与收人与储蓄方面时,存在某种才情和不一致。

粧后,杜森贝利提出了相对收入個说,修改了消费行为的假定,认为消费行为存在“示效应”和“棘轮效应”的影札莫迪里安尼生金周期個说(LCH)和弗里您曼持久收入假说(PIH)将预期收人细人考量,认为一生的收人、持久的收人是影喑消费的决定因素,分析消费者如何在长期或一生中平滑消费,LCH-PIH奠定了之后消费研究主要理论III架。

霍尔在LCH-PIH的基础上应用理性预期方法分桥从为消费者在充分利用一切可能信息进行更为高瞻远腸的消费决策,其消费行为服从师机游走假说。

钳菜文对随机游走假说进行实込研究发现消费与劳动收人具有显普的正相关,这种关系被州菜文称为消费行为的11度敏感性。

对111881感性的解释开启了消费函数理论研究的新篇章。

一些学者认为不确定性因素也可解Sil®®感性。

收人不晞定性使消费者的行为更为谨煩,使消费对当前收人更加敏感:

预期收人增加将降低预肪性齢蓄,而增加当前消费,反之则相反,2就3!

立了当前消费与肖前收入的正相关关系。

2.3数霍弦拥方法介堀

下述方法是目前国际上常用的适合干大数据处理的数据挖掘方法。

(1)K-means聚类方法

K-means算法是基于质心的算法。

K-means算法以K为参数,把nf对象分为Kf

濮,以使濮具有较高的相似度,而濮间的相nr®®低。

相做度的廿算根据一彳、篠中对象的平均值(被看作篠的重心)来»1io

(2)决策粉

决策M(DecisionTree)是在已知各种悄况发生II率的基础上,通过构成决策栅来求取净现值的期望值大于等于零的1«率,评价顶目风险,判断其可行性的决策分林方法,是直现运用IB率分折的一种图解法。

(3)■机齋林

在机器学习中,I®机森林是一个色含多个决策M的分类器,并且其输出的类别是由彳、别M输岀的类别的众数而定。

LeoBreiman和AdeleCutler发展出推论出H机森林的算法。

(4)Bagging

Bagging是第一批用于多分类器集成算法。

该集成方法包括在一个Dll练集合上重夏训练得到的多个分类器。

{5)Boosting

Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通11构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数。

第三章探索11分析

3.1敷据预处理及变量选择

3.1.1数据预处理

在获取住户讯查基本数播库时,根法有关要求,首先对、地址、等涉及住户身价特征信息的指标进折模理。

再对6600个城乡住户一体化数预处理。

首先,别除家庭人口数为0的样本,以及家庭人口数小干家庭世代数的样本;其次,别除家庭教育消费支岀小干0的样本。

最后,得到4259个祥本。

3.1.2变量览择

住户调查数据巾有2000多f指标,通过理论分折和相关分折,选择了影响教育消费的11个指标。

其中,在选择收入指标时,只选择“工资11收人”来分斯,摒弃了可支配收人和其他三类收人指标,原因在干,仅仅2013年的城乡-体化样本数摇,非工资性收人变化较大,不具有稳定性;按照凯恩斯收人与消费的关系来看,稳定的工资性收入在较大程度上可代表家庭可支配收入。

本文选择的变量如下表所示。

由干域乡一体化住户调查数据是基于每个家庭的收支败据及相关悄况,我们对干相关变量aiiTUDlo

表2.1变量汇总及说明

指标名称

英文编耳

取值说明

居住地性质

city.rural

1:

城市,o:

农村

户主学彳

host_study

1:

未上学,2:

小学,3:

初中,4:

高中,5:

大专,6:

大学,

7:

研究生。

家庭世代数

which」elat

1:

一代人,2:

二代人,3:

三代人,4:

四代人。

家E»i人口

employee

取值围0・7o

It别比例

sex.1

1:

家庭中男女比创一样,2:

家庭中男性多干女牧,3:

家庭中女性多于男性。

家庭年轻人比例

young_rate.1

1:

家129岁以下的年轻人比例为0,2:

年轻人比例在0.5以下,3:

年轻人比用大于0.5。

主规健康比例

health_rate.1

1:

家庭健康比例为90%以上,:

2H康人的比M介于50%-90%之同,3:

健康人比例在50%HT

家庭医疗保险参保率

insure_rate.1

1:

表示参保比M不足家庭总人数的0.6,2:

参保比例介于0.6-1,

3:

家庭所有人全部参JB-W保险,4:

家庭有人参加乡分保险

家庭平均教育年限

education_mean

0-19,反映家庭人口的平均受教育年限

人均月均工资牧收入

Wage

数量级

人均月均教育消贵

education

数量级

11:

家庭平均教育年限处理方法:

将家庭所有人按照未上学0年、小学6年、初中9年、高中12年、大专15年、大学本科16年、研究生19年进行转化,然后垮家庭所有就学年数之和除以家庭总人口得到平均就学年数。

3.2描述性分析

 

3.2.1工资性收入

 

图3.1城乡居民人均月匀工资性收人散点图

如图3/1左图所示,工资性收入大于6250元,教育消费大于750元的样本很少,总共仅有19个祥本,为能准确分林数弼之间的特征,删除g19fft本,之后的散点图餌图3.1右图所示,城乡居民对于教育消费支出的差异性几平不存在。

图3.2刷除19个样本后的城乡人均月均工资性收人做点图

如图3.2所示,人均月均工资性收入是偏态分布的,城乡差别较大。

衣村居民工

资收入较低,基本上分布在500元以下,而城禎居民工资收人相师较高,集中分布在2000元以下。

图3.3城乡居民教育支出的核密度图

餌图3.3所示,城乡居民的教育支岀围差别不大,但农村居民教育消费主要集中在25元以下,而城市居要集中在100元以下。

对于户主学历、家庭年轻人比例、家庭世代数、主观健康比例、居住关系、家庭医疗保险参保率、家庭平均教育年限等均作为因子变量対干人均月均工资II收人、人均月均教育消费等做散点图分析,发现户主学历对干教育消费影喑不明显,(8户主学历強高,工资收人越高;年轻人比例对干工资收入和教育支岀均有影购,年轻人比例強高,教育支出高,而收人越低;年駁人比例強低、收人強高,教育支出越少;家庭世代数对于教育和收入都有影购,一代户家庭教育支岀很少,教育支出较名的集中在二代、三代家庭;四代户教育支岀也少;健康比例号工资收入和教育支出都有影响,健康比例越高教育支出和工资性收入也高;即买保险比例对于教育支出和工资收人郡有影响,则买保险比例越高,工资收入和教育支岀強高;平均受教育年限趣高、工资收入和教育支出趣高。

3.2.2教育消贵

表3.1家庭毎人毎月教育消费

单位:

均值

中位数

标准差

最小值

量大值

81

36

124

0

1660

Histogram

图3.4居民家庭毎人毎月教育支岀直方图

由上表上图可知,2013年居民家庭教育消费支岀,整休水平偏低,中位数小干均値,教育消费支出呈现右偏分布。

3.3聚类分林

首先对工资收入、教育支岀类数ftsaii标准化处理。

其次,对教育支出与工资性收人、人口统廿学特征进行K-means聚类分林。

经过名次试验,选择类间相l«®K.即相做度系数大的聚类结果,从而决定类别数,HlK1。

聚类分斯过程在clementine軟件实施。

clementine上的相(fl®proximities的廿算公式就是2个类质心之同的0:

几里得距离。

所以,相做度的值越大,表示两个类之间距离越远,相做程®l«Ko

3.3.1教育消贸、工资性收入、人口竦廿学特征的聚类分析

W_«超

图3.5教育消费、工资性收人、人口统廿学特征的聚类分析

(1)聚类無K=4

(2)聚类重要影喑变量:

居住地城乡归屈、家陡就业人数、主观健康比側、户主学历、家庭世代数、家庭医疗保险参保率、11别、工资性收入、家庭中29岁以下年轻人比例;家庭平均教育年限变量不重要。

(3)类间相fflB:

表3.2教商消IL工资It收入、人口茨廿学特征聚类

类间相似度系数

1

2

3

4

1

-

1.05

1.14

1.15

2

-

-

1.11

1.11

3

-

-

-

1.00

由上表可知,各类之间相似度系数较大、相似度较IE聚类效果较好。

(4)各类别特征

表3.3聚类各类特征汇总

变量

躱计量

1类

(1096f)

2类

(838个)

3类

(629i)

4类(696个)

平均值

106

73

66

65

标准差

0.09

0.07

0.06

0.06

居住地城乡IH属

取值1

100%

43.6%

0%

0%

取值0

0%

56.4%

100%

100%

家庭就业人数

平均值

1.875

2.09

2.25

2.35

标准差

0.868

1

1.01

0.99

主规促康比W

平均值

2.923

2.89

2.85

2.85

标准差

0.28

0.32

0.38

0.38

户壬学历

平均值

3.502

2.88

2.49

2.49

标准差

1.197

0.97

0.74

0.72

家庭世代数

平均值

2.29

2.25

2.53

2.52

标准差

0.54

0.75

0.57

0.57

家庭医疗保险参保率

平均值

2.78

2.89

2.96

2.95

标准差

0.57

0.45

0.29

0.31

取值3

51.2%

0%

100%

0%

取值1

0.0%

100%

0%

0%

取值2

48.8%

0%

0%

100%

工资11收人

平均值

1151

556

238

25051

标准差

0.114

0.094

0.028

0.567

家庭中年轻人比例

平均值

2.09

1.89

2.24

2.15

标准差

0.38

0.51

0.46

0.42

家庭平均教育年限

平均值

4.245

4.24

4.26

4.33

标准差

1.577

1.61

1.67

1.62

由上表可知,在El大类中:

1类人滞,教育支出最多,工资U收入排第二,全部为城缜居民,家庭就业人数最少,户主学历最高,主观I8康比例最大,家鬼世代数较少,家庭医疗保险参保率最低,家鬼中女性多干男性和男性名干女性的家庭几平各占一半,家庭中年轻人比例排第三,家庭平均受教育年限护第三。

2类人辞,教育支出排第二,工资性收人排第三,城镇、农村居民几平各占一半,家庭就业人数排第三,户主学历第二,主观健康比例第二,家庭世代数第三,家鬼医疗保险参保率第二,全部为男女比例相同的家庭,家鬼中年轻人比例排第皿,家庭平均教育年限最低。

3类人辞,教育支岀和工资性收人都排第三,全部为农村居民,家庭就业人数排第二,户主学历排第三,壬观健康比例排第三,家庭世代数最多,家庭医疗保险参保率最大,全部为女11名于男性的家庭;年轻人比例最高,家庭平均受教育年限排第二。

4类人滞,教育支出最少,工资性收人最多,全部为衣村居民,家庭就业人数排第一,户主学历排第三,主观18康比例排第三,家庭世代数排第二,家庭医疗保险参保率排第二,全部为男11多干女性的家庭,家庭中年轻人比例排第二,家庭平均受教育年限最多。

聚类给果表明:

教育支出与工资性收人在一定程度有关,当工资收入到这一定程度后,工资收入的增名不会带来教育支岀的增多;教育支岀与户主学历有可能存在正相关关系;就业人数多的家鬼,教育支出较少;家庭世代数多的家庭,教育支

出较少;年轻人比例提高,在一定围,会带动教育支出的提高;主观健康比例越高,医疗保险参保率iSIK;家庭世代数越名,医疗保险参保率越大;家庭平沟受教育年限極高,教育支出可能越低。

但聚类分林结果,不能作为准确的相关性依据,还需要进一步进行相关分析。

3.4相关分析

首先对工资收人、教育支岀类数摇进行标准化处理。

其次,it算教育消费、文化娱乐涓费、教育文化娱乐消费与工资性收人、人口统it学变量的偏相关系数,T解在排除其地变量影响的悄况下,两个变量间的相关关系。

表3.4教育消费与其他变量的偏相关分析

变量名

相关系数

Sig.

显着ft

工资性收人

0.099

0.000

显菁

居住地城乡IH属

0.026

0.143

不显普

户主学何

0.088

0.000

显菁

家庭世代数

-0.067

0.000

显著

家庭就业人数

-0.073

0.000

显著

11别

0.023

0.183

不显普

家庭年轻人比例

0.028

0.017

显菁

家庭医疗保险參保率

0.018

0.294

不显普

家庭平均教育年限

-0.033

0.061

不显着

主规促康度比例

0.012

0.492

不显着

由上表可知,工资性收入、户主学历、家庭世代数、家鬼就业人数、家庭年轻

人比例,与家庭教育消费的相关性较小,相关系数血小干0.1;居住地城乡旧屈、U别、家庭医疗保险参保率、主观健康比例、家庭平均教育年限,与家庭教育消费相关性不显普。

3.6小结

从以上分tJi«JU看出:

(1)年轻人比例強高,教育支岀極大,而工资收人越低;年轻人比例極低、I资收入越高,教育支岀越少;一代户、El代户家庭教育支岀很少,教育支岀较多的集中在二代、三代家庭;健康比例越高,教育支岀和工资性收入強高;购买保险比

例越高,工资收入和教育支出越高。

(2)对样本按照3.1节选取的变量聚类,得到E!

大类群体。

具有不同特征的8?

li,其教育消费模武有所不同。

对比四类辟体发观,教育支出与工负性收人在一定程度有关,当工资到达一定程度后,工资的增多不会带来教育支岀的增多;年轻人比例提高,在一定围,会带动教育支岀的提高;主观健康比例越高,医疗保险参保率越(K;家庭世代数越多,医疗保险参保率逋大。

(3)工资性收人、户主学历、家庭世代数、家庭就业人数、家庭年轻人比例,与家庭教育消费显普相关,但相关強度不大;居住地城乡归扬、性别、家庭医疗保险参保率、家庭平均教育年限、主观健康比例,与家庭教育消费相关性不显普。

第四章教育消贵彫・因素的模型建立及实证分林

4.1实证分析思路

由于教育消费和工资收人郡是偏杏分布,而户主学历、年轻人比例等都是因子变量、离散变量,数据很难符合经萸貌it的假定,为此主要借助于机器学习方法。

文章选择了决策扒葩机森林、bagging,boosting进行建模。

首先,利用决策曲、H机森林、bagging,boosting别得到影附家庭教育消费的变量,并对家庭的教育消贾进行预側。

通过比较四种方法的最小标准化平均绝对淚差,选择最优的教育消贾的预測模型。

4.2模型构建

4.2.1决策物模塑构建及相关输岀

通ii十折交叉决策讯建立模里,样本的标准化最小平沟绝对误差为0.9117,预测的昴小标准化翎B!

平均绝对误差为0.9485,决策榔通过检验,虽然预測效果不理想,但决策射的节点可以作为影响下教育消费的变量。

@4.1决策欄回旧结果

从决策柵图和模型输岀结果可以看出。

全省的2904个样本中,教育消费的平均值为78.37元,而影响教育消费最重要的变量是家庭世代数,其中一代、三代、El代家庭平均教育消费较低为53.87元,而二代家庭教育消费支出较高,平均100.5

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 自然科学 > 物理

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2