基于物理化学性质的葡萄酒质量的可视化评价研究资料下载.pdf

上传人:wj 文档编号:5973093 上传时间:2023-05-05 格式:PDF 页数:5 大小:808.19KB
下载 相关 举报
基于物理化学性质的葡萄酒质量的可视化评价研究资料下载.pdf_第1页
第1页 / 共5页
基于物理化学性质的葡萄酒质量的可视化评价研究资料下载.pdf_第2页
第2页 / 共5页
基于物理化学性质的葡萄酒质量的可视化评价研究资料下载.pdf_第3页
第3页 / 共5页
基于物理化学性质的葡萄酒质量的可视化评价研究资料下载.pdf_第4页
第4页 / 共5页
基于物理化学性质的葡萄酒质量的可视化评价研究资料下载.pdf_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

基于物理化学性质的葡萄酒质量的可视化评价研究资料下载.pdf

《基于物理化学性质的葡萄酒质量的可视化评价研究资料下载.pdf》由会员分享,可在线阅读,更多相关《基于物理化学性质的葡萄酒质量的可视化评价研究资料下载.pdf(5页珍藏版)》请在冰点文库上搜索。

基于物理化学性质的葡萄酒质量的可视化评价研究资料下载.pdf

1葡萄酒数据的可视化质量评价1.1葡萄酒数据葡萄酒数据包括1599个的红葡萄酒样本和4898个的白葡萄酒样本,输入变量包括客观的测试(如pH值),输出变量基于感觉数据(葡萄酒专家提出的至少3个评价的均值)。

每位专家的葡萄酒质量分级介于0(极坏的)和10(非常优秀)。

极好的和极差的葡萄酒的样本都是少数,评价为中间的葡萄酒样本最多。

神经网络、支持向量机和图表示分类方法用于建模数据,分类准则为正确率。

根据理化测试得到的输入变量包括11个,分别是固定酸度(酒石酸),g/L,挥发酸(乙酸),g/L,柠檬酸,g/L,残糖,g/L,氯(氯化钠),g/L,游离二氧化硫,mg/L,总二氧化硫,mg/L,密度,g/mL,pH值,硫酸盐(硫酸钾),g/L,酒精度。

基于感觉数据的输出变量是葡萄酒质量,评分为0至10。

红葡萄酒6类,分别评价为3至8;

白葡文章编号:

基于物理化学性质的葡萄酒质量的可视化评价研究王金甲1,2,尹涛2,李静1,3,洪文学1,*,马崇霄4(1.燕山大学电气工程学院,河北秦皇岛066004;

2.燕山大学信息科学与工程学院,河北秦皇岛066004;

3.燕山大学理学院,河北秦皇岛066004;

4.河北科技师范学院机电工程学院,河北昌黎066000)摘要:

提出了一种可视化的方法评价葡萄酒质量。

葡萄酒数据来自于认证阶段的物理化学分析测试,其中输入变量是11个,输出变量是葡萄酒质量,共得到1599个的红葡萄酒样本和4898个的白葡萄酒样本。

结果表明该方法的效果优于传统的神经网络和支持向量机方法,并且具有可视化的优点。

这对于改进酿酒品酒评价和葡萄酒生产都有重要意义,并且对根据消费者口味细分目标市场也很有帮助。

关键词:

评价;

可视化;

支持向量机;

神经网络;

多元数据图表示中图分类号:

文献标识码:

收稿日期:

2009-12-18基金项目:

国家自然科学基金资助项目(60405035,60904100)作者简介:

王金甲(1978-),男,河南商丘人,博士研究生,副教授,主要研究方向为信号处理和模式识别;

*通信作者:

洪文学(1953-),男,黑龙江依安人,教授,博士生导师,主要研究方向为信息融合、可视化模式识别和中医工程学,Email:

134燕山大学学报2010萄酒7类,分别评价为3至9。

1.2质量评估方法神经网络采用常见的BP神经网络方法4,它包括输入层,中间层和输出层,其中输入层的维数等于变量个数即11,中间层可调,输出层的维数等于类别数即红葡萄酒6类(评价为3至8)和白葡萄酒7类(评价为3至9)。

网络参数的初始值采用随机初始化,选择20次中效果最好的那次初始值。

训练方法采用Matlab的lm算法,它速度快效果好。

迭代次数设为1万次,误差设为1106。

支持向量机5(supportvectormachines,SVM)是Vapnik基于VC维理论和结构风险最小化提出的目前比较优秀的分类方法。

SVM相对于传统分类方法的主要优点是SVM的解总是全局最优的,并且避免训练过程的局部最小值和过拟合问题。

SVM基本思想是首先将输入矢量通过核函数映射到高维空间,然后寻找线性的最优分类面。

它分为线性SVM,广义线性SVM和非线性SVM三种基本形式。

SVM的核心问题是惩罚因子和核函数参数。

惩罚因子控制最大间隔和最小训练错误率之间的平衡,用于核空间上非线性可分的数据。

常用的核函数包括线性核、多项式核、径向基函数核、sig-moid核等,核函数中的核函数参数应该正确设置。

实验证明径向基核函数的分类结果较优,实验时只选择它。

训练时,必须给出超参数惩罚因子和径向基函数核函数参数。

1.3图表示可视化分类方法星点图(starplot)又称雷达图或蜘蛛图,是目前应用最广泛的对多元数据进行作图的方法6。

由于星点图是将正交坐标轴重新安排为非正交的坐标轴,即相交于圆心的径向坐标轴,因此可以在二维平面上同时显示多维数据。

从星点图的图表示可以看出,特征排序很重要外,相邻维之间的角度的作用也重要。

星点图之所以能可视化,就是因为星点图要求所有相邻维之间的角度的总和等于2。

多维数据进行多元图表示存在一个问题:

多维数据不同排列顺序对多元图表达的非唯一性。

即对同一个多维数据,一种特征排序会产生一种多元图,不同的特征排序会产生不同的多元图。

不同的多元图会产生不同的图形特征,不同的图形特征分类性能必然有差别。

因此固定某种特征排序,再研究多元数据图表示问题更有意义。

基于多元图的升维变换和特征选取思想7-8如下:

一个特征矢量在某种固定特征排序下只对应一个星点图(或其它多元图)和它对应的图形特征,那么一个特征矢量在所有特征排序下对应的星点图(或其它多元图)的图形特征就十分丰富,将其和原始特征组合并从中选择出部分特征,可以猜测选取特征分类性能较好。

多维数据用图来表示,可能会形成有利于视觉上分类或聚类的很有特色的图形特征。

这与传统的三大特征(物理特征、结构特征和数学特征)相对应。

重心是星点图多边形提供的一种图形特征。

从几何角度看,一个样本的星点图中的每一个三角形都产生一个重心。

从几何上讲三角形三条中线相交于一点,这个交点叫做三角形的重心,而且三角形的重心与顶点的距离等于它与对边中点的距离的2倍。

当然也可以利用三角形的重心坐标是3个顶点坐标的平均值的性质,计算的结果是一样的。

可以把三角形重心称为重心图形特征(维数与原始特征维数一样)。

星点图的重心图形特征提取方法如下=,+1=2+2+1+2+1cos3,

(1)其中,=2,=1,2,,和+1表示归一化特征样本的第维变量和第+1维变量的值,一般由预处理计算得到;

弧度=2为第维变量和第+1维变量间的夹角弧度。

因此一个维特征的样本就会产生一个对应的维图形特征的样本。

例如对有3类150样本4维特征的Iris数据集,因为每个样本有4维特征,图形特征由相邻变量产生且变量首尾相连,所以每个样本产生4个图形特征,最终形成了1504个图形特征。

那么Iris数据集的图形特征就是1504的矩阵。

这和原始数据的矩阵行列一样。

这样特征排序影响重心图形特征的问题就能够解决,它转化为一个特征选择问题,即将一组维数据按照重心图形特征提取式

(1)升维到+32维的空间,然后从+32维的高维空间中选择出第2期王金甲等基于物理化学性质的葡萄酒质量的可视化评价研究135维特征,并希望这维特征具有最好的类别鉴别能力。

这个过程可用传统的特征选择方法来实现,比如filter、wrapper和embedded特征选择方法,或者基于全局搜索算法(如遗传算法、粒子群优化算法和微分进化算法)的特征选择方法等等。

可以想象寻优选择的维特征的分类性能较好。

很可能寻优选择的维特征不是一个星点图产生的鉴别重心图形特征,而是很多个星点图产生的一部分重心图形特征的组合。

分类器选择最简单的线性判别分析(lineardis-criminateanalysis,LDA),LDA分类器产生的判别函数和决策面边界都是线性的,这就是称之为线性判别分析的原因。

由于LDA需要估计的参数少,而且没有超参数,它广泛用于分类中并取得了很好的效果。

此时测试样本被分类到具有最大后验概率的类别中,即误分类的概率最小。

应用贝叶斯理论,这个规则表述如下:

如果,所有的,那么指定属于类。

这里是类概率密度函数,是类的先验概率。

一般是未知的,需要从训练样本中估计。

LDA假定数据分布是多元正态分布,并且各类都有同样的协方差矩阵。

1.4排序分类器上述3种分类方法,都可以修改为回归方法。

那么第个样本得到的结果就是一个回归值,一般这个回归值和那个类别标签距离近,第个样本就属于哪个类别。

提出一种新的方法如下:

对于第个样本,利用分类方法得到一个类别标签,利用回归方法得到一个排序的预测值,如果和的绝对值小于阈值1,那么样本属于类;

否则样本属于距离预测值最近的类。

例如,第个样本的分类标签=5,排序的预测值=5.2,那么第个样本属于类别5;

第个样本的分类标签=5,排序的预测值=6.2,那么第个样本属于类别6。

2仿真实例红葡萄酒11个理化性质可视化平行坐标图如图1所示。

红葡萄酒的主成分可视化图如图2所示,其中3,4,5,6,7,8分别表示第3类到第8类。

从图1看出这几类数据的在很多理化性质上几乎相同,只有第6个变量游离二氧化硫和第7个变量总二氧化硫不同,这说明这两个理化性质大大影响口味。

从输入变量分析,第10个变量硫酸盐的增加可能与发酵营养有关,在改善酒的香味上这是非常重要的;

第11个变量酒精度的增加倾向于导致更好的质量评价;

第2个变量挥发酸有负面影响。

从主成分可视化图2上看出各类大大混叠在一起。

从图1和图2可看出葡萄酒质量评价是个非常困难的分类任务。

图1红葡萄酒数据的可视化平行坐标图Fig.1Visualdiagramofparallelcoordplotofredwine136燕山大学学报2010为了确保分类性能公平比较,并避免训练集和测试集的依赖,指标分类器错误率的估计采用10交叉验证(10-foldcrossvalidation,10CV),取20次独立实验的平均结果。

即红、白葡萄酒数据各进行了1020=200次实验。

整个系统采用MATLAB软件编程实现设计思想。

实验结果如表1所示。

表1葡萄酒质量评价结果Tab.1Tableofevaluationresultsofwinequality质量评估方法平均错误率(方差)红葡萄酒白葡萄酒神经网络60.0(0.3)53.6(0.2)支持向量机64.3(0.2)60.7(0.3)图表示可视化分类69.1(0.2)65.6(0.2)排序分类器88.4(0.2)86.8(0.2)从表1中可以看出,提出的排序分类器获得了最好的分类结果。

白葡萄酒数据的分类难度大于红葡萄酒;

支持向量机的分类效果优于神经网络。

红葡萄酒的神经网络、支持向量机和图表示可视化分类方法的耗时分别为1682s,11167s和1238s;

白葡萄酒的神经网络、支持向量机和图表示可视化分类方法的耗时分别为2658s,609487s和2491s。

提出的图表示分类器无论效率和效果都优于支持向量机和神经网络。

3结束语目前的质量评估方法基于专家的经验和知识,偏于主观。

提出的方法是基于客观数据驱动的,可考虑集成到一个决策支持系统中。

只有在专家的质量评价大大偏离系统预测值时,可再度品尝评价。

一旦挖掘出某些变量和质量评价的关系,就能够在葡萄酒生产阶段对某些变量加以控制以使口味更好。

参考文献1于海燕.黄酒品质和酒龄的近红外光谱分析方法研究D.杭州:

浙江大学,2007:

1-15.2尹春丽,丁春晖.昌黎原产地干红葡萄酒的三维荧光光谱特征研究J.分析测试学报,2008,27(6):

641-643.3CortezP,CerdeiraA,AlmeidaF,etal.ModelingwinepreferencesbydataminingfromphysicochemicalpropertiesJ.DecisionSup-portSystems,2009,47(4):

547-553.4闫滨,高真伟,强丽峰.基于LM算法的BP神经网络在大坝安全监控预报中的应用J.沈阳农业大学学报,2009,40(4):

506-509.5张学工.关于统计学习理论与支持向量机J.自动化学报,2000

(1):

32-426洪文学,李昕,徐永红,等.基于多元统计图表示原理的信息融合和模式识别技术M.北京:

国防工业出版社,2008:

50-70.7王金甲,洪文学.二次映射和遗传算法用于鉴别可视化特征提取J.系统仿真学报,2009,21(16):

5080-5083。

8王金甲,洪文学.雷达图图形特征提取中的特征排序J.燕山大学学报,2008,32(5):

421-428图2红葡萄酒数据的主成分可视化图示Fig.2Visualdiagramofprincipalcomponentofredwine第2期王金甲等基于物理化学性质的葡萄酒质量的可视化评价研究137VisualevaluationofwinequalityfromphysicochemicalpropertiesWANGJin-jia1,2,YINTao2,LIJing1,3,HONGWen-xue1,MAChong-xiao4(1.CollegeofElectricalEngineering,YanshanUniversity,Qinhuangdao,Hebei066004,China;

2.CollegeofInformationScienceandEngineer,YanshanUniversity,Qinhuangdao,Hebei066004,China;

3.CollegeofSciences,YanshanUniversity,Qinhuangdao,Hebei066004,China;

4.CollegeofMechanicalandElectricalEngineering,HebeiNormalUniversityofScienceandTechnology,Changli,Hebei066000,China)Abstract:

Avisualizationmethodofevaluationofwinequalityisproposed.Thewinedataarefromthecertificationphaseofthephysicochemicalanalysistest.Thedataincludethe11inputvariables,anoutputvariablewhichisthequalityofwine.Thedatainclude1599samplesofredwineand4898samplesofwhitewine.Theresultprovesthatthevisualizationmethodworksbetterthanthetraditionalneuralnetworksandsupportvectormachinemethod,andhasvisualadvantages.Suchmodelisusefultosupporttheoenologistwinetastingevaluationsandimprovewineproduction.Furthermore,similartechniquescanhelpintargetmarketingbymodelingconsumertastesfromnichemarkets.Keywords:

evaluation;

visualization;

supportvectormachines;

neuralnetworks;

graphicalrepresentationofthemultivariatedata(上接第122页)4DuinRPW,PekalskaE,PaclikP,etal.Thedissimilarityre-presentation,abasisfordomainbasedpatternrecognitionC/GoldfarbL.Patternrepresentationandthefutureofpatternrecog-nition,Cambridge,UK,2004:

43-56.5DuinRPW,RoliF,RidderD.AnoteoncoreresearchissuesforstatisticalpatternrecognitionJ.PatternRecognitionLetters,2002,23(4):

493-499.6EkalskaEP,DuinRPW.Thedissimilarityrepresentationforpatternrecognition.foundationsandapplicationsM.Singapore:

WorldScientific,2005.7GoldfarbL,GayD.Whatisastructuralrepresentation?

Fifthvari-ationR.Fredericton,Canada:

UniversityofNewBrunswick,2005.8GoldfarbL.Onthefoundationsofintelligentprocesses-I.AnevolvingmodelforpatternrecognitionJ.PatternRecognition,1990,23(6):

595-616.9GoldfarbL,GolubitskyO.Whatisastructuralmeasurementpro-cess?

RUniversityofNewBrunswick,Fredericton,Canada,2001.10YanSC,XuD,YangQ,etal.DiscriminantanalysiswithtensorrepresentationC/Proceedingsofthe2005IEEEComputerSo-cietyConferenceonComputerVisionandPatternRecognition(CVPR05),2005:

526-532.11HeXF,CaiD,NiyogiP.TensorsubspaceanalysisC/NinethAnnualConferenceonNeuralInformationProcessingSystems,2005.12DoranC,LasenbyA.GeometricalgebraforphysicistsM.Cambridge:

CambridgeUniversityPress,2003.13DorstL,DoranC,LasenbyJ.ApplicationsofGeometricalAlgebrainComputerScienceandEngineeringM.Cambridge:

BirkhauserBoston,2002.Geometricalgebramulti-vectorrepresentationmethodofpatternfeaturesXUYong-hong,HONGWen-xue,GAOZhi(CollegeofElectricalEngineering,YanshanUniversity,Qinhuangdao,Hebei066004,China)Abstract:

Patternrepresentationisabasicproblemofpatternrecognition.Intraditionalstatisticalpatternrecognitiontheory,patternfeaturesareusuallyrepresentedasanumericvectorandcanbeconsideredasapointinandimensionalEuclideanspace.Thisre-presentationmodelusesonlyoneorderfeatures,ispronetolosetheinterrelationofmultiplefeaturesandhigherorderstructure.Firstlytheaxiomdefinitionofgeometricalgebraandsomebasicconceptsisintroduced,thenthetraditionalpatternvectorrepres-entationisgeneralizedtothemulti-vectorrepresentationingeometricalgebraspace.Twospecialcasesofthisrepresentationarediscussed.Thebasicframeworkofpatternrecognitionbasedonthemulti-vectorrepresentationispresented.Inconclusion,theprospectofgeometricalgebraapplyingtovisualpatternrecognitionandworktodointhefutureareoutlined.Keywords:

patternrecognition;

patternrepresentation;

geometricalgebra;

multi-vector

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2