weka算法参数整理资料下载.pdf

上传人:wj 文档编号:5981084 上传时间:2023-05-05 格式:PDF 页数:31 大小:2.12MB
下载 相关 举报
weka算法参数整理资料下载.pdf_第1页
第1页 / 共31页
weka算法参数整理资料下载.pdf_第2页
第2页 / 共31页
weka算法参数整理资料下载.pdf_第3页
第3页 / 共31页
weka算法参数整理资料下载.pdf_第4页
第4页 / 共31页
weka算法参数整理资料下载.pdf_第5页
第5页 / 共31页
weka算法参数整理资料下载.pdf_第6页
第6页 / 共31页
weka算法参数整理资料下载.pdf_第7页
第7页 / 共31页
weka算法参数整理资料下载.pdf_第8页
第8页 / 共31页
weka算法参数整理资料下载.pdf_第9页
第9页 / 共31页
weka算法参数整理资料下载.pdf_第10页
第10页 / 共31页
weka算法参数整理资料下载.pdf_第11页
第11页 / 共31页
weka算法参数整理资料下载.pdf_第12页
第12页 / 共31页
weka算法参数整理资料下载.pdf_第13页
第13页 / 共31页
weka算法参数整理资料下载.pdf_第14页
第14页 / 共31页
weka算法参数整理资料下载.pdf_第15页
第15页 / 共31页
weka算法参数整理资料下载.pdf_第16页
第16页 / 共31页
weka算法参数整理资料下载.pdf_第17页
第17页 / 共31页
weka算法参数整理资料下载.pdf_第18页
第18页 / 共31页
weka算法参数整理资料下载.pdf_第19页
第19页 / 共31页
weka算法参数整理资料下载.pdf_第20页
第20页 / 共31页
亲,该文档总共31页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

weka算法参数整理资料下载.pdf

《weka算法参数整理资料下载.pdf》由会员分享,可在线阅读,更多相关《weka算法参数整理资料下载.pdf(31页珍藏版)》请在冰点文库上搜索。

weka算法参数整理资料下载.pdf

Leverage(杠杆率)P(A,B)-P(A)P(B);

Leverage=0时A和B独立,数值越大A和B的关联性越强。

Conviction(确信度)P(A)P(!

B)/P(A,!

B)(!

B表示B没有发生)Conviction也是用来衡量A和B的独立性。

从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大,A、B越关联。

minMetric最小度量值0.9根据metricType取值不同Confidence(0,1);

lift1;

leverage0;

conviction(0,1)numRules规则数目101,+int关联算法产生规则的数目outputItemSets输出项集FalseFalse不输出频繁项集True输出频繁项集removeAllMissingCols移除空列FalseFalse不移除所有值都缺失的列True移除所有值都缺失的列significanceLevel显著性水平-1?

(0,1)2检验的显著性水平,-1则不进行检验。

(仅适用于置信度度量)treatZeroAsMissing按照缺失值处理零FalseFalse不按照缺失值的相同方式处理零(标称型的第一个值)True按照缺失值的相同方式处理零(标称型的第一个值)upperBoundMinSupport最小支持度上限1(lowerBoundMinSupport,1迭代过程中最小支持度的上限;

迭代过程中从该值开始降低。

verbose详细模式FalseFalse算法不以冗余模式运行True算法以冗余模式运行2.聚类聚类2.1.weka聚类主界面及参数说明2.1.1.聚类算法主界面2.1.2.聚类算法主界面参数说明英文名称中文翻译配置说明Usetrainingset使用训练集使用训练集训练并直接使用训练集测试。

Suppliedtestset提供测试集使用训练集训练模型,从文件中加载一组测试实例,单击“Set.”按钮选择测试文件,进行模型测试。

Percentagesplit分割百分比取出特定百分比的数据作为训练数据,其他作为测试数据。

Classtoclustersevaluations类作为评估准则比较所选择的簇与预先指定的类的匹配程度。

Storeclusterforvisualization为可视化保存簇选择后训练完成后,保存簇以供可视化使用2.2.SimpleKMeans算法2.2.1.SimpleKMeans算法参数配置用户界面和开发模式界面2.2.2.SimpleKMeans聚类算法参数配置说明英文名称中文翻译默认值取值范围参数说明canopyMaxNumCanopiesToHoldInMemory内存中最大canopy数目1001,+)如果用canopy聚类方法进行初始化,这个参数就是在内存中保存的最大的候选canopies数目。

canopyMinimumCanopyDensity最低canopy密度2.0?

在使用canopy初始化时,在修剪时的canopy最低密度。

canopyPeriodicPruningRate修剪周期10000?

如果用canopy初始化,参数为修剪低密度canopies周期。

canopyT1Canopy聚类T1半径-1.25(T2,+)canopy聚类时T1半径,当小于0时,T1=(-values)*T2。

canopyT2Canopy聚类T2半径-1(-,T1)canopy聚类时T2半径,当值为负数时,根据属性标准差求出。

debug设置调试模式FalseFalse调试信息不输出True输出调试信息displayStdDevs显示标准差FalseFalse不显示数值属性的标准差,不统计标称属性每类的数目。

True显示数值属性的标准差,或统计标称属性没类的数目。

distanceFunction距离函数EuclideanDistanceEuclideanDistance欧氏距离Manhattandistance马氏距离doNotCheckCapabilities不检查适用范围FalseFalse在聚类之前,检查聚类器的使用范围。

True在聚类之前,不检查聚类器的使用范围。

dontReplaceMissingValues不替换缺失值FalseFalse在全局范围内用平均值或中数替换缺失值True不替换fastDistanceCalc加速距离计算FalseFalse根据cut-off值加速距离计算True不加速距离计算initializationMethod初始化质心方法RandomRandom随机选取质心k-means+先使用k-means+聚类算法初始化质心Canopy先使用Canopy聚类算法初始化质心farthestfirst先使用farthestfirsty聚类算法初始化质心maxIterations最大迭代次数5001,+)迭代过程中达到最大迭代次数结束本次聚类。

numClusters簇数目22,N)设定聚类个数,即最后被聚成几类。

numExecutionSlots最大执行线程数目11,?

设置成可用的cpu数目preserveInstancesOrder保持实例顺序FalseFalse保持实例顺序True不保持实例顺序reduceNumberOfDistanceCalcsViaCanopies减少计算距离数目FalseFalse在用canopy聚类初始化时,减少计算距离的数目。

Trueseed随机数种子10使用的随机数种子,不随机化则该值设为-12.3.EM聚类算法2.3.1.EM聚类算法适用范围Class类Attributes属性NoclassNumericEmptynominalNominalMissingvaluesUnaryBinary2.3.2.EM聚类算法参数界面2.3.3.EM聚类算法参数说明英文名称中文翻译默认值取值范围参数说明debug设置调试模式FalseFalse调试信息不输出True输出调试信息displayModelInOldFormat以旧格式显示结果FalseFalse以新的形式输出结果,当聚类数目比较少时比较合适。

Ture以旧的形式输出结果,当聚类的数目比较多的时候比较合适。

doNotCheckCapabilities不检查适用范围FalseFalse在聚类之前,检查聚类器的使用范围。

maxIterations最大迭代次数1001,+)最大的迭代次数maximumNumberOfClusters最大的聚类数目-1-1,1,N聚类数目不超过这个值;

当为-1时,交叉验证自动选择。

minLogLikelihoodImprovementIteratingminLogLikelihoodImprovementCVminStdDevnumClusters簇数目-1-1,1,N设定结果中簇的数目。

当为-1时,交叉验证自动确定。

设置可用的cpu数目numfolds折数10交叉验证的折数,判定最好的聚类数目,其中一折用于验证,其他用于训练。

seed随机数种子10使用的随机数种子,不随机化则该值设为-13.分类算法分类算法3.1.分类算法主界面英文名称中文翻译配置说明Usetrainingset使用训练集使用训练集训练并直接使用训练集测试。

Cross-validation交叉验证把数据分成k份,从第1份开始,作为测试数据,其他作为训练数据集,一直到第k份结束,验证模型的能力。

Percentagesplit分割百分比取出特定百分比的数据作为训练数据集训练模型,其他数据作为测试数据。

以上所述训练数据集和测试数据集均为模型验证时候的数据集,与模型的建立无关,模型建立均用实验提供的全部训练数据集。

3.2.分类算法输出选项界面英文名称中文翻译配置说明Outputmodel输出模型输出通过完整训练集得到的分类模型,以便能够浏览、可视化等。

Outputper-classstats输出每类的统计信息输出每个分类的TPrate,FPrate,查准率/查全率以及True/False统计信息。

Outputentropyevaluationmeasures?

输出熵评估量度输出中包括熵评估度量Outputconfusionmatrix输出混淆矩阵输出中包括分类器对测试数据集预测得到的混淆矩阵Storepredictionforvisualization为可视化保留预测保存分类器的预测结果,以便可视化。

Errorplotpointsizeproportionaltomargin?

Outputprediction输出预测分别以csv、html、null(不输出)plaintext、xml格式输出对测试数据集的预测,可输出到指定文件。

Cost-sensitiveevaluation成本敏感评估成本矩阵用于评估错误率,点击set按钮允许用户指定所使用的成本矩阵。

Randomseedforxval/%split取样的随机种子随机抽取测试数据时产生随机数的种子Preserveorderforsplit取样时保持顺序抽取测试数据集时是否保持数据的顺序抽取,如果不选择此选项,则随机抽取。

Outputsourcecode输出源代码输出构建模型的java源代码,并能指定java类的名称。

3.3.分类算法评价尺度参数界面及解释CorrectCorrectlyclassifiedinstances正确分类的实例输出正确分类的个数及其比例IncorrectIncorrectlyclassifiedinstances错误分类的实例输出错位分类的个数及其比例KappaKappastatisticKappa统计评价分类器与真实分类之间差异,并考虑到分类器与真实分类偶然一致的情况。

取值范围为-1,1。

K=1表示完全与真实分类相同即全部预测正确,k=0表示与随机分类器相同。

此统计量越接近1表明分类器越优秀。

TotalcostTotalCost总代价代价敏感分析中根据代价矩阵计算的总代价。

代价越大模型预测越差。

AveragecostAverageCost平均代价总代价/验证数据集中实例数目。

KBrelationsK&

BRelativeInfoScoreKBinformationK&

BInformationScorecorrelationCorrelationcoefficient相关系数预测值与实际值之间的相关系数。

(数值性状显示此指标)Complexity0Classcomplexity|order0ComplexityschemeClasscomplexity|schemeComplexityimprovementComplexityimprovement(Sf)MAEMeanabsoluteerror平均绝对误差误差先取绝对值,然后取平均值。

RMSERootmeansquarederror均方根误差误差取平方,然后取平均值,在取根。

RAERelativeabsoluteerror相对绝对误差参照附录公式RRSERootrelativesquarederror相对均方根误差参照附录公式CoverageCoverageofcases(0.95level)案例的覆盖度regionsizeMeanrel.regionsize(0.95level)TPrateTPrate真阳性率TP/P=TP/(TP+FN),实际正类中被预测为正类的比例,数值越高,说明预测正类的准确度高,不容易将正类预测为负类。

FPrateFPrate假阳性率FP/N=FP/(FP+TN),实际负类中被预测为正类的比例。

数值越高,说明分类器越容易将负类预测为正类,分类器效果越差。

precisionprecision查准率TP/(TP+FP),被预测为正类中实际正类的比例,数值越高说明预测的越准确。

FalloutFP/(TP+FP),1-precision(weka?

)recallrecall查全率TP/(TP+FN),被分类器正确预测的正样本比例,数值越高,说明预测正类的准确度高,不容易将正类预测为负类。

查全率等于真阳性率。

F-measuresF-measuresF度量2*TP/(2*TP+FP+FN),查准率和查全率的调和平均数。

值偏向查准率和查全率较低的数值;

较高的F度量确保查准率和查全率都比较高。

LiftLift提升根据每个MCCMCCMatthews相关系数MCC=(TP*TN-FP*FN)/(TP+FP)*(TP+FN)*(TN+FP)*(TN+FN)0.5,同时考虑了FP和FN,并适用于不平衡问题(两个类的比例相差很大)。

取值在-1,1之间,1代表完美的预测,0代表与随机分类器效果一样,-1代表预测结果与实际结果完全不一致。

ROCareaROCarea接受者操作特征曲线下面积0,1越接近1说明分类器效果越好,等于0.5说明分类器和随机分类效果一致。

ROC曲线越靠近左上方,说明分类器的分类效果越好。

PRCareaPRCarea查准率/查全率曲线下面积显示PRC曲线下面积,0,1范围的小数WeightedAvgWeightedAvg加权平均值对各个类的参数加权平均,权重为实际分类中各类占的比例。

3.4.分类算法结果可视化英文名称中文翻译描述Viewinmainwindow在主窗口查看在主窗口中显示输出,与单击该条目的功能相同。

Viewinseparatewindow在单独的窗口查看打开新的独立的窗口显示结果。

Saveresultbuffer保存本次运行结果将结果保存到本地磁盘文件Deleteresultbuffer删除本次运行结果直接从缓存中删除本次运行结果Loadmodel加载模型从二进制文件中加载一个预先训练过的模型Savemodel保存模型将模型对象保存为二进制的文件,对象以java序列化对象的格式保存。

保存后可以直接加载。

Re-evaluatemodeloncurrenttestset用当前测试数据集重新评估模型用当前测试数据集重新评估模型,与Testmodel中选择Suppliedtestset效果相同Re-applythismodelsconfiguration?

VisualizeClassifiererrors可视化分类器错误正确分类的实例用十字表示,错误分类的实例用方块表示。

Visualizetree查看结果树查看分类的树形图形Visualizemargincurve查看边缘曲线Margin定义为预测为实际分类的概率减去预测其他分类中最高概率(分类概率)的差值。

差值越接近1说明预测越准确,越接近-1预测效果越差。

Visualizethresholdcurve查看阈值曲线Cost/benefitanalysis成本/收益分析Visualizecostcurve查看成本曲线3.4.1.VisualizeClassifiererrors可根据需要选择X轴和Y轴坐标多分类实际的类表示颜色,如果分类正确则用十字,否则用方块表示。

3.4.2.Visualizetree决策树决策树是根据所有数据训练的模型,与模型验证无关。

3.5.J48算法参数英文名称中文翻译默认值取值范围参数说明binarySplit构建二叉树FalseFalse每个根节点可以有多个叶子节点True每个根节点有两个叶子节点collapseTree折叠树TureTure无论剪掉哪些分支,都不降低训练误差ConfidenceFactor置信系数用于修剪的置信系数(数值越小,导致更多的修剪)debug调试FalseFalse如果设置为True,输出额外信息到控制台。

doNotCheckCapability不检测适用性FalseFalse在分类器构建之前检测分类器的使用范围Ture在分类器构建之前不检测分类器的使用范围doNotMakeSplitPointActualValueminNumObj最少对象数目每个叶子节点中最小的实例数目numFolds折数确定用于减少错误修剪的数据量。

一折用于修剪,其余用于生成树ReduceErrorPruning减少误差修剪是否使用减小误差修剪代替C4.5修剪。

saveInstanceData保存实例数据是否要为可视化保存训练数据seed随机种子使用减少错误修剪时,用于进行subtreeRaising子树提升是否在修剪时考虑子树提升操作unpruned未修剪FalseFalse对生成的决策树进行剪枝Ture不对生成的决策树进行剪枝useLaplace使用Laplace是否基于Laplace对平滑的叶子进行计数useMDLcorrection使用MDL矫正是否在查找数值属性分类时使用MDL矫正4.附录(详细解释)附录(详细解释)4.1.混淆矩阵4.2.Kappa统计量http:

/en.wikipedia.org/wiki/Cohens_kappawiki解释例子:

分类的混淆矩阵预测的类ABC合计实际的类A200222B115319C021012合计21171553overallprobabilityofrandomagreement:

Pr(e)=(21/53)*(22/53)+(17/53)*(19/53)+(15/53)*(12/53)theobservedpercentageagreementPr(a)=(20+15+3)/53Kappa=(Pr(a)-Pr(e)/(1-Pr(e)4.3.Margincurve4.4.ROC曲线4.5.代价敏感学习4.6.MSE,RMSE,MAE,RSE,RRSE,RAE,correlationcoefficient解释4.7.上升图及上升因子的计算对应上图红点信息对应上图蓝点信息。

Precision和Lift结果类似,表示随着样本的增加预测精度和提升度的变化。

6314Lift=6/(N*SampleSize)/9/N=6/0.5/9=1.33336:

为这个阈值点以上样本中TP数目N:

为样本总数SampleSize:

为这个阈值点样本数目占总数目的比例此例子中为0.59:

为全部样本中的TP

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2