ImageVerifierCode 换一换
格式:PDF , 页数:31 ,大小:2.12MB ,
资源ID:5981084      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-5981084.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(weka算法参数整理资料下载.pdf)为本站会员(wj)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

weka算法参数整理资料下载.pdf

1、Leverage(杠杆率)P(A,B)-P(A)P(B);Leverage=0 时 A 和 B 独立,数值越大 A 和 B 的关联性越强。Conviction(确信度)P(A)P(!B)/P(A,!B)(!B 表示 B 没有发生)Conviction 也是用来衡量 A 和 B 的独立性。从它和 lift 的关系(对 B 取反,代入 Lift 公式后求倒数)可以看出,这个值越大,A、B 越关联。minMetric最小度量值0.9根据 metricType 取值不同Confidence(0,1);lift 1;leverage 0;conviction(0,1)numRules规则数目101,+i

2、nt关联算法产生规则的数目outputItemSets输出项集FalseFalse不输出频繁项集True输出频繁项集removeAllMissingCols移除空列FalseFalse不移除所有值都缺失的列True移除所有值都缺失的列significanceLevel显著性水平-1?(0,1)2检验的显著性水平,-1 则不进行检验。(仅适用于置信度度量)treatZeroAsMissing按照缺失值处理零FalseFalse不按照缺失值的相同方式处理零(标称型的第一个值)True按照缺失值的相同方式处理零(标称型的第一个值)upperBoundMinSupport最小支持度上限1(lowerB

3、oundMinSupport,1迭代过程中最小支持度的上限;迭代过程中从该值开始降低。verbose详细模式FalseFalse算法不以冗余模式运行True算法以冗余模式运行2.聚类聚类2.1.weka 聚类主界面及参数说明2.1.1.聚类算法主界面2.1.2.聚类算法主界面参数说明英文名称中文翻译配置说明Use training set使用训练集使用训练集训练并直接使用训练集测试。Supplied test set提供测试集使用训练集训练模型,从文件中加载一组测试实例,单击“Set.”按钮选择测试文件,进行模型测试。Percentage split分割百分比取出特定百分比的数据作为训练数据,

4、其他作为测试数据。Class to clusters evaluations类作为评估准则比较所选择的簇与预先指定的类的匹配程度。Store cluster for visualization为可视化保存簇选择后训练完成后,保存簇以供可视化使用2.2.SimpleKMeans 算法2.2.1.SimpleKMeans 算法参数配置用户界面和开发模式界面2.2.2.SimpleKMeans 聚类算法参数配置说明英文名称中文翻译默认值取值范围参数说明canopyMaxNumCanopiesToHoldInMemory内存中最大canopy 数目1001,+)如果用 canopy 聚类方法进行初始化

5、,这个参数就是在内存中保存的最大的候选 canopies 数目。canopyMinimumCanopyDensity最低 canopy 密度2.0?在使用 canopy 初始化时,在修剪时的 canopy 最低密度。canopyPeriodicPruningRate修剪周期10000?如果用 canopy 初始化,参数为修剪低密度 canopies 周期。canopyT1Canopy 聚类 T1 半径-1.25(T2,+)canopy 聚类时 T1 半径,当小于 0 时,T1=(-values)*T2。canopyT2Canopy 聚类 T2 半径-1(-,T1)canopy 聚类时 T2 半

6、径,当值为负数时,根据属性标准差求出。debug设置调试模式FalseFalse调试信息不输出True输出调试信息displayStdDevs显示标准差FalseFalse不显示数值属性的标准差,不统计标称属性每类的数目。True显示数值属性的标准差,或统计标称属性没类的数目。distanceFunction距离函数EuclideanDistanceEuclideanDistance欧氏距离Manhattan distance马氏距离doNotCheckCapabilities不检查适用范围FalseFalse在聚类之前,检查聚类器的使用范围。True在聚类之前,不检查聚类器的使用范围。don

7、tReplaceMissingValues不替换缺失值FalseFalse在全局范围内用平均值或中数替换缺失值True不替换fastDistanceCalc加速距离计算FalseFalse根据 cut-off 值加速距离计算True不加速距离计算initializationMethod初始化质心方法RandomRandom随机选取质心k-means+先使用 k-means+聚类算法初始化质心Canopy先使用 Canopy 聚类算法初始化质心farthest first先使用 farthest firsty 聚类算法初始化质心maxIterations最大迭代次数5001,+)迭代过程中达到最

8、大迭代次数结束本次聚类。numClusters簇数目22,N)设定聚类个数,即最后被聚成几类。numExecutionSlots最大执行线程数目11,?设置成可用的 cpu 数目preserveInstancesOrder保持实例顺序FalseFalse保持实例顺序True不保持实例顺序reduceNumberOfDistanceCalcsViaCanopies减少计算距离数目FalseFalse在用 canopy 聚类初始化时,减少计算距离的数目。Trueseed随机数种子10使用的随机数种子,不随机化则该值设为-12.3.EM 聚类算法2.3.1.EM 聚类算法适用范围Class类Attr

9、ibutes属性No classNumericEmpty nominalNominalMissing valuesUnaryBinary2.3.2.EM 聚类算法参数界面2.3.3.EM 聚类算法参数说明英文名称中文翻译默认值取值范围参数说明debug设置调试模式FalseFalse调试信息不输出True输出调试信息displayModelInOldFormat以旧格式显示结果FalseFalse以新的形式输出结果,当聚类数目比较少时比较合适。Ture以旧的形式输出结果,当聚类的数目比较多的时候比较合适。doNotCheckCapabilities不检查适用范围FalseFalse在聚类之前,

10、检查聚类器的使用范围。maxIterations最大迭代次数1001,+)最大的迭代次数maximumNumberOfClusters最大的聚类数目-1-1,1,N聚类数目不超过这个值;当为-1 时,交叉验证自动选择。minLogLikelihoodImprovementIteratingminLogLikelihoodImprovementCVminStdDevnumClusters簇数目-1-1,1,N设定结果中簇的数目。当为-1 时,交叉验证自动确定。设置可用的 cpu 数目numfolds折数10交叉验证的折数,判定最好的聚类数目,其中一折用于验证,其他用于训练。seed随机数种子10

11、使用的随机数种子,不随机化则该值设为-13.分类算法分类算法3.1.分类算法主界面英文名称中文翻译配置说明Use training set使用训练集使用训练集训练并直接使用训练集测试。Cross-validation交叉验证把数据分成 k 份,从第 1 份开始,作为测试数据,其他作为训练数据集,一直到第 k 份结束,验证模型的能力。Percentage split分割百分比取出特定百分比的数据作为训练数据集训练模型,其他数据作为测试数据。以上所述训练数据集和测试数据集均为模型验证时候的数据集,与模型的建立无关,模型建立均用实验提供的全部训练数据集。3.2.分类算法输出选项界面英文名称中文翻译配

12、置说明Output model输出模型输出通过完整训练集得到的分类模型,以便能够浏览、可视化等。Output per-class stats输出每类的统计信息输出每个分类的 TP rate,FPrate,查准率/查全率以及True/False 统计信息。Output entropy evaluation measures?输出熵评估量度输出中包括熵评估度量Output confusion matrix输出混淆矩阵输出中包括分类器对测试数据集预测得到的混淆矩阵Store prediction for visualization为可视化保留预测保存分类器的预测结果,以便可视化。Error plot

13、 point size proportional tomargin?Output prediction输出预测分别以 csv、html、null(不输出)plaintext、xml 格式输出对测试数据集的预测,可输出到指定文件。Cost-sensitive evaluation成本敏感评估成本矩阵用于评估错误率,点击 set 按钮允许用户指定所使用的成本矩阵。Random seed for xval/%split取样的随机种子随机抽取测试数据时产生随机数的种子Preserve order for split取样时保持顺序抽取测试数据集时是否保持数据的顺序抽取,如果不选择此选项,则随机抽取。Ou

14、tput source code输出源代码输出构建模型的 java 源代码,并能指定 java 类的名称。3.3.分类算法评价尺度参数界面及解释CorrectCorrectly classified instances正确分类的实例输出正确分类的个数及其比例IncorrectIncorrectly classified instances错误分类的实例输出错位分类的个数及其比例KappaKappa statisticKappa 统计评价分类器与真实分类之间差异,并考虑到分类器与真实分类偶然一致的情况。取值范围为-1,1。K=1 表示完全与真实分类相同即全部预测正确,k=0 表示与随机分类器相同

15、。此统计量越接近 1 表明分类器越优秀。Total costTotal Cost总代价代价敏感分析中根据代价矩阵计算的总代价。代价越大模型预测越差。Average costAverage Cost平均代价总代价/验证数据集中实例数目。KB relationsK&B Relative Info ScoreKB informationK&B Information ScorecorrelationCorrelation coefficient相关系数预测值与实际值之间的相关系数。(数值性状显示此指标)Complexity 0Class complexity|order 0Complexitysch

16、emeClass complexity|schemeComplexityimprovementComplexityimprovement(Sf)MAEMean absolute error平均绝对误差误差先取绝对值,然后取平均值。RMSERoot mean squared error均方根误差误差取平方,然后取平均值,在取根。RAERelative absolute error相对绝对误差参照附录公式RRSERoot relative squared error相对均方根误差参照附录公式CoverageCoverage of cases(0.95 level)案例的覆盖度region size

17、Mean rel.region size(0.95level)TP rateTP rate真阳性率TP/P=TP/(TP+FN),实际正类中被预测为正类的比例,数值越高,说明预测正类的准确度高,不容易将正类预测为负类。FP rateFP rate假阳性率FP/N=FP/(FP+TN),实际负类中被预测为正类的比例。数值越高,说明分类器越容易将负类预测为正类,分类器效果越差。precisionprecision查准率TP/(TP+FP),被预测为正类中实际正类的比例,数值越高说明预测的越准确。FalloutFP/(TP+FP),1-precision(weka?)recallrecall查全率T

18、P/(TP+FN),被分类器正确预测的正样本比例,数值越高,说明预测正类的准确度高,不容易将正类预测为负类。查全率等于真阳性率。F-measuresF-measuresF 度量2*TP/(2*TP+FP+FN),查准率和查全率的调和平均数。值偏向查准率和查全率较低的数值;较高的 F 度量确保查准率和查全率都比较高。LiftLift提升根据每个MCCMCCMatthews 相关系数MCC=(TP*TN-FP*FN)/(TP+FP)*(TP+FN)*(TN+FP)*(TN+FN)0.5,同时考虑了 FP和 FN,并适用于不平衡问题(两个类的比例相差很大)。取值在-1,1之间,1 代表完美的预测,0

19、 代表与随机分类器效果一样,-1 代表预测结果与实际结果完全不一致。ROC areaROC area接受者操作特征曲线下面积0,1越接近 1 说明分类器效果越好,等于0.5 说明分类器和随机分类效果一致。ROC 曲线越靠近左上方,说明分类器的分类效果越好。PRC areaPRC area查准率/查全率曲线下面积显示 PRC 曲线下面积,0,1范围的小数Weighted AvgWeighted Avg加权平均值对各个类的参数加权平均,权重为实际分类中各类占的比例。3.4.分类算法结果可视化英文名称中文翻译描述View in main window在主窗口查看在主窗口中显示输出,与单击该条目的功能

20、相同。View in separate window在单独的窗口查看打开新的独立的窗口显示结果。Save result buffer保存本次运行结果将结果保存到本地磁盘文件Delete result buffer删除本次运行结果直接从缓存中删除本次运行结果Load model加载模型从二进制文件中加载一个预先训练过的模型Save model保存模型将模型对象保存为二进制的文件,对象以 java 序列化对象的格式保存。保存后可以直接加载。Re-evaluate model on currenttest set用当前测试数据集重新评估模型用当前测试数据集重新评估模型,与 Test model 中选

21、择 Supplied test set 效果相同Re-applythismodelsconfiguration?Visualize Classifier errors可视化分类器错误正确分类的实例用十字表示,错误分类的实例用方块表示。Visualize tree查看结果树查看分类的树形图形Visualize margin curve查看边缘曲线Margin定义为预测为实际分类的概率减去预测其他分类中最高概率(分类概率)的差值。差值越接近 1 说明预测越准确,越接近-1 预测效果越差。Visualize threshold curve查看阈值曲线Cost/benefit analysis成本/收

22、益分析Visualize cost curve查看成本曲线3.4.1.Visualize Classifier errors可根据需要选择 X 轴和 Y 轴坐标多分类实际的类表示颜色,如果分类正确则用十字,否则用方块表示。3.4.2.Visualize tree 决策树决策树是根据所有数据训练的模型,与模型验证无关。3.5.J48 算法参数英文名称中文翻译默认值取值范围参数说明binarySplit构建二叉树FalseFalse每个根节点可以有多个叶子节点True每个根节点有两个叶子节点collapseTree折叠树TureTure无论剪掉哪些分支,都不降低训练误差ConfidenceFact

23、or置信系数用于修剪的置信系数(数值越小,导致更多的修剪)debug调试FalseFalse如果设置为 True,输出额外信息到控制台。doNotCheckCapability不检测适用性FalseFalse在分类器构建之前检测分类器的使用范围Ture在分类器构建之前不检测分类器的使用范围doNotMakeSplitPointActualValueminNumObj最少对象数目每个叶子节点中最小的实例数目numFolds折数确定用于减少错误修剪的数据量。一折用于修剪,其余用于生成树ReduceErrorPruning减少误差修剪是否使用减小误差修剪代替 C4.5 修剪。saveInstance

24、Data保存实例数据是否要为可视化保存训练数据seed随机种子使用减少错误修剪时,用于进行subtreeRaising子树提升是否在修剪时考虑子树提升操作unpruned未修剪FalseFalse对生成的决策树进行剪枝Ture不对生成的决策树进行剪枝useLaplace使用 Laplace是否基于 Laplace 对平滑的叶子进行计数useMDLcorrection使用 MDL 矫正是否在查找数值属性分类时使用MDL 矫正4.附录(详细解释)附录(详细解释)4.1.混淆矩阵4.2.Kappa 统计量http:/en.wikipedia.org/wiki/Cohens_kappawiki 解释例

25、子:分类的混淆矩阵预测的类ABC合计实际的类A200222B115319C021012合计21171553overall probability of random agreement:Pr(e)=(21/53)*(22/53)+(17/53)*(19/53)+(15/53)*(12/53)the observed percentage agreement Pr(a)=(20+15+3)/53Kappa=(Pr(a)-Pr(e)/(1-Pr(e)4.3.Margin curve4.4.ROC 曲线4.5.代价敏感学习4.6.MSE,RMSE,MAE,RSE,RRSE,RAE,correlation coefficient 解释4.7.上升图及上升因子的计算对应上图红点信息对应上图蓝点信息。Precision 和 Lift 结果类似,表示随着样本的增加预测精度和提升度的变化。6314Lift=6/(N*Sample Size)/9/N=6/0.5/9=1.33336:为这个阈值点以上样本中 TP 数目N:为样本总数Sample Size:为这个阈值点样本数目占总数目的比例此例子中为 0.59:为全部样本中的 TP

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2