weka算法参数整理资料下载.pdf-资源下载

weka算法参数整理资料下载.pdf

1、Leverage（杠杆率）P（A,B）-P（A）P（B）；Leverage=0 时 A 和 B 独立，数值越大 A 和 B 的关联性越强。Conviction（确信度）P（A）P（!B）/P（A,!B）（!B 表示 B 没有发生）Conviction 也是用来衡量 A 和 B 的独立性。从它和 lift 的关系（对 B 取反，代入 Lift 公式后求倒数）可以看出，这个值越大,A、B 越关联。minMetric最小度量值0.9根据 metricType 取值不同Confidence（0,1）;lift 1;leverage 0;conviction（0,1）numRules规则数目101,+i

2、nt关联算法产生规则的数目outputItemSets输出项集FalseFalse不输出频繁项集True输出频繁项集removeAllMissingCols移除空列FalseFalse不移除所有值都缺失的列True移除所有值都缺失的列significanceLevel显著性水平-1？（0,1）2检验的显著性水平，-1 则不进行检验。（仅适用于置信度度量）treatZeroAsMissing按照缺失值处理零FalseFalse不按照缺失值的相同方式处理零（标称型的第一个值）True按照缺失值的相同方式处理零（标称型的第一个值）upperBoundMinSupport最小支持度上限1（lowerB

3、oundMinSupport,1迭代过程中最小支持度的上限；迭代过程中从该值开始降低。verbose详细模式FalseFalse算法不以冗余模式运行True算法以冗余模式运行2.聚类聚类2.1.weka 聚类主界面及参数说明2.1.1.聚类算法主界面2.1.2.聚类算法主界面参数说明英文名称中文翻译配置说明Use training set使用训练集使用训练集训练并直接使用训练集测试。Supplied test set提供测试集使用训练集训练模型，从文件中加载一组测试实例，单击“Set.”按钮选择测试文件，进行模型测试。Percentage split分割百分比取出特定百分比的数据作为训练数据，

4、其他作为测试数据。Class to clusters evaluations类作为评估准则比较所选择的簇与预先指定的类的匹配程度。Store cluster for visualization为可视化保存簇选择后训练完成后，保存簇以供可视化使用2.2.SimpleKMeans 算法2.2.1.SimpleKMeans 算法参数配置用户界面和开发模式界面2.2.2.SimpleKMeans 聚类算法参数配置说明英文名称中文翻译默认值取值范围参数说明canopyMaxNumCanopiesToHoldInMemory内存中最大canopy 数目1001,+）如果用 canopy 聚类方法进行初始化

5、，这个参数就是在内存中保存的最大的候选 canopies 数目。canopyMinimumCanopyDensity最低 canopy 密度2.0?在使用 canopy 初始化时，在修剪时的 canopy 最低密度。canopyPeriodicPruningRate修剪周期10000?如果用 canopy 初始化，参数为修剪低密度 canopies 周期。canopyT1Canopy 聚类 T1 半径-1.25（T2,+）canopy 聚类时 T1 半径，当小于 0 时，T1=（-values）*T2。canopyT2Canopy 聚类 T2 半径-1（-,T1）canopy 聚类时 T2 半

6、径，当值为负数时，根据属性标准差求出。debug设置调试模式FalseFalse调试信息不输出True输出调试信息displayStdDevs显示标准差FalseFalse不显示数值属性的标准差，不统计标称属性每类的数目。True显示数值属性的标准差，或统计标称属性没类的数目。distanceFunction距离函数EuclideanDistanceEuclideanDistance欧氏距离Manhattan distance马氏距离doNotCheckCapabilities不检查适用范围FalseFalse在聚类之前，检查聚类器的使用范围。True在聚类之前，不检查聚类器的使用范围。don

7、tReplaceMissingValues不替换缺失值FalseFalse在全局范围内用平均值或中数替换缺失值True不替换fastDistanceCalc加速距离计算FalseFalse根据 cut-off 值加速距离计算True不加速距离计算initializationMethod初始化质心方法RandomRandom随机选取质心k-means+先使用 k-means+聚类算法初始化质心Canopy先使用 Canopy 聚类算法初始化质心farthest first先使用 farthest firsty 聚类算法初始化质心maxIterations最大迭代次数5001,+）迭代过程中达到最

8、大迭代次数结束本次聚类。numClusters簇数目22,N）设定聚类个数，即最后被聚成几类。numExecutionSlots最大执行线程数目11,?设置成可用的 cpu 数目preserveInstancesOrder保持实例顺序FalseFalse保持实例顺序True不保持实例顺序reduceNumberOfDistanceCalcsViaCanopies减少计算距离数目FalseFalse在用 canopy 聚类初始化时，减少计算距离的数目。Trueseed随机数种子10使用的随机数种子，不随机化则该值设为-12.3.EM 聚类算法2.3.1.EM 聚类算法适用范围Class类Attr

9、ibutes属性No classNumericEmpty nominalNominalMissing valuesUnaryBinary2.3.2.EM 聚类算法参数界面2.3.3.EM 聚类算法参数说明英文名称中文翻译默认值取值范围参数说明debug设置调试模式FalseFalse调试信息不输出True输出调试信息displayModelInOldFormat以旧格式显示结果FalseFalse以新的形式输出结果，当聚类数目比较少时比较合适。Ture以旧的形式输出结果，当聚类的数目比较多的时候比较合适。doNotCheckCapabilities不检查适用范围FalseFalse在聚类之前，

10、检查聚类器的使用范围。maxIterations最大迭代次数1001,+）最大的迭代次数maximumNumberOfClusters最大的聚类数目-1-1,1,N聚类数目不超过这个值；当为-1 时，交叉验证自动选择。minLogLikelihoodImprovementIteratingminLogLikelihoodImprovementCVminStdDevnumClusters簇数目-1-1,1,N设定结果中簇的数目。当为-1 时，交叉验证自动确定。设置可用的 cpu 数目numfolds折数10交叉验证的折数，判定最好的聚类数目，其中一折用于验证，其他用于训练。seed随机数种子10

11、使用的随机数种子，不随机化则该值设为-13.分类算法分类算法3.1.分类算法主界面英文名称中文翻译配置说明Use training set使用训练集使用训练集训练并直接使用训练集测试。Cross-validation交叉验证把数据分成 k 份，从第 1 份开始，作为测试数据，其他作为训练数据集，一直到第 k 份结束，验证模型的能力。Percentage split分割百分比取出特定百分比的数据作为训练数据集训练模型，其他数据作为测试数据。以上所述训练数据集和测试数据集均为模型验证时候的数据集，与模型的建立无关，模型建立均用实验提供的全部训练数据集。3.2.分类算法输出选项界面英文名称中文翻译配

12、置说明Output model输出模型输出通过完整训练集得到的分类模型，以便能够浏览、可视化等。Output per-class stats输出每类的统计信息输出每个分类的 TP rate，FPrate，查准率/查全率以及True/False 统计信息。Output entropy evaluation measures？输出熵评估量度输出中包括熵评估度量Output confusion matrix输出混淆矩阵输出中包括分类器对测试数据集预测得到的混淆矩阵Store prediction for visualization为可视化保留预测保存分类器的预测结果，以便可视化。Error plot

13、 point size proportional tomargin？Output prediction输出预测分别以 csv、html、null（不输出）plaintext、xml 格式输出对测试数据集的预测，可输出到指定文件。Cost-sensitive evaluation成本敏感评估成本矩阵用于评估错误率，点击 set 按钮允许用户指定所使用的成本矩阵。Random seed for xval/%split取样的随机种子随机抽取测试数据时产生随机数的种子Preserve order for split取样时保持顺序抽取测试数据集时是否保持数据的顺序抽取，如果不选择此选项，则随机抽取。Ou

14、tput source code输出源代码输出构建模型的 java 源代码，并能指定 java 类的名称。3.3.分类算法评价尺度参数界面及解释CorrectCorrectly classified instances正确分类的实例输出正确分类的个数及其比例IncorrectIncorrectly classified instances错误分类的实例输出错位分类的个数及其比例KappaKappa statisticKappa 统计评价分类器与真实分类之间差异，并考虑到分类器与真实分类偶然一致的情况。取值范围为-1,1。K=1 表示完全与真实分类相同即全部预测正确，k=0 表示与随机分类器相同

15、。此统计量越接近 1 表明分类器越优秀。Total costTotal Cost总代价代价敏感分析中根据代价矩阵计算的总代价。代价越大模型预测越差。Average costAverage Cost平均代价总代价/验证数据集中实例数目。KB relationsK&B Relative Info ScoreKB informationK&B Information ScorecorrelationCorrelation coefficient相关系数预测值与实际值之间的相关系数。（数值性状显示此指标）Complexity 0Class complexity|order 0Complexitysch

16、emeClass complexity|schemeComplexityimprovementComplexityimprovement（Sf）MAEMean absolute error平均绝对误差误差先取绝对值，然后取平均值。RMSERoot mean squared error均方根误差误差取平方，然后取平均值，在取根。RAERelative absolute error相对绝对误差参照附录公式RRSERoot relative squared error相对均方根误差参照附录公式CoverageCoverage of cases（0.95 level）案例的覆盖度region size

17、Mean rel.region size（0.95level）TP rateTP rate真阳性率TP/P=TP/（TP+FN），实际正类中被预测为正类的比例，数值越高，说明预测正类的准确度高，不容易将正类预测为负类。FP rateFP rate假阳性率FP/N=FP/（FP+TN），实际负类中被预测为正类的比例。数值越高，说明分类器越容易将负类预测为正类，分类器效果越差。precisionprecision查准率TP/（TP+FP），被预测为正类中实际正类的比例，数值越高说明预测的越准确。FalloutFP/（TP+FP），1-precision（weka？）recallrecall查全率T

18、P/（TP+FN），被分类器正确预测的正样本比例，数值越高，说明预测正类的准确度高，不容易将正类预测为负类。查全率等于真阳性率。F-measuresF-measuresF 度量2*TP/（2*TP+FP+FN），查准率和查全率的调和平均数。值偏向查准率和查全率较低的数值；较高的 F 度量确保查准率和查全率都比较高。LiftLift提升根据每个MCCMCCMatthews 相关系数MCC=（TP*TN-FP*FN）/（TP+FP）*（TP+FN）*（TN+FP）*（TN+FN）0.5，同时考虑了 FP和 FN，并适用于不平衡问题（两个类的比例相差很大）。取值在-1,1之间，1 代表完美的预测，0

19、代表与随机分类器效果一样，-1 代表预测结果与实际结果完全不一致。ROC areaROC area接受者操作特征曲线下面积0,1越接近 1 说明分类器效果越好，等于0.5 说明分类器和随机分类效果一致。ROC 曲线越靠近左上方，说明分类器的分类效果越好。PRC areaPRC area查准率/查全率曲线下面积显示 PRC 曲线下面积，0,1范围的小数Weighted AvgWeighted Avg加权平均值对各个类的参数加权平均，权重为实际分类中各类占的比例。3.4.分类算法结果可视化英文名称中文翻译描述View in main window在主窗口查看在主窗口中显示输出，与单击该条目的功能

20、相同。View in separate window在单独的窗口查看打开新的独立的窗口显示结果。Save result buffer保存本次运行结果将结果保存到本地磁盘文件Delete result buffer删除本次运行结果直接从缓存中删除本次运行结果Load model加载模型从二进制文件中加载一个预先训练过的模型Save model保存模型将模型对象保存为二进制的文件，对象以 java 序列化对象的格式保存。保存后可以直接加载。Re-evaluate model on currenttest set用当前测试数据集重新评估模型用当前测试数据集重新评估模型，与 Test model 中选

21、择 Supplied test set 效果相同Re-applythismodelsconfiguration？Visualize Classifier errors可视化分类器错误正确分类的实例用十字表示，错误分类的实例用方块表示。Visualize tree查看结果树查看分类的树形图形Visualize margin curve查看边缘曲线Margin定义为预测为实际分类的概率减去预测其他分类中最高概率（分类概率）的差值。差值越接近 1 说明预测越准确，越接近-1 预测效果越差。Visualize threshold curve查看阈值曲线Cost/benefit analysis成本/收

22、益分析Visualize cost curve查看成本曲线3.4.1.Visualize Classifier errors可根据需要选择 X 轴和 Y 轴坐标多分类实际的类表示颜色，如果分类正确则用十字，否则用方块表示。3.4.2.Visualize tree 决策树决策树是根据所有数据训练的模型，与模型验证无关。3.5.J48 算法参数英文名称中文翻译默认值取值范围参数说明binarySplit构建二叉树FalseFalse每个根节点可以有多个叶子节点True每个根节点有两个叶子节点collapseTree折叠树TureTure无论剪掉哪些分支，都不降低训练误差ConfidenceFact

23、or置信系数用于修剪的置信系数（数值越小，导致更多的修剪）debug调试FalseFalse如果设置为 True，输出额外信息到控制台。doNotCheckCapability不检测适用性FalseFalse在分类器构建之前检测分类器的使用范围Ture在分类器构建之前不检测分类器的使用范围doNotMakeSplitPointActualValueminNumObj最少对象数目每个叶子节点中最小的实例数目numFolds折数确定用于减少错误修剪的数据量。一折用于修剪，其余用于生成树ReduceErrorPruning减少误差修剪是否使用减小误差修剪代替 C4.5 修剪。saveInstance

24、Data保存实例数据是否要为可视化保存训练数据seed随机种子使用减少错误修剪时，用于进行subtreeRaising子树提升是否在修剪时考虑子树提升操作unpruned未修剪FalseFalse对生成的决策树进行剪枝Ture不对生成的决策树进行剪枝useLaplace使用 Laplace是否基于 Laplace 对平滑的叶子进行计数useMDLcorrection使用 MDL 矫正是否在查找数值属性分类时使用MDL 矫正4.附录（详细解释）附录（详细解释）4.1.混淆矩阵4.2.Kappa 统计量http:/en.wikipedia.org/wiki/Cohens_kappawiki 解释例

25、子：分类的混淆矩阵预测的类ABC合计实际的类A200222B115319C021012合计21171553overall probability of random agreement:Pr（e）=（21/53）*（22/53）+（17/53）*（19/53）+（15/53）*（12/53）the observed percentage agreement Pr（a）=（20+15+3）/53Kappa=（Pr（a）-Pr（e）/（1-Pr（e）4.3.Margin curve4.4.ROC 曲线4.5.代价敏感学习4.6.MSE，RMSE，MAE，RSE，RRSE，RAE，correlation coefficient 解释4.7.上升图及上升因子的计算对应上图红点信息对应上图蓝点信息。Precision 和 Lift 结果类似，表示随着样本的增加预测精度和提升度的变化。6314Lift=6/（N*Sample Size）/9/N=6/0.5/9=1.33336：为这个阈值点以上样本中 TP 数目N：为样本总数Sample Size：为这个阈值点样本数目占总数目的比例此例子中为 0.59：为全部样本中的 TP

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？