(4.05)>lev:
(0.08)[45]conv:
(1.85)
请说明其中113、61、conf:
(0.54)都表示什么含义?
实验三基于NaïveBayes的信息获取
一、实验名称:
基于NaïveBayes的信息获取
二、实验目的:
通过一个已有的训练数据集,观察训练集中的实例,,建立Bayes网络的预测模型,更好地理解和掌握Bayes算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。
三、实验要求
1、熟悉Weka平台
2、掌握NaïveBayes算法
3、对数据进行预处理,利用Weka和不同参数设置进行关联分析,对比结果,得出结论,对问题进行总结。
四、实验平台
新西兰怀卡托大学研制的Weka系统
五、试验数据
1、使用银行对资产进行评估的数据bank-data.arf,数据里有12个属性,分别是id,age,sex,region,income,married,children,car,save_act,current_act,mortgage,pep.共600个实例。
2、将含有600个实例的“bank-data.csv”文件中取出300个实例用做训练集,在另外300个实例中取50个作为待预测的实例。
3、本测试集中将pep属性作为分类的目标类别,因此将其设为缺失值.缺失值用?
表示。
六、试验方法和步骤
1、数据准备
(1)将原来的“bank-data.csv”文件转化为arff文件“bank-data.csv.arff”。
(2)“ID”属性不需要的去掉。
(3)把“Children”属性转换成分类型的两个值“YES”和“NO”。
(4)将“bank-data.csv.arff”文件的600条数据中前300条数据作为训练数据集,并保存为文件。
(5)从后300条数据里抽取50条数据作为测试数据集,它们的“pep”属性都设为缺失值,并保存为文件。
2、训练过程
(1)用“Explorer”打开训练集,观察一下它是不是按照前面的要求处理好了。
(2)切换到“Classify”选项卡。
(3)点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。
树型框下方有一个“Filter...”按钮,点击可以根据数据集的特性过滤掉不合适的算法。
我们数据集的输入属性中有“Binary”型(即只有两个类的分类型)和数值型的属性,而Class变量是“Binary”的;于是我们勾选“Binaryattributes”“Numericattributes”和“Binaryclass”。
(4)点“OK”后回到树形图,可以发现一些算法名称变红了,说明它们不能选用。
(5)点击“Choose”右边的文本框,弹出新窗口为该算法设置各种参数。
点“More”查看参数说明,点“Capabilities”是查看算法适用范围。
这里我们把参数保持默认。
(6)看左中的“TestOption”。
我们没有专门设置检验数据集,为了保证生成的模型的准确性而不至于出现过拟合(overfitting)的现象,我们有必要采用10折交叉验证(10-foldcrossvalidation)来选择和评估模型,选上“Cross-validation”并在“Folds”框填上“10”。
(7)点“Start”按钮开始让算法生成Bayes模型。
这个模型的误差分析等等结果将出现在右边的“Classifieroutput”中。
同时左下的“Resultslist”出现了一个项目显示刚才的时间和算法名称。
(8)右键点击“Resultslist”刚才出现的那一项,弹出菜单中选择“Visualizetree”,可以看到可视化结果。
3、测试过程
(1)注意待预测数据集和训练用数据集各个属性的设置必须是一致的。
(2)在“TestOpion”中选择“Suppliedtestset”,并且“Set”成要应用模型的数据集,这里是“bank-new.arff”文件。
(3)右键点击“Resultlist”中刚产生的那一项,选择“Re-evaluatemodeloncurrenttestset”。
右边显示结果的区域中会增加一些内容,告诉你该模型应用在这个数据集上表现将如何。
我们的Class属性都是些缺失值,那这些内容是无意义的,我们关注的是模型在新数据集上的预测值。
(4)点击右键菜单中的“Visualizeclassifiererrors”,将弹出一个新窗口显示一些有关预测误差的散点,点击这个新窗口中的“Save”按钮,保存一个Arff文件。
(5)打开这个文件可以看到在倒数第二个位置多了一个属性(predictedpep),这个属性上的值就是模型对每个实例的预测值,点“Edit”按钮可以查看这个数据集的内容。
七、通过实验,要求同学在贝叶斯信息获取实验中解决以下问题,并递交完整的实验报告
1、在数据预处理中,通过转换与否的实验比较,判断是否一定要把“Children”属性转换成分类型的两个值“YES”“NO”。
2、在算法选择时,点击“Choose”按钮后可以看到哪些分类的算法分门别类的列在一个树型框里?
将些数据截图,在实验报告中进行详解。
3、点击“Choose”右边的文本框,弹出新窗口为该算法设置各种参数。
点“More”查看参数说明,点“Capabilities”查看算法适用范围。
请在实验报告中详解的参数设置情况。
4、请介绍你建立好的模型以及对该模型的误差分析等结果,如:
出现在“Classifieroutput”中的模型准确度等,将这些数据截图,在实验报告中进行详解。
5、如果你的模型准确度不高,你是怎样通过修改算法的参数来提高准确度?
实验四基于决策树的分类学习方法
一、实验名称:
基于决策树的分类学习方法
二、实验目的:
通过一个已有的训练数据集,观察训练集中的实例,建立基于决策树的预测模型,更好地理解和掌握决策树算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。
三、实验要求
1、熟悉Weka平台
2、掌握决策树算法
3、对数据进行预处理,利用Weka和不同参数设置进行分类,对比结果,得出结论,对问题进行总结。
四、实验平台
新西兰怀卡托大学研制的Weka系统
五、实验数据
1、使用银行对资产进行评估的数据bank-data.arf,数据里有12个属性,分别是id,age,sex,region,income,married,children,car,save_act,current_act,mortgage,pep.共600个实例。
2、将含有600个实例的“bank-data.csv”文件中取出300个实例用做训练集,在另外300个实例中取50个作为待预测的实例。
3、本测试集中将pep属性作为分类的目标类别,因此将其设为缺失值.缺失值用?
表示。
六、实验方法和步骤
1、数据准备
(1)将原来的“bank-data.csv”文件转化为arff文件“bank-data.csv.arff”。
(2)“ID”属性不需要的去掉。
(3)把“Children”属性转换成分类型的两个值“YES”和“NO”。
(4)将“bank-data.csv.arff”文件的600条数据中前300条数据作为训练数据集,并保存为文件。
(5)从后300条数据里抽取50条数据作为测试数据集,它们的“pep”属性都设为缺失值,并保存为文件。
2、训练过程
(1)用“Explorer”打开训练集,观察一下它是不是按照前面的要求处理好了。
(2)切换到“Classify”选项卡。
(3)点击“Classify”选项卡。
单击左上方的Choose按钮,在随后打开的层级式菜单中的tree部分找到J48。
(4)选中J48分类器后,J48以及它的相关默认参数值出现在Choose按钮旁边的条形框中。
单击这个条形框会打开J48分类器的对象编辑器,编辑器会显示J48的各个参数的含义。
根据实际情况选择适当的参数,Explore通常会合理地设定这些参数的默认值。
(5)看左中的“TestOption”。
我们没有专门设置检验数据集,为了保证生成的模型的准确性而不至于出现过拟合(overfitting)的现象,我们有必要采用10折交叉验证(10-foldcrossvalidation)来选择和评估模型,选上“Cross-validation”并在“Folds”框填上“10”。
(6)点“Start”按钮开始让算法生成Bayes模型。
这个模型的误差分析等等结果将出现在右边的“Classifieroutput”中。
同时左下的“Resultslist”出现了一个项目显示刚才的时间和算法名称。
(7)右键点击“Resultslist”刚才出现的那一项,弹出菜单中选择“Visualizetree”,新窗口里可以看到图形模式的决策树。
建议把这个新窗口最大化,然后点右键,选“Fittoscreen”,可以把这个树看清楚些。
3、测试过程
(1)注意待预测数据集和训练用数据集各个属性的设置必须是一致的。
(2)在“TestOpion”中选择“Suppliedtestset”,并且“Set”成要应用模型的数据集,这里是“bank-new.arff”文件。
(3)右键点击“Resultlist”中刚产生的那一项,选择“Re-evaluatemodeloncurrenttestset”。
右边显示结果的区域中会增加一些内容,告诉你该模型应用在这个数据集上表现将如何。
我们的Class属性都是些缺失值,那这些内容是无意义的,我们关注的是模型在新数据集上的预测值。
(4)点击右键菜单中的“Visualizeclassifiererrors”,将弹出一个新窗口显示一些有关预测误差的散点,点击这个新窗口中的“Save”按钮,保存一个Arff文件。
(5)打开这个文件可以看到在倒数第二个位置多了一个属性(predictedpep),这个属性上的值就是模型对每个实例的预测值,点“Edit”按钮可以查看这个数据集的内容。
这里我们解释一下“ConfusionMatrix”的含义。
===ConfusionMatrix===
ab<--classifiedas
7464|a=YES
30132|b=NO
这个矩阵是说,原本“pep”是“YES”的实例,有74个被正确的预测为“YES”,有64个错误的预测成了“NO”;原本“pep”是“NO”的实例,有30个被错误的预测为“YES”,有132个正确的预测成了“NO”。
74+64+30+132=300是实例总数,而(74+132)/300=0.68667正好是正确分类的实例所占比例。
这个矩阵对角线上的数字越大,说明预测得越好。
七、通过实验,要求同学在决策树实验中解决以下问题,并递交完整的实验报告
1、在数据预处理中,通过转换与否的实验比较,判断是否一定要把“Children”属性转换成分类型的两个值“YES”“NO”。
2、点击“Choose”右边的文本框,弹出新窗口为该算法设置各种参数。
点“More”查看参数说明,点“Capabilities”查看算法适用范围。
请在实验报告中详解的参数设置情况。
3、分析生成的决策树,并转换为IFTHEN规则的形式
4、请介绍你建立好的模型以及对该模型的误差分析等结果,如:
出现在“Classifieroutput”中的模型准确度等,将这些数据截图,在实验报告中进行详解。
5、如果你的模型准确度不高,你是怎样通过修改算法的参数来提高准确度?
实验五神经网络分类学习方法
一、实验名称:
神经网络分类学习方法
二、实验目的:
通过一个已有的训练数据集,观察训练集中的实例,,建立神经网络的预测模型,更好地理解和掌握神经网络算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。
三、实验要求
1学习神经网络分类学习方法,学习其中反向传播神经网络(BP神经网络)学习算法。
2应用Weka软件,学会导入数据文件,并对数据文件进行预处理。
3学会如何选择学习算法并调节学习训练参数以达到最佳学习效果。
四、实验平台
新西兰怀卡托大学研制的Weka系统
五、试验数据
Weka安装目录下data文件夹中的数据集weather.arff,银行对资产进行评估的数据bank-data.arf
六、试验方法和步骤
1在开始程序(或者桌面图标)中找到WEKA3.6,单击即可启动WEKA,启动WEKA时会发现首先出现的一个命令提示符。
接着将出现如下WekaGUIChooser界面。
2选择GUIChooser中的探索者(Explorer)用户界面。
点击预处理(Preprocess)功能按钮的,Openfile,选择其中的“weather”数据作关联规则的分析。
打开“weather.arff”,可以看到“Currentrelation”、“Attributes”“Selectedattribute”三个区域。
3点击“Classify”选项卡。
单击左上方的Choose按钮,在随后打开的层级式菜单中的function部分找到MultiayerPerceptron。
4在testoptions选项中选择默认的10折交叉确认法,神经网络参数可采用默认设置或适当修改。
5选定分类器后,单击Start按钮使其开始工作。
Weka每次运行时间的较短。
在它工作时,坐在右下角的小鸟会即时起舞,随后结果就显示在右区域中。
6实验结果。
在窗口的右区域默认显示了全部输出结果。
在该结果的开头给出了数据集概要并注明所需要的评估方法是默认的10折交叉验证。
可以选择其他的验证方法来重新分类学习。
7打开数据文件bank-data.csv,删除属性id,重复上述操作,查看结果;尝试在数据预处理阶段删除属性region,再训练神经网络;如果需要查看神经网络的图形,点击“choose”按钮右侧的文字栏,将下拉选项GUI设为true,点击start即可。
七、通过实验,要求同学在贝叶斯信息获取实验中解决以下问题,并递交完整的实验报告
1、在数据预处理中,通过转换与否的实验比较,判断是否一定要把“Children”属性转换成分类型的两个值“YES”“NO”。
2、在算法选择时,点击“Choose”按钮后可以看到哪些分类的算法分门别类的列在一个树型框里?
将些数据截图,在实验报告中进行详解。
3、点击“Choose”右边的文本框,弹出新窗口为该算法设置各种参数。
点“More”查看参数说明,点“Capabilities”查看算法适用范围。
请在实验报告中详解的参数设置情况。
4、请介绍你建立好的模型以及对该模型的误差分析等结果,如:
出现在“Classifieroutput”中的模型准确度等,将这些数据截图,在实验报告中进行详解。
5、如果你的模型准确度不高,你是怎样通过修改算法的参数来提高准确度?
实验六基于回归模型的数据分析
一、实验名称:
基于回归模型的数据分析
二、实验目的:
通过一个已有的训练数据集,观察训练集中的实例,进行回归分析,更好地理解和掌握回归分析算法基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。
三、实验要求
1、熟悉Weka平台
2、掌握回归分析算法
3、对数据进行预处理,利用Weka和不同参数设置进行回归分析,对比结果,得出结论,对问题进行总结。
四、实验平台
新西兰怀卡托大学研制的Weka系统
五、实验数据
使用房屋定价数据,具体如表1所示:
表1回归模型的房屋值
房子面积(平方英尺)
占地的大小
卧室
花岗岩
卫生间有无重装?
销售价格
3529
9191
6
0
0
¥205,000
3247
10061
5
1
1
¥224,900
4032
10150
5
0
1
¥197,900
2397
14156
4
1
0
¥189,900
2200
9600
4
0
1`
¥195,000
3536
19994
6
1
1
¥325,000
2983
9365
5
0
1
¥230,000
3198
9669
5
1
1
?
?
?
?
六、实验方法和步骤
1.为Weka构建数据集
为了将数据加载到Weka,必须将数据放入到arff格式的文件中,具体介绍如前面所示,现构造arff文件如下,存成hou