ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:214.14KB ,
资源ID:4172088      下载积分:1 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-4172088.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(关联规则挖掘rWord文档下载推荐.docx)为本站会员(b****2)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

关联规则挖掘rWord文档下载推荐.docx

1、Lift(X=Y) = CONF(X=Y)/SUPP(Y) = P(X and Y)/(P(X)P(Y) 提升度(Lift)是避免了一些不平衡数据标签的偏差性,Lift越大,则数据质量较好;Lift越小,则数据越不平衡。2、数据准备和arulesViz的统一接口使用扩展包arulesViz之前,我们首先需要加载它。这个包会自动加载其他所需要的数据包,如arules。如下面的数据集Groceries包含在arules包里面。 library(arulesViz) data(Groceries summary(Groceries)设置支持度为0.001,置信度为0.5,R语句入下:rules ha

2、mburger meat 0.001220132 0.6315789 18.995652 soda, popcorn = salty snack 0.001220132 0.6315789 16.697793 flour, baking powder = sugar 0.001016777 0.5555556 16.408073、散点图直接用plot画出散点图 plot(rules)图1从图1可以看到高lift对应低supp。另外一些科学家认为最有意思的规则在supp/conf的边沿上,如图1所示。 head(quality(rules) support confidence lift1 0.

3、001118454 0.7333333 2.8700092 0.001220132 0.5217391 2.8365423 0.001321810 0.5909091 2.3126114 0.001321810 0.5652174 2.2120625 0.001321810 0.5200000 2.0350976 0.003660397 0.6428571 2.515917如果我们想个性化plot图中的坐标的特征,将颜色表示conf,lift为纵标轴,如下所示。图2 plot(rules, measure = c(support, ), shading = confidence图2中的y轴是l

4、ift,这里可以比较清晰地看出很多的规则都有高lift。图3 plot(rules, shading = order, control = list(main = Two-key plot)图3中,supp为x轴,conf为y轴,颜色的深浅表示“order”,例如规则里频繁项的个数。从图中可以看出,order和supp有着很强的负相关性。这在关联规则中也是熟知的。散点图方法提供了互动功能的选择和缩放,可以使用interactive=TRUE来实现。 图4 sel - plot(rules, measure = c(,+ interactive = TRUE)图4中选择了lift较高的几个点,并

5、且使用inspect按钮,在终端的界面上便显示了这些规则。4、基于分组矩阵的可视化基于矩阵的可视化中只能有效处理规则数较少的可视化,因为大的规则集通常也有大量LHS/RHS(左边的集合/右边的集合)的限制。在这里,我们引入一个新的可视化技术,通过使用聚类方法将规则分组,可提高基于矩阵的可视化。一个直接的方法来聚类频繁项集,便是定义两个项集(Xi和Xj )之间的距离。一个比较好的选择是使用Jaccard distance。有几种方法,以聚类关联规则和频繁项集解决高维和数据稀疏问题。有的建议要观察包含在频繁项集中的项的交易的个数。然而,他对从相同频繁项集产生的聚类规则有着很强的偏向。由频繁项集的定

6、义,一个频繁项集的两个子集都将适用于许多常见的交易。这种偏见会导致大多只是从集合关联规则重新发现已知的频繁项集的结构。为了使分组速度加快并且有效地分为K类,这里使用了K-means聚类方法。这个思路是LHS和RHS统计上是相似的则被归为一类。相对于频繁项集的其他聚类结果,这种方法得出含有替代品的分组(如“黄油”和“人造黄油”),这些通常是很少一起购买的,但因为他们有着相似的RHS。相同的分组方法也作用于后项。然而,由于挖掘的规则只得出一个RHS的项集,因此这里没有组合爆炸的问题,但这样的分组通常也是不需要的。在可视化图中,LHS是列,RHS是行,lift是圈的颜色深浅,圈的大小是聚合后的支持度

7、。LHS的个数和分组中最重要(频繁)项集显示在列的标签里。lift从左上角到右下角逐渐减少。 plot(rules, method = grouped图5lift从左上角到右下角的颜色逐渐变小。这里有3条规则包含“Instant food products ”,RHS超过2个其他项集的是“hamburger meat”。组的个数默认是20个,我们也可以通过添加control = list(k = 50)来改变组的个数。5、基于图的可视化基于图形的可视化技术,利用顶点代表项或者项目集,和边表示规则中关系的关联规则。强度通常使用颜色或者边的宽度来表示。基于图形的可视化提供了一个规则非常明确的展示,

8、但他们规则越多则往往容易变得混乱,因此比较可行的是使用非常小的规则集。对于下面的图,我们选择了10条具有高lift的规则。 subrules2 - head(sort(rules, by = ), 10)arulesViz包含了一些基于图形的可视化展示,使用Rgraphviz扩展包的一些接口。默认的版本点代表项目集,表代表规则项集之间的有向边 。图6 plot(subrules2, method = graph图7, control = list(type = items图7着重于规则是如何由个别项目组成的,并显示哪些规则共享的项目。arulesViz的内置基于图形的可视化只对规则数较少时有效。探索大量规则的可视化,需要先进的图形放大,过滤,分组和着色节点的交互功能。7、平行坐标图(Parallel coordinates plot )平行坐标图将多维数据共享,使得每个维度上分别显示在x轴和y轴。每个数据点是由连接的值对于每个维度中的线表示。每个数据点由连接每个维度的线表示。8、小节

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2