数据挖掘方法论SEMMA.docx

资源描述

数据挖掘方法论SEMMA.docx

《数据挖掘方法论SEMMA.docx》由会员分享，可在线阅读，更多相关《数据挖掘方法论SEMMA.docx（7页珍藏版）》请在冰点文库上搜索。

数据挖掘方法论SEMMA.docx

数据挖掘方法论SEMMA

数据挖掘方法论（SEMMA）

SAS数据挖掘方法论─SEMMA

（2009-07-2021:

15:

48）

Sample─数据取样

Explore─数据特征探索、分析和予处理

Modify─问题明确化、数据调整和技术选择

Model─模型的研发、知识的发现

Assess─模型和知识的综合解释和评价

Sample──数据取样

当进行数据挖掘时，首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集，而不是动用全部企业数据。

这就象在对开采出来矿石首先要进行选矿一样。

通过数据样本的精选，不仅能减少数据处理量，节省系统资源，而且能通过数据的筛选，使你想要它反映的规律性更加凸现出来。

通过数据取样，要把好数据的质量关。

在任何时候都不要忽视数据的质量，即使你是从一个数据仓库中进行数据取样，也不要忘记检查其质量如何。

因为通过数据挖掘是要探索企业运作的规律性的，原始数据有误，还谈什么从中探索规律性。

若你真的从中还探索出来了什么“规律性”，再依此去指导工作，则很可能是在进行误导。

若你是从正在运行着的系统中进行数据取样，则更要注意数据的完整性和有效性。

再次提醒你在任何时候都不要忽视数据的质量，慎之又慎！

从巨大的企业数据母体中取出哪些数据作为样本数据呢？

这要依你所要达到的目标来区分采用不同的办法：

如果你是要进行过程的观察、控制，这时你可进行随机取样，然后根据样本数据对企业或其中某个过程的状况作出估计。

SAS不仅支持这一取样过程，而且可对所取出的样本数据进行各种例行的检验。

若你想通过数据挖掘得出企业或其某个过程的全面规律性时，必须获得在足够广泛范围变化的数据，以使其有代表性。

你还应当从实验设计的要求来考察所取样数据的代表性。

唯此，才能通过此后的分析研究得出反映本质规律性的结果。

利用它支持你进行决策才是真正有效的，并能使企业进一步获得技术、经济效益。

Explore──数据特征探索、分析和予处理

前面所叙述的数据取样，多少是带着人们对如何达到数据挖掘目的的先验的认识进行操作的。

当我们拿到了一个样本数据集后，它是否达到我们原来设想的要求；其中有没有什么明显的规律和趋势；有没有出现你所从未设想过的数据状态；因素之间有什么相关性；它们可区分成怎样一些类别这都是要首先探索的内容。

进行数据特征的探索、分析，最好是能进行可视化的操作。

SAS有：

SAS/*****和SAS/*****VIEW两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。

它们不仅能做各种不同类型统计分析显示，而且可做多维、动态、甚至旋转的显示。

这里的数据探索，就是我们通常所进行的深入调查的过程。

你最终要达到的目的可能是要搞清多因素相互影响的，十分复杂的关系。

但是，这种复杂的关系不可能一下子建立起来。

一开始，可以先观察众多因素之间的相关性；再按其相关的程度，以了解它们之间相互作用的情况。

这些探索、分析，并没有一成不变操作规律性；相反，是要有耐心的反复的试探，仔细的观察。

在此过程中，你原来的专业技术知识是非常有用的，它会帮助你进行有效的观察。

但是，你也要注意，不要让你的专业知识束缚了你对数据特征观察的敏锐性。

可能实际存在着你的先验知识认为不存在的关系。

假如你的数据是真实可靠的话，那末你绝对不要轻易地否定数据呈现给你的新关系。

很可能这里就是发现的新知识！

有了它，也许会导引你在此后的分析中，得出比你原有的认识更加符合实际的规律性知识。

假如在你的操作中出现了这种情况，应当说，你的数据挖掘已挖到了有效的矿脉。

在这里要提醒你的是要有耐心，做几种分析，就发现重大成果是不大可能的。

所幸的是SAS向你提供了强有力的工具，它可跟随你的思维，可视化、快速的作出反应。

免除了数学的复杂运算过程和编制结果展现程序的烦恼和对你思维的干扰。

这就使你数据分析过程集聚于你业务领域的问题，并使你的思维保持了一个集中的较高级的活动状态，从而加速了你的思维过程，提高了你的思维能力。

Modify──问题明确化、数据调整和技术选择

通过上述两个步骤的操作，你对数据的状态和趋势可能有了进一步的了解。

对你原来要解决的问题可能会有了进一步的明确；这时要尽可能对问题解决的要求能进一步的量化。

问题越明确，越能进一步量化，问题就向它的解决更前进了一步。

这是十分重要的。

因为原来的问题很可能是诸如质量不好、生产率低等模糊的问题，没有问题的进一步明确，你简直就无法进行有效的数据挖掘操作。

在问题进一步明确化的基础上，你就可以按照问题的具体要求来审视你的数据集了，看它是否适应你的问题的需要。

Gartnergroup在评论当前一些数据挖掘产品时特别强调指出：

在数据挖掘的各个阶段中，数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态，这才能保证数据挖掘有效的进行。

针对问题的需要可能要对数据进行增删；也可能按照你对整个数据挖掘过程的新认识，要组合或者生成一些新的变量，以体现对状态的有效的描述。

SAS对数据强有力的存取、管理和操作的能力保证了对数据的调整、修改和变动的可能性。

若使用了SAS的数据仓库产品技术时就更进一步保证了有效、方便的进行这些操作。

在问题进一步明确；数据结构和内容进一步调整的基础上，下一步数据挖掘应采用的技术手段就更加清晰、明确了。

Model──模型的研发、知识的发现

这一步是数据挖掘工作的核心环节。

虽然数据挖掘模型化工作涉及了非常广阔的技术领域，但对SAS研究所来说并不是一件新鲜事。

自从SAS问世以来，就一直是统计模型市场领域的领头羊，而且年年提供新产品，并以这些产品体现业界技术的最新发展。

按照SAS提出的SEMMA方法论走到这一步时，你对应采用的技术已有了较明确的方向；你的数据结构和内容也有了充分的适应性。

SAS在这时也向你提供了充分的可选择的技术手段：

回归分析方法等广泛的数理统计方法；关联分析方法；分类及聚类分析方法；人工神经元网络；决策树等。

在你的数据挖掘中使用哪一种方法，用SAS软件包中什么方法来实现，这主要取决于你的数据集的特征和你要实现的目标。

实际上这种选择也不一定是唯一的。

好在SAS软件运行效率十分高，你不妨多试几种方法，从实践中选出最适合于你的方法。

Assess──模型和知识的综合解释和评价

从上述过程中将会得出一系列的分析结果、模式或模型。

同一个数据源可以利用多种数据分析方法和模型进行分析，ASSESS的目的之一就是从这些模型中自动找出一个最好的模型出来，另外就是要对模型进行针对业务的解释和应用。

若能从模型中得出一个直接的结论当然很好。

但更多的时候会得出对目标问题多侧面的描述。

这时就要能很好的综合它们的影响规律性提供合理的决策支持信息。

所谓合理，实际上往往是要你在所付出的代价和达到预期目标的可靠性的平衡上作出选择。

假如在你的数据挖掘过程中，就预见到最后要进行这样的选择的话，那末你最好把这些平衡的指标尽可能的量化，以利你综合抉择。

你提供的决策支持信息适用性如何，这显然是十分重要的问题。

除了在数据处理过程中SAS软件提供给你的许多检验参数外，评价的办法之一是直接使用你原来建立模型的样板数据来进行检验。

假如这一关就通不过的话，那末你的决策支持信息的价值就不太大了。

一般来说，在这一步应得到较好的评价。

这说明你确实从这批数据样本中挖掘出了符合实际的规律性。

另一种办法是另外找一批数据，已知这些数据是反映客观实际的规律性的。

这次的检验效果可能会比前一种差。

差多少是要注意的。

若是差到你所不能容忍程度，那就要考虑第一次构建的样本数据是否具有充分的代表性；或是模型本身不够完善。

这时候可能要对前面的工作进行反思了。

若这一步也得到了肯定的结果时，那你的数据挖掘应得到很好的评价了。

SASEnterpriseMiner─SEMMA

TheacronymSEMMACsample,explore,modify,model,assessCreferstothecoreprocessofconductingdatamining.Beginningwithastatisticallyrepresentativesampleofyourdata,SEMMAmakesiteasytoapplyexploratorystatisticalandvisualisationtechniques,selectand

transformthemostsignificantpredictivevariables,modelthevariablestopredictes,andconfirmamodel'saccuracy.

BeforeexaminingeachstageofSEMMA,amonmisunderstandingistorefertoSEMMAasadataminingmethodology.SEMMAisnotadataminingmethodologybutratheralogicalorganisationofthefunctionaltoolsetofSASEnterpriseMinerforcarryingoutthecoretasksofdatamining.EnterpriseMinercanbeusedaspartofanyiterativedataminingmethodologyadoptedbytheclient.Naturallystepssuchasformulatingawelldefinedbusinessorresearchproblemandassemblingqualityrepresentativedatasourcesarecriticaltotheoverallsuccessofanydataminingproject.SEMMAisfocusedonthemodeldevelopmentaspectsofdatamining:

Sample（optional）yourdatabyextractingaportionofalargedatasetbigenoughtocontainthesignificantinformation,yetsmallenoughtomanipulatequickly.Foroptimalcostandperformance,SASInstituteadvocatesasamplingstrategy,whichappliesareliable,statisticallyrepresentativesampleoflargefulldetaildatasources.Miningarepresentativesampleinsteadofthewholevolumereducestheprocessingtimerequiredtogetcrucialbusinessinformation.Ifgeneralpatternsappearinthedataasawhole,thesewillbetraceableinarepresentativesample.Ifanicheissotinythatit'snotrepresentedinasampleandyetsoimportantthatitinfluencesthebigpicture,itcanbediscoveredusingsummarymethods.WealsoadvocatecreatingpartitioneddatasetswiththeDataPartitionnode:

Training--usedformodelfitting.

Validation--usedforassessmentandtopreventoverfitting.

Test--usedtoobtainanhonestassessmentofhowwellamodelgeneralizes.

Exploreyourdatabysearchingforunanticipatedtrendsandanomaliesinordertogainunderstandingandideas.Explorationhelpsrefinethediscoveryprocess.Ifvisualexplorationdoesn'trevealcleartrends,youcanexplorethedatathroughstatisticaltechniquesincludingfactoranalysis,correspondenceanalysis,andclustering.Forexample,indataminingforadirectmailcampaign,clusteringmightrevealgroupsofcustomerswithdistinctorderingpatterns.Knowingthesepatternscreatesopportunitiesforpersonalizedmailingsorpromotions.

Modifyyourdatabycreating,selecting,andtransformingthevariablestofocusthemodelselectionprocess.Basedonyourdiscoveriesintheexplorationphase,youmayneedtomanipulateyourdatatoincludeinformationsuchasthegroupingofcustomersandsignificantsubgroups,ortointroducenewvariables.Youmayalsoneedtolookforoutliersandreducethenumberofvariables,tonarrowthemdowntothemostsignificantones.Youmayalsoneedtomodifydatawhenthe“mined"datachange.Becausedataminingisadynamic,iterativeprocess,youcanupdatedataminingmethodsormodelswhennewinformationisavailable.

Modelyourdatabyallowingthesoftwaretosearchautomaticallyforabinationofdatathatreliablypredictsadesirede.Modelingtechniquesindataminingincludeneuralnetworks,tree-basedmodels,logisticmodels,andotherstatisticalmodels--suchastimeseriesanalysis,memory-basedreasoning,andprincipalponents.Eachtypeofmodelhasparticularstrengths,andisappropriatewithinspecificdataminingsituationsdependingonthedata.Forexample,neuralnetworksareverygoodatfittinghighlyplexnonlinearrelationships.

Assessyourdatabyuatingtheusefulnessandreliabilityofthefindingsfromthedataminingprocessandestimatehowwellitperforms.Amonmeansofassessingamodelistoapplyittoaportionofdatasetasideduringthesamplingstage.Ifthemodelisvalid,itshouldworkforthisreservedsampleaswellasforthesampleusedtoconstructthemodel.Similarly,youcantestthemodelagainstknowndata.Forexample,ifyouknowwhichcustomersinafilehadhighretentionratesandyourmodelpredictsretention,youcanchecktoseewhetherthemodelselectsthesecustomersaccurately.Inaddition,practicalapplicationsofthemodel,suchaspartialmailingsinadirectmailcampaign,helpproveitsvalidity.

ByassessingtheresultsgainedfromeachstageoftheSEMMAprocess,youcandeterminehowtomodelnewquestionsraisedbythepreviousresults,andthusproceedbacktotheexplorationphaseforadditionalrefinementofthedata.

OnceyouhavedevelopedthechampionmodelusingtheSEMMAbasedminingapproach,itthenneedstobedeployedtoscorenewcustomercases.Modeldeploymentistheendresultofdatamining-thefinalphaseinwhichtheROIfromtheminingprocessisrealized.EnterpriseMinerautomatesthedeploymentphasebysupplyingscoringcodeinSAS,C,Java,andPMML.Itnotonlycapturesthecodeforofanalyticmodelsbutalsocapturesthecodeforpreprocessingactivities.Youcanseamlesslyscoreyourproductiondataonadifferentmachine,anddeploythescoringcodeinbatchorreal-timeontheWeborindirectlyinrelationaldatabases.Thisresultsinfasterimplementationandfreesyoutospendmoretimeuatingexistingmodelsanddevelopingnewones.

展开阅读全文