毕业设计外文文献翻译 SQL.docx

资源描述

毕业设计外文文献翻译 SQL.docx

《毕业设计外文文献翻译 SQL.docx》由会员分享，可在线阅读，更多相关《毕业设计外文文献翻译 SQL.docx（14页珍藏版）》请在冰点文库上搜索。

毕业设计外文文献翻译 SQL.docx

毕业设计外文文献翻译SQL

毕业设计（论文）

外文文献翻译

专业

计算机科学与技术

学生姓名

班级

学号

指导教师

博雅学院

中文译文

数据挖掘技术简介

摘要：

微软®SQLServer™2005中提供用于创建和使用数据挖掘模型的集成环境的工作。

本教程使用的四种情况：

有针对性的邮件预测；顺序分析和聚类；演示如何使用挖掘模型算法；挖掘模型查看器和数据挖掘工具。

介绍

数据挖掘教程旨在通过创建走在MicrosoftSQLServer2005的数据挖掘模型的过程。

数据挖掘算法，并在SQLServer2005工具可以很容易地建立一个项目，包括市场购物篮分析各种全面的解决方案，预测分析，有针对性的邮件分析。

这些解决方案的情景更详细的解释在后面的教程。

SQLServer2005最明显的部分是用来创建和处理数据挖掘模型的工作室。

在线分析处理（OLAP）和数据挖掘工具被统一为两个工作环境：

商业智能开发工作室和SQLServer管理工作室。

通过商业智能开发工作室，您可以在与服务器断开连接的情况下建立一个服务项目分析。

当项目已经准备就绪，您可以发布到服务器上。

您也可以直接面向服务器工作。

SQLServer管理工作室的主要职能是管理服务器。

之后将有针对每一个环境的详细说明。

欲了解更多关于从两个环境中选择的信息，请参看SQLServer联机丛书中的“在SQLServer工作室和商业智能开发工作室中选择”。

数据挖掘工具都存在于数据挖掘的编辑。

使用编辑器，您可以管理挖掘模型，创造新模式，查看模型，比较模型，并建立在现有模型的预测。

当你创建一个挖掘模型，你会想要去探索它，寻找有趣的模式和规则。

在编辑器中的每个挖掘模型查看器是自定义进行探讨，以特定的算法建立的模型。

如需观众的信息，请参看SQLServer联机丛书中的“查看数据挖掘模型”。

您的项目往往会包含多个挖掘模型，所以才能使用的模式创建的预测，你要能够确定哪些模式是最准确的。

出于这个原因，编辑包含一个模型比较工具挖掘精度的图表标签。

使用此工具，您可以比较准确的预测模型和您确定最佳模式。

为了建立数据预期，你将使用一种DME语言，DMX扩展了传统的SQL语法，包含了一些创建修改和建立数据预期的命令，关于DMX的详细信息，请参考SQLBOL中的“DataMiningExtensions（DMX）Reference”章节。

因为建立一个数据预期可能比较复杂，所以数据挖掘编辑器包含了一个工具叫做“PredictionQueryBuilder”，该工具可以让你在一个图形化的界面下编辑DMX查询语句，你也可以在该工具中可以查看自动生成的DMX语句。

了解了前面介绍的实现数据挖掘的工具之外，同等重要的是了解数据挖掘模型的结构本身，建立一个数据模型的关键是数据挖掘算法，该算法在你操作的数据中寻找我们需要的部分，并且转换这些数据成为一个可操作的数据模型。

一些很重要的建立数据挖掘解决方案的步骤是用来整理准备那些用于建立数据模型的数据，SQL2005包含一个DTS的工作环境以及一些DTS的工具用于清理验证准备数据，关于DTS的更多信息请查看SQLBOL中的‘DTSDataMiningTasksandTransformations’章节。

Adventure数据库

AdventureWorksDW数据库是基于一个虚构的自行车制造公司而建立，公司的名称叫做“AdventureWorksCycles”（简称AW公司）。

AW公司生产并向北美，欧洲和亚洲的商业市场销售金属和复合材料的自行车，主要的工作都在华盛顿Bothell完成，那里拥有500员工，以及一些地区销售部门遍及各地。

AW公司通过INTERNET批发和零售他们的产品，本教程中的数据模型实例需要你使用这些网络销售数据作为数据模型。

关于AW公司数据库的更多信息请参考SQLServer联机丛书中的如下章节：

‘SampleDatabasesandBusinessScenarios’。

数据库详细信息

网络销售数据构架包含9242个客户的信息，这些客户分布在6个国家，并被合并为3个区域：

南美（83%）

欧洲（12%）

澳大利亚（7%）

该数据库包含三个财政年度的数据：

2002年，2003年和2004年。

数据库中的产品根据子类别，型号和产品来分类。

商业智能开发工作室

商业智能开发工作室是一套用于创建商务智能项目的工具。

由于商业智能开发工作室是创建于IDE环境中的，在该环境中，你可以在脱机状态下创建一个完整地解决方案。

你可以想改多少数据挖掘对象就改多少，但是在你发布该项目前，这些改变将不会反映在服务器上。

一个SSAS数据库用于集成多种技术，这个数据库作为数据挖掘模型以及OLAP等技术的基础。

你可以使用商业智能建立和修改一个SSAS项目并部署这个项目到一个或多个SSAS服务如果你在开发一个SSAS项目你也可以使用商业智能开发工作室直接连接数据库，这样你所作的改动可以立刻影响到数据库中。

SQLServer管理工作室

SQLServer管理工作室是一个行政和脚本工具与MicrosoftSQLServer组件工作的集合。

此工作区的不同之处，你是在互联环境中工作的行动是在传播到服务器只要您保存您的工作从商务智能开发工作室中。

在数据被清理并为数据挖掘准备好后，大多数和创建苏局挖掘解决方案相关联的工作都在商业智能开发工作室中工作。

通过使用商业智能开发工作室，你可以利用迭代过程确定的给定情况下的最佳模式来发布和测试数据挖掘解决方案。

一旦开发商对解决方案满意，就可以将其发布到分析服务服务器。

从这点来看，重点从SQLServer管理工作室的开发转移到了维护和应用。

在SQLServer管理工作室中，您可以管理您的数据库和执行一些在商业智能开发工作室中的相同的职能，比如在挖掘模式中查看、创建预测。

数据转换服务

在SQLServer2005中数据转换服务（DTS）包括抽取，转换和加载（简称ETL）工具。

这些工具可用于执行一些数据挖掘中最重要的任务，为数据模型的建立清理和准备数据。

在数据挖掘，您通常可以执行重复数据转换清理数据，然后利用这些数据组成挖掘模型。

利用DTS中的任务和转移，您可以把数据准备和模型建立结合为一个单一的DTS包。

DTS公司还提供了DTS设计器，以帮助您轻松地建立和运行的包含了所有的任务和转变的软件包。

利用DTS设计器，您可以将包发布到服务器上并定期的运行他们。

这是非常有用例如，你每周收集数据资料，并向要每次自动执行相同的清洁转换工作。

你可以通过向商业智能开发式的解决方案中分别增加项目来将数据转换项目和分析服务项目结合起来工作，作为商务智能解决方案的一部分。

挖掘模式算法

数据挖掘算法是挖掘模型的创建的基础。

SQLServer2005中各种各样的算法可以让你执行多种类型的执行。

欲了解更多有关算法及其参数调整的信息，请参看SQLServer联机丛书中的“数据挖掘算法”。

决策树

决策树算法支持分类与回归并且对预测模型也行之有效。

利用该算法，你可以预测离散和连续这两个属性。

在建立模型时，该算法检查每个数据集的输入属性是怎样的影响预测属性的结果，以及使用最强的关系的输入属性制造了一系列的分裂，称为节点。

随着新节点添加到模型中，树状结构开始形成。

顶端节点树描述了大多数预测属性的统计分析。

每个节点建立把预测属性比作投入的属性的分布情况上。

如果输入的属性被视为导致预测属性有利于促成比另一个更好的状态，于是一个新的节点添加到模型。

该模型继续增长，直到没有剩余的属性制造分裂提供了一个更好的预测在现有节点。

该模型力图找到一个结合的属性和引起在预测属性不成比例分配的状态，因此，您可以预测预测属性的结果。

簇

簇算法采用迭代技术组从包含相似特性的数据及中进行分类。

利用这些组合，您可以探讨的数据，更多地了解存在的关系，这在理论上可能不容易通过偶然的观察获得。

此外，您也可以从算法创建的簇建立预测模型。

例如，考虑那些住在同一社区，驱动器相同的车，吃同样的食物，买了类似的版本的产品的那一个群体的人。

这是一组数据。

另一组可能包括去相同的餐厅，也有类似的薪金，休假和每年两次以外的地区的人。

观测这些集合是如何的分布，可以更好地了解预测属性的结果是如何相互影响的。

传统贝叶斯

在传统贝叶斯算法快速生成挖掘，可用于分类和预测的模型。

它计算的每个输入属性的国家给予每个可预测属性，它可以用来预测以后的预测属性上已知的结果输入属性状态，概率。

用于生成该模型的概率计算，并在立方体的处理中。

该算法只支持离散或离散化的属性，它认为所有输入属性是独立的。

在传统贝叶斯算法产生一个简单的挖掘模型可以被认为是在数据挖掘过程的起点。

由于在建立模型中使用的计算大多是在加工过程中产生的立方体，迅速返回结果。

这使得该模型的一个探索发现的数据和如何在不同的输入属性的预测属性的不同分布状态不错的选择。

时间系

Microsoft时序算法创建，可用于预测了来自OLAP和关系数据源的时间连续变量模型。

例如，您可以使用Microsoft时序算法来预测销售和在一个立方体的历史数据为基础的利润。

利用该算法，你可以选择一个或多个变量进行预测，但必须是连续的。

您只能有一个为每个模型病例。

此案系列标识系列中的位置，如超过之日起在几个月或几年的长度寻找销售。

一个案件可能含有一组变量（例如，在不同的商店销售）。

Microsoft时序算法可以用其预测交叉变量的相关性。

例如，在一家商店前的销售可能会在其他商店的预测目前的销售非常有用。

神经网络

在MicrosoftSQLServer2005分析服务，Microsoft神经网络算法创建通过构建一个多层感知器神经元网络分类和回归挖掘模型。

类似Microsoft决策树算法提供程序，那么每一个可预测属性的状态，该算法计算出的每个输入属性可能状态的概率。

该算法提供程序处理案件的整套，反复比较，与已知的案件实际的分类个案的预测分类。

从整个案件的第一次迭代的初始设置分类的错误是反馈到网络，并用于修改为下一次迭代网络的性能，等等。

您可以在以后使用这些概率来预测一个属性的预测结果，根据输入的属性。

该算法之间和Microsoft决策树算法的主要区别之一，但是，是其学习的过程是朝着减少错误，而Microsoft决策树算法拆分规则，以最大限度地获取信息，优化网络参数。

该算法同时支持离散和连续属性的预测。

线性回归

线性回归算法是决策树算法的一种特殊的构造，获得了无效的分裂（整个回归公式是建立在一个单一根节点）。

该算法支持预测连续属性。

逻辑回归

逻辑回归算法是神经网络算法的一种特殊的构造，得到了消除隐蔽层。

该算法支持预测的离散和连续属性。

英文原文

IntroductiontoDataMining

Abstract:

Microsoft®SQLServer™2005providesanintegratedenvironmentforcreatingandworkingwithdataminingmodels.This tutorialusesfourscenarios,targeted mailing, forecasting, market basket,and sequence clustering,todemonstratehowtousetheminingmodelalgorithms,miningmodelviewers,anddataminingtools thatareincludedinthisreleaseofSQLServer.

Introduction

ThedataminingtutorialisdesignedtowalkyouthroughtheprocessofcreatingdataminingmodelsinMicrosoftSQLServer2005.ThedataminingalgorithmsandtoolsinSQLServer2005makeiteasytobuildacomprehensivesolutionforavarietyofprojects,includingmarketbasketanalysis,forecastinganalysis,andtargetedmailinganalysis.Thescenariosforthesesolutionsareexplainedingreaterdetaillaterinthetutorial.

ThemostvisiblecomponentsinSQLServer2005aretheworkspacesthatyouusetocreateandworkwithdataminingmodels.Theonlineanalyticalprocessing（OLAP）anddataminingtoolsareconsolidatedintotwoworkingenvironments:

BusinessIntelligenceDevelopmentStudioandSQLServerManagementStudio.UsingBusinessIntelligenceDevelopmentStudio,youcandevelopanAnalysisServicesprojectdisconnectedfromtheserver.Whentheprojectisready,youcandeployittotheserver.Youcanalsoworkdirectlyagainsttheserver.ThemainfunctionofSQLServerManagementStudioistomanagetheserver.Eachenvironmentisdescribedinmoredetaillaterinthisintroduction.Formoreinformationonchoosingbetweenthetwoenvironments,see"ChoosingBetweenSQLServerManagementStudioandBusinessIntelligenceDevelopmentStudio"inSQLServerBooksOnline.

Allofthedataminingtoolsexistinthedataminingeditor.Usingtheeditoryoucanmanageminingmodels,createnewmodels,viewmodels,comparemodels,andcreatepredictionsbasedonexistingmodels.

Afteryoubuildaminingmodel,youwillwanttoexploreit,lookingforinterestingpatternsandrules.Eachminingmodelviewerintheeditoriscustomizedtoexploremodelsbuiltwithaspecificalgorithm.Formoreinformationabouttheviewers,see"ViewingaDataMiningModel"inSQLServerBooksOnline.

Oftenyourprojectwillcontainseveralminingmodels,sobeforeyoucanuseamodeltocreatepredictions,youneedtobeabletodeterminewhichmodelisthemostaccurate.Forthisreason,theeditorcontainsamodelcomparisontoolcalledtheMiningAccuracyCharttab.Usingthistoolyoucancomparethepredictiveaccuracyofyourmodelsanddeterminethebestmodel.

Tocreatepredictions,youwillusetheDataMiningExtensions（DMX）language.DMXextendsSQL,containingcommandstocreate,modify,andpredictagainstminingmodels.FormoreinformationaboutDMX,see"DataMiningExtensions（DMX）Reference"inSQLServerBooksOnline.Becausecreatingapredictioncanbecomplicated,thedataminingeditorcontainsatoolcalledPredictionQueryBuilder,whichallowsyoutobuildqueriesusingagraphicalinterface.YoucanalsoviewtheDMXcodethatisgeneratedbythequerybuilder.

Justasimportantasthetoolsthatyouusetoworkwithandcreatedataminingmodelsarethemechanicsbywhichtheyarecreated.Thekeytocreatingaminingmodelisthedataminingalgorithm.Thealgorithmfindspatternsinthedatathatyoupassit,andittranslatesthemintoaminingmodel—itistheenginebehindtheprocess.

Someofthemostimportantstepsincreatingadataminingsolutionareconsolidating,cleaning,andpreparingthedatatobeusedtocreatetheminingmodels.SQLServer2005includestheDataTransformationServices（DTS）workingenvironment,whichcontainstoolsthatyoucanusetoclean,validate,andprepareyourdata.FormoreinformationonusingDTSinconjunctionwithadataminingsolution,see"DTSDataMiningTasksandTransformations"inSQLServerBooksOnline.

InordertodemonstratetheSQLServerdataminingfeatures,thistutorialusesanewsampledatabasecalledAdventureWorksDW.ThedatabaseisincludedwithSQLServer2005,anditsupportsOLAPanddataminingfunctionality.Inordertomakethesampledatabaseavailable,youneedtoselectthesampledatabaseattheinstallationtimeinthe“Advanced”dialogforcomponentselection.

AdventureWorks

AdventureWorksDWisbasedonafictionalbicyclemanufacturingcompanynamedAdventureWorksCycles.AdventureWorksproducesanddistributesmetalandcompositebicyclestoNorthAmerican,European,andAsiancommercialmarkets.ThebaseofoperationsislocatedinBothell,Washingtonwith500employees,andseveralregionalsalesteamsarelocatedthroughouttheirmarketbase.

AdventureWorkssellsproductswholesaletospecialtyshopsandtoindividualsthroughtheInternet.Forthedataminingexercises,youwillworkwiththeAdventureWorksDWInternetsalestables,whichcontainrealisticpatternsthatworkwellfordataminingexercises.

FormoreinformationonAdventureWorksCyclessee"SampleDatabasesandBusinessScenarios"inSQLServerBooksOnline.

DatabaseDetails

TheInternetsalesschemacontainsinformationabout9,242customers.Thesecustomersliveinsixcountries,whicharecombinedintothreeregions:

NorthAmerica（83%）

Europe（12%）

Australia（7%）

Thedatabasecontainsdatafor

展开阅读全文