数据挖掘基础教程SQL Server.docx

资源描述

数据挖掘基础教程SQL Server.docx

《数据挖掘基础教程SQL Server.docx》由会员分享，可在线阅读，更多相关《数据挖掘基础教程SQL Server.docx（213页珍藏版）》请在冰点文库上搜索。

数据挖掘基础教程SQL Server.docx

数据挖掘基础教程SQLServer

数据挖掘基础教程

欢迎使用MicrosoftAnalysisServices数据挖掘基础教程。

MicrosoftSQLServer提供了一个用来创建和处理数据挖掘模型的集成环境。

在本数据挖掘基础教程中，您将完成一个用于目标邮寄活动的方案，在此方案中您将创建三个模型，用来分析客户购买行为并确定潜在购买目标。

本教程说明了MicrosoftSQLServerAnalysisServices中所包含的数据挖掘算法、挖掘模型查看器和数据挖掘工具的使用方法。

虚构公司AdventureWorksCycles用于所有的示例。

熟练使用数据挖掘工具后，建议您完成数据挖掘中级教程，该教程说明了预测、市场篮分析、时序、关联模型、嵌套表以及顺序分析和聚类分析的使用方法。

教程方案

在本教程中，您是AdventureWorksCycles的一名员工，需要根据历史购买情况来详细了解该公司的客户，然后使用这些历史数据进行可用于营销的预测。

公司以前从未进行过数据挖掘，因此您必须创建一个专门用于数据挖掘的新数据库并建立几个数据挖掘模型。

学习内容

本教程将讲述如何创建和使用数种不同类型的数据挖掘模型。

还将述如何创建挖掘模型的副本以及如何对掘模型应用筛选器。

随后，您将处理新模型并使用提升图评估该模型。

在该模型完成之后，将使用钻取功能从基础挖掘结构检索其他数据。

在SQLServer2008中，Microsoft引入了几个新功能，可帮助您开发自定义数据挖掘模型并且更有效地使用结果。

维持测试集-现在，当创建挖掘结构时，可以将挖掘结构中的数据分为定型集和测试集。

挖掘模型筛选器-现在，可以将筛选器附加到挖掘模型，并在定型和测试期间应用筛选器。

钻取到结构事例和结构列-现在，可以从挖掘模型中的通用模式方便地移到数据源中的可行详细信息。

本教程分为以下几课：

第1课：

准备AnalysisServices数据库（数据挖掘基础教程）

在本课程中，您将学习如何创建新的AnalysisServices数据库，添加数据源和数据源视图，以及准备将用于数据挖掘的新数据库。

第2课：

生成TargetedMailing结构（数据挖掘基础教程）

在本课中，您将学习如何创建可用作目标邮寄方案一部分的挖掘模型结构。

第3课：

添加和处理模型

在本课中，您将学习如何向结构中添加模型。

您创建的模型是用如下算法生成的：

●Microsoft决策树

●Microsoft聚类分析

●MicrosoftNaiveBayes

第4课：

浏览TargetedMailing模型（数据挖掘基础教程）

在本课中，您将学习如何使用查看器浏览和解释在每个模型中发现的内容。

第5课：

测试模型（数据挖掘基础教程）

在本课中，您将创建某个TargetedMailing模型的副本，添加一个挖掘模型筛选器以将定型数据限制在特定客户集，然后评估该模型的可行性。

第6课：

创建和使用预测（数据挖掘基础教程）

在本数据挖掘基础教程的最后一课中，您将使用该模型预测哪些客户最有可能购买自行车。

随后，您将钻取到基础事例以获取联系信息。

要求

请确保已安装下列软件：

●MicrosoftSQLServer2008R2

●MicrosoftSQLServerAnalysisServices

●AdventureWorksDW2008R2数据库。

第1课：

准备AnalysisServices数据库（数据挖掘基础教程）

您是AdventureWorksCycles的一名新员工，需要使用SQLServer2008设计一个商业智能应用程序。

AdventureWorksCycles希望利用您的AnalysisServices数据挖掘经验发现有关已经购买自行车的人的兴趣和可行信息。

然后，他们希望您预测哪些预期客户将来最有可能购买自行车。

在SQLServer中设计此应用程序时，首先根据AnalysisServices项目模板在BusinessIntelligenceDevelopmentStudio中创建SQLServerAnalysisServices项目。

创建AnalysisServices项目后，再定义一个或多个数据源。

然后，根据选自数据源的表和视图，定义名为“数据源视图”的元数据视图。

在本课中，您将创建一个AnalysisServices项目，定义一个单个数据源，并向数据源视图添加一个表子集。

本课程包括以下任务：

●创建AnalysisServices项目（数据挖掘基础教程）

●创建数据源（数据挖掘基础教程）

●创建数据源视图（数据挖掘基础教程）

创建AnalysisServices项目（数据挖掘基础教程）

每个MicrosoftSQLServerAnalysisServices项目都可为单个AnalysisServices数据库中的对象定义架构。

AnalysisServices数据库包含挖掘结构和挖掘模型、联机分析处理（OLAP）多维数据集和补充对象（例如数据源和数据源视图）。

在本教程中，我们将使用AdventureWorksDW2008R2数据库。

默认情况下，AnalysisServices使用新项目的localhost实例。

如果使用命名实例或者另一台服务器，则必须首先创建和打开该项目，然后更改实例名称。

创建AnalysisServices项目

1.打开BusinessIntelligenceDevelopmentStudio。

2.在“文件”菜单上，指向“新建”，然后选择“项目”。

3.确保已选中“项目类型”窗格中的“商业智能项目”。

4.确保已选中“模板”窗格中的“AnalysisServices项目”。

5.在“名称”框中，将新项目命名为ASDataMining2008。

单击“确定”。

更改存储数据挖掘对象的实例

1.在BusinessIntelligenceDevelopmentStudio中，选择“项目”菜单中的“属性”。

2.在“属性页”窗格左侧的“配置属性”下，单击“部署”。

3.在“属性页”窗格右侧的“目标”下，确保“服务器”名称为localhost。

如果使用的是其他实例，请键入该实例的名称。

单击“确定”。

创建数据源（数据挖掘基础教程）

“数据源”是一种数据连接，在项目中保存和管理，并部署到MicrosoftSQLServerAnalysisServices数据库。

除了其他所有必需的连接属性外，数据源还包含源数据所在的服务器和数据库的名称。

重要提示

数据库的名称为AdventureWorksDW2008R2。

创建数据源

1.在“解决方案资源管理器”中，右键单击“数据源”文件夹，然后选择“新建数据源”。

2.在“欢迎使用数据源向导”页面中，单击“下一步”按钮。

3.在“选择如何定义连接”页上，单击“新建”向AdventureWorksDW2008R2数据库中添加连接。

4.在连接管理器中的“访问接口”列表中，选择“本机OLEDB\SQLServerNativeClient10.0”。

5.在“服务器名称”框中，键入或选择安装了AdventureWorksDW2008R2的服务器的名称。

例如，如果是在本地服务器上承载该数据库，请键入localhost。

6.在“登录到服务器”组中，选择“使用Windows身份验证”。

重要提示

实施者应尽可能使用Windows身份验证，因为它提供的身份验证方法比SQLServer身份验证更加安全。

而提供SQLServer身份验证只是为了向后兼容。

在“选择或输入数据库名称”列表中，选择AdventureWorksDW2008R2，然后单击“确定”。

8.单击“下一步”。

9.在“模拟信息”页中，单击“使用服务帐户”，再单击“下一步”。

在“完成向导”页中，请注意数据源名称默认为AdventureWorksDW2008R2。

10.

单击“完成”。

此时，解决方案资源管理器的“数据源”文件夹中将出现刚创建的新数据源AdventureWorksDW2008R2。

创建数据源视图（数据挖掘基础教程）

数据源视图是基于数据源生成的，定义用来填充数据仓库的数据的子集。

您可以使用数据源视图来修改数据的结构，使它与项目的关系更密切。

通过数据源视图，可以选择与特定项目相关的表，建立表之间的关系，并添加计算列和命名视图，而不必修改原始的数据源。

创建数据源视图

1.在解决方案资源管理器中，右键单击“数据源视图”并选择“新建数据源视图”。

2.在“欢迎使用数据源视图向导”页中，单击“下一步”。

3.在“选择数据源”页的“关系数据源”下方，选择在上一个任务中创建的AdventureWorksDW2008R2 数据源。

单击“下一步”。

注意

若要创建数据源，请单击“新建数据源”，启动数据源向导。

4.在“选择表和视图”页上，选择下列对象，然后单击右箭头键，将它们包括在新数据源视图中：

∙ProspectiveBuyer（dbo）-预期自行车购买者的表

∙vTargetMail（dbo）-有关以前的自行车购买者的历史数据的视图

5.单击“下一步”。

6.在“完成向导”页上，系统默认将数据源视图命名为AdventureWorksDW2008R2。

将该名称更改为TargetedMailing，然后单击“完成”。

新数据源视图随即在“TargetedMailing.dsv[设计]”选项卡中打开。

第2课：

生成TargetedMailing结构（数据挖掘基础教程）

AdventureWorksCycles的市场部希望通过向目标特定客户发送邮件的方式来提高销售量。

公司的数据库AdventureWorksDW2008R2包含一个现有客户列表和一个潜在的新客户列表。

公司希望通过调查现有客户的特征来发现适用于潜在客户的模式。

AdventureWorksCycles希望使用发现的模式来预测哪些潜在客户最有可能购买自己的自行车。

在本课程中，您将使用“数据挖掘向导”来创建TargetedMailing结构。

完成本课程中的任务之后，您将创建一个具有一个模型的挖掘结构。

由于创建结构涉及到很多步骤和重要的概念，因此我们将此过程分成以下三个任务：

●创建目标邮件挖掘模型结构（数据挖掘基础教程）

●指定数据类型和内容类型（数据挖掘基础教程）

●为结构指定测试数据集（数据挖掘基础教程）

创建目标邮件挖掘模型结构（数据挖掘基础教程）

创建目标邮件方案的第一步是使用BusinessIntelligenceDevelopmentStudio中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。

在本任务中，您将基于Microsoft决策树算法创建初始挖掘结构。

若要创建此结构，需要首先选择表和视图，然后标识将用于定型的列和将用于测试的列。

创建用于目标邮件方案的挖掘结构

1.在解决方案资源管理器中，右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。

2.在“欢迎使用数据挖掘向导”页上，单击“下一步”。

3.在“选择定义方法”页上，确保已选中“从现有关系数据库或数据仓库”，再单击“下一步”。

4.在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术？

”下，选择“Microsoft决策树”。

注意

如果收到警告，告知无法找到数据挖掘算法，则项目属性可能配置不正确。

当项目尝试从AnalysisServices服务器检索数据挖掘算法列表却找不到服务器时，就会出现此警告。

默认情况下，BIDevelopmentStudio会将localhost用作服务器。

如果要使用其他实例或命名实例，则必须更改项目属性。

5.单击“下一步”。

6.在“选择数据源视图”页上的“可用数据源视图”窗格中，选择TargetedMailing。

可单击“浏览”查看数据源视图中的各表，然后单击“关闭”返回该向导。

7.单击“下一步”。

8.在“指定表类型”页上，选中vTargetMail的“事例”列中的复选框以将其用作事例表，然后单击“下一步”。

稍后您将使用ProspectiveBuyer表进行测试，不过现在可以忽略它。

9.在“指定定型数据”页上，您将为模型至少标识一个可预测列、一个键列以及一个输入列。

选中BikeBuyer行中的“可预测”列中的复选框。

注意

请注意窗口底部的警告。

只有在至少选中一个“输入”列和一个“可预测”列后，才能导航至下一页。

10.单击“建议”打开“提供相关列建议”对话框。

只要选中至少一个可预测属性，即可启用“建议”按钮。

“提供相关列建议”对话框将列出与可预测列关联最密切的列，并按照与可预测属性的相互关系对属性进行排序。

显著相关的列（置信度高于95%）将被自动选中以添加到模型中。

查看建议，然后单击“取消”忽略建议。

注意

如果单击“确定”，所有列出的建议都将在向导中标记为输入列。

如果仅同意其中的某些建议，则必须手动更改值。

11.确认在CustomerKey行中已选中“键”列中的复选框。

注意

如果数据源视图中的源表表示一个键，则数据挖掘向导将自动选择该列作为模型的键。

12.选中以下行中“输入”列中的复选框。

可通过下面的方法来同时选中多个列：

突出显示一系列单元格，然后在按住Ctrl的同时选中一个复选框。

∙Age

∙CommuteDistance

∙EnglishEducation

∙EnglishOccupation

∙Gender

∙GeographyKey

∙HouseOwnerFlag

∙MaritalStatus

∙NumberCarsOwned

∙NumberChildrenAtHome

∙Region

∙TotalChildren

∙YearlyIncome

13.在该页的最左侧的列中，选中以下行中的复选框。

∙AddressLine1

∙AddressLine2

∙DateFirstPurchase

∙EmailAddress

∙FirstName

∙LastName

确保这些行仅选择了左侧列中的复选标记。

这些列将添加到结构中，但不会包含在模型中。

但是，模型生成后，它们将可用于钻取和测试。

14.单击“下一步”。

指定数据类型和内容类型（数据挖掘基础教程）

您已经选择了要用于生成结构和为模型定型的列，现在可以对向导设置的默认数据类型和内容类型进行任何必要的更改。

检查和修改每列的内容类型和数据类型

1.在“指定列的内容和数据类型”页上，单击“检测”运行用来确定每列的默认数据类型和内容类型的算法。

2.查看“内容类型”和“数据类型”列中的各项；如有必要，请进行更改，以确保设置与下表所示一致。

通常，向导会检测数值，并分配相应的数值数据类型；但有些情况下，您可能想要将数值作为文本处理。

例如，GeographyKey应作为文本处理，因为对此标识符进行数学运算是不对的。

列

内容类型

数据类型

AddressLine1

Discrete

Text

AddressLine2

Discrete

Text

Age

Continuous

Long

BikeBuyer

Discrete

Long

CommuteDistance

Discrete

Text

CustomerKey

Key

Long

DateLastPurchase

Continuous

Date

EmailAddress

Discrete

Text

EnglishEducation

Discrete

Text

EnglishOccupation

Discrete

Text

FirstName

Discrete

Text

Gender

Discrete

Text

GeographyKey

Discrete

Text

HouseOwnerFlag

Discrete

Text

LastName

Discrete

Text

MaritalStatus

Discrete

Text

NumberCarsOwned

Discrete

Long

NumberChildrenAtHome

Discrete

Long

Region

Discrete

Text

TotalChildren

Discrete

Long

YearlyIncome

Continuous

Double

3.单击“下一步”。

为结构指定测试数据集（数据挖掘基础教程）

在数据挖掘向导的最后几个屏幕上，您将把数据拆分成测试集和定型集。

随后您将命名您的结构并针对模型启用钻取。

指定测试集

在创建挖掘结构时将数据分成定型集和测试集，可以立即评估以后创建的挖掘模型的准确性。

指定测试集

1.在“创建测试集”页上，将“测试数据百分比”保留其默认值：

30。

2.对于“测试数据集中的最大事例数”，请键入1000。

3.单击“下一步”。

指定钻取

可以针对模型和结构启用钻取。

该窗口中的复选框针对命名模型启用钻取，并允许您从用来为模型定型的模型事例检索详细信息。

如果基础挖掘结构也已经配置为允许进行钻取，则可以从模型事例和挖掘结构返回详细信息（其中包括挖掘模型中所不包含的列）。

命名模型和结构并指定钻取

1.在“完成向导”页上的“挖掘结构名称”中，键入TargetedMailing。

2.在“挖掘模型名称”中，键入TM_Decision_Tree。

3.选中“允许钻取”复选框。

4.查看“预览”窗格。

请注意，仅显示出那些选作“键”、“输入”或“可预测”的列。

您选择的其他列（例如，AddressLine1）不能用于生成模型，但是将在基础结构中可用，您可以在处理和部署模型之后查询这些列。

5.单击“完成”。

第3课：

添加和处理模型

您在上一课中创建的挖掘结构包含一个基于Microsoft决策树算法的挖掘模型。

为了确定目标邮寄的客户，您将创建两个附加模型，然后处理和部署这些模型。

在本课中，您将创建一组挖掘模型，这些模型将提示潜在客户列表中最有可能购买产品的客户。

若要完成本课程中的任务，您需要使用Microsoft聚类分析算法和MicrosoftNaiveBayes算法。

本课程包含以下任务：

●向TargetedMailing结构中添加新模型（数据挖掘基础教程）

●处理TargetedMailing结构中的模型（数据挖掘基础教程）

向TargetedMailing结构中添加新模型（数据挖掘基础教程）

在本任务中，将使用数据挖掘设计器的“挖掘模型”选项卡定义两个附加模型。

您将使用Microsoft聚类分析算法和MicrosoftNaiveBayes算法创建模型。

之所以选择这两种算法，是因为它们能够预测离散值（例如，自行车购买行为）。

创建聚类分析挖掘模型

1.切换到BusinessIntelligenceDevelopmentStudio中数据挖掘设计器的“挖掘模型”选项卡。

请注意，设计器显示两列，一列是挖掘结构，另一列是在前一课中创建的TM_Decision_Tree挖掘模型。

2.右键单击“结构”列，选择“新建挖掘模型”。

3.在“新建挖掘模型”对话框中的“模型名称”中，键入TM_Clustering。

4.在“算法名称”中，选择“Microsoft聚类分析”。

5.单击“确定”。

新模型现在显示在数据挖掘设计器的“挖掘模型”选项卡中。

此模型是用Microsoft聚类分析算法生成的，它将具有相似特征的客户进行分类并预测每个分类的自行车购买行为。

虽然您可以修改新模型的列用法和属性，但在本教程中不需要对TM_Clustering模型进行任何更改。

创建NaiveBayes挖掘模型

1.在数据挖掘设计器的“挖掘模型”选项卡中，右键单击“结构”列，并选择“新建挖掘模型”。

2.在“新建挖掘模型”对话框中的“模型名称”下，键入TM_NaiveBayes。

3.在“算法名称”中，选择MicrosoftNaiveBayes，再单击“确定”。

此时将显示一条消息，说明MicrosoftNaiveBayes算法不支持Age和YearlyIncome列，这些都是连续列。

4.单击“是”，以确认此消息并继续下面的操作。

新模型将显示在数据挖掘设计器的“挖掘模型”选项卡中。

虽然您可以在此选项卡中修改所有模型的列用法和属性，但在本教程中不需要对TM_NaiveBayes模型进行任何更改。

处理TargetedMailing结构中的模型（数据挖掘基础教程）

必须先部署AnalysisServices项目并处理挖掘结构和挖掘模型，才能浏览或使用创建的挖掘模型。

“部署”是将项目发送到服务器并在该服务器上的该项目中创建任意对象。

“处理”是指用关系数据源的数据填充AnalysisServices对象的步骤或一系列步骤。

模型经过部署和处理后才能使用。

确保与HoldoutSeed一致

部署项目并处理结构和模型后，数据结构中各行将根据随机数种子随机分配给定型集和测试集。

通常，随机数种子是根据数据结构的属性计算的。

为了实现本教程教学目的，为确保您的结果与此处所述相同，我们将随机指派一个固定的“维持种子”：

12。

维持种子用来初始化随机抽样的种子，并确保以大体相同的方式对所有挖掘结构及其模型中的数据进行分区。

此值不影响定型集内的事例数，而是将确保分区能够重复。

设置HoldoutSeed

1.在BusinessIntelligenceDevelopmentStudio的数据挖掘设计器中，单击“挖掘结构”选项卡或“挖掘模型”选项卡。

TargetedMailingMiningStructure显示在“属性”窗格中。

2.确保按F4可以打开“属性”窗格。

3.确保CacheMode已设置为KeepTrainingCases。

4.为HoldoutSeed输入12。

部署并处理模型

在数据挖掘设计器中，可以处理挖掘结构、与挖掘结构关联的特定挖掘模型，或者结构以及与该结构关联的所有模型。

在本任务中，我们将同时处理结构和所有模型。

部署项目并处理所有挖掘模型

1.在“挖掘模型”菜单上选择“处理挖掘结构和所有模型”。

如果更改了结构，系统将提示您在处理模型之前生成和部署项目。

单击“是”。

2.在“处理挖掘结构-TargetedMailing”对话框中单击“运行”。

“处理进度”对话框将打开以显示有关模型处理的详细信息。

模型处理可能需要一些时间，具体取决于您的计算机。

3.模型处理完成后，在“处理进度”对话框中单击“关闭”。

4.在“处理挖掘结构

展开阅读全文