一、准备 Analysis Services 数据库
(一)、创建 Analysis Services 项目
1. 打开 Business Intelligence Development Studio。
2. 在“文件”菜单上,指向“新建”,然后选择“项目”。
3. 确保已选中“模板”窗格中的“Analysis Services 项目”。
4. 在“名称”框中,将新项目命名为 AdventureWorks。
5. 单击“确定”。
(二)、创建数据源
1. 在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”。
系统将打开数据源向导。
2. 在“欢迎使用数据源向导”页面中,单击“下一步”按钮。
3. 单击“新建”向 Adventure Works 数据库添加连接。
系统将打开“连接管理器”对话框。
4. 在“连接管理器”的“提供程序”列表中,选择默认值。
5. 在“服务器名称”列表中,选择承载 AdventureWorksDW 的服务器。
6. 输入您的凭据。
例如,如果在本地服务器上承载数据库,则选择 localhost。
7. 在“选择或输入数据库名称”列表中,选择 AdventureWorksDW,再单击“确定”按钮。
8. 单击“下一步”按钮进入向导的下一页。
9. 在“模拟信息”页中,选择“使用服务帐户”,再单击“下一步”。
10. 请注意,在“完成向导”页面中,数据源的默认名称为 Adventure Works DW。
11. 单击“完成”。
新的数据源 Adventure Works DW 将显示在解决方案资源管理器的“数据源”文件夹中。
(三)创建数据源视图
1. 在解决方案资源管理器中,右键单击“数据源视图”,选择“新建数据源视图”。
系统将打开数据源视图向导。
2. 在“欢迎使用数据源视图向导”页上,单击“下一步”。
3. 在“选择数据源”页的“关系数据源”下,系统将默认选中您在上一个任务中创建的 Adventure Works DW 数据源。单击“下一步”。
若要创建新数据源,请单击“新建数据源”,启动数据源向导。
4. 在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源视图中:
o dbo.ProspectiveBuyer
o dbo.vAssocSeqLineItems
o dbo.vAssocSeqOrders
o dbo.vTargetMail
o dbo.vTimeSeries
5. 单击“下一步”。
6. 在“完成向导”页上,默认情况下,系统将数据源视图命名为 Adventure Works DW。单击“完成”。
系统将打开数据源视图设计器,显示 Adventure Works DW 数据源视图。
(四)创建新的表格关系
1. 在数据源视图设计器的数据源视图窗格中,选择 vAssocSeqLineItems 表中的 OrderNumber 列。
2. 将该列拖到 vAssocSeqOrders 表中,并将其放到 OrderNumber 列上。
现在,vAssocSeqOrders 和 vAssocSeqLineItems 表之间便存在新的多对一关系。
二、生成市场篮方案
Adventure Works 的市场部希望改进公司的网站以促进越区销售。
在更新网站之前,需要根据客户的在线购物篮中已有的其他产品创建一个可预测客户购买需求的数据挖掘模型。这些预测还有助于市场部将可能被集中购买的项统一放置在网站的一个位置上。
完成本实验中的任务后,您会获得一个挖掘模型,该模型可预测可能出现在购物篮中的其他项或客户想要放入购物篮的项。而且,您还会获得一个可显示客户历史交易中的项组的完整挖掘模型。
在本实验中,您将创建一个市场篮方案。若要完成本实验中的任务,需要了解关联分析算法。
(一)创建关联挖掘结构
1. 在 Business Intelligence Development Studio 的解决方案资源管理器中,右键单击“挖掘结构”,再选择“新建挖掘结构”。
此时,系统将打开数据挖掘向导。
2. 在“欢迎使用数据挖掘向导”页上,单击“下一步”。
3. 在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。
4. 在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选中“Microsoft 关联规则”,再单击“下一步”。
“选择数据源视图”页随即显示。 默认情况下,“可用数据源视图”下的 Adventure Works DW 为选中状态。
5. 单击“下一步”。
6. 在“指定表类型”页上,选中 vAssocSeqOrders 表旁的“事例”复选框,选中 vAssocSeqLineItems 表旁边的“嵌套”复选框,再单击“下一步”。
7. 在“指定定型数据”页上,依次清除 CustomerKey 旁边的“键”复选框和 LineNumber 旁边的“键”和“输入”复选框。
默认情况下,CustomerKey、OrderNumber 以及 LineNumber 被列为“键”类型。 但在本教程中,您将只对 Microsoft 顺序分析和聚类分析模型使用 LineNumber 作为键;您必须更改关联模型的默认设置。
8. 选中 Model 列旁边的“键”和“可预测”复选框。 然后,系统也将自动选中“输入”复选框。
9. 单击“下一步”。
10. 在“指定列的内容和数据类型”页上,单击“下一步”。
11. 在“完成向导”页的“挖掘结构名称”中,键入 Association。
12. 在“挖掘模型名称”中,键入 Association,再单击“完成”。
系统将打开数据挖掘设计器,显示刚刚创建的 Association 挖掘结构。
三、修改市场篮模型
在处理上一个任务中与“关联”挖掘结构一起创建的初始挖掘模型之前,必须更改以下两个参数的默认值:Support 和 Probability。Support 定义规则被视为有效前必须存在的事例百分比。Probability 定义关联被视为有效前必须存在的可能性。
(一)调整关联模型的参数
1. 打开数据挖掘设计器的“挖掘模型”选项卡。
2. 右键单击设计器网格中的“关联”列,然后选择“设置算法参数”。
系统将打开“算法参数”对话框。
3. 在“算法参数”对话框的“值”列中,设置以下参数:
MINIMUM_PROBABILITY = 0.1
MINIMUM_SUPPORT = 0.01
4. 单击“确定”。
(二)处理挖掘模型
由于已经定义了“关联”挖掘模型的结构和参数,可以对该模型进行处理。
1. 在 Business Intelligence Development Studio 的“挖掘模型”菜单上,选择“处理挖掘结构和所有模型”。
系统将打开“处理挖掘结构 - 关联”对话框。
2. 单击“运行”。
系统将打开“处理进度”对话框,以显示有关模型处理的信息。模型处理可能需要一些时间,具体时间取决于您的计算机。
3. 处理完成之后,在“处理进度”和“处理挖掘结构 - 关联”对话框中,单击“关闭”。
四、浏览市场篮模型
因为已经建立了“关联”模型,您可以使用数据挖掘设计器的“挖掘模型查看器”选项卡中的 Microsoft 关联查看器浏览该模型。 浏览模型时,您可以轻松地查看可能同时出现的产品,并可浏览项之间的关系。 还可以筛选出较弱的关联,并对新浮现的模式有一个总体的概念。
Microsoft 关联查看器包含三个选项卡:“项集”、“规则”和“依赖关系网络”。
(一)“项集”选项卡
“项集”选项卡显示与 Microsoft 关联算法发现的项集相关的三种重要信息:支持度(发生项集的事务的数量)、大小(项集中项的数量)以及项集的实际构成。 根据算法参数的设置方式,算法可以生成大量的项集。 使用“项集”选项卡顶部的控件,可以筛选查看器,使其仅显示包含指定的最小支持度和项集大小的项集。
也可以使用“筛选项集”框来筛选查看器中显示的项集。 例如,若要仅查看包含有关 Mountain-200 自行车信息的项集,可在“筛选项集”中输入 Mountain-200。 您将在查看器中看到,只有包含“Mountain-200”字样的项集被显示。 查看器中返回的每个项集都包含有关销售 Mountain-200 自行车事务的信息。 例如,在“支持度”列中包含值 710 的项集表示:在所有事务中,710 个购买 Mountain-200 自行车的人也购买了 Sport-100 自行车。
(二)“规则”选项卡
“规则”选项卡显示与算法发现的规则相关的以下信息。
• 概率
• 规则发生的可能性。
• 重要性
• 用于度量规则的有用性,值越高则意味着规则越有用。 只看概率可能会产生误解。 例如,如果每个事务都包含一个 x 项,规则 y 预测 x 发生的概率为 1,即 x 一定会发生。 即使规则的准确性很高,但这并未传达很多信息,因为不管 y 如何,每个事务都会包含 x。
• 规则
• 规则的定义。
像使用“项集”选项卡一样,您可以筛选规则,以便仅显示最关心的规则。 例如,如果只想查看包含 Mountain-200 自行车的规则,可在“筛选规则”框中输入 Mountain-200。 查看器将仅显示包含“Mountain-200”字样的规则。 每条规则都可以根据事务中其他项的发生情况来预测某个项的发生情况。 例如,由第一个规则可知:如果一个人购买了 Mountain-200 自行车和水壶,则此人还会购买 Mountain 水壶套的概率为 1。
(三)“相关性网络”选项卡
使用“相关性网络”选项卡,可以研究模型中不同项的交互。 查看器中的每个节点表示一个项;例如,Mountain-200 = Existing 节点表示事务中存在 Mountain-200。 通过选择节点,可以使用选项卡底部的彩色图例来确定模型中的项与其他的项的相互确定关系。
滑块与规则的概率关联。 上下移动滑块可以筛选出弱关联。 例如,在“显示”框中,选择“仅显示属性名称”,再单击 Mountain Bottle Cage 节点。 查看器显示,Mountain 水壶套预测了水壶和 Mountain-200 自行车,而水壶和 Mountain-200 自行车也预测了 Mountain 水壶套。 这意味着,这些项有可能同时在事务中出现。 也就是说,如果某个客户购买了自行车,则他也可能会购买水壶套和水壶。