数据仓库与数据挖掘习题 下载本文

.

算法的要点。你的算法不必将所有的数据移到一个站点,并且不造成过度的网络通信开销。 6.8 假定大型事务数据库DB的频繁项集已经存储。讨论:如果新的事务集△DB(增量地)加进,在相同的最小支持度阈值下,如何有效地挖掘(全局)关联规则?

6.9 提出并给出挖掘多层关联规则的层共享挖掘方法的要点。其中,每个项用它的层位置编码,一次初始数据库扫描收集每个概念层的每个项的计数,识别频繁和子频繁项集。将用该方法挖掘多层关联规则与挖掘单层关联规则的花费进行比较。

6.10 证明:包含项h和其祖先h'的项集H的支持度与项集H-h'的支持度相同。解释如何将它用于层交叉关联规则挖掘。

6.11 提出一种挖掘混合维关联规则(多维关联规则带有重复谓词)的方法。 6.12 序列模式可以用类似于关联规则挖掘的方法挖掘。设计一个有效的算法,由事务数据库挖掘多层序列模式。这种模式的一个例子如下:\买PC的顾客在三个月内将买Microsoft软件\,在其上,可以下钻,发现该模式的更详细的版本,如\买Pentium PC的顾客在三个月内将买Microsoft Office\。

6.13 商店里每种商品的价格是非负的。商店经理只关心如下形式的规则:\一件免费商品可能触发在同一事务中$200的总购物\。陈述如何有效地挖掘这种规则。

6.14 商店里每种商品的价格是非负的。对于以下每种情况,识别它们提供的约束类型,并简略讨论如何有效地挖掘这种关联规则。 (a) 至少包含一件Nintendo游戏。

(b) 包含一些商品,它们的单价和小于$150。

(c) 包含一件免费商品,并且其它商品的单价和至少是$200。 (d) 所有商品的平均价格在$100和$500之间。

7.1 简述判定树分类的主要步骤。

7.2 在判定树归纳中,为什么树剪枝是有用的?用一个单独的样本集计值剪枝的缺点是什么?

7.3 为什么朴素贝叶斯分类称为\朴素\的?简述朴素贝叶斯分类的主要思想。

7.4 比较急切分类(如判定树、贝叶斯、神经网络)相对于懒散分类(如,k-最临近、基于案例的推理)的优缺点。 7.5 通过对预测变量的变换,有些非线性回归模型可以转换成线性的。指出如何将非线性回归方程Y=aXb转换成可以用最小平方法求解的线性回归方程。 7.6 什么是推进?陈述它为何能提高判定树归纳的准确性。

的表决,这里每个分类法的表决是其准确率的函数。推进算法也可以扩充到连续值预测。 7.7 证明准确率是灵敏性和特效性度量的函数,即证明( 7.31 )式。

7.8 当一个数据对象可以同时属于多个类时,很难评估分类的准确率。陈述在这种情况下,你将使用何种标准比较在相同数据上的建模的不同分类方法。

7.9 给定判定树,你有选择:(a)将判定树转换成规则,然后对结果规则剪枝,或(b) 对判定树剪枝,然后将剪枝后的树转换成规则。相对于(b),(a)的优点是什么? 7.10 给定k和描述每个样本的属性数n,写一个k-最临近分类算法。 7.11 下表给出课程数据库中学生的期中和期末考试成绩。 X

其中考试 Y 期末考试 72 84 50 63

.

.

81 77 74 78 94 90 86 75 59 49 83 79 65 7 7 33 52 88 74 81 90

(a) 绘数据图。X和Y看上去具有线性联系吗?

(b) 使用最小二乘法,求由学生的期中成绩预测学生的期末成绩的方程式。 (c) 预测期中成绩为86分的学生的期末成绩。

7.12 下表有雇员数据库的训练数据组成。数据已概化。对于给定的行, count表示department,status, age和salary在该行上具有给定值的元组数。 department Status Age Salary count sales senior 31...35 46K...50K 30

sales& nbsp;junior 26...30 26K...30K 40 sales junior 31...35 31K...35K 40 systems juni or 21...25 46K...50K 20 systems senior 31...35 66K...70K 5 systems junior 26...30 46K...50K 3 systems senior 41...45 66K...70K 3 marketing senior 36...40 46K...50K 10 marketing junior 31...35 41K...45K 4

secretary senior 46...50&nbs p;36K...40K 4 secretary junior 26...30 26K...30K 6 设salary是类标号属性。

(a) 你将如何修改ID3算法,以便考虑每个概化数据元组(即每一行)的count? (b) 使用你修改过的ID3算法,构造给定数据的判定树。

(c) 给定一个数据样本,它在属性department,status和age上的值分别为\和\。该样本的salary的朴素贝叶斯分类是什么? (d) 为给定的数据设计一个多层前馈神经网络。标记输入和输出层节点。

(e) 使用上面得到的多层前馈神经网络,给定训练实例\给出后向传播算法一次迭代后的权值。指出你使用的初始权值和偏置以及学习率。

8.1 给定年龄 age 的变量的如下度量值:18 ,22 , 25 ,42 ,28 , 43 ,33 ,35 , 56 ,28 通过如下的方法进行变量标准化: a) 计算age 的平均绝对误差。 b) 计算头四个值的z -score 。

8.2 给定两个对象,分别用元组(22 ,1 , 42 ,10 )和(20 , 0 ,36 ,8 )表示 a) 计算两个对象之间的欧几里的距离 b) 计算两个对象之间的曼哈坦距离

.

.

计算两个对象间的明考斯基距离,q=3。

8.3 什么是聚类?简单描述下列聚类方法:划分方法,层次方法,基于密度的方法,基于网格的方法,以及基于模型的方法。为每种方法给出例子。

8.4 假设数据挖掘的任务是将如下8 个点(用(x , y )代表位置)聚类为3 个簇: A1 ( 2 ,10 ),A2 ( 2 ,5 ),A3 ( 8 ,4 ), B1 ( 5 ,8 ),B2 ( 7 ,5 ),B3 ( 6 ,4 ), C1 ( 1 ,2 ),C2 ( 4 ,9 )

距离函数是欧几里的距离。假设初始选择A1 ,B1 , C1 分别为每个聚类的中心。请用K 平均算法给出

a) 第一次循环执行后的三个聚类中心; b) 最后的三个簇。

8.5 人眼在判断聚类方法对二位数据的聚类质量上是快速而有效的。你能否设计出一个数据可视的方法类似数据聚类可视化和帮助人们判断三维数据的聚类质量。对更高维的数据如何?

8.6 给出如何集成特定聚类算法的例子,例如,什么情况下一个聚类算法被用作另一个算法的预处理。

9.1异构数据库系统由多个数据库系统组成,这些数据库的定义是相互独立的,但彼此间需要一定的信息交换,能够处理局部和全局查询。试述在这种系统中如何使用基于概化的方法处理描述性挖掘查询。

9.2对象立方体的建立,可以在执行多维概化之前通过把面向对象的数据库概化为结构化数据来完成。试述如何在对象立方体中处理集合值数据。 9.3 空间关联挖掘可以至少按如下两种方式加以实现:(i)基于挖掘查询的要求,可以动态计算不同空间对象之间的空间关联关系;(ii)预先计算出空间对象间的空间距离,使得关联挖掘可以基于这些预计算结果求得。试述(i)如何高效实现上述方法;(ii)各方法的适用条件。

9.4假设某城市的交通部门需要规划高速公路的建设,为此希望根据每天不同时刻收集到的交通数据进行有关高速公路大通方面的数据分析。

(a)设计一存储高速公路交通信息的空间数据仓库,可以方便地支持人们按高速公路、按一天的时间和按工作日查看平均的和高峰时间的交通流量,以及在发生重大交通事故时的交通状况。

(b)可以从该空间数据仓库中挖掘什么样的信息用于支持城市规划人员?

(c)该数据仓库既包含了空间数据,也包含了时态数据。设计一种挖掘技术,可以高效地从该空间-时态数据仓库挖掘有意义的模式。

9.5 多媒体中的相似检索已经成为多媒体数据检索系统开发中的主要内容。然而,许多多媒体数据挖掘方法只是基于孤立的简单多媒体特征分析,如颜色、形状、描述、关键字,等等。 (a)请指出将数据挖掘与基于相似性的检索结合,可以给多媒体数据挖掘带来重要的进步。可以用任一数据挖掘技术为例,如多维分析、分类、关联或聚类等。

(b)请概述应用基于相似性的搜索方法增强多媒体数据中聚类质量的实现技术。

9.6假设一供电站保存了按时间和按地区的能源消耗量,和每一地区每一用户的能源使用信息。讨论在这一时序数据库中,如何解决如下问题: (a)找出星期五某一给定地区的相似的能源消耗曲线;

(b)当能源消耗曲线急剧上升时,20分钟内会发生什么情况?

(c)如何找出可以区分稳定能源消耗地区与不稳定能源消耗地区的最突出特征?

.

.

9.7假设某连锁餐厅想挖掘出与主要体育事件相关的顾客行为,如\每当电视播出法裔加拿大人的曲棍球比赛时,肯德鸡的销量会在比赛前一小时上升20%\。 (a)给出一种找出这种模式的有效方法。

(b )大部分与时间相关的关联挖掘算法都使用了类Apriori算法来挖掘此类模式。6.2.4节中介绍的基于数据库投影的频繁模式(FP)增长方法,对挖掘频繁项集是十分有效的。可否扩展FP-增长方法去找出此类与时间相关的模式?

9.8一个电子邮件数据库是指包含了大量电子邮件(e-mail)信息的数据库。它可以被视为主要包含文本数据的半结构化数据库。讨论以下问题:

(a)如何使一个e-mail数据库变成结构化的,以便支持多维检索,如按发送者、接受者、主题和时问等的检索。

(b)从e-mail数据库中可以挖掘什么信息? (c )假设对以前的一组e-mail 信息有一个粗略的对类,如junk (垃圾),unimportant (不重要),normal (一般),或important (重要),试论述一数据挖掘系统如何以此为训练集来自动分类新的e-mail 消息或反分类(unclassify )e-mail 信息。

10.1. 给出一个数据挖掘的例子,并且讨论在此应用中如何使用各种不同的数据挖掘方法 10.2.假设要在市场上购买一个数据挖掘系统

(a)考虑数据挖掘系统与数据库和数据仓库系统耦合方式,试述无耦合、松耦合、半紧耦合和紧耦合之间的区别;

(b)行可伸缩性和列可伸缩性之间的区别是什么?

(c)当选择一个数据挖掘系统时,在以上列出的诸多特征中,哪些是你要关心的?

10.3、考察一个现存的商品化数据挖掘系统。从多个不同角度来看,分析这一系统的主要特征,包括可处理的数据类型,系统体系结构,数据源,数据挖掘功能,数据挖掘方法,与数据库或数据仓库系统的耦合度,可伸缩性,可视化工具,和图形用户界面。能否对该系统提出一些改进意见,并且概述其实现方法? 10.4、提出几种对音频数据挖掘的实现方法。可否将音频数据挖掘与可视化数据挖掘结合起来,使得数据挖掘有趣而强大?

10.5、基于现有的对数据挖掘系统和应用的只是,你认为数据挖掘会成为一个巨大的市场吗?数据挖掘研究与开发的瓶颈是什么?你认为目前数据挖掘的方法会赢得巨大的系统应用市场份额吗?如果不是,你能提出一些建议吗? 10.6、直接查询应答与智能查询应答之间的区别是什么?假设一个用户要查询某度假区的旅馆的价格、地址和等级。举例来说明用直接查询应答与智能查询应答处理此查询的情况。 10.7、为什么说理论基础的建立对数据挖掘十分重要的?列出并且描述现在已经提出的数据挖掘的主要理论基础。评论一下每一种理论是如何满足(或者不满足)数据挖掘的理想理论框架的要求。 10.8、通用计算机加上于领域独立的关系数据库系统在过去的几十年中,已经形成一个巨大的市场。对数据挖掘而言,我们应该致力于开发独立于领域的数据挖掘系统,还是应当开发特定领域的数据挖掘系统?请说出理由。

.