.
.
数据仓库与数据挖?/p>
习题
1.1
什么是数据挖掘?在你的回答中,强调以下问题?/p>
(a)
它是又一个骗局吗?
(b)
它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?/p>
(c)
解释数据库技术发展如何导致数据挖?/p>
(d)
当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤?/p>
1.2
给出一个例子,其中数据挖掘对于一种商务的成功至关重要的?/p>
这种商务需要什么数?/p>
挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?/p>
1.3
假定你是
Big-University
的软件工程师,任务是设计一个数据挖掘系统,分析学校?/p>
程数据库?/p>
该数据库包括如下信息?/p>
每个学生的姓名,
地址和状?/p>
(例如,
本科生或研究生)
?/p>
所修课程,以及他们累积?/p>
GPA
(学分平均)
。描述你要选取的结构。该结构的每个成分的
作用是什么?
1.4
数据仓库和数据库有何不同?它们有那些相似之处?/p>
1
?/p>
5
简述以下高级数据库系统和应用:面向对象数据库,空间数据库,文本数据库,多媒
体数据库?/p>
WWW
?/p>
1
?/p>
6
定义以下数据挖掘功能:特征化,区分,关联,分类,预测,聚类和演变分析。使?/p>
你熟悉的现实生活中的数据库,给出每种数据挖掘的例子?/p>
1
?/p>
7
区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一?/p>
任务,它们有何相似之处?
1
?/p>
8
根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章
中列出。它需要一种不同于本章列举的数据挖掘技术吗?/p>
1. 9
描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战?/p>
1. 10
描述关于性能问题的两个数据挖掘的挑战?/p>
2.1
试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使?/p>
数据仓库?/p>
,而不愿使用查询驱动的方法(使用包装程序和集成程序?/p>
。描述一些情况,其中
查询驱动方法比更新驱动方法更受欢迎?/p>
2.2
简略比较以下概念,可以用例子解释你的观?/p>
?/p>
a
?/p>
雪花模式、事实星座、星型网查询模型
?/p>
b
?/p>
数据清理、数据变换、刷?/p>
?/p>
c
?/p>
发现驱动数据立方体、多特征方、虚拟仓?/p>
2.3
假定数据仓库包含三个?/p>
time
?/p>
doctor
?/p>
patient
,两个度?/p>
count
?/p>
charge
,其?/p>
charge
是医生对一位病人的一次诊治的收费?/p>
?/p>
a
?/p>
列举三种流行的数据仓库建模模式?/p>
?/p>
b
?/p>
使用?/p>
a
)列举的模式之一,画出上面数据仓库的模式图?/p>
?/p>
c
?/p>
由基本方?/p>
[day
?/p>
doctor
?/p>
patient]
开始,为列?/p>
2000
年每位医生的收费总数,应?/p>
执行哪些
OLAP
操作?/p>
?/p>
d
?/p>
为得到同样的结果,写一?/p>
SQL
查询。假定数据存放在关系数据库中,其模式如下?/p>
fee
?/p>
day
?/p>
month
?/p>
year
?/p>
doctor
?/p>
hospital
?/p>
patient
?/p>
count
?/p>
charge
?/p>
2.4
假定
Big_University
的数据仓库包含如?/p>
4
个维
student, course, semester
?/p>
instructor
?/p>
2
个度?/p>
count
?/p>
avg_grade
。在最低的概念层(例如对于给定的学生、课程、学期和教师
的组合)
,度?/p>
avg_grade
存放学生的实际成绩。在较高的概念层?/p>
avg_grade
存放给定?