数据挖掘概念与技术_课后题答案汇总-南京廖华答案网

数据挖掘概念与技术_课后题答案汇总下载本文

数据挖掘——概念概念与技术

Data Mining

Concepts and Techniques

习题答案第 1 章引言

1.1 什么是数据挖掘？在你的回答中，针对以下问题：

1.2 1.6 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测

聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。解答：

? 特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特

征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge) 的信息，还有所修的课程的最大数量。

? 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一

般特性进行比较。例如，具有高 GPA 的学生的一般特性可被用来与具有低 GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生，而具有低 GPA 的学生的 65%不是。

? 关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的

特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：

major(X, “ computing science”) ? owns(X,

“personal

computer” ) [support=12%, confid ence=98%]

其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12% （支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是 98%（置信度，或确定度）。 ? 分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类

型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。

? 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。

? 数据延边分析描述和模型化随时间变化的对象的规律或趋势，尽管这可

能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析

1.3 1.9 列举并描述说明数据挖掘任务的五种原语。解答：

用于指定数据挖掘任务的五种原语是：

? 任务相关数据：这种原语指明给定挖掘所处理的数据。它包括指明数据

库、数据库表、或数据仓库，其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。 ? 挖掘的数据类型：这种原语指明了所要执行的特定数据挖掘功能，如特

征化、区分、关联、分类、聚类、或演化分析。同样，用户的要求可能更特殊，并可能提供所发现的模式必须匹配的模版。这些模版或超模式（也被称为超规则）能被用来指导发现过程。

? 背景知识：这种原语允许用户指定已有的关于挖掘领域的知识。这样的

知识能被用来指导知识发现过程，并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的形式。

? 模式兴趣度度量：这种原语允许用户指定功能，用于从知识中分割不感

兴趣的模式，并且被用来指导挖掘过程，也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴趣的模式的数量，因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易性、确定性、适用性、和新颖性的特征。

? 发现模式的可视化：这种原语述及发现的模式应该被显示出来。为了使

数据挖掘能有效地将知识传给用户，数据挖掘系统应该能将发现的各种形式的模式展示出来，正如规则、表格、饼或条形图、决策树、立方体或其它视觉的表示。

1.4 1.13 描述以下数据挖掘系统与数据库或数据仓库集成方法的差别：不

耦合、松散耦合、半紧耦合和紧密耦合。你认为哪种方法最流行，为什么？

解答：数据挖掘系统和数据库或数据仓库系统的集成的层次的差别如下。

? 不耦合：数据挖掘系统用像平面文件这样的原始资料获得被挖掘的原

始数据集，因为没有数据库系统或数据仓库系统的任何功能被作为处理过程的一部分执行。因此，这种构架是一种糟糕的设计。 ? 松散耦合：数据挖掘系统不与数据库或数据仓库集成，除了使用被挖

掘的初始数据集的源数据和存储挖掘结果。这样，这种构架能得到数据库和数据仓库提供的灵活、高效、和特征的优点。但是，在大量的数据集中，由松散耦合得到高可测性和良好的性能是非常困难的，因为许多这种系统是基于内存的。

? 半紧密耦合：一些数据挖掘原语，如聚合、分类、或统计功能的预计

算，可在数据库或数据仓库系统有效的执行，以便数据挖掘系统在挖掘-查询过程的应用。另外，一些经常用到的中间挖掘结果能被预计算并存储到数据库或数据仓库系统中，从而增强了数据挖掘系统的性能。

? 紧密耦合：数据库或数据仓库系统被完全整合成数据挖掘系统的一

部份，并且因此提供了优化的数据查询处理。这样的话，数据挖掘子系统被视为一个信息系统的功能组件。这是一中高度期望的结构，因为它有利于数据挖掘功能、高系统性能和集成信息处理环境的有效实现。

从以上提供的体系结构的描述看，紧密耦合是最优的，没有值得顾虑的技术和执行问题。但紧密耦合系统所需的大量技术基础结构仍然在发展变化，其实现并非易事。因此，目前最流行的体系结构仍是半紧密耦合，因为它是松散耦合和紧密耦合的折中。

1.5 1.14 描述关于数据挖掘方法和用户交互问题的三个数据挖掘挑战。

第 2 章数据预处理

2.1 2.2 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。

年龄 1~5 5~15 15~20 20~50 50~80 80~110

计算数据的近似中位数值。

解答：先判定中位数区间：

N=200+450+300+1500+700+44=3194；N/2=1597

频率 200 450 300 1500 700 44

∵ 200+450+300=950<1597<2450=950+1500； ∴ 20~50 对应中位数区间。我们有：L1=20，

N=3197，(∑freq) l=950，freqmed ian=1500，width=30，使用公式（2.3）： median ? L1

???? N / 2 ?? ??freq ???? 950 ?? 3197 / 2 ????? width ? 20 ? ?? ? 30 ? 32.97

???

freq median

?? 1500 ??

∴ median=32.97 岁。

2.2 2.4 假定用于分析的数据包含属性 age。数据元组的 age 值（以递增序）

是：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30， 33，33，35，35，35，35，36，40，45，46，52，70。 (a) 该数据的均值是什么？中位数是什么？

(b) 该数据的众数是什么？讨论数据的峰（即双峰、三峰等）。 (c) 数据的中列数是什么？

(d) 你能（粗略地）找出数据的第一个四分位数（Q1）和第三个四分位数（Q3）吗？

(e) 给出数据的五数概括。 (f) 画出数据的盒图。

(g) 分位数—分位数图与分位数图的不同之处是什么？解答：

(a) 该数据的均值是什么？中位数是什么？

1 N ? 809 / 27 ? 29.96 ? 30 （公式 2.1 ）。中位数应是第 14 均值是： x ?? ?xi

?N i?1

个，即 x14=25=Q2。

(b) 该数据的众数是什么？讨论数据的峰（即双峰、三峰等）。这个数集的众数有两个：25 和 35，发生在同样最高的频率处，因此是双峰

Word文档下载：数据挖掘概念与技术_课后题答案汇总.doc

搜索更多:数据挖掘概念与技术_课后题答案汇总