数据挖掘概念与技术习题答案 - 图文- 下载本文

设s’是s的非空子集,则

由(b)可知:support_count(s') support count(s),

此外,confidence(s’) 所以,规则

(l-s’)) confidence(s) (l- s)) 。

的置信度不可能大于

6.6设数据库有5个事务。设min_sup =60%, min_conf=80%

(a)分别使用Apriori和FP增长算法找出所有频繁项集。比较两种挖掘过程的效率。

效率比较:Apriori需多次扫描数据库而FP增长建立FP树只需一次的扫描。在Apriori算法中产生候选是昂贵的(由于联接),而FP增长不产生任何候选。

(b)列举所有与下面的元规则匹配的强关联规则(给出支持度S和置信度C),其中,X是代表顾客的变量,itemi是表示项的变量(如:“A”、“B”等):

答: k,o e [0.6,1]

e,o k [0.6,1]

6.8.数据库有4个事务,设min_sup =60%, min_conf=80%

(a)在item_category粒度(例如,itemi 可以是“Milk”),对于下面的规则模板

对最大的k,列出频繁k项集包含最大的k的频繁k项集的所有强关联规则(包括它们的支持度S和置信度c). (b)在 粒度(例如:itemi 可以是“Sunset-Milk”)对于下面的规则模板

对最大的k,列出频繁k项集(但不输出任何规则)。

6.14 下面的相依表汇总了超级市场的事务数据。其中,hot dogs表示包含热狗的事务,hot dogs表示不包含热狗的事务,hamburgers表示包含汉堡包的事务,hamburgers表示不包含汉堡包的事务,

(a)假定挖掘出了关联规则该关联规则是强规则吗?

答:根据规则, support = 2000/5000 = 40%, confidence = 2000/3000 = 66.7%. 该关联规则是强规则.

。给定最小支持度阀值25%,最小置信度阀值50%,

(b)根据给定的数据,买 hot dogs独立于买humburgers吗?如果不是,二者之间存在何种相关联系。 答:corr{hotdog;hamburger} = P({hot dog, hamburger})/(P({hot dog}) P({hamburger})=0.4/(0.5 × 0.6)

=1.33 > 1. 所以,买 hot dogs不是独立于买humburgers。两者存在正相关关系 8.1 简述决策树分类的主要步骤。

8.5 给定一个具有50个属性(每个属性包含100个不同值)的5GB的数据集,而你的台式机有512M内存。简述对这种大型数据集构造决策树的一种有效算法。通过粗略地计算机主存的使用说明你的答案是正确的。

这个问题我们将使用雨林算法。假设有C类标签。最需要的内存将是avc-set为根的树。计算avc-set的根节点,我们扫描一次数据库,构建avc-list每50个属性。每一个avc-list的尺寸是100×C,avc-set的总大小是100×C×50,对于合理的C将很容易适应512 MB内存,计算其他avc-sets也是使用类似的方法,但他们将较小,因为很少属性可用。在并行计算时,我们可以通过计算avc-set节点来减少同一水平上的扫描次数,使用这种每节点小avc-sets的方法,我们或许可以适应内存的水平。

8.7下表由雇员数据库的训练数据组成。数据已泛化。例如:age “31...35”表示年龄在31-35之间。对于给定的行,count表示department,status,age和salary在该行具有给定值的元组数。设status 是类标号属性。

(a)如何修改基本决策树算法,以便考虑每个广义数据元组(即每一行)的count? (b)使用修改的算法,构造给定数据的决策树。

(c)给定一个数据元组,它在属性department,age和salary的值分别为“systems”,“26..30”,和“46K.. 50K”。该元组status的朴素贝叶斯分类是什么?

9.2支持向量机(SVM)是一种具有高准确率的分类方法。然而,在使用大型数据元组集进行训练时,SVM的处理速度很慢。讨论如何克服这一困难,并为大型数据集有效的SVM算法。