信息检索导论-王斌-第三次课后作业(13-21) 下载本文

信息检索导论第三次课后作业

1、习题13-2

答:(i)贝努利模型:三个文档具有相同的模型表示

(ii)多项式模型:文档1和文档2相同,文档3与它们都不同。文档1和文档2中“Lodon”都出现了两次,文档3中只出现了一次。 2、习题13-5

-可编辑修改-

3、习题14-6

在图14-14 中,3 个向量 a、b及c中哪一个满足:(i) 采用内积计算的情况下与x 最近?(ii) 采用余弦相似度计算的情况下与x最近?(iii) 采用欧氏距离计算的情况下与x最近?

??????

-可编辑修改-

4、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据集每个类别中都包含实例)?

答:一个数据集里支持向量的最小数目是2个。因为SVM分类模型希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面需要的支持向量最小数目是2个。 5、习题16-5 K-均值算法的两个停止条件为:(i) 文档的分配不再改变; (ii) 簇质心不再改变。请问这两个条件是否等价?

答:这两个停止条件是等价的。当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则K-均值算法计算出的文档的分配也就不再改变。

-可编辑修改-

6、习题17-7 a. 考虑在一个两种语言组成的文档集上进行2-均值聚类,你预期的结果是什么?

b. 当使用HAC 算法时,预期的结果是否仍然一样? 答:a.预期的结果:文档根据语言的大致分成两类。

b.预期的结果不一样。HAC是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在合适的位置截断也可以将文档大致分为两类。 7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。整个文档集如图18-4所示。图18-5 给出了与图18-4 相关的英语和西班牙语的术语表。当然,该术语表只用于帮助理解,对检索系统来说是不可见的。

答:(1)词项-文档矩阵:

hello d1 1

d2 0

d3 0

d4 0

d5 0

d6 1

-可编辑修改-

open house professand 0 0 0 0

1 1 0 0 0 0 0 0 0 0

0 0 0 0 0 1 1 0 0 0

0 0 1 0 0 0 0 1 0 0

0 0 0 0 0 0 0 1 1 1

0 0 0 1 1 0 0 0 0 0

welcom0 mi case hola y 0 0 0 0

bienven0

(2)经过SVD分解,得到: U2 = 0.00000 0.70711

-可编辑修改-

0.00000 0.00000 0.00000 0.00000 -0.27639 0.00000 0.00000 0.50000 0.00000 0.50000 0.00000 0.00000 0.00000 0.00000 -0.72361 0.00000 -0.44721 0.00000 -0.44721 0.00000