中国科学院大学现代信息检索课后习题答案

tf(a) car auto insurance best 1 0.5 1 1 idf tf-idf 1.65 2.08 1.62 1.5 1.65 1.04 1.62 1.5 归一化tf-idf 0.560 0.353 0.550 0.509 tf 4 33 33 0 idf tf-idf 1.65 6.6 归一化 tf-idf 0.075 0.66 2.08 68.64 0.786 1.62 53.46 0.613 1.5 0 0

查询q 词项 car auto insurance best tf(a) 1 0.5 1 1 idf tf-idf 1.65 2.08 1.62 1.5 1.65 1.04 1.62 1.5 归一化tf-idf 0.560 0.353 0.550 0.509 tf 24 0 29 17 文档Doc3 idf tf-idf 1.65 2.08 1.5 归一化 得分 tf-idf 0 39.6 0.595 0 0.92 1.62 46.98 0.706 25.5 0.383

于是,在nnn.atc下,Score(q,Doc3)>Score(q,Doc1)>Score(q,Doc2)

第七章 一个完整搜索系统中的评分计算

习题 7-3 给定单个词项组成的查询,请解释为什么采用全局胜者表(r=K)已经能够充分保证找到

前K篇文档。如果只有s个词项组成的查询(s>1),如何对上述思路进行修正? 解答:

词项t所对应的tf最高的r篇文档构成t的胜者表。单词项查询,idf已经不起作用了(idf用于

区别不同词的先天权重),所以此时已经足够了。

对于s个词项组成的查询,有idf权重了。。因此,不再独立。【这一问本人也不知道该怎么答,不扣分吧】

习题 7-5 重新考察习题6-23中基于nnn.atc权重计算的数据,假定Doc1和Doc2的静态得分分

别是1和2。请确定在公式(7-2)下,如何对Doc3的静态得分进行取值,才能分别保证它能够成为查询best car insurance的排名第一、第二或第三的结果。 解答:这道题不扣分吧。。整个书上有关余弦相似度的计算这块都有问题【即按照公式(7-2) (6-12)

算出的应该是0到1之间的数,但实际例子(例6-4)却是大于1的数,例子中都没有考虑查询向

量的大小。另外,按照习题6-23中nnn.atc算出的根本不是什么余弦相似度。整个一团乱】

如果相似度先采用nnn.atc计算,最后除以文档向量的大小,则三篇文档的得分分别为:1.39、1.47– – –

和1.68。

排名第一:g(d3)+1.68>3.47, g(d3)>1.79

排名第二:2.39< g(d3)+1.68 <3.47, 0.71< g(d3)<1.79 排名第三:0< g(d3) < 0.71

习题 7-7 设定图6-10中Doc1、Doc2和Doc3的静态得分分别是0.25、0.5和1,画出当使用静态

得分与欧几里得归一化tf值求和结果进行排序的倒排记录表。

解答:按照公式7-2计算得下表: car auto insurance best doc1 1.13 0.35 0.25 (0) 0.71 doc2 0.59 1.21 1.21 0.5 (0) doc3 1.58 1 (0) 1.7 1.41 所以,倒排记录表如下: car ?doc3 ?doc1 ?doc2 auto ?doc2?doc 3 ?doc1 【按道理,tf为零的不应该出现在倒排记录中,有的也算对】 insurance?doc3?doc2?doc1 best ?doc3?doc1?doc2

第八章 信息检索的评价

习题 8-8 [*] 考虑一个有4篇相关文档的信息需求,考察两个系统的前10个检索结果(左边的结

果排名靠前),相关性判定的情况如下所示:

系统1 系统2

R N R N N N R N N R

N N N R R R R N N N

a. 计算两个系统的MAP值并比较大小。

b. 上述结果直观上看有意义吗?能否从中得出启发如何才能获得高的MAP得分? c. 计算两个系统的R正确性值,并与a中按照MAP进行排序的结果进行对比。 解答:

a. 系统1 (1+2/3+3/9+4/10)/4=0.6 系统2 (1/2+2/5+3/6+4/7)/4=0.492

b. 相关文档出现得越靠前越好,最好前面3-5篇之内

c. 系统1的R-Precision= 0.5, 系统2 R-Precision= 0.25

习题 8-9 [**] 在10 000篇文档构成的文档集中,某个查询的相关文档总数为8,下面给出了某系

统针对该查询的前20个有序结果的相关(用R表示)和不相关(用N表示)情况,其中有6篇相关文档:

R R N N N N N N R N R N N N R N N N N R

a. 前20篇文档的正确率是多少?

P@20=6/20=30% b. 前20篇文档的F1值是多少?

R@20=6/8=75%,F1=3/7=0.429

150

c. 在25%召回率水平上的插值正确率是多少?

1 d. 在33%召回率水平上的插值正确率是多少?

3/9=33.3%

e. 假定该系统所有返回的结果数目就是20,请计算其MAP值。

(1+1+3/9+4/11+5/15+6/20)/8=0.4163

假定该系统返回了所有的10 000篇文档,上述20篇文档只是结果中最靠前的20篇文档,那么 f. 该系统可能的最大MAP是多少?

从第21位开始,接连两篇相关文档,此时可以获得最大的MAP,此时有: (1+1+3/9+4/11+5/15+6/20+7/21+8/22)/8=0.503 g. 该系统可能的最小MAP是多少?

(1+1+3/9+4/11+5/15+6/20+7/9999+8/10000)/8=0.4165

h. 在一系列实验中,只有最靠前的20篇文档通过人工来判定,(e)的结果用于近似从(f)到(g)的MAP取值范围。对于上例来说,通过(e)而不是(f)和(g)来计算MAP所造成的误差有多大(采用绝对值来计算)?

|0.4163-(0.503+0.4165)/2|=0.043

第九章 相关反馈及查询扩展

习题9-3:用户查看了两篇文档d1 和 d2,并对这两篇文档进行了判断:包含内容CDs cheap software cheap CDs的文档d1为相关文档,而内容为cheap thrills DVDs 的文档d2为不相关文档。假设直接使用词项的频率作为权重 (不进行归一化也不加上文档频率因子),也不对向量进行长度归一化。采用公式(9-3)进行Rocchio相关反馈,请问修改后的查询向量是多少?其中α = 1,β = 0.75,γ = 0.25。

解答:

习题9-4: Omar实现了一个带相关反馈的Web搜索系统,并且为了提高效率,系统只基于返回网页的标题文本进行相关反馈。用户对结果进行判定,假定第一个用户Jinxing的查询是 banana slug

返回的前三个网页的标题分别是: banana slug Ariolimax columbianus Santa Cruz mountains banana slug

Santa Cruz Campus Mascot

Jinxing认为前两篇文档相关,而第3篇文档不相关。假定Omar的搜索引擎只基于词项频率(不包括长度归一化因子和IDF因子)进行权重计算,并且假定使用Rocchio算法对原始查询进行修改,其中α = β = γ = 1。请给出最终的查询向量(按照字母顺序依次列出每个词项所对应的分量)。

解答:

第十章 XML检索

(无作业)

第十一章 概率检索模型

习题11-1 根据公式(11-18)和公式(11-19)推导出公式(11-20)。

解答:代入求解即可。

习题11-3 令Xt表示词项t在文档中出现与否的随机变量。假定文档集中有|R|篇相关文档,其中有s篇文档包含词项t,即在这s篇文档中Xt=1。假定所观察到的数据就是这些Xt在文档中的分布情况。请证明采用MLE估计方法对参数

进行估计的结果,即使得观察数据概率最大化的参数

值为 pt = s/ |R|。

第十二章 基于语言建模的信息检索模型

习题12-3 习题12-3 例12-2中按照M1 和 M2 算出的文档的似然比是多少?

解答:由于P(s|M1) = 0.000 000 000 000 48

,P(s|M2) = 0.000 000 000 000 000 384,所以两者的似然比是 0.00000000000048/ 0.000000000000000384 =1250

习题12-6 [*] 考虑从如下训练文本中构造LM:

the martian has landed on the latin pop sensation ricky martin 请问:

a. 在采用MLE估计的一元概率模型中,P(the)和P(martian)分别是多少?

b. 在采用MLE估计的二元概率模型中,P(sensation|pop)和 P(pop|the)的概率是多少? 解答:

a. P(the)=2/11, P(martian)=1/11 b. P(sensation|pop)=1, P(pop|the)=0

习题 12-7 [**] 假定某文档集由如下4篇文档组成:

为该

文档ID 1 2 3 4 文档文本 click go the shears boys click click click click click metal here metal shears click here 文档集建

立一个查询似然模型。假定采用文档语言模型和文档集语言模型的混合模型,权重均为0.5。采用MLE来估计两个一元模型。 计算在查询click、shears以及click shears下每篇文档模型对应的概率,并利用这些概率来对返回的文档排序。将这些概率填在下表中。 解答:

文档及文档集MLE估计

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4