中国科学院大学现代信息检索课后习题答案-南京廖华答案网

中国科学院大学现代信息检索课后习题答案下载本文

tf(a) car auto insurance best 1 0.5 1 1 idf tf-idf 1.65 2.08 1.62 1.5 1.65 1.04 1.62 1.5 归一化tf-idf 0.560 0.353 0.550 0.509 tf 4 33 33 0 idf tf-idf 1.65 6.6 归一化 tf-idf 0.075 0.66 2.08 68.64 0.786 1.62 53.46 0.613 1.5 0 0

查询q 词项 car auto insurance best tf(a) 1 0.5 1 1 idf tf-idf 1.65 2.08 1.62 1.5 1.65 1.04 1.62 1.5 归一化tf-idf 0.560 0.353 0.550 0.509 tf 24 0 29 17 文档Doc3 idf tf-idf 1.65 2.08 1.5 归一化得分 tf-idf 0 39.6 0.595 0 0.92 1.62 46.98 0.706 25.5 0.383

于是，在nnn.atc下，Score(q,Doc3)>Score(q,Doc1)>Score(q,Doc2)

第七章一个完整搜索系统中的评分计算

习题 7-3 给定单个词项组成的查询，请解释为什么采用全局胜者表（r=K）已经能够充分保证找到

前K篇文档。如果只有s个词项组成的查询（s>1），如何对上述思路进行修正？解答：

词项t所对应的tf最高的r篇文档构成t的胜者表。单词项查询，idf已经不起作用了(idf用于

区别不同词的先天权重)，所以此时已经足够了。

对于s个词项组成的查询，有idf权重了。。因此，不再独立。【这一问本人也不知道该怎么答，不扣分吧】

习题 7-5 重新考察习题6-23中基于nnn.atc权重计算的数据，假定Doc1和Doc2的静态得分分

别是1和2。请确定在公式（7-2）下，如何对Doc3的静态得分进行取值，才能分别保证它能够成为查询best car insurance的排名第一、第二或第三的结果。解答：这道题不扣分吧。。整个书上有关余弦相似度的计算这块都有问题【即按照公式(7-2) (6-12)

算出的应该是0到1之间的数，但实际例子(例6-4)却是大于1的数，例子中都没有考虑查询向

量的大小。另外，按照习题6-23中nnn.atc算出的根本不是什么余弦相似度。整个一团乱】

如果相似度先采用nnn.atc计算，最后除以文档向量的大小，则三篇文档的得分分别为：1.39、1.47– – –

和1.68。

排名第一：g(d3)+1.68>3.47, g(d3)>1.79

排名第二：2.39< g(d3)+1.68 <3.47, 0.71< g(d3)<1.79 排名第三：0< g(d3) < 0.71

习题 7-7 设定图6-10中Doc1、Doc2和Doc3的静态得分分别是0.25、0.5和1，画出当使用静态

得分与欧几里得归一化tf值求和结果进行排序的倒排记录表。

解答：按照公式7-2计算得下表： car auto insurance best doc1 1.13 0.35 0.25 (0) 0.71 doc2 0.59 1.21 1.21 0.5 (0) doc3 1.58 1 (0) 1.7 1.41 所以，倒排记录表如下： car ?doc3 ?doc1 ?doc2 auto ?doc2?doc 3 ?doc1 【按道理，tf为零的不应该出现在倒排记录中，有的也算对】 insurance?doc3?doc2?doc1 best ?doc3?doc1?doc2

第八章信息检索的评价

习题 8-8 [*] 考虑一个有4篇相关文档的信息需求，考察两个系统的前10个检索结果（左边的结

果排名靠前），相关性判定的情况如下所示：

系统1 系统2

R N R N N N R N N R

N N N R R R R N N N

a. 计算两个系统的MAP值并比较大小。

b. 上述结果直观上看有意义吗？能否从中得出启发如何才能获得高的MAP得分？ c. 计算两个系统的R正确性值，并与a中按照MAP进行排序的结果进行对比。解答：

a. 系统1 (1+2/3+3/9+4/10)/4=0.6 系统2 (1/2+2/5+3/6+4/7)/4=0.492

b. 相关文档出现得越靠前越好，最好前面3-5篇之内

c. 系统1的R-Precision= 0.5, 系统2 R-Precision= 0.25

习题 8-9 [**] 在10 000篇文档构成的文档集中，某个查询的相关文档总数为8，下面给出了某系

统针对该查询的前20个有序结果的相关（用R表示）和不相关（用N表示）情况，其中有6篇相关文档：

R R N N N N N N R N R N N N R N N N N R

a. 前20篇文档的正确率是多少？

P@20=6/20=30% b. 前20篇文档的F1值是多少?

R@20=6/8=75%，F1=3/7=0.429

150

c. 在25%召回率水平上的插值正确率是多少？

1 d. 在33%召回率水平上的插值正确率是多少？

3/9=33.3%

e. 假定该系统所有返回的结果数目就是20，请计算其MAP值。

(1+1+3/9+4/11+5/15+6/20)/8=0.4163

假定该系统返回了所有的10 000篇文档，上述20篇文档只是结果中最靠前的20篇文档，那么 f. 该系统可能的最大MAP是多少？

从第21位开始，接连两篇相关文档，此时可以获得最大的MAP，此时有： (1+1+3/9+4/11+5/15+6/20+7/21+8/22)/8=0.503 g. 该系统可能的最小MAP是多少？

(1+1+3/9+4/11+5/15+6/20+7/9999+8/10000)/8=0.4165

h. 在一系列实验中，只有最靠前的20篇文档通过人工来判定，(e)的结果用于近似从(f)到(g)的MAP取值范围。对于上例来说，通过(e)而不是(f)和(g)来计算MAP所造成的误差有多大（采用绝对值来计算）？

|0.4163-(0.503+0.4165)/2|=0.043

第九章相关反馈及查询扩展

习题9-3：用户查看了两篇文档d1 和 d2，并对这两篇文档进行了判断：包含内容CDs cheap software cheap CDs的文档d1为相关文档，而内容为cheap thrills DVDs 的文档d2为不相关文档。假设直接使用词项的频率作为权重（不进行归一化也不加上文档频率因子），也不对向量进行长度归一化。采用公式（9-3）进行Rocchio相关反馈，请问修改后的查询向量是多少？其中α = 1，β = 0.75，γ = 0.25。

解答：

习题9-4： Omar实现了一个带相关反馈的Web搜索系统，并且为了提高效率，系统只基于返回网页的标题文本进行相关反馈。用户对结果进行判定，假定第一个用户Jinxing的查询是 banana slug

返回的前三个网页的标题分别是： banana slug Ariolimax columbianus Santa Cruz mountains banana slug

Santa Cruz Campus Mascot

Jinxing认为前两篇文档相关，而第3篇文档不相关。假定Omar的搜索引擎只基于词项频率（不包括长度归一化因子和IDF因子）进行权重计算，并且假定使用Rocchio算法对原始查询进行修改，其中α = β = γ = 1。请给出最终的查询向量（按照字母顺序依次列出每个词项所对应的分量）。

解答：

第十章 XML检索

(无作业)

第十一章概率检索模型

习题11-1 根据公式（11-18）和公式（11-19）推导出公式（11-20）。

解答：代入求解即可。

习题11-3 令Xt表示词项t在文档中出现与否的随机变量。假定文档集中有|R|篇相关文档，其中有s篇文档包含词项t，即在这s篇文档中Xt=1。假定所观察到的数据就是这些Xt在文档中的分布情况。请证明采用MLE估计方法对参数

进行估计的结果，即使得观察数据概率最大化的参数

值为 pt = s/ |R|。

第十二章基于语言建模的信息检索模型

习题12-3 习题12-3 例12-2中按照M1 和 M2 算出的文档的似然比是多少？

解答：由于P(s|M1) = 0.000 000 000 000 48

，P(s|M2) = 0.000 000 000 000 000 384，所以两者的似然比是 0.00000000000048/ 0.000000000000000384 =1250

习题12-6 [*] 考虑从如下训练文本中构造LM：

the martian has landed on the latin pop sensation ricky martin 请问：

a. 在采用MLE估计的一元概率模型中，P(the)和P(martian)分别是多少？

b. 在采用MLE估计的二元概率模型中，P(sensation|pop)和 P(pop|the)的概率是多少？解答：

a. P(the)=2/11, P(martian)=1/11 b. P(sensation|pop)=1, P(pop|the)=0

习题 12-7 [**] 假定某文档集由如下4篇文档组成：

为该

文档ID 1 2 3 4 文档文本 click go the shears boys click click click click click metal here metal shears click here 文档集建

立一个查询似然模型。假定采用文档语言模型和文档集语言模型的混合模型，权重均为0.5。采用MLE来估计两个一元模型。计算在查询click、shears以及click shears下每篇文档模型对应的概率，并利用这些概率来对返回的文档排序。将这些概率填在下表中。解答：

文档及文档集MLE估计

Word文档下载：中国科学院大学现代信息检索课后习题答案.doc

搜索更多:中国科学院大学现代信息检索课后习题答案