信息检索导论-王斌-第三次课后作业(13-21)

Σ'2= 1.90211 0 0

V2 = -0.00000 0.38268 -0.00000 -0.00000 -0.00000 -0.92388

2-秩逼近矩阵为:

C2 = 0.00000 0.00000 1.30656 0.00000 0.00000 0.00000

0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 -0.20119 0.00000 0.00000 0.00000 0.48571 0.00000 0.00000 0.92388 0.00000 0.00000 0.00000 0.00000 0.00000 0.92388 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 -0.52672 0.00000 0.00000 0.00000 1.27161 0.00000 -0.32553 0.00000 0.00000 0.00000 0.78590 0.00000 -0.32553 0.00000 0.00000 0.00000 0.78590 (3) CTC的元素(i,j)代表了文档i和文档j的相似度。

(4) C2C2的元素(i,j)代表了在新的2维空间中文档i和文档j的相似度。

T 1.84776

-0.00000 -0.00000 1.00000 -0.00000 -0.00000 -0.00000

与C2C2中的(i,j)元素不同,是因为在新的低秩表示空间中,将共现上相似的词

T项合在一起,隐含地参照了英语与西班牙语的术语对照表。

-可编辑修改-

8、习题19-5 Goto 方式根据报价的高低来对广告进行排序,出价最高的广告商获得最高的位置,出价第二高的次之,其余以此类推。如果出价最高的广告商给出的广告与查询无关时会出现什么问题?为什么会出现这样的情况? 答:无关的广告永远不会被用户点击,由此生成的搜索引擎也就没有收入。广告商可以推送这样的广告,在推广自己品牌的同时而没有任何花费。

9、习题20-1 在分布式采集系统中,为什么按照主机进行划分会比按照每个URL 进行划分要好?

答:有两个好处:其一,使得更容易跟踪同一主机的连续请求之间经过的时间;其二,主机的robots.txt文件可以在爬行的节点处被缓存和重新利用。 10、习题21-3 对某个Web 网页x,假设给定了指向它的所有锚文本短语组成的集合,请给出某种启发式方法来从这个集合中选出针对x 的最具描述性的词项或短语。

答:若要从锚文本短语组成的集合中选出针对x的最具描述性的词项或短语,需要进行特征选择。特征选择即从训练集合出现的词项中选出一部分子集,特征选

22??择的指标包括互信息,统计量及词项频率。以统计量为例,检测锚文本短2?语与Web网页x之间的独立性,值越大则意味着独立性假设不成立。

2?如果某词项或者短语更能描述x,则两者的存在是相互依赖的,表现为值

越大。

-可编辑修改-

THANKS !!!

致力为企业和个人提供合同协议,策划案计划书,学习课件等等

打造全网一站式需求

欢迎您的下载,资料仅供参考

-可编辑修改-

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4