。
Σ'2= 1.90211 0 0
V2 = -0.00000 0.38268 -0.00000 -0.00000 -0.00000 -0.92388
2-秩逼近矩阵为:
C2 = 0.00000 0.00000 1.30656 0.00000 0.00000 0.00000
0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 -0.20119 0.00000 0.00000 0.00000 0.48571 0.00000 0.00000 0.92388 0.00000 0.00000 0.00000 0.00000 0.00000 0.92388 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 -0.52672 0.00000 0.00000 0.00000 1.27161 0.00000 -0.32553 0.00000 0.00000 0.00000 0.78590 0.00000 -0.32553 0.00000 0.00000 0.00000 0.78590 (3) CTC的元素(i,j)代表了文档i和文档j的相似度。
(4) C2C2的元素(i,j)代表了在新的2维空间中文档i和文档j的相似度。
T 1.84776
-0.00000 -0.00000 1.00000 -0.00000 -0.00000 -0.00000
与C2C2中的(i,j)元素不同,是因为在新的低秩表示空间中,将共现上相似的词
T项合在一起,隐含地参照了英语与西班牙语的术语对照表。
-可编辑修改-
。
8、习题19-5 Goto 方式根据报价的高低来对广告进行排序,出价最高的广告商获得最高的位置,出价第二高的次之,其余以此类推。如果出价最高的广告商给出的广告与查询无关时会出现什么问题?为什么会出现这样的情况? 答:无关的广告永远不会被用户点击,由此生成的搜索引擎也就没有收入。广告商可以推送这样的广告,在推广自己品牌的同时而没有任何花费。
9、习题20-1 在分布式采集系统中,为什么按照主机进行划分会比按照每个URL 进行划分要好?
答:有两个好处:其一,使得更容易跟踪同一主机的连续请求之间经过的时间;其二,主机的robots.txt文件可以在爬行的节点处被缓存和重新利用。 10、习题21-3 对某个Web 网页x,假设给定了指向它的所有锚文本短语组成的集合,请给出某种启发式方法来从这个集合中选出针对x 的最具描述性的词项或短语。
答:若要从锚文本短语组成的集合中选出针对x的最具描述性的词项或短语,需要进行特征选择。特征选择即从训练集合出现的词项中选出一部分子集,特征选
22??择的指标包括互信息,统计量及词项频率。以统计量为例,检测锚文本短2?语与Web网页x之间的独立性,值越大则意味着独立性假设不成立。
2?如果某词项或者短语更能描述x,则两者的存在是相互依赖的,表现为值
越大。
-可编辑修改-
。
THANKS !!!
致力为企业和个人提供合同协议,策划案计划书,学习课件等等
打造全网一站式需求
欢迎您的下载,资料仅供参考
-可编辑修改-