中国科学院研究生院
试 题 专 用 纸
课程编号:71258-Z-2 课程名称:现代信息检索 任课教师:王斌
———————————————————————————————————————————————
姓名
学号 成绩 一、 判断题(正确打√,错误打X。每题2分,共30分)
1、 建立倒排索引时,只能以文件作为索引单位。 (X )
2、 词项集合和词条集合有时可以完全不同,甚至交集为空集。(√ ) 3、 轮排索引和k-gram索引都可以支持通配查询的处理。 (√ ) 4、 倒排索引的构建与所处的硬件环境息息相关。(√ ) 5、 γ的编码序列唯一,但解码序列不唯一。(X)
6、 向量空间模型的计算当中,采用余弦相似度和欧氏距离得到的相似度是一致的,即两个向量的余弦相
似度大,则欧氏距离一定小,而当余弦相似度小时欧氏距离大。(X) 7、 信息检索系统中只存在一种索引结构。(X)
8、 隐式相关反馈中对用户的行为进行分析,因此一定会提高检索的效果。(X) 9、 在BM25检索模型中,考虑了文档长度对检索带来的影响。(√ )
10、在朴素贝叶斯分类器,基于多项式模型和基于贝努利模型的实现中采用了完全相同的假设 。(X) 条件独立假设 + 位置独立假设+只考虑出现 位置独立假设 + 考虑不出现 11、特征选择函数MI(Expected Mutual Information)考虑了词项不存在对分类带来的影响。(√ ) 12、SVM分类的速度与支持向量的个数无关。(X)
13、K-均值聚类算法的结果依赖于初始种子质心的选择。(√ ) 14、GAAC层次聚类算法的结果具有确定性。(√ )
15、隐性语义索引LSI本质上是将原始的向量空间线性变换到另一个高维向量空间。(X)
二、 选择题(单项或多项选择。每题2分,共16分)
1、关于倒排索引的压缩,以下叙述正确的是( A B ) 。
A)压缩能提高空间的利用率 C)词典压缩作用不大
2.关于向量空间模型,以下叙述正确的是(A B D )。
B)压缩能提高硬盘到内存的传输速度 D)可变字节编码压缩是一种有损压缩方法
A)查询和文档均看成向量
B)权重计算的方式很多 D)相似度计算的方式很多
C)查询和文档表示成不同空间的向量
共5页 第1页
3.关于隐式相关反馈,以下叙述错误的是(B ) 。
A)该反馈中实际上有用户参与 C)该反馈是一种局部方法
4.关于伪相关反馈,以下叙述错误的是(A B ) 。
A)该反馈中实际上有用户参与 C)该反馈是一种局部方法
5. 关于kNN分类器,以下叙述错误的是( B )。
A)该分类器几乎不需要训练 C)该分类器是非线性分类器
6.关于Rocchio分类器,以下叙述错误的是(A B )。
A)该分类器不需要训练 C)该分类器训练速度很快
7.关于K-均值聚类算法,以下叙述错误的是( B D ) 。
A)该聚类算法要事先给定聚