龙源期刊网 http://www.qikan.com.cn
网络信息资源检索工具中的搜索引擎基本工作原理
作者:牟雪艳
来源:《电子世界》2012年第10期
【摘要】本文通过对网络信息资源检索工具中的独立搜索引擎的体系结构和工作过程等进行阐述,旨在说明独立搜索引擎的基本工作原理。
【关键词】网络信息资源;搜索引擎;体系结构;工作过程;工作原理
随着国内外近年来电子图书馆、数字图书馆、虚拟图书馆的兴起与发展,图书馆的工作对象由文献资源扩展为信息资源。以计算机技术、网络技术、微电子技术为核心的现代化技术将从根本上改变图书馆的工作模式、工作方法甚至体制形态。新的研究课题不断涌现,其中包括网上信息资源的虚拟链接和应用、利用计算机进行各类信息(包括多媒体信息、流媒体信息等)的存储和检索。 1.网络信息资源
网络信息资源是将文字、图像、声音、动画等多种形式的信息,以数字化形式存储,并借助计算机与网络通信设备发布、收集、组织、存储、传递、检索和利用的信息资源。 2.网络信息资源的检索工具
网络信息资源检索工具有多种,按照其检索机制可分为主题指南(目录型检索工具)、图书馆的网络导航(学科导航)、搜索引擎等。从功能上来看,主题指南和图书馆的网络导航类似图书中的目次,而搜索引擎则更像索引。搜索引擎使用自动索引软件来发现、收集并标引网页,建立索引数据库,以Web形式提供检索界面。当用户输入某个关键词的时候,所有在页面内容中包含该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低依次排列。搜索引擎强调的是检索功能,而非主题指南那样的导引、浏览。 3.搜索引擎基本工作原理 3.1 搜索引擎的概念
搜索引擎是指自动从互联网搜集信息,经过一定整理之后,提供给用户进行查询的系统。它是为满足用户对网络信息搜索需求应运而生的网络工具,既是互联网信息查询的导航器,也是沟通用户与网络信息的重要桥梁。搜索引擎是在检索被搜索到的网页的数据库,而不是检索互联网本身。[1]
龙源期刊网 http://www.qikan.com.cn
3.2 独立搜索引擎是一个双层的客户机/服务器(Client/Server—C/S)体系结构 当用户访问搜索引擎时,用户端为客户机,向搜索引擎发出检索请求,搜索引擎为服务器,检索自己的索引数据库并将检索结果以应答形式提交给用户。当搜索引擎采集数据时,搜索引擎为客户机,向WWW站点等实际资源系统提出页面搜索请求,各类实际资源系统为服务器,将有关数据(例如WWW页面或文档)作为应答提交给搜索引擎。 3.3 搜索引擎的目的
搜索引擎的目的只有一个:寻找相关性最高的网页。
3.4 搜索引擎有至少三个因素值得重视:数据库,用户搜索,搜索结果排序
值得一提的是数据库,搜索引擎的数据库资源由用户提交的登录信息组成,他们还主动地使用其“Web crawlers”“spiders”或“robots”程序搜索因特网并将搜索到的网页信息归入其索引数据库中。
3.5 搜索引擎的工作包括如下三个过程 (1)在互联中发现、搜集网页信息
搜索引擎首先负责数据采集,即按照一定的方式和要求对网络上的WWW站点进行搜集,并把所获得的信息保存下来以备建立索引库和用户检索。但是收集网页只是搜索引擎的一部分工作,他们的其他服务器要做的还有进行计算/分配/储存用户习惯等等。 (2)对信息进行提取和组织建立索引库
首先是数据分析与标引,搜索引擎对已经收集到的资料给与按照网页中的字符特性予以分类,建立搜索原则,举例来说,对于\软件\这个词,它必须建立一个索引,当用户查找的时候,他知道到这里来调取资料。当然,对于网页语言,该字符的处理(大小写/中文的断字方式等等)等方面,各个搜索引擎都有自己的存档归类方式,这些方式往往影响着未来搜索结果。
接下来是数据组织,搜索引擎负责形成规范的索引数据库或便于浏览的层次型分类目录结构,也就是计算网页等级,这个原则特别是在Google非常重要,一个接受很多链接的网页,搜索引擎必然在所有的网页当中将这些连接多的网页提升上来。 (3)在索引数据库中搜索排序
由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
龙源期刊网 http://www.qikan.com.cn
搜索引擎负责帮助用户用一定的方式检索索引数据库,获取符合用户需要的WWW信息。搜索引擎还负责提取用户相关信息,利用这些信息来提高检索服务的质量,信息挖掘在个性化服务中起到关键作用。用户检索的过程是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。 3.6 主要搜索引擎
主要搜索引擎有Goole、百度、Yahoo和Bing。一般来说,如果是搜索英文信息使用Goole会更有效,搜索中文信息则倾向于使用百度。即使在中文信息领域,如果单就搜索的准确性而言,目前Goole仍占据着明显优势,应成为首选。目前百度以近70%的市场占有率,占据中文搜索引擎的领先地位,在全球的市场份额则落后于谷歌、雅虎和微软必应排在第4位。 参考文献
[1]邹广严,王红兵.信息检索与利用[M].北京:科学技术出版社,2011.
作者简介:牟雪艳(1972—),女,大学本科,毕业于北京大学信息管理系图书馆学专业,北大文学学士,山东省烟台栖霞市图书馆馆员。