搜索引擎的发展和再认识浅析2014-01-14

    该文是哈斯2002年10月份写的搜索引擎产品技术进化简列,可清晰看到产品技术在信息代理层面的进化,这篇文章相关文字大约4万多字,在中国域名经济2003年版那本书第四章搜索引擎章节中展现了大部分内容。
------------------------------------------
  • 博客中国,时间:2003-02-18 11:01:00

随着INTERNET的迅速发展,电子信息不断地壮大和丰富起来,然而这些信息却是散布在无数个结点的服务器上,对于普通用户来说,

如何能迅速准确的找到自己需要的信息,这是上网冲浪的一项重要问题。搜索引擎就为用户和信息源之间架起了沟通的桥梁。

1 搜索引擎的发展经历再认识
1.1、搜索引擎的成长和发展史 
1994年4月WEBCRAWLER(中文译:网络八爪鱼)搜索引擎在网上公布并面向用户开始服 务,同时第一代真正基于WWW技术的搜索引擎LYCOS诞生,它们的出现对网络的发展起了极大 的促进作用,自此搜索引擎进入高速发展阶段。到1995年,真正商业化的搜索引擎开始大规模的开发并投入使用,如YAHOO、EXCITE、INFOSEEK、ALTAVISTA等,由于商业动力的驱使搜索引擎的技术也在不短的更新,从目录式分类结构,如YAHOO,发展到全文检索,ALTAVISTA 。

1.2、早期搜索工具分析 
早期的搜索工具如ARCHIE、GOPHER、WHOIS、AGORA、KNOWABOUT、WAIS等大都基于字符界面以免费和开放著称,然而能实现的检索却实在有限,即使在能检索的网络资源、WEB、FTP文件 、GOPHER、EMAIL、新闻组和多媒体信息等中也是有很多的缺点,应用显然不便。它的诸多缺 陷表现在(1)信息缺乏有效的分类,无法在词条的出现概率与文档的类别及长度间进行权衡, 无法对导入资料库的返回信息进行合理的整理,分类。(2)信息的简单排序使得信息组织缺 乏有序性和科学性。(3)信息无法实现实时更新,影响信息时效性。(4)信息有用性评价 缺乏有效机制。关键词的数量并不能等同于信息价值含量,单纯依靠关键词出现的频率和概 率不是一种科学的有用性评价方法。

1.3、搜索引擎现状 
目前NET的发展如火如荼,网络搜索引擎也正从粗放型向集约型转变,即正从数量积累向质量 精练变革。一些较为突出的在大浪淘沙中得以沉淀下来的引擎有:A taVista,Infoseek,Excite,Lycos,Goog e,Ask Jeeves,Baidu.com,Fast,(Goto.com,MySimon,Ditto
等一些。 (其中Infoseek,Excite, ycos,等网络搜索引擎现在已经或者已经完成转型,由原来的搜索引擎转变为门户,或者综合网站)

2 搜索引擎的概念及原理再认识
2.1 搜索引擎的概念 
搜索引擎(SEARCH ENGINE)就是利用自动抓取程序,例如WEBCRAWLERS,SPIDER,ROBOT,在广域网(INTERNET)或局域网(INTRANET)上遍历各个结点,使用全文检索技术对在各 结点上抓取的信息进行分析,并进行索引,分类,建立相应的数据库,保存以备用户查询的 一项信息技术。

2.2搜索引擎基本原理解析
其基本原理是从一组已知的文档出发,通过这个文档的概要和超链连接确定新的信息点,然后由搜索引擎的遍历程序周游这些信息点,对这些信息点上的文档进行索引,分类,并组织 到索引数据库中去。从逻辑上讲通过这种递归遍历最终可以把所有信息加入索引库中。当用户使用搜索引擎的时候,输入关键字,检索程序就在索引数据库中读取信息与用户关键字进 行匹配,检索出相应或相关的信息通过一定的组织方式把它输出给用户。所以搜索引擎按功 能模块划分应该分为以下四个部分:搜索模块,索引模块,检索模块和用户接口。

2.3解析搜索引擎就各个模块具体的工作流程
搜索模块通过程序的相应代码实现在网上发现和搜集信息,并根据网页链接进行抓取分 析加入到数据库中,实现了电子信息的获取功能。 索引模块主要是理解搜索模块所搜集到的信息并从中抽取出索引项生成相应的描述和表 达信息来表示文档,建立文档的索引表,形成统一的物理索引数据库,实现里非结构化信息 的结构化。需要说名的是这个模块相当重要,一个搜索引擎的质量的高低取决于索引的科学 性和有效性。索引质量越高检索质量也同样会越高,那么这个引擎的性能就越好。检索模块是根据用户的查询在索引库中迅速检出文档,进行文档与关键字的相关度评价 ,并对将要输出的结果进行排序,实现某种用户反馈机制。即程序通过扫描文档中每一个词 ,建立一个以词为单位的倒排文件,用检索词不断进行匹配,根据用户查询在文档中出现的频率和概率,确定出文章的查询的相关度,对包含这类检索词的文章进行排序,输出检索结果。 用户接口作用是供搜索引擎的用户输入查询和显示结果,和实现某种用户相关性反馈机制。

3、搜索引擎的分类 
按照搜索引擎提供的使用技术来看,目前的搜索引擎可以分为五大类 :
A、独立搜索引擎或普通搜索引擎(SINGLE SEARCH ENGINE)是利用网络自动化程序对网 上资源进行遍历读取信息访问相关链接从而递归地获得被引用的所有文献信息,这种引擎根 据用途不同又可以分为专业搜索新闻组的引擎、GOPHER检索的、FTP检索的、BBS检索的、EM AIL检索的等,
其性能也因索引数据库的质量、容量、内容、更新速度、检索速度、界面以及 信息索引组织形式等不同而个有差异。此类引擎国外的如:ALTAVISTA、XCITE、INFOSEEK、LYCOS、GOOGLE.COM国内的如:百度、悠然、慧聪。
B、元搜索引擎(META-SEARCH ENGINE)或叫做集成搜索引擎,多搜索引擎,索引搜索引擎 ,是一种搜索引擎之上的搜索引擎。何为"之上的"?
它强调的是逻辑关系、逻辑结构,而不 是简简单单的堆砌或放在一起。元搜索引擎在接受用户的检索请求时,将请求分别交给若干 个独立的搜索引擎同
时处理,并对各个独立引擎的反馈结果加以处理,其中包括去重、排序 等,返回给用户。由此可见元搜索引擎与独立搜索引擎还是有区别的:
(1)独立搜索引擎拥 有独立的网络资源采集机制和相应的数据库,元搜索引擎是没有的。
(2)元搜索引擎可以同 时检索多个成员搜索引擎的数据库,(在元搜索引擎中包含的各个独立搜索引擎称为元搜索 引擎的成员搜索引擎。)但各个成员搜索引擎各自保持各自的独立
的数据模式和检索指令。 (3)元搜索引擎给出的一个全局外部模式,用以接受用户检索输入和结果的输出,它必须兼 容于各个成员引擎的数据结构,这类搜索引擎国外的有:ALL4ONE,metacraw er,Profusion。
C、智能化搜索引擎(SMART HUNTER)智能化搜索引擎除了具有传统全网快速检索、相关度排序等检索功能外,还提供用户角色登记、用户兴趣识别、内容的语义理解、智能化信息 过滤和推送等功能,由于一般的搜索引擎(指的是非智能型)本身缺乏知识处理能力和理解 能力,对要检索的信息往往采用的是关键词匹配而智能搜索引擎则是基于知识(或概念)层 面,那么其查准率和查全率一定要高于一般的搜索引擎。国外的如:ASK JEEVES,Goog e国内的如尤利卡,世纪永联, chinaren孙悟空。
D、个性化搜索引擎机制(PERSONALITY SEARCHING)其最主要的特征是充分支持用户相关 性反馈机制,搜索完全个人化了 。它能根据用户的兴趣爱好思维方式生活习惯量身定做,并主动地定期为用户查找信息,根据用户搜索信息的变化自动调整"知识库"中的通用字段和关键字,使用户能够充分享受有效的的个人信息定制服务。这如: 中国网新闻定制服务,用的慧聪的新闻搜索。
E、专用型搜索引擎(SPECIAL SEARCHING)顾名思义它就是服务于专门领域的信息查询工 具,如查电话,域名,人名,邮件,地址,房产,旅游,地图,图片等。这种搜索引擎如免费资源AAAFREESTUFF,地图MAPBLAST,图行天下城市旅游交通图。

根据分类依据不同搜索引擎还可以有其他的分类方法。我们只简单的介绍一下比较常见的几个关键因素为依据的分类。按照查找策略分类的话,可分为关键字查找、主题查找;按自动化程度分为智能化搜索引擎和非智能化搜索引擎;按照查找内容分为文本搜索引擎、语音搜索引擎、图形搜索引擎视频搜索引擎;

按照信息组织和检索技术分为网站分类技术搜索引 擎、全文检索技术搜索引擎和综合策略搜索引擎;按照查询条件方式分为简单查询和复杂查 询(高级查询);按照引擎的功能、服务对象和规模可分为:综合门户搜索引擎,纯净搜索引 擎,链接评价搜索引擎访问大众性搜索引擎,自然语言智能答询,垂直主题,元搜索引擎, 隐性WEB搜索、专家咨询搜索。

 3.搜索引擎的发展趋势 随着网络技术的改进和信息检索技术的发展,搜索引擎技术也将得到逐步完善,未来搜 索引擎的发展应朝着智能型综合化的方向发展。其诸般功能特性应该表现为:(1)应具有元 搜索迎亲的搜索功能,想集成化搜索引擎发展,增强相互间的合作与协调避免重复、浪费的 现象,提高搜索效率,使检索结果更全面准确(2)发展多用途的搜索引擎提高多途径的检索 方式和各种常用信息检索服务。提供以搜索为中心,提供多种检索点,在内容上横向发展开 展专题性的诸如免费资源,专题新闻等多种信息服务,以满足用户的不同需求。(3)提供基
于 大众的搜索分析,基于自然语言、关键词、概念、上下文的检索,具有相关反馈机制的检索 智能查询路径选择。)(4)应具有网络的动态监控和数据库动态更新功能,作好索引数据库 的信息收集工作,保证信息查询的准确性。(5)应实现多语种之间编码的自动转换和网页自 动分类自动文摘,并支持多语种检索(应一种语言检索多语种信息)(6)实现多种媒体信息 的统一管理 、存储、检索、输出。(7)从检索技术上讲应该用全文检索技术与内容 分析
和链接分析相结合的文本处理方法想结合的方式。(8)应考虑按时间、地域的顺序输出 检索结果,以便用户选择所需要的最新信息。查询结果文摘动态生成结果自动综合分析评价 。(9)具有跨平台工作和综合处理文档的能力,不仅能处理HTML也能处理XML,SGML,又能处 理WORD,WPS等。

参考文献: 1 李爱红 .网络搜索引擎的比较研究.中国信息导报,1999(1);25~26
2 刘晓华.搜索引擎挑战智能化.AVAILABLE FROM:HTTP://WWW.PCWORLD.COM.CN

相关资源提示:
Goog e http://www.Goog e.com sohu http://dir.sohu.com 
ALL4ONE HTTP://WWW.ALL4ONE.COM 百度: HTTP://WWW.BAIDU.COM
ASK JEEVES HTTP://WWW.ASK.COM
尤利卡 HTTP://WWW.ULIKA.COM Goyoyo http://www.goyoyo.com 
世纪永联 http://www.softhouse.com.cn 中国网 HTTP://WWW.CHINA.ORG.CN
AAAFREESTUFF HTTP://WWW.LAAAFREESTUFF.COM 
MAPBLAST HTTP://WWW.MAPBLAST.COM 图形天下 HTTP://WWW.GO2MAP.COM 城市旅游交通图HTTP://WWW.AFMAP.COM.CN 
Fast http://www.fast.com 


本文是本人在2002年10月成文帖于西祠胡同的Loverty@搜索研究院(私人版供好友讨论参考),后经 搜索9328 的指导,特做修改,期间提供的数据现在有些已经过时,有不少现在已经不做搜索引擎技术了,比如世纪永联请做管理信息系统了,网友以事实为准!2003年2月7日首次在donews公开,诚挚欢迎大家来讨论之。

发表评论

0 评论