哈斯日志
纪录我们在网路上奔波的历程!
  • »新帖子
  • 我眼中的百度搜索
  • 中文搜索引擎提供商Yahoo!
  • 搜索引擎的发展和再认识浅析


  • » @twitter
  • 学习搜索引擎从Google开始-哈斯日志
    学习搜索引擎从Google开始
    星期三, 二月 19, 2003
    诠释GOOGLE:Google 是由英文单词“googol”变化而来。“googol”是美国数学家 Edward Kasner 的侄子 Milton Sirotta 创造的一个词,表示 1 后边带有 100 个零的数字。Google 使用这个词代表公司想征服网上无穷无尽资料的雄心。
    1 关于搜索引擎GooGle的一些参数: 
    1)Google 开发出了世界上最大的搜索引擎,搜索20 多亿 截止2002年10月30日2,469,940,685 张网页 )网页进行整理,提供了最便捷的网上信息查询方法。
    2)Google 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。 3)Google 每天需要提供 1.5 亿次查询服务。
    4)Google总共有超过6000台服务器,200多条T3级宽带组成集群 *1).
    5)google支持搜索的文件格式达12种之多,如Adobe Portable Document Format PDF),Adobe PostScript PS),Lotus 1-2-3 wk1,wk2,wk3,wk4,wk5,wki,wks,wku),Lotus WordPro LWP),Microsoft Works WKS,WPS,WDB),Microsoft Word DOC),Microsoft Powerpoint PPT),Microsoft Excel XLS),Microsoft Write WRI),MacWrite MW),Rich Text Format RTF),Text ANS,TXT).
    2 Google的荣誉和成就
    1)Google的搜索引擎2001年被《雅虎网络生活》杂志评为全世界功能最强大的搜索引擎。
    2)Google的消费者满意度始终名列第一.
    3)美国《时代》杂志评选的“1999年度十大网络技术”之一
    4)《个人电脑》杂志授予的“最佳技术奖”
    5)The Net授予的“最佳搜索引擎奖”等。
    3 三大技术成果:PageRank tm)(网页级别)技术,Googlebot自动搜索方法,服务器集群技术.Google 并非只使用关键词或代理搜索技术,它将自身搜索建立在高级的 PageRank tm)(网页级别)技术基础之上,这项正在申请专利的技术可确保始终将最重要的搜索结果首先呈现给用户.Google 的结构设计即确保了它绝对诚实公正,任何人都无法用钱换取较高的排名。作为您的忠实助手,Google 可以诚实、客观并且方便地帮您在网上找到有价值的资料.服务器集群技术是Google 使用一组独特的高级硬件和软件.  PageRank tm)(网页级别)技术:对网页的重要性进行客观的分析。用于计算网页级别的公式包含 5 亿个变量和 20 多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。实质上,当从网页 A 链接到网页 B 时,Google 就认为“网页 A 投了网页 B 一票”。Google 还对投票的网页进行分析,从而在用户搜索时候以客观的态度把信息组织给用户!
    4 另外的一些特点:
    Google 遵从关键词的相对位置,按照关键词的接近度确定搜索结果的先后次序,优先考虑关键词较为接近的结果,这样可使用户节省时间,而无须在无关的结果中徘徊;对网站的摘要萃取精华 ;Google 储存网页的快照,当存有网页的服务器暂时出现故障时您仍可浏览该网页的内容。如果找不到服务器,Google 储存的网页快照也可救急。虽然网页快照中的信息可能不是最新的,但在网页快照中查找资料要比在实际网页中快得多。
    google的应用
    1.google搜索支持最简单的最基本的布尔代数基础,如“与”、“或”、“非”等.具体可以参考参考中文Google大全:http://www.Google.com/intl/zh-CN/about.html,以及搜索帮助,http://www.google.com/intl/zh-CN/help.html,那是官方Google使用手册以及问题解答中心进入http://www.google.com,首页很清爽,LOGO下面,排列了四大功能模块:网站、图像、新闻组和目录服务,默认是网站搜索。你在输入框中输入"相声",回车,结果就出来了,基本参数"共约有44,400项查询结果,这是第1-10项 , 搜索用时0.11秒"
    2.搜索结果要求包含两个及两个以上关键字,一般搜索引擎需要在多个关键字之间加上“ +”,而Google无需用明文的“ +”来表示逻辑“与”操作,只要空格就可以了。现在,我们需要来试一试.在搜索框中输入"相声",空格,和"下载",回车,结果显示为"共约有19,400项查询结果,这是第1-10项 , 搜索用时0.18秒",看用红色字体标识的为关键字,第一页的十个结果中,有关键词出现49次,其中把"相声下载"做关键词的有6处,以"相声"做为关键词的有 16处,其中以"下载"为关键词有27处
    3.搜索结果要求不包含某些特定信息,Google用减号“-”表示逻辑“非”操作。“A –B”表示搜索包含A但没有B的网页.示例,输入"相声 下载-马 季" 共约有36,800项查询结果,这是第1-10项 , 搜索用时0.22秒
    4.搜索结果至少包含多个关键字中的任意一个,Google用大写的“OR”表示逻辑“或”操作。搜索“A OR B”,意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A和B。示例:擞"相声or下载"共约有171项查询结果,这是第1-10项 ,搜索用时0.91秒。我们可以同时使用这几种搜索功能的综合,以迅速检索到您所需要的信息.
    5.Google4.o支持通配符,但很有限。它目前只可以用“*”来替代单个字符,而且包含“*”必须用""引起来。比如,"姜*",表示搜索第一个为"姜"的短语,中间的“*”可以为任何字符.示例结果"共约有269,000项查询结果,这是第1-10项 , 搜索用时0.22秒"而我们找的姜昆在第三页之后才出现.
    6.关键字的英文字母大小写Google是不敏感,“GOOGLE”和“google”搜索的结果是一样的,结果"为共约有12,600,000项查询结果,这是第1-10项,搜索用时0.07秒"和"共约有12,600,000项查询结果,这是第1-10项,搜索用时0.10秒"6.搜索整个短语或者句子时候需要明白Google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符.搜"i and you "结果是:共约有17,200项查询结果,这是第1-10项 , 搜索用时3.02秒
    7.Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理,不在演示.
    8.如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号:“+姜昆相声 +的历史 ”,或者关键字用英文双引号引起来,在上例“”world war I””中,“I”其实是忽略词,但因为被英文双引号引起来,搜索引擎就强制搜索这一特定短语.强制搜索就是说把某些短语或关键词作为整体处理,注意:有一部分常用中英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。
    9.指定网域,格式是“site:”。要在某个特定的域或站点中进行搜索,可以在 Google 搜索框中输入“site:xxxxx.com”。例如,要在 Google 站点上查找新闻,可以输入:site:www.google.com 搜之,
    10.按链接搜索,格式是“link:”,查询 link: 显示所有指向该网址的网页。例如,“link:www.google.com”将找出所有指向Google 主页的网页。不能将 link: 搜索与普通关键词搜索结合使用。
    11.某一类文件中查找信息,格式是“filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前Google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80%。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。例如,在搜索中输入:信息管理 "filetype:doc OR filetype:xls OR filetypept" 注意不带引号),回车,结果如下:"共约有1,110项查询结果,这是第1-10项,搜索用时0.20秒"
    12.搜索的关键字包含在URL链接中,用“inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。注意:“inurl:”后面不能有空格,Google也不对URL符号如“/”进行搜索。例如,Google会把“cgi-bin/phf”中的“/”当成空格处理。
    13.“allinurl”语法返回的网页的链接中包含所有作用关键字。这个查询的关键字只集中于网页的链接字符串。示例:查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。搜索:“allinurl:"cgi-bin" phf +com”结果:已向英特网搜索allinurl:"cgi-bin" phf +com. 共约有51项查询结果,这是第1-10项 。 搜索用时0.10秒。
    14.搜索的关键字包含在网页标题中,“intitle”和“allintitle”的用法类似于上面的inurl和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。示例:查找日本明星藤原纪香的照片集。搜索:“intitle:藤原纪香 "写真集"”结果:已搜索有关intitle:藤原纪香 "写真集"的中文 简体)网页。 共约有315项查询结果,这是第1-10项 。搜索用时0.14秒。
    15,搜索的关键字包含在网页的“锚”(anchor)链点内,所谓“锚”,就是在同一个网页中快速切换链接点。与URL和TITLE类似,Google提供了两种对anchor的检索,“inanchor”和“allincnchor”。对此不作详述。
    16.查找与某个页面结构内容相似的页面,“related”。例:搜索所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等),“related:wwwsina.com.cn/index.shtml”。
    17.从Google服务器上缓存页面中查询信息,“cache”用来搜索Google服务器上某页面的缓存,通常用于查找某些已经被删除的死链接网页,相当于使用普通搜索结果页面中的“网页快照”功能.
    18.图片搜索:Google自称可以检索390,000,000张图片,并称自己为“互联网上最好用的图像搜索工具”。从使用结果来看,Google的图片搜索的确不错,但个人以为比AltaVista的还是要差一些,主要体现在检索图片数量比不上AV,匹配度比AV的图片搜索器也差了些。但AltaVista国内用户无法正常访问,因此对中国用户而言,Google的图片搜索引擎已经是最好的了。 
    Google首页点击“图像”链接就进入了Google的图像搜索界面“images.Google.com”。你可以在关键字栏位内输入描述图像内容的关键字,如“britney spears”,就会搜索到大量的小甜甜布兰妮的图片。我目前尚不是很清楚图片的排列标准,不过以观察来看,似乎图片文件名完全符合关键字的结果排列比较考前,然后才按照普通的页面搜索时的标准排列。Google给出的搜索结果具有一个直观的缩略图(THUMBNAIL),以及对该缩略图的简单描述,如图像文件名称,以及大小等。点击缩略图,页面分成两祯,上祯是图像之缩略图,以及页面链接,而下祯,则是该图像所处的页面。屏幕右上角有一个“Remove Frame”的按钮,可以把框架页面迅速切换到单祯的结果页面,非常方便。Google图像搜索目前支持的语法包括基本的搜索语法如“ ”、“-”、“OR”、“site”和 “filetype:”。其中“filetype:”的后缀只能是几种限定的图片类似,如JPG,GIF等。示例:查找新浪网上本拉登的图片搜索:“拉登 OR 拉丹 site:sina.com.cn”结果:搜索有关 拉登 OR 拉丹 site:sina.com.cn 的图片。共有6项查询结果,这是第1-6项。 搜索用时0.36秒。补充说明一点,images.google.com作为专门的图片搜索引擎,实际上有其特殊的用途。举个例子,互联网上本拉登的照片成千上万,但是,它们都是分散的,往往随机的分布于各种新闻报道中。如果用搜索图片库的方式(最容易想到的如“Ben Ladin photo”),来搜索本拉登的照片,显然是不恰当的,因为很少有人专门为拉登建一个在线相册。在这个时候,images.google.com就派上用场了。但是,如果查找的图片在网上有很多主题“gallary”,如诸多电影电视明星的照片,则明显就不适合用images.google.com来查找了。images.google.com对于很多报纸杂志的编辑,绝对是一个雪中送炭式的工具。比如要在某个版面上插一张专题图片,用google的图片搜索功能几秒钟就可以搞定。
    一般性结论:如果要搜索的图片是分散的,则用google图片搜索;如果要搜索的图片通常是处于某个图片集合中的,则不适合用google图片搜索。19.如果不想搜索广泛的网页,而是想寻找某些专题网站,可以访问Google的分类目录“http://directory.Google.com/”,中文目录是“http://directory.Google.com/Top/ Directory Project(Dmoz)”是网景公司所主持的一项大型公共网页目录。由全世界各地的义务编辑人员来审核挑选网页,并依照网页的性质及内容来分门别类。因此,在某一目录门类中进行搜索往往能有更高的命中率。
    另外,Google根据其专业的“网页级别”(PageRank)技术对目录中登录的网站进行了排序,可以让一般的检索更具高效率。
    20.新闻组有详尽的分类主题,某些主题还有专人管理和编辑,具有大量的有价值信息。由于新闻组包含的信息实在是海量,因此不利用工具进行检索是不大可能的。DEJA一直是新闻组搜索引擎中的佼佼者。2001年2月份,Google将DEJA收购并提供了所有DEJA的功能。现在,除了搜索之外,Google还支持新闻组的WEB方式浏览和张贴功能。进入Google新闻组“http://groups.Google.com/”,你有两种信息查找方式。一种是一层层的点击进入特定主题讨论组,另一种则是直接搜索。现在,我们进行一个最简单的搜索试验,查找一下新闻组中关于搜索引擎的讨论信息。  搜索:“搜索引擎”结果:在各群组内搜索 搜索引擎 共约有251,000项查询结果,这是第1-10项。 搜索用时0.94秒。搜索结果默认按照“留言内容”排列,但是你也可以点击“依照日期”按钮,让帖子按照发布日期排列。
    21.网页快照是Google抓下来缓存在服务器上的网页。它有三个作用第一,如果原地址打开很慢,那么可以直接查看Google缓存页面,因为Google服务器速度极快,二,如果原链接已经死掉或者因为网络的原因暂时链接不通,那么可以通过Google快照看到该页面信息。当然,快照内容不是该页最新页面,第三,如果打开的页面信息量巨大,一下子找不到关键词所在位置,那么可以通过Google快照,因为快照中Google用黄色表明关键字位置
    22.集成化的工具条方便搜索者,Google提供了工具条,集成于浏览器中,用户无需打开Google主页就可以在工具条内输入关键字进行搜索。此外,工具条还提供了其他许多功能,如显示页面PageRank等。最方便的一点在于用户可以快捷的在Google主页、目录服务、新闻组搜索、高级搜索和搜索设定之间切换。欲安装Google的工具条,可以访问“http://toolbar.Google.com/”,按页面提示可以自动下载并安装。不过,Google工具条目前只支持IE5.0以上版本。
    23.英文在线词典,进入英文Google,输入你要查的单词。举个例子,我想查一下suggest的用法。结果如下:“Searched the web for suggest. Results 1 - 10 of about 8,000,000. Search took 0.08 seconds. ”注意看上面句子中,单词suggest下出现了一个横线,点击这个链接,就跳转到另外一个网站“http://www.dictionary.com/”,Google已经把单词提交给该网站的查询脚本。看看这个网站所提供的详尽解释.
    24.你懂英文,但是你不见得就懂德文、法文、拉丁文。如果搜索出来的页面是这些语言怎么办?Google提供了网页翻译功能!!虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文,但是我不得不承认,这是个杰出功能。试着做以下搜索:“big bang site:fr”。这个表示查找关于宇宙大爆炸的法文网页。看第一条结果:The Big Bang Website - [ Translate this page ]... A propos de Big Bang. Le dernier numero en date. Les anciens numeros. Autresactivites. Concerts progressifs en France. Emissions de radio. Liens.perso.club-internet.fr/calyx/bigbang/ - 3k - Cached - Similar pages有点晕。没关系,点击“Translate this page”按钮。再看结果,嗯,大致能看明白,这原来是个叫“big bang”的乐队的网站,与大爆炸无关.机器翻译是一个很前沿的人工智能课题,想指望翻译出来的结果跟专门用英语撰写的内容是不可能的。但西文间的互相转译比中英文机译强得多得多了
    25.英文单词经常出现拼写错误,Google有纠错功能。比如在写上文的时候,我要用到英文单词“sugestion”,我只是依稀记得好像是“sagestion”的样子,但不肯定,于是用Google查了一下,它马上提醒:“您要找的会不会是: sugestion ”
    26.对中文用户繁简转换而言,常希望能同时检索繁体和简体信息。Google能做到这一点。Google默认使用繁简自动转换功能,因此你输入的简体关键字也将被转换成繁体做检索。这样省了不少力气。当然,如果你不希望这样的话,也可以在“使用偏好”中把这个选项关掉。
    27.同时一多种语言把结果显示给用户,这又是Google的一个好处.
    28.搜索结果过滤,网络上的成人内容浩如烟海,而且很多站点具有欺骗或者其他不良企图,浏览者很容易掉入其中的陷阱。为此,Google新设立了成人内容过滤功能,见Google的设置页面,http://www.Google.com/preferences safe search Filtering。不过,中文状态下的Google尚没有这个功能。
    29.新闻搜索“http://news.google.com/”Google的新闻搜索尚在初运行阶段,但使用起来已经非常不错了。新闻首页按头条新闻,各国新闻,以及不同领域做了分类。你可以通过Google搜索各大门户和新闻网站的新闻,简单、快捷、方便。遗憾的是,目前Google新闻只检索英文信息.
    30.分类广告搜索“http://catalogs.google.com/”尚处在B测试阶段。主要是对电子分类广告做检索。广告页为JPG图片格式。
    31.其他尚未实现的预想功能: 对网页更新日期做出限定“daterange:”评价一个搜索引擎的好坏,更新频率是一个很关键因素。通常情况下,我们总希望能找到最新的网页。Google已经开发了对更新日期做限定的搜索语法,但目前还未公布。而且比较麻烦的是,Google现在支持的日期格式为julian(凯撒日)格式,把通用日期数值切换成julian格式需要借助第三方网站:http://www.tesre.bo.cnr.it/~mauro/JD/。不过,在下面这个自称是“Google终极搜索界面”的网页上,你已经可以利用Google的这项新特性了,它自动提供日期转换功能。Google Ultimate Interface:http://www.faganfinder.com/google.html  世界各国网民都用Google搜索什么信息么?到http://www.google.com/press/zeitgeist.html,从这些资讯中,你大致可以了解到世界热点和流行时尚走向. 想了解Google公司的工程师们都在忙些什么吗?去看一下Google实验室(http://labs.google.com/)吧。Google的最新设想都在这个地方向访问者展现出来。现在处于发展和试验阶段的新功能有:术语查询、语音查询、键盘查询等等。网络工程师和程序员可以看看这个地方:http://www.google.com/apis/

    附录:分类目录 英文http://directory.google.com/    
    中文http://www.google.com/dirhp?hl=zh-CN&ie=UTF-8
    工具条 http://toolbar.google.com/
    新闻组英文 http://groups.google.com/   
    中文 http://www.google.com/grphp?hl=zh-CN&ie=UTF-8
    图像搜索英文 http://images.google.com/    
    中文http://www.google.com/imghp?hl=zh-CN&ie=UTF-8
    搜索结果翻译 http://www.google.com/preferences

    注:*1 数据引用自程序员杂志网络版社区 http://www.csdn.net/magazine/guestbook/Topic/0/257.shtm),另外网上有另一种数据说google有一万多台服务器,本文引用其中一个志在说明google的服务器集群技术.*2 引用说明,文中的数据老化是不可避免的,由于这篇文章成文较早,我会继续跟踪google的最新情况,及时作出相应的补充。
    参考资料:1 http://www.google.com    
    2.http://www.sowang.com    
    3.《图书情报》,20202.8
    (via here
    This Written at 二月 19, 2003 by loverty.  

    0条评论

    发表评论

    << Home