哈斯日志
纪录我们在网路上奔波的历程!
  • »新帖子
  • Amazon升级搜索引擎a9.com
  • 百度推出多文档检索
  • Google中文搜索的快照和部分关键词被屏蔽
  • 谈谈blog托管商和个人blog
  • google推出新的toolbar工具条,涉足地址栏实名直达业务
  • 管窥网络趋势:门户化,个人应用
  • 华中科技大学研发个人搜索
  • 2003 IT圈中的爱恨情仇
  • 认识搜索引擎 by 搜索引擎9238
  • 信息发现与Invisible-Web


  • » @twitter
  • 百度Google文档搜索应用与比较-哈斯日志
    百度Google文档搜索应用与比较
    星期五, 九月 17, 2004
    互联网上除一般网页外,还如PDF,DOC,RTF,xls,PPT(S)等的文档文件,虽然这些文件不象 HTM文件那样多,但这些文件通常会包含一些别处没有的重要资料,因此具有独特的价值和吸引力!所以对网络中这部分资源的挖掘和利用也是搜索引擎的一个重要功能.对网络的这部分资源的挖掘和分析的水平也成了衡量一个搜索引擎完整与否,成熟与否的重要指标.多文档搜索是高级搜索的重要内容,与其他高级搜索功能一起,构成高级搜索功能体系. 我们就一些搜索案例的比较来给大家展示一些网络文档搜索的技巧,并对主要提供文档搜索的搜索引擎百度和google做一比较,这些比较和方法也许会对你进一步准确获得你想要的信息有帮助!
    主要比较文档数量,语法使用的灵活性,准确性,多语法混合使用等等(由于blogger功能的限制,表格显示不好,请参阅blogchina的文字via here本doc文档 49K大小)
    数据Query
    参比引擎
    百度
    Google
    filetype:doc 搜索引擎
    1050
    743
    filetype:doc 计算语言学
    546
    214
    filetype:doc 计算机检索
    17700
    6080
    filetype:ppt课件
    13900
    1480
    filetype:ppt 软件开发模型
    filetype:ppt 软件 模型
    560
    697
    919000
    697
    filetype:pdf xml高级编程
    55
    116但是匹配的质量很差,由各自不同的分次特点决定的。
    filetype:pdf 服务器安全
    17800
    6240
    filetype:xls 报名
    9940
    1890
    filetype:xls 名单
    32300
    3000
    表1 文档数量比较
    性能功能
    参比引擎
    百度
    Google
    灵活性
    支持三种方式查询1 filetype:格式 关键词2 关键词filetype:格式3 在高级搜索里选择
    支持三种方式查询1 filetype:格式 关键词2关键词 filetype:格式3 在高级搜索里选择
    准确性 整体上讲根网页搜索的效果差不多 ,由于各自分词的特点不同,所以对中文语义的理解上就会出现差异,所以在结果的数量并不是全部,但是对大多数关键词来说,百度的结果还是比较符合搜索目标的,而个别google的搜索结果就不太能令人满意。这也是由于google的强行前台分词造成的,结果数量多,并不精准。对于文档搜索来说准确恰当才是最重要的,数量只是其次。
    多语法混用
    一般的逻辑搜索:+ - 均能很好的支持filetype:doc 演讲稿 吴敬琏filetype:doc 演讲稿 - 教师filetype:doc 演讲稿 演讲
    其他高级搜索指令:吴敬琏 filetype:doc site:pku.edu.cn历史 filetype:doc inurl:org经济 filetype:doc inurl:title 目前网络上很少有中文文件夹所以这样的检索也是没有意义的。
    其他支持
    1 支持对所有文档类型的搜索,filetype:all2 支持把原来文档转换成html格式文档浏览3 不支持对更多文档类型的扩展,但是可以在mp3搜索中选择flash类型搜索,但是百度支持在网页搜索中输入“mp3:刘德华”“flash:小兵”来搜索歌曲
    1 不支持对所有文档类型的搜索, 2 支持把原来文档转换成html格式文档浏览3支持对更多文档类型的扩展,如swf/xml 目前google还不支持更多
    表2其他参数比较 一搜也提供文档搜索,目前支持的文件类型不多,文档的数量也不够(或者可检出的数量不够),而且使用习惯与其他的不同(google,altavista,alltheweb等)所以不列入比较范围。 总体评价,百度多文档搜索无论从搜索的质量和数量都是要与google相当,甚至超出google,说明,中文搜索引擎在应用的深层次挖掘上已经不再落后于外来服务商。我们有理由相信百度会提供更多更好的功能!
    This Written at 九月 17, 2004 by loverty.  

    0条评论

    发表评论

    << Home