哈斯日志
纪录我们在网路上奔波的历程!
  • »新帖子
  • 社会性搜索服务Filangy
  • 20Q.net让机器了解你
  • 元搜索dogpile
  • 应用的快捷方式
  • 以blog之名的商业化趋势
  • 百度新闻个性化定制
  • Overture的历史
  • My wallop旧话重提
  • blogbus推出日志的tag支持
  • Google history的妙处


  • » @twitter
  • 全球可索引网页达到115亿-哈斯日志
    全球可索引网页达到115亿
    星期三, 五月 18, 2005
    University of Iowa 最近一项调查显示,截至2005年1月全球可以索引的网页( indexable Web )已经达到至少115亿。搜索引擎Google覆盖了大约88亿页居第一,Yahoo 第二,覆盖了8 0亿页,MSN Search覆盖了71亿页,Ask Jeeves覆盖了6 0亿页。这与各大搜索引擎宣布的索引数量基本一致。 分析获得各大搜索引擎的覆盖率为:Google=76.16%, Msn Beta=61.90%, Ask/Teoma=57.62%, Yahoo!=69.32%

    stimating the size of the whole Web is quite difficult, due to its dynamic nature (According to Andrei Broder, the size of the whole Web depends strongly on whether his laptop is on the web, since it can be configured to produce links to an infinite number of URLs!). Nevertheless, it is possible to assess the size of the publically indexable Web. The indexable Web [4] is defined as "the part of the Web which is considered for indexing by the major engines". In 1997, K.Bharat and A.Broder, A technique for measuring the relative size and overlap of public web search engines [WWW1998](via here

    dogpile调查相区甚远的是,他们也发现各大引擎直接收录的url重叠交叉点大约是28.85% 或大约27 亿页。这可能跟他们调查取样广有关。 而且这次调查仅限于搜索引擎覆盖的可索引页(only covers the indexable web)如果算上invisible-web,互联网信息该丰富成啥样啊!(:

    这个调研使用的方法和算法还是值得一用,不过没太理解清楚,接着研究。但是有一点觉得他们解决的不好的就是互联网信息内容重复的问题,他们一直在考虑可索引的url,但是content copy的情况在互联网上现在也是比较严重的,在中文方面据CNNIC的2004年互联网资源调查数据显示,中文目前重复的比例大概是25%~40%,英文没有数据不敢妄加揣测,但是这也应该是必须考虑的内容。

    按照百度公布的中文网页索引量是6亿多,那么简单推算可知中文网页在整个全球网页数量中占5.2%以上,与2003年占中文网页占全球网页数的3.8%比已经有了巨大的进步。
    This Written at 五月 18, 2005 by loverty.  

    0条评论

    发表评论

    << Home