信息发现与Invisible-Web

2013-09-24 loverty 
我在2004年些的不可见网页的一个帖子。后来在百度实施了很多跟这个方向有关系的一些改进和尝试,百度称这种内容为hidden web。
------
信息发现与Invisible-Web(1) [2004-1-8]

信息发现往往是一个令人快乐的事情.尤其是现在有了支持全文检索的web搜索引擎,这使得我们在获取信息来说提供了更大的方便.然而事实并不是想像的那么简单,比如现在的搜索引擎对文本信息可能比较有效,而超越了这个范围就不在显得那么威力无比,再有就是搜索引擎处理的网页文本也通常受到网页设计的结构和输出方式等等的影响.总结起来大体有4个方面问题:

1 从搜索引擎的技术能力目前是有限的,尽管搜索引擎在网络上发现文本信息方面的作用很大,但是我们知道一些个更有价值的东东往往是非文本格式的,比如pdf,Caj等甚至更多的音频视频,图片等多媒体的信息.据一份调查(IDG.NET)显示,现在网络上非文本信息与文本信息的比例是3:1,那是什么含义呢,就是说互联网上有近75%的信息是以非文本格式存放的, 所以尽管目前最强的全球引擎Google能支持12中文件格式,但是对庞大浩瀚的信息的海洋还是九牛一毛,

2 更何况现在的搜索引擎还存在着被称之为搜索引擎黑洞的东东,就是对动态文本的抓取和索引问题.搜索引擎还处理不了诸如,框架,动态输出文本等.(百度的robot已经能处理一些动态程序生成的数据)

3 从运营成本上将,运行一个综合搜索引擎并时常更新索引,这样成本非常之高的.

4 还有就是搜索引擎必须同那些利用引擎特点而恶意设置无聊的垃圾页面来破坏其索引的作斗争,不是改变或这优化一些规则,从而保证其质量.但这时候就难免会出现一些正常的或这非常有用的网页被spam掉.

5 再有就是一些专业的数据库的,网页搜索引擎并不能实现对其的查询功能.而这些专业数据库相对来说对你也许会更有用!

所以,通过上面四条总括,我是想说明互联网上存在很多内容其实我们通过这种常规的办法我们是没法发现的,被称之为:invisible-web,其实往往这些不可见的网页更具有商业价值或学术价值.那这就成为一个矛盾了,那么这个与我们在网路上要求发现信息的愿望恰好相背。那么怎么来发现这些不可见网页,并充分利用之,是本文所要探讨的目的,进入一个搜索引擎未曾进入的领域,去更好的诠释"我们若能妥善搜寻资料,实在已经改变世界了"

我对这些信息作了一些大致的分类,具体介绍如下:
1 专业数据库信息,比如Cnki,,数据库,中国大百科知识文库,专利检索数据库,医学专业数据库等当然大多数专业数据库需要付费,但是网络上往往会有专业数据库的账号密码,是网友共享.大家可以参考huangwei98给大家提供的密码检索方法.还有这些数据库有的还提供某些网站提供免费检索入口.比如:http://vip.tidti.ac.cn/zk/bin/home.htm,还有http://highwire.stanford.edu

2 实时更新信息,有新闻,气象信息,股票信息,股市行情,电视节目等无法实现实时查询,(当然现在更新的频率已经大有提高,据说5分钟)

3 公共词典,包括行业词典,专业术语,语言工具等.

4 特定资源库,包括Bt资源库,电子地图,列车航班,电话号码,邮编,ip地址之类 要发现或使用这些信息的办法,目前根据公共普通搜索引擎,发现这些特定资源的标志,然后到相关的网站去查找相应的信息.但是往往时我们根本就不知道任何关于这个标志(或称之为关键词)时,我们如何去搜索利用公共搜索引擎提供的扩展功能去查询相应的信息,比如google提供的windows,mac,linux信息查询库等,和百度提供的生活搜索入口,http://life.baidu.com,新浪提供的网址精品,其实大家都在做的是让用户更方便的去找到你需要的,

5 关注特定网站的特定信息,比如yahoo财经,提供的财经信息,股市行情比较有用,当然具体信息你可以去特定的网站去发现.

当然我们更希望能在一个特定的入口去发现这么多我们想关注的信息,但是这个特定入口如何实现.

信息发现与Invisible-Web (2) [2004-2-15]
不可见网页搜索的问题会随着搜索引擎的技术的进步逐渐得到一些改善,但是永远都不可能完全解决之。为什么?这不是一个哲学问题,所以不需要回答。

搜索引擎9238说过的,搜索之前的重要的一环节是思考。那我的理解应该是你首先要思考你要找什么,不仅如此你还要思考你要找的东东用文字怎么来表达,尽量用书面化的比较正规的表达方式来表达来描述你的搜索对象。这与另一观点:自然语言搜索,是有区别的,自然语言不是口语,更不是地方语言。而某些人恰好就走到这个极端了。另有篇章叙述之。

我要说明的是对不可见资源,你通过搜索引擎可能会找到其入口。那这也就是目前的搜索引擎对与不可见资源的终极意义了。运用恰当的关键字你能很迅速很准确的找到您需要的资源的入口那也不能不说是很好的事情。所以,百度推出所谓的生活搜索,http://www.baidu.com/life/,它是百度为用户提供的一些个比较重要的服务导航性的搜索工具的列表。

注释:不可见网页的国外研究站点:http://www.invisible-web.net