搜索引擎的盲点

搜索引擎并不能索引整个互联网的网页,这是公认不讳的常识。通常不能索引部分不可见网页The invisible web)。今天Wendy Boswell在blog中补充了如下类型的资源:局域网(Private networks, intranets);不能很好地索引带有Web Forms站点(如 ColdFusion or CGI );不能处理好需要登陆的站点(Password-protected)等;
我还要在补充两点就是,1 搜索引擎spider现在还不能很好处理多媒体文件的例如页面内容只有flash或者image的页面;2 还不能很好处理互联网上丰富的多文档资源,尽管目前主流的搜索引擎都只是对pdf,excel,mp3,doc,rtf,ppt等文档资源进行解析,而解析的质量也不是很好,对于xml,CAJ(CNKI数据格式),CHM等文档的解析和识别还没有起步。这里是我以前探讨关于《信息发现与invisible web》的post。

ps:
今天利用asp wiki engine搭建了一个搭建搜索引擎百科,欢迎有兴趣的人一起来建设之

发表评论

0 评论