哈斯日志
纪录我们在网路上奔波的历程!
  • »新帖子
  • 黄页服务燃起希望的火
  • Gmail增加多语言界面
  • Blast:一种新时尚
  • 网摘、书签不是之种种
  • 猪头+猪头=?
  • Google推出搜索问答服务
  • Yahoo!何时才能不做老二
  • msn spaces正式版上线
  • Blinkx3.0与Google定义
  • Google鼓励上传色情DV?


  • » @twitter
  • 随感两则:tags和spam-哈斯日志
    随感两则:tags和spam
    星期五, 四月 15, 2005
    谈谈Tags
    Gmail支持标签式的邮件分类策略使得标签分类开始为众人所知,之后相继有国外的美味书签,furl网摘,flickr相册等的加盟,使得分众分类得以迅速扩展。最近相继furl,flickr被招安,Del.icio.us获得了投资人的青睐,而且其主人也计划专心为之工作,Yahoo!在360种使用标签式分类,365key推出了支持tag式的标记和搜索功能等,今天ask jeeves也宣布其myJeeves的历史纪录或网址收藏功能支持tag式保存,种种迹象显示分众分类又一次来潮了。但是一直以来,blogwiki,以至标签分类(或称分众分类folksonomy)这些标榜着“草根化”的应用真正草根了么?都是谁在用这些所谓草根的应用,也就是这几个blogger,数都数的过来。
    当然我从来不否认标签式分类是个好用的东东,它使得信息真正的个性化,但是好用的仅仅是因为他的方便、public和类聚,因而能成为一种social型的应用。但是他本身并不具备易理解性,特别是在操作上,几乎更少人知道可以把同义信息标记为不同的tag。tag分类要成体系成标准路还很长!

    反Spam进行时
    搜索引擎观察blog上贴了一篇stanford的学生对于这一分类学的研究的《A Taxonomy of Web Spam》论文(下载原文)其中说到各种各样的垃圾网页他们通过自己建立链接,通过各种SEO的手段甚至作弊的手段获得在搜索引擎中的排名,但是当用户搜索相关query时,点击链接却不能给出用户需要的信息。 目前书签,网摘,blog,wikipedia都是直接或间接的是垃圾的重灾区。尽管搜索引擎支持链接的rel=nofollow属性,但是收效甚微。Zolta Gyongyi and Hector Garcia-Molina通过这篇论文试图能找到解决方案,他们认为通过算法能实现如下三个目标:1 建立一个spam种子集,通过内容识别或结构分析来实现实现程序识别spam,一旦识别就自动停止索引或抓取,甚至人工的删除spam的索引页;2 通过让spider自动识别spam然后就不再抓取;3 通过高质量内容的特别加权来平衡spam的对搜索结果的影响。
    This Written at 四月 15, 2005 by loverty.  

    0条评论

    发表评论

    << Home