Fdream's Blog
专注于WEB前端开发
Powered by Google
1
可恶的Spam机器人
7 多云 2008-10
Fdream 发表于 Ajax Web, 已被阅读 637 次评论 2 条
关键词:spam robot

下面是几条IIS的访问日志:

引用内容:

23:59:29 GET /blog/include/validatecode.asp - 80

- 219.134.121.206 Mozilla/3.0+(compatible;+Indy+Library) 200 0 3

23:59:29 POST /blog/blogcomm.asp action=postcomm 80

- 219.134.121.206 Mozilla/3.0+(compatible;+Indy+Library) 200 0 2

23:59:29 GET /blog/blogview.asp logid=304 80

- 219.134.121.206 Mozilla/3.0+(compatible;+Indy+Library) 301 0 0

23:59:29 GET /blog/article/304.aspx - 80

- 219.134.121.206 Mozilla/3.0+(compatible;+Indy+Library) 302 0 0

23:59:29 GET /blog/article/refused.html - 80

- 219.134.121.206 Mozilla/3.0+(compatible;+Indy+Library) 200 0 3

23:59:33 POST /blog/trackback.asp tbid=140&CP=GBK 80

- 222.69.238.216 Mozilla/3.0+(compatible;+Indy+Library) 200 0 2

Indy Library最初是一个关于网络操作的开源程序库,到了国内就大量被滥用到spam bots,而且还能随意更换IP(也许是多个spam bot,但是从IP数量来看并不像)(这里有更多关于Indy Library的信息)。很早就发现这个可恶的机器人了,于是在Global.asax中BeginRequest的时候就直接为其重定向到了refused.html...

愤怒了,一个下午的时间,待审trackback增加了176条。上午的时候看到blog上又多了许多恶意引用,于是一怒之下把所有的trackback都删掉了,不管是正常引用还是恶意引用。

在上午发现恶意引用后,观察了一下在线用户,发现N个客户端为JDK 1.5.0的在线用户,使用的IP来自全球,显然使用的是假的IP,应该是随机产生的。对于这种恶意引用,让我觉得我的引用过滤对于我自己已经没有多大意义了,尽管大家看不到,我依然不爽,所以决定屏蔽trackback功能!所以大家要引用我的BLOG上的文章时,还麻烦大家在引用文章之前注明文章出处,当然了,如果你不闲麻烦,还可以来个手动引用(AW的示例)^_^

PS:trackback功能也并没有完全屏蔽掉,只是把trackback文件改了个名字,原来是trackback.asp,现在是tb.asp,所以现在从网页上找不到trackback的地址,要引用时,把trackback.asp改成tb.asp就行了,还是要手动^_^

3月27日Update:

突然想到评论审查,需要改改我的博客程序,要是能够这样的话,网络爬虫们都见鬼去吧……

===========================================

最近要Gmail的多,发广告的也跟着了,每两天总有那么几条,懒得删了,你做你的广告吧……只是链接地址我就不想让Google再过去了,所有评论和引用的链接都已经加上属性rel="nofollow",据说会有更多的搜索引擎支持这个属性。尽管这个东西还是颇有争议的(Keso:《No nofollow:技术理想主义》),但也没办法了,想好了一个补救的方法,就是把评论中好的链接附加到我的文章后面,不知妥否?

参考阅读:

如何阻止 Googlebot 抓取某网页上的单个外向链接?

1
Copyright © 2005-2008,Fdream All Rights Reserved
Processed in 0.7188144 second(s) , unknow queries
Powered by OWord V0.1, Even Not Alpha
(此博客程序为半成品,请勿索取,以免给您的心灵造成创伤^_^)
鄂ICP备05026031号