这个世界总有一些事情让你想不明白,做网站的人都知道可以通过设置robots.txt文件告诉搜索引擎那些东西可以抓取那些不可以抓取,可咱们号称中国google的百度却偏偏像个瞎子一样对robots.txt视而不见。
为什么这么说呢?花果山寨在转用wordpress之前用的是zblog,由于之前的空间还没有到期,所以一直没有把zblog程序从空间上删除,而手头上又有一个域名没地方用所以就把这个域名指向原来的空间,但为了不让搜索引擎误会重复内容,于是设置了robots.txt文件限制了所有的搜索引擎抓取,一段时间后所有的搜索引擎都不再抓取,唯独百度不同!
User-agent: * Disallow: /
上面就是按百度给出的标准格式去设定的robots.txt文件见容,为何百度自己却看不懂呢?看收录截图:
可能有人会有疑问是不是以前收录的数据还没有来得及更新呀?这是不可能的,一来是这个域名以前并没有指向过这个空间,百度根本就没有这个域名的数据;二来从这些收录时间上看得出是最近收录的,看截图:

这17条数据全都是5月底收录的,是最新的收录数据!所以我才敢说堂堂百度居然连robots都看不懂,太奇怪了!
您可能对这些也感兴趣 |





5 Comments:
其实百度不止这么搞笑,反正它就是很搞笑~~~
大 圣 reply on 6月 13th, 2008 19:22:
哦!那就要列列它的笑料了
不是很懂!或许百度也有发闷的时候!
大 圣 reply on 6月 13th, 2008 19:22:
呵呵!可能是出现了机器故障!
百度一般都无视robots.txt的,已经是传统了
大 圣 reply on 6月 13th, 2008 19:23:
我还是首次看到!
谁都知道baidu是流氓一般的抓取,无视robots的存在,然后就号称自己最懂中文,以至于将别人不喜欢公开的东西都给抓出来了
大 圣 reply on 6月 13th, 2008 19:23:
该抓的不抓不该抓的却去抓,很有“个性”嘛
百度向来都很白痴
大 圣 reply on 6月 13th, 2008 19:24:
充个性!牛B大了,就喜欢与天下人对着干!