Welcome to Snooda's Blog
Baidu Spider 和 Yahoo! Slurp China Spider
[| 2012/05/10 08:54]
在博客迁移前好几天就把a记录的ttl设成了10分钟,目的是为了减少dns记录在spider处的缓存时间,加快迁移速度,即使是这样,在昨天还有一部分Baidu Spider在爬,到今天还有Yahoo! Slurp China的Spider在爬,处于不一致状态,有的爬虫爬新的,有的爬老的,估计建库模块会比较疑惑,导致不更新网站索引,而Google的很快就都更新到新的上面了。
差距。
差距。
Soso Spider 不支持base属性
[| 2011/10/27 19:17]
今天博客新迁移,由于对静态化url的改动非常大,难免有遗漏的地方,所以非常关注access日志,看看爬虫们遇到了哪些困扰。
在看日志的时候发现一个有意思的现象,google和百度的蜘蛛今天很不活跃,对于站点的大规模改变似乎并不感兴趣,对css,js不屑一顾,而soso的spider非常活跃,把每个链接都详细爬了一遍,但发现一个问题:
新博客的url是采用base设置+相对url的模式,soso的spider似乎并不识别base标签,直接把相对url附加到当前url之后进行抓取,导致了很多404请求。查了一下,base属性是html标准属性,soso不支持这个属性应该算是个bug了。
在看日志的时候发现一个有意思的现象,google和百度的蜘蛛今天很不活跃,对于站点的大规模改变似乎并不感兴趣,对css,js不屑一顾,而soso的spider非常活跃,把每个链接都详细爬了一遍,但发现一个问题:
新博客的url是采用base设置+相对url的模式,soso的spider似乎并不识别base标签,直接把相对url附加到当前url之后进行抓取,导致了很多404请求。查了一下,base属性是html标准属性,soso不支持这个属性应该算是个bug了。