为博客nginx日志添加请求域名打印(host字段)及添加其他域跳转到主域
[| 2012/05/17 17:40]
前几天百度快照和流量都恢复了,心情很好,但今天看收录时突然发现迁移前服务器绑定的那个临时域名居然也在收录之列,这个不是一个好的现象,因为如果爬虫同时对两个域名同时抓取,会得到相同的内容,对于重复内容是很不利于收录的。查了下快照,发现百度依旧动作很慢,收录只有一页,还是迁移前的那个测试页,google则全都收录了,怪不得迁移时google非常活跃,现在回想应该不是爬主域名,很可能是发现那个临时域名指向的站点大更新,在爬那个。
纠结的是nginx默认配置居然不打印请求的host域名,无法考证之前爬虫爬取情况,亡羊补牢,幸亏nginx默认留空了日志第二个字段,打印的是“-”,正好用来打印域名,将-修改为$host,重启后就打印了。
对于已经收录的临时域名,需要将流量都导入到主域,在nginx里配置了一下301跳转:
if ($host = 'tmpdomain.com' )
{
rewrite ^/(.*)$ http://maindomain.com/$1 permanent;
}
ok
纠结的是nginx默认配置居然不打印请求的host域名,无法考证之前爬虫爬取情况,亡羊补牢,幸亏nginx默认留空了日志第二个字段,打印的是“-”,正好用来打印域名,将-修改为$host,重启后就打印了。
对于已经收录的临时域名,需要将流量都导入到主域,在nginx里配置了一下301跳转:
if ($host = 'tmpdomain.com' )
{
rewrite ^/(.*)$ http://maindomain.com/$1 permanent;
}
ok