你的网站蜘蛛抓取量暴增了吗?

2016-10-17
  • 1136
  • 0
        你的网站蜘蛛抓取量暴增了吗
        近期,做项目的时候发现网站的抓取量暴增,PC和移动都有这种情况,以至于超过了服务器的最大承受能力,这种突然的抓取量暴增现象应该怎么处理呢?下面我们来一一介绍。那我们先来了解下引起蜘蛛抓取量暴增的几个可能性的原因:
        l  Baiduspider发现站内JS代码较多,调用大量资源针对JS代码进行解析抓取
        l  其他部门(如商业、图片等)的spider在抓取,但流量没有控制好,sorry
        l  已抓取的链接,打分不够好,垃圾过多,导致spider重新抓取
        l  站点被攻击,有人仿冒百度爬虫
        备注:(如何正确的识别蜘蛛,参考各搜索引擎的官方文档)
        首先,我们要确定服务器是没有技术上的问题的,然后分析下日志,看一下搜索引擎频繁的抓取哪些页面或哪一个页面,如果是一个页面,那只能舍弃这个页面了,使用robots屏蔽掉。
        其次,如果搜索引擎抓取的是整站的页面,我们可以用站长工具去控制蜘蛛的抓取频率,调整到一个服务器能够接受的值,当然这种做法会促使蜘蛛抓取量下降,但可能达不到理想的值,需要时刻查看调整相关的数据。
        第三,有一些站长工具是没有限制蜘蛛抓取功能的,我们还可以通过robots来限制蜘蛛的抓取频率,如以下robots协议
        一、 Crawl-delay 这个协议可以指定蜘蛛两次抓取时间的间隔值。
        语法:Crawl-delay:XX
        "XX",是指两间抓取的间隔时间,单位为秒。如果蜘蛛的抓取频率太高可以指定这个值,来减轻服务器的负担。
        二、Visit-time 指定蜘蛛的访问时间。
                语法:Visit-time:0930-1630
开头的文本行指定每天允许网络蜘蛛采集的时间段,格式为mmss-mmss,例如0930-1630
        三、 Request-rate 指定采集的频率
        语法:Request-rate:1/5 0600-0845
        指定同一个网络蜘蛛每多少秒采集一次网页和采集时间段,例如1/5 0600-0845。
        最后说明下,有些站长通过屏蔽蜘蛛IP的方法限制蜘蛛的抓取量,这种做法是非常不可取的,虽然蜘蛛的确有一个IP池,真实IP在这个IP池内切换,无法保证这个IP池整体不会发生变化。