Netconcepts | 你的网站蜘蛛抓取量暴增了吗？

你的网站蜘蛛抓取量暴增了吗
近期，做项目的时候发现网站的抓取量暴增，PC和移动都有这种情况，以至于超过了服务器的最大承受能力，这种突然的抓取量暴增现象应该怎么处理呢？下面我们来一一介绍。那我们先来了解下引起蜘蛛抓取量暴增的几个可能性的原因：
  l Baiduspider发现站内JS代码较多，调用大量资源针对JS代码进行解析抓取
  l 其他部门（如商业、图片等）的spider在抓取，但流量没有控制好，sorry
  l 已抓取的链接，打分不够好，垃圾过多，导致spider重新抓取
  l 站点被攻击，有人仿冒百度爬虫
  备注：（如何正确的识别蜘蛛，参考各搜索引擎的官方文档）
  首先，我们要确定服务器是没有技术上的问题的，然后分析下日志，看一下搜索引擎频繁的抓取哪些页面或哪一个页面，如果是一个页面，那只能舍弃这个页面了，使用robots屏蔽掉。
  其次，如果搜索引擎抓取的是整站的页面，我们可以用站长工具去控制蜘蛛的抓取频率，调整到一个服务器能够接受的值，当然这种做法会促使蜘蛛抓取量下降，但可能达不到理想的值，需要时刻查看调整相关的数据。
  第三，有一些站长工具是没有限制蜘蛛抓取功能的，我们还可以通过robots来限制蜘蛛的抓取频率，如以下robots协议
  一、 Crawl-delay 这个协议可以指定蜘蛛两次抓取时间的间隔值。
  语法：Crawl-delay:XX
  "XX"，是指两间抓取的间隔时间，单位为秒。如果蜘蛛的抓取频率太高可以指定这个值，来减轻服务器的负担。
  二、Visit-time 指定蜘蛛的访问时间。
      语法：Visit-time:0930-1630
开头的文本行指定每天允许网络蜘蛛采集的时间段，格式为mmss-mmss，例如0930-1630
  三、 Request-rate 指定采集的频率
  语法：Request-rate:1/5 0600-0845
  指定同一个网络蜘蛛每多少秒采集一次网页和采集时间段，例如1/5 0600-0845。
  最后说明下，有些站长通过屏蔽蜘蛛IP的方法限制蜘蛛的抓取量，这种做法是非常不可取的，虽然蜘蛛的确有一个IP池，真实IP在这个IP池内切换，无法保证这个IP池整体不会发生变化。

GEO营销

内容营销

效果营销

数字广告

创意设计

社交营销

海外营销

智能营销

品牌公关

中国营销排行榜大会

专业知识分享

你的网站蜘蛛抓取量暴增了吗？