影响蜘蛛抓取量因素

2018-04-13
  • 951
  • 0

蜘蛛总停留时间

一、 搜索引擎主动给的时间(主要为网站权重影响) 

二、搜索引擎被动给的时间(外链影响,最好为不同页面发布外链)

三、搜索引擎提交工具自动提交

1、 主动推送:通过百度接口进行推送

· curl推送

· post推送

· php推送

· ruby推送

2、 自动推送

自动推送是百度搜索资源平台为提高站点新增网页发现速度推出的工具,安装自动推送JS代码的网页,在页面被访问时,页面URL将立即被推送给百度。

3、 Sitemap

按照文件格式txtxml进行链接提交每个文件最多包含5万条链接且不能超过10M

四、手动提交

非验证站点也可提交,每次最多提交20条,每条一行

五、熊掌号提交

    熊掌号对移动端效果更好,提交完成后,移动端收录和流量一般会有较大提升。

 

单页面停留时间

影响单页面停留时间有如下原因

网页打开速度

1、 DNS解析(尽量找大的DNS服务商)

2、 带宽(购买服务带宽会较大影响页面打开速度)

3、 服务器性能(当数据到达一定量级,低性能服务器会影响网站响应速度)

4、 操作系统(推荐使用linux

5、 页面大小(控制在5M一下)

6、 不同网络(主要电信,联通,网通等不同网络下对页面打开速度的影响)

7、 Cms(一些免费的开源CMS在代码执行上效果差,可能会影响网页打开)

8、 蜘蛛所在网络-----百度蜘蛛一般在北京机房)

 

知识点1:大量重复抓取(需要分析日志并对蜘蛛进行引导,如通过nofollowrobots等)

知识点2:影响爬虫抓取困难的因素:防采集、防火墙设置、URL多次返回不同状态码、网卡设置、屏蔽蜘蛛、硬盘性能、带宽、过多的JS