一、确保服务器工作正常
要时常查看服务器的日志,查看是否有存在异常情况,比如是否阶段性存在大量500错误,是否存在大量304状态或者是在抓取的时候,平时间隔很短,这段时间突然间隔很长时间才抓取一次页面等等基本问题,然后根据具体的问题,做具体的针对性分析。比如,最近收录下降了,那么首先要检查,是不是抓取的次数减少了;如果最近的更新收录速度慢了,那么检查一下抓取的频度是不是降低了;如果用户日志没有异常,而爬虫日志中存在大量500错误,那么就要查看一下服务器维护记录,是不是有做过防火墙或者其他防攻击的安全部署,如果没有,那么还要查看,是不是网卡的全双工和半双工配置存在问题,又或者是不是交换机的buffer缓存溢出等问题导致的数据丢包引起的500错误状态。
二、使页面尽量简洁,确保打开速度快
对于这一点来说,行业网站确实很难把握,既要网站功能又要漂亮的UI/交互界面,只有在网站代码的编写上多注意,DIV可以,表格也可以,但有一点,就是如果要搜索引擎自动动态引用页面内容部分作为动态描述生成,应当注意标签嵌套的控制。另外,对于样式和JS等脚本尽量代码复用,样式方面,一定要减少页样式和行内样式,通过MVC模式开发使网页在后期维护方面,减少麻烦。对于页面内图片请求,模版涉及到的图片,尽量使用精灵图片(CSS sprites),以最大限度降低页面中的图片请求数量,减少请求时间,提高页面加载速度。如果是大量图片的页面,建议使用瀑布流方式加载和呈现,减少等待时间。
三、检查并去除死链接
网站建立好之后,应该对全站链接进行检测,排除错误链接和死链接,减少蜘蛛对死链接的抓取,减少错误页面的抓取时间给予其他页面,来保证每次都能够抓取尽可能多的页面。常用的工具有,GOOGLE的网站管理员工具,网站地图工具SiteMapBuilder和XENU。
四、有规律的文章更新
每天更新多少量没有一定之规,但是合理的专题周期是非常有必要的,规律性的新内容更新,在一段时间之后,蜘蛛会获取并统计这个更新的规律,有规律的来进行内增内容抓取,使得你的文章更新后,能够尽可能短的时间内被抓取到,只要保证文章质量,那么文章的收录是没有问题的。
五、为站点制作网站地图并优化站内结构
网站地图的制作有HTML的也有XML的格式,相信有心做行业网站的站长都会注意到,不同的用途,格式也是不同的,网站地图的制作比较简单,网站地图包含整个网站的结构同时也是一个页面,但是却很重要!当然你如果做个地图给蜘蛛看,那我建议你还是用工具好,这样格式不会出错误。另外,站内结构尽量逻辑结构扁平化,是的搜索引擎蜘蛛可以一次尽可能多的发现更多的页面。
六、尽量多从正规和相关站点获得反向链接
定期检查网站的反向链接,添加链接,不管是友情链接还是软文链接,通过这个操作可以提高网站的权重,在一定周期之后,会发现,权重的增加,能够影响到每次抓取的停留时间和抓取数量。