浅谈搜索引擎爬虫研究与原则.

2018-02-13
  • 903
  • 0

从事seo自然是要和搜素引擎打交道首先我们先了解一下“网络爬虫”的概念!在网上因为各个行业的不同对于,它的名称也有很多不一样的称呼例如 :网页蜘蛛、网络机器人、网页追逐者、蚂蚁、自动搜索、模拟程序等等。但原理都是一样的,按照一种或者多种规则、自动地抓取万维网信息的程序或者脚本。

 

从上面的定义来看我们不难发现百度蜘蛛和谷歌机器人都是爬虫的一种。这个大家其实也不难理解,例如网上很多的采集器,都是有程序员自己写出来的完整蜘蛛程序,用来收集网络上的一些信息,用来充实自己的网站或者另做他用!

 

蜘蛛程序又是怎么工作的呢网上的资源大概可以分为四种文章资源、视频资源、图片资源、音频资源。不同的资源都会拥有相应的爬虫进行采集,相对应的各种资源的解析方式也各有不同!

 

例如我们在网站的日志中经常可以看见百度的spider和image-spider,不同的爬虫会利用自己独特的规则解析页面。为了让搜素引擎的效率最大化,爬虫在爬取页面的时候都会拥有一定的规律性!

 

1.1层级优先原则:网站的层级大部分成金字塔的形状,每个层级之间的优先级是不一样的,例如:网站首页目录页面内容页面,蜘蛛抓取的时候基本上就是这个层级顺序。

 

2.1非完全pr排序:主要是根据谷歌的pr值计算的每个页面在搜索引擎里面

都会一个综合评分如果爬虫根据这些评分进行抓取,就比较消耗计算资源了,所以在这个情况下,爬虫就会根据高pr值页面传递出来的链接进行爬行!

 

3.1 OPIC:翻译过来就是“在线页面重要性计算”,蜘蛛在采集大量的页面之后会根据页面的综合评分进行优先抓取,这种规则和pr值计算方式相当接近。

 

4.1大站优先策略:这个毋庸置疑了,因为大站比较符合信赖的原则。

 

通过上面的讲解,我相信大家应该会发现爬虫对于抓取有限性和无限性的网页是一种折中方式。可以让自己在有限的时间内,抓取网络中最重要的页面和资源。所以了解爬虫是非常利于我们去优化网站的!