搜索引擎抓取原理浅谈

2016-10-24
  • 1185
  • 0
        搜索引擎在爬行网站时,一般分为两种策略:深度抓取和广度抓取。这两种抓取应该听过的人特别多,那是否还有第三种呢?其实吸引蜘蛛也算一种抓取策略,因为它改变了蜘蛛的爬行规律。今天就来主要解释一下三种抓取的方式。
        深度抓取,比如容易理解,当搜索引擎蜘蛛到了一个网站时。它会根据网站中第一个链接,之后顺着第一个链接一路爬行,直至抓取完成后。这时,蜘蛛会返回搜索引擎抓取的第一个链接,接着该链接,抓取网站第二个链接,之后顺着第二个链接一路爬行,直至抓取完成。以此反复抓取,完成深度抓取。
        而广度抓取,则是搜索引擎在发现一个页面时,首先,将该页面第一层所有链接均索引到搜索引擎数据库中。然后,将第二部分链接索引,之后为第三个页面,以此反复。
        当然,无论深度或广度抓取,搜索引擎都不会以此种方式将整个网站所有的页面链接全部抓取,除非网站链接极少。那一些链接藏的比较深,或者页面层级较深,这些页面如何让搜索引擎抓取呢?那就要说说第三种抓取策略,吸引蜘蛛。
        在通过外链或者友情链接等规划时,在其它网站中存在自身网站链接,吸引蜘蛛通过外链或友情链接中的地址爬行网站中,为一些隐藏较深的页面提供索引。
        当然,大概的搜索引擎抓取策略分为以上三种,还有一些其余情况,比如,页面点击率,或者页面更新度等情况,同样会影响到抓取情况。搜索引擎抓取策略也不会一成不变,我们要做的,就是做好网站自己的优化,尽量使用树状型物理结构,保证网站的抓取索引。