什么是抓取预算?
Google的目标是为搜索网络的用户提供有用的信息。为实现这一目标,Google希望抓取质量来源的内容并对其进行索引。
抓取网络的成本很高:谷歌每年使用的能源与整个旧金山市一样多,只是为了抓取网站。为了抓取尽可能多的有用页面,机器人必须遵循规划算法,优先考虑要抓取哪些页面以及何时抓取。谷歌的页面重要性是有一种可衡量的方法来确定哪些页面可以优先排序。
为什么要优化抓取预算?
感谢OnCrawl在数亿页面上的数据,我们还了解到Google抓取网页的频率与收到的展示次数之间存在很强的相关性:在搜索结果中更频繁地看到抓取次数较多的网页。
1监控抓取预算
Google Search Console将为所有Google漫游器的访问提供复合抓取统计值。除了官方的12个机器人之外,在OnCrawl我们注意到了一个新的机器人:Google AMP机器人。此数据包括所有机器人命中的所有URL(包括JavaScript,CSS,字体和图像URL)。由于机器人行为的差异,给出的值是平均值。例如,由于AdSense和移动设备机器人必须完全呈现每个页面,因此与桌面Googlebot不同,所提供的页面加载时间是完整加载时间和部分加载时间之间的平均值。
因此,衡量网站抓取预算的最可靠方法是定期检查网站的服务器日志。如果您不熟悉服务器日志,则委托人很简单:Web服务器记录每个活动。这些日志通常用于诊断站点性能问题。
记录的一个活动是对URL的请求。在日志中,此类活动的行将包括有关发出请求的IP地址的信息,URL,日期和时间以及状态代码形式的结果。
通过识别来自搜索谷歌机器人的所有请求,您可以准确地测量给定时间段内谷歌机器人命中的数量。这是您的抓取预算。
此号码无法告诉您Google是否会给您的网站足够的关注。具有日志监控功能的SEO爬虫(如OnCrawl)提供了额外的指标来诊断爬网预算的运行状况。
由于您的抓取预算允许对新页面和更新页面建立索引,因此快速解决问题和突然更改至关重要。
2修复服务器问题
如果您的网站速度太慢或服务器返回太多超时或服务器错误,Google会断定您的网站无法支持对其网页的更高要求。
您可以通过修复400和500级状态代码以及修改与页面速度相关的服务器相关因素来纠正感知到的服务器问题。
由于日志指示返回的状态代码和下载的字节数,因此日志监视是诊断和更正服务器问题的关键。
如果您的站点托管在共享服务器上,您仍然可以通过缓存,CDN,适当大小的映像,更新PHP版本以及使用惰性或异步加载技术来提高服务器性能。
3不要浪费,不要
让Google专注于您想要排名的网页,远离您网站的内容。通常,您的抓取预算不会用于发现新的或更新的页面,因为它花在其他内容上。
您的日志监控数据将提供Google在您的网站上抓取的内容以及从未发现的内容。
将日志数据与来自SEO爬虫的数据集成将帮助您回答以下问题:
尽管不可索引,是否会抓取页面?(它们是否在站点地图中?)
是否有爬网页面没有返回200状态代码?
Google会抓取图片,PDF和其他媒体的网址吗?
Google抓取的网页是否没有用户点击?
Google会抓取大量重定向的网页吗?
如果您对这些问题中的任何一个回答“是”,则可以通过指示机器人不抓取这些资源来释放爬网预算。优先考虑消耗最多预算的主题。
如果您要推广季节性网页,那么您可以在这里发挥最大的作用。这些关系表明您网站中的最佳内容和结构类型。相应地修改季节性页面的链接结构,并将这些页面置于其他页面之前的最佳站点深度。
最后,日志监控和网站抓取数据将揭示任何被Google抓取的孤立网页 - 与您网站结构无关的年龄。如果这些网页接收了Google的访问权限,请将其重新连接到您的网站结构,以利用此流量。否则,请取下它们或禁止机器人。
4优化Googlebot
人类可以做各种机器人不能 - 而且不应该这样做。例如,机器人应该能够访问您的注册页面,但他们不应该尝试注册或登录。机器人不会填写联系表单,回复评论,留下评论,注册简报,添加项目到购物车或查看他们的购物篮。
但是,除非你告诉他们不这样做,否则他们仍然会尝试关注这些链接。充分利用robots.txt文件中的nofollow链接和限制,使机器人远离无法完成的操作。您还可以选择移动与用户选项相关的某些参数,或者查看cookie或限制日历和档案中的无限空格。这可以将爬网预算释放到重要的页面上。
5提高内容质量
Google的官方声明(无论是代表还是网站管理员支持页面)都表明您的抓取预算受到内容质量的强烈影响。
通过OnCrawl组合日志数据和语义分析的证据支持这一事实。我们发现大多数网站都显示出以下关系:
单词数和爬网行为。
重复内容和爬网行为。
内部PageRank和抓取行为。
您还应利用优质内容的优势,通过以下方式强化较弱的页面:
外部反向链接。
内部链接结构。
规范优化。
如果您要推广季节性页面,请先集中精力优化它们。来自站点审核和站点爬网的报告表明这些组中的哪些页面将从改进中获益最多。