Netconcepts | 百度收录须知

1. 服务器服务器的稳定性不但关系到用户体验度问题，还对搜索引擎的爬取造成很大的影响，长期不稳定的服务器会增加造成搜索引擎爬取压力，出现不能有效爬取页面，降低搜索引擎友好度等情况，从而出现收录下降、排名下降的情况。 2. 搜索引擎爬取很多时候页面没有被搜索引擎收录的原因是：页面根本没有被爬取。导致这种情况出现的原因主要有3点：robots文件设定、页面层级过深、页面入口不足。 Ø Robots文件：全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，所以对Robots文件的设定是需要遵循正确书写格式、合理的爬取需求的标准。 Ø 页面层级过深除了指网站物理层级结构外也包含逻辑层级结构，而网站URL结构就属于逻辑层级结构范畴之中，以URL结构为例：方便记忆、层级简短、长度适中的静态URL是被搜索引擎所喜爱的。 Ø 页面入口不足是导致页面不被抓取得常见原因，对于重点页面的入口应当安排多入口、易爬取位置的入口。 3. 网站结构网站结构分为两部分：物理结构、逻辑结构； Ø 而满足搜索引擎收录的最基本点也是从这两点开始，首先就是保障物理结构简单、不宜过深、方便查找，物理结构的影响主要表现在“请求返回时间”上，导致物理结构复杂的因素主要是系统漏洞原因生成的不必要层级； Ø 其次逻辑结构要清晰合理，容易被搜索引擎所理解并且方便用户记忆、传播、分享；逻辑结构主要表现在页面目录结构及URL结构，如果目录结构过于复杂（例如：用户点击一百次才能到目标页面和用户点击3次到达目标页面的区别）会影响到用户体验度和搜索引擎友好度，URL结构（以“/”为划分标志，不宜超过4层结构）复杂会不利于搜索引擎收录和用户记忆、传播。 4. 页面内容目前搜索引擎对于网站内容的判断直接关系到页面是否能够被收录、收录后能否有一个良好排名的重要标准，对于页面内容的判断依据主要有4方面：1.内容原创度2.内容新鲜度 3.关键词分布4.更新频率； Ø 内容原创度：搜索引擎对重复内容是比较“反感”的，所以，原创度较高的内容也一定意义上被搜索引擎所喜欢，从而易被收录； Ø 内容新鲜度：“新鲜度”主要指内容的热门程度和时间性，对于近期发生的“大事件”“热门事件”等都是容易被用户搜索引擎双重关注的； Ø 关键词分布：除了以上两点外，关键词的分布也对搜索引擎是否收录启到决定性的因素，因为搜索引擎分辨页面内容的重要因素之一就是关键词，但是需要注意的是：过分的关键词堆砌行为会被搜索引擎视为“作弊”行为，所以关键词的分布不能只追求数量，一般来说800字以内的软文，关键词出现最多不要超过8次，而且要均匀分布在软文中。 Ø 网站更新频率：关系到搜索引擎爬虫在网站爬取频率，一定意义上说网站的更新频率是与爬取频率成正比的，而搜索引擎爬取喜欢有规律的更新。 5. 网站链接网站链接分为：内部链接和外部链接； Ø 内部链接结构主要有2方面作用：网页间权重传递和“入口”，内链结构是否合理直接关系到页面能否被搜索引擎爬虫抓取和收录。 Ø 外部链接是为网站提供权重和入口的重要组成部分，外链分为单向链接（单方向导出或指入网站的链接）和交互链接（相互指向的彼此网站的链接，多称为“友情链接”），而百度目前对外链的关注不止表现在数量上，更重要的是外链的质量，否则大量的低质量外链堆砌只会给网站带来毁灭性的灾害。 6. 网站地图网站地图分为：HTML网站地图和XML网站地图； Ø 两者的目的都是为了帮助搜索引擎了解网站结构，从而顺利爬取和收录网站页面，所以合理的网站地图也对网页能否被收录起到决定性作用。 7. 代码代码主要包含两部分内容：代码类别、代码大小； Ø 代码类别：网站代码类别、结构很大限度上也决定某些部分是否能够被搜索引擎所抓取，如：iframe、Java Script等部分代码，目前还不能被“百度”搜索引擎有效的理解、抓取，所以需要尽量减少这部分代码的使用； Ø 代码大小：除代码类别外，页面代码量大小也是关系到网页是否能够爬取完全的因素，过大的代码量也会导致搜索引擎抓取不完全的情况出现，从而导致部分入口未被爬取到，致使这部分入口对应的页面不能爬取、收录。

1. 服务器

服务器的稳定性不但关系到用户体验度问题，还对搜索引擎的爬取造成很大的影响，长期不稳定的服务器会增加造成搜索引擎爬取压力，出现不能有效爬取页面，降低搜索引擎友好度等情况，从而出现收录下降、排名下降的情况。

2. 搜索引擎爬取

很多时候页面没有被搜索引擎收录的原因是：页面根本没有被爬取。导致这种情况出现的原因主要有3点：robots文件设定、页面层级过深、页面入口不足。

Ø Robots文件：全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，所以对Robots文件的设定是需要遵循正确书写格式、合理的爬取需求的标准。

Ø 页面层级过深除了指网站物理层级结构外也包含逻辑层级结构，而网站URL结构就属于逻辑层级结构范畴之中，以URL结构为例：方便记忆、层级简短、长度适中的静态URL是被搜索引擎所喜爱的。

Ø 页面入口不足是导致页面不被抓取得常见原因，对于重点页面的入口应当安排多入口、易爬取位置的入口。

3. 网站结构

网站结构分为两部分：物理结构、逻辑结构；

Ø 而满足搜索引擎收录的最基本点也是从这两点开始，首先就是保障物理结构简单、不宜过深、方便查找，物理结构的影响主要表现在“请求返回时间”上，导致物理结构复杂的因素主要是系统漏洞原因生成的不必要层级；

Ø 其次逻辑结构要清晰合理，容易被搜索引擎所理解并且方便用户记忆、传播、分享；逻辑结构主要表现在页面目录结构及URL结构，如果目录结构过于复杂（例如：用户点击一百次才能到目标页面和用户点击3次到达目标页面的区别）会影响到用户体验度和搜索引擎友好度，URL结构（以“/”为划分标志，不宜超过4层结构）复杂会不利于搜索引擎收录和用户记忆、传播。

4. 页面内容

目前搜索引擎对于网站内容的判断直接关系到页面是否能够被收录、收录后能否有一个良好排名的重要标准，对于页面内容的判断依据主要有4方面：1.内容原创度2.内容新鲜度 3.关键词分布4.更新频率；

Ø 内容原创度：搜索引擎对重复内容是比较“反感”的，所以，原创度较高的内容也一定意义上被搜索引擎所喜欢，从而易被收录；

Ø 内容新鲜度：“新鲜度”主要指内容的热门程度和时间性，对于近期发生的“大事件”“热门事件”等都是容易被用户搜索引擎双重关注的；

Ø 关键词分布：除了以上两点外，关键词的分布也对搜索引擎是否收录启到决定性的因素，因为搜索引擎分辨页面内容的重要因素之一就是关键词，但是需要注意的是：过分的关键词堆砌行为会被搜索引擎视为“作弊”行为，所以关键词的分布不能只追求数量，一般来说800字以内的软文，关键词出现最多不要超过8次，而且要均匀分布在软文中。

Ø 网站更新频率：关系到搜索引擎爬虫在网站爬取频率，一定意义上说网站的更新频率是与爬取频率成正比的，而搜索引擎爬取喜欢有规律的更新。

5. 网站链接

网站链接分为：内部链接和外部链接；

Ø 内部链接结构主要有2方面作用：网页间权重传递和“入口”，内链结构是否合理直接关系到页面能否被搜索引擎爬虫抓取和收录。

Ø 外部链接是为网站提供权重和入口的重要组成部分，外链分为单向链接（单方向导出或指入网站的链接）和交互链接（相互指向的彼此网站的链接，多称为“友情链接”），而百度目前对外链的关注不止表现在数量上，更重要的是外链的质量，否则大量的低质量外链堆砌只会给网站带来毁灭性的灾害。

6. 网站地图

网站地图分为：HTML网站地图和XML网站地图；

Ø 两者的目的都是为了帮助搜索引擎了解网站结构，从而顺利爬取和收录网站页面，所以合理的网站地图也对网页能否被收录起到决定性作用。

7. 代码

代码主要包含两部分内容：代码类别、代码大小；

Ø 代码类别：网站代码类别、结构很大限度上也决定某些部分是否能够被搜索引擎所抓取，如：iframe、Java Script等部分代码，目前还不能被“百度”搜索引擎有效的理解、抓取，所以需要尽量减少这部分代码的使用；

Ø 代码大小：除代码类别外，页面代码量大小也是关系到网页是否能够爬取完全的因素，过大的代码量也会导致搜索引擎抓取不完全的情况出现，从而导致部分入口未被爬取到，致使这部分入口对应的页面不能爬取、收录。

GEO营销

内容营销

效果营销

数字广告

创意设计

社交营销

海外营销

智能营销

品牌公关

中国营销排行榜大会

专业知识分享

百度收录须知