1. 服务器
服务器的稳定性不但关系到用户体验度问题,还对搜索引擎的爬取造成很大的影响,长期不稳定的服务器会增加造成搜索引擎爬取压力,出现不能有效爬取页面,降低搜索引擎友好度等情况,从而出现收录下降、排名下降的情况。
2. 搜索引擎爬取
很多时候页面没有被搜索引擎收录的原因是:页面根本没有被爬取。导致这种情况出现的原因主要有3点:robots文件设定、页面层级过深、页面入口不足。
Ø Robots文件:全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,所以对Robots文件的设定是需要遵循正确书写格式、合理的爬取需求的标准。
Ø 页面层级过深除了指网站物理层级结构外也包含逻辑层级结构,而网站URL结构就属于逻辑层级结构范畴之中,以URL结构为例:方便记忆、层级简短、长度适中的静态URL是被搜索引擎所喜爱的。
Ø 页面入口不足是导致页面不被抓取得常见原因,对于重点页面的入口应当安排多入口、易爬取位置的入口。
3. 网站结构
网站结构分为两部分:物理结构、逻辑结构;
Ø 而满足搜索引擎收录的最基本点也是从这两点开始,首先就是保障物理结构简单、不宜过深、方便查找,物理结构的影响主要表现在“请求返回时间”上,导致物理结构复杂的因素主要是系统漏洞原因生成的不必要层级;
Ø 其次逻辑结构要清晰合理,容易被搜索引擎所理解并且方便用户记忆、传播、分享;逻辑结构主要表现在页面目录结构及URL结构,如果目录结构过于复杂(例如:用户点击一百次才能到目标页面和用户点击3次到达目标页面的区别)会影响到用户体验度和搜索引擎友好度,URL结构(以“/”为划分标志,不宜超过4层结构)复杂会不利于搜索引擎收录和用户记忆、传播。
4. 页面内容
目前搜索引擎对于网站内容的判断直接关系到页面是否能够被收录、收录后能否有一个良好排名的重要标准,对于页面内容的判断依据主要有4方面:1.内容原创度2.内容新鲜度 3.关键词分布4.更新频率;
Ø 内容原创度:搜索引擎对重复内容是比较“反感”的,所以,原创度较高的内容也一定意义上被搜索引擎所喜欢,从而易被收录;
Ø 内容新鲜度:“新鲜度”主要指内容的热门程度和时间性,对于近期发生的“大事件”“热门事件”等都是容易被用户搜索引擎双重关注的;
Ø 关键词分布:除了以上两点外,关键词的分布也对搜索引擎是否收录启到决定性的因素,因为搜索引擎分辨页面内容的重要因素之一就是关键词,但是需要注意的是:过分的关键词堆砌行为会被搜索引擎视为“作弊”行为,所以关键词的分布不能只追求数量,一般来说800字以内的软文,关键词出现最多不要超过8次,而且要均匀分布在软文中。
Ø 网站更新频率:关系到搜索引擎爬虫在网站爬取频率,一定意义上说网站的更新频率是与爬取频率成正比的,而搜索引擎爬取喜欢有规律的更新。
5. 网站链接
网站链接分为:内部链接和外部链接;
Ø 内部链接结构主要有2方面作用:网页间权重传递和“入口”,内链结构是否合理直接关系到页面能否被搜索引擎爬虫抓取和收录。
Ø 外部链接是为网站提供权重和入口的重要组成部分,外链分为单向链接(单方向导出或指入网站的链接)和交互链接(相互指向的彼此网站的链接,多称为“友情链接”),而百度目前对外链的关注不止表现在数量上,更重要的是外链的质量,否则大量的低质量外链堆砌只会给网站带来毁灭性的灾害。
6. 网站地图
网站地图分为:HTML网站地图和XML网站地图;
Ø 两者的目的都是为了帮助搜索引擎了解网站结构,从而顺利爬取和收录网站页面,所以合理的网站地图也对网页能否被收录起到决定性作用。
7. 代码
代码主要包含两部分内容:代码类别、代码大小;
Ø 代码类别:网站代码类别、结构很大限度上也决定某些部分是否能够被搜索引擎所抓取,如:iframe、Java Script等部分代码,目前还不能被“百度”搜索引擎有效的理解、抓取,所以需要尽量减少这部分代码的使用;
Ø 代码大小:除代码类别外,页面代码量大小也是关系到网页是否能够爬取完全的因素,过大的代码量也会导致搜索引擎抓取不完全的情况出现,从而导致部分入口未被爬取到,致使这部分入口对应的页面不能爬取、收录。