搜索引擎的分类
1. 全文搜索引擎(Google、百度)
基于对原数据的捕捉、分析、储存、索引等技术
2. 目录索引(LookSmart、About)例如:搜索某某某
人类->男人or女人->中国->某某某
3. 元搜索引擎(同时在其多个引擎上进行搜索)
基于全文搜索引擎技术,将用户提交的检索请求发送到多个独立搜索引擎上去搜索。
抓取网页的策略
- 广度优先
- 深度优先
- 根据IP范围(探讨)
- 综合后的启发搜索。结合启发搜索,根据每个阶段搜索到的结果去做进一步的分析。就是根据初试条件和扩展规则构造一颗解答树并寻找符合目标状态的节点的过程。
关注网站与蜘蛛的交流
- 爬行DOM文档流
- 同步记录许多版式信息:权重标签,颜色值等
- 访问一些具有限制的页面:蜘蛛能否访问这些页面
- 网站建立访问日志记录:通过识别蜘蛛名字Googlebot、BaiduSpider
- 建立robots.txt文件,告诉蜘蛛你希望他做点什么。
- 建立网站地图SiteMap,给蜘蛛看也给人类看,tow SiteMao。
- 链接管理:Nofollow标签、对外部链接的重定向(分不分权重,但还是要给流量的)
建立索引(倒排序法)
分词的改进
忽略没用的词
建立相应语言的词库
关注语义