提高百度收录量:索引页链接补全机制的一种方法

百度搜索研发部官方博客上面的一篇文章,对于解决百度收录问题,提高索引量很有帮助,转载过来!

索引页链接补全机制的一种方法

一、背景

Spider位于搜索引擎数据流的最上游,负责将互联网上的资源采集到本地,提供给后续检索使用,是搜索引擎的最主要数据来源之一。spider系 统的目标就是发现并抓取互联网中一切有价值的网页,为达到这个目标,首先就是发现有价值网页的链接,当前spider有多种链接发现机制来尽量快而全的发 现资源链接,本文主要描述其中一种针对特定索引页的链接补全机制,并给出对这种特定类型的索引页面的建议处理规范用于优化收录效果。

当前大多数互联网网站以索引页和翻页的形式来组织网站资源,当有新资源增加时,老资源往后推移到翻页系列中。

如下图所示:

继续阅读