提高百度收录量:索引页链接补全机制的一种方法

百度搜索研发部官方博客上面的一篇文章,对于解决百度收录问题,提高索引量很有帮助,转载过来!

索引页链接补全机制的一种方法

一、背景

Spider位于搜索引擎数据流的最上游,负责将互联网上的资源采集到本地,提供给后续检索使用,是搜索引擎的最主要数据来源之一。spider系 统的目标就是发现并抓取互联网中一切有价值的网页,为达到这个目标,首先就是发现有价值网页的链接,当前spider有多种链接发现机制来尽量快而全的发 现资源链接,本文主要描述其中一种针对特定索引页的链接补全机制,并给出对这种特定类型的索引页面的建议处理规范用于优化收录效果。

当前大多数互联网网站以索引页和翻页的形式来组织网站资源,当有新资源增加时,老资源往后推移到翻页系列中。

如下图所示:

继续阅读

百度蜘蛛Baiduspider User-Agent字段即将更新

来自百度站长俱乐部的消息:百度网页搜索spider(也就是大家俗称的百度爬虫、百度蜘蛛)的User-Agent字段内容将与2011年5月10日更新。经常查看网站日志的朋友应该知道,目前baiduspider在爬取网页时,发送请求的User-Agent字段是这样的:

Baiduspider+(+http://www.baidu.com/search/spider.htm)

更新后的baiduspider User-Agent字段内容内容为:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Baiduspider User-Agent的更新,对于一般网站是没什么影响的,因为一般的网站都没有屏蔽百度蜘蛛,所以你不需要做任何修改;如果你通过robots.txt文件屏蔽了百度蜘蛛,也不需要做任何修改,因为百度蜘蛛名称依然是Baiduspider没变;如果你此前主动在服务器端封禁了百度网页搜索的User-Agent,那么建议修改服务器端要封禁的User-Agent字段,或者更换为robots封禁。 继续阅读

百度搜索结果小变化,为知名网站添加小图标

百度搜索结果发生小变化,知名于权威站点搜索结果的标题前面多了一个ico图标,据悉,百度此举的目的是为了帮助用户从搜索结果中识别官方网站。例如,百度搜索“麦包包”“京东商城”“优酷”“招商银行”,你会看到:

百度搜索麦包包

百度搜索京东商城

百度搜索优酷

百度搜索 招商银行

据腾讯微博的“百度说(@baidusays)”透露:目前出现ico图标的网站是百度内部自动挖掘的,涉及的范围还很小,后面挖掘的范围会慢慢扩大,评定标准,由百度内部判定,非收费项目,只是改善用户搜索体验的一个举措,暂时还没有申请通道。