百度蜘蛛Baiduspider User-Agent字段即将更新

来自百度站长俱乐部的消息：百度网页搜索spider（也就是大家俗称的百度爬虫、百度蜘蛛）的User-Agent字段内容将与2011年5月10日更新。经常查看网站日志的朋友应该知道，目前baiduspider在爬取网页时，发送请求的User-Agent字段是这样的：

Baiduspider+(+http://www.baidu.com/search/spider.htm)

更新后的baiduspider User-Agent字段内容内容为：

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Baiduspider User-Agent的更新，对于一般网站是没什么影响的，因为一般的网站都没有屏蔽百度蜘蛛，所以你不需要做任何修改；如果你通过robots.txt文件屏蔽了百度蜘蛛，也不需要做任何修改，因为百度蜘蛛名称依然是Baiduspider没变；如果你此前主动在服务器端封禁了百度网页搜索的User-Agent，那么建议修改服务器端要封禁的User-Agent字段，或者更换为robots封禁。

不知道Baiduspider User-Agent的更新，会不会让百度爬虫更加高效、百度的排名机制更加完善。做SEO的人都知道，百度搜索的技术与Google不可同日而语，百度蜘蛛的低效、排名机制的不完善，让各位站长和SEOer伤透了脑筋！但是如果做中文站的话，百度的排名是必须要考虑的问题，因为百度在中文搜索领域已经几乎处于垄断地位了！

随后，百度说(@baidusays)腾讯微博又透露了对网站评级的大致标准，看到这个，估计很多卖链接的人要高兴了，链接买卖估计会更火；新站要想获得好的排名和地位，会更难，但是有“捷径”……

互联网海量Web数据的产生，给搜索引擎技术带来了严峻的挑战，但同时也带来了新的机遇。从网页抓取的角度来看，同一站点往往包含质量相似的资源，对一个优质网站进行爬取，往往可以找到更多的优质资源。因此，我们希望对网站的质量进行评级，来反映资源的质量水平，从而影响spider的调度和收录。

在以往的实践中，网站评级大体思路是根据人工调研出的经验构造出规则和阈值。发现问题后逐个打补丁、调阈值，来适应变化。这种方式最大的问题在于扩展性不强、维护代价高，而且不利于国际化多语言的支持。因此，百度希望采用更智能的方法，在站点数据中自动发现规律，来完成质量的评级。

百度站点质量智能评级框架：在任务层面上，首先，百度先将站点划分为优质站点和劣质站点。其次，分别在优质站点和劣质站点内部再细分成若干等级。在策略层面上，百度采用了一系列机器学习方法，对人工标注的样本进行学习，建立模型，并将学习到的知识应用到未知站点数据中，来完成质量评级的任务。

区分优质站点和劣质站点就是要挖掘一批质量优异的站点，将其作为系统的基本集合，减少反垃圾反作弊的代价，提高系统检索结果的稳定性和权威性，减少用户的不良反应；同时使整个互联网生态趋于正常，鼓励为互联网创造有价值的资源。

百度的目标是使优质的资源在整个系统中占绝对优势，而劣质的资源排斥在外，仅作为系统策略不完善时的必要补充。

百度分别在优质站点和劣质站点内部再细分成若干等级。用这些级别区分出站点质量的差距，从而会影响spider的调度和收录控制，同时也会影响低质网页的筛选。

5 thoughts to “百度蜘蛛Baiduspider User-Agent字段即将更新”

Linux空间说道：

2011年4月26日 20:53

不知道这一改变会对百度收录有什么影响

回复
1. 168IT网说道：
  
  2011年4月26日 20:57
  
  那就要看百度自身的技术了！
  
  回复
430不锈钢管说道：

2011年5月10日 13:39

seo优化技术也得跟着更新了吧

回复
高丝雪肌精官方网站说道：

2011年5月29日 13:24

应该对网站的排名有点影响吧

回复
杭州德语培训说道：

2011年10月19日 17:54

肯定会有所影响

回复

5 thoughts to “百度蜘蛛Baiduspider User-Agent字段即将更新”

发表回复 取消回复

发表回复取消回复