168IT网 > SEO及网站运营 > 百度蜘蛛Baiduspider User-Agent字段即将更新
2011四月7

百度蜘蛛Baiduspider User-Agent字段即将更新

来自百度站长俱乐部的消息:百度网页搜索spider(也就是大家俗称的百度爬虫、百度蜘蛛)的User-Agent字段内容将与2011年5月10日更新。经常查看网站日志的朋友应该知道,目前baiduspider在爬取网页时,发送请求的User-Agent字段是这样的:

Baiduspider+(+http://www.baidu.com/search/spider.htm)

更新后的baiduspider User-Agent字段内容内容为:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Baiduspider User-Agent的更新,对于一般网站是没什么影响的,因为一般的网站都没有屏蔽百度蜘蛛,所以你不需要做任何修改;如果你通过robots.txt文件屏蔽了百度蜘蛛,也不需要做任何修改,因为百度蜘蛛名称依然是Baiduspider没变;如果你此前主动在服务器端封禁了百度网页搜索的User-Agent,那么建议修改服务器端要封禁的User-Agent字段,或者更换为robots封禁。

不知道Baiduspider User-Agent的更新,会不会让百度爬虫更加高效、百度的排名机制更加完善。做SEO的人都知道,百度搜索的技术与Google不可同日而语,百度蜘蛛的低效、排名机制的不完善,让各位站长和SEOer伤透了脑筋!但是如果做中文站的话,百度的排名是必须要考虑的问题,因为百度在中文搜索领域已经几乎处于垄断地位了!

随后,百度说(@baidusays)腾讯微博又透露了对网站评级的大致标准,看到这个,估计很多卖链接的人要高兴了,链接买卖估计会更火;新站要想获得好的排名和地位,会更难,但是有“捷径”……

互联网海量Web数据的产生,给搜索引擎技术带来了严峻的挑战,但同时也带来了新的机遇。从网页抓取的角度来看,同一站点往往包含质量相似的资源,对一个优质网站进行爬取,往往可以找到更多的优质资源。因此,我们希望对网站的质量进行评级,来反映资源的质量水平,从而影响spider的调度和收录。

在以往的实践中,网站评级大体思路是根据人工调研出的经验构造出规则和阈值。发现问题后逐个打补丁、调阈值,来适应变化。这种方式最大的问题在于扩展性不强、维护代价高,而且不利于国际化多语言的支持。因此,百度希望采用更智能的方法,在站点数据中自动发现规律,来完成质量的评级。

百度站点质量智能评级框架:在任务层面上,首先,百度先将站点划分为优质站点和劣质站点。其次,分别在优质站点和劣质站点内部再细分成若干等级。在策略层面上,百度采用了一系列机器学习方法,对人工标注的样本进行学习,建立模型,并将学习到的知识应用到未知站点数据中,来完成质量评级的任务。

区分优质站点和劣质站点就是要挖掘一批质量优异的站点,将其作为系统的基本集合,减少反垃圾反作弊的代价,提高系统检索结果的稳定性和权威性,减少用户的不良反应;同时使整个互联网生态趋于正常,鼓励为互联网创造有价值的资源。

百度的目标是使优质的资源在整个系统中占绝对优势,而劣质的资源排斥在外,仅作为系统策略不完善时的必要补充。

百度分别在优质站点和劣质站点内部再细分成若干等级。用这些级别区分出站点质量的差距,从而会影响spider的调度和收录控制,同时也会影响低质网页的筛选。

文章来源:168IT网
本文地址:http://www.168itw.com/seo/baiduspider-user-agent/
版权所有 © 转载时必须以链接形式注明作者和原始出处!

5 Responses to “百度蜘蛛Baiduspider User-Agent字段即将更新”

  1. #1 Linux空间 回复 | 引用 Post:2011-04-26 20:53

    不知道这一改变会对百度收录有什么影响

    • #2 168IT网 回复 | 引用 Post:2011-04-26 20:57

      那就要看百度自身的技术了!

  2. #3 430不锈钢管 回复 | 引用 Post:2011-05-10 13:39

    seo优化技术也得跟着更新了吧

  3. 应该对网站的排名有点影响吧

  4. #5 杭州德语培训 回复 | 引用 Post:2011-10-19 17:54

    肯定会有所影响

发表评论