来自百度站长俱乐部的消息:百度网页搜索spider(也就是大家俗称的百度爬虫、百度蜘蛛)的User-Agent字段内容将与2011年5月10日更新。经常查看网站日志的朋友应该知道,目前baiduspider在爬取网页时,发送请求的User-Agent字段是这样的:
Baiduspider+(+http://www.baidu.com/search/spider.htm)
更新后的baiduspider User-Agent字段内容内容为:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Baiduspider User-Agent的更新,对于一般网站是没什么影响的,因为一般的网站都没有屏蔽百度蜘蛛,所以你不需要做任何修改;如果你通过robots.txt文件屏蔽了百度蜘蛛,也不需要做任何修改,因为百度蜘蛛名称依然是Baiduspider没变;如果你此前主动在服务器端封禁了百度网页搜索的User-Agent,那么建议修改服务器端要封禁的User-Agent字段,或者更换为robots封禁。
不知道Baiduspider User-Agent的更新,会不会让百度爬虫更加高效、百度的排名机制更加完善。做SEO的人都知道,百度搜索的技术与Google不可同日而语,百度蜘蛛的低效、排名机制的不完善,让各位站长和SEOer伤透了脑筋!但是如果做中文站的话,百度的排名是必须要考虑的问题,因为百度在中文搜索领域已经几乎处于垄断地位了!
随后,百度说(@baidusays)腾讯微博又透露了对网站评级的大致标准,看到这个,估计很多卖链接的人要高兴了,链接买卖估计会更火;新站要想获得好的排名和地位,会更难,但是有“捷径”……
互联网海量Web数据的产生,给搜索引擎技术带来了严峻的挑战,但同时也带来了新的机遇。从网页抓取的角度来看,同一站点往往包含质量相似的资源,对一个优质网站进行爬取,往往可以找到更多的优质资源。因此,我们希望对网站的质量进行评级,来反映资源的质量水平,从而影响spider的调度和收录。
在以往的实践中,网站评级大体思路是根据人工调研出的经验构造出规则和阈值。发现问题后逐个打补丁、调阈值,来适应变化。这种方式最大的问题在于扩展性不强、维护代价高,而且不利于国际化多语言的支持。因此,百度希望采用更智能的方法,在站点数据中自动发现规律,来完成质量的评级。
百度站点质量智能评级框架:在任务层面上,首先,百度先将站点划分为优质站点和劣质站点。其次,分别在优质站点和劣质站点内部再细分成若干等级。在策略层面上,百度采用了一系列机器学习方法,对人工标注的样本进行学习,建立模型,并将学习到的知识应用到未知站点数据中,来完成质量评级的任务。
区分优质站点和劣质站点就是要挖掘一批质量优异的站点,将其作为系统的基本集合,减少反垃圾反作弊的代价,提高系统检索结果的稳定性和权威性,减少用户的不良反应;同时使整个互联网生态趋于正常,鼓励为互联网创造有价值的资源。
百度的目标是使优质的资源在整个系统中占绝对优势,而劣质的资源排斥在外,仅作为系统策略不完善时的必要补充。
百度分别在优质站点和劣质站点内部再细分成若干等级。用这些级别区分出站点质量的差距,从而会影响spider的调度和收录控制,同时也会影响低质网页的筛选。
不知道这一改变会对百度收录有什么影响
那就要看百度自身的技术了!
seo优化技术也得跟着更新了吧
应该对网站的排名有点影响吧
肯定会有所影响