www.bing.com/bingbot.htm 正规的爬虫
今天看 花猫大叔的网络访问日志, 遇到一www.bing.com/bingbot.htm 这样的 记录
40.77.167.184 – – [24/Jun/2020:19:48:56 +0800] “GET /xmlsitemap.xml HTTP/1.1” 200 7416 “-” “Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”
标明访问者属性的User Agent是可以由软件进行修改的,所以有很多采集者为了防止自己被屏蔽,就把User Agent改为搜索引擎爬虫的特征,例如:
googlebot:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html(link is external))
baiduspider:mozilla/5.0 (compatible; baiduspider/2.0; +http://www.baidu.com/search/spider.html(link is external))
为了验证来访者User Agent是否假冒的搜索引擎爬虫,可以用host反查IP对应的主机名,官方说明:
Google:验证 Googlebot(link is external)
百度:百度spider介绍(link is external)
上次 猫叔说 Go-http-client/1.1 的时候不知道大家有没有印象, 如果没有看过“Go-http-client/1.1 是哪家的爬虫 这次终于知道了” 可以点击去了解一下
自2009 年11 月,Bing(必应) 团队就已开始忙于改进 Bing 的抓取机器人(也称爬虫),并且将在今年 10 月 1 日,新的Bing 机器人 Bingbot 将代替旧的 MSNbot 2.0b。
更新后的UA 将是:
Mozilla/5.0 (compatible; bingbot/2.0 +http://www.bing.com/bingbot.htm)
HTTP 头也将附带如下 FROM 信息:
From: bingbot(at)microsoft.com
另外,robots.txt 中涉及 msnbot 的规则仍将生效,不过 bingbot 和其他旧版微软搜索引擎机器人共存情况下,bingbot 规则优先生效