今天看网络日志,发现一个YandexBot 这样的 的爬虫日志, 百度了一下, 是一家俄罗斯的搜索引擎,
Yandex蜘蛛大约每2-3天访问一次后端URL。我们没有在前端发布任何后端URL。
213.180.203.13 – – [29/Jun/2020:12:01:33 +0800] “GET /robots.txt HTTP/1.1” 200 371 “-” “Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)”
213.180.203.13 – – [29/Jun/2020:12:01:37 +0800] “GET /xmlsitemap.xml HTTP/1.1” 200 7016 “-” “Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)”
向这样的爬虫,做一个国内的博客, 应该屏蔽吗?
首先 应该查询IP地址
以查看它们是否为真实的Yandex IP地址。例如,查看我自己的访问日志,到目前为止,将其自身标识为Yandex的最常见IP地址是100.43.81.141,这证明是合法的。相比之下,104.238.95.146不是。
如果该这个爬虫 是合法的搜索引擎漫游器(仅此而已),他们将不会入侵您。如果没有,阻止用户代理将无济于事,他们只会使用另一个代理。
我想指出的是Yandex,以及其他搜索引擎一般而言,它们可能都不希望访问您的后端。请记住,机器人是通过跟踪链接来爬网的,所以想象一下,如果坏人将您后端的一些URL放在其他网站的页面中,而搜索引擎只是将这些页面编入索引,现在正尝试从那里跟踪这些链接。因此,看起来搜索引擎正在尝试访问您的后端-但它只是在爬网:它不知道它是您的后端。
类似的事情可能会偶然发生。可以说,一个非技术型用户在某个论坛上发布了一个url,该URL仅在您登录后才可以访问-通过爬网搜索引擎将尝试跟踪这些链接,最终您将像我以为那样看到日志。