关于蜘蛛爬虫名为webprosbot的简单分析插图

近日,在我对站点的访问日志中发现了名为webprosbot的UA代理。为了验证该爬虫的真实性,我首先在百度上检索了相关内容,结果查无所获。抱着好奇心,我对该爬虫的行为进行了分析。请各位看官,接着往下看.

关于蜘蛛爬虫名为webprosbot的简单分析插图1

各大引擎搜索

首先,我在百度上搜素了关于webprosbot的UA信息,结果一无所获,没有一点有用的信息,为了求证,我在其他搜索引擎上搜索了该爬虫,包括bing、谷歌等。终于让我找到了这个爬虫的相关信息。

UAwebprosbot/2.​​0 (abuse-6337@webpros.com)
第一次见到2021-09-14 19:26:47
最后一次露面2022-03-21 22:51:08
IP 地址3.250.237.106(…)
DNSec2-3-250-237-106.eu-west-1.compute.amazonaws.com

该蜘蛛来源于亚马逊云科技,并且会对站内资源进行爬取,例如爬取本站以下内容:

关于蜘蛛爬虫名为webprosbot的简单分析插图2

通过对该IP地址进行NSlookup反查,我确认了该IP和此爬虫来自亚马逊云,至于为何要爬取,大多数都是为了方便竞争网站的分析。

关于蜘蛛爬虫名为webprosbot的简单分析插图3

溯源分析

为了找寻是谁编写了这个爬虫,我尝试在各大引擎上搜索了关于webpros的信息,而这一部分是百度搜索引擎所缺失的部分,至少在百度看来没有人对该爬虫信息分析和查证过。

功夫不负有心人,我找到了该爬虫的官网,Global SaaS platform for server management,以下内容来自官网的介绍:

适合所有人的数字化存在

WebPros 提供最具创新性的技术来实现数字世界。我们汇集产品和解决方案,使企业能够在线构建、运营和发展。我们的产品有助于管理服务器、网站、计费和在线营销。

关于蜘蛛爬虫名为webprosbot的简单分析插图4
关于蜘蛛爬虫名为webprosbot的简单分析插图5

从这里我们就可以实锤了,亚马逊云通过搭建WebPros爬虫系统分析竞争对手,来实现对网站的SEO监控。通过由闪电博的爬虫数据库查询得出,国内的WebPros的DNS大多数来源于亚马逊云,官网也没有给出明确答复。

动机分析

我们可以猜测,这是亚马逊云正在准备想在搜索引擎这块儿分一杯羹。毕竟一个做云托管服务的,不可能无缘无故就来爬取各大网站的网页,而且它爬取的网站与它的竞争对手大多数也是毫不相关。我们也就有理由相信它有向搜索引擎这块靠拢,毕竟是做云服务的,做做搜索引擎也是十分正常的。