![关于蜘蛛爬虫名为webprosbot的简单分析插图 关于蜘蛛爬虫名为webprosbot的简单分析插图](https://blog.eswlnk.com/wp-content/uploads/wpcy/4b06a236cb2c4b97484d907cdbe640a6.jpg)
近日,在我对站点的访问日志中发现了名为webprosbot
的UA代理。为了验证该爬虫的真实性,我首先在百度上检索了相关内容,结果查无所获。抱着好奇心,我对该爬虫的行为进行了分析。请各位看官,接着往下看.
各大引擎搜索
首先,我在百度上搜素了关于webprosbot
的UA信息,结果一无所获,没有一点有用的信息,为了求证,我在其他搜索引擎上搜索了该爬虫,包括bing、谷歌等。终于让我找到了这个爬虫的相关信息。
UA | webprosbot/2.0 (abuse-6337@webpros.com) |
第一次见到 | 2021-09-14 19:26:47 |
最后一次露面 | 2022-03-21 22:51:08 |
IP 地址 | 3.250.237.106(…) |
DNS | ec2-3-250-237-106.eu-west-1.compute.amazonaws.com |
该蜘蛛来源于亚马逊云科技
,并且会对站内资源进行爬取,例如爬取本站以下内容:
![关于蜘蛛爬虫名为webprosbot的简单分析插图2 关于蜘蛛爬虫名为webprosbot的简单分析插图2](https://static.esw.eswlnk.com/2022/03/2022032809375147-1024x157.png)
通过对该IP地址进行NSlookup反查,我确认了该IP和此爬虫来自亚马逊云,至于为何要爬取,大多数都是为了方便竞争网站的分析。
![关于蜘蛛爬虫名为webprosbot的简单分析插图3 关于蜘蛛爬虫名为webprosbot的简单分析插图3](https://static.esw.eswlnk.com/2022/03/2022032809420650-1024x328.png)
溯源分析
为了找寻是谁编写了这个爬虫,我尝试在各大引擎上搜索了关于webpros的信息,而这一部分是百度搜索引擎所缺失的部分,至少在百度看来没有人对该爬虫信息分析和查证过。
功夫不负有心人,我找到了该爬虫的官网,Global SaaS platform for server management,以下内容来自官网的介绍:
适合所有人的数字化存在
WebPros 提供最具创新性的技术来实现数字世界。我们汇集产品和解决方案,使企业能够在线构建、运营和发展。我们的产品有助于管理服务器、网站、计费和在线营销。
![关于蜘蛛爬虫名为webprosbot的简单分析插图4 关于蜘蛛爬虫名为webprosbot的简单分析插图4](https://static.esw.eswlnk.com/2022/03/2022032809452728-1024x504.png)
从这里我们就可以实锤了,亚马逊云通过搭建WebPros爬虫系统分析竞争对手,来实现对网站的SEO监控。通过由闪电博的爬虫数据库查询得出,国内的WebPros的DNS大多数来源于亚马逊云,官网也没有给出明确答复。
动机分析
我们可以猜测,这是亚马逊云正在准备想在搜索引擎这块儿分一杯羹。毕竟一个做云托管服务的,不可能无缘无故就来爬取各大网站的网页,而且它爬取的网站与它的竞争对手大多数也是毫不相关。我们也就有理由相信它有向搜索引擎这块靠拢,毕竟是做云服务的,做做搜索引擎也是十分正常的。
可通过通过Robots协议屏蔽