百度搜索官方有详细的蜘蛛解析解说,但是很多站长朋友都不知道,也找不到在哪,下面总结全文分析给大家。

Baiduspider是什么?

Baiduspider又称百度蜘蛛,是一款百度搜索引擎自动生成的程序,其功能是访问网页,建立索引数据库,使用户可以通过百度搜索引擎查找相关内容。

「其他分享」百度搜索蜘蛛全面解析说明插图
百度搜索蜘蛛全面解析说明

如何识别当前抓取的蜘蛛百度蜘蛛

开发者可以从以下两个方面来判断百度蜘蛛

方法一:查看 UA信息

若 UA信息不正确,可直接判定为非百度蜘蛛搜索。UA目前分为三大应用场景:移动应用场景、 PC场景和小程序场景。

移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)或者Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html) 

PCUA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)或者Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

小程序UA:Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

方式二:双向 DNS解析认证

第1步: IP反查 DNS

开发者通过在日志中访问服务器的 IP地址进行反向 DNS查找,判断是否某个 spider来自于百度搜索引擎,而baidu.com或*.baidu.jp格式命名为*.baidu.jp。

在 Linux/Windows/OS平台下,不同平台的验证方法是不同的:

  1. 根据 Linux平台,可以使用主机 IP命令反解 IP来判断是否来自 Baiduspider。
  2. Windows平台下,通过使用 nslookup ip命令反解 IP,判断是否来自 Baiduspider。
  3. 使用 dig命令反解 ip可以在 Mac OS平台上判断是否来自 Baiduspider。

第2步:正向 DNS查找域名

在步骤1中,通过命令检索的域名执行正向 DNS查询,确认该域名与您日志中访问服务器的 IP地址是否一致,如果 IP地址一致,则确认 spider来自于百度搜索引擎,而 IP地址不一致则为假冒。

百度蜘蛛会不会一直抓我网站?

一般情况下,若网站持续生产新资源,更新内容等,蜘蛛会持续抓取。需要提醒的是,如果网站需要百度蜘蛛抓取一定不要做任何封杀哦。(以下内容封杀相关信息)

另外,您还可以查看网站访问日志,及时判断正确的百度蜘蛛,防止有人恶意冒充百度蜘蛛,频繁访问您的网站。

百度蜘蛛经常光顾网站,造成网站服务器压力过大,怎么办?

若发现频繁的百度蜘蛛,可能有以下两种原因。

  1. 新的生产资源存在于网站中,更新的内容需要更新;
  2. 恶意冒充百度蜘蛛可能存在,可通过上述Q2 “如何识别正常的百度蜘蛛”进行排查;

百度蜘蛛频繁抓取,造成网站服务异常,可使用百度资源平台-「抓取频次」工具调整频率。

部分网站资源不想被百度蜘蛛访问怎么办?

百度蜘蛛遵守 Internet robots协议。站长可以更新 robots. txt文件,文件中明确表示不希望百度蜘蛛访问资源、目录等资源,并及时通过“Robots”工具提交 robots文件。

需要注意的是,在更新和提交 robots文件之后,搜索引擎需要逐步完成更新,所以百度蜘蛛并没有立即停止抓取网页,请耐心等待。

网站对百度蜘蛛的封杀有什么影响?

网站资源很好,没有任何违规行为,但是有以下情况,可以先查一查百度蜘蛛有没有被封印,及时解除封禁(参考QA7),等待恢复。

  1. 未发现任何百度蜘蛛的抓取记录。
  2. 未在百度搜索中收录、显示。
  3. 网站/目录的流量异常下降。
  4. 以“存在 robots封禁”的形式显示搜索结果的摘要。

如何解除对百度蜘蛛的封禁?

常见的封杀行为包括 robots封杀、百度封杀 UA、封禁百度 IP等。

自检 robots封杀

查看文件的 robots. txt文件,有没有封禁记录。(一般情况下, robots. txt文件会放在网站的根目录中。)

自查是否对百度 UA进行封杀

如果 robots文件没有异常,则进一步排查是否有百度 UA被封。

第一个方法:执行“当前”-“用户-代理”/5.0 (compatible;Baiduspider/2.0;+’- request GET’xxxxxxx’

注意:正常返回代码为200,其它情况为异常。

第二个方法:更改浏览器用户验证。

检查IP封禁是否存在

所有验证都没有异常,最后一步,就是检查 IP级别的封锁。

常见 IP封锁,源于网站防火墙系统配置,需要查看防火墙系统后台配置,检查百度蜘蛛是否有 IP级别的封禁措施。