「其他分享」百度搜索蜘蛛全面解析说明

智能摘要 AI

本文主要介绍了百度蜘蛛（Baiduspider）的相关知识及其与站长互动的注意事项。Baiduspider是百度搜索引擎用于抓取网页并建立索引的程序，帮助用户搜索相关内容。站长可以通过UA信息和双向DNS解析认证两种方式识别百度蜘蛛。若发现百度蜘蛛频繁抓取导致服务器压力过大，站长应检查是否因新资源更新或恶意冒充所致，并可通过百度资源平台调整抓取频率。如需限制某些资源被百度蜘蛛访问，站长可在robots.txt文件中设置相应规则。此外，若网站被百度蜘蛛封禁，站长应自查robots.txt文件、UA封杀及IP封禁，及时解除封禁以恢复正常抓取。

百度搜索官方有详细的蜘蛛解析解说，但是很多站长朋友都不知道，也找不到在哪，下面总结全文分析给大家。

Baiduspider是什么？

Baiduspider又称百度蜘蛛，是一款百度搜索引擎自动生成的程序，其功能是访问网页，建立索引数据库，使用户可以通过百度搜索引擎查找相关内容。

如何识别当前抓取的蜘蛛为百度 蜘蛛？

开发者可以从以下两个方面来判断百度的蜘蛛。

方法一：查看 UA信息

若 UA信息不正确，可直接判定为非百度蜘蛛搜索。UA目前分为三大应用场景：移动应用场景、 PC场景和小程序场景。

移动UA：Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)或者Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html) 

PCUA：Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)或者Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

小程序UA：Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

方式二：双向 DNS解析认证

第1步： IP反查 DNS

开发者通过在日志中访问服务器的 IP地址进行反向 DNS查找，判断是否某个 spider来自于百度搜索引擎，而baidu.com或*.baidu.jp格式命名为*.baidu.jp。

在 Linux/Windows/OS平台下，不同平台的验证方法是不同的：

根据 Linux平台，可以使用主机 IP命令反解 IP来判断是否来自 Baiduspider。
Windows平台下，通过使用 nslookup ip命令反解 IP，判断是否来自 Baiduspider。
使用 dig命令反解 ip可以在 Mac OS平台上判断是否来自 Baiduspider。

第2步：正向 DNS查找域名

在步骤1中，通过命令检索的域名执行正向 DNS查询，确认该域名与您日志中访问服务器的 IP地址是否一致，如果 IP地址一致，则确认 spider来自于百度搜索引擎，而 IP地址不一致则为假冒。

百度 蜘蛛会不会一直抓我网站？

一般情况下，若网站持续生产新资源，更新内容等，蜘蛛会持续抓取。需要提醒的是，如果网站需要百度蜘蛛抓取一定不要做任何封杀哦。（以下内容封杀相关信息）

另外，您还可以查看网站访问日志，及时判断正确的百度蜘蛛，防止有人恶意冒充百度蜘蛛，频繁访问您的网站。

百度 蜘蛛经常光顾网站，造成网站服务器压力过大，怎么办？

若发现频繁的百度蜘蛛，可能有以下两种原因。

新的生产资源存在于网站中，更新的内容需要更新；
恶意冒充百度蜘蛛可能存在，可通过上述Q2 “如何识别正常的百度蜘蛛”进行排查；

若百度蜘蛛频繁抓取，造成网站服务异常，可使用百度资源平台-「抓取频次」工具调整频率。

部分网站资源不想被百度 蜘蛛访问怎么办？

百度蜘蛛遵守 Internet robots协议。站长可以更新 robots. txt文件，文件中明确表示不希望百度蜘蛛访问资源、目录等资源，并及时通过“Robots”工具提交 robots文件。

需要注意的是，在更新和提交 robots文件之后，搜索引擎需要逐步完成更新，所以百度蜘蛛并没有立即停止抓取网页，请耐心等待。

网站对百度 蜘蛛的封杀有什么影响？

网站资源很好，没有任何违规行为，但是有以下情况，可以先查一查百度蜘蛛有没有被封印，及时解除封禁（参考QA7)，等待恢复。

未发现任何百度蜘蛛的抓取记录。
未在百度搜索中收录、显示。
网站/目录的流量异常下降。
以“存在 robots封禁”的形式显示搜索结果的摘要。

如何解除对百度 蜘蛛的封禁？

常见的封杀行为包括 robots封杀、百度封杀 UA、封禁百度 IP等。

自检 robots封杀

查看文件的 robots. txt文件，有没有封禁记录。（一般情况下， robots. txt文件会放在网站的根目录中。）

自查是否对百度 UA进行封杀

如果 robots文件没有异常，则进一步排查是否有百度 UA被封。

第一个方法：执行“当前”-“用户-代理”/5.0 (compatible；Baiduspider/2.0;+’- request GET’xxxxxxx’

注意：正常返回代码为200，其它情况为异常。

第二个方法：更改浏览器用户验证。

检查IP封禁是否存在

所有验证都没有异常，最后一步，就是检查 IP级别的封锁。

常见 IP封锁，源于网站防火墙系统配置，需要查看防火墙系统后台配置，检查百度蜘蛛是否有 IP级别的封禁措施。

「其他分享」百度搜索蜘蛛全面解析说明

Baiduspider是什么？

如何识别当前抓取的蜘蛛为百度 蜘蛛？

方法一：查看 UA信息

方式二：双向 DNS解析认证

第1步： IP反查 DNS

第2步：正向 DNS查找域名

百度 蜘蛛会不会一直抓我网站？

百度 蜘蛛经常光顾网站，造成网站服务器压力过大，怎么办？

部分网站资源不想被百度 蜘蛛访问怎么办？

网站对百度 蜘蛛的封杀有什么影响？

如何解除对百度 蜘蛛的封禁？

自检 robots封杀

自查是否对百度 UA进行封杀

检查IP封禁是否存在

评论 (0)

Eswlnk

随便看看

文章目录

专题展示

WordPress⁵³

工程实践³⁷

「其他分享」百度搜索蜘蛛全面解析说明

Baiduspider是什么？

如何识别当前抓取的蜘蛛为百度蜘蛛？

方法一：查看 UA信息

方式二：双向 DNS解析认证

第1步： IP反查 DNS

第2步：正向 DNS查找域名

百度蜘蛛会不会一直抓我网站？

百度蜘蛛经常光顾网站，造成网站服务器压力过大，怎么办？

部分网站资源不想被百度蜘蛛访问怎么办？

网站对百度蜘蛛的封杀有什么影响？

如何解除对百度蜘蛛的封禁？

自检 robots封杀

自查是否对百度 UA进行封杀

检查IP封禁是否存在

评论 (0)

猜你喜欢

Eswlnk

随便看看

文章目录

专题展示

WordPress53

工程实践37

热门标签

WordPress⁵³

工程实践³⁷