Eswlnk Blog Eswlnk Blog
  • 资源
    • 精彩视频
    • 破解专区
      • WHMCS
      • WordPress主题
      • WordPress插件
    • 其他分享
    • 极惠VPS
    • PDF资源
  • 关于我
    • 论文阅读
    • 关于本站
    • 通知
    • 左邻右舍
    • 玩物志趣
    • 日志
    • 专题
  • 热议话题
    • 游戏资讯
  • 红黑
    • 渗透分析
    • 攻防对抗
    • 代码发布
  • 自主研发
    • 知识库
    • 插件
      • ToolBox
      • HotSpot AI 热点创作
    • 区块
    • 快乐屋
    • 卡密
  • 乱步
    • 文章榜单
    • 热门标签
  • 问答中心反馈
  • 注册
  • 登录
首页 › 其他分享 › 「其他分享」百度搜索蜘蛛全面解析说明

「其他分享」百度搜索蜘蛛全面解析说明

Eswlnk的头像
Eswlnk
2022-08-19 11:26:04
「其他分享」百度搜索蜘蛛全面解析说明-Eswlnk Blog
智能摘要 AI
本文主要介绍了百度蜘蛛(Baiduspider)的相关知识及其与站长互动的注意事项。Baiduspider是百度搜索引擎用于抓取网页并建立索引的程序,帮助用户搜索相关内容。站长可以通过UA信息和双向DNS解析认证两种方式识别百度蜘蛛。若发现百度蜘蛛频繁抓取导致服务器压力过大,站长应检查是否因新资源更新或恶意冒充所致,并可通过百度资源平台调整抓取频率。如需限制某些资源被百度蜘蛛访问,站长可在robots.txt文件中设置相应规则。此外,若网站被百度蜘蛛封禁,站长应自查robots.txt文件、UA封杀及IP封禁,及时解除封禁以恢复正常抓取。

百度搜索官方有详细的蜘蛛解析解说,但是很多站长朋友都不知道,也找不到在哪,下面总结全文分析给大家。

Baiduspider是什么?

Baiduspider又称百度蜘蛛,是一款百度搜索引擎自动生成的程序,其功能是访问网页,建立索引数据库,使用户可以通过百度搜索引擎查找相关内容。

「其他分享」百度搜索蜘蛛全面解析说明-Eswlnk Blog
百度搜索蜘蛛全面解析说明

如何识别当前抓取的蜘蛛为百度蜘蛛?

开发者可以从以下两个方面来判断百度的蜘蛛。

方法一:查看 UA信息

若 UA信息不正确,可直接判定为非百度蜘蛛搜索。UA目前分为三大应用场景:移动应用场景、 PC场景和小程序场景。

移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)或者Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html) 

PCUA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)或者Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

小程序UA:Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

方式二:双向 DNS解析认证

第1步: IP反查 DNS

开发者通过在日志中访问服务器的 IP地址进行反向 DNS查找,判断是否某个 spider来自于百度搜索引擎,而baidu.com或*.baidu.jp格式命名为*.baidu.jp。

在 Linux/Windows/OS平台下,不同平台的验证方法是不同的:

  1. 根据 Linux平台,可以使用主机 IP命令反解 IP来判断是否来自 Baiduspider。
  2. Windows平台下,通过使用 nslookup ip命令反解 IP,判断是否来自 Baiduspider。
  3. 使用 dig命令反解 ip可以在 Mac OS平台上判断是否来自 Baiduspider。

第2步:正向 DNS查找域名

在步骤1中,通过命令检索的域名执行正向 DNS查询,确认该域名与您日志中访问服务器的 IP地址是否一致,如果 IP地址一致,则确认 spider来自于百度搜索引擎,而 IP地址不一致则为假冒。

百度蜘蛛会不会一直抓我网站?

一般情况下,若网站持续生产新资源,更新内容等,蜘蛛会持续抓取。需要提醒的是,如果网站需要百度蜘蛛抓取一定不要做任何封杀哦。(以下内容封杀相关信息)

另外,您还可以查看网站访问日志,及时判断正确的百度蜘蛛,防止有人恶意冒充百度蜘蛛,频繁访问您的网站。

百度蜘蛛经常光顾网站,造成网站服务器压力过大,怎么办?

若发现频繁的百度蜘蛛,可能有以下两种原因。

  1. 新的生产资源存在于网站中,更新的内容需要更新;
  2. 恶意冒充百度蜘蛛可能存在,可通过上述Q2 “如何识别正常的百度蜘蛛”进行排查;

若百度蜘蛛频繁抓取,造成网站服务异常,可使用百度资源平台-「抓取频次」工具调整频率。

部分网站资源不想被百度蜘蛛访问怎么办?

百度蜘蛛遵守 Internet robots协议。站长可以更新 robots. txt文件,文件中明确表示不希望百度蜘蛛访问资源、目录等资源,并及时通过“Robots”工具提交 robots文件。

需要注意的是,在更新和提交 robots文件之后,搜索引擎需要逐步完成更新,所以百度蜘蛛并没有立即停止抓取网页,请耐心等待。

网站对百度蜘蛛的封杀有什么影响?

网站资源很好,没有任何违规行为,但是有以下情况,可以先查一查百度蜘蛛有没有被封印,及时解除封禁(参考QA7),等待恢复。

  1. 未发现任何百度蜘蛛的抓取记录。
  2. 未在百度搜索中收录、显示。
  3. 网站/目录的流量异常下降。
  4. 以“存在 robots封禁”的形式显示搜索结果的摘要。

如何解除对百度蜘蛛的封禁?

常见的封杀行为包括 robots封杀、百度封杀 UA、封禁百度 IP等。

自检 robots封杀

查看文件的 robots. txt文件,有没有封禁记录。(一般情况下, robots. txt文件会放在网站的根目录中。)

自查是否对百度 UA进行封杀

如果 robots文件没有异常,则进一步排查是否有百度 UA被封。

第一个方法:执行“当前”-“用户-代理”/5.0 (compatible;Baiduspider/2.0;+’- request GET’xxxxxxx’

注意:正常返回代码为200,其它情况为异常。

第二个方法:更改浏览器用户验证。

检查IP封禁是否存在

所有验证都没有异常,最后一步,就是检查 IP级别的封锁。

常见 IP封锁,源于网站防火墙系统配置,需要查看防火墙系统后台配置,检查百度蜘蛛是否有 IP级别的封禁措施。

本站默认网盘访问密码:1166
本站默认网盘访问密码:1166
mozilla百度百度搜索蜘蛛
0
0
Eswlnk的头像
Eswlnk
一个有点倒霉的研究牲站长
赞赏
「其他分享」kubesphere磁盘挂载小bug记录
上一篇
「其他分享」快速接入Google 验证码实现登录验证
下一篇

评论 (0)

请登录以参与评论
现在登录
    发表评论

猜你喜欢

  • 「亲测有效」Google Gemini 学生优惠:解决身份验证和支付卡验证
  • 解决国际版EdgeOne绑卡和手机验证问题
  • 小工具开发之EdgeOne免费计划兑换工具
  • 「其他分享」市面上静态页面服务商比较与推荐:选择最适合您的平台
  • 「图片优化」利用Cloudflare CDN减少回源Bucket流量
Eswlnk的头像

Eswlnk

一个有点倒霉的研究牲站长
1108
文章
319
评论
679
获赞

随便看看

回顾2022年3个最佳WordPress缓存插件
2022-03-21 21:11:41
「其他分享」VMware/ESXI 虚拟机安装 黑群晖7.1
2022-08-31 18:14:28
IfreeVPS免费申请计划|亲测可白嫖附服务器测评
2022-06-13 23:07:32

文章目录

专题展示

WordPress53

工程实践37

热门标签

360 AI API CDN java linux Nginx PDF PHP python SEO Windows WordPress 云服务器 云服务器知识 代码 免费 安全 安卓 工具 开发日志 微信 微软 手机 插件 攻防 攻防对抗 教程 日志 渗透分析 源码 漏洞 电脑 破解 系统 编程 网站优化 网络 网络安全 脚本 苹果 谷歌 软件 运维 逆向
  • 首页
  • 知识库
  • 地图
Copyright © 2023-2025 Eswlnk Blog. Designed by XiaoWu.
本站CDN由 壹盾安全 提供高防CDN安全防护服务
蜀ICP备20002650号-10
页面生成用时 0.594 秒   |  SQL查询 34 次
本站勉强运行:
友情链接: Eswlnk Blog 网站渗透 倦意博客 特资啦!个人资源分享站 祭夜博客 iBAAO壹宝头条
  • WordPress142
  • 网络安全64
  • 漏洞52
  • 软件52
  • 安全48
现在登录
  • 资源
    • 精彩视频
    • 破解专区
      • WHMCS
      • WordPress主题
      • WordPress插件
    • 其他分享
    • 极惠VPS
    • PDF资源
  • 关于我
    • 论文阅读
    • 关于本站
    • 通知
    • 左邻右舍
    • 玩物志趣
    • 日志
    • 专题
  • 热议话题
    • 游戏资讯
  • 红黑
    • 渗透分析
    • 攻防对抗
    • 代码发布
  • 自主研发
    • 知识库
    • 插件
      • ToolBox
      • HotSpot AI 热点创作
    • 区块
    • 快乐屋
    • 卡密
  • 乱步
    • 文章榜单
    • 热门标签
  • 问答中心反馈