robots.txt 详解:网站收录控制的完整指南【SEO基础】

本文全面解析 robots.txt 文件的作用、语法、配置方法,帮助站长掌握搜索引擎抓取规则,提升网站 SEO 表现,并提供 WordPress 实用模板。

引言:为什么 robots.txt 对 SEO 很重要?

robots.txt 是网站与搜索引擎沟通的第一扇门。它决定了哪些内容允许抓取,哪些应屏蔽。如果配置不当,可能导致 网站收录量骤减,甚至 整站消失在百度搜索结果中

在本文,你将学到:

  • robots.txt 的基本语法
  • 正确的 SEO 配置方法
  • WordPress 网站最佳实践模板

一、robots.txt 文件是什么?

robots.txt 是存放在网站根目录的文本文件,用于告诉搜索引擎哪些页面可以抓取,哪些不能抓取。
例如:

https://www.itlooker.cn/robots.txt

作用:

  • 优化搜索引擎抓取效率
  • 避免敏感目录被收录
  • 配合 sitemap 提升收录率

二、robots.txt 的基本语法

1. 基础规则

  • User-agent:指定搜索引擎(如 Baiduspider、Googlebot)
  • Disallow:禁止抓取的目录或页面
  • Allow:允许抓取的目录(通常用于 Google)

示例:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

2. 通配符规则

  • * 匹配任意字符
  • $ 匹配 URL 结尾

示例:

Disallow: /*?replytocom=
Disallow: /*.php$

三、常见配置场景

1. 禁止后台目录抓取

User-agent: *
Disallow: /wp-admin/

2. 禁止特定页面抓取

Disallow: /search/
Disallow: /tag/

3. 指定 Sitemap 位置

Sitemap: https://www.itlooker.cn/sitemap.xml

四、robots.txt 配置错误的常见问题

  • 误用 Disallow: / → 全站禁止抓取
  • 忘记添加 Sitemap → 抓取效率低
  • 屏蔽重要内容目录 → 导致文章无法收录

排查方法:

  • 在百度站长平台查看“抓取诊断”
  • site:itlooker.cn 检查页面收录情况

五、WordPress 网站 robots.txt 最佳实践

以下是适用于 WordPress 技术博客 的推荐配置:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /search/
Disallow: /tag/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.itlooker.cn/sitemap.xml

解释:

  • 屏蔽后台和搜索页,避免无价值页面被收录
  • 保留 AJAX 访问,保证正常功能
  • 添加 Sitemap 提升收录

六、robots.txt + SEO 的最佳实践

  • 不要过度屏蔽:防止重要页面丢失排名
  • 配合 canonical 标签:避免重复内容
  • 定期检查抓取日志:在百度站长工具查看爬虫状态

七、总结

  • robots.txt 是 SEO 基础设置,但配置错误影响巨大
  • 推荐每个网站都配合 Sitemap 使用
  • 建议:新手先用官方模板,不要随意修改
THE END