robots.txt 详解:网站收录控制的完整指南【SEO基础】
本文全面解析 robots.txt 文件的作用、语法、配置方法,帮助站长掌握搜索引擎抓取规则,提升网站 SEO 表现,并提供 WordPress 实用模板。
引言:为什么 robots.txt 对 SEO 很重要?
robots.txt 是网站与搜索引擎沟通的第一扇门。它决定了哪些内容允许抓取,哪些应屏蔽。如果配置不当,可能导致 网站收录量骤减,甚至 整站消失在百度搜索结果中。
在本文,你将学到:
- robots.txt 的基本语法
- 正确的 SEO 配置方法
- WordPress 网站最佳实践模板
一、robots.txt 文件是什么?
robots.txt 是存放在网站根目录的文本文件,用于告诉搜索引擎哪些页面可以抓取,哪些不能抓取。
例如:
https://www.itlooker.cn/robots.txt
作用:
- 优化搜索引擎抓取效率
- 避免敏感目录被收录
- 配合 sitemap 提升收录率
二、robots.txt 的基本语法
1. 基础规则
- User-agent:指定搜索引擎(如 Baiduspider、Googlebot)
- Disallow:禁止抓取的目录或页面
- Allow:允许抓取的目录(通常用于 Google)
示例:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
2. 通配符规则
*
匹配任意字符$
匹配 URL 结尾
示例:
Disallow: /*?replytocom=
Disallow: /*.php$
三、常见配置场景
1. 禁止后台目录抓取
User-agent: *
Disallow: /wp-admin/
2. 禁止特定页面抓取
Disallow: /search/
Disallow: /tag/
3. 指定 Sitemap 位置
Sitemap: https://www.itlooker.cn/sitemap.xml
四、robots.txt 配置错误的常见问题
- 误用 Disallow: / → 全站禁止抓取
- 忘记添加 Sitemap → 抓取效率低
- 屏蔽重要内容目录 → 导致文章无法收录
排查方法:
- 在百度站长平台查看“抓取诊断”
- 用
site:itlooker.cn
检查页面收录情况
五、WordPress 网站 robots.txt 最佳实践
以下是适用于 WordPress 技术博客 的推荐配置:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /search/
Disallow: /tag/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.itlooker.cn/sitemap.xml
✔ 解释:
- 屏蔽后台和搜索页,避免无价值页面被收录
- 保留 AJAX 访问,保证正常功能
- 添加 Sitemap 提升收录
六、robots.txt + SEO 的最佳实践
- 不要过度屏蔽:防止重要页面丢失排名
- 配合 canonical 标签:避免重复内容
- 定期检查抓取日志:在百度站长工具查看爬虫状态
七、总结
- robots.txt 是 SEO 基础设置,但配置错误影响巨大
- 推荐每个网站都配合 Sitemap 使用
- 建议:新手先用官方模板,不要随意修改
THE END