
要点总结
- robots.txt 是位于您网站根目录下的一个纯文本文件,它告诉搜索引擎和 AI 爬虫要抓取您网站上的哪些页面,要跳过哪些页面。
- 通过引导机器人远离技术冗余和低价值页面,您可以确保它们将时间花在能够带来结果的重要、高价值内容上。
- 最值得了解的四款 AI 爬虫(GPTBot、ClaudeBot、Google-Extended 和 CCBot)都遵守 robots.txt 指令,并且可以通过它们的 user-agent 字符串单独阻止它们。
- robots.txt 中常见的错误包括:在运行中的网站上使用 disallow: / 、阻止 CSS 或 JavaScript 文件(这会影响渲染)以及将 disallow 与 noindex混淆,因为如果从外部链接,被禁止访问的页面仍然可以被索引。
把 robots.txt 文件想象成网站的 GPS。
它告诉谷歌或必应等搜索引擎(以及现在的AI)的网络爬虫应该在哪里查找以及应该索引哪些内容。这在当今的搜索世界中至关重要。然而,它往往是 技术SEO中被忽视的一部分。
许多人对 robots.txt 抱有“设置好就不用管了”的心态,没有意识到这会对搜索可见性造成怎样的影响。
随着人工智能在搜索引擎结果页面 (SERP) 上占据领先地位,正确的 robots.txt 配置比以往任何时候都更加重要。
为了帮助您保持领先地位,我整理了这份关于如何创建 robots.txt 文件的复习资料,以提升现代网站的可见性并带来真正的业务成果。
什么是 robots.txt 文件?
robots.txt 文件,也称为 robots 排除协议或标准,是一个文本文件,它告诉网络机器人(通常是搜索引擎爬虫和 AI 抓取工具)要抓取您网站上的哪些页面。
它还会告诉网络机器人哪些页面 不要 抓取。
假设搜索引擎即将访问某个网站。在访问目标页面之前,它会检查 robots.txt 文件以获取指令。
robots.txt 文件有多种类型,让我们来看几个不同的例子。
假设搜索引擎找到了 以下 robots.txt 文件示例:

这是 robots.txt 文件的基本框架。
“user-agent”后面的星号表示 robots.txt 文件适用于访问该网站的所有网络机器人。
“Disallow”后面的斜杠告诉搜索引擎机器人不要访问网站上的任何页面。但是,需要注意的是,即使禁止访问某个页面,如果外部链接指向该页面,它仍然会被搜索引擎索引。
Robots.txt 对 SEO 的重要性
你可能会好奇,为什么会有人想要阻止网络机器人访问他们的网站。
毕竟,传统 SEO 和 AI SEO的主要目标之一 是让搜索引擎或 AI 机器人轻松抓取您的网站,从而提高您的可见度。
这就是这个SEO技巧的秘诀所在。
你的网站上应该有很多页面吧?即使你觉得不多,也检查一下。你可能会感到惊讶。
如果搜索引擎抓取你的网站,它会抓取每一个页面。
如果你的网站页面很多,搜索引擎机器人就需要一些时间来抓取它们。这可能会对你的排名产生负面影响。
这是因为 Googlebot(谷歌的搜索引擎机器人)有一个“抓取预算”。这分为两部分。
首先是抓取容量限制,即谷歌在任何给定时间可以用来抓取网站的最大连接数。 谷歌在此处提供了更详细的说明 :

第二部分是抓取需求,本质上是指谷歌对您内容的需求程度。这取决于您的页面有多受欢迎以及您更新页面的频率。以下是 谷歌的更详细解释:

简单来说,抓取预算是指“Googlebot 可以并且想要抓取的网址数量”。
您希望帮助 Googlebot 尽可能高效地利用抓取预算来抓取您网站的内容。这意味着您希望它抓取您网站最有价值的页面。
为了确保引导机器人访问正确的网站,谷歌建议尽量减少以下这些常见的抓取资源消耗:
- 分面导航: 用于排序和筛选的 URL 参数可能会创建一个“无限空间”,使机器人陷入冗余页面的迷宫中。
- 重复内容: 当相同的信息存在于多个 URL 中时,请将它们合并,以便爬虫程序可以专注于您的独特内容。
- 障碍和死胡同: 软 404 错误和过长的重定向链浪费了爬虫需求,迫使机器人更加努力地工作却没有得到任何回报。
- 服务器性能: 如果您的网站响应速度慢,Google 可能无法从您的网站读取足够的内容。
好的,我们回到 robots.txt 文件。
结构良好的 robots.txt 页面会告诉搜索引擎机器人(尤其是 Googlebot)避开某些页面。
想想这其中的意义。通过精心整理 robots.txt 文件,您可以突出展示您的最佳作品。您有效地引导搜索引擎机器人避开技术性冗余信息,专注于您最有价值的内容。
换句话说,robots.txt 文件能确保机器人访问你网站的每一秒都物有所值。它决定了机器人是漫无目的地浏览你的网站,还是直奔能带来实际效果的页面。
对 robots.txt 的强大功能感到好奇吗?让我们来谈谈如何创建 robots.txt 文件并正确使用它。
如何创建 robots.txt 文件
有效使用 robots.txt 文件首先要确保基础工作正确。请按照以下步骤创建 robots.txt 文件,让您的“网站导航”顺利起步。
步骤 1:打开纯文本编辑器
您可以使用纯文本编辑器(例如 PC 上的记事本或 Mac 上的文本编辑器)创建一个新的 robots.txt 文件。无论您使用哪种编辑器,请确保它是纯文本编辑器。
如果您已经有一个 robots.txt 文件,请确保删除其中的文本(但不要删除文件本身),以便重新开始。

步骤二:正确找到并格式化您的文件
首先,您 必须 将文件命名为“robots.txt”。这看似显而易见,但却至关重要,因此值得一提。如果命名错误,您之后所做的一切都将徒劳无功。
另请注意,每个网站只能有一个 robots.txt 文件。该文件必须放置在其所适用网站的根域名下。Google 在这里提供了更多相关信息
(我们 也在下方总结了要点):

可以把它看作是技术细节说明。以下是谷歌指南中需要牢记的三点最重要的内容:
- 文件位置至关重要: 您的文件必须位于主机根目录(例如,yoursite.com/robots.txt)。如果您将其放在子文件夹中,爬虫程序将无法找到它。
- 谨言慎行: robots.txt 文件仅对其特定的协议(HTTP 或 HTTPS)、子域名和端口具有权限。如果您有移动网站(例如 m.yoursite.com),则需要为其创建单独的 robots.txt 文件。
- 请使用 UTF-8 编码: 文件必须是采用 UTF-8 编码的纯文本文件。如果您使用非标准字符,Google 可能会认为您的规则无效并完全忽略它们。
步骤 3:编写 robots.txt 规则
我将向您展示如何设置一个简单的 robot.txt 文件,将我们上面提到的规则付诸实践。
每个 robots.txt 文件都以 user-agent 指令开头。该指令定义了哪个爬虫程序受此规则约束。以下示例来自 Google 的 robots.txt 文档,其中将 Googlebot 设置为用户。

该示例还定义了两条规则:允许和禁止。这两条规则使 robots.txt 文件能够引导 Googlebot 抓取根域名 www.example.com 下的所有页面,但 URL 路径为 /nogooglebot/ 的页面除外。所有其他爬虫程序都可以自由抓取网站内的任何页面。
我知道这看起来很简单,但这两条线已经做了很多事情。
这条规则也链接到了一个 XML 站点地图,但这并非绝对必要。它为所有爬虫(包括 AI 爬虫)提供了一个通用的地图。对于大型网站来说,这一点尤为重要,因为它能让爬虫直接访问网站中最有价值的页面,而无需费力寻找链接。
瞧,你现在就拥有了一个基本的 robots.txt 文件,其中包含了一些简单(但有效)的规则。
随着你对 robots.txt 的使用越来越熟悉,你会发现更多可以利用的规则。谷歌在这里列出了所有规则及其作用 。
步骤 4:保存并上传到根目录
为了使其发挥作用,您的 robots.txt 文件需要上传到网站的根目录。具体操作方法取决于您的主机平台和网站架构。
WordPress 是个常见的例外,它会在网站上线时生成自己的虚拟 robots.txt 文件。要更改它,您可能需要安装插件或手动上传文件来覆盖它。
如果遇到疑问,请联系您的主机托管平台或查阅其支持文档,了解上传方法。通常,您可以通过访问其帮助文章或知识库,并搜索“上传文件 [主机托管公司名称]”来找到相关信息。
如何使用 Robots 阻止 AI 爬虫.txt
屏蔽人工智能爬虫可以让你更好地控制内容的使用方式。
有些网站所有者这样做是为了限制人工智能训练的使用。另一些网站所有者这样做是为了减少爬虫的负载,保护意外公开的付费内容,或者防止竞争对手通过人工智能工具重新包装他们的作品。
权衡之下,就是牺牲曝光度。如果你屏蔽所有内容,或许能更好地保护你的内容,但同时也会降低你在人工智能生成的搜索结果中出现的几率。
值得了解的主要AI爬虫包括GPTBot(OpenAI)、ClaudeBot(Anthropic)、Google-Extended(Google)和CCBot(Common Crawl)。这四款爬虫都支持robots.txt控制,并且各自都会发布一个特定的用户代理字符串,您可以针对该字符串进行定位。
CCBot 是很多人忽略的一个模型,尽管它的公共数据集为数十个开源模型提供支持,使其影响力太大,不容忽视。
要单独阻止每个爬虫,请为每个用户代理添加单独的禁止规则:
用户代理:GPTBot
禁止:/
用户代理:ClaudeBot
禁止:/
用户代理:Google-Extended
禁止:/
用户代理:CCBot
禁止:/
值得了解的主要 AI 爬虫涵盖训练和搜索功能。OpenAI 使用 GPTBot 进行训练,使用 OAI-SearchBot 进行搜索。Anthropic 使用 ClaudeBot 进行训练,使用 Claude-SearchBot 进行搜索。Google 使用 Google-Extended 进行训练。由 Common Crawl 运行的 CCBot 为数十个开源模型提供支持,因此即使许多人忽略它,也值得一提。
这种区别在实践中很重要。屏蔽 GPTBot 不会屏蔽 OAI-SearchBot,屏蔽 ClaudeBot 也不会屏蔽 Claude-SearchBot。如果您想同时阻止训练和搜索爬虫,则需要为每个机器人设置单独的规则。
所有这些爬虫都支持 robots.txt 控制,并且每个爬虫都会发布一个您可以定位的特定用户代理字符串。要单独屏蔽它们,请为每个用户代理添加单独的禁止规则:
用户代理:GPTBot
禁止:/
用户代理:OAI-SearchBot
禁止:/
用户代理:ClaudeBot
禁止访问:/
用户代理:Claude-SearchBot
禁止访问:/
用户代理:Google-Extended 禁止:
用户代理:CCBot 禁止:/
如果你想一次性屏蔽所有非搜索机器人,那就反过来设置逻辑。默认禁止所有机器人,然后明确允许你想要保留的搜索引擎。
用户代理:*
禁止:/
用户代理:Googlebot
|允许:/
用户代理:Bingbot
允许:/
请注意,Google-Extended 与 Googlebot 是不同的令牌。屏蔽 Google-Extended 会将您从 Google 的 AI 训练数据中移除,并且不会影响您在常规 Google 搜索中的排名。
请注意,虽然屏蔽人工智能爬虫可以阻止您的内容被用于模型训练,但也会降低您的内容在人工智能答案中被引用的几率。如果您想实施这些规则,务必谨慎行事。
如果 AI 可见性是您策略的一部分,请使用 llms.txt 文件进行 SEO ,以引导 AI 系统找到您的最佳内容,而不是像使用 robots.txt 文件那样完全阻止它们。
如何测试您的 robots.txt 文件
robots.txt 文件生效后,请确认 Google 可以正确读取它。Google 已于 2023 年底停用了旧版的独立 robots.txt 测试工具,并以 Google Search Console 中的robots.txt 报告取而代之 。
要查找此报告,请打开 Google Search Console,选择您的媒体资源,然后点击左侧边栏中的“设置”。该报告会显示 Google 为您的网站抓取了哪些 robots.txt 文件、每个文件上次抓取的时间,以及解析过程中遇到的任何语法错误或警告。如果您刚刚推送了更新,可以直接从该屏幕请求重新抓取。

要测试特定网址在当前规则下的行为,请切换到 Search Console 的网址检查工具。该工具会告诉您 Googlebot 是否可以访问该页面,或者是否有指令阻止了它。
这样做有助于在错误设置禁止规则导致重要页面崩溃之前将其发现。请将此步骤纳入您的常规 技术SEO网站审核流程。

另一个实用技巧: 在浏览器中输入网站根域名,后跟 /robots.txt,即可查看该网站的 robots.txt 文件。这是一种快速了解竞争对手如何构建规则、保护哪些目录以及屏蔽哪些 AI 爬虫的方法。
结合全面的 SEO审核 ,可以全面了解哪些方面可以改进并超越竞争对手。
避免常见的 robots.txt 错误
robots.txt 文件错误很容易发生,而且很难在流量下降之前发现。即使是微小的错误也可能对整个网站造成影响。
以下是需要注意的最常见的错误步骤:
- 在正式网站上使用 `disallow: /` 会阻止所有爬虫抓取网站上的所有 URL,包括首页。通常情况下,当未更新的测试环境文件被直接推送到正式环境时,这条规则就会被误判为错误,因此每次迁移后务必检查 robots.txt 文件。
- 屏蔽 CSS 和 JavaScript。Googlebot 渲染网页的方式与浏览器相同,因此它需要访问 CSS、JavaScript 和图像文件才能正确评估它们。屏蔽这些资源会迫使 Google “盲抓”您的网站,从而导致排名下降。
- 容易混淆 disallow 和 noindex。disallow 规则会阻止搜索引擎抓取,但不会阻止索引。即使 URL 被屏蔽,如果其他网站链接到该 URL,它仍然可能出现在 Google 搜索结果中。要让某个页面完全不出现在搜索结果中,请使用 noindex 元标记或为该页面设置密码保护。
- robots.txt文件为空或缺失。 缺少 robots.txt 文件不会导致网站崩溃。谷歌会默认所有内容都可抓取,但您将无法指定爬虫程序访问您的网站地图、管理抓取预算或选择退出 AI 爬虫程序。请务必将其纳入您的 SEO 常规检查清单 ,以免被忽略。
结论
robots.txt 文件虽小,却对网站在网络上的排名影响巨大。只需几条恰当的指令,就能将低价值页面从搜索结果中剔除,并决定人工智能系统是否能够使用您的网站内容进行训练。
已经有 robots.txt 文件了?请对照上面提到的错误对其进行审核。
从零开始?按照本指南中的步骤构建,并在完成之前在搜索控制台中进行测试。
围绕 robots.txt 的讨论已经发生了转变。它最初是用来管理 Googlebot 和搜索引擎结果页面 (SERP) 的工具,现在其用途扩展到应对人工智能在搜索领域的崛起以及 llms.txt 等新兴标准。
无论未来如何发展,robots.txt 仍然是掌控自身内容的基础组成部分。

