HTML robots 设置

在 SEO（搜索引擎优化）中，robots 元标签是一个非常重要的工具，它允许网站管理员控制搜索引擎爬虫的行为。通过合理设置 robots 元标签，你可以决定哪些页面可以被搜索引擎索引，哪些页面应该被忽略。

什么是 robots 元标签？

robots 元标签是 HTML 文档头部（<head> 部分）中的一个标签，用于向搜索引擎爬虫提供指令。它告诉爬虫是否应该索引当前页面，以及是否应该跟踪页面上的链接。

基本语法

<meta name="robots" content="指令" />

其中，content 属性可以包含多个指令，用逗号分隔。

常见的 robots 指令

以下是一些常见的 robots 指令及其含义：

index：允许搜索引擎索引当前页面。
noindex：阻止搜索引擎索引当前页面。
follow：允许搜索引擎跟踪页面上的链接。
nofollow：阻止搜索引擎跟踪页面上的链接。
noarchive：阻止搜索引擎缓存当前页面的内容。
nosnippet：阻止搜索引擎显示当前页面的摘要。

示例

<meta name="robots" content="index, follow" />

这个标签告诉搜索引擎爬虫，允许索引当前页面，并且可以跟踪页面上的链接。

实际应用场景

1. 阻止搜索引擎索引特定页面

假设你有一个页面包含敏感信息，你希望它不被搜索引擎索引。你可以使用以下代码：

<meta name="robots" content="noindex" />

2. 允许索引但不跟踪链接

如果你希望搜索引擎索引当前页面，但不跟踪页面上的链接，可以使用以下代码：

<meta name="robots" content="index, nofollow" />

3. 阻止搜索引擎缓存页面内容

如果你不希望搜索引擎缓存你的页面内容，可以使用以下代码：

<meta name="robots" content="noarchive" />

使用 robots.txt 与 robots 元标签的区别

备注

robots.txt 文件和 robots 元标签都可以用来控制搜索引擎爬虫的行为，但它们的作用范围不同。

robots.txt：这是一个位于网站根目录下的文本文件，用于控制整个网站或特定目录的爬虫访问权限。它不能控制单个页面的索引行为。
robots 元标签：这是 HTML 文档中的一个标签，用于控制单个页面的索引和链接跟踪行为。

示例

假设你有一个网站，你希望阻止搜索引擎爬虫访问 /private/ 目录下的所有文件，但允许索引 /public/ 目录下的文件。你可以在 robots.txt 文件中添加以下内容：

User-agent: *
Disallow: /private/

然后在 /public/ 目录下的 HTML 文件中使用 robots 元标签来控制单个页面的索引行为。

总结

robots 元标签是一个强大的工具，可以帮助你控制搜索引擎爬虫的行为，从而优化网站的 SEO 表现。通过合理设置 robots 元标签，你可以决定哪些页面可以被索引，哪些页面应该被忽略，以及是否允许爬虫跟踪页面上的链接。

附加资源与练习

练习

在你的网站中创建一个页面，并使用 robots 元标签阻止搜索引擎索引该页面。
创建一个页面，允许搜索引擎索引但不跟踪页面上的链接。

附加资源

通过学习和实践，你将更好地掌握 robots 元标签的使用，从而提升网站的 SEO 表现。

什么是 robots 元标签？​

基本语法​

常见的 robots 指令​

示例​

实际应用场景​

1. 阻止搜索引擎索引特定页面​

2. 允许索引但不跟踪链接​

3. 阻止搜索引擎缓存页面内容​

使用 robots.txt 与 robots 元标签的区别​

示例​

总结​

附加资源与练习​

练习​

附加资源​