Мы используем cookie-файлы
Мы используем файлы cookie для обеспечения правильной работы нашего сайта, чтобы сделать нашу коммуникацию еще лучше! Используя сайт без изменения настроек, вы даете согласие на использование ваших cookie-файлов.
Принять
Настройки
Мы используем cookie-файлы
Настройки
Мы используем cookie-файлы
Мы используем файлы cookie для того, чтобы предоставить Вам больше возможностей при использовании сайта.

Синтаксис и правила составления файла robots.txt

Файл robots.txt имеет определенный синтаксис и правила составления. Чтобы обеспечить эффективную работу файла robots.txt, необходимо четко придерживаться правилам составления robots.txt и соблюдать синтаксис.
Файл robots.txt – это набор правил, которые сообщают поисковым роботам, какие страницы запрещены для индексации, а какие страницы необходимо проиндексировать.

Robots.txt – один из важнейших инструментов для управления индексацией сайта.

Файл robots.txt имеет определенный синтаксис и правила составления. Чтобы обеспечить эффективную работу файла robots.txt, необходимо четко придерживаться правилам составления robots.txt и соблюдать синтаксис.

При наличии ошибок или опечаток в файле robots.txt , директивы или весь файл могут быть проигнорированы поисковыми роботами.

Основной синтаксис robots.txt

User-Agent: указывает имя робота, для которого будут применяться следующие правила (например, Googlebot, Yandex).

После User-Agent необходимо поставить двоеточие, пробел и указать имя User-Agent.

Пример:

User-Agent: Googlebot


Disallow: закрывающая директива, которая указывает, какие страницы необходимо закрыть от индексации.

После Disallow необходимо поставить двоеточие, пробел и указать раздел или путь к странице, которую необходимо закрыть от индексации.

Пример:

Disallow: /bitrix/

Подробнее о том, как закрыть страницы от индексации читайте в статье Как запретить индексацию сайта или страницы в robots.txt.


Allow: разрешающая директива, которая указывает страницы, которые необходимо проиндексировать.

Allow необходимо размещать для тех страниц, которые находятся в закрытой от индексации папке.

После Allow необходимо поставить двоеточие, пробел и указать раздел или путь к странице, которую необходимо открыть для индексации.

Директива Allow для конкретного файла или страницы должна быть длиннее, чем закрывающая директива Disallow, которая закрывает раздел, где находится документ или страница.

Например, в robots.txt указана закрывающая директива Disallow: /bitrix/. При этом в папке /bitrix/upload/ лежат png изображения, которые необходимо открыть для индексации.

Для того, чтобы открыть png изображения для индексации необходимо разместить следующие директивы:

Disallow: /bitrix/
Allow: /bitrix/upload/*.png

В примере мы видим, что содержание открывающей директивы Allow длиннее, чем закрывающей директивы Disallow.


*: означает любую последовательность символов в пути страницы или любо обозначает всех User Agent. Символ * по умолчанию используется в конце строки, если не указывается иной символ.

Например:

User-Agent: * - директивы будут применяться для всех User-Agent.
Disallow: /*bitrix – закрывает все страницы, в URL которых содержится bitrix, вне зависимости от расположения.
Disallow: /bitrix* и Disallow: /bitrix – являются одинаковыми.


$: обозначает конец строки и по умолчанию отменяет символ * в конце строки.

Например:

Disallow: /bitrix$


#: правило для размещения комментария. Данные правила игнорируются поисковыми роботами и служат в качестве подсказки для вебмастеров.


/: указывает, что папка закрыта для сканирования.

Пример:

Disallow: /bitrix/ - закрыта вся папка /bitrix/. Соответственно все страницы, сложенные в эту папку, например /bitrix/upload/, будут закрыты от индексации
Disallow: / - закрывает весь сайт от индексации, так как / указывает на корневую папку сайта.


Sitemap: правило для указания ссылки на xml-карту сайта sitemap.xml.

Пример:

Sitemap: https://site.ru/sitemap.xml


Clean-param: директива для поисковых роботов Яндекса, которая сообщает о динамических параметрах в URL страницы, которые не меняют содержания страницы. Данная директива позволяет разрешить для индексации только основную страницу без дополнительных параметров в URL.

С помощью Clean-param можно закрыть страницы с рекламными метками (например, URL с utm-метками).

Пример:

Clean-param: utm_

Если необходимо закрыть несколько страницы с разными метками, необходимо перечислить метки через символ &.

Пример:

Clean-param: utm_& yclid_

Подробнее о Clea-param вы можете узнать в статье Директива Clean-param в файле robots.txt.
Ранее в файле robots.txt размещали директивы:

Host: указывает на главное зеркало сайта.

Craw-delay: директива, устанавливающая минимальный период времени (в секундах) между посещениями страниц сайта поисковыми роботами. Данное правило использовалось в случаях, когда использовались слабые сервера, которые не выдерживали большой нагрузки. Сейчас такие сервера практически не используются.



Сейчас данные директивы считаются устаревшими и не используются при составлении robots.txt. При наличии в файле robots.txt таких директив можно сделать выводы, что файл давно не обновлялся.

Общие правила для составления robots.txt

Для составления файла robots.txt действуют общие правила:

  • Название файла: robots
  • Формат: текстовый
  • Расширение: txt
  • Кодировка UTF-8
  • Размер файла: не более 32 кб
  • Код ответа сервера: 200 ОК
  • Использование кириллицы: запрещено, за исключением текста комментариев
  • Каждую команду прописывать с новой строки
  • В начале строки не должно быть пробелов
  • В конце директив не должно быть точки или точки с запятой
  • В одной строке прописывается только одна директива
  • Пустая директива Disallow: равнозначна Allow: / (разрешает индексировать вест сайт)
  • Соблюдайте регистр символов (прописывайте имена файлов в том регистре, в котором они указаны в URL)
  • Отсутствие robots.txt - разрешает индексирование всех страниц сайта

Подробная инструкция по составлению robots.txt приведена в статье Как составить файл robots.txt.
Соблюдение синтаксиса и правил составления файла robots.txt позволит управлять индексацией вашего сайта и исключить из индекса все страницы, которые могут негативно повлиять на ранжирование сайта.
Пожалуйста, оцените статью
Читайте далее
Показать еще
Автор статьи
Дмитрий Лашманов
SEO-специалист
Опыт работы в SEO 4 года
60+ реализованных проектов

Дополнительные курсы:

SEO в СНГ - Rush Academy
SEO на запад - Rush Academy
UX/UI-дизайн - Skillbox
Школа экспертов Нетологии