Robots.txt - специальный файл, размещенный в корневой структуре сайта, используемый с целью ограничения доступа поисковых систем к содержимому сайта. При наличии сразу нескольких субдоменов представленный файл должен обязательно находиться в корневом каталоге их всех. Robots.txt является дополнением к общепринятому стандарту Sitemap. Использование файла базируется на добровольных началах. Стандарт был принят в конце января 1994 года. С этого времени он используется большим количеством популярных поисковых систем.
Файл Robots.txt позволяет частично управлять процессом индексирования сайта поисковыми роботами. Его структура состоит из целого набора инструкций для поисковых роботов, используя которые, появляется возможность указания файлов, каталогов или страниц сайта, индексация которых для владельца является нежелательной. С другой стороны, Robots.txt также можно применять и совершенно в противоположных ситуациях, когда оптимизатор хочет указать поисковой машине, какие именно файлы сайта необходимо добавить в индекс в первую очередь.
Необычные директивы
В зависимости от необходимости решения определенных задач, пользователь имеет возможность установить в файле Robots.txt дополнительные директивы. Наибольшей популярностью пользуются следующие:
- Allow. По сравнению с директивой Disallow, оказывает обратное действие, разрешая доступ к конкретной части сайта. Реализована поддержка всеми популярными поисковыми системами. Примечательно, что представленная директива позволяет разрешить доступ к определенному файлу или группе файлов, запрещая при этом индексировать остальную информацию, размещенную в каталоге. Каждый документ, который надо индексировать, нужно прописывать отдельно;
- Crawl-delay. С помощью представленной директивы обеспечивается возможность установления максимального времени, которое робот обязан выдерживать между прогрузкой веб-страниц. Если алгоритм будет слишком часто загружать страницы, это окажет пагубный характер, поскольку создается излишняя нагрузка на сервер (см. "Хостинг"). Впрочем, использование этой директивы не является обязательной. Дело в том, что по умолчанию поисковые системы задают оптимальное количество времени, которое надо выдержать. Оно составляет от 1 до 2 секунд.