Robots.txt – это индексный файл, содержащий рекомендации для поисковых роботов. Расположен в корневом каталоге ресурса в виде обычного текстового документа. Перед индексацией web-сайта или отдельной страницы программа «просматривает» его и проводит последующие операции в соответствии с настройками.
Происхождение
Протокол «Standard for robot exclusion» стал итогом сделки между крупнейшими разработчиками поисковых систем, которую они заключили в конце июня 1994 года. Он не обладает официальным статусом и не дает гарантии, что ему станут следовать вновь созданные поисковые программы.
Причиной утверждения документа стал тот фактор, что вопреки намерениям владельцев доменов периодически происходит принудительная индексация и при некорректном исполнении создает сложности для пользователей.
В настоящее время применяется для дубликатов web-сайта, ресурсов, содержащих конфиденциальную информацию о посетителях, различных форм рассылки информации и страниц, содержащих результаты поиска.
Разработка файла
Если для продвижения сайта не обязательно закрывать его от индексации, можно оставить документ незаполненным. В этом случае или если файл был создан без соблюдения стандартов, поисковые программы будут действовать в соответствии со своим алгоритмом. Необходимо помнить, что наименование файла нужно писать латиницей стандартного формата (строчные буквы), поскольку URL зависит от регистра.
Путь к средствам управления ресурса и консолям администратора в robots.txt прописывать не нужно, так как он является публичным и доступен для просмотра всем пользователям. Страницы, на которые не ведут ссылки или запрашивающие персональные данные для входа, не индексируются.
Модель файла
Стандартный robots.txt может включать одну или ряд записей, каждая из которых заносится методом перевода строки. Файл может содержать дополнительные примечания в стереотипном для ОС UNIX виде.
Используемые директивы: User-agent, Disallow и Allow, каждая из которых обеспечивает полный запрет индексации конкретной страницы или раздела, фрагментарный или полный доступ. Также они могут содержать указания по оптимальному периоду времени между загрузками файлов с сервера, данные о дубликатах домена и т.д.
Необходимо учитывать, что они являются лишь рекомендацией и не обеспечивают полное закрытие страницы от индексирования, поэтому при необходимости их можно дополнительно «запаролить».
После полного формирования файла robots.txt его проверяют на ошибки. С этой целью можно воспользоваться инструментами мониторинга, разработанными поисковыми системами.