Robots.txt – специальный текстовый документ в корневой папке Вашего сайта. В нём содержатся специальные инструкции для поисковых систем. При помощи данного файла можно запрещать индексацию сайта или отдельных страниц, указать главное зеркало ресурса, указать путь к специальному файлу sitemap.
Полезность robots.txt ярко наблюдается на примере закрытия индексирования тех. разделов Вашего сайта. Если эти технические разделы у Вашего сайта открыты для индексирования, поисковый робот будет стараться их выкинуть из индекса, из-за чего без индекса могут остаться не только страницы технического раздела, но и нужная и уникальная информация, что очень печально.
Как создать файл robots.txt?
Поисковые роботы заходя к Вам на сайт в первую очередь открывают robots.txt, поэтому этот файл является очень важным. Создается robots.txt при помощи самого обычного блокнота. Помещается он в корневом каталоге сайта. Когда поисковый робот заходит к Вам на сайт, первым делом что он делает, это читает данный файл со всеми инструкциями. Поисковые роботы сравнительно умные системы, но они машины и с ними нужно всего лишь уметь сотрудничать.
Как настроить robots.txt?
Чтобы настроить robots.txt используют две основные директивы, которые называются Disallow и User-agent. Последняя определяет, в каком из поисковых роботов будет выполняться запрет на индексирование, прописанных в первой директиве файлов. Например: User-agent:* Disallow:/ — в этом виде инструкцией будет запрещаться индексация всего сайта для всех поисковых систем.
Но если после Dissallow написать путь к нужному каталогу, файлу – робот перестанет проводить индексацию только этих файлов. Не стоит прописывать несколько путей к файлам в одной строке, потому что эта строка не будет работать. Если наоборот Вы хотите, чтобы отмеченные файлы индексировались, а все остальные нет, нужно поменять Disallow на Allow.
В robots.txt используются не только стандартные, но и дополнительные директивы:
Директиву Host используют в том случае, когда у Вашего сайта существует несколько зеркал и нужно указать на основное, что и делает директива. Именно это зеркало будет присутствовать в выдачах поисковых роботов.
Директива Sitemap – специальная команда, которая помогает поисковой системе определить местонахождение файла с картой Вашего сайта.
Crawl-delay – это директива, которую используют для создания задержек между загрузками страниц Вашего ресурса поисковым роботом. Эта функция полезна, если Ваш сайт имеет достаточно большое количество страниц. К примеру: Crawl-delay: 5 – означает паузу между загрузками страничек в пять секунд.
Request-rate – директива, отвечающая за периодичность загрузки страничек поисковым роботом. Request-rate: 1/10 – поисковые роботы будут загружать одну страницу в 10 сек.
Visit-time – директива определяющая промежутки времени, в который загружать страницы разрешено. Время выставляется по Гринвичу, например Visit-time: 0400-0600.
К чему может привести неправильная настройка файла robots.txt?
Если Вы настроите robots.txt некорректно – поисковому роботу будут открыты страницы, которые содержат конфиденциальную информацию, как сайта и владельца, так и пользователей. Данные страницы должны быть удалены из индекса, чтобы не предоставлять неудобств.
Как проверять правильность настройки файла robots.txt?
Для этого лучше всего воспользоваться специальным сервисом от Yandex – Yandex.Вебмастер, а сама функция называется “анализ robots.txt”. В поле нужно вписать имя домена, который надо проверить, а спустя несколько секунд Вам будет представлен список ошибок, которые надо исправлять.
Вы можете ознакомится с материалом, просмотрев видео ролик:
0 комментарий