Что такое robots.txt и зачем он нужен вообще?
Robots.txt — это специальный текстовый документ на вашем сайте, в котором прописаны запреты на индексацию определенных страниц, каталогов или разделов вашего сайта. Ваш специалист по SEO точно знаком с Robots.txt, и должен уметь верно распределять запреты в соответствии со спецификой вашего сайта.
Почему владелец сайта должен знать о существовании robots.txt?
Мы сталкиваемся с тем, что владельцы сайтов малого и среднего бизнеса, у которых нет постоянного программиста в штате, обращаются к компаниям на аутсорсе для ведения сайтов и их продвижения. При этом новые подрядчики зачастую вместо нужной корректировки Robots.txt просто возвращают значения по умолчанию, а это может повредить позициям сайта.
Чтобы сайт лучше индексировался и был ближе к ТОП-5 выдачи, одно из важнейших действий — запретить индексацию.
Как сделать правильный robots.txt в 2023
Скачайте целиком правильный роботс текст — вот по этой ссылке. ВАЖНО! Жёлтым цветом отмечены поля, которые вам нужно заполнить самостоятельно для вашего сайта.
В данном robots.txt для wordpress не указано модное сейчас правило Crawl-Delay. При небольших нагрузках на сервер, когда у вас не перегруженный трафиком ресурс или магазин с тысячами товаров — нет необходимости в этом параметре, снижающем нагрузку на сервер.
Устаревший и правильный robots.txt 2023 — таксономии, категории, пагинация …
Алгоритмы меняются, поэтому ВАЖНО проверить, всё ли в порядке с вашим robots.txt — нет ли устаревших значений, которые пора менять.
- В любом месте robots.txt укажите путь к карте сайта sitemap — только 1 раз. Этого достаточно.
- НЕ надо закрывать папки wp-content, wp-includes, cache, plugins, themes. Правило устарело и не имеет смысла при нынешних алгоритмах Яндекс и Google. Либо скрывайте не так «в лоб», а используя настройки, указанные выше.
- Не советую закрывать теги и категории тем, на чьих сайтах контент на таких страницах разнообразен и не дублируется — иначе вы можете просто потерять часть трафика.
- Закрывать страницы пагинации в robots.txt — нет смысла. Настройте для страниц /page/ тег rel=»canonical», чтобы поисковые роботы могли учитывать статьи и товары, расположенные тут, и ссылочную массу.
- Crawl-Delay используйте только при необходимости при перегрузках сервера и мощном трафике.
- Избегайте выдумывания собственных правил на подобие
Disallow: /10
— просто скроете от индексации все архивы и дополнительно — все статьи про «10 советов» и товары с цифрой «10» в названии. - Стоит ли скрывать в robots.txt комментарии — зависит от вашей тематики и целей. У нас они открыты. Закрыть можно так —
Disallow: /comments
иDisallow: */comment-*
.