Супер файл robots txt для сайта wordpress

правильный файл robots robots.txt

 Всем привет ! Наконец-то “дошли мои руки”  до файла robots txt, давно я уже хотел снова написать статью о данном файле, который не даёт ни кому покоя. Есть у меня на сайте уже пару статей о файле роботе, но их можно не читать, так как время тикает и всё меняется. Я пришёл к новым ума-заключениям, более осмысленным, наконец-то сам разобрался что к чему, а то знаете копировать робота с других сайтов и тупо вставлять на свой сайт…не дело это.

 Сайты то у всех разные и если вы думаете, что есть один универсальный файл robots txt для всех сайтов, то вы ошибаетесь. Сегодня я дам вам практически самый универсальный файл робот, но вам нужно будет ещё кое-что проработать, я покажу что. Файл робота нужно составлять не только под каждый сайт индивидуально, но и под каждую поисковую систему (Яндекс, Google) тоже индивидуально.

 Благодаря моим наблюдениям я вычислил, что для Google вообще не надо ничего закрывать, за исключением wp-admin. Речь идёт о: wp-content и wp-includes, в данных разделах находятся плагины, темы, скрипты, стили, CSS, JS. Если вы закроете от гугл разделы wp-content и wp-includes, то гугл заблокирует все записи сайта, в которых указаны ссылки на данные разделы.

 Откройте любую запись вашего сайта, с помощью правой кнопки мыши перейдите в исходный код страницы. Практически на всех сайтах wordpress, в исходном коде любой записи отображаются ссылки на разделы wp-content и wp-includes. CSS и JS файлы нужны для отображения стилей и скриптов. Дело в том, что в отличии от Яндекса, Гугл не любит когда от него скрывают CSS и JS файлы. Для полноценной индексации записи, для гугла должны быть открыты файлы wp-content и wp-includes.

 

исходный код

 

 Могут быть и другие файлы, отдельные скрипты или стили, которые находятся в отдельных папках, не входящих в основные разделы wp-content и wp-includes. Здесь очень парадоксальный момент, то что для гугла надо открыть в файле робота, то для Яндекс надо закрыть в файле робота, чтобы он не наплодил дублей. Вообще, что касается Google, то файл robots txt не предназначен для закрытия индексации.

 Вы можете закрыть (Disallow) какие-то файлы, чтобы поисковый робот гугл не сканировал их, к примеру для снижения нагрузки на сервер, но скрыты от индексации они не будут. К примеру, ссылка на ваш сайт может отображаться на другом сайте и тогда гугл проиндексирует её, не смотря на запреты в файле robots. Чтобы гугл не индексировал ваш сайт или какую-то его часть, раздел, страницу и т.д., то вам нужно использовать специальные мета теги, либо добавлять их на сайт вручную, либо с помощью плагина.

 

User-agent: Yandex
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /wp-json/
Disallow: /page/
Disallow: /wp-login.php
Disallow: /simplebox
Disallow: /?wp-subscription-manager
Host: info-effect.ru
Sitemap: http://info-effect.ru/sitemap.xml

User-agent: *
Disallow: /wp-admin/

 

 Как видите по моему файлу, для Яндекса нужно закрыть все основные раздела wordpress сайта, в том числе wp-json и wp-login. А далее вам уже нужно лезть в исходный код своего сайта и вычислять какие ссылки ещё необходимо закрыть от Яндекса. Делается это очень просто, открываете любую запись своего сайта, переходите в исходный код, находите все ссылки (href) и закрываете все ссылки в файле robots, которые отображаются в каждой записи (в исходном коде).

 К примеру у меня есть скрипт simplebox, для открытия изображений, в каждой записи есть ссылка на данный скрипт (в исходном коде). “Все ссылки” это не все ссылки сайта, это ссылки которые не нужны для индексации, которым нет смысла находится в поиске, пример – http://info-effect.ru/wp-json/oembed/1.0/embed?url=http%3A%2F%2Finfo-effect.ru%2Fkak-sdelat-izobrazhenie-adaptivnym-masshtabiruemym-chtoby-rastyagivalos.html

 Повторюсь, для гугла нет смысла что-то скрывать в файле robots, за исключением wp-admin, чтобы гугл не сканировал административную часть сайта. А чтобы гугл не добавлял в поиск определённые страницы и разделы, нужно добавлять на сайт специальные мета теги и плагины. Что касается дублей, то у гугла в кабинете вебмастера есть специальный инструмент – “Параметры URL”, который автоматически определяет что к чему.

 На данный момент, такой вариант файла robots меня полностью устраивает и самое главное он устраивает поисковые системы Яндекс и Google. Индексация наладилась, всё в норме, в поиск попадают только необходимые страницы и записи, ничего лишнего. Совет вам вот какой – обязательно настройте правильно файл robots txt и следите за индексацией сайта, причём на постоянной основе. Успехов вам !

 

info-effect.ru
Добавить комментарий

Имя и Email указывать не обязательно. Чтобы получить ответ на свою электронную почту, укажите свой Email.

  1. Михаил

    Здравствуйте. Отличная статья-спасибо Вам! Вы можете что сказать об этом файле robots txt-он правильный? User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /wp-includes
    Disallow: /wp-feed
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Host: o-alishop.ru
    Sitemap: https://сайт.ру/sitemap.xml.gz
    Sitemap: https://сайт.ру/sitemap.xml

    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/

    User-agent: YandexImages
    Allow: /wp-content/uploads/

    Ответить
    1. Admin автор

      Нет, он не правильный. Вот правильный шаблон файла robots.txt, подойдёт для любого сайта на WordPress:

      User-agent: Yandex
      Disallow: /wp-admin/
      Disallow: /wp-content/
      Disallow: /wp-includes/
      Disallow: /wp-login.php
      Host: http://info-effect.ru
      Sitemap: http://info-effect.ru/sitemap.xml

      User-agent: *
      Disallow: /wp-admin/

      Для директивы Host и Sitemap укажите свой адрес сайта!!!
      Для Яндекса можно добавлять дополнительные директивы (только для Yandex!)

      Ответить
  2. Михаил

    Спасибо, Илья! А, нужно ли вместо “http” прописывать “https”?

    Ответить
    1. Admin автор

      Если у вас есть SSL сертификат, конечно нужно.

      Ответить
  3. Михаил

    Спасиб, Илья! А, как делать “Для Яндекса можно добавлять дополнительные директивы (только для Yandex!)”-в robots.txt?

    Ответить
    1. Admin автор

      В записи я показывал. Для начала вам нужно решить, что вы хотите скрыть от индексации. Просто вставляете директиву Disallow: /адрес папки или страницы/

      Ответить
  4. Андрей

    Илья, здравствуйте!
    А как будет выглядеть правильный robots.txt для магазина на Woocommerce?

    Ответить
    1. Admin автор

      Здравствуйте. Точно также, если вы ничего не будете скрывать в Woocommerce. Но, нужно смотреть на деле, что будет индексировать поиск. Например, заказы могут попасть в поиск, если вы не хотите, надо закрывать их.

      Ответить