Супер файл robots txt для любого сайта индексация!

robots txt robots.txt

 Привет! Сегодня вы узнаете как правильно составить файл robots txt для любого сайта! Файл robots txt необходим для эффективной индексации сайта, чтобы нужные страницы попадали в поиск, а не нужные не попадали в поиск. Начать хочу с того, что я не рекомендую копировать файл robots txt с других сайтов. Почему? Потому что данный файл нужно создавать непосредственно для каждого сайта, исходя из его настроек и параметров.

 Конечно можно тупо скопировать робота с другого сайта, но тогда вы не будете контролировать индексацию своего сайта на 100%. Вы что-то упустите, а это что-то может оказаться чем-то серьёзным, что может навредить продвижению вашего сайта. Поэтому, далее я расскажу и покажу как самостоятельно составить правильный файл robots txt именно для своего сайта.

 

Принцип работы составления файла robots.txt.

 Зайдите на свой сайт, откройте любую запись, с помощью правой кнопки мыши перейдите в исходный код страницы. Смотрите, вам нужно проверить каждую ссылку, которая отображается в исходном коде и решить, закрывать её от индексации или нет. Тут всё очень просто, для поиска нам нужна только основная ссылка записи. Все остальные ссылки можно закрывать в файле robots txt.

 Исходящие ссылки, то есть не ваши, например от рекламы, конечно закрывать в robots txt не надо, ничего это не даст и в этом нет смысла. Закрывать от индексации нужно только ссылки со своим доменным именем. Например – /wp-admin/, /wp-content/, /wp-includes/, /wp-json/, /page/ (ссылки админ-панели, ссылки пагинации и т.д.).

 

исходный код

 

 Таким образом вам нужно просмотреть исходный код страниц – записи, страницы, блога, категории. Все ссылки с вашим доменным именем, кроме основной ссылки страницы, нужно закрыть от индексации, потому что в поиске такие ссылки не нужны.

 

 Мой файл robots txt.

 

правильный robots txt

 

Сейчас поясню. Для Яндекса:

 wp – здесь думаю всё понятно, закрываем ссылки админ-панели.

 page – страницы пагинации, /page/1, /page/2, /page/3 и т.д. Такие страницы можно скрыть с помощью плагина.

 Всё остальное ссылки скриптов и прочий не нужный мусор.

 Host – показываем поиску наш основной домен. Обязательно указывать данную директиву для сайтов, у которых два адреса сайта с www и без.

 Sitemap – ссылка на карту сайта sitemap для поисковых систем. Если не используете Sitemap, то соответственно не нужно указывать.

 Директивы Host и Sitemap указываются только для Яндекс. Для Google нет смысла указывать, не читает он их в robots txt. В Google Вебмастер нужно указывать.

 

 Для Google ничего закрывать не надо, кроме wp-admin. Почему ? Потому что Google блокирует страницы и записи, в которых есть ссылки закрытые в robots txt. Google использует robots txt только в качестве запрета сканирования страниц. Для Google закрывать страницы и записи от индексации нужно другим образом, с помощью плагинов или мета тегов.

 

 Вот и всё, на самом деле всё очень просто здесь, просто разобраться надо!

 

Остались вопросы? Напиши комментарий! Удачи!

 

 
Добавить комментарий

  1. Антон

    Интересно. Спасибо большое. У многих спрашивал про эту проблему, однако адекватного ответа не получил. И теперь, как оно всегда и бывает, искал ответ на совершенно другой вопрос…
    Переделал robots.txt, поставил плагин, сделал резервные копии, буду тестировать.

    Ответить
  2. Андрей

    Приветствую. Я уже этих роботосов переделал кучу и не могу понять какой из них правильно работает, а какой нет. Подскажите, гугл вебмастер и в яндекс вебмастер должен какие-нибудь предупреждения показывать? У меня показывает в гугле 1643 предупреждения, ошибок нет, а их показывает. Или должно все по 0 быть?

    И еще хотел спросить. Многие закрывают tag от дублей, а в Вашем роботсе нет такой строки. Почему?

    Подскажите, какой из этих роботсов наиболее правильный? Или как сделать самый простой какой-нибудь, а то я уже замучился с ним. Благодарю.

    1 способ
    User-agent: *
    Disallow: /redirect
    Disallow: /tag/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/themes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/languages
    Disallow: /wp-content/cache
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */feed
    Disallow: /*feed
    Disallow: /feed
    Disallow: /?feed=
    Disallow: /?s=
    Disallow: */comments
    Disallow: /*comment-page-*
    Disallow: /?p
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /search
    Disallow: /xmlrpc.php

    Host: merlinclub .ru
    Sitemap: http:// merlinclub.ru/sitemap.xml

    2 способ

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag

    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag
    Host: http:// merlinclub.ru
    Sitemap: http:// merlinclub.ru/sitemap.xml

    3 способ (это я у Вас брал)

    User-agent: *

    Allow: /wp-includes/images/

    Allow: /wp-includes/js/

    Disallow: /wp-includes/

    Disallow: /wp-feed/

    Disallow: /wp-admin/

    Disallow: /wp-content/cache/
    Disallow: /wp-content/themes/

    Disallow: /wp-content/plugins/

    Sitemap: http:// merlinclub.ru/sitemap.xml

    Host: merlinclub .ru

    User-agent: Googlebot-Image

    Allow: /wp-content/uploads/

    User-agent: YandexImages

    Allow: /wp-content/uploads/

    Ответить
    1. Admin автор

      Здравствуйте. Ни один из представленных способов не правильный. Правильный смотрите в данной статье, я показываю совершенно другой способ, проверенный мной лично, уже на протяжении 2 лет. У меня нет тегов, поэтому и в роботсе их нет. А с чего вы взяли, что теги создают дубли?

      Ответить
  3. Андрей

    Disallow
    Здесь же Вы “засовываете” разделы, которые НЕ нужно индексировать поисковикам. К примеру, на странице у меня идет дубль статей (повторение) с обычными статьями, а дублирование страниц отрицательно сказывается на поисковом продвижении, поэтому, крайне желательно, данные секторы нужно закрыть от индексации, что мы и делаем с помощью этого правила:

    Disallow: /tag

    Так вот, в том robots.txt, который дан выше, от индексации закрыты почти все ненужные разделы сайта на WordPress, то есть просто оставьте все как есть.

    Ответить
    1. Admin автор

      “на странице у меня идет дубль статей (повторение) с обычными статьями” не понял, что вы имеете в виду? По конкретней можно.

      Ответить
  4. Антон

    Доброго дня.
    В догонку комментарию от 06.07.
    Прошёл месяц. Из скрина видно, что ресурсы действительно разблокиируются. Однако же на позициях поиске в ГУГЛ это никак пока не отразилось. Возможно я что-то не правильно понимаю. Подскажите, изменит ли уменьшение количества заблокированных ресурсов позиции в поиске гугла? Если да, то как и когда? СПАСИБО.

    Ответить
    1. Admin автор

      Здравствуйте. Да, изменит. Просто вы должны понимать, что это не единственный показатель и надеется только на него просто глупо! Сайт в основном продвигается за счёт качественных статей. Но и SEO оптимизация также важна. Всё важно. Продвигайте сайт и результат будет. Не надо ждать чуда.

      Ответить
  5. Антон

    Спасибо за ответ.
    Немного перефразирую вопрос. По трафику у меня идёт перекос в сторону Яндекс: с яндекса примерно 4/5 трафика, с гугла 1/5 (остальные системы не учитываем), и на скрине это было прекрасно видно. Поможет ли разблокирование ресурсов выравнить трафик не теряя позиций в яндексе?

    Ответить
    1. Admin автор

      Если ваш сайт нацелен на Русскую аудиторию, то априори трафик с Яндекса будет больше! Сами подумайте, Яндекс самый популярный Русский поисковик. Это большое заблуждение, то что некоторые вебмастера думают, что якобы трафик из гугла меньше из-за каких-то проблем с оптимизацией. Так думают лузеры, которые не могут продвинуть свой сайт и поэтому они ищут оправдания своей беспомощности! Позиции вы никак не потеряете, если постоянно продвигаете сайт. Наоборот, позиции будут только расти, если всё грамотно делать.

      Ответить
  6. Юлия

    Извините Илья, но я вообще не поняла как это делать(((( Что то подробнее для чайников у Вас есть? Еще раз сори(

    Ответить
    1. Admin автор

      Я понимаю вас, с первого раза сложно всё понять. Мне самому понадобилось больше года, чтобы разобраться в этом. Могу предложить вам шаблон файла, он подойдёт для любого сайта WordPress. В нём закрыты от индексации основные не нужные разделы. Обратите внимание, только для Яндекса. Для Гугла нужно ставить плагин, в записи я рекомендовал. Для Host и Sitemap укажите свой адрес сайта!!!

      User-agent: Yandex
      Disallow: /wp-admin/
      Disallow: /wp-content/
      Disallow: /wp-includes/
      Disallow: /wp-login.php
      Disallow: /?wp-subscription-manager
      Disallow: /wp-json/
      Disallow: /?s=
      Disallow: /recommends/
      Host: https://info-effect.ru
      Sitemap: https://info-effect.ru/sitemap.xml

      User-agent: *
      Disallow: /wp-admin/

      Ответить
  7. Мила

    Здравствуйте! У меня возник вопрос по поводу файла robots для поддомена для женского сайта. Они должны отличаться ? Yandex выдает ошибку “Найдено несколько правил вида ‘User-agent: *'”. Или можно использовать обычный robots как и для домена с изменением url?

    Ответить
    1. Мила

      в продолжении предыдущего комментария вот роботс для домена, ошибок в яндексе 0
      User-Agent: *
      Disallow: /cgi-bin
      Disallow: /wp-
      Disallow: /?s=
      Disallow: *&s=
      Disallow: /search
      Disallow: /author/
      Disallow: *?attachment_id=
      Disallow: */feed
      Disallow: */rss
      Disallow: */embed
      Allow: /wp-content/uploads/
      Allow: /wp-content/themes/
      Allow: /*/*.js
      Allow: /*/*.css
      Allow: /wp-*.png
      Allow: /wp-*.jpg
      Allow: /wp-*.jpeg
      Allow: /wp-*.gif
      Allow: /wp-*.svg
      Allow: /wp-*.pdf

      Sitemap: https://…………ru/sitemap_index.xml

      и для поддомена , там ошибка в строке 5
      User-agent: *
      Disallow: /wp-admin/
      Allow: /wp-admin/admin-ajax.php

      User-agent: *
      Disallow: /cgi-bin/
      Disallow: /wp-/
      Disallow: /?s=/
      Disallow: /*&s=/
      Disallow: /search/
      Disallow: /author/
      Disallow: /*?attachment_id=/
      Disallow: /*/feed/
      Disallow: /*/rss/
      Disallow: /*/embed/
      Allow: /wp-content/uploads/
      Allow: /wp-content/themes/
      Allow: /*/*.js
      Allow: /*/*.css
      Allow: /wp-*.png
      Allow: /wp-*.jpg
      Allow: /wp-*.jpeg
      Allow: /wp-*.gif
      Allow: /wp-*.svg
      Allow: /wp-*.pdf
      Disallow: /cgi-bin/
      Disallow: /wp-/
      Disallow: /?s=/
      Disallow: /*&s=/
      Disallow: /search/
      Disallow: /author/
      Disallow: /*?attachment_id=/
      Allow: /wp-content/uploads/
      Allow: /wp-content/themes/
      Allow: /*/*.js
      Allow: /*/*.css
      Allow: /wp-*.png
      Allow: /wp-*.jpg
      Allow: /wp-*.jpeg
      Allow: /wp-*.gif
      Allow: /wp-*.svg
      Allow: /wp-*.pdf

      Sitemap: https://………..ru/sitemap.xml

      Зараннее спасибо за ответ

      Ответить
    2. Admin автор

      Здравствуйте. Поддомены расположены в корне сайта, то есть в корневом каталоге, где все файлы сайта. Поэтому у домена и поддомена должен быть один файл robots.txt. Его правила будут применяться к поддоменам. Сделайте все правила для домена и поддоменов в одном файле.

      Ответить
    3. Admin автор

      Здравствуйте. Разобрались с настройкой robots.txt? Ещё вопросы есть? Вам нужно только один файл создать и в нём указать все правила для домена и поддомена. Отпишитесь мне о результатах пожалуйста.

      Ответить