Правильный robots.txt для блога на WordPress

Автор: | Рубрика: Блог на Wordpress | Обновлено: 2015-03-14 | Создано:
Просмотров: 1299
Правильный robots.txt для блога на WordPress

Здравствуйте, уважаемые посетители блога!

В этой статье я расскажу о том, как создать правильный robots.txt для WordPress. Но сначала давайте разберемся зачем нужно создавать файл robots.txt, и можно ли обойтись без него?

Если Вы уже создали блога на WordPress или только занимаетесь его разработкой, то заметили, что статьи полностью или анонсами показываются на страницах категорий,  архивов, меток, результатов поиска, а на некоторых блогах и на главной странице. То это приводит к появлению дублированного контента. Т.е. поисковый робот, просматривая сайт, находит один и тот же текст, но по разным адресам. Такой контент он может посчитать не уникальным и приравнять его к ворованному контенту. А это грозит санкциями и фильтром от поисковых систем.

В файле robots.txt как раз и указывается какие разделы блога поисковому роботу нужно индексировать, а какие нет. Также, можно запретить индексацию определенных служебных каталогов.

Как показала практика, за два года многое поменялось. Эта статья была написала в июле 2012 года, а то текст, который Вы читаете сейчас и его продолжение ниже, я написала в июле 2014 года. Собственно, а что поменялось?

Как было раньше. Через файл роботс мы давали указание поисковым роботам не забирать в свою базу определенные страницы сайта. Но теперь, в частности Google, не обращает внимания на указания (директивы) в robots.txt. Не смотря на то, что в robots txt стоит запрет индексации категорий, архивов, древовидных комментариев, а робот все равно их заносит в свою базу.

К счастью, Яндекс, в отличии от Google, не наказывает за дублированные страницы с повторяющимся контетом. Пока не наказывает. Скорее всего придет время, когда технологии Яндекса догонят Google, и тогда реакция Яндекса на дубли будет иной.

Для wordpress robots.txt не такой, как для других движков. И в первую очередь это связано с особенностями самого движка WordPress. В WordPress есть проблема с дублями, которые создают древовидные комментарии. Решение этой проблемы я описывала в статье http://inetsovety.ru/drevovidne-kommentarii-vred-replytocom-i-boryba-s-dublyami-stranits/

Как создать правильный robots.txt для блога на WordPress?

В файле роботс мы разрешаем роботу заходить на страницы с дублями, но запрещаем с помощью мета тега:

<meta name='robots' content='noindex,follow' />

Для абсолютно всех страниц сайта мы не можем добавить этот тег, только для страниц пагинации (постраничной навигации). Остальные дубли мы исключаем с помощью редиректа. Внимательно изучите статью о дублях древовидных комментариев и примените ее, прежде чем ставить себе тот роботс, который я дам ниже. Если Вы поставите на свой блог этот роботс, но не настроите редиректы и мета теги, то рискуете получить  фильтры в поисковиках. Поэтому выполняйте все рекомендации по пунктам. Не поленитесь создать резервные копии файлов темы, файлов .htaccess и robots.txt.

  1.  Вносим правки в файл .htaccess, настраивая редиректы. Можете, либо скопировать и вставить этот код, либо взять готовый файл из предыдущей статьи.
    # BEGIN WordPress
    <IfModule mod_rewrite.c>
    RewriteEngine On
    RewriteBase /
    RewriteCond %{QUERY_STRING} ^replytocom= [NC]
    RewriteRule (.*) $1? [R=301,L]
    RewriteRule (.+)/feed /$1 [R=301,L]
    RewriteRule (.+)/comments /$1 [R=301,L]
    RewriteRule (.+)/comment-page /$1 [R=301,L]
    RewriteRule (.+)/trackback /$1 [R=301,L]
    RewriteRule (.+)/attachment /$1 [R=301,L]
    RewriteCond %{QUERY_STRING} ^attachment_id= [NC]
    RewriteRule (.*) $1? [R=301,L]
    RewriteRule ^index\.php$ - [L]
    RewriteCond %{REQUEST_FILENAME} !-f
    RewriteCond %{REQUEST_FILENAME} !-d
    RewriteRule . /index.php [L]
    </IfModule>
     
    # END WordPress
  2. Добавляем мета тег для постраничной навигации в файл function.php. Код добавляем сразу после строчки <?php:
    	function my_meta_noindex () {
    		if (
    			is_paged() 
    		) {echo "".'<meta name="robots" content="noindex,nofollow" />'."\n";}
    	}
     
    add_action('wp_head', 'my_meta_noindex', 3);
  3. Проверьте, что на страницах постраничной навигации, в рубриках в исходном коде страницы присутствует код
    <meta name='robots' content='noindex,follow' />

    Для этого нажмите CTRL+U (одновременно нажмите на две кнопки на клавиатуре CTRL и U). Чтобы не просматривать сотни строчек кода, снова одновременно нажимаете CTRL и F, на странице с кодом. Внизу слева появится форма поиска по странице. В нее вставляйте meta name и жмите поиск.

  4. Ставим запрет на индексацию нежелательных страниц в плагине All in One Seo Pack:настройки индексации All in One Seo Pack, куда ставить noindex
  5. А вот теперь, когда предыдущие 4 пункта выполнены, ставьте robots.txt, который не запрещает роботам ходит по дублированным страницам. По этой ссылке Вы можете скачать готовый правильный robots.txt для WordPress, который использую я и много других людей - ссылка на скачивание.

После того, как Вы скачали архив с файлом. Вам нужно в самом конце файла поменять сайт.ru на адрес своего сайта. Сделать это нужно в этих строках:

Host: сайт.ru
Sitemap: http://сайт.ru/sitemap.xml.gz
Sitemap: http://сайт.ru/sitemap.xml

Две последние строки указываю поисковому роботу адрес карты сайта.

После того, как Вы изменили в файле robots.txt установили адрес своего сайта, загрузите его на хостинг через ftp клиент FileZilla. Если у Вас возник вопрос, а куда его загружать? Файл robots txt должен находится в основной папке, рядом в папками wp-content, wp-includes.

А в данном видео, Вы более детально сможете узнать о директивах, которые прописываются в robots.txt:

На этом у меня все. Помните, что настройка robots txt оказывает большое влияние на развитие сайта. Чтобы не получить санкций за дублированный контент, нужно настроить редиректы и закрыть мета тегами дубли. До встречи!

С уважением, Виктория – блог inetsovety.ru

Поделиться ссылкой на пост в соц. сетях
Получать уведомления о новых статьях на e-mail
Комментариев: 30 к статье "Правильный robots.txt для блога на WordPress"
  • Петр 2016-01-20 в 19:16

    Кто Вам сказал, что Ваш роботс правильный???

    Ответить
    • Виктория 2016-02-12 в 15:06

      На моих сайтах установлен такой. Проблем пока нет. Если у Вас другой, поделитесь им и напишите, чем он лучше.

      Ответить
  • Руслан 2015-11-16 в 18:23

    Столько всего уже написано в инете про роботс. А ваша статья понравилась. Еще и свой роботс всем раздаете)))
    Мне кажется, что чем проще этот файл, тем лучше. е нужно сильно мудрить со всякими запретами.
    Видел на некоторых сайтах следующее: они специально в роботсе разрешают поисковикам индексировать картинки. Нужно ли это делать?

    Ответить
  • Виталий Охрименко 2015-05-31 в 19:30

    Я уже, честно признаться, запаренный с этим роботсом. Это жесть. К каждому автору заходишь, а у него советы разные.
    Как -то было позапрещал и плагины и тему и еще много чего, так гугль запарил матюкаться. Сейчас открыл все, о чем просил гугл, жду переиндексации чтобы посмотреть что из этого выйдет

    Ответить
    • Алексей Щукин 2015-06-30 в 15:02

      Виталий, согласен с вами. Поисковики начинают наглеть в этом отношении. Яшке подавай, гошке — запрещай. Уже бы определились на чем-то одном.

      Ответить
  • Валентина 2014-05-29 в 21:23

    Виктория! Создала я правильный robots.txt, скачав его на компьютер, изменила данные. И дальше нужно «загрузить через ftp клиент FileZilla». А как это? Что я должна делать? Нажимать ftp, а FileZilla — он же на компьютере? На него нажимать? Нажму , а потом? Мне это нужно, как любят говорить опытные блогеры, забросить в корневую папку блога? Так? А практически как? Этот роботс я вношу в папку блога, щелкая по ней и отпускаю?

    Ответить
    • Виктория 2014-05-30 в 19:27

      На пальцах сложно обьяснить. Надеюсь скоро дойдут руки до записи видеоуроков по работе с Вордпресс, тогда я все подробно покажу.

      Ответить
    • seomodern 2014-05-31 в 15:28

      Зайдите на ФТП-сервер хостинга, где лежит ваш блог. Найдите там файл robots.txt и замените его. Или обратитесь в техподдержку хостинга с просьбой заменить этот файл. Уверен, они не откажут.

      Ответить
      • Виталий Охрименко 2015-05-31 в 19:32

        Конечно не откажут, а если откажут то пора менять хостинг

        Ответить
  • Александр 2014-04-10 в 15:26

    Здравствуйте Виктория, недавно я начал переезд с бесплатного хоста на нормальный, на WordPress, на старом бесплатном хосте robots.txt уже был в шаблоне а здесь нет я начал искать что это и где его искать, в инете куча всякой информации об этом но мне много чего не понятно вот например в вашем robots.txt очень много чего запрещено например фото зачем запрещать его индексирование? И пожалуйста посмотрите мой сайт ,если будет время, и расскажите что нужно исправить.

    Ответить
    • Виктория 2014-04-11 в 17:57

      В файле роботс на Вашем сайте запрещены для индексации основные элементы. Для своего сайта я запретила индексацию отдельных папок, в которых я храню вспомогательные файлы.

      Ответить
      • Александр 2014-04-11 в 18:04

        Так я не понял мне нужно что-то менять или нет?

        Ответить
        • Виктория 2014-04-12 в 06:57

          Менять ничего не нужно.

          Ответить
  • Александр 2014-03-03 в 10:47

    Спасибо! Помогло очень сильно. Написать сам не могу так как новичек и ничего в этом не понимаю. С помощью вас решилась моя проблема. Скажите а комментарии нужно закрывать от индексации?

    Ответить
    • Виктория 2014-03-04 в 09:26

      Комментарии закрывать от индексации не нужно. Только ссылки на сайты комментаторов закройте от индексации плагином WP No External Links

      Ответить
      • Денис 2014-09-04 в 06:39

        Здраствуйте, Виктория! У вас отличный блог, думаю, один из лучших на тему сайтостроения и заработка в Инете. Вам, как автору, респект . А вопрос у меня по поводу плагина WP No External Links. В одном видеокурсе по блогингу слышал настоятельные рекомендации избавляться от этого плагина, так как он работает через 302 редирект, и поисковые системы, и особенно Гугл воспринимают это отрицательно. Вроде как обман поисковиков и пользователя получается, так этот плагин перебрасывает на специально созданную страницу, и только потом уже на сайт автора ссылки. У меня стоит пока этот плагин, хотел даже в настройках поставить галочку, чтобы закрывались от индексации все ссылки на странице (в том числе в сайдбаре), но не стал. А вот сейчас сомнения по поводу этого плагина. Может быть, Виктория, у вас есть какие то мысли, рекомендации по использованию этого плагина. Спасибо.

        Ответить
        • Виктория 2014-09-04 в 20:32

          Здравствуйте, Денис!
          Я на форумах вебмастеров тоже читала об этом плагине, что он из-за 302 редиректа негативно влияет на продвижение сайта в Гугле. Образно говоря, 302 редирект говорит поисковикам, что ссылка ведет на страницу, которая находится где-то там.
          Как вариант можно поставить птичку в настройках плагина WP No External Links против пункта «Не использовать редиректы с 302 заголовками, только яваскрипт». Тогда редирект не будет использоваться.
          Есть другой способ — закрыть ссылки через тэг span. Лично я обратилась к фрилансеру и он мне закрыл ссылки комментаторов таким способом. Сейчас я заменяю ссылки в постах через тэг span. Правда 430 постов быстро не отредактировать( Как-нибудь напишу подробную инструкцию по закрытию ссылок данным способом.

          Ответить
        • Денис 2014-09-04 в 23:40

          Спасибо, Виктория, за ответ!

          Ответить
  • Лариса Галаган 2013-10-29 в 16:11

    Виктория, я немножко не поняла. Робот скачала, данные на свой сайт заменила, зашла на хостинг в файловый менеджер и закачала, измененный файл. На этом все или еще что-то нужно. В видео было сказано понаписать всего. Это нужно писать в том файле, что был скачан? И как быть со страницами, которые проиндексированы, но они не нужны, где их удалять?

    Ответить
    • Виктория 2013-10-29 в 16:22

      Тот файл, который вы скачали у меня стандартный. В нем только нужно было заменить адрес сайта.
      Если Вы удалили с сайта статьи, то они сами выпадут из индекса поисковых систем через некоторое время.

      Ответить
      • Лариса Галаган 2013-10-30 в 03:32

        Я имею ввиду не статьи, а страницы архив, даты. Я же не могу их удалить, их нужно закрыть от индексирования. У меня статей написано 15, а проиндексировано гуглом 50. Страниц не под фильтром 22%. В данный момент боюсь писать, чтобы вообще под фильтр не попасть.

        Ответить
        • Виктория 2013-10-30 в 09:09

          Я на своем блоге не закрываю от индексации категории. У меня складывается такое мнение, что гугл игнорирует роботс. Если яндекс проиндексирвал на моем блоге 700 страниц, то гугл 5000, и это не смотря на то, что для обеих одинаковые ограничения стоят в роботс.
          Для меток и категорий вот какие ограничения.
          Disallow: /tag
          Disallow: /category/*/*

          Ответить
          • seomodern 2014-05-28 в 15:33

            У меня есть сайт, на котором умышленно созданы разные ссылки на один и тот же контент. В Гугл трафик растет, позиции растут. В Яндексе позиции и трафик растут более вяло, но все равно растут. В robots.txt никто не лазил. Пример единичный, но учитывая его и комментарии к этой статье, не вижу смысла лазить в robots? Как Вы считаете? Статья давняя, многое уже поменялось. Может уже нет смысла роботс редактировать?

            Ответить
          • Виктория 2014-05-28 в 19:44

            Этот robots я использую и для новых своих сайтов. Попробуйте ничего не менять, а то вдруг изменения отрицательно повлияют на развитие сайта.

            Ответить
  • alf2012 2013-06-11 в 23:39

    Уже третий раз уточняю и углубляю robots.txt, но Гугл его упрямо игнорирует. Если Яндекс индексирует более-менее реальное количество страниц, то у Гугла их было раза в четыре больше, а после установки плагина карты сайта соотношение вообще стало 9 к 1 😯

    Ответить
  • Юлия Андреевна 2013-03-30 в 20:29

    Тоже себе на сайтик установила robots.txt — сразу началась активная индексация. Спасибо за этот совет для начинающих блогеров, очень помогает.

    Ответить
  • sander 2013-01-08 в 09:29

    На моем блоге 40 постов, а ПС Яндекс загрузил для индексирования почти 200 страниц, проиндексировано около 100 страниц.

    Напрашиваеся вывод, что обязательно нужно создавать файл robots.txt, иначе многие страницы могу быть забанены.

    Спасибо за иформацию. С уважением Афанасьев Александр

    Ответить
    • Виктория 2013-01-08 в 12:26

      В файле robots.txt Вы указываете какие страницы и директории можно индексировать роботам, а какие нет. Без файла robots.txt роботы будут индексировать все подряд.

      Ответить
      • sander 2013-01-08 в 16:16

        Все-таки файл robots.txt выставил, хотя месяц как собирался. Чтоб не думалось.

        Ответить
  • Андрей 2012-12-26 в 07:23

    Очень помогло, при создании файла

    Ответить
Оставить комментарий
Нажмите, чтобы отменить ответ.

Комментарий появится после проверки. Комментарии, содержащие спам и ненормативную лексику будут удалены!