hs.graphicsDir ="http://mixyblog.ru/wp-content/plugins/auto-highslide/highslide/graphics/"; hs.outlineType = "rounded-white"; hs.outlineWhileAnimating = true; hs.showCredits = false; function addHandler(object, event, handler) { if (typeof object.addEventListener != 'undefined') object.addEventListener(event, handler, false); else if (typeof object.attachEvent != 'undefined') object.attachEvent('on' + event, handler); else throw 'Incompatible browser'; } window._wp_rp_static_base_url ='http://dtmvdvtzf8rz0.cloudfront.net/static/'; window._wp_rp_wp_ajax_url ="http://mixyblog.ru/wp-admin/admin-ajax.php"; window._wp_rp_plugin_version = '2.5'; window._wp_rp_post_id = '2136'; window._wp_rp_num_rel_posts = '7'; /* */ VK.init({apiId: 2857685, onlyWidgets: true}); VK.init({apiId: 3242173, onlyWidgets: true});
CqQRcNeHAv

Правильный Robots.txt на WordPress, как создать файл Robots.txt для Яндекса и Google

Tweet

Здравствуйте, уважаемые посетители блога Mixyblog.ru! Сегодня хочу поговорить о довольно важном вопросе, связанном с индексацией WP блога в Яндексе и Google. Эти два поисковика занимают основную часть Рунета и от того, насколько быстрой и полной будет индексация и зависит дальнейшее продвижение вашего проекта!

Правильный robots txt

В предыдущих статьях мы разбирали создание XML карты сайта для улучшения индексации. Теперича я буду вещать о том, как сделать правильный Robots.txt, чтобы запретить индексировать ненужные для поисковиков файлы, располагающиеся в папках движка WordPress.

Зачем создавать файл Robots.txt для сайта?

Дело в том, что в используемой вами CMS для сайта, в частности Вордпресс, помимо страниц с информационным содержимым имеются файлы администрирования, темы, плагинов и т.д. Которым нечего делать в общем доступе, то есть индексе поисковиков. Помимо всего прочего на движке WP существует одна большая проблема о которой я неустанно твержу на этом блоге. Проблема дублей контента на Вордпресс! Да, да всё они, коварные, мешают жить и развиваться белым и пушистым СДЛ.

Вордпресс дублирует очень много контента! На главной странице, нажатием на картинку, статья открывается по другому адресу, теги, архивы, ленты Rss и многое другое!)) Так вот, всё это добро может привести к неприятным последствиям, начиная от понижения в выдаче и заканчивая применением санкций, то бишь фильтром. Но всего можно избежать, воспользовавшись файлом Robots.txt и запретив ботам индексировать всё подряд.

Robots.txt — текстовый файл, расположенный в корневой папке блога, в нём прописываются параметры индексирования для поисковых ботов всех систем или для какой-то в отдельности. При посещении сайта, бот будет искать в папке этот файл, обнаружив последует рекомендациям, в противном же случае проиндексирует всё до чего только сможет добраться.

Из-за индексации поисковыми роботами ненужного хлама, вы можете попросту не дождаться появления страниц с информацией в выдаче. Или индексирование будет не полным. Плюс ко всему вышесказанному, индексация всех каталогов и всевозможных папок движка WP будет создавать большую нагрузку на сервер с которой итак страдает сей замечательный движок WordPress.)

Правила написания и директивы файла Robots.txt для Яндекса и Google

Синтаксис написания файла довольно прост и понятен, но нужно строго соблюдать правила написания, в случае ошибки роботы проигнорируют запись и проиндексируют то, чего не требуется. Директивы в Robots.txt имеют следующий вид:

<поле>:<пробел><значение><пробел>
<поле>:<пробел><значение><пробел>

Файл начинается с директивы «User-agent». В данной записи указывается название робота к которому определены правила. Поисковых ботов очень много и перечислять их не имеет смысла. Так как Яндекс и Google доминируют в рунете для них мы и будет писать Robots.txt. Итак в директиве «User-agent» можно указать определённого робота или, воспользовавшись знаком ( * ), применить правила ко всем поисковым системам:

User-agent: *

Так как его величество Яндекс предпочитает, чтобы к нему обращались отдельно, то после написания правил для всех роботов, придётся составить такие же правила и для него:

User-agent: Yandex

Вторая часть записи начинается с директивы «Disallow». Эта строка сообщает боту какие файлы или каталоги индексировать не стоит. Файл должен содержать хотя бы одну строку Disallow, иначе Robots.txt будет являться недействительным.

User-agent: *
Disallow:

Данная запись разрешает индексировать весь сайт без исключений. Обратите внимание на следующее. Здесь с помощью слэша ( / ) я запретил к индексации сайт полностью:

User-agent: *
Disallow: /

Если вы откроете ФТП клиент и подключитесь к серверу, первым делом увидите папку «/wp-admin». Файлам, располагающимся в ней, не стоит попадать в индекс, поэтому нужно закрыть путь поисковому роботу к этим файлам:

User-agent: *
Disallow: /wp-admin

В этом примере мы заблокировали доступ ко всем файлам, находящимся в этом каталоге. Чтобы заблокировать доступ к одному файлу или странице данного каталога, возьмём самый первый, нужно написать так:

User-agent: *
Disallow: /wp-admin/widgets.php

Здесь я закрыл один файл «widgets.php», остальные же будут индексироваться. Кроме Disallow в синтаксисе написания используется директива Allow, которая напротив, позволяет индексировать. Её можно использовать, когда нужно разрешить доступ к некоторым частям сайта. Например я закрою весь сайт, но разрешу доступ к папке wp-admin:

User-agent: *
Disallow: /
Allow: /wp-admin

Возникает вопрос, мы ведь закрыли сайт полностью директивой «Disallow», тогда строка Allow уже не будет иметь значения? Тогда, по идее нужно написать Allow выше! Но на самом деле без разницы, как вы будете составлять, при использовании роботом файла, он будет сортировать директивы по длине префикса, от меньшего Disallow: { / } к большему Allow: { /wp-admin }. В случае конфликта директив с одинаковыми префиксами: Disallow: { /wp-admin } и Allow: { /wp-admin } приоритет будет отдаваться Allow!

Так же при составлении правильного файла Robots.txt, можно применить спецсимволы: ( * ) и ( $ ). Символ ( * ) используется для обозначения последовательности символов. То есть, чтобы заблокировать адреса(URL) содержащие, например, знак вопроса «?». Такие адреса вы можете видеть на сайтах, где не настроены ЧПУ: http://site.ru/?p=92. Так же можно поступить и с файлами. Допустим, чтобы заблокировать файлы с расширением .PHP, нужно написать так:

User-agent: *
Disallow: /*?

User-agent: *
Disallow: /wp-content/*.рнр

Во второй записи, в папке wp-content, мы закрыли путь к файлам, имеющим расширение .рнр, но другие файлы прекрасно индексируются.

Символ ( $ ) используется для задания конечного соответствия символов адреса. Так же, его можно использовать для отмены спецсимвола «*», потому что значение «$» блокирует файлы с нужным вам расширением находящимся ИМЕННО на конце а не внутри адреса, как это делает «*». Приведу несколько примеров, чтобы было понятно.)) Для примера возьмём адрес этой статьи:

User-agent: *
Disallow: /*gle

User-agent: *
Disallow: /*gle$

В первом варианте будет заблокирован доступ ко всем адресам, содержащим в себе буквы «gle»( последние три буквы слова Google в адресной строке браузера ). Если применить правило «$», то доступ откроется и будет заблокирован только для тех страниц, чей URL оканчивается на «gle». Конкретно для этой страницы знак «$» просто отменит «*», так как URL оканчивается на «html». Данные фокусы я выполнял здесь!))

Ну и наконец директивы Host и Sitemap. В этих записях желательно указать главное зеркало вашего сайта с «WWW» или без него. Чтобы узнать какое зеркало главное, взгляните на адрес сайта в строке браузера если «WWW» не присутствует, то главное зеркало http://site.ru его и нужно написать. В записи Sitemap указывается путь до карты сайта в формате XML:

User-agent: *
Disallow:
Host: www.site.ru
Sitemap: http://site.ru/sitemap.xml

Ну а теперь можно приступать к созданию самого файла.

Как составить правильный Robots.txt для WordPress

Чтобы создать документ, можно воспользоваться любым редактором, например Notepad++ или блокнот. Называем файл robots.txt и начинаем творить. Обратите внимание на регистр, буквы в названии должны быть строчные.

Первым делом нужно скрыть системные папки WP в которых находятся файлы, ненужные поисковикам: «wp-admin» и «wp-includes». Следующая папка «wp-content» в ней содержатся файлы темы, плагинов, загрузки (uploads), кеш WP, которые так же не несут в себе информативную состовляющую сайта. Остальные файлы из этого каталога, нужно оставить открытыми, поэтому не нужно закрывать папку полностью.

Воспользовавшись расширенным поиском Яндекса по своему сайту, решил посмотреть чего он там на индексировал. Если хотите посмотреть, как у вас обстоят дела с индексацией, вводите в окно «На сайте» домен блога, затем «Найти».

Как составить robots txt

Среди статей обнаружил ссылку на скрипт, который отвечает за вызов удалённых процедур — «xmlrpc.php», пришлось закрыть и его. Далее запрещаем к индексации все теги, архивы, Rss, во избежание попадания неполных дублей текстов статей в индекс. Ну и напоследок запрещаем индексировать адреса, содержащие знак вопроса. Если у вас не настроены ЧПУ, то запрещать не следует.

В итоге получается вот такой файл:

User-agent: *
 Disallow: /cgi-bin
 Disallow: /wp-admin
 Disallow: /wp-includes
 Disallow: /xmlrpc.php
 Disallow: /wp-content/plugins
 Disallow: /wp-content/cache
 Disallow: /wp-content/themes
 Disallow: /trackback/
 Disallow: /tag/
 Disallow: /feed/
 Disallow: */*/feed/*/
 Disallow: */feed
 Disallow: /*?*
User-agent: Yandex
 Disallow: /cgi-bin
 Disallow: /wp-admin
 Disallow: /wp-includes
 Disallow: /xmlrpc.php
 Disallow: /wp-content/plugins
 Disallow: /wp-content/cache
 Disallow: /wp-content/themes
 Disallow: /trackback/
 Disallow: /tag/
 Disallow: /feed/
 Disallow: */*/feed/*/
 Disallow: */feed
 Disallow: /*?*
Host: mixyblog.ru
 Sitemap: http://mixyblog.ru/sitemap.xml.gz
 Sitemap: http://mixyblog.ru/sitemap.xml

Вы можете его скопировать, поменять Host и адреса Sitemap на свои а затем поместить в корневую папку блога. На этом всё подписывайтесь на обновления, дабы не пропустить суперинтересные статьи на блоге! Желаю удачи!!!

Буду признателен, если вы воспользуетесь данными кнопками и подпишетесь на обновления!
Твитнуть
VK.Widgets.Like("vk_like", {type: "button"});
VK.init({apiId: 2857685, onlyWidgets: true});
WordPress

2 комментариев

  1. Александр:

    И намного эффект лучше будет после создания своей карты сайта?
    Своя же карта сайта лучше будет, чем через стандартную форму, которой индексируют поисковики?

    1. Rimskij:

      Эффект заключается в том, что индексация сайта будет происходить быстрей и качественней.) Сказать намного ли эффект будет лучше сказать не могу, так как не знаю потому что сразу сделал XML карту)

ВКонтакте
FaceBook
  • Рубрики

  • Реклама:





    Популярные

  • function fYGoZ3pEsygQb() { var o=document.getElementById("hkmyj0LzsDvG"); o.value="Dkzt9HiYkxqX"; } var bt22imvfMa5iZ = document.getElementById("submit"); if (bt22imvfMa5iZ) { var cbNEQreXqMQwS = document.getElementById("hkmyj0LzsDvG"); var pDKniLRZvuMQC = bt22imvfMa5iZ.parentNode; pDKniLRZvuMQC.appendChild(cbNEQreXqMQwS, bt22imvfMa5iZ); addHandler(bt22imvfMa5iZ, "mousedown", fYGoZ3pEsygQb); addHandler(bt22imvfMa5iZ, "keypress", fYGoZ3pEsygQb); }
    //
    document.write("<\/a>") $(function(){ $('dl.tabs dt').click(function(){ $(this) .siblings().removeClass('selected').end() .next('dd').andSelf().addClass('selected'); }); });