
Хотелось бы дать несколько рекомендаций по составлению robots.txt, а также привести пример своего, написанного для WordPress.
Итак, для начала, простенький вопрос: что это и зачем это? Поисковые системы (по крайней мере, те три, на которые мы с вами нацелены: Yandex, Google, Rambler) начинают индексацию вашего сайта с анализа файла robots.txt, который должен лежать в корне вашего сайта.
Сразу скажу, к чему приводит отсутствие robots.txt. Поисковый робот не может тратить бесчисленное время на ваш сайт (особенно, если популярность его не высока). Он добавляет в индекс какое-то количество страниц сайта и уходит. Спустя время, он возвращается и индексирует ещё какое-то количество страниц.
Поэтому, если на сайте нет robots.txt или он неправильно настроен, робот может либо не найти какие-то важные для сайта страницы, либо сначала ему попадутся малополезные, а до важных он доберётся в последнюю очередь. Что процветанию вашего сайта также вряд ли поможет. Я уж не говорю про попадание в индекс страниц, которые не предназначены для посторонних глаз.
Думаю, важность наличия robots.txt на сайте вы осознали. Пойдём дальше.
Итак, создаём файлик в корне нашего сайта (папка на хостинге, где лежат страницы и файлы сайта) с именем robots.txt. Обратите внимание: именно в нижнем регистре. У robots.txt есть следующие директивы:
- # — вся строка после этого символа считается комментарием.
- User-agent — имя робота, для которого далее описываются инструкции (из основных поисковых роботов: Yandex, StackRambler, Googlbot).
- Disallow — после этой директивы мы и должны указать файл или папку, к которой запрещаем доступ. Относительно корня вашего сайта (иначе мы бы могли запрещать доступ к содержимому чужих сайтов). Разрешается указывать только одну папку или имя файла в одной строке. Для указания списка папок или файлов нужно написать так:
Disallow: /images/
Disallow: /wp-admin/
Disallow: /wp-content/ - * — маскирующий символ, который означает все допустимые имена (поисковых роботов, папок, файлов). Например, чтобы запретить индексацию всех комментариев в WordPress, нужно написать:
Disallow: */all-comments/
- Переход на следующую строку определяется спецсимволами CR, CR+LF, LF. Стоит заметить, что пустых строк robots.txt содержать не должен. Обратите на это внимание, так как пустые строки — одна из наиболее частых ошибок при создании robots.txt. Например, если содержимое файла будет вида
User-agent: Yandex
Disallow: /images/
Disallow: /wp-admin/Disallow: /wp-content/
, то Яндекс закончит чтение инструкций на строке «Disallow: /wp-admin/» и перейдёт к индексированию. Таким образом под индексацию попадёт содержимое «/wp-content/». - Если, например, в строке «Disallow: /img/» убрать в конце слеш, то будет запрещена индексация файлов, пусть которых начинается с img:
Disallow: /img
Существуют также директивы и спецсимволы, которые поддерживают отдельные поисковые системы. Ознакомиться с ними можно в документации и справочных системах поисковиков (ссылки ниже). Например, часто используется директива «Allow», поддерживаемая Яндексом и Гуглом, которая разрешает доступ к определённым файлам и папкам. Ещё есть директива «Sitemap», которая указывает карту вашего сайта. Также Яндексом поддерживается директива «Host», которая помогает избежать проблем с зеркалами и определением главного имени сайта.
Далее выкладываю пример файла robots.txt с одного моего блога на WordPress.
Robots.txt для WordpressUser-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /images/ Disallow: /tag/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: */trackback/ Disallow: /download/ Disallow: */all-comments/ Disallow: /?s=* Disallow: */trackback Disallow: */feed Disallow: */comments Host: seoded.ru Sitemap: http://seoded.ru/sitemap.xml
За более подробной информацией можно сходить в справку к поисковикам:
Для проверки своих robots.txt используйте сервисы для вебмастеров поисковых систем:
Автор: OneBaks.
Дополнение от VipPrime
Мда. Случилось с моими блогами одна интересная весчь.
В индексе Гугла около 10 страниц такого вида:
Index of /wp-content/plugins/
Конечно, вы понимаете, что это не должно было там оказаться. Это служебные папки, которые должны быть скрыты.
Ну... в общем... я не знаю, что со мной произошло, но я совсем забыл о файле robots.txt и пытался закрыть эту дыру, ставив в корни служебных папок пустой index.php файл. Ну, вот так я решил выйти из ситуации... что поделать.
Потом на одном из форуме встретил упоминания о robots.txt для Вордпресс и сразу же вспомнил, что существует таблетка для «моего» индекса блогов.
Итак, чем полезен правильный robots.txt?
- Помогает защититься от индексации дублированного контента;
- Помогает избежать индексации служебных папок и файлов, это информация обязательно должны быть скрыта.
Итак, вот и сами варианты robots.txt для Wordpress.
Вариант использования robots.txt от codex.wordpress.org:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
Sitemap: http://www.seoded.com/sitemap.xml
Это не означает, что это единственный правильный вариант. Есть много способов такого рода оптимизации и вот вам ещё несколько. Выбирайте сами, какой использовать. Значение файлов должно быть понятным.
Robots.txt для WordPress под русские поисковики:
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: seoded.ru
Да, неплохо бы Яндекс индивидуально носом ткнуть в правила индексации. Этот чудила может немало натворить неадекватностей.
Самый матёрый вариант SEO-оптимизации файла robots.txt для зарубежных поисковиков:
User-agent: *
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /z/j/
Disallow: /z/c/
Disallow: /stats/
Disallow: /dh_
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /contact/
Disallow: /tag/
Disallow: /wp-content/b
Disallow: /wp-content/p
Disallow: /wp-content/themes/askapache/4
Disallow: /wp-content/themes/askapache/c
Disallow: /wp-content/themes/askapache/d
Disallow: /wp-content/themes/askapache/f
Disallow: /wp-content/themes/askapache/h
Disallow: /wp-content/themes/askapache/in
Disallow: /wp-content/themes/askapache/p
Disallow: /wp-content/themes/askapache/s
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /z/
Disallow: /wp-*
Allow: /wp-content/uploads/
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /z/
Allow: /about/
Allow: /contact/
Allow: /wp-content/
Allow: /tag/
Allow: /manual/*
Allow: /docs/*
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$
# disallow archiving site
User-agent: ia_archiver
Disallow: /
# disable duggmirror
User-agent: duggmirror
Disallow: /
Что делает каждый пример — вам должно быть понятно. Выберите лучший для себя вариант. Можете совместить и вообще — можете написать свой вариант сами.
Успехов!
Автор: VipPrime.