robots.txt Как создать свой сайт > Вебмастеру > Создание своего сайта > Составляем robots.txt

Составляем robots.txt

Алиханов был хорошим надзирателем.
И это всё же лучше, чем быть плохим надзирателем.
«Зона. Записки надзирателя», Сергей Довлатов.
17 июля 2008

    Хотелось бы дать несколько рекомендаций по составлению robots.txt, а также привести пример своего, написанного для WordPress.


    Итак, для начала, простенький вопрос: что это и зачем это? Поисковые системы (по крайней мере, те три, на которые мы с вами нацелены: Yandex, Google, Rambler) начинают индексацию вашего сайта с анализа файла robots.txt, который должен лежать в корне вашего сайта.

    Сразу скажу, к чему приводит отсутствие robots.txt. Поисковый робот не может тратить бесчисленное время на ваш сайт (особенно, если популярность его не высока). Он добавляет в индекс какое-то количество страниц сайта и уходит. Спустя время, он возвращается и индексирует ещё какое-то количество страниц.

    Поэтому, если на сайте нет robots.txt или он неправильно настроен, робот может либо не найти какие-то важные для сайта страницы, либо сначала ему попадутся малополезные, а до важных он доберётся в последнюю очередь. Что процветанию вашего сайта также вряд ли поможет. Я уж не говорю про попадание в индекс страниц, которые не предназначены для посторонних глаз.

    Думаю, важность наличия robots.txt на сайте вы осознали. Пойдём дальше.

    Итак, создаём файлик в корне нашего сайта (папка на хостинге, где лежат страницы и файлы сайта) с именем robots.txt. Обратите внимание: именно в нижнем регистре. У robots.txt есть следующие директивы:

  • # — вся строка после этого символа считается комментарием.

  • User-agent — имя робота, для которого далее описываются инструкции (из основных поисковых роботов: Yandex, StackRambler, Googlbot).

  • Disallow — после этой директивы мы и должны указать файл или папку, к которой запрещаем доступ. Относительно корня вашего сайта (иначе мы бы могли запрещать доступ к содержимому чужих сайтов). Разрешается указывать только одну папку или имя файла в одной строке. Для указания списка папок или файлов нужно написать так:

    Disallow: /images/
    Disallow: /wp-admin/
    Disallow: /wp-content/


  • * — маскирующий символ, который означает все допустимые имена (поисковых роботов, папок, файлов). Например, чтобы запретить индексацию всех комментариев в WordPress, нужно написать:

    Disallow: */all-comments/


  • Переход на следующую строку определяется спецсимволами CR, CR+LF, LF. Стоит заметить, что пустых строк robots.txt содержать не должен. Обратите на это внимание, так как пустые строки — одна из наиболее частых ошибок при создании robots.txt. Например, если содержимое файла будет вида

    User-agent: Yandex
    Disallow: /images/
    Disallow: /wp-admin/

    Disallow: /wp-content/

    , то Яндекс закончит чтение инструкций на строке «Disallow: /wp-admin/» и перейдёт к индексированию. Таким образом под индексацию попадёт содержимое «/wp-content/».

  • Если, например, в строке «Disallow: /img/» убрать в конце слеш, то будет запрещена индексация файлов, пусть которых начинается с img:

    Disallow: /img

    Существуют также директивы и спецсимволы, которые поддерживают отдельные поисковые системы. Ознакомиться с ними можно в документации и справочных системах поисковиков (ссылки ниже). Например, часто используется директива «Allow», поддерживаемая Яндексом и Гуглом, которая разрешает доступ к определённым файлам и папкам. Ещё есть директива «Sitemap», которая указывает карту вашего сайта. Также Яндексом поддерживается директива «Host», которая помогает избежать проблем с зеркалами и определением главного имени сайта.

    Далее выкладываю пример файла robots.txt с одного моего блога на WordPress.

Robots.txt для Wordpress
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /images/
Disallow: /tag/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: */trackback/
Disallow: /download/
Disallow: */all-comments/
Disallow: /?s=*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: seoded.ru
Sitemap: http://seoded.ru/sitemap.xml

    За более подробной информацией можно сходить в справку к поисковикам:

    Для проверки своих robots.txt используйте сервисы для вебмастеров поисковых систем:

Автор: OneBaks.

Дополнение от VipPrime

    Мда. Случилось с моими блогами одна интересная весчь.

    В индексе Гугла около 10 страниц такого вида:
Index of /wp-content/plugins/

    Конечно, вы понимаете, что это не должно было там оказаться. Это служебные папки, которые должны быть скрыты.

    Ну... в общем... я не знаю, что со мной произошло, но я совсем забыл о файле robots.txt и пытался закрыть эту дыру, ставив в корни служебных папок пустой index.php файл. Ну, вот так я решил выйти из ситуации... что поделать.

    Потом на одном из форуме встретил упоминания о robots.txt для Вордпресс и сразу же вспомнил, что существует таблетка для «моего» индекса блогов.

    Итак, чем полезен правильный robots.txt?

  1. Помогает защититься от индексации дублированного контента;
  2. Помогает избежать индексации служебных папок и файлов, это информация обязательно должны быть скрыта.

    Итак, вот и сами варианты robots.txt для Wordpress.

Вариант использования robots.txt от codex.wordpress.org:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /

# digg mirror
User-agent: duggmirror
Disallow: /

Sitemap: http://www.seoded.com/sitemap.xml

    Это не означает, что это единственный правильный вариант. Есть много способов такого рода оптимизации и вот вам ещё несколько. Выбирайте сами, какой использовать. Значение файлов должно быть понятным.

Robots.txt для WordPress под русские поисковики:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: seoded.ru

    Да, неплохо бы Яндекс индивидуально носом ткнуть в правила индексации. Этот чудила может немало натворить неадекватностей.

Самый матёрый вариант SEO-оптимизации файла robots.txt для зарубежных поисковиков:

User-agent: *
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /z/j/
Disallow: /z/c/
Disallow: /stats/
Disallow: /dh_
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /contact/
Disallow: /tag/
Disallow: /wp-content/b
Disallow: /wp-content/p
Disallow: /wp-content/themes/askapache/4
Disallow: /wp-content/themes/askapache/c
Disallow: /wp-content/themes/askapache/d
Disallow: /wp-content/themes/askapache/f
Disallow: /wp-content/themes/askapache/h
Disallow: /wp-content/themes/askapache/in
Disallow: /wp-content/themes/askapache/p
Disallow: /wp-content/themes/askapache/s
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/

User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /z/
Disallow: /wp-*
Allow: /wp-content/uploads/

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*

# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /z/
Allow: /about/
Allow: /contact/
Allow: /wp-content/
Allow: /tag/
Allow: /manual/*
Allow: /docs/*
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$

# disallow archiving site
User-agent: ia_archiver
Disallow: /

# disable duggmirror
User-agent: duggmirror
Disallow: /

    Что делает каждый пример — вам должно быть понятно. Выберите лучший для себя вариант. Можете совместить и вообще — можете написать свой вариант сами.

    Успехов!

Автор: VipPrime.

Комментарии:


⇓ 

Поделись ссылкой на Seoded.ru с друзьями, знакомыми и собеседниками в соцсетях и на форумах! А сам сайт добавь в закладки! Так победим.

Поделиться ссылкой на эту страницу в:

Полезные ссылки:

На чём заработать фотографу? На чём заработать мамочке в декрете?

Ещё материалы по этой теме:

Шаблон URL для сайта Загрузка в несколько потоков Browser: компонент для CakePHP Скажи кэшированию… иногда. Часть 2: Memcache Скажи кешированию… иногда :)
основан в 2008 г. © Все права на материалы сайта Seoded.ru принадлежат Алексею Вострову.
Копирование (полное или частичное) любых материалов сайта возможно только с разрешения автора и при указании ссылки на источник.
Ослушавшихся находит и забирает Бабайка!