• Главная»
  • Уроки»
  • Разное»
  • Как правильно использовать файл robots.txt для запрета индексации файлов и папок?

Как правильно использовать файл robots.txt для запрета индексации файлов и папок?

В данном уроке пойдёт речь о закрытии доступа поисковым ботам к тем разделам сайта, которые не следует индексировать. Проще всего это сделать с помощью файла robots.txt, который необходимо разместить в корне сервера.

В этот фаил можно вносить несколько параметров. Первый из них, это параметр User-agent, который указывает на то, какому именно поисковику Вы хотите запретить индексацию тех или иных каталогов или страниц.

Если Вы хотите отнести ваш запрет одновременно ко всем поисковым ботам, то поставьте в это поле звездочку (*).

Далее идет параметр Disallow, который указывает какие именно папки и файлы не нужно индексировать.

Например, нам необходимо запретить поисковику доступ к папкам с изображениями, скриптами, временными файлами, а также к файлам страниц ошибок.

Вот как это будет выглядеть:

User-agent: *
Disallow: /error404.php
Disallow: /error500.php
Disallow: /img/
Disallow: /cgi-bin/
Disallow: /temp/

Таким образом мы запретили поисковым ботам индексировать некоторые страницы и разделы сайта.

Напомню, что набирается всё это дело в обыкновенном блокноте, а затем копируется в корень сервера с помощью FTP клиента обязательно в режиме ASCII (современные FTP клиенты делают это автоматически).

Вот Вам ещё на всякий случай названия самых популярных в рунете поисковых ботов:

Вот самые распространённые в Рунете поисковые боты.

Рамблер - StackRambler

Яндекс - Yandex

Google - Googlebot

MSN – msnbot

Пользуйтесь на здоровье!

Данный урок подготовлен для вас командой сайта ruseller.com
Источник урока: www.ruseller.com
Автор: Евгений Попов
Урок создан: 21 Декабря 2007
Просмотров: 36115
Правила перепечатки


5 последних уроков рубрики "Разное"

или авторизуйтесь, чтобы добавлять комментарии, оценивать уроки и сохранять их в личном кабинете
  • 25 Мая 2008 11:20
    Berezovschii
    Отличная урок! Респект за старанье!
  • 14 Июня 2008 00:51
    Snacke
    Спасибо большое за урок. Мне мой друг рассказывал про то что если из строки браузера вызвать этот файл то можно узнать о строении вашего сайта. Тоесть когда пишешь какие папки скрыть от индексирования роботами ты почти открытым текстом говоришь где лежат ценные вещи на сайте. Что дает хакерам немного фору.
  • 14 Июля 2008 22:22
    cmygeHT
    To Snacke а что мешает написать в следующее в .htaccess <FilesMatch ".(txt)$"> Order allow,deny Deny from all </FilesMatch> тем самым запретить доступ к .txt файлам? и все, юные хакеры идут лесом
  • 19 Января 2009 00:01
    Тим
    cmygeHT, а где это надо прописаывть?
  • 27 Января 2009 21:39
    Дмитрий
    В корневой директории сайта есть файл .htaccess Вот в него и надо прописать - <FilesMatch ".(txt)$">order deny,allowdeny from all</FilesMatch> в отдельной строке! Тогда если наберут http://easybiznes.ru/robots.txt будет ошибка 404. Это пример с моим сайтом. Хостинг Ютекс
  • 26 Февраля 2009 15:44
    Юрий
    Если запретить доступ через .htaccess, тогда поисковые боты тоже не смогут достучаться к этому файлу. Я думаю, смысл файла robots.txt не в сокрытии важных данных, а в сокрытии мусора.
  • 9 Апреля 2009 17:43
    artsur
    Спасибо за урок. Хотелось бы ещё отметить, что файл robots.txt должен быть в формате ЮНИКОД. Иначе работать не будет. Поисковые боты просто не поймут, что в нём написано.
  • 6 Декабря 2010 22:36
    xom9lk
    Snacke, cmygeHT, Тим, Дмитрий Юрий абсолютно прав, этот файл будет недоступен для поисковых роботов, и смысла скрывать его нет, если вы боитесь указать важные директории, то можно составить robots.txt таким образом, что в нем будет указанны только файлы и каталоги, которые поисковики могут индексировать, то есть не скрывать от глаз поисковиков "скриптовые" каталоги, а показывать "нескриптовые". Хорошие средства для проверки работы robots.txt есть на google и yandex в разделах для вебмастеров, там же и документация доступным языком написанная.
  • 22 Ноября 2011 19:04
    Zagumen
    товарищи, а что значит вот такая запись: Disallow: /*index.php$ , как ее прочитать? заранее спасибо
^ Наверх ^