На главную

Библиотека Интернет Индустрии I2R.ru

Rambler's Top100

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...

Забобрить эту страницу! Забобрить! Блог Библиотека Сайтостроительства на toodoo
  Поиск:   
Рассылки для занятых...»
I2R » Сайтостроительство » Раскрутка сайта

Robots.txt

Первое, что поисковые системы берут с вашего сайта - файл robots.txt, лежащий в корневой директории сайта. В нем они считывают информацию о разрешении/запрещении индексации вашего ресурса и отдельных его частей.

Не пытайтесь создавать этот файл в каком-нибудь визуальном HTML-редакторе вроде FrontPage: robots.txt является текстовым файлом, а любые лишние символы не позволят роботам правильно его прочесть.

Пауки поисковых систем - это особо устроенная программа, нацеленная индексировать все и вся. А раз так, то и общаться с ними придется "командами", соблюдая некоторые правила. Благо, структура их не столь запутана.

Основные поля

В файле всего лишь два поля обязательных для заполнения.

Первое поле - User-agent. В нем указывается имя конкретного робота-паука. Для обращения ко всем сразу ставят звездочку *.

User-agent: * Второе поле - Disallow - должно следовать на новой строке и только после первого. В данном поле указываются пути исключений, которые не должны быть проиндексированы поисковой системой. Следующий пример запрещает индексацию файла about.html, лежащего в корне сайта: Disallow: about.html

Разрешается ставить запрет также на каталоги:

Disallow: /image/

#не индексировать рисунки, лежащие в этой папке

Если указать в значении Disallow запись /image, то, по стандарту, не будет проиндексирован как каталог с графикой, так и файл image.html, расположенный в корне.

Для индексации всего сайта надо оставить поле Disallow пустым, но совсем не писать его нельзя.

Как вы, наверное, догадались, для запрета индексации сайта требуется поставить один прямой слеш.

User-agent: *
Disallow: /

Комментарии

Комментарием считается все, что стоит после знака #. Обычно комментарии начинают с новой строки (таков корректный стиль оформления).

#Файл для роботов с ресурса WebBegin.INFO
User-agent: *
Disallow: /cgi-bin/

В комментариях можно писать все, что угодно. Некоторые даже запихивают туда ключевые слова своего сайта. Зачем? Все равно их никто не прочитает. А на одном известном зарубежном сайте в файле robots.txt я встретил очень интересный комментарий: "robots, scram", что переводится как "роботы, выметайтесь". Вот такое вот чувство юмора. Я думаю, что эти роботы, к которым обращаются, даже не обиделись - не умеют они проявлять чувства.

Ошибки

Самой распространенной ошибкой при создании данного файла являются неправильные записи в полях. Многие пишут так.

User-agent: *
Disallow: /news/ /cgi-bin/ /image/

Поисковые системы не корректно обработают такой файл и могут закрыть индексацию на несуществующий каталог /news/cgi-bin/image/ вместо трех заданных. Правильное написание такое:

User-agent: *
Disallow: /news/
Disallow: /cgi-bin/
Disallow: /image/

***

Вместо окончания. Если у вас нет доступа к файлу robots.txt вы можете использовать META-теги, и через них запрещать индексацию.

Для проверки корректности содержимого файла вы можете воспользоваться специальным валидатором, расположенным по адресу http://www.searchengineworld.com/cgi-bin/robotcheck.cgi. Также на этом сайте имеется HTML-валидатор.

Автор: Полянко Александр
Источник: http://www.webbegin.info

Спонсор раздела

Рассылки Subscribe.ru:

Библиотека сайтостроительства - новости, статьи, обзоры
Дискуссионный лист для web-разработчиков
Подписка на MailList.Ru
Автор: NunDesign
Другие разделы
Оптимизация сайтов
Web-студии
» Новое в разделе
Web-дизайн
Web-программирование
Интернет-реклама
Раскрутка сайта
Web-графика
Flash
Adobe Photoshop
Рассылка
Инструменты вебмастера
Контент для сайта
HTML/DHTML
Управление web-проектами
CSS
I2R-Журналы
I2R Business
I2R Web Creation
I2R Computer
рассылки библиотеки +
И2Р Программы
Всё о Windows
Программирование
Софт
Мир Linux
Галерея Попова
Каталог I2R
Партнеры
Amicus Studio
NunDesign
Горящие путевки, идеи путешествийMegaTIS.Ru

2000-2008 г.   
Все авторские права соблюдены.
Rambler's Top100