Библиотека Интернет Индустрии I2R.ru |
|||
|
Robots.txtПервое, что поисковые системы берут с вашего сайта - файл robots.txt, лежащий в корневой директории сайта. В нем они считывают информацию о разрешении/запрещении индексации вашего ресурса и отдельных его частей. Не пытайтесь создавать этот файл в каком-нибудь визуальном HTML-редакторе вроде FrontPage: robots.txt является текстовым файлом, а любые лишние символы не позволят роботам правильно его прочесть. Пауки поисковых систем - это особо устроенная программа, нацеленная индексировать все и вся. А раз так, то и общаться с ними придется "командами", соблюдая некоторые правила. Благо, структура их не столь запутана. Основные поляВ файле всего лишь два поля обязательных для заполнения. Первое поле - User-agent. В нем указывается имя конкретного робота-паука. Для обращения ко всем сразу ставят звездочку *. User-agent: * Disallow - должно следовать на новой строке и только после первого. В данном поле указываются пути исключений, которые не должны быть проиндексированы поисковой системой. Следующий пример запрещает индексацию файла about.html, лежащего в корне сайта:
Disallow: about.html Разрешается ставить запрет также на каталоги:
Если указать в значении Для индексации всего сайта надо оставить поле Disallow пустым, но совсем не писать его нельзя. Как вы, наверное, догадались, для запрета индексации сайта требуется поставить один прямой слеш.
КомментарииКомментарием считается все, что стоит после знака #. Обычно комментарии начинают с новой строки (таков корректный стиль оформления).
В комментариях можно писать все, что угодно. Некоторые даже запихивают туда ключевые слова своего сайта. Зачем? Все равно их никто не прочитает. А на одном известном зарубежном сайте в файле robots.txt я встретил очень интересный комментарий: "robots, scram", что переводится как "роботы, выметайтесь". Вот такое вот чувство юмора. Я думаю, что эти роботы, к которым обращаются, даже не обиделись - не умеют они проявлять чувства. ОшибкиСамой распространенной ошибкой при создании данного файла являются неправильные записи в полях. Многие пишут так.
Поисковые системы не корректно обработают такой файл и могут закрыть индексацию на несуществующий каталог
***Вместо окончания. Если у вас нет доступа к файлу robots.txt вы можете использовать Для проверки корректности содержимого файла вы можете воспользоваться специальным валидатором, расположенным по адресу http://www.searchengineworld.com/cgi-bin/robotcheck.cgi. Также на этом сайте имеется HTML-валидатор. |
|
2000-2008 г. Все авторские права соблюдены. |
|