Библиотека Интернет Индустрии I2R.ru |
|||
|
Поисковые машиныВведениеОдним из основных способов найти информацию в Internet являются поисковые машины. Поисковые машины каждый день "ползают" по Сети: они посещают веб-страницы и заносят их в гигантские базы данных. Это позволяет пользователю набрать некоторые ключевые слова, нажать "submit" и увидеть, какие страницы удовлетворяют его запросу.
Основные поисковые машиныКакие из сотен поисковых машин действительно важны для вебмастера?
Поисковые машины: (spiders, crawlers) постоянно исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Примером может быть поисковая система Altavista.
Каталоги: в отличие от поисковых машин в каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Примером каталога может служить Yahoo.
AltavistaСистема открыта в декабре 1995. Принадлежит компании DEC С 1996 года сотрудничает с Yahoo Excite SearchЗапущенная в конце 1995 года, система быстро развивалась. В июле 1996 куплена Magellan, в сентябре 1996 - приобретена WebCrawler. Однако, оба используют ее отдельно друг от друга. Возможно в будущем они будут работать вместе.
HotBotЗапущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi. InfoSeekЗапущена чуть раньше 1995 года, широко известна, прекрасно ищет и легко доступна. В настоящее время "Ultrasmart/Ultraseek" содержит порядка 50 миллионов URL.
LycosПримерно с мая 1994 года работает одна из старейших поисковых систем Lycos. Широко известная и часто используемая. В ее состав входит поисковая машина Point (работает с 1995 года) и каталог A2Z (работает с февраля 1996 года). OpenTextСистема OpenText появилась чуть раньше 1995 года. С июня 1996 года стала партнерствовать с Yahoo. Постепенно теряет свои позиции и вскоре перестанет входить в число основных поисковых систем. WebCrawlerОткрыта 20 апреля 1994 года как исследовательский проект Вашингтонского Университета. В марте 1995 года была приобретена компанией America Online
YahooСтарейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен еще один каталог Yahoo - Yahooligans для детей. Появляются все новые и новые региональные и top-каталоги Yahoo.
Особенности поисковых машинКаждая поисковая машина обладает рядом особенностей. Эти особенности следует учитывать при изготовлении своих страниц. Ниже приведена сравнительная таблица основных поисковых машин. Прочерк означает неизвестные или неисследованные значения. Тип поисковой машины"Полнотекстовые" поисковые машины индексируют каждое слово на веб-странице, исключая лишь некоторые стоп-слова. "Абстрактные" поисковые машины создают некий экстракт каждой страницы.
РазмерРазмер поисковой машины определяется количеством проиндексированных страниц. Приведенные в таблице значения не слишком точны, но могут прояснить некоторые моменты. Например, в поисковой машине с большим размером могут быть проиндексированы почти все ваши страницы, при среднем объеме ваш сервер может быть частично проиндексирован, а при малом объеме ваши страницы могут вообще не попасть в каталоги поисковой машины. Период обновленияПоскольку Веб изменяется непрерывно, поисковые машины индексируют все без учета даты. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы пользователей, могут быть однодневной давности, а могут быть и месячной давности, а то и больше.
Дата индексирования документаНекоторые поисковые машины показывают дату, когда был проиндексирован тот или иной документ. Это помогает пользователю понять, какой "свежести" ссылку выдает поисковая система. Другие оставляют пользователям только догадываться об этом. Указанные (submitted) страницыВ идеале поисковые машины должны найти любые страницы любого сервера в результате прохода по ссылкам. Реальная картина выглядит по-другому. Станицы серверов гораздо раньше появляются в индексах поисковых систем, если их прямо указать (Add URL). Не указанные (non-submitted) страницыЕсли хотя бы одна страница сервера указана, то поисковые машины обязательно найдут следующие страницы по ссылкам из указанной. Однако на это требуется больше времени. Некоторые машины сразу индексируют весь сервер, но большинство все-таки, записав указанную страницу в индекс, оставляют индексирование сервера на будущее. Глубина индексированияЭтот параметр относится только к не указанным страницам. Он показывает сколько страниц после указанной будет индексировать поисковая система.
Поддержка фреймовЕсли поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании. Поддержка ImageMapТут примерно та же проблема, что и с фреймовыми структурами серверов Защищенные паролями директории и сервераНекоторые поисковые машины могут индексировать такие сервера, если им указать Username и Password. Зачем это нужно? Чтобы пользователи видели, что есть на Вашем сервере. Это позволяет как минимум узнать, что такая информация есть, и, быть может, они тогда подпишутся на Вашу информацию. Частота появления ссылокОсновные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются из других мест Сети. Некоторые машины на основании таких данных "делают вывод" стоит или не стоит тратить время на индексирование такого документа. "Способность к обучению"Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать, если редко - реже. Контроль индексацииПоказывает, какими средствами можно управлять той или иной поисковой машиной. Все крупные поисковые машины руководствуются предписаниями файла robots.txt. Некоторые также поддерживают контроль с помощью META-тагов из самих индексируемых документов. Перенаправление (redirect)Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает какой URL будет связан с вашими документами. Это важно, поскольку, если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы с несуществующими файлами. Стоп-словаНекоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или просто очень часто использующиеся слова. А не включают их ради экономии места на носителях. Например, Altavista игнорирует слово web и для запросов типа web developer будут выданы ссылки только по второму слову. Существуют способы избежать подобного. Влияние на алгоритм определения релевантностиПоисковые машины обязательно используют расположение и частоту повторения ключевых слов в документе. Однако, дополнительные механизмы увеличения степени релевантности для каждой машины различны. Этот параметр показывает, какие именно механизмы существуют для той или иной машины. Spam-штрафыВсе крупные поисковые системы "не любят", когда какой-либо сайт пытается повысить свой рейтинг путем, например, многократного указания себя через Add URL или многократного упоминания одного и того же ключевого слова и т. д. В большинстве случаев подобные действия (spamming, stacking) караются, и рейтинг сайта наоборот падает. Поддержка META-таговПо идее, все поисковые машины должны учитывать метаданные при индексации страниц, однако на практике не все это делают. Как использовать метаданные можно прочитать в статьях "Несколько слов о работе роботов поисковых машин" и "Использование META-тагов". TitleЭтот параметр показывает как поисковые машины генерируют заголовки ссылок для пользователя в ответ на его запрос. DescriptionЭтот параметр показывает как поисковые машины генерируют описания ссылок для пользователя в ответ на его запрос. Проверка статуса URLОчень полезная для вебмастера черта поисковой машины - можно ли проверить насколько глубоко проиндексирован его сервер и есть ли он вообще в индексе поисковой машины. Удаление старых данныхПараметр, определяющий действия вебмастера при закрытии сервера или перемещении его на другой адрес. Возможны два действия: просто удалить старое содержание и переписать файл robots.txt.
Имя поискового роботаВ этом пункте указаны имена роботов, которыми они отвечают на HTTP-запрос. Полезно для написания robots.txt. |
|
2000-2008 г. Все авторские права соблюдены. |
|