![]() |
Библиотека Интернет Индустрии I2R.ru |
||
![]() ![]() |
Двое из ларца, одинаковых с лица.При поиске информации в Интернет мы можем воспользоваться различными порталами, которые нам обещают найти информацию, релевантную нашему запросу, во всем Интернет-пространстве. Времена, когда вездесущие пчелки-роботы осматривали все сайты Сети, давно канули в Лету. Дай Бог, чтобы они успевали просматривать те сайты, которые в информационных системах регистрируются. Правда, некоторые исследователи (см. отчеты NUA) полагают, что дело не в стремительном росте Сети, а в экономике. Если у Вас есть бюджет на рекламу, то Вы попадете в каталог, если нет, - то не попадете. Наиболее емкий каталог Northern Light охватывает только 16% Сети. При этом показатели Altavista и Yahoo скромнее – 15.5% и 7.4%, соответственно. На основе личного опыта могу утверждать, что в Altavista попасть можно, но не с первого раза и не всем сайтом целиком. Вообще говоря, исследователи из NEC Research Institute (Princenton, NJ) утверждают, что на индексирование нового сайта в поисковых машинах в среднем уходит 6 месяцев. Так что ждать немедленного наплыва посетителей на ваши страничке после первых попыток регистрации их в поисковых системах не приходится. Тем не менее, если администратор системы начал процесс ее регистрации и довел его до логического завершения, то он, как правило, регистрирует систему во всех более или менее популярных каталогах, поэтому в первом предположении исходные массивы документов можно считать в некотором смысле идентичными. Проверим это. Зададим один и тот же запрос разным информационно-поисковым системам и посмотрим на результаты. Мировых фаворитов мы "озадачим" словосочетанием "Information Retrieval", а отечественные системы – "информационный поиск".
Как показал просмотр результатов поиска, число найденных документов прямо пропорционально числу релевантных. Документы в Yahoo – страницы далеко не первой свежести. Это говорит о том, что тематический профиль системы давно сместился в плоскость электронной коммерции. Там еще есть качественные старые материалы, написанные на основе фундаментальных исследований, но притока новых уже давно не наблюдалось. Для тех, кто умеет искать, и не только по тематике нашего запроса, лучшей системой продолжает оставаться Altavista, которая, кстати сказать, не делает тайны из реализованных в ней алгоритмов поиска, но об этом как-нибудь в следующий раз. Из отечественных систем можно смело сконцентрироваться только на двух: Яндекс и Рамблер. Результаты нашего исследования только лишний раз подчеркивают закономерность, которая состоит в том, что объемы этих баз данных поисковых образов документов на два порядка превосходят массивы других российских поисковых систем вместе взятых. Единственно, для кого следует сделать исключение – это List.ru. Результат, полученный нами (126 документов) говорит только о низком качестве организации массива и непродуманной системе индексирования и каталогизации. То, что Яндекс ищет лучше Рамблера – хорошо известный факт. Только нужно уметь искать. Коммерциализация, конечно, не обошла стороной творение CompTek, и искать стало труднее, но по сравнению с объемом "мусора", который вываливает Рамблер Яндекс выглядит идеалом (см. результаты нашего опроса). По другим показателям отечественные и зарубежные системы сравнивать просто некорректно. Любая наша система не борется с нагрузкой порядка 120 млн. запросов в сутки, как об этом сообщает Lycos или Altavista. Максимум на что их испытывает отечественная аудитория, так это около 3 млн. хитов, которые красуются на первой странице Рамблер. Возможно, это вызвано пропускной способностью канала или другими причинами, о которых нам не известно, но факт остается фактом – это на два порядка меньше, чем у лидеров индустрии. В Яндекс эту информацию сообщают только рекламодателям, но думаю, что порядки величин отличаются не очень сильно. Согласитесь два порядка даже при таком некорректном сравнении – это очень много. Это принципиально разные технические решения и совершенно другой охват аудитории. В некотором смысле это оценка емкости рынка отечественных порталов и с точки зрения рекламы, и сточки зрения других услуг. Но мы несколько отвлеклись. Наше исследование призвано было продемонстрировать степень неопределенности, с которой пользователь сталкивается при поиске информации в Интернет. Даже обращаясь к фаворитам, Вы не можете быть уверены в том, что в их информационных массивах есть то, что вам нужно. Таким образом, сам характер Информационного Поиска в эпоху новых информационных технологий не изменился. Программисты продолжают переносить в сеть хорошо известные алгоритмы и результаты исследований, которые были получены в предыдущие годы. Материалы конференций пронизаны духом сомнений и осознанием некоторого тупика в рамках существующих подходов. Но не все так грустно. Прогресс не стоит на месте, и новые инструменты поиска постепенно находят свое воплощение, как в коммерческих, так и в свободно распространяемых программных продуктах. Но что это за инструменты, и какие принципы положены в их основу, мы рассмотрим в другой раз. Павел Храмцов |
|
![]() |
![]() |
2000-2008 г. Все авторские права соблюдены. |
![]() |
![]() |
![]() |
![]() |