![]() |
Библиотека Интернет Индустрии I2R.ru |
||
![]() ![]() |
«Рамблер» делает следующий ход: новый поиск09.12.2002 11:30 В Рунете давно уже ходят слухи о том, что интернет-холдинг «Рамблер» запустил новый обновленный механизм своей поисковой машины. Последнее тому подтверждение — дискуссия на листе рассылки ЕЖЕ-сообщества, где некоторые подписчики отметили увеличения трафика на свои ресурсы с поисковой системы «Рамблера». Как удалось выяснить «Вебпланете», благодаря закупке 13 новейших серверных систем AMD/TYAN, в «Рамблере» получили мощности, необходимые для обеспечения роста числа обращений и введения новых алгоритмов поиска. Опираясь на новые технологические решения, команда разработчиков «Рамблера» фактически заново построила поисковую систему. Общеизвестно, что на серверах «Рамблера» хранится один из самых полных архивов российского интернета. Его объем — более 1,5 терабайта, и в любой момент «Рамблер» запросто может «выбросить» старый индекс и тут же набрать новый. Наличие полной копии всех страниц Рунета позволило холдингу без потерь провести кардинальное обновление алгоритмов поиска и индексирования информации, а также ранжирования результатов поиска. Серьезно изменился «ползун» «Рамблера» («crawler») — робот, который собирает первичный материал для индексатора поисковой системы. Отличия новой версии робота — новые возможностям масштабирования и распределения работы по серверам. Если до введения в строй нового серверного парка его максимальная отдача на пике составляла 4,5 млн. веб-страниц в сутки, то после введения новых алгоритмов он собрал больше 6,9 млн. страниц. Это означает, что теперь «Рамблер» может более оперативно отслеживать изменения, происходящие в российском Интернете. Изменилась системы индексирования. Новый модуль уже успел установить внутренний рекорд «Рамблера», обработав за сутки 603 гигабайта документов, хотя и это не предел. Для владельцев веб-ресурсов и наших пользователей это означает рост объема индекса и частоты его обновления. В начале нового года мы планируем модернизировать наш поиск по новостям, обеспечив индексацию ведущих информационных ресурсов с интервалом в два часа. Доработана система ранжирования результатов поиска. Теперь поисковик формирует ответ на поисковый запрос с использованием не только традиционных методов определения релевантности, но и так называемого «коэффициента популярности». Этот коэффициент рассчитывается путем анализа гиперссылок и учета показателей счетчиков рейтинговой системы Rambler's Top100. Одна из частей поисковой машины «Рамблера», которая практически не подверглась изменениям — это модуль отсева нерелевантных документов и система защиты от спама и «двойников», которую мы считаем одной из лучших в российском Интернете. Цифра «найденных страниц» не имеет значения, когда вам важен результат. Главное достоинство поисковика не в абсолютной полноте охвата (кому нужен весь Интернет?), а в способности тщательно отбирать нужную информацию. «Рамблер» находит не обязательно больше, но лучше, чем другие поисковые машины, но, по словам представителей компании, он лучше других умеет избавлять пользователя от нежелательного «сетевого мусора».
Модифицированный механизм поисковой машины учитывает при ранжировании результатов поиска (определении порядка страниц) новый показатель — коэффициент популярности страницы. Коэффициент вычисляется на основе данных о посещаемости веб-страниц, на которых установлен счетчик Rambler`s Top100. Учитывается также анализ гиперссылок между всеми известными «Рамблеру» страницами. В отличие от данных, полученных от счетчика Rambler`s Top100, этот показатель назван популярностью, так как он не измеряется, а оценивается. Учет данного фактора позволяет на запросах, по которым находится много информации, показать в выдаче наиболее популярные страницы. В отличие от других поисковых машин, где используются свои механизмы ранжирования результатов поиска (PageRank, ВИЦ), алгоритм расчета коэффициента популярности наоборот, учитывает мнение всех без исключения пользователей сети и поэтому является более «справедливым». Ссылочный вес анализирует гиперссылки между страницами и вычисляет вероятность прихода пользователя на каждую из обрабатываемых страниц. У данного метода есть один серьезный недостаток: алгоритм вычисления ссылочного веса не позволяет проверить, по каким ссылкам пользователи в действительности переходят, а по каким — нет. Большинство гиперссылок в сети расставляют вебмастера, в результате чего получается, что ссылочный вес учитывает мнение этой части пользователей Интернета. Заметим, что доля вебмастеров среди пользователей поисковых машин мала — примерно полтора процента. Отвечая на вопрос «Вебпланеты» «зависит ли коэффициент популярности страницы от того, размещен ли на ней счетчик Rambler`s Top100, или нет?», представители «Рамблера» пояснили, что новый алгоритм поиска построен так, чтобы использовать информацию счетчика «Рамблера» только для тех страниц, на которых он размещен, и рассчитывать на основе анализа гиперссылок популярность тех страниц, где счетчика нет. Таким образом, наличие счетчика Rambler`s Top100 позволяет повысить точность анализа страниц сайта — и «поднимает» вес тех ресурсов, на которые ссылаются с этой страницы. По мнению собеседников «Вебпланеты», занимающихся рекламным бизнесом в Рунете, увеличение поискового трафика с «Рамблера» так или иначе заставит «Яндекс» делиться с «дедушкой русского Интернета» доходами от контекстной рекламы в результатах поиска. С этим мнением согласны и в самом «Рамблере»: «Доходы от контекстной рекламы постоянно растут — они связаны с ростом количества запросов и спроса на рекламу. Очевидно, что улучшение нашей системы повлияет и на то, и на другое», — заявил «Вебпланете» Иван Засурский, заместитель директора «Рамблера» по PR. последние новости 19.08.2006 17:31 | Как выбрать компанию для продвижения сайта в Интернет...» 19.08.2006 17:23 | Сайты Рунета не попали в список "крутых"...» 16.08.2006 20:18 | Google предупреждает об "опасных" сайтах...» 16.08.2006 19:42 | Компания Google приглашает...» 16.08.2006 19:29 | Стандарт векторной графики для мобильных устройств...» 16.08.2006 19:07 | Рассылка, зачем она нужна и как ее организовать?...» 16.08.2006 14:45 | Google запрещает «гуглить»...» 16.08.2006 14:04 | Рекламодатели требуют от сайтов улучшить отчетность ...» 16.08.2006 13:56 | Зачем ИТ-директору знать Web 2.0? ...» 16.08.2006 08:49 | Три цвета...» 15.08.2006 17:54 | Существуют ли понятия хорошего и плохого дизайна?...» 14.08.2006 20:28 | Порносайт угрожает свободе в Сети?...» 14.08.2006 13:25 | Фотосъемка: создан алгоритм от дрожащих рук ...» 13.08.2006 20:37 | Сеть Google Wi-Fi: первые впечатления...» 12.08.2006 20:33 | Gtalk научился отправлять голосовые сообщения и делиться файлами...» 10.08.2006 19:00 | Цифровая фотография на отдыхе. Полноцветное издание...» 10.08.2006 18:18 | Посетители расскажут о себе ссылками на любимые сайты...» 10.08.2006 17:54 | Google Maps сохраняет карты...» 10.08.2006 17:24 | Google раскрыл мошенничество аналитиков...» 09.08.2006 22:58 | Рисуем и сканируем - "Русский дизайн"...» |
|
![]() |
![]() |
2000-2008 г. Все авторские права соблюдены. |
![]() |
![]() |
![]() |
![]() |