Библиотека Интернет Индустрии I2R.ru |
|||
|
«Рамблер» делает следующий ход: новый поиск09.12.2002 11:30 В Рунете давно уже ходят слухи о том, что интернет-холдинг «Рамблер» запустил новый обновленный механизм своей поисковой машины. Последнее тому подтверждение — дискуссия на листе рассылки ЕЖЕ-сообщества, где некоторые подписчики отметили увеличения трафика на свои ресурсы с поисковой системы «Рамблера». Как удалось выяснить «Вебпланете», благодаря закупке 13 новейших серверных систем AMD/TYAN, в «Рамблере» получили мощности, необходимые для обеспечения роста числа обращений и введения новых алгоритмов поиска. Опираясь на новые технологические решения, команда разработчиков «Рамблера» фактически заново построила поисковую систему. Общеизвестно, что на серверах «Рамблера» хранится один из самых полных архивов российского интернета. Его объем — более 1,5 терабайта, и в любой момент «Рамблер» запросто может «выбросить» старый индекс и тут же набрать новый. Наличие полной копии всех страниц Рунета позволило холдингу без потерь провести кардинальное обновление алгоритмов поиска и индексирования информации, а также ранжирования результатов поиска. Серьезно изменился «ползун» «Рамблера» («crawler») — робот, который собирает первичный материал для индексатора поисковой системы. Отличия новой версии робота — новые возможностям масштабирования и распределения работы по серверам. Если до введения в строй нового серверного парка его максимальная отдача на пике составляла 4,5 млн. веб-страниц в сутки, то после введения новых алгоритмов он собрал больше 6,9 млн. страниц. Это означает, что теперь «Рамблер» может более оперативно отслеживать изменения, происходящие в российском Интернете. Изменилась системы индексирования. Новый модуль уже успел установить внутренний рекорд «Рамблера», обработав за сутки 603 гигабайта документов, хотя и это не предел. Для владельцев веб-ресурсов и наших пользователей это означает рост объема индекса и частоты его обновления. В начале нового года мы планируем модернизировать наш поиск по новостям, обеспечив индексацию ведущих информационных ресурсов с интервалом в два часа. Доработана система ранжирования результатов поиска. Теперь поисковик формирует ответ на поисковый запрос с использованием не только традиционных методов определения релевантности, но и так называемого «коэффициента популярности». Этот коэффициент рассчитывается путем анализа гиперссылок и учета показателей счетчиков рейтинговой системы Rambler's Top100. Одна из частей поисковой машины «Рамблера», которая практически не подверглась изменениям — это модуль отсева нерелевантных документов и система защиты от спама и «двойников», которую мы считаем одной из лучших в российском Интернете. Цифра «найденных страниц» не имеет значения, когда вам важен результат. Главное достоинство поисковика не в абсолютной полноте охвата (кому нужен весь Интернет?), а в способности тщательно отбирать нужную информацию. «Рамблер» находит не обязательно больше, но лучше, чем другие поисковые машины, но, по словам представителей компании, он лучше других умеет избавлять пользователя от нежелательного «сетевого мусора».
Модифицированный механизм поисковой машины учитывает при ранжировании результатов поиска (определении порядка страниц) новый показатель — коэффициент популярности страницы. Коэффициент вычисляется на основе данных о посещаемости веб-страниц, на которых установлен счетчик Rambler`s Top100. Учитывается также анализ гиперссылок между всеми известными «Рамблеру» страницами. В отличие от данных, полученных от счетчика Rambler`s Top100, этот показатель назван популярностью, так как он не измеряется, а оценивается. Учет данного фактора позволяет на запросах, по которым находится много информации, показать в выдаче наиболее популярные страницы. В отличие от других поисковых машин, где используются свои механизмы ранжирования результатов поиска (PageRank, ВИЦ), алгоритм расчета коэффициента популярности наоборот, учитывает мнение всех без исключения пользователей сети и поэтому является более «справедливым». Ссылочный вес анализирует гиперссылки между страницами и вычисляет вероятность прихода пользователя на каждую из обрабатываемых страниц. У данного метода есть один серьезный недостаток: алгоритм вычисления ссылочного веса не позволяет проверить, по каким ссылкам пользователи в действительности переходят, а по каким — нет. Большинство гиперссылок в сети расставляют вебмастера, в результате чего получается, что ссылочный вес учитывает мнение этой части пользователей Интернета. Заметим, что доля вебмастеров среди пользователей поисковых машин мала — примерно полтора процента. Отвечая на вопрос «Вебпланеты» «зависит ли коэффициент популярности страницы от того, размещен ли на ней счетчик Rambler`s Top100, или нет?», представители «Рамблера» пояснили, что новый алгоритм поиска построен так, чтобы использовать информацию счетчика «Рамблера» только для тех страниц, на которых он размещен, и рассчитывать на основе анализа гиперссылок популярность тех страниц, где счетчика нет. Таким образом, наличие счетчика Rambler`s Top100 позволяет повысить точность анализа страниц сайта — и «поднимает» вес тех ресурсов, на которые ссылаются с этой страницы. По мнению собеседников «Вебпланеты», занимающихся рекламным бизнесом в Рунете, увеличение поискового трафика с «Рамблера» так или иначе заставит «Яндекс» делиться с «дедушкой русского Интернета» доходами от контекстной рекламы в результатах поиска. С этим мнением согласны и в самом «Рамблере»: «Доходы от контекстной рекламы постоянно растут — они связаны с ростом количества запросов и спроса на рекламу. Очевидно, что улучшение нашей системы повлияет и на то, и на другое», — заявил «Вебпланете» Иван Засурский, заместитель директора «Рамблера» по PR. последние новости 22.08.2005 17:11 | Google обновила ПО для поиска...» 20.08.2005 21:26 | Сроки проведения DeArt фестиваля переносятся...» 19.08.2005 22:45 | Кухня Photoshop...» 19.08.2005 20:27 | Опубликованы спецификации RSS 3...» 19.08.2005 20:11 | Рассылка Библиотеки Сайтостроительства стала золотой!...» 19.08.2005 18:51 | Google и заговор масонов...» 19.08.2005 18:17 | Romir определил любимые сайты рунетчиков...» 17.08.2005 21:56 | Обновления третьей версии программы для оптимизации и раскрутки сайтов Semonitor 3.11...» 17.08.2005 19:08 | Google приостановила создание цифровой библиотеки...» 17.08.2005 18:48 | Народное голосование "Премии Рунета" началось...» 17.08.2005 18:28 | Белорусский КГБ охотится за флэш-аниматорами...» 17.08.2005 17:20 | Интернетчики требуют большей персонализации...» 17.08.2005 16:37 | 10 лучших ресурсов по CSS...» 17.08.2005 15:51 | Елена Колмановская о "быстром" "Яндексе"...» 12.08.2005 20:05 | Результаты Google в таблице Excel...» 12.08.2005 19:38 | "Яндекс" индексирует быстрее, но не всех...» 12.08.2005 19:23 | MSN начнет тестировать контекстную рекламу в октябре...» 12.08.2005 17:27 | URLex поможет сделать комментарии...» 11.08.2005 19:41 | Как Рунет кликает по СМИ...» 11.08.2005 18:47 | Opera находит ответы...» |
|
2000-2008 г. Все авторские права соблюдены. |
|