Библиотека Интернет Индустрии I2R.ru |
|||
|
Опубликованы отчеты по научным стипендиям Яндекса29.09.2005 18:44 Сегодня в официальном блоге Яндекса появилось уведомление о публикации работ по программе научных стипендий Яндекса за 2004-2005 год, которые вошли в сборник Интернет-Математика-200. Сборник, который появится в бумажном виде в следующий понедельник, составлен из отчетов по научным стипендиям Яндекса за сезон 2004-2005 г. Всего на сайте (и в сборнике) опубликовано 25 работ: 24 работы по стипендиям плюс одна обзорная: И. Сегалович, М. Маслов, Ю. Зеленков. Цели и результаты программы научных стипендий Яндекса. В статье говорится, что учрежденная Яндексом программа стипендий «Интернет-Математика» призвана стимулировать отечественные исследования в области автоматической обработки веб-данных. Такие приложения как веб-поиск, классификация веб-сайтов, агрегация новостей, фильтрация почтового спама, выбор товаров, контекстная реклама требуют адекватных научных исследований. Программа стипендий Яндекса позволит заполнить эту нишу. Любопытно многим веб-разработчикам и оптимизаторам сайтов будет ознакомиться с исследованием Евгения Трофименко "Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска.". Давнее противостояние оптимизаторов/промоутеров веб-сайтов и разработчиков поисковых систем может быть сведено к минимуму, если использовать предложенный Евгением алгоритм обнаружения тех ресурсов, которые пытаются продвинуться в результатах поиска с помощью накрутки link popularity. Для большинства поисковых систем ведущим параметром "качества" сайта по-прежнему используется коэффициент цитирования этого сайта другими ресурсами. Так любимый современными оптимизаторами метод массового обмена ссылками, в том числе и не тематическими, регистрация в каталогах и участие в фермах ссылок, безусловно, повышает цитируемость ресурса и, как следствие, его значимость при ранжировании результатов поиска, что, в подавляющем большинстве случаев засоряет выдачу мусором и давно уже считается одним из злостных и наказуемых методов поискового спама. Практика отслеживания подобных накрученных ресурсов развита слабо - можно, к примеру, "настучать" на конкретный сайт, написать письмо в службу поддержки поисковика (в Яндекс - "спам-репорт"), модераторы рассмотрят заявку и примут решение - действительно ли имеет место быть поисковый спам или же содержание сайта релевантно запросу в поиске... Можно ли автоматизировать процесс массового "отлавливания" накрученных ресурсов? Вот как видит эту проблему автор исследования: Проблема поисковых алгоритмов, учитывающих наличие внешних ссылок на документ или сайт, состоит в возможности искусственного увеличения ссылочной популярности путем обмена ссылками, участия в ссылочных фермах. Для решения проблемы накруток обычно используют индивидуальные меры: исключение сайтов и ферм из индекса, наложение фильтров на исходящие ссылки и т.п., что требует участия человека-модератора. Кроме того, масса промежуточных случаев (тематические кольца, обмен ссылками в узких темах), могут быть ошибочно отнесены в категорию накрутчиков. В работе предложена идея по разделению индекса ссылочной популярности (PageRank, SiteRank) на независимые части, соответствующие «добровольной» и «обменной» цитируемости с тем, чтобы в алгоритме ранжирования учитывать их с разными весами. Предложенный подход позволяет количественно и алгоритмически определять степень вовлеченности в системы ссылочной накрутки. Алгоритмы поисковых систем по ранжированию веб-документов, учитывающие наличие ссылок на других документах, подвержены внешним влияниям. Влияние на результаты ранжирования со стороны владельцев сайтов может осуществляться с помощью обмена ссылками с другими сайтами, участия в ссылочных фермах, создания ссылок на свои сайты в гостевых книгах, каталогах, форумах, создания сети поддерживающих основной сайт ресурсов, обменивающихся ссылками и ссылающимися на основной сайт. Для решения проблемы накрутки ссылочной популярности обычно используют такие меры, как: исключения сайтов из индекса, наложение фильтра на исходящие ссылки с сайтов. Однако, эти действия требуют ручной проверки ссылочных ферм и отдельных сайтов. Кроме того, ссылочная накрутка может остаться незамеченной при следующих условиях:
Кроме того, ошибки человека-модератора могут возникать в случаях, если:
В общем случае, почти любой обмен ссылками предполагает договоренность между ссылающимися сайтами. Следовательно, ценность таких ссылок в алгоритме ранжирования должна быть более низкой, нежели ценность «добровольных», односторонних ссылок. В условиях, когда около 27% всех ссылок в русскоязычном Интернете (по данным Яндекса) являются обменными (т.е., в обмен вовлечено около 14% хостов) невозможно просто исключить взаимные ссылки из рассмотрения. Кроме того, обмен ссылками, даже и договорной, не всегда является накруткой – многие владельцы сайтов обмениваются ссылками с действительно качественными ресурсами в своей тематике и не заслуживают штрафных санкций. При учете ссылочной популярности отдельных документов (хостов) часто в виде ее количественной меры используют взвешенную цитируемость, или PageRank. Алгоритм расчета PageRank документа предполагает учет цитируемости ссылающихся на него документов. Однако в алгоритме PageRank смешиваются все виды ссылок – односторонние и взаимные. Отсюда возникают следующие возможности для накрутки ссылочной популярности путем создания ссылочных ферм и массового обмена ссылками. Невозможность разделить разные компоненты PageRank ведет к необходимости принятия резких мер – сайт либо полностью принимается поисковой системой, либо полностью отвергается ей. Кроме того, в этой деятельности особую роль играет человеческий фактор. Поэтому задачей является разработка алгоритмического метода количественной оценки вклада «добровольной» и «обменной» цитируемости в общую цитируемость. В данной работе предлагается метод количественной оценки цитируемости хостов (SiteRank), позволяющий разделить долю цитируемости, полученную путем специальных действий (обмена ссылками и т.п.) и долю цитируемости, полученную за счет добровольных односторонних ссылок. Подробнее о методах, алгоритмах и исследованиях вы сможете узнать из текста самого документа. Статьи по теме:
последние новости 15.11.2006 11:50 | Дума на страже авторских прав...» 14.11.2006 19:09 | Разработчики начинают играть с .Net 3.0...» 13.11.2006 18:46 | Google локализовала службу создания приложений для Интернет-порталов...» 13.11.2006 15:03 | Sun выбрала лицензию GPL для распространения открытого кода Java...» 12.11.2006 18:38 | Проблемы медленной работы Photoshop CS2...» 11.11.2006 17:55 | Азы и буки онлайн-продвижения. В США издано «Руководство по интернет-рекламе"...» 10.11.2006 17:02 | Исследование "Индексы цитирования сайтов Рунета" от Алексея Тутубалина...» 09.11.2006 15:39 | Вышла новая версия СУБД Cache...» 08.11.2006 16:34 | Adobe открывает код механизма сценариев Flash...» 08.11.2006 16:26 | Yahoo начнёт рассылать владельцам сотовых телефонов рекламные баннеры...» 08.11.2006 12:16 | Бесплатный семинар по анализу, продвижению и управлению ресурсом...» 04.11.2006 17:50 | Создатель интернета: "Web грозит коллапс"...» 03.11.2006 15:01 | IT-Online - официальный спонсор конференции iDate2006 - Europe...» 02.11.2006 00:26 | Александр Садовский держит ответ перед оптимизаторами...» 02.11.2006 00:11 | 14 ноября - День Юзабилити в России...» 01.11.2006 23:37 | Оптимизатор создал SEO – поиск...» 01.11.2006 21:15 | Обзор Всероссийской онлайн-конференция «Интернет в регионах РФ: шаг вперед, два назад?..»...» 01.11.2006 20:46 | Сообщество «Для разработчиков» от Софт@Mail.Ru...» 01.11.2006 15:50 | Вышел номер журнала AboutPC №1 (104)...» 01.11.2006 12:39 | Продукты Corel будут оптимизированы под Vista...» |
|
2000-2008 г. Все авторские права соблюдены. |
|