![]() |
Библиотека Интернет Индустрии I2R.ru |
||
![]() ![]() |
Опубликованы отчеты по научным стипендиям Яндекса29.09.2005 18:44 Сегодня в официальном блоге Яндекса появилось уведомление о публикации работ по программе научных стипендий Яндекса за 2004-2005 год, которые вошли в сборник Интернет-Математика-200. Сборник, который появится в бумажном виде в следующий понедельник, составлен из отчетов по научным стипендиям Яндекса за сезон 2004-2005 г. Всего на сайте (и в сборнике) опубликовано 25 работ: 24 работы по стипендиям плюс одна обзорная: И. Сегалович, М. Маслов, Ю. Зеленков. Цели и результаты программы научных стипендий Яндекса. В статье говорится, что учрежденная Яндексом программа стипендий «Интернет-Математика» призвана стимулировать отечественные исследования в области автоматической обработки веб-данных. Такие приложения как веб-поиск, классификация веб-сайтов, агрегация новостей, фильтрация почтового спама, выбор товаров, контекстная реклама требуют адекватных научных исследований. Программа стипендий Яндекса позволит заполнить эту нишу. Любопытно многим веб-разработчикам и оптимизаторам сайтов будет ознакомиться с исследованием Евгения Трофименко "Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска.". Давнее противостояние оптимизаторов/промоутеров веб-сайтов и разработчиков поисковых систем может быть сведено к минимуму, если использовать предложенный Евгением алгоритм обнаружения тех ресурсов, которые пытаются продвинуться в результатах поиска с помощью накрутки link popularity. Для большинства поисковых систем ведущим параметром "качества" сайта по-прежнему используется коэффициент цитирования этого сайта другими ресурсами. Так любимый современными оптимизаторами метод массового обмена ссылками, в том числе и не тематическими, регистрация в каталогах и участие в фермах ссылок, безусловно, повышает цитируемость ресурса и, как следствие, его значимость при ранжировании результатов поиска, что, в подавляющем большинстве случаев засоряет выдачу мусором и давно уже считается одним из злостных и наказуемых методов поискового спама. Практика отслеживания подобных накрученных ресурсов развита слабо - можно, к примеру, "настучать" на конкретный сайт, написать письмо в службу поддержки поисковика (в Яндекс - "спам-репорт"), модераторы рассмотрят заявку и примут решение - действительно ли имеет место быть поисковый спам или же содержание сайта релевантно запросу в поиске... Можно ли автоматизировать процесс массового "отлавливания" накрученных ресурсов? Вот как видит эту проблему автор исследования: Проблема поисковых алгоритмов, учитывающих наличие внешних ссылок на документ или сайт, состоит в возможности искусственного увеличения ссылочной популярности путем обмена ссылками, участия в ссылочных фермах. Для решения проблемы накруток обычно используют индивидуальные меры: исключение сайтов и ферм из индекса, наложение фильтров на исходящие ссылки и т.п., что требует участия человека-модератора. Кроме того, масса промежуточных случаев (тематические кольца, обмен ссылками в узких темах), могут быть ошибочно отнесены в категорию накрутчиков. В работе предложена идея по разделению индекса ссылочной популярности (PageRank, SiteRank) на независимые части, соответствующие «добровольной» и «обменной» цитируемости с тем, чтобы в алгоритме ранжирования учитывать их с разными весами. Предложенный подход позволяет количественно и алгоритмически определять степень вовлеченности в системы ссылочной накрутки. Алгоритмы поисковых систем по ранжированию веб-документов, учитывающие наличие ссылок на других документах, подвержены внешним влияниям. Влияние на результаты ранжирования со стороны владельцев сайтов может осуществляться с помощью обмена ссылками с другими сайтами, участия в ссылочных фермах, создания ссылок на свои сайты в гостевых книгах, каталогах, форумах, создания сети поддерживающих основной сайт ресурсов, обменивающихся ссылками и ссылающимися на основной сайт. Для решения проблемы накрутки ссылочной популярности обычно используют такие меры, как: исключения сайтов из индекса, наложение фильтра на исходящие ссылки с сайтов. Однако, эти действия требуют ручной проверки ссылочных ферм и отдельных сайтов. Кроме того, ссылочная накрутка может остаться незамеченной при следующих условиях:
Кроме того, ошибки человека-модератора могут возникать в случаях, если:
В общем случае, почти любой обмен ссылками предполагает договоренность между ссылающимися сайтами. Следовательно, ценность таких ссылок в алгоритме ранжирования должна быть более низкой, нежели ценность «добровольных», односторонних ссылок. В условиях, когда около 27% всех ссылок в русскоязычном Интернете (по данным Яндекса) являются обменными (т.е., в обмен вовлечено около 14% хостов) невозможно просто исключить взаимные ссылки из рассмотрения. Кроме того, обмен ссылками, даже и договорной, не всегда является накруткой – многие владельцы сайтов обмениваются ссылками с действительно качественными ресурсами в своей тематике и не заслуживают штрафных санкций. При учете ссылочной популярности отдельных документов (хостов) часто в виде ее количественной меры используют взвешенную цитируемость, или PageRank. Алгоритм расчета PageRank документа предполагает учет цитируемости ссылающихся на него документов. Однако в алгоритме PageRank смешиваются все виды ссылок – односторонние и взаимные. Отсюда возникают следующие возможности для накрутки ссылочной популярности путем создания ссылочных ферм и массового обмена ссылками. Невозможность разделить разные компоненты PageRank ведет к необходимости принятия резких мер – сайт либо полностью принимается поисковой системой, либо полностью отвергается ей. Кроме того, в этой деятельности особую роль играет человеческий фактор. Поэтому задачей является разработка алгоритмического метода количественной оценки вклада «добровольной» и «обменной» цитируемости в общую цитируемость. В данной работе предлагается метод количественной оценки цитируемости хостов (SiteRank), позволяющий разделить долю цитируемости, полученную путем специальных действий (обмена ссылками и т.п.) и долю цитируемости, полученную за счет добровольных односторонних ссылок. Подробнее о методах, алгоритмах и исследованиях вы сможете узнать из текста самого документа. Статьи по теме:
последние новости 01.12.2006 16:00 | Народ и эксперты по-разному оценили Рунет...» 30.11.2006 18:06 | Google обновила онлайновую электронную таблицу...» 30.11.2006 17:41 | Церемония вручения ежегодной национальной "Премии Рунета-2006"...» 27.11.2006 19:03 | Сайты российских компаний признаны худшими в Европе...» 23.11.2006 20:04 | Конкурс арт-дизайнеров сайта CDary.com...» 23.11.2006 17:56 | Вице-президент Yahoo недоволен работой компании...» 23.11.2006 16:10 | Теперь заказы на Allsoft.ru можно оплатить с помощью мобильного телефона и SMS...» 21.11.2006 19:52 | Google разработала новый Web Toolkit...» 20.11.2006 17:13 | AddSEO – новый продукт от PromoSoft. Программа для оптимизации сайта...» 19.11.2006 17:34 | «Robotst.txt по-русски». Интервью с Дмитрием Атабековым...» 17.11.2006 18:24 | Появился новый интерактивный онлайн-сервис создания рисунков...» 17.11.2006 17:44 | Путь курсора над меню...» 17.11.2006 17:28 | Саммит Web 2.0 продемонстрировал новинки интерактивного интернета...» 17.11.2006 17:09 | Google, Yahoo и Microsoft сотрудничают в сфере веб-индексов...» 17.11.2006 13:49 | Allsoft.ru заключил договор о сотрудничестве с дистрибьютором компьютерных игр GamePitStop.ru...» 16.11.2006 19:10 | ASP.Net будет "понимать" Python и AJAX...» 16.11.2006 13:34 | День Юзабилити - семинар и конференция WUD2006...» 15.11.2006 20:46 | IAMCI - Отраслевой индекс для интернет-рекламистов...» 15.11.2006 19:30 | Google добавила к службе Apps for Your Domain стартовую страницу...» 15.11.2006 16:45 | В Сан-Франциско проходит конференция Web 2.0...» |
|
![]() |
![]() |
2000-2008 г. Все авторские права соблюдены. |
![]() |
![]() |
![]() |
![]() |