Библиотека Интернет Индустрии I2R.ru |
|||
|
Опубликованы отчеты по научным стипендиям Яндекса29.09.2005 18:44 Сегодня в официальном блоге Яндекса появилось уведомление о публикации работ по программе научных стипендий Яндекса за 2004-2005 год, которые вошли в сборник Интернет-Математика-200. Сборник, который появится в бумажном виде в следующий понедельник, составлен из отчетов по научным стипендиям Яндекса за сезон 2004-2005 г. Всего на сайте (и в сборнике) опубликовано 25 работ: 24 работы по стипендиям плюс одна обзорная: И. Сегалович, М. Маслов, Ю. Зеленков. Цели и результаты программы научных стипендий Яндекса. В статье говорится, что учрежденная Яндексом программа стипендий «Интернет-Математика» призвана стимулировать отечественные исследования в области автоматической обработки веб-данных. Такие приложения как веб-поиск, классификация веб-сайтов, агрегация новостей, фильтрация почтового спама, выбор товаров, контекстная реклама требуют адекватных научных исследований. Программа стипендий Яндекса позволит заполнить эту нишу. Любопытно многим веб-разработчикам и оптимизаторам сайтов будет ознакомиться с исследованием Евгения Трофименко "Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска.". Давнее противостояние оптимизаторов/промоутеров веб-сайтов и разработчиков поисковых систем может быть сведено к минимуму, если использовать предложенный Евгением алгоритм обнаружения тех ресурсов, которые пытаются продвинуться в результатах поиска с помощью накрутки link popularity. Для большинства поисковых систем ведущим параметром "качества" сайта по-прежнему используется коэффициент цитирования этого сайта другими ресурсами. Так любимый современными оптимизаторами метод массового обмена ссылками, в том числе и не тематическими, регистрация в каталогах и участие в фермах ссылок, безусловно, повышает цитируемость ресурса и, как следствие, его значимость при ранжировании результатов поиска, что, в подавляющем большинстве случаев засоряет выдачу мусором и давно уже считается одним из злостных и наказуемых методов поискового спама. Практика отслеживания подобных накрученных ресурсов развита слабо - можно, к примеру, "настучать" на конкретный сайт, написать письмо в службу поддержки поисковика (в Яндекс - "спам-репорт"), модераторы рассмотрят заявку и примут решение - действительно ли имеет место быть поисковый спам или же содержание сайта релевантно запросу в поиске... Можно ли автоматизировать процесс массового "отлавливания" накрученных ресурсов? Вот как видит эту проблему автор исследования: Проблема поисковых алгоритмов, учитывающих наличие внешних ссылок на документ или сайт, состоит в возможности искусственного увеличения ссылочной популярности путем обмена ссылками, участия в ссылочных фермах. Для решения проблемы накруток обычно используют индивидуальные меры: исключение сайтов и ферм из индекса, наложение фильтров на исходящие ссылки и т.п., что требует участия человека-модератора. Кроме того, масса промежуточных случаев (тематические кольца, обмен ссылками в узких темах), могут быть ошибочно отнесены в категорию накрутчиков. В работе предложена идея по разделению индекса ссылочной популярности (PageRank, SiteRank) на независимые части, соответствующие «добровольной» и «обменной» цитируемости с тем, чтобы в алгоритме ранжирования учитывать их с разными весами. Предложенный подход позволяет количественно и алгоритмически определять степень вовлеченности в системы ссылочной накрутки. Алгоритмы поисковых систем по ранжированию веб-документов, учитывающие наличие ссылок на других документах, подвержены внешним влияниям. Влияние на результаты ранжирования со стороны владельцев сайтов может осуществляться с помощью обмена ссылками с другими сайтами, участия в ссылочных фермах, создания ссылок на свои сайты в гостевых книгах, каталогах, форумах, создания сети поддерживающих основной сайт ресурсов, обменивающихся ссылками и ссылающимися на основной сайт. Для решения проблемы накрутки ссылочной популярности обычно используют такие меры, как: исключения сайтов из индекса, наложение фильтра на исходящие ссылки с сайтов. Однако, эти действия требуют ручной проверки ссылочных ферм и отдельных сайтов. Кроме того, ссылочная накрутка может остаться незамеченной при следующих условиях:
Кроме того, ошибки человека-модератора могут возникать в случаях, если:
В общем случае, почти любой обмен ссылками предполагает договоренность между ссылающимися сайтами. Следовательно, ценность таких ссылок в алгоритме ранжирования должна быть более низкой, нежели ценность «добровольных», односторонних ссылок. В условиях, когда около 27% всех ссылок в русскоязычном Интернете (по данным Яндекса) являются обменными (т.е., в обмен вовлечено около 14% хостов) невозможно просто исключить взаимные ссылки из рассмотрения. Кроме того, обмен ссылками, даже и договорной, не всегда является накруткой – многие владельцы сайтов обмениваются ссылками с действительно качественными ресурсами в своей тематике и не заслуживают штрафных санкций. При учете ссылочной популярности отдельных документов (хостов) часто в виде ее количественной меры используют взвешенную цитируемость, или PageRank. Алгоритм расчета PageRank документа предполагает учет цитируемости ссылающихся на него документов. Однако в алгоритме PageRank смешиваются все виды ссылок – односторонние и взаимные. Отсюда возникают следующие возможности для накрутки ссылочной популярности путем создания ссылочных ферм и массового обмена ссылками. Невозможность разделить разные компоненты PageRank ведет к необходимости принятия резких мер – сайт либо полностью принимается поисковой системой, либо полностью отвергается ей. Кроме того, в этой деятельности особую роль играет человеческий фактор. Поэтому задачей является разработка алгоритмического метода количественной оценки вклада «добровольной» и «обменной» цитируемости в общую цитируемость. В данной работе предлагается метод количественной оценки цитируемости хостов (SiteRank), позволяющий разделить долю цитируемости, полученную путем специальных действий (обмена ссылками и т.п.) и долю цитируемости, полученную за счет добровольных односторонних ссылок. Подробнее о методах, алгоритмах и исследованиях вы сможете узнать из текста самого документа. Статьи по теме:
последние новости 28.08.2006 15:23 | Blogger.com отметил семилетие обновлением интерфейса...» 28.08.2006 15:12 | Число пользователей Блогов@Mail.Ru достигло 600000 человек...» 28.08.2006 15:06 | Google выходит на рынок делового ПО...» 27.08.2006 15:55 | Горд Хочкисс. Гендерные особенности поиска...» 27.08.2006 14:46 | RU-CENTER стравил оптимизаторов и киберсквоттеров...» 26.08.2006 14:21 | Корпоративные пользователи Gmail смогут задавать свои доменные имена...» 25.08.2006 22:35 | Тест социальной популярности WEB-сайтов...» 25.08.2006 21:00 | IT-Online and Микроинформ объявляют о новом семинаре: «Поисковая оптимизация и Интернет-статистика»...» 24.08.2006 13:00 | Web 2.0: динамика популярности...» 23.08.2006 23:22 | Изображения в интернете будут защищать "водяными знаками"...» 23.08.2006 20:52 | Организуется первая всероссийская конференция веб-разработчиков...» 23.08.2006 20:44 | Украинские новостные сайты ругаются как малые дети...» 23.08.2006 19:44 | Google приглашает подписываться на Writely...» 23.08.2006 12:43 | Mail.Ru открывает справочное бюро...» 23.08.2006 12:27 | Yahoo борется с поддельными сайтами...» 22.08.2006 19:52 | Правило одного процента...» 22.08.2006 11:57 | Пользователи Сети охладели к играм и анекдотам...» 21.08.2006 22:08 | Вдохновение для WEB-дизайнеров...» 20.08.2006 09:37 | Технологии Flash исполнилось десять лет...» 19.08.2006 20:18 | Браузеры: Вышла версия Яндекс.Бар для браузера Firefox...» |
|
2000-2008 г. Все авторские права соблюдены. |
|