Библиотека Интернет Индустрии I2R.ru |
|||
|
Опубликованы отчеты по научным стипендиям Яндекса29.09.2005 18:44 Сегодня в официальном блоге Яндекса появилось уведомление о публикации работ по программе научных стипендий Яндекса за 2004-2005 год, которые вошли в сборник Интернет-Математика-200. Сборник, который появится в бумажном виде в следующий понедельник, составлен из отчетов по научным стипендиям Яндекса за сезон 2004-2005 г. Всего на сайте (и в сборнике) опубликовано 25 работ: 24 работы по стипендиям плюс одна обзорная: И. Сегалович, М. Маслов, Ю. Зеленков. Цели и результаты программы научных стипендий Яндекса. В статье говорится, что учрежденная Яндексом программа стипендий «Интернет-Математика» призвана стимулировать отечественные исследования в области автоматической обработки веб-данных. Такие приложения как веб-поиск, классификация веб-сайтов, агрегация новостей, фильтрация почтового спама, выбор товаров, контекстная реклама требуют адекватных научных исследований. Программа стипендий Яндекса позволит заполнить эту нишу. Любопытно многим веб-разработчикам и оптимизаторам сайтов будет ознакомиться с исследованием Евгения Трофименко "Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска.". Давнее противостояние оптимизаторов/промоутеров веб-сайтов и разработчиков поисковых систем может быть сведено к минимуму, если использовать предложенный Евгением алгоритм обнаружения тех ресурсов, которые пытаются продвинуться в результатах поиска с помощью накрутки link popularity. Для большинства поисковых систем ведущим параметром "качества" сайта по-прежнему используется коэффициент цитирования этого сайта другими ресурсами. Так любимый современными оптимизаторами метод массового обмена ссылками, в том числе и не тематическими, регистрация в каталогах и участие в фермах ссылок, безусловно, повышает цитируемость ресурса и, как следствие, его значимость при ранжировании результатов поиска, что, в подавляющем большинстве случаев засоряет выдачу мусором и давно уже считается одним из злостных и наказуемых методов поискового спама. Практика отслеживания подобных накрученных ресурсов развита слабо - можно, к примеру, "настучать" на конкретный сайт, написать письмо в службу поддержки поисковика (в Яндекс - "спам-репорт"), модераторы рассмотрят заявку и примут решение - действительно ли имеет место быть поисковый спам или же содержание сайта релевантно запросу в поиске... Можно ли автоматизировать процесс массового "отлавливания" накрученных ресурсов? Вот как видит эту проблему автор исследования: Проблема поисковых алгоритмов, учитывающих наличие внешних ссылок на документ или сайт, состоит в возможности искусственного увеличения ссылочной популярности путем обмена ссылками, участия в ссылочных фермах. Для решения проблемы накруток обычно используют индивидуальные меры: исключение сайтов и ферм из индекса, наложение фильтров на исходящие ссылки и т.п., что требует участия человека-модератора. Кроме того, масса промежуточных случаев (тематические кольца, обмен ссылками в узких темах), могут быть ошибочно отнесены в категорию накрутчиков. В работе предложена идея по разделению индекса ссылочной популярности (PageRank, SiteRank) на независимые части, соответствующие «добровольной» и «обменной» цитируемости с тем, чтобы в алгоритме ранжирования учитывать их с разными весами. Предложенный подход позволяет количественно и алгоритмически определять степень вовлеченности в системы ссылочной накрутки. Алгоритмы поисковых систем по ранжированию веб-документов, учитывающие наличие ссылок на других документах, подвержены внешним влияниям. Влияние на результаты ранжирования со стороны владельцев сайтов может осуществляться с помощью обмена ссылками с другими сайтами, участия в ссылочных фермах, создания ссылок на свои сайты в гостевых книгах, каталогах, форумах, создания сети поддерживающих основной сайт ресурсов, обменивающихся ссылками и ссылающимися на основной сайт. Для решения проблемы накрутки ссылочной популярности обычно используют такие меры, как: исключения сайтов из индекса, наложение фильтра на исходящие ссылки с сайтов. Однако, эти действия требуют ручной проверки ссылочных ферм и отдельных сайтов. Кроме того, ссылочная накрутка может остаться незамеченной при следующих условиях:
Кроме того, ошибки человека-модератора могут возникать в случаях, если:
В общем случае, почти любой обмен ссылками предполагает договоренность между ссылающимися сайтами. Следовательно, ценность таких ссылок в алгоритме ранжирования должна быть более низкой, нежели ценность «добровольных», односторонних ссылок. В условиях, когда около 27% всех ссылок в русскоязычном Интернете (по данным Яндекса) являются обменными (т.е., в обмен вовлечено около 14% хостов) невозможно просто исключить взаимные ссылки из рассмотрения. Кроме того, обмен ссылками, даже и договорной, не всегда является накруткой – многие владельцы сайтов обмениваются ссылками с действительно качественными ресурсами в своей тематике и не заслуживают штрафных санкций. При учете ссылочной популярности отдельных документов (хостов) часто в виде ее количественной меры используют взвешенную цитируемость, или PageRank. Алгоритм расчета PageRank документа предполагает учет цитируемости ссылающихся на него документов. Однако в алгоритме PageRank смешиваются все виды ссылок – односторонние и взаимные. Отсюда возникают следующие возможности для накрутки ссылочной популярности путем создания ссылочных ферм и массового обмена ссылками. Невозможность разделить разные компоненты PageRank ведет к необходимости принятия резких мер – сайт либо полностью принимается поисковой системой, либо полностью отвергается ей. Кроме того, в этой деятельности особую роль играет человеческий фактор. Поэтому задачей является разработка алгоритмического метода количественной оценки вклада «добровольной» и «обменной» цитируемости в общую цитируемость. В данной работе предлагается метод количественной оценки цитируемости хостов (SiteRank), позволяющий разделить долю цитируемости, полученную путем специальных действий (обмена ссылками и т.п.) и долю цитируемости, полученную за счет добровольных односторонних ссылок. Подробнее о методах, алгоритмах и исследованиях вы сможете узнать из текста самого документа. Статьи по теме:
последние новости 19.09.2005 22:40 | Новая площадка "Яндекс.Директа" — каталог "Яндекса"...» 19.09.2005 22:40 | Новая площадка "Яндекс.Директа" — каталог "Яндекса"...» 19.09.2005 21:16 | 4 октября будут судить чиновников без сайтов...» 15.09.2005 18:04 | Премия Рунета: «Большая тройка» отказалась, а «Бегун» — согласился...» 15.09.2005 17:39 | До начала Фестиваля "Интернить.2005" осталось пять дней!...» 14.09.2005 17:02 | Dreamweaver MX 2004. Трюки (+CD)...» 14.09.2005 16:31 | Photoshop. Искусство фотоманипуляции (+CD). Полноцветное издание...» 14.09.2005 16:09 | Украинский Интернет: Сервисам у нас хвала и почет...» 14.09.2005 15:45 | Вторая всеукраинская конференция "Интернет-бизнес' 2005"...» 06.09.2005 16:53 | Хит-парад погибших рунетовских доткомов...» 06.09.2005 16:12 | Яндекс открывает представительство в Украине...» 06.09.2005 14:00 | Смартфон RoverPC M1: Ваш надежный помощник...» 05.09.2005 18:40 | Умный интернет 2010-го года...» 05.09.2005 17:44 | Page Promoter 7.2: анализ поисковой рекламы...» 31.08.2005 19:59 | Когда Яндекс заведет свой собственный AdSense?...» 26.08.2005 22:14 | Amara Flash Photo...» 26.08.2005 22:14 | Amara Flash Photo...» 26.08.2005 21:59 | Sketcher плагин с дополнительными стилями...» 25.08.2005 17:32 | AKVIS Enhancer — программа для обработки фотографий с усилением детализации изображения...» 24.08.2005 17:06 | Google cделал интернет-пейджер размером в 900 кб...» |
|
2000-2008 г. Все авторские права соблюдены. |
|