Библиотека Интернет Индустрии I2R.ru |
|||
|
METAфизика онлайнового поиска24.04.2002 10:32 Каждая практически веб-страничка поисковиками проиндексирована, счетчиками прорейтингована и в десяток каталогов вписана. Все по полочкам разложено - не налюбуешься. А кинешься чего-нибудь найти и не всегда получится. В чем дело? Понятно, что пользователь бестолков и не зубрит на сон грядущий нюансов расширенного языка поисковых запросов. Понятно, что сайтостроитель нечистоплотен и накручивает показания счетчиков. Ясно, что на весь Рунет не напасешься модераторов и каталоги частенько зарастают "мертвыми" и нетематическими ссылками, как болото ряской. Все это известно, но это ли - единственные причины неудобства онлайнового поиска? Думается, нет. Хотелось бы порассуждать еще об одной полузабытой технологии классификации онлайновой информации. Большую часть проблем можно было бы решить при соответствующем развитии спецификаций META-тэгов. Это - та самая Америка, которая, будучи однажды открытой, сегодня полузабыта в силу ряда причин. И очень жаль. Нет, сотни сайтов с "советами по раскрутке" настойчиво рекомендуют внимательно и скрупулезно описывать keywords и description для каждой веб-страницы, чтобы поисковикам легче было именно ее предложить взыскующему серферу. Такие советы выглядят весьма ценными, но реальной пользы от них никакой, поскольку гранды рунетовского поиска давно игнорируют META-тэги при индексировании страниц. И понятно, почему: нехитрые приемы нечистоплотного выполнения META-описаний способны неоправданно завысить релевантность. И здесь от накруток не спастись. Не всегда объяснимая тяга обмануть бездушные алгоритмы поиска привела к печальному результату: интереснейший класс HTML-тэгов отправлен в бессрочную ссылку. Попробуем лишний раз обратить на них внимание, вернуть к ним расположение разработчиков поисковых машин, владельцев каталогов и сайтостроителей. Простенький запрос к Яндексу: кража цветной металл. Запрос отнюдь не надуманный, тема отчего-то весьма популярная. Поисковик в ответ на запрос предлагает ссылки на 6012 страниц со 174 серверов. Воруют... Но не будем отвлекаться. Изучать все страницы - лениво, необходимо ознакомиться с наиболее свежей информацией по данному вопросу. Естественное решение - применяем сортировку по дате. Яндекс послушно изменяет порядок вывода ссылок на экран монитора и это нам... мало помогает. По той простой причине, что имеется в виду дата последнего зафиксированного изменения документа. Но сегодня большинство веб-страниц формируется динамически, поэтому дата их "модификации" изменяется при каждом обращении к странице, робота или человека - не важно. Да и вообще, любое самое незначительное изменение на странице, не затрагивающее основного контента, искажает достоверность представления информации в этом смысле. Таким образом в первой десятке нашего пересортированного списка оказываются "новости" о краже цветмета в 1999 года и даже ранее. Проблема разрешалась бы при применении специального META-тэга, определяющего временной интервал описываемых на странице событий. Скажем, так: <META NAME="Date_Period" CONTENT="01.01.2002-30.04.2002">. Таким образом дата модификации страницы (редко представляющая интерес для пользователя) навсегда была бы отделена от действительно интересной информации. Еще один эксперимент. Попробуем отыскать в Сети публикации самого плодовитого графомана Рунета, Алекса Экслера. Можно обратиться к каталогам и практически в каждом обнаружить ссылки на его персональный сайт. Но Экслер публикуется не только на своем сайте, его авторские работы разбросаны по всей Сети, не говоря уж о многочисленных интервью. Как их обнаружить? Причем, скопом, одним кликом мыши? Вновь хочется обратиться к поисковику. Пусть это будет Google. Что спросим? Видимо, алекс экслер. Добрый Гугль за 0.19 секунды нашел ссылки на 7.690 страниц. Это ли нам нужно? Нет, конечно. Здесь свалены в одну кучу все страницы, где встречается набор ключевых слов из запроса, не более того. Какие из этих страниц представляют авторские публикации Экслера, на каких его имя и фамилия всего лишь встречаются, не предлагая сколь-нибудь значимой информации? Google не способен ответить на этот вопрос. Решение могло бы быть найдено все в тех же META-тэгах. Собственно, <META NAME="Author" CONTENT="Алекс Экслер"> допустим. С его помощью можно было бы обнаружить подавляющую часть публикаций графомана. Но напрашивается использование дополнительных спецификаций. Например, такой: <META NAME="Interview_with" CONTENT="Алекс Экслер">. Кроме этого, необходим следующий вариант: <META NAME="Person" CONTENT="Алекс Экслер">. Говоря другими словами, необходимо иметь возможность перечислить "героев публикации", персоналий, с которыми связаны события, описываемые на странице. Идем дальше. Точно так же, как с персоналиями, необходимо разобраться с компаниями, СМИ, религиозными конфессиями, политическими партиями и т.п. С любыми организованными формально и неформально сообществами людей, носящими имя собственное. Озадачимся гипотетической задачей: отыскать все онлайновые публикации, в которых рассказывается о газете "Правда". Любой поисковик на запрос правда выдаст миллионы ссылок. Запрос газета правда не уточнит ровным счетом ничего, поскольку на тысячах страниц встречаются фразы типа: "Правду в газетах нынче не сыскать..." Более того, простое упоминание издания на странице не дает никакой полезной информации о газете: "На территории санатория все еще установлены стенды с пожелтевшей от времени "Правдой"...". Что делать? Опять таки выдумывать дополнительный атрибут к META-тэгам. Атрибут, которым можно было бы недвусмысленно объявить: на этой странице говорится о газете "Правда", это издание является "героем" описываемых событий и явлений. Следующая проблема. Хочется найти все о Microsoft. Спору нет, бессмысленная задача. Но возьмем этот пример в качестве иллюстрации. Работают все вышеприведенные негативные особенности поисковых алгоритмов. Но вспомним еще об одном нюансе: альтернативные написания. Микрософт, мелкомягкие, Майкрософт и т.д. и т.п. Видится очередной вариант META-описания страницы: <META NAME="Company" CONTENT="Microsoft" ALTERNATIVE="Микрософт, мелкомягкие, Майкрософт">. С одной стороны, можно альтернативные написания перечислить в атрибуте CONTENT. С другой стороны, использование дополнительного атрибута ALTERNATIVE позволило бы слегка определить... эмоциональную окраску страницы, что ли. Если в качестве основного написания выбрано "мелкомягкие", а "Microsoft" не указан даже в альтернативном списке, то серьезных рассуждений о софтверном гиганте здесь искать не стоит. Скорее, речь пойдет об очередной подборке анекдотов "про казла гейца". Кстати, подобное расширение спецификаций META-тэгов сыграло бы интересную штуку с неграмотным написанием имен и понятий. Студент-филолог, разыскивающий реферат о ГрЕбоедове не обнаружил бы в Сети ровным счетом ничего. Пожалуй, такое положение вещей его бы озадачило и в конце концов привело бы к правильному написанию. Справедливости ради отметим, что Яндекс предложит пользователю использовать правильное написание фамилии. С другой стороны, какой-нибудь полуграмотный любитель "Горя от ума" может вписать ГрЕбоедов в META-тэг. Так и встретятся на бескрайних просторах Сети два одиночества с примерно одинаковым знанием русской литературы и языка. Но если с датами, действующими лицами и авторами публикаций все понятно, то как определить тематику той или иной веб-страницы? Вот - вопрос вопросов. Берем пример из свежих. Публикация Сергея Солоуха в "Русском журнале", Без запятых. Работа эмоциональная, где-то на грани фола. О чем она? Не без лукавства предложу: решайте сами. Но цитата, хотя бы короткая, необходима. К примеру, такая: "Жизнь не употребляет знаков препинания. Ее поток не подчиняется законам логики и орфографии. Она шумна и беспардонна, как дрисня. Если поперла, то рекой. Свобода в том, чтоб не подмахивать ей кролем." Давайте вместе побудем поисковиком и проиндексируем этот абзац. Жизнь, подмахивать, свобода, кроль, дрисня... Да, поисковик откликнется на любое из этих слов в запросе и n-ой ссылкой выдаст эту публикацию. Но что это решает? Вы запросили у Яндекса кроль, втайне помышляя о стиле плавания или, того хуже, о пушистом ушастом зверьке. Получили ссылку на работу Сергея Солоуха. Хмыкнули, пожав плечом и отправились на дальнейшие поиски. Все недовольны. Публикация "Без запятых" просто не предназначена для индексации тупыми роботами. Более того, как определить ее тематику, какими META-тэгами описать? И кто будет описывать? Редактор Net-культуры? Пара десятков хоть как-то оплачиваемых модераторов? Уравнения не выйдет, ни один параметр неизвестен. И вообще, кропотливая разработка META-описаний выглядит довольно перспективной с точки зрения более оптимальной классификации веб-страниц. Перечисление ключевых слов ни на гран не подвигает нас к искомой информации, необходимо дополнительное определение статуса каждого из этих слов. Но применение META-тэгов для решения этой задачи пока что маловероятно. И причина известна: сегодня Сеть и Рунет, в частности, идет по пути привлечения посетителя любыми путями. Мало кого интересует, что серфер, ошибочно попав на страницу, на ней не задерживается, как правило. Главное, что его визит спровоцировал показ баннера и добавил единичку к показаниям счетчика. Работа по формированию постоянной целевой аудитории ресурса большинством сайтовладельцев проводится эпизодически, полуинтуитивно. При таком положении вещей задумываться о точном позиционировании веб-страницы в информационном потоке никто не будет. Следовательно, META-тэги долго еще будут находиться в незаслуженной ссылке, и к чему писалась эта статья - непонятно никому, в том числе и автору. последние новости 24.04.2002 11:11 | Спортивные юношеские игры будет поддерживать Mail.ru...» 24.04.2002 10:37 | Как обмануть систему защиты от хакерских атак...» 24.04.2002 10:37 | Баннерные сети AdvertOn и MBN объединяются...» 24.04.2002 10:32 | METAфизика онлайнового поиска...» 24.04.2002 10:19 | Новая SMS-игра "Воины трафика"...» 24.04.2002 10:03 | Новый КПК Toshiba Pocket PC e310...» 24.04.2002 09:56 | Microsoft атаковала General Public License (GPL)...» 24.04.2002 09:27 | Очередные подробности относительно выхода THOROUGHBRED...» 24.04.2002 08:59 | Германские медики требуют запретить продажу лекарств в Интернете...» 24.04.2002 08:58 | Гейтс дает показания ...» 24.04.2002 08:25 | Китай станет первой интернет-державой планеты...» 24.04.2002 07:47 | Простой секрет Windows ...» 24.04.2002 07:39 | Крупнейшим провайдерам отказали в надежности...» 24.04.2002 07:27 | По 10 тыс. пикселей за доллар...» 24.04.2002 07:23 | Intel представила новый Xeon 2,4 ГГц...» 24.04.2002 07:15 | "Комтек" без аншлага...» 24.04.2002 07:12 | "Уралкалий" выложит на ИТ $4,2 млн...» 24.04.2002 06:19 | 27 киберпиратов попались федералам...» 24.04.2002 05:17 | Новая серверная Windows увидит свет к 2003 году...» 24.04.2002 04:14 | Egg рекламирует электронные платежи...» |
|
2000-2008 г. Все авторские права соблюдены. |
|