На главную

Библиотека Интернет Индустрии I2R.ru

Rambler's Top100

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...

Забобрить эту страницу! Забобрить! Блог Библиотека Сайтостроительства на toodoo
  Поиск:   
Рассылки для занятых...»
I2R » Рынок
Разделы в "Рынок":
Компании РунетаТуризмКомпанииЭлектронное правоAmazon, eBay и YahooТенденции и цифрыНовое в разделе "Рынок"

Точка опоры или что считать

В этом разделе я собираюсь определить особенности информационно-поисковых систем и их отличия от других информационных систем, главным образом, от систем Поиска Данных. Если Вас утомляют длинные рассуждения, и вы готовы поверить мне на слово, то можете смело пропустить все, что написано ниже, и перейти сразу к чтению выводов.

Само понятие информационного поиска расплывчато и аморфно. Поиск любого сорта информации можно считать информационным поиском. Поэтому, следуя классикам жанра, например, Рейсбергену (C.J van RIJSBERGEN "Information Retrieval", London, Butterworths, 1979), установим точку отсчета в наших рассуждениях об информационном поиске, разграничив Поиск Данных (Data Retrieval) и Информационный Поиск (Information Retrieval).

Свойство
Поиск Данных
Информационный Поиск
Совпадение компонентов запроса и единицы хранения информации при поиске
Полное
Неполное
Метод вывода результата поиска
Дедукция
Индукция
Тип модели поиска
Детерминистская
Вероятностная
Тип классификации информационных ресурсов
Однозначная
Многозначная
Язык запросов
Искусственный
Естественный
Спецификация запроса
Полная
Неполная
Поиск единиц хранения информации
Путем совпадения
Расчетом релевантности
Наличие "шума" в результатах поиск
Не допускается
Допускается

Определение этих двух видов поиска информации принято давать через их сравнение в виде таблицы.

Теперь расшифруем "птичий язык" терминов, которыми заполнена эта таблица. Очевидно, что строки таблицы с разных точек зрения характеризуют одно и тоже основное различие между двумя типами поиска информации, которое "дается в ощущениях" и определяется через набор атрибутов, задающих строки таблицы.

Забегая несколько вперед, следует сказать, что часто под Поиском Данных подразумевают поиск в массивах "хорошо" структурированной информации, а под Информационным Поиском - в массивах неструктурированных или слабоструктурированных данных. Как мы увидим ниже, это определение также не дает полного представления о различии двух типов поиска, но для наших целей оно пока является достаточным.

И еще одно определение. Единицей хранения информации будем называть объект, который с точки зрения информационной системы представляет собой нечто единое. Единица хранения определяет свойства целостности и непротиворечивости данных. При реализации схемы хранения может быть проведена декомпозиция единицы хранения, как это делается, например, при нормализации таблиц в реляционных базах данных.

"Хорошо" структурированные данные - это данные, в которых каждую единицу хранения информации можно представить в качестве конечного набора атрибутов. При этом каждый из них будет принимать точно определенное значение.

Слабоструктурированные данные - это данные, в которых каждую единицу хранения также представляют конечным числом атрибутов, но значение атрибута точно не определено и может иметь в свою очередь сложную структуру.

Неструктурированные данные - это данные, в которых каждая единица хранения не может быть представлена конечным числом атрибутов. Об их значениях, вообще в данном контексте говорить не приходится.

Теперь вернемся к таблице. Совпадение компонентов запроса и единицы хранения информации при поиске предполагает, что для систем Поиска Данных компоненты запроса должны точно совпадать со значениями атрибутов единиц хранения. Для Информационного Поиска в таком жестком требовании нет необходимости. Элементы запроса в этом случае могут лишь частично совпадать со значениями атрибутов слабоструктурированных единиц хранения или с частями неструктурированных единиц хранения.

При Поиске Данных единица хранения выдается на запрос, если выполняется вся совокупность частных условий поискового предписания. Таким образом, логика выдачи данных пользователю строится от частного к общему, т.е. по принципу "от частного к общему". В Информационном Поиске, как правило, стратегия поиска построена по принципу усечения первоначальных результатов поиска, что приводит к логике "от общего к частному".

При Поиске Данных единица хранения информации либо удовлетворяет поисковому предписанию, либо нет. Третьего не дано.

При Информационном Поиске ситуация выглядит более неопределенно. Принято считать, что документы, а именно они являются единицами хранения в информационно-поисковых системах, могут удовлетворять информационному критерию не полностью, а частично. Т.е. каждый из документов освещает только некоторую часть информационной потребности пользователя. Это свойство документов называется релевантностью. Релевантность выражает степень соответствия документа запросу. Различают формальную и истинную релевантность. Первая имеет численное выражение и рассчитывается поисковой системой, вторая - это нечто неисчислимое, но данное в ощущениях пользователей. Отмечая среди найденных документов релевантные, пользователь тем самым показывает степень совпадения истинной и формальной релевантности.

Когда речь заходит о классификациях единиц хранения, то в данном случае не имеется в виду структура классификации (иерархическая, фасетная и т.п.). Речь идет о степени полноты описания единицы хранения.

При Поиске Данных существует точное однозначное описание единицы хранения. Это конечный набор значений атрибутов. Например, перечень свойств товара в накладной.

При Информационном Поиске документ никогда не может быть точно описан. Точное описание - это сам документ. Может существовать целое множество поисковых образов документа в зависимости от того, с какой точки зрения мы рассматриваем содержание этого документа или в контексте какой предметной области мы осуществляем его поиск.

Стандартным языком запросов систем Поиска Данных в настоящее время является SQL (Structured Query Language), а в информационно-поисковых системах повсеместно применяются списки ключевых слов или логические высказывания, использующие ключевые слова. Логика SQL прямо противоположна логике информационно-поисковых языков. Высказывание типа "автор=Солонин&автор=Гореславский" в информационно-поисковом языке является нормой, но абсолютно не допустимо в SQL. Ведь с точки зрения данного языка атрибут не может иметь одновременно два разных значения.

"Естественность" языка информационно-поисковых систем вызывает глубокое сомнение. Все попытки реализовать поиск на естественном языке неизменно терпели неудачу. Достаточно вспомнить амбициозные планы разработчиков WAIS (Wide Area Information System). В конечном счете, все опять же закончилось списком ключевых слов. Вообще говоря, сформулировать запрос на естественном языке так же трудно, как и на формальном, но последний лучше приспособлен для интерпретации его программами. Это обстоятельство существенно сказывается на степени релевантности найденных на запрос документов.

При Поиске Данных все действия над данными точно описываются на языке данных от выборки до сортировки результата поиска и формы отчета. В информационно-поисковых системах многие действия совершаются системой по умолчанию. Например, фильтрация слов поискового запроса или сортировка результатов поиска по степени релевантности документов.

И последнее. При Поиске Данных все найденные данные, которые совпали с запросом, выдаются пользователю. При Информационном Поиске, в принципе все документы в поисковом массиве в той или иной мере релевантны запросу. При выдаче они сортируются по степени этой релевантности.

Продолжение...

Павел Храмцов

Другие разделы
Туризм
Компании
Электронное право
Amazon, eBay и Yahoo
Тенденции и цифры
Новое в разделе
I2R-Журналы
I2R Business
I2R Web Creation
I2R Computer
рассылки библиотеки +
И2Р Программы
Всё о Windows
Программирование
Софт
Мир Linux
Галерея Попова
Каталог I2R
Партнеры
Amicus Studio
NunDesign
Горящие путевки, идеи путешествийMegaTIS.Ru

2000-2008 г.   
Все авторские права соблюдены.
Rambler's Top100