Библиотека Интернет Индустрии I2R.ru |
|||
|
Найти и проанализировать!Именно такие блага обещают авторы тем, кто воспользуется их программой Deductor Professional. А для того чтобы было легче принять решение, нужна она вам или нет, предлагается установить у себя свободно распространяемый аналитический пакет Deductor Lite, скачав его с сайта разработчика. В этот пакет включено 5 интегрированных приложений: Cube Analyzer (настольный OLAP модуль), RawData Analyzer (предобработка и очистка данных), Tree Analyzer (деревья решений), SOMap Analyzer (самоорганизующиеся карты Кохонена), Neural Analyzer (многослойные нейронные сети и RBF сети). И я, поскольку придерживаюсь мнения BaseGroup Labs, что время грубой силы прошло, скачал этот не очень "толстый" пакет на свой компьютер и установил его. Осталось лишь проверить, соответствуют ли его реальные возможности тем, что о них пишут. Чем теперь и займемся. По сравнению с профессиональным вариантом, Deductir Lite имеет вполне определенные ограничения: количество записей, с которыми будут работать модули, не может превышать 150. Если их больше, лишние просто обрезаются. Начинать работу с системой нужно с заполнения данных. Его можно осуществить за счет их импортирования из внешних источников. Этот процесс не представляет каких-либо затруднений - одинаково хорошо подключались таблицы Paradox, FoxPro, базы данных из Interbase и Access, форматированные текстовые файлы, не пришлось устанавливать никаких дополнительных драйверов. Центральный модуль системы - RawData Analyzer. Он предназначен для предварительного анализа входной информации и ее предварительной обработки, если она плохого качества. Импорт информации осуществляется с помощью мастера подключения. Но передачу данных в модуль RawData Analyzer можно осуществить и по-иному. Для этого необходимо проинсталлировать панель Deductor в Excell. После этого для передачи данных для анализа достаточно выделить нужную область и нажать на кнопку программы. Для повышения качества входной информации можно последовательно использовать любые из имеющихся вариантов обработки - сглаживание, удаление шумов, обработку аномальных значений, заполнение пропущенных данных. Результаты обработки, полученные в этом модуле, могут быть затем переданы для анализа в любой другой модуль системы. При этом исходные данные в источниках, к которым подключена система, не изменяются, а отлаженный сценарий обработки можно сохранить и вызывать в дальнейшем для обработки новых наборов данных. Полученные результаты помимо передачи в другие модули системы можно импортировать в Excel, Word, HTML и другие системы. Все остальные модули служат для непосредственного анализа входных данных. Что они могут?Модуль SOMap Analyzer. Это система анализа информации создана на основе мощного алгоритма кластеризации - самоорганизующихся карт Кохонена. Суть метода сводится к тому, что информация, пропущенная через модуль, группируется по схожести между объектами. В результате операции сведения, полученные из баз данных, преобразуются в раскрашенные карты, на которых объекты расположены таким образом, что расстояние объектов на карте соответствует близости характеристик этих объектов в реальном мире. Этот алгоритм успешно применяется при анализе и выявлении зон риска, поиске объектов на основе нечетких критериев, диагностике. Графическое изображение вообще легче воспринимается человеком, чем бесконечные столбцы цифр. Поэтому результаты, представленные в виде карт и графиков, могут быть лучше поняты, и по ним могут быть приняты более верные решения. Для реализации раскраски карт используются два варианта - раскраска кластеров (группы векторов, расстояние между которыми внутри этой группы меньше, чем расстояние до соседних групп) и раскраска отдельных компонент. В последнем случае карта выглядит как слоеный пирог, в котором каждому цвету соответствует тот или иной компонент. Часто для раскраски используют оттенки серого цвета, при этом черному цвету будут соответствовать либо ячейки с минимальным значением компоненты, либо узлы (кластеры) с наибольшими расстояниями. Следующий модуль - Tree Analyzer. Это программа, позволяющая проводить анализ данных на основе деревьев решений. В основе его лежит один из алгоритмов построения деревьев решений - С4.5. (C4.5 - алгоритм построения дерева решений, в котором количество потомков у узла не ограничено. Не умеет работать с непрерывным целевым полем, поэтому решает только задачи классификации). Суть его работы сводится в нахождении такого набора правил, который наиболее полно описывал бы представленные для построения дерева данные, при этом обеспечивая наиболее качественное разделение на классы. Эти правила затем представляются в виде иерархической структуры, или дерева. Как и в других модулях системы, работа начинается с подключения к какому-либо источнику данных. Затем в дело вступает Мастер построения. Пользователю нужно ответить на ряд вопросов. Вначале - выбрать те поля входных данных, которые будут использоваться для анализа. Затем - настроить параметры будущего дерева. На этом шаге можно указать, что нужно делать в случае появления неполных данных, что делать с ветками дерева, если количество данных в них меньше определенного числа и так далее. После этого запускается процесс построения дерева.В дальнейшем из построенного дерева можно извлекать правила, записанные на естественном языке, например: 'если образование = высшее и возраст > 40 лет, то выдать кредит'. Для извлечения правил необходимо исследовать все пути от корня до каждого листа дерева. Каждый такой путь даст правило, где условиями будут являться проверки из узлов, встретившихся на пути. Деревья решений являются прекрасным инструментом в системах поддержки принятия решений, интеллектуального анализа данных (data mining). Деревья решений успешно применяются для решения практических задач в следующих областях:
Таким образом, приобретая пакет Deductor, пользователь получает мощный математический аппарат для анализа информации. Но при этом надо понимать, что самое сложное в использовании этой системы - не подключение ее к источнику данных, а настройка параметров, с учетом которых будет проводиться анализ. Вероятно, поэтому один из модулей - Cube Analyzer - позволяет лишь использовать ранее подготовленные модели решений. Лишь прочитав FAQ на страницах сайта разработчиков, можно узнать, как запускается этот модуль в режиме создания новых моделей анализа. Любители "острых ощущений" могут не только проверить себя в освоении системы Deductor, но и попытаться применить различные алгоритмы, использованные в ней, в своих разработках. Разработчики системы опубликовали на своем сайте исходные коды многих алгоритмов, написанные на Delphi. Михаил Брод |
|
2000-2008 г. Все авторские права соблюдены. |
|