<<
>>

Программное обеспечение экспертно-информационной системы

Системы управления базами данных. Для манипулирования данными (вводом, поиском и т. п.) в информационных системах используют специальное программное обеспечение, называемое системами управления базами данных (СУБД).

Этот вид программного обеспечения в последние годы очень быстро совершенствуется. С одной стороны, СУБД все шире используют для манипулирования новыми типами информации (мультимедиа, географические информационные системы и т. п.), с другой — созданы новые технологии (архитектура «клиент—сервер», распределенные базы данных, гипертекст и т. п.), которые позволяют обеспечить доступ к информации широкому кругу пользователей в рамках сети Интернет, открывая тем самым принципиально новые возможности для изучения окружающей среды.

В настоящее время фактическим стандартом систем управления базами данных для персональных компьютеров является СУБД Microsoft Access. Пакет Microsoft Access for Windows является мощным средством управления базами данных, которое поддерживает реляционную модель данных и позволяет создавать сложные приложения на особом диалекте Visual BASIC (VBA). Microsoft Access можно применять для поиска и обработки всевозможных данных, а также для подготовки отчетных документов. Пользовательский интерфейс достаточно прост и предоставляет пользователю удобные возможности для манипулирования базами данных, так что освоение пакета обычно не вызывает сложностей.

В связи с бурным развитием сети Интернет, которая является гигантской распределенной базой данных, возрос интерес к та-

ким СУБД, как Oracle. В настоящее время эта система управления базами данных установлена на многих серверах Сети.

В подавляющем большинстве СУБД для персональных компьютеров информация организуется в виде двумерных таблиц, и их часто, хотя и не всегда корректно, называют реляционными базами данных. Файлы .DBF стандарта dBASE представляют собой отображение двумерной таблицы со столбцами — полями и строками — записями.

При поиске информации в этих файлах часто приходится использовать сведения о положении данных в файле (номер строки таблицы, номер записи файла .DBF) и в этом отношении стандарт dBASE не удовлетворяет требованиям, предъявляемым к реляционным базам данных. Пока базы данных на компьютерах были относительно невелики и их можно было разместить в одном файле .DBF, это обстоятельство не играло существенной роли, а привычная простота таблицы привлекала к этому способу организации информации многочисленных пользователей. Но при увеличении размеров баз данных хранить их в одной таблице становится невозможным и возникает необходимость выполнения других требований реляционной модели. В связи с этим важное значение имеет понятие нормализации.

Нормализация не является жестко фиксированным понятием или установленной раз и навсегда процедурой. Нормализация — скорее, набор правил, которыми стоит руководствоваться при проектировании реляционных баз данных. Одно из таких правил гласит: «В таблице не должно быть повторяющихся полей и дублирования информации». Например, если к фрагменту подобной таблицы добавить информацию об авторах книг, то в стандарте dBASE фрагмент станет выглядеть как в табл. 6.6.

Таблица 6.6

Пример ненормализованной таблицы

Номер

записи

Название

Автор 1

Автор 2

Автор 3

Год

Стра

ницы

1

Анализ

процессов

статисти

ческими

методами

Д.Хим-

мель-

блау

1973

960

2

Методы

решения

некор

ректных

задач

А. Н. Тихонов

В. Я. Арсенин

1979

286

У первой книги один автор, и для хранения его имени доо«ста- точно одного поля.

Но у второй книги уже два автора, а моогут быть книги и с большим числом авторов. Поэтому возникает пттер- вый вопрос: сколько полей следует предусмотреть для хране эния в таблице информации о фамилиях авторов книги? При этасэм в таблице появится несколько однотипных полей для хранехсния имен авторов книг. Некоторые из этих полей будут пустыми, езесли число авторов книги меньше числа зарезервированных полей ¦. Во многих полях будет значиться одна и та же фамилия, если о„один человек является автором более чем одной книги, т.е. инфорсэма- ция будет дублироваться. Такую таблицу обычно называют негт*гор- мализованной, и ее не следует включать в реляционную базу доданных.

Как следует организовывать информацию в реляционной О базе данных, можно проиллюстрировать на простейшем примере бйЗазы BOOKS.MDB, созданной с помощью СУБД Microsoft Access г 7.0. База BOOKS.MDB предназначена для хранения информациями о книгах.

В 90-е гг. XX в. реляционная модель данных превратилась в в основное средство организации информации в базах данных не то оль- ко на персональных компьютерах (ПК), но и на больших 3BVIVL

Язык структурированных запросов SQL (Structured Quruery Language) был разработан корпорацией IBM в 70-е гг. XX в.._, но всеобщее распространение получил существенно позднее, коогда после появления компьютерных сетей, связывающих компькхгге- ры различных типов, потребовались стандартные языки для обмена информацией. Благодаря своей независимости от специ»жфи- ки компьютера, а также поддержке лидерами в области технсдоло- гии реляционных баз данных, SQL стал и в ближайшем обозЕзри- мом будущем останется таким стандартным языком. Синтавхсис SQL похож на синтаксис английского языка и позволяет копнет - руировать достаточно сложные запросы. Этот язык является непроцедурным, в нем отсутствуют многие стандартные для прсхше- дурных языков конструкции — функции, циклы, условные схше- раторы. Язык SQL состоит из инструкций, которые передаюотся СУБД, обеспечивая выполнение определенных действий.

Эти инструкции называют предложениями, но чаще используют терн мин «команда SQL».

Интерпретаторы команд SQL встраивают во многие ггпро- цедурные языки программирования, такие как Visual BAS3IC, C/C++. В этом случае команда обычно формируется в виде стгро- ковой переменной.

Всеобщее распространение компьютерных сетей породило • еще одну проблему, возникающую, когда несколько нользователоей с разных компьютеров начинают изменять одну и ту же базу ддддан- ных. До тех пор пока база данных открыта «только для чтения», особых трудностей не возникает, но как только нескольким пользователям позволяется ее модифицировать, возникают трудноразрешимые конфликты. Эти проблемы преодолевают в рамках модели базы данных типа «клиент —сервер». При реализации этой модели система управления базами данных разделяется на две части — «клиент» и «сервер».

Программа «клиент» размещается на пользовательской машине и позволяет формировать запросы (как правило, на языке SQL), которые по сети передают на специализированную машину (часто называемую «сервером»), где работает программа «сервер». Таким образом, термин «сервер» иногда относится к компьютеру, а иногда к программному обеспечению. Программа-сервер обрабатывает запрос, формирует из базы данных требуемую выборку записей и отсылает ее программе-клиенту. Если пользователь предполагает изменять информацию в запрошенной выборке, доступ любого другого пользователя для модификации выбранных записей блокируется (монопольный захват). Если пользователь запрашивает информацию «только для чтения», то доступ к выбранным записям не ограничивается (коллективный захват).

Основной механизм, который позволяет избежать конфликтов между пользователями, заключается в разбиении процесса обработки информации на элементарные события — группы команд SQL, которые могут выполняться (или не выполняться) только все вместе. Такие группы команд называют транзакциями. Транзакция начинается всякий раз, когда на вход «сервера» начинают поступать команды SQL, если никакая другая транзакция не является активной.

Транзакция заканчивается либо командой внести изменения в базу данных, либо отказом от внесения изменений (откат). Если в процессе выполнения команд возникает какая-либо ошибка, автоматически выполняется откат и база данных остается в исходном состоянии.

Успехи модели баз данных типа «клиент —сервер» привели к очевидной идее, что не только обработку информации можно распределить между несколькими компьютерами, но и саму информацию хранить в разных местах. Поэтому в начале 90-х гг. XX в. все большую привлекательность для пользователей ПК стали приобретать распределенные базы данных и соответственно СУБД, разработанные для больших ЭВМ. Современные информационные системы очень редко реализуют на одном персональном компьютере, поэтому возникают проблемы использования данных, хранящихся на разных ЭВМ, с обеспечением при этом высокой надежности работы и защиты данных. Многолетний опыт решения таких проблем, накопленный при разработке СУБД для больших машин, широко используется при создании сетей из ПК. Под распределенной базой данных понимают логически единую базу данных, которая размещается на нескольких ЭВМ. Гигантской распределенной базой данных является Интернет. Для пользователя любого из компьютеров, объединенных в Сеть, в узлах которой распределена такая база данных, эта база выглядит как единое целое и одинаково доступна. При этом возникает много проблем с обеспечением целостности и непротиворечивости хранимых данных и одновременно — приемлемого быстродействия прикладных программ, работающих с распределенной базой данных. Лишь в очень немногих системах управления базами данных (Sybase, Ingres, Informix) эти проблемы решены в достаточном объеме, и самой известной из них является СУБД Oracle. Система управления базами данных Oracle является одним из лидеров рынка многоплатформенных СУБД. Она может работать на более чем двухстах типах ЭВМ, включая ПК типа IBM PC и Apple Macintosh. В программное обеспечение этой СУБД входит одна из наиболее полных реализаций языка структурированных запросов SQL, а также генераторы меню, отчетов и других экранных форм.

Кроме того, программное обеспечение позволяет на основании информации, хранящейся в СУБД, строить более 50 типов графиков и диаграмм. Система Oracle содержит очень надежную систему защиты данных, их целостности и непротиворечивости.

Термином «мультимедиа» (multimedia) обозначают интерактивные компьютерные системы, обеспечивающие работу с разнообразными типами данных — неподвижными и движущимися изображениями (включая видео), а также с текстом, речью и высококачественным звуком. В соответствующих базах данных хранится не только текстовая информация, но и оцифрованные фильмы, звуки и музыка, факсимильные изображения и многое другое. Современные системы управления мультимедийными базами данных поддерживают технологию «клиент —сервер», описанную выше, а сами базы данных оказываются распределенными по узлам всемирной компьютерной сети. При этом возникает новая ситуация, которая в ближайшие годы будет определять развитие цивилизации: большинство знаний, накопленных человечеством, оказывается интегрированным в глобальную информационную систему, а доступ к этим знаниям открыт для каждого члена общества.

Технология мультимедиа широко используется в образовании — для создания обучающих программ, тренажеров, различных энциклопедий и справочников. На одном компакт-диске (CD-ROM) можно разместить тексты, составляющие библиотеку средних размеров или фильм, но чаще на таких дисках размешают тексты, движущиеся изображения, звуки и видеоклипы, связанные в единую интерактивную систему, последовательность событий в которой определяет пользователь.

Хранилища данных. Следует отметить, что в последние годы не только появляются новые технологии, но и несколько меняется подход к формированию баз данных. Базы данных, из которых извлекают знания, должны отвечать определенным требованиям. Чтобы подчеркнуть это, используют специальный термин «хранилище данных» (Data Warehouse), означающий предметноориентированный, интегрированный, поддерживающий хронологию, неизменяемый набор данных, организованный для целей поддержки принятия решений. Можно выделить две основные трудности при создании хранилищ данных, ориентированных на поддержку принятия решений: неопределенность задачи — какая именно информация может понадобиться для поддержки принятия решений в постоянно и быстро меняющемся мире, какие цели и задачи будут актуальными завтра и т. п.; неоднородность информации — разные и зачастую плохо описанные форматы файлов данных, полученные на разных приборах и не стыкующиеся между собой результаты измерений и многое другое.

Во многих случаях легче повторить дорогостоящий эксперимент, чем пытаться извлечь результаты из архивных данных предыдущего аналогичного эксперимента. Поэтому первым этапом создания хранилища данных является их интеграция. При интеграции исходных данных в хранилище необходимо обеспечить единые правила наименования, унифицированные единицы измерения для однотипных объектов, единую систему представления (атрибуты) для таких объектов и т. п. Кроме того, для интеграции данных о состоянии окружающей среды важна единая система географических координат.

Другой важной особенностью данных, включаемых в хранилище данных, является поддержка хронологии. В настоящее время в датировке данных о состоянии окружающей среды царит полная неразбериха. Например, трудно сказать, какая дата — 7 марта или 3 июля — имеется в виду в записи 99/03/07. Однотипная датировка данных с учетом смены тысячелетия должна решить все эти проблемы. В результате конечный пользователь будет иметь единое представление о временной привязке всех данных. Сформированное хранилище данных должно представлять собой неизменяемый набор данных, т. е. конечным пользователям данные будут доступны в режиме «только для чтения». Это простейший способ обеспечения целостности данных при одновременном обеспечении высокой скорости доступа к ним. При необходимости изменять данные пользователь может воспользоваться витриной данных (Data Mart). Это сравнительно небольшой набор данных, чаще всего являющийся выборкой из хранилища данных, свободно изменяемый и дополняемый пользователем. Обычно витрины данных используют для агрегирования данных из хранилища, с тем чтобы повысить скорость анализа данных.

Геоинформационные системы. Результаты экологического мониторинга всегда имеют географическую привязку, поэтому оптимальным способом организации анализа сведений о состоянии окружающей среды будет тот, который основывается на ГИС. Географические информационные системы предназначены для создания цифровых карт и анализа событий, происходящих на планете. Во многих отношениях географическая информационная система — это типичная СУБД, примеры которых рассмотрены выше.

Термин «географическая информационная система» означает организованный набор аппаратуры, программного обеспечения, географических данных и персонала, предназначенный для эффективного ввода, хранения, обновления, обработки, анализа и визуализации всех видов географически привязанной информации. Особое значение для успешной работы ГИС имеет персонал: операторы, программисты, системные аналитики и т.д. Технические специалисты, проектирующие и поддерживающие систему, во многом определяют ее свойства и эффективность последующего использования. Аппаратные средства включают компьютеры (платформы), на которых работает ГИС. Такие ГИС, как ARC/INFO, функционируют на достаточно большом числе платформ — на мощных серверах, обслуживающих клиентские машины в локальных сетях и Интернете, на рабочих станциях и отдельных ПК. Кроме того, ГИС используют разнообразное периферийное оборудование: дигитайзеры для оцифровки карт, лазерные принтеры, плоттеры для печати карт и т. п. Программное обеспечение позволяет вводить, сохранять, анализировать и отображать географическую информацию. Ключевыми компонентами программного обеспечения являются: средства для ввода и манипулирования географическими данными; система управления базой данных; программные средства, обеспечивающие поддержку запросов, географический анализ и визуализацию информации; графический интерфейс пользователя, облегчающий использование программных средств.

Данные — возможно, наиболее важный компонент ГИС. Географические информационные системы работают с данными двух основных типов: пространственные (синонимы — картографические, векторные) данные, описывающие положение и форму географических объектов и их пространственные связи с другими объектами; описательные (синонимы — атрибутивные, табличные) данные о географических объектах, состоящие из наборов чисел, текстов и т. п.

Описательная информация организуется в реляционную базу данных — отдельные таблицы связывают между собой по ключевым полям, для них могут быть определены индексы, отношения и т. п. Кроме того, в ГИС описательная информация связывается с пространственными данными. Отличие ГИС от стандартных систем управления базами данных (dBASE, Access и т. п.) состоит как раз в том, что ГИС позволяют работать с пространственными данными.

Пространственные данные в ГИС представляют в двух основных формах — векторной и растровой. Векторная модель данных основывается на представлении карты в виде точек, линий и плоских замкнутых фигур. Растровая модель данных основывается на представлении карты с помощью регулярной сетки одинаковых по форме и площади элементов. Различия между этими моделями данных поясняет рис. 6.6. Здесь показано, как объекты местности: озеро, речка, поле — отображают с помощью векторной модели — линиями и полигонами, а с помощью растровой модели — по-разному окрашенными квадратиками.

Упрощая ситуацию, можно сказать, что растровая модель данных — это набор одинаковых по размеру, но по-разному окрашенных квадратиков. В векторной модели данных озеро изображают окрашенным многоугольником, который в ARC/INFO называют полигоном (polygon), а речку — ломаной линией, которую


Рис. 6.6. Растровая (а) и векторная (б) модели пространственных дан-

ных:

1 — точка; 2 — полигон; 3 — дуга; 4 — узел

а — увеличенное изображение острова Котлин (г. Кронштадт); б — растровое изображение района Ладожского озера (прибор AVHRR, 2-й канал, спутник

NOAAA)

б

а — увеличенное изображение острова Котлин (г. Кронштадт); б — векторное изображение района Ладожского озера (карта DCW, покрытия PONET и

DNNET)

называют дугой (arc). Начало и конец этой ломаной линии называют узлами (node).

Другой пример растрового и векторного способов отображения пространственных данных представлен на рис. 6.7, 6.8, где показано, как изменяются фрагменты изображения при его увеличении.

На обоих рисунках на верхних фрагментах представлено Ладожское озеро. На рис. 6.7 это изображение, полученное прибором AVHRR спутника NOAAA и визуализированное с помощью растровой ГИС IDRISI. Его форма несколько искажена, что объясняется особенностями орбиты спутника. На рис. 6.8 представлена карта в проекции Меркатора, сформированная из покрытий PONET и DNNET карты DCW с помощью ГИС ARC/ INFO и визуализированная с помощью ГИС ArcView. При увеличении изображения в первом случае увеличивается размер прямоугольных ячеек — элементов изображения (пикселей), из которых состоит растровое изображение. При этом ни форма, ни цвет прямоугольников (величина сигналов) не изменяются. На нижнем фрагменте рис. 6.7, ^хорошо видны прямоугольники, из которых составлено изображение острова Котлин.

Изменение цвета пикселей на границах острова объясняется тем, что эти сигналы определяются отражением и от поверхности острова, и от поверхности Финского залива.

При увеличении изображения на рис. 6.8, б полигон, соответствующий острову Котлин, преобразуется в подобный полигон большей площади. Для большего полигона увеличивается длина отрезков замкнутой ломаной линии, определяющей его границу: при этом ширина этой линии не изменяется.

На рис. 6.9 показан процесс объединения в простейшую цифровую карту двух слоев цифровой карты DCW:

1) PONET — границы государств, морей, океанов;

Рис. 6.9. Объединение отдельных слоев в цифровую карту: а — PONET; б — DNNET, в - DCW

Рис. 6.10. Организация пространственной информации на числовой карте (цифры обозначают станции мониторных наблюдений)

2) DNNET — гидрографические объекты: реки, каналы, озера, острова.

Например, цифровая карта DCW была сформирована на основе карт масштаба 1:1 000 000, и именно это обстоятельство определяет, какой объект на этой карте будет изображаться полигоном, а какой — ломаной линией.

На рис. 6.10, представляющем фрагмент карты DCW, р. Нева имеет определенную ширину и показана в виде полигона, а речки, впадающие в нее и в Финский залив, изображены ломаными линиями.

В цифровых картах пространственная информация об объектах хранится в виде координат (X, Y). Точка описывается одной парой координат. Отрезок прямой линии представляется двумя парами координат (X, У), соответствующими началу и концу отрезка. Ломаные линии описывают упорядоченной последовательностью координат (X, Y). Если ломаная линия начинается и заканчивается в одной и той же точке, она ограничивает замкнутую фигуру — полигон. Соответственно первая и последняя пары координат ломаной линии (или первой и последней из ломаных линий, когда полигон ограничивается несколькими дугами) должны совпадать.

Картографическая информация об объектах включает не только их координаты, но и отношения типа «Нева впадает в Балтийское море». На цифровых картах такие отношения описывают с помощью топологической модели, определяющей пространственные связи. В ГИС ARC/INFO приняты три основных топологических условия: дуги соединяются между собой в узлах; дуги, ограничивающие фигуру, определяют полигон; дуги имеют направление, а также левую и правую стороны.

Географический анализ экологической информации позволяет изучать процессы, происходящие в окружающей среде, путем проведения различных логических операций над векторными и атрибутивными данными (пространственного и табличного анализа). Для отображения результатов пространственного анализа обычно используют карты, а для отображения результатов табличного анализа — отчеты. Пример отображения результатов простейшего пространственного анализа приведен на рис. 6.11. На этом примере обсуждаются некоторые особенности проведения географического анализа и открывающиеся при этом возможности.

Цель проведения географического анализа, результаты которого представлены на рис. 6.11, состояла в определении зон возможного загрязнения почв свинцом по критерию, использованному в «Экологической карте Ленинградской области», — преимущественное нахождение свинца вдоль автодорог с интенсивным движением в двухсотметровой полосе. Дополнительное условие анализа заключалось в исключении из рассмотрения районов жилой застройки — городов и поселков городского типа, где загрязнение почв свинцом наблюдается повсеместно. Решение задачи проходило в несколько этапов. Во-первых, была подготовлена карта района Санкт-Петербурга (см. рис. 6.11) в проекции Меркатора, на которой были совмещены четыре покрытия карты DCW: PONET: океаны, моря, страны; DNNET: озера, реки; PPPOLY: районы жилой застройки; RDLINE: автомобильные дороги.

Далее средствами ARC/INFO было сформировано покрытие RDLINEM1, включающее области, лежащие вблизи автомобильных дорог (в пределах ±200 м). Затем из этого покрытия были вырезаны области, соответствующие жилой застройке. При этом было сформировано покрытие RDLINEM2. Полигоны этого покрытия, соответствующие внутренним областям буферных зон, показаны белой заливкой. Эти полигоны представляют решение

Рис. 6.11. Зона загрязнения вокруг шоссейных дорог вне населенных

пунктов

поставленной задачи по определению зон возможного загрязнения почв свинцом. Первое, что следует отметить в связи с этой задачей, — это легкость, с которой она решается средствами ARC/INFO. Так же легко решаются и другие задачи пространственного анализа: формирование областей, лежащих вне полигонов вырезающего покрытия; создание новых покрытий при помощи «вырезания и склеивания»; расщепление покрытий на несколько меньших покрытий; наложение полигонов и сохранение всех областей обоих покрытий; наложение точек, линий или полигонов на полигоны и сохранение всех объектов входных покрытий; наложение точек, линий или полигонов, но сохранение только части объектов входного покрытия, попадающей внутрь полигонов формирующего покрытия.

В перечисленных выше операциях создают таблицы, описывающие полигоны, дуги, границы покрытия и реперные точки. Эти таблицы изначально пригодны для проведения анализа, и для них можно формировать разнообразные запросы, аналогичные запросу на выбор полигонов покрытия RDLINEM2 на рис. 6.11, для которых выполняется условие «атрибут Inside = 100 в таблице PAT.DBF», что соответствует внутренним областям буферных зон. При проведении табличного анализа, используя логические операции AND, OR и формируя другие, более сложные структурированные запросы, можно выбрать информацию из нескольких полей одной или разных таблиц.

Возможность проведения географического анализа — это то главное, что отличает географическую информационную систему. Географический анализ позволяет сопоставить между собой разнообразную пространственно привязанную информацию и представить результаты анализа в форме, удобной для восприятия. Рутинные операции географического анализа легко автоматизируются. Для этого в каждую полнофункциональную ГИС встраивается внутренний язык программирования — SML в ГИС PC ARC/INFO, MapBasic в ГИС Maplnfo и т. п. Все это делает ГИС незаменимым инструментом для проведения анализа информации о состоянии окружающей среды.

Интеллектуальный анализ данных. Географические информационные системы предоставляют мощные средства для анализа экологической информации. Однако сами по себе они не порождают новых знаний о состоянии окружающей среды, а являются только инструментом для естествоиспытателя. В то же время, особенно в последние годы, быстро развиваются информационные технологии, ориентированные на формирование знаний о состоянии окружающей среды, которые объединяют понятием «интеллектуальный анализ данных» (data mining). Модули, основанные на таких технологиях, развиваются в рамках наиболее мощных географических информационных систем, но значительно чаще они формируются в экспертно-информационные системы, ориентированные на прогнозирование состояния окружающей среды, оценку риска хозяйственной деятельности и поддержку принятия решений, обеспечивающих устойчивое развитие. С научной точки зрения метод интеллектуального анализа данных (НАД) — сфера пересечения человеческих знаний, машинного обучения, математического моделирования и баз данных. В последнее время применение интеллектуального анализа данных стало частью экономической стратегии многих компаний, которые стремятся привлечь новых клиентов и сохранить старых.

Опираясь на различные математические методы, такие как нейронные сети, деревья решений, линейное программирование,

нечеткая логика, удается извлечь из различных, в том числе и очень больших, баз данных ранее неизвестную и достоверную информацию, служащую основой для принятия решений. Поэтому интеллектуальный анализ данных определяют также как метод поддержки принятия решений, основанный на поиске и анализе зависимостей между данными. Иногда как синоним используют понятие «обнаружение знаний в базах данных» (knowledge discovery in databases). Следует отметить, что интеллектуальный анализ данных основывается на целом комплексе методов прикладной статистики, как традиционных, так и нетрадиционных. В традиционных методах, таких как регрессионный анализ, пользователь сам выдвигает гипотезы относительно зависимостей между данными. Это относится и к современным средствам установления зависимостей, таким как оперативная аналитическая обработка данных (On-Line Analytical Processing — OLAP), которые по существу являются развитием классических методов регрессионного анализа, дисперсионного анализа и т. п.

Традиционные методы, основанные на использовании статистических моделей и априорных предположений о свойствах этих моделей, достаточно широко используются в НАД, но существенно большие надежды в настоящее время возлагаются на нетрадиционные методы. Достаточно часто именно эту группу методов связывают с понятием интеллектуального анализа данных. Основополагающая идея, лежащая в основе таких методов, состоит в установлении зависимостей между рядами данных без необходимости предварительного формулирования гипотезы о виде этой зависимости. При этом искомые зависимости далеко не всегда выражаются математическими уравнениями, и в таких случаях точнее говорить о взаимосвязях между данными. Следует также отметить, что большинство из так называемых нетрадиционных методов ИАД довольно давно разрабатывались прикладными статистиками, и в этом смысле они являются вполне традиционными. При этом их эффективность, например при решении достаточно сложных экономометрических задач, подтверждена результатами большого числа исследований.

Существует несколько методов, позволяющих находить взаимосвязи между данными без необходимости предварительного формулирования гипотезы о виде этой зависимости: поиск ассоциаций, поиск последовательностей (шаблонов), классификация, кластерный анализ, прогнозирование. Поиск ассоциаций означает поиск связанных между собой событий, когда наступление одного события с высокой степенью вероятности означает наступление другого. События, связанные во времени, обычно называют последовательностями, и выявление таких последовательностей позволяет прогнозировать будущее. Классификация озна-

чает распределение данных на некоторое число групп по некоему набору признаков. Одним из весьма перспективных методов классификации является нейрокомпьютинг, который предполагает обучение системы (программы) для решения поставленной задачи на ограниченном числе примеров. Кластеризация отличается от классификации тем, что сами группы заранее не заданы. Основой прогнозирования являются временные ряды.

Возможность анализа временных рядов в экометрии связана с использованием индикаторов и индексов. Если удается выявить закономерности, адекватно отражающие динамику поведения индексов во времени, на этой основе можно с некоторой вероятностью предсказывать будущее экологических систем.

Особенность настоящего этапа развития методов ИАД состоит в том, что все эти достаточно сложные методы реализованы в большом числе программных продуктов, доступных широкому кругу пользователей. Многие из таких программных продуктов имеют модули когнитивной графики и предоставляют пользователю большие возможности по интерпретации результатов анализа данных. Это, в свою очередь, порождает ряд новых проблем, связанных с достоверностью такой интерпретации, но опыт эксплуатации программных продуктов ИАД при поддержке принятия решения подтверждает их эффективность.

Для анализа данных о состоянии окружающей среды можно использовать стандартные пакеты, реализующие те или иные методы ИАД, — STATISTICA, MATLAB и т. п. Более подробные сведения об использовании стандартных пакетов для обработки данных о состоянии окружающей среды можно найти в учебниках, размещенных в Интернете (например: Растоскуев В. В. Информационные технологии экологической безопасности: http:// www.ecosafe.nw.ru/win/ENV/Read_me.htm).

Экспертные системы обработки данных. Что касается экспертных и экспертно-информационных систем, предназначенных для обработки данных, то их разработка наталкивается на громадные трудности. «Интеллектуализация» компьютерной обработки первичной информации об окружающей среде основана, с одной стороны, на идеях и методах конкретной области знания, для которой создается система обработки данных. С другой стороны, в компьютерной системе обработки используют разнообразные методы прикладной математики — математической статистики, теории решения обратных задач и т. п. Соответственно, при создании экспертных систем обработки данных приходится учитывать, с одной стороны, методические и метрологические особенности методик выполнения измерения, а с другой — априорные предположения и ограничения математических алгоритмов обработки. Это предполагает участие в разработке достаточно болыпо-

го коллектива профессионалов — специалистов в предметной области, математиков, программистов и, как следствие, высокую стоимость разработки. Поэтому при наличии огромного числа систем общего назначения — пакетов для статистической обработки данных, электронных таблиц, существует небольшое число экспертных систем, способных автоматически провести весь цикл анализа данных. При этом важнейшее значение приобретают средства для создания нового программного обеспечения — компиляторы, библиотеки функций, интегрированные средства.

Одной из первых задач в проблеме искусственного интеллекта и создания экспертных систем стала компьютерная имитация логического мышления человека — решение задач, доказательство теорем и т. п.

Существенным отличием систем искусственного интеллекта от обычных программ является то, что отдельные компоненты такой системы (факты, правила, цели и т. п.) могут быть дополнены или изменены независимо друг от друга. 

<< | >>
Источник: под ред. В. М. Питулько. Экологическая экспертиза : учеб, пособие для студ. учреждений высш. проф. образования. 2010

Еще по теме Программное обеспечение экспертно-информационной системы:

  1. 2.1. Информационная Сеть в зеркале аксиологии
  2. 2.1. Информационная Сеть в зеркале аксиологии
  3. 1. СИСТЕМЫ ПО ФЕДЕРАЛЬНОМУ ЗАКОНОДАТЕЛЬСТВУ.
  4. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В КОНТЕКСТЕ ФИЛОСОФСКОГО ОБРАЗОВАНИЯ Смольская Е.М.
  5. Информационные сети
  6. t. Общая характеристика и принципы управленияучреждением дополнительного образования детей
  7. ТЕМА 12. АВТОМАТИЗИРОВАННЫЕ СИСТЕМЫ КОНТРОЛЯ ОКРУЖАЮЩЕЙ СРЕДЫ (АСКОС)
  8. Гибридные интеллектуальные системы.
  9. Структура экспертно-информационной системы
  10. Программное обеспечение экспертно-информационной системы
  11. 3.8. Ретроспектива проблем метрологического обеспечения предприятий
  12. 7.1.. Система органов и служб национальной стандартизации
  13. Инфраструктурное обеспечение активизации создания, внедрения и производственного освоения нанотехнологий в регионе
  14. Экспертная оценка потребности в квалифицированных кадрах для наноиндустрии
  15. 2.3. Личностный подход как методологический принцип проектирования этнокультурной системы образования