-□ □У статт1 розглядаються питання достовгрностг вхгдних даних для задач1 моде-лювання розповсюдження домШок в атмосферному пов1тр1. Наводяться джерела недостоверности даних, дано огляд тдход1в, що дозволяють зменшити гг вплив. Запропо-новано метод для оцтки {мовгртсних характеристик недостоверности результатов моделювання
Ключовг слова: недостоверность даних,
штучний ттелект, Баесова мережа довгри □-□
В статье рассматриваются вопросы достоверности входных данных для задачи моделирования распространения примесей в атмосферном воздухе. Приводятся источники недостоверности данных, дан обзор подходов, позволяющих уменьшить её влияние. Предложен метод для оценки вероятностных характеристик недостоверности результатов моделирования
сеть доверия -□ □УДК 004.9:504.064
АНАЛИЗ СПОСОБОВ
ОЦЕНКИ ДОСТОВЕРНОСТИ ВХОДНЫХ ДАННЫХ ДЛЯ ОЦЕНКИ СОСТОЯНИЯ
ВОЗДУХА
Р.В. Криваковская
Аспирант
Отдел автоматизированного проектирования энергетических установок Институт проблем моделирования в энергетике им. Г.Е. Пухова НАН Украины ул. Генерала Наумова 15,г. Киев, Украина, 03164 Контактный тел.: 068-405-79-59 Е-mail: deyatinor@ua.fm
В настоящее время вопросы обеспечения качества окружающей среды становятся важными и актуальными. Повышение антропогенной и техногенной нагрузки на окружающую среду приводит к её деградации, что, в свою очередь, приводит к негативным последствиям для здоровья населения. Таким образом, исследования в области разработки систем управления качеством окружающей среды являются актуальными.
При проектировании систем мониторинга или управления качеством воздуха, следует учесть тот факт, что входные данные, подаваемые на вход системы, могут быть неточными, недостоверными или неполными. Игнорирование этого факта при построении систем принятия решений, связанных с обеспечением надлежащего качества воздуха, может приводить к неверным решениям. Поэтому оценка и учёт неопределённости, возникающей в задачей при исследованиях в области обеспечения качества воздуха.
Недостоверность и неполнота входных данных могут быть связаны с различными причинами. Методы оценки недостоверности и неполноты могут различаться для разных случаев. Поэтому представляется актуальным проведение анализа причин и методов оценки недостоверности и неполноты данных.
Недостоверность и неполнота данных может быть связана с несколькими причинами:
Важность проведения исследований, направленных на оценку степени недостоверности и неполноты входных данных, можно проиллюстрировать на примере. На рис. 1 приведен пример карт, созданных в информационно-аналитической системе AISEEM [1, 2], которые представляют собой результаты моделирования распространения загрязнения (слева) и интерполяции данных с постов наблюдения за состоянием атмосферного воздуха (справа). Можно увидеть, что результаты моделирования и наблюдений различны. Сравнение этих результатов показывает области сходства и различия данных. Также сравнение позволяет увидеть потенциальные источники недостоверных данных.
Обнаружение и исследование недостоверности и неполноты данных и выработка способов её преодоления являются важной задачей, которую необходимо решить при проектировании системы.
Рис. 1. Карты загрязнения с постов (слева) и с модели (справа)
При исследованиях, связанных с недостоверностью и неполнотой входных данных, можно выделить следующие цели:
Исследования в области недостоверности и неполноты входных данных могут идти в следующих направлениях:
Для исследования применяются различные способы:
Эти методы могут применяться по отдельности или вместе.
При сравнении результатов моделирования с данными наблюдений можно определить недостоверность данных о выбросах и неточность данных постов наблюдения. Недостатком этого подхода является то, что для работы модели имеют значение как несовершенство модели, так и неполнота и недостоверность данных о выбросах. Таким образом, мы не можем отделить степень недостоверности данных о выбросах от ограничений самой модели.
Снять этот недостаток помогает обратное моделирование. Обратное моделирование помогает оценить числовые характеристики источников загрязнения, зная результаты наблюдений. Существует несколько способов обратного моделирования. Следует понимать, что обратное моделирование также имеет погрешность и это нужно учитывать. Использование обратного моделирования для усвоения данных может повысить качество прямого моделирования. Также в случае использования обратных моделей полученные данные возможно сравнивать между собой и таким образом оценить степень недостоверности исходных данных о выбросах.
При выборе моделей для использования следует учитывать их ограничения на качество входных данных. Для этого можно использовать результаты анализа чувствительности. Чаще всего исследуется влияние небольших возмущений входных данных на результаты моделирования. Если анализ чувствительности показал, что модель чувствительна к небольшим возмущениям входных данных, а предполагаемая степень недостоверности входных данных велика, то такую модель в данном случае использовать нельзя. Возможен также случай различной чувствительности модели к разным типам входных данных. В таких случаях использование модели возможно с оговорками.
Исследования, направленные на обнаружение области устойчивости модели, позволяют точнее идентифицировать степень недостоверности входных данных, при которых возможно использование моделей.
Результаты проведения анализа чувствительности также можно использовать для обнаружения дополнительных неучтённых воздействий. Например, в [5] при проведении оценки адекватности моделей автор отмечает, что для постов, которые в меньшей мере испытывают влияние транспорта, его модель является адекватной. Если сравнить данные с других постов с данными моделирования, можно получить оценку интенсивности выбросов от транспорта на других постах.
Для получения вероятностных оценок недостоверности данных можно использовать байесовы сети доверия (БСД). Эта технология используется для проведения вероятностных рассуждений [6]. Байесовы сети широко используются в экологии в задачах выбора стратегий, диагностики и прогнозирования [7-9]. Похожая по принципу работы фильтрация Калмана
и её модификации широко используется в экологических задачах для улучшения качества моделирования путём усвоения данных наблюдений. Также, достоинством байесовых сетей является их способность к обучению.
В случае наличия больших массивов входных данных, для получения результатов можно использовать такие методы, как нейронные сети. Эти методы широко используются в различных задачах распознавания образов. Недостатком нейронных сетей является то, что им необходимы большие объемы данных для обучения. Эти методы также требуют обязательной верификации на тестовых данных.
В настоящее время широко используются методы усвоения данных, анализа чувствительности моделей, развиваются ансамблевые методы моделирования. В то же время исследований в области моделирования в условиях недостоверности входных данных недостаточно. Поэтому было принято решение сосредоточиться на работе в этом направлении.
В случае работы по оценке качества атмосферного воздуха в Украине, появляются дополнительные требования, налагаемые на методы. Данные наблюдений и выбросов часто являются фрагментарными, а также часто доступны только усреднённые значения числовых характеристик. Поэтому к методу оценки достоверности входных данных предъявляются следующие требования:
Для решения этой задачи перспективным представляется использование байесовых сетей доверия для оценки степени недостоверности и неполноты данных. Их преимущества для решения задач такого типа таковы:
При построении байесовой сети необходимо пройти несколько основных этапов. Это такие этапы:
После выполнения основных этапов мы получаем готовую сеть, которую можно использовать для проведения экспериментов.
Адекватность моделей, построенных с помощью байесовых сетей доверия, можно проверять на основе имеющихся данных. При необходимости после проверки в сеть могут быть внесены изменения.
Предлагается структура сети, приведенная на рис. 2.
| 0№-higli
Рис. 2. Структура сети доверия
В табл. 1 приведены значения переменных.
Таблица 1
Переменные, используемые в БСД
Переменная season weather data weather model emission model data
Список значений spring, summer, autumn, winter low, medium, high low, medium, high low, medium, high low, medium, high
Описание Время года Достоверность входных данных погодной модели Достоверность выходных данных погодной модели (в зависимости от степени достоверности входных данных) Достоверность данных о выбросах Достоверность данных моделирования
Следующим этапом в работе будет заполнение сети значениями условных вероятностей.
Для получения значений условных вероятностей можно использовать данные, полученные при анализе чувствительности моделей. Также, для нахождения значений условных вероятностей для байесовой сети может быть использован такой подход:
Следующими этапами данного исследования в будет нахождение значений условных вероятностей и проведение моделирования на сети. Путями развития исследования может быть получение результатов на
других входных данных и сравнение БСД с другими методиками, в первую очередь с методиками на основе обратного моделирования.
В данной статье был проведен анализ источников недостоверности и неполноты входных данных, возникающих в задаче оценки состояния атмосферного воздуха. Также, был сделан анализ основных методов работы в условиях недостоверности входных данных, в результате чего были выделены области применения различных методов. Проанализированы особенности и ограничения применения этих методов в условиях Украины. Автором предлагается оценивать степень недостоверности данных моделирования распространения примесей в атмосферном воздухе при помощи байесовых сетей доверия. Выделены направления дальнейших исследований.
Abstract
The article concerns the issues of reliability of input data for modeling of admixtures propagation in the air, and possible results of unreliable input data application at further optimization and control of the air quality. The main sources of unreliable data are given. There are objectives of the research in the sphere of input data limitation, review of approaches, decreasing its effect. The requirements to the methods of overcoming of input data limitation, as well as certain demands determined by Ukrainian realias, were formulated. The method based on the Bayes networks was suggested to assess the probabilistic properties of the modeling results unreliability during the application of unreliable input data. The article reveals the advantages of Bayes networks and the stages of their plotting. The structure of the network was suggested and its variables were described to assess the results of modeling. There is an approach to find out the values of conditional probabilities for the network.