Сравнительный анализ методов классификации при прогнозировании качества хлеба

Автор: Балашова Е.А.

ВестникВГУИТ, №1, 2013_

УДК 675.03.031.81:577.15

Доцент Е.А. Балашова, профессор В.К. Битюков, аспирант Е.А. Саввина

(Воронеж. гос. ун-т. инж. технол.) кафедра информационных и управляющих систем, тел. (473) 255-38-75

Сравнительный анализ методов классификации при прогнозировании качества хлеба

Проведен сравнительный анализ методов классификации двухэтапного кластерного, дискриминантного анализа и нейронных сетей. Предложена система информативных признаков, классифицирующая с минимумом ошибок.

The comparative analysis of classification methods of two-stage cluster and discriminant analysis and neural networks was performed. System of informative signs which classifies with a minimum of errors has been proposed.

В последние годы среди специалистов значительно выросла популярность систем интеллектуального анализа данных. Именно они играют ведущую роль в прогнозировании качества готовой продукции. Поэтому вопросы качества продукции наиболее важны в технологии хлебопечения. Это обусловлено большим объемом и сложным характером анализируемых данных, которые невозможно учесть при прогнозировании качества продукции. В таких системах используются методы кластерного, дискриминантного анализа и нейронные сети.

Целью данной работы был сравнительный анализ кластерных, дискриминантных и нейросетевых методов классификации, выявление наиболее информативных факторов, при которых количество ошибок сводится к минимуму.

В ходе выполнения работы была сформирована база данных, состоящая из 595 анализов, характеризующих качество хлеба по 20 признакам. Качество хлеба описывалось органолептическими (влажность, массовая доля и качество клейковины и т.д.), химическими показателями муки (массовая доля жира, клетчатки, содержание углеводов и т.д.), а также показателями хлеба (влажность мякиша, пористость и кислотность). В соответствии с классификацией, предложенной

Пономаревой Е.И. [3], качество белого хлеба подразделяется на 4 основные группы: 1 группа (высшее качество) - 140 наблюдений (23,5 %), 2 группа (хорошее качество) - 195 (32,8 %), 3 группа (плохое качество) - 140 (23,5 %), 4 группа (очень плохое качество) - 120 (20,2 %).

Структуру базы данных составляют не только количественные (влажность муки, активная и титруемая кислотность, массовая доля клейковины, качество клейковины и т.д.), но и качественные признаки (наличие хруста, горькости вкуса, кислоты, зараженности вредителями и т.д.). Значения качественных признаков были кодированы цифрами и буквами. Исходные категориальные признаки были формализованы в бинарные, каждый из которых имел 2 состояния (0 -признак отсутствует, 1 - присутствует). В результате количество признаков в базе данных увеличилось до 27.

Обработка данных проводилась кластерными, дискриминантными и нейросете-выми методами. Метод двухэтапного кластерного анализа (Two Step Cluster) позволяет кластеризовать различные группы по отдельности, а после этого объединять полученные результаты в конечную структуру кластеров. Для измерения расстояния между объектами используется Евклидова метрика

ВестникВГУИТ, №1, 2013=

j £xkj - xj *

где - расстояние между объектом к и 1, а х.. -и х.. - это )-е свойства объектов соответственно к и 1.

Число кластеров в двухэтапном кластерном анализе может быть задано автоматически или рассчитано по критерию Акаике (А1С):

AICk =-2Lk + 2rk ,

где - число параметров или информационный критерий Байеса

BICk =-2Lk + rk log п

Каноническая дискриминантная функция вычисляется по формуле:

F (x) = a1x1 + a2 x2,

где а1, а2 - коэффициенты функции, х 1, х 2 -дискриминантные переменные.

Коэффициенты дискриминантной функции а1 определяются таким образом, чтобы

средние значения функций / (х) и /2 (х) , как можно больше различались между собой, т.е. чтобы для двух множеств (классов) было максимальным выражение

____П п

/1 (Х) - /2 (Х) = Е а1 Х1г - X а1 Х2г & (5)

г=1 г=1

Вектор коэффициентов дискриминантной функции определяется по формуле:

A = S-\\ X1 - X 2),

где £ объединенная ковариационная матрица признаков

^ =-1--Х X + X2 Х2), (7)

П + П2 - 2 1 1 22

где X - матрицы отклонений наблюдаемых значений исходных переменных от их средних величин в группах.

Методы нейронных сетей моделируют функции биологического нейрона, то есть формируют выходной сигнал в зависимости от сигналов, поступающих на его входы. Состояние нейрона характеризуется величиной синаптической связи (весом ¥1) и определяется по формуле:

NET = £ x.w. . г г г = 1

где NET - суммирующий блок, который складывает взвешенные входы алгебраически, создавая выход, xi - множество входных сигналов поступающих на искусственный нейрон, w г - множество весов сигнала.

Для классификации с высокой точностью необходимо выявление наиболее информативных признаков. Информативность признаков определяется коэффициентом корреляции Пирсона, то есть чем больше корреляция, тем больше сходство между объектами.

С помощью корреляционного анализа в общей выборке было выявлено, что признаки коррелируют с классом качества на уровне 0,01. Для класса 1 был выявлен один специфический признак (содержание водорастворимых углеводов Х 23), коэффициент корреляции равен 0,819, теснота связи сильная. Класс

2 не имеет специфичных признаков, лишь для

3 признаков коэффициент корреляции превышает 0,5, теснота связи средняя. В классе 3 информативных признаков обнаружено не было, только один признак (зараженность вредителями Х17) имеет коэффициент корреляции более 0,5. Для класса 4 было выявлено 9 специфичных признаков, коэффициент корреляции которых превышает 0,7 и лежит в диапазоне от 0,717 до 0,801, теснота связи сильная. 6 признаков имеют среднюю тесноту связи и коэффициент корреляции более 0,5. Данный набор признаков был использован для всех методов классификации.

Выявление информативных признаков позволяет сделать вывод о возможности выделения 4 класса качества. Классы 1, 2 и 3 выявить невозможно из-за небольшого количества специфических признаков, в этой связи была построена иерархическая схема классификации, представленная на рис. 1.

Рис. 1. Иерархическая схема классификации

Для классификации методом двухэтап- относится хлеб высшего, хорошего и плохого

ного кластерного анализа были выбраны при- качества, ко второму (II) - очень плохого казнаки, имеющие значимую корреляцию с клас- чества (табл. 1). Процент правильно классисом качества. Была установлена двухкластер- фицированных наблюдений составил 93,27 %.

ная структура данных. К первому классу (I)

Т а б л и ц а 1

Результат классификации кластерным анализом

Кластер Распределение по кластерам %

N % объединенных ошибок

Класс I Хлеб хорошего качества 435 73,1 %

Класс II Хлеб очень плохого качества 160 26,9 % 6,73 %

Итого 595 100 % 6,73 %

Проведем разбиение класса I на под- наблюдений. Для данной подвыборки провеклассы (табл. 3). Класс I объединяет 435 дем корреляционный анализ (табл. 2).

Т а б л и ц а 2

Таблица коэффициентов корреляции

Признак Класс 1 Класс 2 Класс 3

Влажность муки (Х1) 0,742** -0,307** -0,462**

Титруемая кислотность (Х 2) 0,722** -0,238** -0,520**

Вкус свойственный (Х10) -0,307** -0,382** 0,756**

Вкус кислый (Х11) -0,248** 0,362** 0,704**

Массовая доля золы (Х20) 0,143** 0,741** -0,145**

Зараженность вредителями -0,337** -0,441** 0,895**

Содержание водорастворимых углеводов (Х 23) 0,834** -0,327** -0,540**

* - корреляция значима на уровне 0,05 ** - корреляция значима на уровне 0,01

Т а б л и ц а 3

Результат классификации кластерным анализом

Кластер Распределение по кластерам %

N % объединенных ошибок

Класс 1 175 40,2 % 20 наблюдений

Хлеб хорошего качества 4,6 %

Класс 2 196 45,1 %

Хлеб очень хорошего качества

Класс 3 64 14,7 % 36 наблюдений

Хлеб плохого качества 8,3 %

Итого 435 100,0 %

Недостатком такого метода является классификация несколькими этапами: на первом этапе выделяются 2 класса (I класс - хорошее и очень хорошее качество, II класс - плохое и очень плохое качество). На втором этапе данные классы разделяются на подклассы 1,2,3,4.

Установлено, что значимость по коэффициенту Уилкса для дискриминантных функций не превышает 0,0001, следовательно, использование данных функций для дискриминации целесообразно. Наибольший вклад в дискриминацию вносит первая дис-криминантная функция, так как внутригруп-повые корреляции между дискриминантной функцией и каноническими переменными имеют среднюю тесноту связи, коэффициент корреляции превышает 0,5.

Результаты расчетов показали, что число случаев ложной тревоги составило 18 (3,37 %), причем 5 (0,8 %) из них это отнесение хорошеПошаговым дискриминантным анализом с критерием отбора статистики Уилкса (Л Уилкса) были построены уравнения дис-криминантных функций (их значения представлены в таблице 4) Б1, Б2, Бз разделяющие выборку на классы:

(8) и ц а 4

го качества к плохому, и 16 (2,69 %) - распознавание плохого качества как очень плохое. Один случай (0,7 %) - отнесение плохого качества хлеба к хорошему качеству. По результатам классификации было выявлено, что высокая точность 100% достигается в 4 классе (очень плохое качество). В первом классе точность классификации составила - 99,3 %, во втором - 97,4 %, в третьем - 87,9 %. Методом дискриминантного анализа 96,1 % наблюдений были классифицированы верно.

На рис. 2 и 3 приведены объединенные графики распределения всех классов с центроидами.

Канонические дискриминантные функции

Са1едо|у_с1э££_х1еЬ

01 02 • з

ИЦентроид группы

Функция 1

Рис.2 Диаграмма рассеяния для всех групп

Б1 = -2,384+0,246Х 2-0,317Х4-0,928Х 16+1,604Х 2о+0,370Х21+0,774Х2з+0,189Х 24 Б2 = -6,506+1,760Х2+0,425Х4-0,880Х16-6,014Х 2о-2,362Х21-3,739Х 23+0,363X24 , Б3 = -25,940+2,751Х2+0,407Х4-0,543Х 16-0,663Х 2о-3,077Х 21-1,138Х 23-0,329Х 24

Т а б л

Значения дискриминантных функций

Функция Собственное значение % объясненной дисперсии Каноническая корреляция Л - Уилкса X — квадрат

Б1 9,843 69,2 0,953 0,012 2605,37

Б2 3,727 26,2 0,888 0,128 1206,22

Б3 0,651 4,6 0,628 0,606 294,44

2 ОX >

-3При классификации методом нейронных сетей из общей выборки случайным образом были отобраны 348 наблюдений - для обучающей выборки, 121 - для контрольной, 126 - для проверочной.

Оценка качества функционирования диагностической системы проводилась на проверочной.

Была построена архитектура нейронной сети состоящей из 8 факторов (Х2, Х4, Х 7 , Х9 , Х20, Х21 , Х22, Х26) и 2 стандартизированных ковариатов (Х8, Х16). Нейронная сеть содержит 1 скрытый слой и 4 нейрона на скрытом слое. Архитектура нейронной сети представлена на рис. 4.

1 класс

2 класс

Рис.4. Архитектура нейронной сети

Анализ полученных результатов по проверочной выборке показал, что число ложных тревог и пропуска сигнала сократилось до 2,4 %. Наивысшая точность (100 %) была достигнута в следующих классах: 1 высшего качества и 4 очень плохого качества. В группе с хорошим качеством одно наблюдение (2,5 %) неправильно классифицировано как высшее качество. Точность классификации в данной группе составила 97,5 %. В 3 группе с плохим качеством было

выявлено 2 ошибки (5,9 %) неправильной классификации как очень плохого качества. Данную ошибку не стоит принимать во внимание, так как данные два класса с плохим качеством не должны использоваться в хлебопечении. Таким образом, система выполняет небольшую гипердиагностику. Точность всей классификационной системы составила 97,6 %. Результаты сравнительного анализа представлены в табл. 5.

Т а б л и ц а 5

Сводная таблица результатов по всем методам

Метод Точность Процент

метода ошибок

Двухэтапный кластерный анализ 96,3 % 3,7 %

Дискриминантный анализ 96,1 % 3,9 %

Нейросетевой анализ 97,6 % 2,4 %

В заключение можно подвести некоторые итоги:

- предложен корреляционный анализ для отбора наиболее информативных признаков. Проведена классификация наблюдений двух-этапным кластерным, дискриминантным и нейросетевым методом. Показано, что коэффициент корреляции влияет на точность классификации объектов.

- выявлена система наиболее информативных признаков, позволяющая классифицировать качество пшеничного хлеба на классы. Методом двухэтапного кластерного анализа была получена двухкластерная структура данных, один кластер образует высшее и хорошее качество, другой - плохое и очень плохое качество. Дискриминантный и нейросете-вой методы позволили выделить 4 класса качества за одну итерацию.

- проведенные исследования показали возможность применения методов кластерного, дискриминантного анализа и нейронных сетей для диагностики качества хлебобулочных изделий с точностью 96,3 %, 96,1 %, 97,6 % соответственно.

Литература

1 Битюков, В. К. Итерационный алгоритм диагностики систем, описываемых набором качественных признаков [Текст] / В. К. Битюков, Е. А. Балашова, К. О. Сунцов // Системы управления и информационные технологии. - 2008. - № 4.1 (34). - С. 134-138.

2 Ким, Дж.-О. Факторный, дискриминантный и кластерный анализ [Текст] / Дж.-О. Ким, Ч. У. Мьюллер, У. Р. Клекка и др.- М.: Финансы и статистика, 1989. - 215 с.

3 Санина, Т. В. Балльная оценка качества хлебобулочных изделий [Текст] / Т. В. Санина, Е. И. Пономарева. - Воронеж: ВГТА, 2008. - 144 с.

REFERENCES

1 Bityukov, V. K. Iterative algorithm diagnostic systems described by qualitative features of boron-[Text] / V. K. Bityukov, E. A. Balashov, S. C. Suntsov // Control systems and information technology. - 2008. -№ 4.1 (34). - C. 134-138.

2 Kim, Dzh.-O. Factorial, discriminant and cluster analysis [text] /Dzh.-O. Kim, C. / Ch.U. Myuller, U.R. Klekka andothers - Moscow: Finance and Statistics, 1989. - 215 p.

3 Sanin, T. V. Scopingquality of bakery products [Text] / T. V. Sanin, E. I. Ponomarev. -Voronezh: VSTA, 2008. - 144 p.

ДВУХЭТАПНЫЙ КЛАСТЕРНЫЙ АНАЛИЗ ДИСКРИМИНАНТНЫЙ АНАЛИЗ ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ

Другие работы в данной теме:

Параллельный алгоритм составления словаря глагольного управления для новостных текстов на английском языке

Технология построения трехмерных моделей городов на основе топографических планов

Модель и метод многокритериальной оптимизации содержания проекта при нечетких исходных данных

Концептуальные графы и семантические сети в системах обработки естественно-языковой информации

Алгоритм стеганографии в видео с повышенной устойчивостью к искажениям

Социопсихофизиологические знания инновационный резерв повышения качества электронных библиотек (ЭБ)

Методика моделирования цифровых реалистичных макетных снимков с использованием машинной графики

Об оптимизации размещения данных в PIM-системе

Автоматический и интерактивный контроль качества в технологиях автоматизированной генерализации

Вычисление коэффициентов для метода линеаризации передаточной характеристики аналого-цифрового преобразователя

Бортовой мобильный аудио и медиа комплекс информационно-психологического влияния

Методика структурного обучения динамических байесовских сетей на основе статистических данных

Развитие ускорителей специализированных вычислений

Об автоматизации извлечения знаний из информационных ресурсов на основе онтологии предметной области

СТВОРЕННЯ іНФОРМАЦіЙНОї ТЕХНОЛОГії АВТОМАТИЗАЦії ПРОЦЕСУ ВИКОНАННЯ ПРОЕКТНИХ ПРОЦЕДУР