close

Вход

Забыли?

вход по аккаунту

?

Алгоритмы градуировки БИК анализаторов с применением методов многомерного анализа.

код для вставкиСкачать
На правах рукописи
Скутин Илья Владимирович
АЛГОРИТМЫ ГРАДУИРОВКИ БИК АНАЛИЗАТОРОВ С ПРИМЕНЕНИЕМ
МЕТОДОВ МНОГОМЕРНОГО АНАЛИЗА
05.11.13- Приборы и методы контроля природной среды, веществ, материалов и
изделий
АВТОРЕФЕРАТ
ДИССЕРТАЦИИ НА СОИСКАНИЕ УЧЕНОЙ СТЕПЕНИ
КАНДИДАТА ТЕХНИЧЕСКИХ НАУК
Санкт – Петербург
2014
Работа
выполнена
на
кафедре
автоматизации
процессов
химической
промышленности федерального государственного бюджетного образовательного
учреждения высшего профессионального образования «Санкт-Петербургский
государственный технологический институт (технический университет)»
Научный руководитель:
Официальные
оппоненты:
Ведущая организация:
Жаринов Константин Анатольевич,
кандидат технических наук, доцент, доцент кафедры
автоматизации процессов химической промышленности
федерального
государственного
бюджетного
образовательного учреждения высшего профессионального
образования
«Санкт-Петербургский
государственный
технологический институт (технический университет)»
Манойлов Владимир Владимирович,
доктор технических наук, доцент, старший научный
сотрудник федерального Государственного учреждения
науки
Институт
аналитического
приборостроения
Российской академии наук (ИАП РАН), заведующий
сектором «автоматизации измерений и цифровой обработки
сигналов»
Хацкевич Ефим Абович,
доктор технических наук, доцент, главный научный
сотрудник
научно-исследовательского
отдела
государственных эталонов в области физико-химических
измерений ФГУП «ВНИИМ им. Д,И.Менделеева»
НПФ «ЛЮМЭКС», Санкт-Петербург
Защита состоится ____ декабря 2014 г. в ________ на заседании совета по защите
диссертаций на соискание ученой степени кандидата наук, на соискание ученой
степени доктора наук Д 212.230.06 в федеральном государственном бюджетном
образовательном учреждении высшего профессионального образования «СанктПетербургский
государственный
технологический
институт
(технический
университет)» по адресу: 190013, Санкт-Петербург, Московский пр., 26, ауд.____
С диссертацией можно ознакомиться в фундаментальной библиотеке СПбГТИ(ТУ).
Замечания и отзывы в двух экземплярах, заверенные печатью, просим направлять на
имя ученого секретаря по адресу: 190013, Санкт-Петербург, Московский пр., 26,
Санкт-Петербургский государственный технологический институт (технический
университет). Справки по тел.: (812) 494-93-75; факс: (812) 712-77-91; e-mail:
dissowet@technolog.edu.ru
Автореферат разослан_____ октября 2014 г.
Ученый секретарь совета по защите диссертаций на
соискание ученой степени кандидата наук, на соискание
ученой степени доктора наук Д 212.230.06
кандидат физико-математических наук, доцент
Ю.Г. Чесноков
3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы
Исследование состава продукции на сегодняшний день, неотъемлемая часть этапа
контроля качества готовой продукции. Данные о составе используются для определения
стоимости продукции, оптимизации технологического процесса (сокращение расхода сырья,
повышение качества продукции), идентификации и фальсификации образцов. Традиционно,
для решения подобных задач использовались стандартизованные методы, которые, как
правило, основаны на проведении химических реакций. Недостатки данных методов,
очевидны: их использование приводит к разрушению образца; обычно необходимо
выполнять анализ вручную; данные методы требуют высокой квалификации персонала;
занимают много времени. Поэтому приходится использовать косвенные методы измерения,
где исследуемые свойства образцов определяют путем измерения других свойств образцов,
зависящих от исследуемых свойств, которые, могут быть легко измерены напрямую.
Спектроскопия ближней инфракрасной области спектра (БИК –спектроскопия) - один из
таких методов.
В настоящее время, в России, БИК анализаторы широко используют для решения
проблемы контроля качества продукции растениеводства. Данный метод представляет собой
современный инструментальный метод количественного и качественного анализа различных
объектов, который позволяет производить исследования качества продукции без разрушения
образца, не требует использования реактивов и оборудованных лабораторий, а также
занимает гораздо меньше времени по сравнению с ручными методами анализа. Косвенной
информацией, на основании которой вычисляются исследуемые свойства, является
инфракрасный спектр. Под спектром понимают зависимость интенсивности поглощения
(отражения или рассеивания) излучения от длины волны в заданном диапазоне. Спектры
поглощения (отражения, рассеивания) молекул являются уникальными для каждого
вещества, а интенсивность их связана с содержанием поглощающего компонента в
исследуемом объекте. Таким образом, величина интенсивности полосы поглощения
(отражения, рассеивания) может быть связана градуировочной зависимостью с
количественным содержанием интересующего вещества в анализируемой пробе. Однако, в
БИК-спектроскопии, используемые количественные связи зачастую слишком сложны.
Вызвано это тем, что спектры в БИК-области содержат множество широких
перекрывающихся полос поглощения (отражения, рассеивания), которые накладываются на
полосу, интересующего нас компонента. Это не позволяет построить простую
градуировочную зависимость между интенсивностями характерной полосы с содержанием
интересующего вещества. В таком случае формируют многомерную градуировочную
модель, которая связывает весь массив спектральной информации с содержанием
интересующего компонента. В современных БИК анализаторах массив данных (спектр) для
одного измерения может содержать более 500 точек.
Градуировочная модель является неотъемлемой частью анализа. Способность модели
предсказывать исследуемые свойства по зарегистрированным на приборе косвенным
свойствам (спектрам образцов) напрямую влияет на точность измерений. Очевидно, что
4
замена градуировочной модели на ту, которая обладает лучшими предсказательными
способностями, повышает точность анализатора в целом. Учитывая, что замена
градуировочной модели не сложная процедура и даже может быть выполнена «на лету», без
остановки процесса контроля качества, создание методики, для расчета градуировочных
моделей, которые способны с более высокой точностью предсказывать исследуемые
свойства, является актуальной задачей.
Цель работы
Целью исследования является разработка методики градуировки БИК – анализаторов,
позволяющая создавать градуировочные модели, обеспечивающие повышение точности
анализа.
Задачи, решаемые в работе
Для достижения цели работы были поставлены и решены следующие задачи:
• проведен анализ основных этапов создания многомерных градуировочных моделей;
• исследованы существующие, широко используемые для БИК - анализаторов
алгоритмы создания многомерных градуировочных моделей;
• разработана методика создания многомерных градуировочных моделей, которая
позволит обеспечить более высокую точность анализа;
• подтверждена работоспособность предложенной методики при градуировке БИКанализаторов, предназначенных для анализа различных показателей качества зерна и
продуктов его переработки.
Методы исследования
При выполнении работы были использованы методы математического
моделирования, статистического анализа и обработки экспериментальных данных.
Экспериментальные исследования выполнены с применением современных регистрирующих
и вычислительных средств и программных продуктов.
Научная новизна
• Разработана методика создания градуировочных моделей для БИК анализаторов,
обеспечивающая более высокую точность измерений для ряда анализируемых
объектов благодаря введению дополнительной процедуры декомпозиции исходных
данных с помощью Фурье преобразования перед расчетом регрессионных
коэффициентов методами математического программирования и выполнением
обратного Фурье преобразования над коэффициентами регрессии.
5
• Экспериментально доказана применимость градуировочных моделей, созданных по
новой методике, для БИК анализаторов, предназначенных для количественного
анализа показателей качества зерна и продуктов его переработки.
Практическая значимость
• Разработанная методика позволяет градуировать анализаторы для анализа различных
продуктов с более высокой точностью.
• Методика передана в НПФ АП «Люмэкс» и используется для градуировки серийно
выпускаемых БИК-анализаторов типа «ИнфраЛЮМ».
Апробация работы
•
Результаты диссертационной работы были представлены в виде устных докладов на
конференциях:
• Ежегодные конференции Санкт-Петербургского государственного технологического
института (технического университета) «Неделя науки» (Санкт-Петербург, 2011-2013
г.);
• Eighth Winter Symposium on Chemometrics (Дракино, Московская обл.27 февраля–2
марта 2012 года)
Публикации
Основные материалы диссертационной работы опубликованы в 4 печатных работах, 3
из которых в журналах из списка ВАК.
6
Содержание работы
Во введении обоснована актуальность темы диссертации, сформулированы цели и
задачи исследования, изложены основные положения, дана краткая характеристика работы.
В первой главе введено математическое описание многомерной градуировочной
модели БИК анализаторов. Спектральные данные, измеренные с помощью БИК –
анализатора, представлены в виде матрицы X = (x1 , x2 ...xn ) для n - ого количества образцов.
Где xi = ( x1 , x2 ...x f ) - спектральные данные каждого i образца на f - длинах волн. i = 1...n .
Спектральные данные, формирующие матрицу X , размерностью [n × f ] , называются
первичными свойствами анализируемых объектов. Данные референтного анализа (искомые
свойства объектов, определенные независимым от БИК-анализа, методом) представленные в
виде вектора y с размерностью [n × 1] , называются вторичными свойства анализируемых
объектов. Под градуировочной моделью понимается регрессионная зависимость в
матричном виде, связывающая первичные и вторичные свойства образцов:
y = Xb + e
(1)
где, b - подлежащий оцениванию вектор неизвестных коэффициентов регрессии
размерностью [1 × f ] ; e – вектор остатков (случайных отклонений) модели размерностью
[n × 1] . Построение градуировочной модели – это нахождение оптимального вектора b , при
котором будет минимизирован вектор остатков.
В главе выполнен аналитический обзор известных и широко применяемых
алгоритмов для обучения многомерных градуировочных моделей (нахождение оптимального
вектора b ) для БИК анализаторов по имеющейся выборке исходных данных. Все алгоритмы
разделены на следующие группы:
o Методы, в основе которых лежит метод наименьших квадратов (МНК):
 Множественная линейная регрессия (МЛР)
 Регрессия на главных компонентах (РГК)
 Проекция на латентные структуры (ПЛС)
o Методы, основанные на искусственных нейронах:
 Искусственные нейронные сети (ИНС)
o Методы, основанные на теории математического программирования:
 Математическое программирование (МП)
 Метод опорных векторов (МОВ)
К первой группе алгоритмов относятся так называемые классические алгоритмы
создания многомерных градуировочных моделей. Достоинства методов данной группы в
том, что это самый простой и быстрый способ вычисления многомерной градуировочной
модели. Однако алгоритмы на основе МНК тесно связаны с методами декомпозиции данных,
так как основной недостаток МНК в том, что для успешной работы данного метода
7
существуют жесткие ограничения на размерность матрицы исходных данных, а так же на
наличие коллинеарных данных.
Основными методами декомпозиции исходных данных, использующимися в БИК
спектроскопии, являются:
o Метод главных компонент (МГК)
o Преобразование спектра с помощью ряда Фурье (Фурье преобразование)
В настоящее время, наиболее популярен МГК, применяемый для декомпозиции
исходных данных в алгоритмах первой группы. МГК позволяет устранить коллинеарность в
исходных данных, а так же существенно понизить размерность матрицы, не снижая при этом
информативности. Однако, не всегда размерность данных может быть эффективно
понижена с помощью линейного преобразования. Так же, направления, минимизирующие
дисперсию, далеко не всегда максимизируют информативность. Наконец, МГК сильно
искажает исходные данные, что затрудняет их интерпретируемость на следующих этапах
построения градуировочной модели. Преобразование Фурье, позволяет значительно
сократить объем исходных данных, не снижая при этом информативности, так же снижается
количество полезных данных отброшенных вместе с шумовой составляющей. Все это
сокращает количество вычислительных операций и повышает качество моделирования.
Однако, преобразование Фурье используется гораздо реже МГК, так как не устраняет
коллинеарности в исходных данных.
Вторая группа алгоритмов использует для расчета многомерной градуировочной
модели искусственные нейронные сети. Подобные алгоритмы очень устойчивы к шуму во
входных данных. Однако архитектура нейронной сети должна быть определена заранее, так
как изменение ее в процессе обучения довольно сложная задача. Так же нейронные сети
могут застревать в локальных минимумах во время обучения, а во многих случаях это
является серьезной проблемой. Использование нейронных сетей накладывает определенные
ограничения на оборудование и время проведения анализа.
Третья группа алгоритмов для расчета многомерной градуировочной модели применяет
теорию математического программирования. Вычисление модели с помощью данного
метода не использует нестабильных операций, поэтому коллинеарность анализируемых
данных не влияет на полученные результаты. Так же модели, построенные с помощью
данной техники, обладают значительной устойчивостью.
Для того, что бы привести задачу градуировки БИК анализатора к виду задачи
математического программирования, необходимо представить уравнение (1) в виде функции:
Φ = (y − Xb)T (y − Xb)
(2)
Область поиска, экстремальных значений целевой функции, определяется некими
ограничениями. Коэффициенты регрессии b должны находиться внутри пространства
гиперкуба. Гиперкуб – фигура в Евклидовом f - мерном пространстве.
Целевую функцию приводят к каноническому виду для последующего поиска
коэффициентов регрессии. Для этого производится замена переменных в уравнении для
целевой функции:
8
C = 2(X T X)
(3)
D = −2(X T y)
(4)
Тогда целевая функция, может быть представлена в следующем каноническом виде:
Φ(b) = D T b + b T Cb → min
(5)
Данная задача, является задачей квадратичного программирования, описанной в
теории математического программирования. Существует ряд конечных методов решения
данной задачи. Например, в качестве эффективного и простого метода решения, в данной
работе был применен метод решения задач о дополнительности, разработанный Лемке.
Однако нахождение решения задачи о дополнительности гарантировано только при
определенных условиях. Кроме того, данный метод эффективен в основном на задачах малой
и средней размерности. С ростом размерности задачи резко увеличивается количество
перебираемых вершин.
В заключении главы представлены основные статистические характеристики для
оценки предсказательной способности градуировочных моделей. Основной, является
характеристика S п - среднеквадратическое отклонение измерений при проверке на
дополнительном наборе образцов. S п характеризует ошибку отклонения между данными
химического анализа и полученными по градуировочной модели значениями для образцов
дополнительного набора. Характеристика рассчитывается по формуле:
v
Sп =
где

∑(y
i =1
i
− yi ) 2
(6)
v
yi – значение референтного анализа определяемого компонента для i -го образца
дополнительного набора; yi - значения анализируемого компонента для
i -го образца
дополнительного набора определенное по градуировочной модели; v – число образцов
дополнительного (валидационного) набора;
В выводах по материалам главы сравниваются преимущества и недостатки
перечисленных методов. На основании теоретического анализа можно утверждать что
методы, основанные на математическом программировании перспективны для повышения
точности анализа. Однако имеют ряд ограничений, в частности на размерность матрицы
исходных данных, которые могут быть устранены путем ввода предварительной
декомпозиции исходных данных.
На основании вышесказанного, ставиться задача – разработать методику создания
многомерных градуировочных моделей для БИК-анализаторов зерновых культур,
позволяющую повысить точность выполняемого анализа
9
Во второй главе рассматривается общий принцип работы БИК-анализатора
«ИнфраЛЮМ ФТ-10», как одного из представителей сканирующих Фурье-спектрометров,
позволяющих получать спектры пропускания различных образцов продукции в диапазоне
волновых чисел от 8000 до 14000 см-1 (или диапазоне длин волн от 1.25 до 0.7 мкм). Данный
анализатор использовался для всех исследований, проведенных в данной работе.
На рисунке 1 представлена структурная схема прибора, на которой изображены
основные узлы конструкции.
Рисунок1 – структурная схема БИК анализатора ИнфраЛЮМ ФТ-10
Инфракрасный свет, генерируемый блоком излучателя 1, направляется в
интерферометр 2, где проводится интерференция излучения с целью выделения длин волн
заданного диапазона и осуществления полноспектрального анализа. После выхода из
интерферометра модулированный световой поток с помощью системы зеркал, входящих в
оптический блок 3, направляется в кюветное отделение 4. Излучение проходит через кювету
с образцом 6, устанавливаемую внутри приставки для работы с образцами (самплера) 5, и
попадает на фотоприёмник 7, регистрирующий световой поток в зависимости от разности
хода (интерферограмму). Для ее преобразования в спектр используется обратное
преобразование Фурье, выполняемое с помощью персонального компьютера. Чтобы найти
связь спектральных данных с анализируемыми свойствами необходимо построить
градуировочную модель.
В данной главе представлены основные принципы градуировки БИК анализаторов, на
основании которых выделены основные этапы, влияющие на качество рассчитанных
моделей.
Первый этап расчета многомерной градуировочной модели для БИК - анализатора всегда
заключается в формировании двух наборов из имеющейся выборки образцов с известными
первичными и вторичными свойствами. Один из сформированных наборов будет служить
для обучения модели, второй набор служит для проверки рассчитанной модели. Этап
формирования обоих наборов образцов очень важен, так как от адекватности данных, с
помощью которых будет обучаться, или тестироваться модель, напрямую зависят ее
качественные характеристики.
На втором этапе, для обоих наборов, могут быть проведены процедуры предварительной
предобработки данных. Этот этап может не выполняться, но на практике, предварительная
предобработка благотворно влияет на качественные характеристики градуировочной модели.
В главе подробно рассмотрены различные виды предварительных математических обработок
спектров. Целью подобных предобработок является минимизация бесполезной для
10
моделирования информации (шума) без влияния на полезную химическую информацию,
содержащуюся в спектрах (сигнал). Это позволяет удалить нежелательные различия в
спектральных данных вне зависимости от причин, по которым они возникли, а
соответственно, сделать градуировочную модель более устойчивой к факторам,
обуславливающим спектральные различия
Третий этап, который можно выделить в любой стратегии построения многомерных
градуировочных моделей для БИК– анализаторов – это обучение модели, с помощью
имеющегося градуировочного набора, сформированного на этапе 1 и возможно
преобразованного, указанными способами, для облегчения обучения, на этапе 2. Обучение
модели производится с помощью алгоритмов многомерной градуировки. В результате,
оценивается вид зависимости, связывающей первичные и вторичные свойства имеющегося
градуировочного набора. Математически оценка вида зависимости может быть в виде
вектора весовых коэффициентов или обученного слоя нейронов, это зависит от выбранного
алгоритма обучения модели.
На четвертом этапе, проводится проверка созданной модели с применением
валидационного набора образцов, и статистических коэффициентов для оценки
предсказательной способности модели.
В третьей главе рассматривается возможность добавления процедуры декомпозиции
исходных данных перед этапом расчета регрессионных коэффициентов с помощью методов
МП. Декомпозиция может быть выполнена, как с помощью МГК, так и с помощью
преобразования Фурье. При введении данной процедуры в методику создания градуировки
есть ряд определенностей, которые зависят от выбранного типа декомпозиции.
Если в качестве алгоритма декомпозиции использовать МГК, то данные, находящиеся
в матрице первичных свойств переводятся в пространство главных компонент.
Следовательно, регрессионные коэффициенты, которые будут впоследствии вычислены, так
же будут находиться в пространстве главных компонент. Таким образом, для вычисления
вторичных свойств неизвестного образца с помощью модели, созданной по данной методике,
первичные свойства анализируемого образца должны быть переведены в такое же
пространство главных компонент, что и первичные свойства образцов градуировочного
набора.
Если в качестве алгоритма декомпозиции используется преобразование Фурье, данные,
находящиеся в матрице первичных свойств представляются в виде ряда Фурье
(подвергаются гармоническому преобразованию) с помощью коэффициентов Фурье. Так как,
тригонометрическая окружность ограничена единицей, а данные в матрице первичных
свойств могут иметь любое значение, для наиболее точного их представления в виде ряда
Фурье, данные должны быть предварительно подвергнуты процедуре нормировки на
максимум значения данных в матрице первичных свойств. Естественно, регрессионные
коэффициенты, которые будут вычислены с использованием таких исходных данных, будут
находиться в пространстве коэффициентов Фурье. Следовательно, для вычисления
вторичных свойств неизвестного образца, с помощью модели, созданной по данной
методике, первичные свойства анализируемого образца должны быть подвергнуты такой же
процедуре преобразования Фурье, что и образцы градуировочного набора. Однако, выполнив
обратное преобразование Фурье над полученным вектором регрессионных коэффициентов,
11
можно перевести его в исходное пространство. В таком случае, вычисление неизвестных
вторичных свойств анализируемого образца, может быть выполнено непосредственно с
помощью зарегистрированных первичных свойств, без дополнительных преобразований. За
счет этого возможно уменьшение времени выполнения анализа.
В четвертой главе описываются процедуры подготовки к созданию градуировочных
моделей по различным алгоритмам для различных видов объектов, созданию самих моделей
и последующей их проверке.
Для проведения исследований были сформированы градуировочные и дополнительные
(валидационные) наборы образцов различных сельскохозяйственных продуктов (объектов) с
известными вторичными
свойствами (референтными данными). Перечень объектов
(продуктов), количество образцов для градуировки и валидации, а так же перечень
анализируемых показателей с их диапазоном измерения представлены в таблице 1.
Таблица 1 – Перечень объектов, для которых строились градуировочные модели на
соответствующие показатели качества
Объект
Анализируемый
показатель
Диапазон
измерения, %
массовой доли
Количество
образцов для
градуировки
Количество
образцов для
валидации
Зерно пшеницы
протеин
11.05-13.76
56
10
Шрот
подсолнечника
протеин
35.58-43.99
74
10
влажность
6.40-8.65
60
10
Зерно
подсолнечника
влажность
4.40-9.60
51
10
Зерно ячменя
протеин
8.55-10.98
50
10
Зерно риса
амилоза
15.30-27.30
65
10
Мука
пшеничная
клейковина
23.00-27.88
58
10
влажность
12.70-14.50
64
10
влажность
8.90-12.30
67
10
жир
3.41-8.40
61
10
кальций
0.90-3.55
53
10
жир
1.94-4.80
50
10
Зерно кукурузы
Комбикорм
птичий
Требования, которые
валидационных наборов:
выполнялись
при
формировании
градуировочных
и
12
равномерное распределение значений вторичных свойств образцов по всему
возможному диапазону измерений
 исключение аномальных образцов
 в градуировочном наборе должно быть не меньше 50 образцов
 в валидационном наборе должно быть не меньше 10 образцов
Референтные значения всех образцов были определены стандартизованными методами
в аккредитованной для данного типа анализов лаборатории.
Первичные свойства (спектры поглощения) всех образцов всех анализируемых
объектов были зарегистрированы на БИК анализаторе ИнфраЛЮМ ФТ-10.
Имея массивы данных первичных и вторичных свойств для каждого показателя
качества соответствующего продукта были построены градуировочные модели с
применением различных алгоритмов. Перечень используемых алгоритмов и настраиваемых
параметров в них, представлен в таблице 2.

Таблица 2 – Используемые алгоритмы расчета регрессионных коэффициентов
Алгоритм
Множественная линейная регрессия (МЛР)
Регрессия на главные компоненты (РГК)
Проекция на латентные структуры (ПЛС)
Математическое программирование (МП)
Искусственные нейронные сети (ИНС)
Метод опорных векторов (МОВ)
МОВ с предварительной декомпозицией данных с помощью
метода главных компонент (МОВ + МГК)
МОВ с предварительной декомпозицией данных с помощью
Фурье преобразования (МОВ + Фурье)
МП с предварительной декомпозицией данных с помощью
Фурье преобразования (МП + Фурье)
МП с предварительной декомпозицией данных с помощью
метода главных компонент (МП + МГК)
Настраиваемые
параметры
нет
количество ГК
количество ГК
размер гиперкуба
количество слоев сети,
количество нейронов в
каждом слое
нет
количество ГК
число гармоник
размер гиперкуба,
число гармоник
размер гиперкуба,
количество ГК
Таким образом, для каждого из 12 анализируемых показателей качества
соответствующей продукции были получены 9 различных градуировочных моделей, в
каждой из которых применялся определенный алгоритм вычисления. Все полученные
модели были оптимизированы по минимальной ошибке предсказания (формула 6) путем
подбора соответствующих настроечных параметров.
В таблице 3 представлены минимальные значения СКО результатов измерений
образцов дополнительного (валидационного) наборов, полученные для каждого показателя
по градуировочным моделям, с различными алгоритмами.
13
Таблица 3 - Значения СКО результатов измерений образцов дополнительного набора,
полученные на анализаторе ИнфраЛЮМ ФТ-10, отградуированного с помощью различных
алгоритмов
Показатель
МЛР
РГК
ПЛС
МОВ
МОВ+
Фурье
МОВ+
МГК
ИНС
МП
МП+
МГК
МП+
Фурье
белок в пшенице
0.61
0.56
0.22
0.43
0.44
0.34
0.57
0.26
0.57
0.19
жир в ячмене
0.92
0.70
0.82
0.66
0.64
0.65
0.75
0.83
0.85
0.75
влажность в
подсолнечнике
1.10
1.15
1.05
1.26
1.08
1.53
1.72
1.03
1.12
0.90
амилоза в рисе
2.55
2.62
2.24
2.13
2.52
2.47
5.57
1.17
2.21
1.16
клейковина в муке
1.12
1.27
0.96
1.10
0.97
1.43
1.65
0.72
1.08
0.70
влажность в муке
0.34
0.11
0.18
0.56
0.90
0.91
0.52
0.32
0.13
0.25
влажность в
кукурузе
0.69
0.75
0.56
0.42
0.47
0.92
1.34
0.72
0.64
0.31
жир в кукурузе
0.64
0.92
0.84
1.01
0.90
2.10
1.75
0.64
0.98
0.50
кальций в
комбикорме
0.73
0.63
0.66
0.58
0.63
0.63
0.74
0.66
0.68
0.56
жир в комбикорме
1.27
0.82
0.77
1.38
1.41
1.16
0.84
0.84
0.82
0.78
влажность в шроте
0.78
0.64
0.59
0.80
0.59
0.82
0.91
0.46
0.60
0.38
белок в шроте
1.42
2.07
1.25
2.49
2.78
3.01
2.58
1.10
2.15
0.90
Градуировочная модель, построенная с помощью алгоритма математического
программирования с предварительной декомпозицией исходных данных с помощью
преобразования Фурье, наиболее часто (по сравнению с другими моделями) давала
наименьшую ошибку предсказания. Из двенадцати проанализированных объектов, для
девяти наилучший результат был получен для модели с алгоритмом «МП+Фурье». Так же
для одного объекта (жир в комбикорме) модель с алгоритмом «МП+Фурье» дала ошибку
результатов предсказания близкую к лучшему результату, показанному моделью с
алгоритмом «ПЛС». Таким образом, в 75% случаях модели с алгоритмом «МП+Фурье»
показали наилучший результат и ни разу не были худшими.
Для наглядности по результатам экспериментов были составлены диаграммы,
отражающие процентное соотношение моделей, показывающих лучшие и худшие
результаты. Диаграммы представлены на рисунке 2.
14
Рисунок 2.а – диаграмма, отражающая
процентное соотношение моделей,
показывающих лучшие результаты
Рисунок 2.б – диаграмма, отражающая
процентное соотношение моделей,
показывающих худшие результаты
Если сравнивать значения СКО результатов измерений, полученных моделями с
алгоритмом «МП+Фурье», с соответствующими значениями СКО для моделей с алгоритмом
«ПЛС» (а алгоритм «ПЛС» на данный момент, является наиболее востребованным при
градуировке БИК анализаторов), то можно сказать следующее. Величина ошибки
результатов измерений полученных моделями с «МП+Фурье» для большинства
проанализированных объектов меньше аналогичные значения ошибок для моделей с
алгоритмом «ПЛС» на величину от 10 до 40%.
Преимущество моделей, построенных с помощью методов «МП+Фурье», над другими
моделями, на наш взгляд, обеспечивается за счет комбинации преимуществ алгоритма «МП»
и декомпозиции исходных данных путем Фурье преобразования.
 «МП» обладает значительной устойчивостью, под которой в данном случае
понимается способность правильно оценивать направления рабочего движения,
а также способность быстро и точно приводить рабочую точку в область
экстремума, несмотря на наличие помех в исходных данных;
 «МП» имеет настраиваемый параметр «размер гиперкуба», изменением
которого можно влиять на точность модели. Параметр подбирается с помощью
процедуры валидации.
В выводах по материалам главы сделаны следующие заключения: не отменяя
общепринятые алгоритмы ПЛС и РГК, применяемые для градуировки БИК анализаторов,
можно предложить дополнительную методику градуировки, основанную на алгоритме
математического программирования с предварительной декомпозицией исходных данных, с
помощью преобразования Фурье. Данная методика может обеспечить повышение точности
15
анализа показателей качества ряда объектов (в первую очередь, сельскохозяйственной
продукции).
В пятой главе представлена предлагаемая методика, позволяющая создавать
многомерные градуировочные модели, обеспечивающие повышенную точность анализа.
Этапы выполнения предлагаемой методики представлены на рисунке 3
Этап 1 предназначен для формирования исходных данных. На этом этапе
формируются 2 набора образцов из общей выборки: градуировочный набор с известными
вторичными свойствами (блок 0.10) и валидационный набор с известными вторичными
свойствами (блок 0.11). Для обоих наборов производятся измерения первичных свойств
(блок 0.12 и 0.13) на БИК анализаторе. Таким образом, на первом этапе формируются:
матрица X г первичных свойств (спектров) градуировочного набора образцов (блок
0.14) размерностью [n × f ] , где n – число образцов, выбранных для градуировки, f – число
точек в спектре; вектор y г вторичных свойств (референтных данных) градуировочного
набора образцов (блок 0.14) размерностью [n × 1] ;
матрица X в первичных свойств (спектров) проверочного (валидационного) набора
образцов (блок 0.15); размерности [v × f ] , где v – число образцов выбранных для проверки
модели, f – число точек в спектре; вектор y в вторичных свойств (референтных данных)
валидационного набора образцов (блок 0.15) размерности [v × 1] .
Корректность подбора исходных данных проверяется оператором на этапе валидации
(проверки) созданной модели. Возможно, исключение некоторых образцов из
градуировочного набора, если они окажутся аномальными по сравнению с основным
массивом данных.
Этап 2 предназначен для процедуры нормализации (предварительной
предобработки), которая проводится над матрицами исходных данных. Очень важно, чтобы
виды предобработок и последовательность их применения, с помощью которых были
преобразованы матрицы градуировочного набора (блок 0.16), были таким же образом
применены к матрицам валидационного набора (блок 0.17). Вид предобработки (или
последовательность предобработок) определяется
оператором для конкретного типа
анализируемых объектов на этапе валидации (проверки) модели.
Как показывает практика, для БИК анализаторов данная процедура позволяет
существенно уменьшить влияние на исходные данные (особенно спектральные) различных
влияющих факторов, не связанных с определяемыми свойствами, и, следовательно, повысить
точность анализа.
16
Рисунок 3 – методика градуировки анализаторов с использованием математического
программирования и предварительной декомпозицией исходных с помощью преобразования
Фурье
Этап 3 – это этап вычисления регрессионных коэффициентов, в котором нами было
предложено
использование
алгоритма
математического
программирования
с
17
предварительной декомпозицией (с помощью Фурье преобразования) исходных данных,
нормализованных на этапе 2.
Следует отметить, что все операции этапа 3 выполняются только с матрицами
градуировочного набора.
Перед выполнением декомпозиции над нормализованной матрицей X г , проводят
дополнительную операцию нормировки на ее максимальное значение (блок 0.18), согласно
формуле:
x − xmin
x'ij = ij
xmax − xmin
(7)
где, xij - элемент в матрице X г ; i = 1...n ; j = 1... f ; xmin - минимальное значение в матрице
X г ; xmax - максимальное значение в матрице X г ;
В блоке 0.19 формируется матрица гармонического преобразования по формуле:
0,5
M = 0,5
0,5
где, v jk = cos(
v1 1 z1 1 . . .v1m
v2 1 z2 1 . . .v2 m
v f 1 z f 1 . . .v f m
2πkj
2πkj
) , z jk = sin(
);
f
f
j = 1,2... f
z1m
z2 m
zf m
(8)
- индексы длин волн; k = 1,2...m -
коэффициенты ряда Фурье ( m - количество гармонических коэффициентов);
С помощью матрицы гармонического преобразования выполняется преобразование
матрицы первичных свойств по формуле:
~
X = M×X
(9)
Количество гармоник, от которых зависит размерность матрицы преобразования,
определяется оператором и корректируется на этапе валидации (проверки) модели.
Расчет регрессионных коэффициентов (блок 0.20) выполняется путем решения
канонической задачи квадратичного математического программирования для целевой
функции, представленной в формуле (2). Область поиска экстремальных значений целевой
функции определяется размером гиперкуба, который определяется оператором с помощью
процедуры валидации.
Полученные регрессионные коэффициенты подвергаются обратному преобразованию
Фурье (блок 0.21), чтобы привести к виду, который бы позволил использовать их на стадии
предсказания без применения гармонического преобразования к первичным свойствам
анализируемых образцов по формуле:
~
b= b ×M T
(10)
18
Этап 4 – предназначен для проверки созданной модели. В блоке 0.22 модель проверяется
путем поочередной подстановки первичных свойств (спектральных данных) образцов
валидационного набора (предварительно подвергнутых процедуре нормализации в блоке
0.17) в формулу предсказания:
yˆ i = xiT ⋅ b
где:
ŷi
- вычисленное значение анализируемого компонента для
(11)
i -го образца
валидационного набора по градуировочной модели, i = 1,2...v ; xi - вектор первичных свойств
(спектральные данные) i -го образца валидационного набора, размерностью [1 × f ] ; b вектор регрессионных коэффициентов, вычисленных в блоке 0.21 по формуле (10),
размерностью [1 × f ] .
Каждое значение ŷi сравнивается с соответствующим референтным значением i -го
образца и вычисляется статистическая характеристика S п по формуле (6).
В блоке 0.23 проводится сравнение полученного значения S п с заданной нормой,
которая определяется в зависимости от требуемой точности анализа анализируемого
объекта.
Если полученное значение S п не превосходит заданного значения нормы, то
считается, что градуировочная модель рассчитана с требуемой точностью и полученный
вектор регрессионных коэффициентов b данной модели записывается в память ЭВМ для
последующего их использования на этапе анализа неизвестных образцов.
Если полученное значение S п превосходит заданное значение нормы, то считается,
что градуировочная модель не обеспечивает требуемую точность измерений. В таком случае
оператор вправе внести коррекцию на различных этапах методики:
- в блоке 0.14: удаление аномальных образцов из градуировочного набора;
- в блоке 0.16: изменение вида и последовательности предобработок исходных данных;
- в блоке 0.19: изменение числа гармоник при формировании матрицы гармонического
преобразования;
- в блоке 0.20: изменение размера гиперкуба в алгоритме математического
программирования, применяемого для вычисления регрессионных коэффициентов.
Коррекция вносится до тех пор, пока вновь рассчитанное значение S п не станет
меньше установленной нормы.
На разработанную методику создания градуировочных моделей подана заявка на
получение патента (№ заявки 2013133490 с приоритетом от 18.07.2013)
19
Выводы
1. На основании проведенного анализа широко применяемых методов расчета многомерных градуировочных моделей БИК-анализаторов предложена их систематизация. Показано, что все применяемые методы, можно разделить на три группы: а)
использующие в своей основе метод наименьших квадратов; б) использующие в
своей основе метод математического программирования; в) основанные на искусственных нейронных сетях. Показаны основные преимущества и недостатки данных
методов при создании многомерных градуировочных моделей.
2. Проведен анализ основных этапов создания многомерных градуировочных моделей,
на основании которого выполнена оценка степени и характера влияния каждого из
этапов на точность БИК-анализа, выполняемого по созданным моделям.
3. Разработана новая методика расчета многомерных градуировочных моделей, в основе которой расчет регрессионных коэффициентов осуществляется с помощью методов математического программирования.
4. Экспериментально показано, что градуировочные модели, созданные в соответствии
с разработанной методикой, обеспечивают более высокую точность анализа показателей качества различного типа зерна и продуктов его переработки по сравнению с
моделями, созданными по традиционным методикам.
5. Показано, что дополнительное повышение точности градуировочных моделей при
применении методов математического программирования может быть достигнуто
при использовании спектральных данных, предварительно подвергнутых преобразованию Фурье.
6. Показано, что нормировка на максимум спектральных данных перед выполнением
преобразования Фурье является необходимой процедурой для реализации новой методики построения градуировочной модели.
7. Показано, что обратное преобразование Фурье над вычисленными регрессионными
коэффициентами позволяет упростить процедуру вычисления результатов анализа
по ранее созданной модели.
20
Публикации по теме диссертации
1. И. В. Скутин, К. А. Жаринов, Применение методов Фурье преобразования при
использовании математического программирования для
анализаторов // «Датчики и системы», №5, 2014, стр. 11-16
градуировки
БИК
2. Ilya Skutin, Konstantin Zharinov, Maria Sushkova, Mathematical Programming Method as a
Means of Calibration of NIR Analyzers // Journal of Chemistry and Chemical Engineering,
vol. 6 No 8 (August 2012) pp.692-697
3. И.
В. Скутин, К. А. Жаринов, Применение методов
программирования
для
градуировки
БИК-анализаторов
приборостроение», том 24, №2 (2014), стр. 93-98
математического
//
«Научное
4. I.Skutin, K.Zharinov, M.Sushkova, Mathematical programming method as a means of NIR
analyzers calibration / I.Skutin, K.Zharinov, M.Sushkova // Modern methods of data
analysis: Тезисы доклада международной конференции Eighth Winter Symposium of
Chemometrics. – Russia, Drakino, 2012. – С. 70-72.
Документ
Категория
Без категории
Просмотров
9
Размер файла
562 Кб
Теги
анализа, методов, многомерного, алгоритм, применению, анализатор, градуировки, бик
1/--страниц
Пожаловаться на содержимое документа