close

Вход

Забыли?

вход по аккаунту

?

Идентификация одномерных многомодальных плотностей распределения вероятности при ограниченном объеме данных методом регуляризации.

код для вставкиСкачать
Математика и механика
МАТЕМАТИКА И МЕХАНИКА
УДК 519.213
В.Б. Куликов
ИДЕНТИФИКАЦИЯ ОДНОМЕРНЫХ МНОГОМОДАЛЬНЫХ ПЛОТНОСТЕЙ
РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТИ ПРИ ОГРАНИЧЕННОМ ОБЪЕМЕ ДАННЫХ
МЕТОДОМ РЕГУЛЯРИЗАЦИИ
Рассматривается возможность оценки функций плотности вероятности
иммунологических показателей пациентов по выборкам клинических анализов
ограниченного объема. В качестве решения выбирается приближенное решение
интегрального уравнения Фредгольма первого рода при регуляризации обратной
задачи на семействе гладких функций. Предложенный подход позволяет успешно
восстанавливать многомодальные плотности распределения и носит
универсальный характер.
Многомодальные законы распределения вероятностей, случайная величина,
выборки ограниченного объема, иммунология, обратная задача, метод
регуляризации по А.Н. Тихонову
V.B. Kulikov
IDENTIFICATION OF ONE-DIMENSIONAL MULTIMODAL PROBABILITY DENSITY
WITH LIMITED DATA USING THE REGULARIZATION METHOD
The article discusses the possibility of estimating probability density functions for
immunological parameters of patients using the samples of clinical analyses having a
limited volume. To resolve the problem an approximate solution to the integral Fredholm
equation of the first kind was selected by regularization of the inverse problem to a family
of smooth functions. The proposed approach allows to successfully restore the multimodal distribution density, and possesses versatile characteristics.
Multimodal laws of probability distributions, the random variable, the sample
of the limited volume, immunology, inverse problem, A.N. Tikhonov regularization
method
В публикации представлен подход к идентификации многомодальных плотностей
вероятности значительного ряда показателей иммунной системы человека. Рассмотрены основные
иммунологические характеристики пациентов, получавших курсы антибактериальной терапии с
системных позиций вероятностно-статистического анализа.
Феномен иммунной системы человека при исследовании поведения частиц крови, лимфы,
гормонов изучается на базе фундаментальных математических начал – полагается, что реакции
организма человека на иммунологическом уровне подчиняются универсальным вероятностным
законам, действующим в природе.
Данное обстоятельство отражает современные представления о принципах энергоинформационного обмена человека и внешней среды, саморегуляции его систем и органов,
открытости функций организма в космобиоритмологическом плане, единства детерминированного и
стохастического биологических начал.
В естествознании, технике, медицине имеется множество режимов, требующих при их
исследовании «тонкой» идентификации сложных законов стохастического поведения. Например,
7
Вестник СГТУ. 2013. № 3 (72)
системы «среда-тело» в аэро- и гидродинамике, вероятностные закономерности нелинейных
динамических структур, хаотические явления в зонах бифуркаций.
В иммунологии, в частности, обнаруживаются многомодальные распределения характеристик
антител крови и лимфы при медикаментозном и полевом воздействии. В экспериментальной
психологии при исследовании возможностей восприятия – сложные апперцепционные
закономерности высшей нервной деятельности, обусловленные физиологией нейронов.
Изучение таких систем требует обоснованных методов выявления законов распределения
описывающих их случайных величин (СВ). Однако на практике это не всегда выполняется. Часто
превалируют упрощенные подходы, не обеспечивающие достаточной строгости. В биологии,
медицине, например, распространено использование числовых точечных параметров СВ –
выборочного среднего и дисперсии выборки, а также гистограмм. Для технических приложений
ограничением являются значительные математические трудности анализа нелинейных случайных
функций, стохастических дифференциальных уравнений.
В первом случае причиной подобного положения является то, что объем экспериментального
материала, например, иммунологических или гормональных анализов, из-за сложности их
выполнения, высокой стоимости недостаточен для обоснованного применения существующих
методик проверки статистических гипотез, а необходимый объем выборки зависит от закона
распределения.
Тщательное изучение показывает, что построение гистограмм является задачей оптимальной
фильтрации случайных выбросов, когда число интервалов группирования и возможность
воспроизведения огибающей гистограммы, без потери тонких элементов (необоснованного
огрубления), зависит от вида распределения случайной величины и объема выборки. По существу это
некорректная постановка задачи.
В математической статистике сейчас интенсивно развиваются методы компьютерной
обработки данных. Эти методы позволяют обрабатывать стохастические показатели, оценивая формы
закона распределения изучаемых характеристик по некоторым типичным классам:
экспоненциальному, трапецеидальному, классу распределений Стьюдента, Пирсона, Джонсона и др.
Вычислительные алгоритмы последовательно соотносят имеющийся материал с указанными
классами распределений и делают выбор по некоторому критерию точности приближения или
решающему правилу. Однако, большинство известных программых продуктов и методов,
заложенных в них, требует достаточно большой выборки (несколько сот и более элементов) и, кроме
того, обладает малой устойчивостью к неоднородности исследуемых данных.
Кроме указанных способов оценки законов распределения стохастических показателей
используется метод Парзена-Розенблатта. Это традиционный метод восстановления плотности
распределения. В данном методе по эмпирическим данным на первом этапе вычисляется выборочная
дисперсия и оптимальное значение «ширины окна» h. На втором шаге это значение подставляется в
ряд с базовой «колоколообразной» функцией, например, кривой Гаусса и находится оценка
плотности. В этом методе вся информация о случайной величине на этапе грубого оценивания
содержится в оценке выборочной дисперсии.
В этом и состоит некорректность метода Парзена – Розенблатта, так как одно и то же
значение дисперсии может быть получено как для одномодальных, так и для многомодальных
распределений. Кроме того, данная оценка чувствительна к большим выбросам эмпирических
данных и требует предварительной фильтрации.
Как показывают исследования, данный метод применим при выборках значительного объема –
более тысячи, а при ограниченных объемах может приводить к неудовлетворительным результатам,
пропуская значимые моды.
Важным обстоятельством является то, что в живой природе относительно много показателей
имеют широкий интервал допустимых значений по норме. В этом отражается их зависимость от
географического, временного фактора, генетических особенностей организмов. Так называемая
«диффузность» – рассеяние изучаемых характеристик по диапазону значений проявляется
фактически при анализе большинства представленных выборок в биологии.
Поэтому законы распределения указанных и других показателей в иммунологии имеют
специфические особенности в виде значительных уровней дисперсии, сложных законов
распределения – многомодальных, негауссовых, негладкого типа. При этом характерно, что выборки
часто имеют малый объем (от нескольких десятков отсчетов до ста).
Отмеченные особенности требуют адекватных методов исследования. Основу подхода автора
статьи составили методы восстановления плотностей распределения, заложенные школой академика
8
Математика и механика
А.Н. Тихонова для обратных задач математической физики [1]. Обратные задачи, как правило, имеют
некорректность в постановке: множественность «решения» и его чувствительность к погрешности
исходных данных. Решение такого рода задач основано на методах регуляризации.
В работе данный метод решения некорректно поставленных задач был применен в области
практической медицины. Ряд результатов указанной школы был реализован в виде программого
обеспечения для приближенного решения интегрального уравнения Фредгольма I рода.
Подынтегральная функция плотности вероятности является искомой величиной задачи. Правая часть
уравнения соответствовала эмпирической функции распределения для каждого показателя,
например: уровня лейкоцитов, B-лимфоцитов, иммуноглобулинов, фагоцитарных чисел и других
антител. Всего учитывалось тридцать три иммунных показателя.
Использовались ограничения на решения – непрерывность законов распределения изучаемых
иммунологических показателей, их сосредоточенность на некотором отрезке (по диапазону
изменения), гладкость формы плотности распределения.
С учетом последнего фактора восстановление плотностей распределения всех иммунных
показателей велось в классе тригонометрических функций с ограничением количества членов
разложения N в зависимости от объема L наблюдаемых данных минимизацией гарантированного
риска. Применение указанного подхода к обширному материалу иммунологических показателей
позволило построить эмпирические законы распределения, классифицировать весь объем данных, и
свести его к структурированной и строгой системе. В таблице представлены для примера некоторые
данные, полученные в результате восстановления эмпирической плотности распределения для
пациентов-мужчин. Рисунок в формате таблиц Exсel демонстрирует графики восстановленных
плотностей вероятности по классам.
Принцип «сложности» оценки плотности распределения: N=N(L) – получил наглядное
выражение в количестве требуемых для решения гармоник – минимум (3-7) для колоколообразных
функций, в том числе содержащих несколько локальных мод; максимум (20-25) – для компактно
локализованных (малые уровни дисперсии).
Полученные численные значения восстановленных функций в дискретных точках
(необходимого объема) используются для вычисления моментов любого порядка, а также
энтропийных характеристик случайной величины, представляющей иммунологический параметр.
Для изучения функциональных состояний иммунной системы представляет интерес
обнаружение многомодальных распределений у целого ряда показателей. В этом смысле
статистическое (стохастическое по своей природе) поведение части иммунных тел после
интенсивной антибактериальной терапии можно сравнить, в частности, с многоорбитальным (по
энергиям) распределением возбужденных электронов в теории лазерных эффектов, многофотонных
нелинейных процессов. Форма же распределения может ассоциироваться с волновыми функциями
или распределением интенсивности освещенности для фраунгоферовой дифракционной картины, а
также с другими фундаментальными физическими закономерностями.
В практическом плане сравнение известных оценок плотности вероятности
иммунологических, гормональных и других показателей, исследование их трансформаций в
состоянии здоровья и при терапевтических воздействиях позволят вести мониторинг методов
лечения, анализировать закономерности и связи функций организма с воздействиями, а также
выявлять глубинные отношения изучаемых явлений в клеточной биологии, микробиологии,
клинической медицине с универсальными законами абиотического мира.
Кроме рассмотренного подхода, исходный объем лабораторно-клинических данных – матрица
размером примерно 80 на 30 – «пациенты – иммунные показатели» подвергался корреляционному
анализу, подтвердившему многотаксонный характер полей корреляции и многомодальность целого
ряда зависимостей. В одном случае – «индекс нагрузки» (класс № 8 на рисунке) – обнаружено
наличие «решения» негладкого типа. При этом два десятка членов не достигли аппроксимации на
удовлетворительном уровне. Об этом же свидетельствует и артефакт графика функции.
Исследование возможностей математических методов для такого рода явлений в
иммунологии и других биологических системах, а также в технике, технологических процессах и
управлении представляет собой актуальную задачу. В частности, для ряда распределений, плотности
вероятности которых описываются функциями, не имеющими производных (или имеют разрывы),
перспективным представляется аппроксимация системами функций Хаара или Уолша при
корректировке условий алгоритма регуляризации.
9
Вестник СГТУ. 2013. № 3 (72)
p(x) Класс распределений № 1
0,05
0,04
0,03
0,02
p(x) Класс распределений № 2
Ряд1
0,01
0
1
3
5
7
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0
Ряд1
9 11 13 15 17 19 21 23 25
1
p(x) Класс распределений № 3
3
5
7
9 11 13 15 17 19 21 23 25
p(x) Класс распределений № 5
0,08
0,12
0,06
0,09
Ряд1
0,04
Ряд1
0,06
0,02
0,03
0
0
1
3
5
7
9 11 13 15 17 19 21 23 25
1
p(x) Класс распределений № 8
2,5
2
1,5
1
0,5
0
3
5
7
9 11 13 15 17 19 21 23 25
p(x) Класс распределений № 9
0,04
0,03
Ряд1
Ряд1
0,02
0,01
0
1
3
5
7
9 11 13 15 17 19 21 23 25
1
3
5
7
9 11 13 15 17 19 21 23 25
Иммунологические показатели: примеры некоторых классов распределений, идентифицированных
по выборкам малого объема методом регуляризации
Классификация законов распределения иммунологических показателей, восстановленных методом решения
обратных задач (пациенты – мужчины)
Иммунологические
показатели
( мед. норма)
Лейкоциты,
млн/л (4-9)
Лимфоциты,
% (19-37)
Лимфоциты,
млн/л (0,7-3,8 )
Нейтрофилы п/я,
% (1-5)
Нейтрофилы с/я,
% (47-72)
Эозинофилы,
% (1-5)
Моноциты,
% (2-10)
Т-лимфоциты,
% (40-90)
Т-лимфоциты,
млн/л (0,5-3,0)
B-лимфоциты,
% (2-30)
B-лимфоциты,
млн/л (0,03-0,9)
Нулевые клетки,
% (2-35)
10
Объем
выборки,
L
Классификационные признаки и характеристики
АппрокСтепень
симация
Число членов
Класс
Центр
полимонормаразложения
распредераспредальнольным
для p (x) ления
деления
сти
распредеN
лением
Вероятность
попадания
в интервал
нормы
71
класс 7
1
да
4
8,7
0,65
71
класс 1
2
нет
4
28,4
0,69
71
класс 7
1
да
4
2,43
0,91
70
класс 1*
2
нет
4
2,23
0,59
71
класс 4*
1
нет
3
59,4
0,69
70
класс 5
1
нет
2
2,46
0,42
71
класс 3
1
нет
2
7,45
0,45
40
класс 2*
3
нет
5
36,7
0,24
38
класс 7
1
нет
4
0,93
0,86
40
класс 4
1
нет
2
15,0
0,97
38
класс 1
2
нет
5
0,40
0,97
40
класс 4
1
нет
2
48,1
0,06
Математика и механика
Выводы
Успешная идентификация эмпирических двух- и полимодальных распределений по выборкам
малого объема предложенным методом позволяет считать такое восстановление плотностей
вероятностей адекватным проблеме в области биологических наук и в сложных стохастических
структурах. При этом исследование на модельных примерах показывает, что более простой
альтернативный метод Парзена – Розенблатта по эффективности и разрешающей способности
значительно уступает применяемому подходу.
ЛИТЕРАТУРА
1. Тихонов А.Н. Методы решения некорректных задач / А.Н. Тихонов, В.Я. Арсенин. М.:
Наука, 1986. 288 с.
Куликов Владимир Борисович –
электроник 1 категории ИВЦ факультета
экономики, менеджмента и инноваций
Нижегородского государственного технического
университета имени Р.Е. Алексеева
Vladimir B. Kulikov –
Electronics engineer (I qualification grade)
Faculty of Economics, Management and Innovations
R.Е. Alekseev State Technical University of Nizhny
Novgorod
Статья поступила в редакцию 17.08.13, принята к опубликованию 15.09.13
11
1/--страниц
Пожаловаться на содержимое документа