close

Вход

Забыли?

вход по аккаунту

?

Алгоритм прогнозирования параметров технологического процесса производства полиэтилена со средней и высокой плотностями на основе нечеткой с-сегментации.

код для вставкиСкачать
УДК 51-7
АЛГОРИТМ ПРОГНОЗИРОВАНИЯ ПАРАМЕТРОВ ТЕХНОЛОГИЧЕСКОГО ПРОЦЕССА
ПРОИЗВОДСТВА ПОЛИЭТИЛЕНА СО СРЕДНЕЙ И ВЫСОКОЙ ПЛОТНОСТЯМИ
НА ОСНОВЕ НЕЧЕТКОЙ С-СЕГМЕНТАЦИИ
П.Н. Зайцев
Рассматривается задача определения переломных значений параметров технологического процесса.
Предлагается метод «генеральной линии», характеризующий направление изменений анализируемых параметров. В
основе метода лежит нечеткая с-сегментация временного ряда обрабатываемого процесса. Преимуществом метода
является возможность прогнозирования значения параметра после переломной величины в режиме реального времени
Ключевые слова: метод «генеральной линии», переломные значения параметра, нечеткая с-сегментация,
временной ряд
Введение
Аппарат временных рядов (ВР) предоставляет
широкие возможности для прогнозирования
параметров на основе ретроспективных данных.
Однако помимо прогнозных значений еще большую
важность имеет предсказание тенденции в
«поведении»
параметров.
В
этой
связи
рассматривалась следующая задача: на основе
нечеткой с-сегментации [1] временного ряда
разработать алгоритм, позволяющий определить и
прогнозировать переломные значения параметров,
характеризующих тот или иной процесс. 1
Понятие сегментации временных рядов
заключается в следующей статистической проблеме:
пусть в результате наблюдения получен временной
ряд T = {xt }t =1, N , необходимо найти разбиение этого
ряда на c сегментов, которые являются внутренне
однородными [1]. В зависимости от применения и
цели разбиения необходимо определить стабильные
периоды времени, найти точки изменения, или
просто сжать исходный временной ряд в более
компактное представление [2, 3]. Хотя во многих
реальных приложениях наблюдение за многими
переменными производится похожим образом,
большинство
алгоритмов
сегментации
используются только для анализа одной временной
переменной [2, 3].
Для обработки ВР можно использовать такие
многомерные статистические инструменты, как
метод главных компонент (Principal component
analysis - PCA) [3, 4]. Метод главных компонент
позволяет отображать данные в пространстве с
более низкой размерностью, которое полезно при
анализе
и
визуализации
коррелированной
многомерной информации [5]. В исследовании
использован пример, в котором используются данные
производства высокоплотного полиэтилена [1].
Базовая терминология
Положим, что временной ряд T = {x t }t =1, N - это
конечное множество N выборок, отмеченных
моментами времени t 1 ...t N , xk = [ x1k , x2 k ,..., xnk ]T вектор наблюдаемых параметров. Пусть сегмент
Зайцев Павел Николаевич – ВГУ, аспирант, тел. 8-903850-06-03
ряда T – это множество последовательных
S (a, b) = {x k a ≤ k ≤ b},
т.е.
временных
точек
xa , xa +1 ,..., xb . C-сегментация временного ряда T – это
разбиение T на c непересекающихся сегментов
S Tc = {S i (ai , bi ) 1 ≤ i ≤ c}, таких, что a1 = 1, bc = N и
ai = bi −1 + 1 . Другими словами, с-сегментация
разделяет T на c непересекающихся сегментов
s1 < s 2 < ... < sc .
Обычно
целью
является
нахождение
однородных сегментов в данном ВР, т.е. сегменты,
которые содержат элементы со сходными
свойствами. В этом случае проблема сегментации
может быть описана как проблема группировки с
ограничениями: данные со схожими свойствами
должны быть определены в одну группу, но с
ограничением, что все объекты в этой группе
должны быть последовательными по времени. Для
того чтобы формализовать эту цель, введем
функцию стоимости cos t (S (a, b )) , в качестве
некоторой меры однородности сегмента. Таким
образом, сегмент является однородным, если
функция стоимости одинакова для любой точки
этого сегмента. На практике сегменты можно
формировать так: сегмент является однородным,
если функция стоимости для любой точки этого
сегмента находится в допустимых пределах,
которые определяются исходя из практических
соображений.
Обычно,
функция
стоимости
cos t (S (a, b )) характеризует отклонение между
значениями ВР и значениями некоторой функции,
которая аппроксимирует его для каждого сегмента
данных.
Решение проблемы сегментации опирается на
кластеризацию сегментов, взаимосвязанных по
времени. В качестве целевой функции выступает
стоимость всей c-сегментации:
cos t (S Tc ) =
c
∑ cos t (S ) .
i
i =1
(1)
Оптимальная
c-сегментация
должна
одновременно определять границы сегментов ai , bi
и вектор параметров θ i для моделей сегментов.
Для нахождения отдельных сегментов,
функция (1) может быть минимизирована с
помощью динамического программирования. К
сожалению,
применение
динамического
программирования для многих задач весьма
затруднено,
поэтому
эвристические
методы
оптимизации, такие как восходящий и нисходящий
методы [5, 6], метод раздвижного окна [5, 6], часто
используется при нахождении хорошей, но условно
оптимальной с-сегментации.
Алгоритмы сегментации временных рядов
Пусть δ ik = xk − vix . Рассмотрим
cos t (STc ) =
si
c
∑∑
i =1 k = si −1 +1
δ ik = ∑∑ β i (tk ) Dik2 (vix , xk ) , (2)
2
c
N
i =1
k =1
где Dik2 (vix , xk ) - расстояние между центром в i -м
сегменте и точкой данных; β i (t k ) = {0,1} играет роль
индикатора принадлежности k -той точки к i -му
сегменту:
⎧1, если si−1 < k ≤ si ;
⎪
(3)
β i (tk ) = ⎨
⎪⎩0, иначе.
Изменение значений переменных временных
рядов обычно случайное. Так как практически
невозможно определить четкие границы сегментов, то
перейдем
к
нечетким
сегментам,
которые
представляются с помощью гауссовых чисел, что
приводит к следующей формуле для оценки количества
элементов в i -м сегменте k -го наблюдения:
⎛ 1 (t k − vit )2 ⎞
⎟, β (t ) = c Ai (t k ) .
Ai (t k ) = exp⎜ −
(4)
⎜ 2 σ2 ⎟ i k
i
⎝
⎠
(
)
A
t
∑ j k
j =1
Для формирования сегментов воспользуемся
алгоритмом нечеткой кластеризации, который
является модифицированным алгоритмом GathGeva [4], который представляет данные как
многомерное распределение Гаусса, таким образом,
это минимизирует сумму квадратов между точками
T
z k = [tk , xkT ]
данных
и ηi
– прототипом
формируемой группы
c
N
∑∑ (µ
i =1
где
ik
) m Dik2 (ηi , zk ) =
k =1
ϖ k = ( µik ) m Dik2 (vit , tk ) ,
∑∑ϖ D (v , x ) , (5)
c
N
i =1
k =1
k
а
[
2
ik
µik –
x
i
]
k
степень
T T
k
принадлежности наблюдения zk = tk , x , m∈∞ –
экспонента, которая определяет нечеткость групп
(обычно m = 2 ).
Особенность метода состоит в том, что дисперсия
состоит
из
двух
частей
t
x
2
2
2
Dik (ηi , zk ) = Dik (vi , t k )Dik (vi , xk ) , первая из которых
Dik2 (vit , t k ) – это отклонение k - й точки от центра i го сегмента vit во времени.
⎛ 1 (t k − vit )2 ⎞
⎟ , (6)
exp⎜ −
⎜ 2 σ2 ⎟
2πσ i2
i
⎝
⎠
где центр стандартного отклонения функции Гаусса
определяется следующим образом:
1 Dik2 (vit , t k ) =
1
N
vit =
∑ (µ ) t
k =1
N
∑ (µ ) (t
N
m
ik
k
,σ i2 =
∑ (µ )
m
− vkt )
2
m
ik
k
k =1
N
∑ (µ )
ik
.
(7)
m
ik
k =1
k =1
Вторая часть дисперсии D (v , xk ) определяется
расстоянием между прототипом группы и
характеристическим множеством:
α det( Ai )
⎛ 1
⎞
T
exp⎜ − (δ ik ) ( Ai )(δ ik )⎟ , (8)
1 Dik2 (vix , xk ) = i
(2π )r 2
⎝ 2
⎠
где δ ik = xk − vix , α i – априорная вероятность группы
и vix – координаты центра i -той группы
характеристического множества:
x
i
2
ik
N
1
αi =
N
N
∑µ
ik
,v =
x
i
∑ (µ )
m
xk
ik
k =1
N
,
∑ (µ )
k =1
(9)
m
ik
k =1
где
r
– ранг
Ai
нормы отклонения,
соответствующая i -й группе. Норма отклонения
может быть определена многими способами.
Разумно
применить
к
переменным
масштабирование, так чтобы переменные с большим
отклонением
не
преобладали
в
группе.
Масштабирование производится с помощью
использования статистического отклонения, которое
также приспосабливается к корреляции между
переменными. В этом случае Ai = Fi −1 , где
∑ (µ ) (x
N
Fi =
− vit )(xk − vit )
T
m
ik
k
k =1
N
∑ (µ )
.
(10)
m
ik
k =1
Когда переменные в матрице сильно зависят
друг от друга, матрица ковариации Fi может
оказаться плохо обусловленной и не иметь обратной
матрицы. В [4] эта проблема была решена. Первый
из двух методов, которые использованы в [4],
основан на пропорции между минимальным и
максимальным значением собственного значения
матрицы ковариации. Второй метод основан на
добавлении единой матрицы весов к найденной
матрице ковариации. Оба метода позволяют
получить обратную матрицу, но ни один из них не
выдает потенциальную информацию о скрытой
структуре данных.
Метод главных компонент (PCA) основан на
проектировании коррелированной, многомерной
информации на гиперплоскость, которая очень
удобна для визуализации и анализа данных.
Отображение использует только несколько первых
p
ненулевых
собственных
значений
и
соответствующих
им
собственных
векторов
Fi = U i Λ iU iT .
Таким образом:
−
1
yik = Λ ip2U ipT xk ,
(11)
где Λ i - матрица с собственными значениями,
расположенными на главной диагонали в
убывающем порядке, U i - матрица собственных
векторов в столбцах, соответствующих собственным
значениям.
Когда расстояние образов до гиперплоскости
является величиной незначительной [1], проекция
данных на p-размерную гиперплоскость не является
причиной существенных ошибок в преобразовании:
Qik = (xk − x€k ) (xk − x€k ) = xkT ( I − U ipU ipT ) xk . (12)
T
Хотя зависимость между переменными может
быть описана линейной моделью достаточно точно,
в некоторых случаях представляется возможным
распределить данные вокруг некоторых отдельных
центров в линейном подпространстве. Для подсчета
расстояния данных от центра в линейном
подпространстве используется следующая величина [1]:
Tik2 = yikT yik .
(13)
смежных эллипсов, делаются прогнозы поведения
параметров процесса, где:
1
.
(16)
ξ= N
m
t
t T
(
)
(
)(
)
µ
x
−
v
x
−
v
∑ ik k i k i
k =1
6. Затем маркируются предположительные
«критические» точки, которые и образуют ломаную
- «генеральную линию» параметра, пример которой
изображен на рис. 1.
T 2 и Q часто используются для слежения за
многомерными системами, для исследования
ошибок, а так же причин, их вызывающих.
Далее на основе методов нечеткой ссегментации [1] временного ряда был разработан
алгоритм,
позволяющий
определить
и
прогнозировать переломные значения параметров,
характеризующих процесс. Полученный алгоритм
получил условное название – метод «генеральной
линии». В исследовании были использованы данные
производства полиэтилена средней и высокой
плотности [1].
Метод «генеральной линии» включает в себя
следующие этапы:
(T − Q ) –алгоритма [1],
1. С помощью
основанном на структурном взаимодействии T 2 и
Q –методов, определяется с-сегментация [1]
временного ряда.
полученного
разбиения
2. Для
рассматривается
условная
ломаная
кривая,
состоящая
из
больших
осей
эллипса,
представляющего
собой
область
данных,
соответствующую конкретному сегменту разбиения.
Проекцией этой оси служит один из сегментов разбиения.
3. Отталкиваясь от полученной ломаной, во
внимание принимается ϕ - окрестность каждой оси,
где параметр ϕ , используя (11), определяется по
формуле:
ϕi = 1 n
.
(14)
diag
(
Λ
)
if
∑
f =1
4. В зависимости от того попадают или нет
точки в эту окрестность, каждой точке ставится в
соответствие параметр wij по правилу:
N
⎧
(µik )m , xij ∈ ϕ ;
w
ϕ
=
ij
i
⎪
k =1
(15)
⎨
⎪0, x ∉ ϕ .
ij
⎩
5. С помощью полученной ϕ - окрестности, на
∑
основе анализа значений параметра
окрестности
вершин
двух
wij
в ξ-
рассматриваемых
Рис. 1. «Генеральная линия» поведения
интенсивности выпуска полимерного продукта.
Вычислительный эксперимент и выводы
Цель вычислительного эксперимента состоит в
том, чтобы показать, что предложенный алгоритм
способен обнаружить значащие «критические
точки»
в многомерных накопленных данных
процесса, а так же улавливать тенденцию изменения
показателя.
В
качестве
примера
взят
технологический процесс производства полиэтилена
со средней и высокой плотностями [1]. Проблема
производства состоит в том, что необходимо
выпускать около десяти видов продукции, согласно
требованиям рынка. Следовательно, существует
проблема минимизации времени переключения,
потому что в течение переключения будет
производиться продукция ненадлежащего качества.
Сложность проблемы исходит от того, что должны
учитываться более десяти переменных процесса.
Измерение значений переменных происходит
каждые 15 секунд. Выделены следующие
переменные xk : xk ,1 – PE – интенсивность выпуска
полимерного продукта, начальная скорость потока
гексена – С6 in , этилена – С2 in , гидрогена – H 2 in ,
растворитель изобутана – IBin , катализатор – Kat ,
концентрация этилена – С2 , гексена – С6 , гидрогена
– H 2 , жидкий раствор в реакторе – slurry и
температура в реакторе – T .
Рассмотрим
пример
изменения
вида
полимерной продукции в интервале времени 125
часов, который включает в себя несколько
сегментов. Поведение описанных переменных в
примере изображено на рис. 2.
Рис. 2. Пример ВР изменения вида полимерной
продукции
(T − Q) –
С
помощью
разработанного
алгоритма [1] была получена с-сегментация,
изображенная на рис. 3.
Рис. 4. Схематичное представление области
«значимых» точек при построении «генеральной линии»
интенсивности выпуска полимерного продукта на фоне
нечеткой PCA- (T − Q ) – сегментации.
Результаты
исследования
могут
быть
использованы
для
повышения
уровня
обоснованности принимаемых решений в режиме
реального времени на основе
информации,
полученной
при
мониторинге
параметров,
характеризующих состояние производства или любого
другого процесса.
Рис. 3. Нечеткая PCA- (T − Q ) сегментация: (а)
1 Dik (vix , xk ) отклонения, (б) нечеткие сегменты
временного ряда, β i (t k )
В результате вычислительного эксперимента
установлено,
что
предложенный
метод
«генеральной линии» позволяет четко определить
характерные временные периоды монотонного
поведения параметра и всплески в районе
«критических» точек, которые указывают на
изменение в структуре его активности (см. рис.4) –
например, всплеск в районе 70-го часа является
прогнозируемым (см. рис.3 и рис. 4). Так же
необходимо заметить, что при построении кривой
поведения и вычислении «критических» точек
согласно формулам (14)-(16) не все точки попали в
значащую окрестность, что схематично изображено
на рис. 4.
Литература
1. Зайцев П. Н. Нечеткая сегментация временных
рядов. Вестник ВГУ, серия: системный анализ и
информационные технологии, 2009, № 1, с. 60-67.
2. Last M., Klein Y., Kandel A. Knowledge discovery
in time series databases,
IEEE Transactions on Systems,
Man, and Cybernetics, 2000, vol. 31 (1), p. 160-169.
3. Tipping M. E., Bishop C. M. Mixtures of
probabilistic principal components analysers, Neural
Computation, vol.11 (2), 1999, p. 443-482.
4. Abonyi J., Babuska R., Szeifert F. Modified GathGeva fuzzy clustering for identification of takagi-sugeno fuzzy
models, IEEE Transactions on Systems, Man, and
Cybernetics, vol. 32 (5), 2002, p. 612-321.
5. Hoppner F., Klawonn F., Kruse R., Runkler T.
Fuzzy Cluster Analysis, Wiley, Chichester, 1999.
6. Stephanopoulos G., Han C. Intelligent systems in
process engineering: A review, Comput. Chem. Engng., 1996,
vol. 20, p. 743-791.
Воронежский государственный университет
WORKFLOW’S PARAMETERS PREDICTION ALGORITHM AT MEDIUM-DENSITY AND
HIGH-DENSITY POLYETHYLENE PRODUCTION BASED ON FUZZY C-SEGMENTATION
P.N. Zaitsev
The paper addresses the searching turning-points of workflow parameters. A «general line» method is offered. It is
describes a direction of changes of examined parameters. The approach based on fuzzy c-segmentation of workflow time
series. An advantage of the method is an ability of а real-time prediction of the parameter’s value after turning-point
Key words: «general line» method, turning-points of parameter, fuzzy c-segmentation, time series
1/--страниц
Пожаловаться на содержимое документа