close

Вход

Забыли?

вход по аккаунту

?

Модель линейной регрессии с регулируемой селективностью для отбора признаков в задаче оценивания зависимостей по экспериментальным данным.

код для вставкиСкачать
Известия ТулГУ. Технические науки. 2012. Вып. 1
УДК 519.688
О.В. Красоткина, канд. физ.-мат. наук, доц., krasotkina@tsu.tula.ru
(Россия, Тула, ТулГУ),
Т.Ч. Нгуен, асп., nguyentrongtinh7512@yahoo.com.vn
(Россия, Тула, ТулГУ),
В.В. Моттль, д-р техн. наук, проф., vmottl@yandex.ru
(Россия, Москва, Вычислительный центр РАН)
МОДЕЛЬ ЛИНЕЙНОЙ РЕГРЕССИИ С РЕГУЛИРУЕМОЙ
СЕЛЕКТИВНОСТЬЮ ДЛЯ ОТБОРА ПРИЗНАКОВ В ЗАДАЧЕ
ОЦЕНИВАНИЯ ЗАВИСИМОСТЕЙ ПО ЭКСПЕРИМЕНТАЛЬНЫМ
ДАННЫМ
Рассматривается статистический подход к постановке задачи оценивания
регрессионной зависимости в случае наличия малого числа наблюдений и богатого признакового описания. Для отбора существенных признаков в задаче оценивания регрессионной зависимости предлагается вероятностная модель, в которой отбором существенных регрессоров управляет единственный структурный параметр. Приводятся
результаты экспериментального исследования предложенного алгоритма в сравнении
с известными методами отбора признаков в задаче оценивания регрессионной зависимостей Lasso и Elastic Net.
Ключевые слова: оценивание зависимостей, линейная регрессия, сокращение
признакового описания, байесовский подход, отбор признаков, принцип максимального
правдоподобия.
Введение
Задача оценивания зависимостей по эмпирическим данным является одной из наиболее трудных в современной информатике. Пусть ω∈ Ω множество объектов произвольной природы, которые характеризуются некоторой зависимой (скрытой) переменной y ∈ Y . Как правило функция
y ( ω) : Ω → Y известна только для некоторого ограниченного набора объек-
{
( )}
*
тов, называемого обучающей совокупностью Ω ⇒ ω j , y ω j
N
j =1
где N -
число наблюдений.
Требуется продлить функцию на все множество, чтобы иметь возможность оценивать значения зависимой переменной для других объектов
ω → Ω \ Ω* . Предметом рассмотрения данной работы является случай, когда выходная переменная является действительно-значной y€( ω) : Ω → R и
исходная задача представляет собой задачу оценивания регрессионной зависимости.
Естественно, что компьютер не может непосредственно воспринимать физические объекты. Поэтому всегда необходима некоторая формальная переменная x (ω): Ω → X , выступающая как посредник
138
Машиностроение и машиноведение
между компьютером и природой, называемая признаком. Наиболее
простым предположением является понимание признаковых представлений
объектов
как
последовательностей
действительных
чисел
n
x(ω) = ( x1 (ω),..., xn ( ω) )∈R , где n - число признаков. Именно этот случай является предметом рассмотрения данной работы.
Чем больше существует разных признаков, тем шире круг свойств
объектов, учитываемых в регрессионной модели. Но если число признаков
очень велико, то такая сложная модель теряет обобщающую способность,
что приводит к необходимости сокращения исходного признакового описания.
В литературе принято разделять все методы отбора признаков на
фильтры и встроенные методы. Фильтры применяются на множестве
всех признаков до восстановления зависимости, независимо от используемого метода восстановления. Встроенные методы отбора признаков непосредственно инкорпорируются в метод решения задачи и, следовательно,
существенно зависят от его специфики.
В данной работе используется байесовский подход к восстановлению зависимостей в эмпирических данных, а искомая зависимость выбирается в классе линейных. Метод отбора признаков, рассматриваемый в
данной работе, относится к классу встроенных методов. Предлагается использовать в качестве априорных распределений коэффициентов регрессии
параметрические распределения, общий структурный параметр которых
обладает способностью подавлять значения коэффициентов регрессии, ограничивая число признаков, участвующих в модели.
Селективность, являясь структурным параметром алгоритма обучения, влияет на сложность обучаемой модели и тем самым представляет собой инструмент борьбы с переобучением с целью повышения обобщающей способности при восстановлении зависимостей в признаковых
пространствах большой размерности. Выбрать подходящий уровень селективности можно одним из стандартных методов, например, по контрольной выборке или с помощью процедуры скользящего контроля.
Результаты экспериментального исследования на модельных и реальных данных наглядно демонстрируют адекватность механизма регулируемой селективности при восстановлении зависимостей в признаковых
пространствах большой размерности по сравнению с другими современными встроенными методами отбора признаков – Lasso [2] и Elastic Net [3].
Вероятностная постановка задачи оценивания линейной
регрессионной зависимости
Переобозначим обучающую совокупности следующим образом:
( X , Y ) = { x1 j ,..., xnj , y j , j = 1,..., N } ; xij = xi (ω j ), y j = y (ω j ) . Будем предполагать, что элементы обучающей совокупности выбраны независимо, а зависимая
переменная
получается
как
линейная
функция
139
Известия ТулГУ. Технические науки. 2012. Вып. 1
y j (ω) = ∑ i =1 ci xi (ω) + ξ наблюдаемых значений признаков с неизвестныn
ми регрессионными коэффициентами c = (c1 ,..., cn ) ∈ R n . Здесь ξ - шум с
нулевым средним и дисперсией ρ .
Таким образом, зависимая переменная будет иметь следующее распределение в пространстве R
ϕ ( y j | c, x , ρ ) =
(
n
1

exp  − y j − ∑ i =1 ci xij
2 πρ

)
2

2 ρ .

Совместное условное распределение наблюдаемой обучающей соN
вокупности будет иметь вид Φ (Y | X , c1 ,..., c n , ρ ) = ∏ ϕ( y j | c, x, ρ) . Искомый
j =1
вектор регрессионных коэффициентов будем рассматривать, в свою очередь, как случайный, имеющий распределение с априорной плотностью
Ψ (c1 ,..., cn | µ) , управляемой единственным структурным параметром µ.
Для нашей обучающей совокупности апостериорная совместная
плотность распределения регрессионных коэффициентов имеет вид
P (c1 ,..., cn | X ,Y , µ , ρ) ∝ Ψ (c1 ,..., cn | µ) Φ(Y | X , c1 ,..., c n , ρ) .
Для оценивания коэффициентов регрессии будем использовать метод максимального правдоподобия
( c€1 ,..., c€n ) = arg max[ln Ψ ( c1,..., cn | µ) + ln Φ (Y | X , c1 ,..., cn , ρ )] ,
который приводит к следующему критерию обучения:
1
N
n
2
(1)
− ln Ψ ( c1 ,..., cn | µ ) +
(
y
−
c
x
)
→ min .
∑
∑
j
i
ij
j =1
i =1
c ,...,c
2ρ
Причем в качестве априорной плотности распределения компонент
ci рассматривается нормальное распределение с нулевыми математическим ожиданием и дисперсией ρri :
1
n
ψ(ci | ri , ρ) = (1 2πρri )1/2 exp  −ci2 / (2ρri )  .
В этом случае, совместное распределение коэффициентов регрессии
имеет вид
(
)
−1/2
exp  −∑ i =1 ci2 (2 ρri )  .


Кроме того, будем предполагать, что и сами величины, обратные
дисперсиям, имеют априорное гамма-распределение γ (1 ri | α, β ) ∝
Ψ (c 1 ,..., cn | r1,..., rn , ρ) ∝
∏ i=1 ρri
n
n
(1 ri )α −1 exp( −β ri ) . Тогда совместная априорная плотность распределения
дисперсий 1 ri примет вид
140
Машиностроение и машиноведение
n
G (1 r1 ,...,1 rn | α, β ) = ∏  (1 ri )α−1 exp( −β ri )  .
i =1
Принцип максимизации совместной
P ( c1 ,..., cn , r1,..., rn | y1 ,..., y N , α, β, ρ) ∝
апостериорной
плотности
Φ ( y1 ,..., y N | c1 ,..., cn , ρ) Ψ (c1 ,..., cn | r1,..., rn , ρ)G ( r1,..., rn | α, β )
приводит к следующему критерию обучения:
N
n
1
1 n ( ci ) 2
2
J ( c1 ,..., cn, r1,..., rn | α, β, ρ) =
+
∑ j =1 ( y j − ∑ i=1 ci xij ) + 2 ∑
2ρ
i =1 ρri
(2)
n
n
1 n
+ ∑ ln ri + ( α − 1) ∑ ln ri + β∑1 ri → min .
( c ,...,c , r ,...,r )
2 i =1
i =1
i =1
Такой критерий будем называть моделью линейной регрессии с регулируемой селективностью.
Попытки создания встроенных методов отбора признаков в задаче
оценивания регрессионной зависимости с помощью выбора специфической формы априорного распределения коэффициентов регрессии встречались в литературе и ранее. Например, если априорная плотность распределения коэффициентов регрессии по формуле (1) – это совместное
1
n 1
n
распределение Лапласа Ψ ( c1 ,..., c n | µ) = Ψ ( c1 ,..., cn ) ∝ ∏ i =1 exp( − | ci |) , то поn
лучим следующий критерий оценивания коэффициентов регрессии:
∑
( y j − ∑ i =1 ci xij ) 2 + 2ρ ∑ i =1| сi |→ min .
j =1
N
n
n
c1 ,...,cn
В литературе такой критерий называется моделью Lasso [2]. А если
априорная плотность распределения коэффициентов регрессии по формуле
{(
(1) имеет вид ψ ( ci | µ) ∝ exp − ci + µ ci
2
)} ,
то получим следующий крите-
рий:
∑
( y j − ∑ i =1 ci xij ) 2 + 2ρµ ∑ i =1 | сi | +2ρ∑ i =1 ci2 → min .
j =1
N
n
n
n
c1 ,...,cn
В литературе такой критерий называется моделью Elastic Net [3].
Модель регулируемой селективности отбора признаков в задаче
оценки регрессии
Будем минимизировать критерий (2) методом Гаусса-Зайделя.
Для
этого
найдем
частные
производные
целевой
функции
J (c1 ,..., cn, r1,..., rn | α, β, ρ) по переменным ( c, r ) ≡ ( c1,..., cn , r1,..., rn ) .
Построим итерационный алгоритм минимизации критерия по
принципу Гаусса-Зайделя. Пусть (c k , r k ) − очередное приближение к точке
минимума. Найдем очередное приближение (ck +1 , r k +1 ) как
141
Известия ТулГУ. Технические науки. 2012. Вып. 1
ri
k +1
n
 1 n (cik )2  1
 n
= arg min  ∑
+  + α − 1  ∑ ln ri + β ∑1
r
2
 i =1
i =1
 2 i =1 ρri
i

ri  , i = 1,..., n,

 1
N
n
1 T k +1 
c k +1 = arg min  ∑ j =1 ( y j − ∑ i =1 ci xij ) 2 +
c R c ,
2ρ
c
 2ρ

где R k +1 = diag (r% k +1 ) - диагональная матрица, на главной диагонали которой стоят элементы вектора 1 / r k +1 .
Найдя частные производные по ri и c , получим:

(cik ) 2 + 2ρβ k +1  N
k +1
ri =
, c =  ∑ x j x j T + R k +1 
( 2α − 1) ρ
 j =1

(
−1
N
∑y x ,
j
j
j= j
)
где x j = x1 j ,..., xnj .
Пошагово рассмотрим алгоритм для построения модели регулируемой селективности.
Шаг 1. Задаемся начальными приближениями ri 0 = 1, i = 1,..., n .
Шаг 2. Вычисляем
 N

c =  ∑ x t x tT + I 
 t =1

0
−1
N
∑yx
t
t
, где I - единичная
t =1
матрица.
Шаг 3. Далее вычисляем очередные приближения (ck +1 , r k +1 ) по
формулам
ri
k +1

(c k ) 2 + 2ρβ k +1  N
= i
, c =  ∑ x j x j T + R k +1 
( 2α − 1) ρ
 j =1

−1
N
∑y x .
j
j
j= j
Шаг 4. Если c k +1 − c k < ε , выйти, иначе перейти к шагу 3.
Выберем параметры α и β следующим образом: α = 1 + 1 ( 2µ ) и
β = 1 ( 2 µ ) , тогда E (1 ri ) = (2µ + 1) и E (1 ri 2 ) = (2 µ + 1)2 µ . Параметр 0 < µ < ∞
выполняет роль параметра регулируемой селективности.
Если µ → 0 ,
2
E (1 ri ) = 1 , а E (1 ri ) = 0 ⇒ 1 ri ≅ ... ≅ 1 rn ≅ 1 . Если µ → ∞ , E (1 ri ) = ∞ и
E (1 ri 2 ) = ∞ но
(( E(1 r ) E(1 r )) = µ) → ∞ . Это означает, что при увеличе2
i
i
нии µ , дисперсии могут существенно различаться, так как дисперсии увеличиваются быстрее, чем математические ожидания. Обычно алгоритм
сходится за 10-15 итераций. Значения параметров µ , ρ могут быть подобраны с помощью процедуры скользящего контроля (один из стандартных
методов).
142
Машиностроение и машиноведение
Рис.1. Отбор признаков задачи с 49 признаками, имеющими
стандартные Гауссовские распределения, 100 объектами и значением
целевой переменной
Экспериментальное исследование предложенного алгоритма на
модельных данных. Для наглядной иллюстрации работоспособности алгоритма рассмотрим модельную задачу линейной регрессии с 49 признаками,
100
объектами
и
значением
целевой
переменной
y = x2 + 3 x6 + 2 x22 + ξ , где xi : N ( xi | 0,1) , ξ : N ( ξ | 0,0.5) .
Получим
r€2 = 1.00008,
r€i < 0.001524 ∀i ∉{2,6,22}
и
r€6 = 9.01475,
c€2 = 1.00006,
c€6 = 3.00379,
r€22 = 3.958091,
c€22 = 1.99025,
c€i ≅ 0∀i ∉{2,6, 22} . Соответствующие веса показаны на рис.1. Легко увидеть, что только три веса значительно отличаются от нуля и близки к истинным значениям.
Систематическое сравнительное исследование качества работы алгоритма проводилось на тестовых данных, полученных в соответствии с
моделью линейной регрессии. Все эксперименты выполнялись на выборке
из 1000 объектов, из которых только 20 были отведены на обучение, а остальные 980 использовались для контроля качества построенной модели. В
ходе экспериментов число признаков, измеренных на объектах, варьировалось от 20 до 500. Таким образом, в выборке число признаков значительно
превосходит число наблюдений. Причем, в скрытой модели только два
признака являлись релевантными. Это фактически означает, что только 2
коэффициента регрессии отличны от 0, а остальные являются нулевыми,
143
Известия ТулГУ. Технические науки. 2012. Вып. 1
что исключает соответствующие признаки модели. Дисперсия шума в тестовой модели была установлена на уровне 10 % от дисперсии наблюдаемой переменной.
В ходе экспериментов на контрольной выборке подсчитывался относительный средний квадрат ошибки восстановления выходной переменной. Для каждого числа признаков n генерировалось 100 вариантов входных данных. В табл. 1 приведены усредненные по 100 экспериментам
значения ошибки.
Таблица 1
Средняя ошибка восстановления наблюдаемой переменной на
модельных данных для различных алгоритмов
n
20
100
500
Lasso
0.2359
0.2560
0.3115
Elastic Net
0.2316
0.2528
0.3114
Регулируемая селективность
0.0887
0.1990
0.4150
Сравнительная оценка исследуемого алгоритма на реальных
данных. Реальные данные были взяты из известных репозиториев UCI
(http://archive.ics.uci.edu/ml). Рис. 2 иллюстрирует число отобранных
признаков на реальных данных. Для исследуемого алгоритма, в наборе
признаков удалялись те из них, для которых
( max ( r ) r ) > 10
i =1,..., n
i
i
−2
.Черная часть
столбца соответствует числу отобранных признаков. Для побора
структурных параметров алгоритмов используется процедура скользящего
контроля. В табл. 2 тоже приведены усредненные по 100 экспериментам
значения ошибки.
Таблица 2
Средняя ошибка восстановления наблюдаемой переменной
для различных алгоритмов, полученная на скользящем контроле,
на данных репозитория UCI
Data
Lasso
Auto-Mpg
3.4702 ± 0.1422
Boston
5.0636 ± 0.2349
Diabetes
55.3143 ± 0.3342
Postate cancer 0.8100 ± 0.1132
Elastic Net
Управляемая селективность
3.4693 ± 0.1410
3.4675 ± 0.1326
5.0668 ± 0.2382
5.0532 ± 0.2265
55.3638 ± 0.3205
55.1746 ± 0.2925
0.8169 ± 0.1118
0.7978 ± 0.0886
144
Машиностроение и машиноведение
SSLR
SSLR
Рис. 2. Число отобранных регрессоров для каждого из исследуемых
алгоритмов по отношению к общему числу признаков для данных
репозитория UCI
Заключение
Задача восстановления регрессионной зависимости рассматривается
для весьма распространенного случая малого объема обучающей выборки.
При этом существенным оказывается вопрос повышения обобщающей
способности алгоритма восстановления регрессионной зависимости за счет
сокращения количества признаковых переменных. Предлагаемый в данной
работе метод сокращения признакового пространства основан на байесовском подходе к задаче восстановления зависимостей и относится к числу
встроенных методов. Достоинством метода является то, что он позволяет
отбросить неинформативные признаки, не используя переборные стратегии, непосредственно в процессе восстановления искомой регрессионной
зависимости. Метод имеет два структурных параметра, которые легко контролируют богатство признакового описания и степень селекции признаковых переменных. Многочисленные эксперименты на модельных и реальных данных показывают эффективность предложенного алгоритма в
сравнении с известными на текущий момент передовыми методиками отбора признаков.
Список литературы
1. Моттль В.В., Красоткина О.В.. Беспереборная минимизация числа аргументов в задаче восстановления линейной регрессионной зависимости по малым обучающим выборкам // Труды Всероссийской конференции
“ММРО-11” М.:МАКС Пресс, 2003. С. 138-141.
145
Известия ТулГУ. Технические науки. 2012. Вып. 1
2. Tibshirani, R. Regression shrinkage and selection via the lasso.// Journal of the Royal Statistical Societ. 1996. B 58. P. 267–288.
3. Hui Zou and Trevor Hastie B. Regularization and variable selection
via the elastic net. // Journal of the Royal Statistical Society. 2005. 67. Part 2. P.
301–320.
4. Selectivity supervision in combining pattern-recognition modalities by
feature- and kernel-selective Support Vector Machines. / A. Tatarchuk [et al.]. //
Proceedings of the 19th International Conference on Pattern Recognition.
Tampa. USA. December 8-11, 2008.
5. Feature Extraction, Foundations and Applications / I.M. Guyon [et
al.]. // Springer. 2006.
6. Vetrov D. P., Kropotov D. A., Ptashko N. O.. An efficient method for
feature selection in linear regression based on an extended Akaike’s information
criterion. // Computational Mathematics and Mathematical Physics. 2009. Vol.
49. No. 11. P. 1972–1985.
7. UCI Machine Learning Repository: http://archive.ics.uci.edu/ml.
O. V. Krasotkina, T.T. Nguyen, V.V. Mottl
LINEAR REGRESSION MODEL WITH SUPERVISED SELECTIVITY FOR
FEATURE SELECTION IN THE ESTIMATION PROBLEM OF DEPENDENCE BASED ON
EMPIRICAL DATA
A statistical approach for statement of the regression estimation problem in case of a
small number of observations and a rich feature description is considered. For essential
feature selection in regression estimation problem a probabilistic model is proposed, in which
a structural parameter controls fundamental regressor selection . Experimental results of
proposed algorithm are shown in comparison with the well-known feature selection methods
(Lasso and Elastic Net).
Key words: reduction of feature description, dependences estimation , linear
regression, Bayesian approach, feature selection, maximum likelihood principle.
Получено 14.01.12
146
1/--страниц
Пожаловаться на содержимое документа