close

Вход

Забыли?

вход по аккаунту

?

392

код для вставкиСкачать
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Министерство образования и науки Российской Федерации
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«Оренбургский государственный университет»
Кафедра математических методов и моделей в экономике
А.Г. Реннер, О.С. Чудинова
СНИЖЕНИЕ РАЗМЕРНОСТИ
ПРИЗНАКОВОГО ПРОСТРАНСТВА
МЕТОДОМ ГЛАВНЫХ КОМПОНЕНТ В
ПАКЕТАХ STATISTICA, STATA, EXCEL
Рекомендовано к изданию Редакционно-издательским советом федерального
государственного
бюджетного
образовательного
учреждения
высшего
профессионального образования «Оренбургский государственный университет» в
качестве методических указаний для студентов, обучающихся по программам
высшего профессионального образования по специальности 080116.65
Математические методы в экономике, направлениям подготовки 231300.62
Прикладная математика, 080500.62 Бизнес-информатика, 080100.62 Экономика
Оренбург
2013
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
УДК 519.237:330.43 (076.5)
ББК 22.172я7+65в631я7
Р 39
Рецензент – доцент, кандидат экономических наук С.В. Дьяконова
Р39
Реннер, А.Г.
Снижение размерности признакового пространства методом главных
компонент в пакетах Statistica, Stata, Excel: методические указания к
лабораторным работам, практическим занятиям и самостоятельной
работе студентов / А.Г. Реннер, О.С. Чудинова; Оренбургский гос. ун-т.–
Оренбург: ОГУ, 2013. – 46 с.
Методические указания к лабораторным работам, практическим
занятиям, самостоятельной работе студентов, в том числе для выполнения
индивидуальных заданий, РГЗ, курсовых и дипломных работ, связанных с
анализом многомерных статистических данных. Предназначены для студентов
специальности 080116.65 Математические методы в экономике, направлений
подготовки 231300.62 Прикладная математика, 080500.62 Бизнес-информатика,
080100.62 Экономика и других специальностей и направлений, изучающих
дисциплины, связанные с математическим анализом многомерных
статистических данных.
УДК 519.237:330.43 (076.5)
ББК 22.172я7+65в631я7
 Реннер А.Г., 2013
 Чудинова О.С., 2013
 ОГУ, 2013
2
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Содержание
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1 Теоретическая часть . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1 Постановка задачи снижения размерности признакового пространства . . .
5
1.2 Построение главных компонент . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.3 Матрица нагрузок и её свойства . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.4 Алгоритм оценки главных компонент . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
1.5 Вопросы и задания, выносимые на практические занятия, по теме «Метод
главных компонент» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Практическая часть . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.1 Содержание лабораторной работы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.2 Задание к лабораторной работе . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Порядок выполнения лабораторной работы в пакете Statistica . . . . . . . . . . .
18
2.4 Порядок выполнения лабораторной работы в пакете Stata . . . . . . . . . . . . . .
32
2.5 Порядок выполнения лабораторной работы с помощью надстройки
AtteStat табличного процессора Microsoft Excel. . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6 Содержание письменного отчета . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
2.7 Вопросы к защите лабораторной работы . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
Список использованных источников . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
Приложение А Исходные данные для анализа . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Введение
Методические
указания
посвящены
методу
главных
компонент,
предназначенному для решения задачи снижения размерности признакового
пространства.
Возможность
решения
такой
задачи
обусловлена
малой
вариативностью отдельных исходных признаков или их комбинаций, а подход к
построению новых признаков заключается в повороте исходной системы координат
таким образом, чтобы сформировать новые наиболее информативные признаки и
отбросить
малоинформативные
в
соответствии
со
спецификой
критерия
информативности.
В теоретической части предлагаемых методических указаний изложены
постановка и алгоритм решения задачи снижения размерности признакового
пространства методом главных компонент, а также статистические аспекты его
реализации. Приведен широкий перечень теоретических вопросов и заданий по теме
«Метод главных компонент», позволяющий студенту систематизировать свои
знания и облегчить подготовку к практическим занятиям. Часть вопросов в
достаточном объеме освещены в методических указаниях, для ответа на остальные
вопросы необходимо обратиться к указанным литературным источникам. В
практической части методических указаний на конкретном примере описывается
алгоритм реализации метода главных компонент в статистических пакетах Statistica,
Stata и надстройке AtteStat пакета Excel, приводится интерпретация полученных
результатов снижения размерности признакового пространства. В методических
указаниях сформулирована постановка задачи и определены варианты заданий,
приведены требования к оформлению отчета и вопросы к защите лабораторной
работы.
Использование предлагаемых методических указаний в учебном процессе
позволит студенту в достаточной степени овладеть методом главных компонент и
приобрести навыки его практической реализации в пакетах прикладных программ.
4
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Теоретическая часть
1.1 Постановка задачи снижения размерности признакового пространства
Рассмотрим случайный вектор x = ( x1 , x2 ,..., xk )T . Будем предполагать, что
x1 , x2 ,..., xk
исходные признаки
центрированы, т.е. Mx j = 0 , ∀j = 1, k . Число
признаков k велико. Задача снижения размерности признакового пространства
заключается в построении новой системы признаков z = ( z1 , z2 ,..., zm )T с существенно
меньшим числом компонент, m << k .
Необходимость
снижения
размерности
признакового
пространства
обусловлена следующим причинами:
− необходимостью наглядного представления исходных данных, что может
достигаться
их
проецированием
на
специально
подобранное
трехмерное
пространство, плоскость или числовую прямую;
− стремлением
к
упрощению
исследуемых
моделей,
обусловленным
необходимостью упрощения счета и интерпретации полученных результатов;
− необходимостью снижения объемов хранимой информации.
Возможность снижения размерности признакового пространства обусловлена
следующими предпосылками:
− неинформативностью признаков, значения которых мало меняются при
переходе от одного объекта к другому;
− дублированием информации по причине корреляции исходных признаков;
− возможностью
агрегирования
исходных
признаков
(простого
или
«взвешенного» суммирования некоторых признаков).
Первой главной компонентой z1 называется такая линейная комбинация
исходных
центрированных
( z1 = u11 x1 + u 21 x2 + ... + u k1 xk = u1T x ),
x1 , x2 ,..., xk
признаков
которая
среди
всех
прочих
линейных
5
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
комбинаций
исходных
центрированных
признаков
обладает
наибольшей
дисперсией.
S-ой главной компонентой z s называется такая линейная комбинация
исходных
центрированных
x1 , x2 ,..., xk
признаков
( z s = u1s x1 + u 2 s x2 + ... + u ks xk = u Ts x ), которая не коррелированна с s-1 предыдущими
главными компонентами и среди всех прочих линейных комбинаций исходных
центрированных признаков, некоррелированных с s-1 предыдущими главными
компонентами, обладает наибольшей дисперсией, s = 1, m .
Под критерием информативности новой системы признаков z = ( z1 , z 2 ,..., z m ) T
в методе главных компонент понимается отношение сумм дисперсий новых
признаков и исходных признаков:
I m ( z ( x)) =
Dz1 + Dz 2 + ... + Dz m
.
Dx1 + Dx2 + ... + Dxk
(1)
1.2 Построение главных компонент
Найдем
дисперсию
первой
главной
компоненты
z1 = u11 x1 + u 21 x2 + ... + u k1 xk = u1T x , где u1T = (u11 , u 21 ,..., u k1 ) – вектор коэффициентов
линейного преобразования исходных признаков для построения первой главной
компоненты:
Dz1 = M ( z1 − Mz1 ) 2 = M [u1T x − M (u1T x)]2 = M [u1T x − u1T Mx]2 =
= M [u1T x − 0]2 = M [u1T x(u1T x)T ] = M [u1T xxT u1 ] = u1T M ( xxT )u1 = u1T Σ x u1 ,
где Σ x – ковариационная матрица исходных признаков x = ( x1 , x2 ,..., xk ) T .
Согласно определению первой главной компоненты, для её построения
необходимо максимизировать дисперсию: Dz1 = D(u1T x) → max . Поскольку
u1
z1
6
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
определяется
неоднозначно,
на
вектор
u1
накладывается
требование
нормированности u1T u1 = 1. Таким образом, для построения первой главной
компоненты необходимо решить оптимизационную задачу вида:
u1T Σ x u1 → max

u1

u1T u1 = 1.
(2)
Решая задачу условной оптимизации (2) методом множителей Лагранжа,
приходим к следующей системе уравнений:
(Σ x − λE ) ⋅ u1 = 0 ,
(3)
где λ – множитель Лагранжа;
E – единичная матрица.
Система (3) – это однородная система k-линейных уравнений с k
неизвестными u11 , u 21 ,..., u k1 и одним параметром λ . Для того, чтобы существовало
ненулевое решение системы (3), матрица Σ x − λE должна быть вырожденной:
det(Σ x − λE ) = 0 .
(4)
Уравнение (4) называется характеристическим для матрицы Σ x . Известно, что
при симметричности и неотрицательной определенности матрицы Σ x (каковой она и
является, как всякая ковариационная матрица) это уравнение имеет k вещественных
неотрицательных
корней
λ1 ≥ λ2 ≥ ... ≥ λk ≥ 0 ,
называемых
собственными
значениями матрицы Σ x .
Пусть λ1 > λ2 > ... > λk > 0 . Для выяснения, какое из решений уравнения (4)
необходимо выбрать, проведем с системой (3) следующие преобразования:
7
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
(Σ x − λE ) ⋅ u1 = 0 ;
Σ x u1 − λu1 = 0 ;
( × u1T слева)
u1T Σ x u1 − λu1T u1 = 0 ;
u1T Σ x u1 = Dz1 = λ .
Таким образом, для построения первой главной компоненты необходимо
выбрать наибольшее собственное число λ1 (т.к. это и есть дисперсия первой главной
компоненты). Далее
λ1 подставляется в систему (3) и система решается
относительно вектора u1 . Решением системы (3) является собственный вектор
матрицы Σ x , соответствующий наибольшему собственному числу λ1 . Обозначим
решение системы (3) через u1* . Для того, чтобы было выполнено требование
u1T ⋅ u1 = 1 , проводят нормировку вектора u1* . Тогда искомый вектор u1 определяется
следующим образом: u1 =
u1*
u1*
=
u1*
2
u11
2
+ u 21
+ ... + u k21
.
Известно, что собственные векторы, соответствующие разным собственным
числам, ортогональны. Тогда для построения второй главной компоненты должен
быть выбран второй по величине характеристический корень матрицы Σ x , т.е. λ2 , и
найден соответствующий этому корню собственный вектор u 2 . Построение главных
компонент продолжается до тех пор, пока не будет обеспечен требуемый уровень
информативности (1), который, как правило, составляет не менее 0,7. Найденные
векторы u1 , u 2 ,..., u m составляют матрицу коэффициентов линейного преобразования
исходных признаков U размерности k × m . Всего можно построить k главных
компонент. В этом случае матрица U является ортогональной, т.е. U T = U −1 .
Рассмотрим случай, когда корень характеристического уравнения (4) имеет
кратность порядка r. Пусть λs1 = λs2 = ... = λsr . Тогда rang (Σ x − λE ) = k − r . В этом
случае в системе уравнений (Σ x − λs j E ) ⋅ u s j = 0 , j = 1, r , k-r неизвестных компонент
вектора u s j считают базисными переменными (базисный минор отличен от нуля), а
r неизвестных переносят в правую часть и считают параметрическими (они не
8
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
попали в базисный минор). Далее каждому набору параметрических переменных
ui1 s j
uil s j = 1, l = j;
, ui 2 s j , …, ui r s j , j = 1, r присваиваются значения 1 или 0: 
, где
u
=
0
,
l
≠
j
.
 il s j
l = 1, r .
После
нахождения
описанным
способом
собственных
векторов,
соответствующих кратным собственным числам, они должны подвергнуться
процедуре ортогонализации.
Замечание: если исходные признаки измеряются в различных единицах, то
результаты исследования с помощью главных компонент будут существенно
зависеть от выбора масштаба и природы единиц измерения. Поэтому в подобных
ситуациях рекомендуется переходить к безразмерным признакам, т.е. помимо
центрирования, проводить еще нормирование. Вследствие предположения о
центрированности и нормированности исходных признаков в процессе построения
главных компонент будут определяться собственные числа и собственные вектора
не ковариационной матрицы Σ x , а корреляционной матрицы Rx .
1.3 Матрица нагрузок и её свойства
Будем
исходить
нормированные,
т.е.
из
того,
что
исходные
x ≡ x * = (x1* , x2* ,..., xk* ) ,
Т
признаки
Mxi* = 0 ,
где
центрировано-
Dxi* = 1
∀i = 1, k .
Выражение z = U T x* связывает главные компоненты с исходными центрированонормированными
признаками.
При
m=k
можно
записать:
x* = (U T ) −1 z = (U −1 ) −1 z = Uz . Найдем выражение, связывающее центрированонормированные главные компоненты с исходными центрировано-нормированными
признаками. Введем в рассмотрение матрицы
1
Λ2
−
иΛ
1
2
:
9
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»


1

Λ2 = 



λ1
0
...
0
λ2
...
...
0
...
0
0
...
Обозначим
T
центрировано-нормированные
−
f = ( f1 , f 2 ,..., f m ) = Λ
полученного
 −1

* 
x = Λ 2U T 




0 

1
0  −2
, Λ
0 
λm 
1
2z
−
=Λ
1
2U T x * ,
Mf j = 0 ,
выражения
−1
Матрица
 1

λ1

 0
=
 ...
 0


T −1
⋅ f = (U )
1
A = Uλ 2
1
Λ2
f = (U )
1
Λ2
f
1
...
Df j = 1
1
= UΛ2
...
λ2
0
...
0
...
главные
вектор
−1 −1
0



0 
.
0 

1
λm 
0
компоненты
через
∀j = 1, m . Выразим из
исходных
признаков:
= Af .
называется матрицей нагрузок и является одной из
важнейших характеристик главных компонент, используемой для интерпретации
новой системы признаков.
Рассмотрим свойства матрицы нагрузок A. Элемент aij , i = 1, k , j = 1, m ,
характеризует:
1)
удельный
вес
влияния
центрировано-нормированной
j-ой
главной
компоненты f j на признак xi* , т.е. xi* = ai1 f1 + ai 2 f 2 + ... + aim f m ;
2) степень тесноты линейной связи между центрировано-нормированным
исходным признаком xi* и j-ой главной компонентой z j , т.е. aij = ρ ( xi* , z j ) .
Отметим еще два свойства матрицы нагрузок A:
1) AT ⋅ A = Σ z , т.е. сумма квадратов элементов j-го столбца матрицы A равна
дисперсии j-ой главной компоненты λ j , j = 1, m ;
2) A ⋅ AT = Σ x , если исходные признаки центрированы и A ⋅ AT = Rx , если
исходные признаки центрировано-нормированы, т.е. при m=k сумма квадратов
элементов i-ой строки матрицы нагрузок А равна 1, i = 1, k .
10
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1.4 Алгоритм оценки главных компонент
Ставится задача на основе выборочных данных, представленных в виде
xij , характеризующими
матрицы X типа «объект-свойство» с элементами
наблюдённое значение признака x j для i-го объекта выборочной совокупности,
i = 1, n , j = 1, k и k велико, снизить размерность признакового пространства методом
главных компонент.
На основе выборочных данных можно найти лишь оценки теоретических
характеристик, рассмотренных ранее. Это влечет за собой проверку ряда
статистических гипотез. Предполагая, что вектор исходных признаков распределен
по
нормальному
закону
x = ( x1 , x2 ,..., xk ) T ∈ N (0, Σ x ) ,
алгоритм
снижения
размерности признакового пространства с использованием метода главных
компонент представлен ниже.
1)
На
основе
матрицы
ковариационная матрица Σ x
центрированных
значений
∧
X
(Σx =
типа
«объект-свойство»
оценивается
1 T
X X , где под X понимается матрица
n
исходных
признаков)
или
матрица
парных
коэффициентов корреляции Rx в случае центрировано-нормированных признаков
∧
x * = ( x1* , x2* ,..., xk* ) T ∈ N (0, Σ x * ) , где Σ x* = R x ( R x =
1 T
X X , где под X понимается
n
матрица центрировано-нормированных значений исходных признаков).
2)
Проверка гипотезы о диагональности матрицы Σ x или незначимости
корреляционной матрицы Rx .
H 0 : cov( xi , x j ) = 0 ∀i, j = 1, k , i ≠ j (ковариационная матрица диагональная),
H 1 : ∃i, j : cov( xi , x j ) ≠ 0 (ковариационная матрица отлична от диагональной).
Для проверки нулевой гипотезы используется статистика:
11
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»




1
6
∧
χ 2 = − n − (2k + 11)  ln R x ,
∧
∧
где
Rx
(6)
– определитель матрицы
∧
∧
∧
∧
R x , равный произведению оценок
∧
собственных чисел матрицы R x : R x = λ1 ⋅ λ2 ⋅ ... ⋅ λk .
Статистика
(6)
при
n→∞
и
справедливости
распределение «Хи-квадрат» с числом степеней свободы ν =
Для
проверки
гипотезы
о
незначимости
гипотезы
H0
имеет
k (k − 1)
[1].
2
корреляционной
матрицы
используется критерий Уилкса.
H 0 : Rx = Еk (корреляционная матрица незначима),
H1 : Rx ≠ Ek (корреляционная матрица отлична от единичной).
Для проверки нулевой гипотезы используется статистика:


1
6


∧
χ 2 = − n − (2k + 5)  ln R x ,
Статистика
(7)
при
n→∞
и
справедливости
распределение «Хи-квадрат» с числом степеней свободы ν =
3)
(7)
гипотезы
H0
имеет
k (k − 1)
[10].
2
Нахождение точечных и интервальных оценок собственных значений
матрицы Σ x или Rx .
Для построения доверительного интервала для собственного числа λi с
вероятностью γ используется следующее асимптотическое свойство: случайная
∧
величина λi при n → ∞ имеет нормальный закон распределения с параметрами
2λi2
(λi ;
) [1].
n −1
12
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Если доверительный интервал какого-то собственного числа содержит внутри
себя оценки для других собственных чисел, то следует заподозрить кратность
(повторение) собственных чисел.
4)
Проверка гипотезы о кратности собственных чисел (если есть на это
основание).
Нулевая гипотеза о равенстве r характеристических корней формулируется
следующим образом:
H 0 : λi = λi +1 = ... = λi + r −1 .
Очевидно, альтернативой этой гипотезе является утверждение, что не все
корни среди λi , λi +1 ,..., λi + r −1 равны между собой.
Для проверки нулевой гипотезы используется следующая статистика:
γ r = −(n − 1)
i + r −1
∑
j =i
∧
 1 i + r −1 ∧ 
ln λ j + (n − 1)r ln ∑ λ j  .
 r j =i



(8)
Статистика (8) в предположении справедливости проверяемой гипотезы и
n→∞
ν=
распределена по закону «Хи-квадрат» с числом степеней свободы
r (r + 1)
− 1 [1].
2
Возможно обобщение асимптотического доверительного интервала на случай
кратных корней [1, с. 548].
5)
Оценка уровня информативности и проверка гипотезы о достаточности m
главных компонент с помощью критерия Бартлетта ( m <
k −1
).
2
Так как на основании выборочных данных можно рассчитать лишь оценку
критерия информативности, то необходимо проверить гипотезу о том, что m
главных компонент вносят существенный вклад в дисперсию исходных признаков.
Нулевая и альтернативная гипотезы формулируются следующим образом:
H 0 : m главных компонент достаточно,
H 1 : m главных компонент недостаточно.
13
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
При m <
k −1
для проверки нулевой гипотезы можно воспользоваться χ 2 2
критерием Бартлетта:


1
6
2
3


χ 2 = − n − (2k + 5) − m  ln Rk − m ,
(9)
∧
Rx
где Rk − m =
∧
∧
∧ 

∧ ∧
∧
 k − λ 1 − λ 2 − ... − λ m 
λ 1 ⋅ λ 2 ⋅ ... ⋅ λ m ⋅ 

k −m




k −m
.
При справедливости нулевой гипотезы статистика (9) имеет распределение
«Хи-квадрат» с числом степеней свободы ν =
1
(
(k − m) 2 − k − m − 1) [10].
2
6)
Построение главных компонент.
7)
Нахождение матрицы нагрузок.
8)
Интерпретация главных компонент.
9)
Нахождение
матрицы
индивидуальных
значений
центрировано-
нормированных главных компонент.
Обозначим матрицу индивидуальных значений центрировано-нормированных
главных компонент следующим образом:



F =


f11
f 21
M
f n1
f12
f 22
M
f n2
K
K
O
K
f1m 

f 2m 
,
M 

f nm 
где f ir - индивидуальное значение r-ой центрировано-нормированной главной
компоненты для i-го объекта выборочной совокупности.
Можно записать: X T = A ⋅ F T . Тогда если m = k , то F T = A −1 X T .
14
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
В общем случае m ≤ k , умножим левую и правую часть выражения
X T = A ⋅ F T на AT слева: AT X T = ( AT A) ⋅ F T . В результате матрица индивидуальных
значений
центрировано-нормированных
главных
компонент
f1 , f 2 ,..., f m
рассчитывается по формуле: F T = ( AT A) −1 AT X T .
1.5 Вопросы и задания, выносимые на практические занятия, по теме
«Метод главных компонент»
1) Сформулируйте постановку задачи снижения размерности признакового
пространства
2) Обоснуйте необходимость и возможность решения задачи снижения
размерности признакового пространства
3) Дайте определение первой, второй, s-ой главной компоненты?
4) Сформулируйте оптимизационную задачу для построения первой главной
компоненты
5) Опишите метод множителей Лагранжа для решения оптимизационной
задачи для построения первой главной компоненты [1, с. 530]
6) Докажите, что Dz1 = λ1 [1, с. 530-531]
7) Сформулируйте оптимизационную задачу для построения второй главной
компоненты и опишите алгоритм её решения [6, с. 322-324; 2, с. 251-252]
8) Сколько всего можно построить главных компонент и каким образом
осуществляется снижение размерности признакового пространства?
9) При
каком
условии
корни
характеристического
уравнения
(4)
удовлетворяют условию λ1 ≥ λ2 ≥ ... ≥ λk > 0 ?
10) В
каком
случае
существуют
нулевые
корни
характеристического
уравнения (4)?
11) Опишите алгоритм нахождения собственных векторов матрицы Σ х в
случае, когда корень характеристического уравнения (4) имеет кратность порядка r
15
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
12) Когда необходимо переходить к центрировано-нормированным признакам
и в чем отличие алгоритмов метода главных компонент по центрированным и
центрировано-нормированным признакам?
13) Найдите основные числовые характеристики главных компонент: Mz , Σ z
[1, с. 531-532]
m
14) Выясните, чему равна
∑ Dz j
при m=k. На основе полученного результата
j =1
запишите, каким образом может быть представлен критерий информативности
I m ( z ( x)) новой системы признаков. Рассмотрите случай, когда исходные признаки
центрировано-нормированные [1, с. 532]
15) Найдите обобщенную дисперсию det Σ z всех m=k главных компонент [1, с.
532; 2 с. 250]
16) Дайте определение матрицы нагрузок
17) Сформулируйте и докажите свойства матрицы нагрузок [1, с. 535-537]
18) Сформулируйте этапы решения задачи оценки главных компонент
19) Опишите алгоритм проверки гипотезы о диагональности матрицы Σ х (о
незначимости матрицы Rх )
20) Поясните случай: Σ х - диагональная матрица
21) Опишите
алгоритм
построения
доверительных
интервалов
для
собственных чисел
22) Опишите алгоритм проверки гипотезы о кратности собственных чисел.
Когда возникает необходимость проверки этой гипотезы?
23) Опишите алгоритм построения доверительного интервала в случае
кратных собственных чисел
24) Опишите алгоритм проверки гипотезы о достаточности m главных
компонент
25) Найдите матрицу индивидуальных значений главных компонент
16
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Практическая часть
2.1 Содержание лабораторной работы
Выполнение лабораторной работы по теме «Метод главных компонент»
состоит из следующих этапов:
− ознакомление с формулировкой задания к лабораторной работе и
порядком её выполнения в пакетах прикладных программ;
− выполнение расчетов на компьютере по данным своего варианта;
− анализ полученных результатов;
− подготовка письменного отчета по лабораторной работе;
− защита лабораторной работы.
2.2 Задание к лабораторной работе
Муниципальные
образования
Оренбургской
области
характеризуются
социально-экономическими показателями, обозначение и наименование которых
приведены в таблице А.1. Значения показателей для 47 муниципальных образований
области за 2008 год приведены в таблице А.2 [5]. Ставится задача на основании
статистических данных по показателям, соответствующим нужному варианту,
(таблица А.3) снизить размерность признакового пространства методом главных
компонент, обеспечив уровень информативности новой системы признаков не ниже
70%.
2.3 Порядок выполнения лабораторной работы в пакете Statistica
Порядок выполнения лабораторной работы рассмотрен на основании данных
нулевого варианта таблицы А.3, включающего следующие показатели для анализа:
17
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
x1 – инвестиции, направленные в жилищное строительство, на душу
населения, руб.;
x2 – ввод в действие жилых домов, кв.м;
x3 – ввод в действие жилых домов на 1000 человек населения, кв.м;
x4 – ввод в действие жилых домов, построенных индивидуальными
застройщиками, кв.м;
x5 – общая площадь жилых помещений, приходящаяся в средней на одного
жителя, кв.м.
Поскольку исходные признаки отличаются масштабом измерения, то будем
рассматривать вектор центрировано-нормированных признаков x* = ( x1* , x2* ,..., xk* )T и
на основе исходной матрицы данных X рассчитаем оценку корреляционной матрицы
∧
R x . Для этого запустим пакет Statistica и введем исходных данные (вид экрана
представлен на рисунке 1). Объекты, для которых значения хотя бы одного признака
отсутствуют, исключены из рассмотрения. Для нулевого варианта таким объектом
оказался Светлинский район.
Рисунок 1 – Исходные данные для анализа в пакете Statistica
18
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Для расчета выборочных значений коэффициентов корреляции для каждой
пары
признаков
необходимо
выбрать
пункты
меню
«Statistics»,
«Basic
Statistics/Tables» (рисунок 2).
Рисунок 2 – Пункты меню для расчета выборочных значений коэффициентов
корреляции
В появившейся на экране форме (рисунок 3) необходимо выбрать пункт
«Correlation matrices» и нажать кнопку «ОК».
Рисунок 3 – Форма «Basic Statistics/Tables»
Далее на форме, представленной на рисунке 4, нажать кнопку «One variable
list» для отбора признаков для анализа.
19
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Рисунок 4 – Форма расчета коэффициентов корреляции
Для расчета коэффициентов корреляции между каждой парой признаков в
окне, представленном на рисунке 5, необходимо выбрать столбцы со значениями
признаков и нажать кнопку «ОК».
Рисунок 5 – Окно выбора признаков для расчета коэффициентов корреляции
Затем в форме, представленной на рисунке 4, нажать кнопку «Summary:
Correlations». Результаты расчета корреляционной матрицы представлены на
рисунке 6.
Рисунок 6 – Результаты расчета корреляционной матрицы
20
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Оценка корреляционной матрицы принимает следующее значение:
 1

 0,334
∧
R x =  0,908

 0,527
 0,021

0,334 0,908 0,527 0,021 

1
0,456 0,937 0,083 
0,456
1
0,613 0,190  .

0,937 0,613
1
0,078 
0,083 0,190 0,078
1 
Далее согласно алгоритму, описанному в пункте 1.4, предполагая, что выборка
извлечена из нормально распределенной генеральной совокупности, на уровне
значимости α = 0,05 проверим гипотезу о незначимости корреляционной матрицы.
H 0 : Rx = Е ;
H1 : Rx ≠ E .
Для расчета наблюдаемого значения статистики (7) воспользуемся пакетом
Mathcad. Порядок расчетов представлен на рисунке 7.
Рисунок 7 – Нахождение наблюдаемого значения статистики (7) в пакете Mathcad
2
Наблюдаемое значение статистики (7) составило χ набл
= 211,638 . Критические
2
2
значения статистики (7) χ кр
1 и χ кр 2 определяются из уравнений:
21
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2
P( χ 2 < χ кр
1) =
α
2
P( χ 2 > χ кр
2) =
2
α
2
,
.
α
 α
2
2
Получаем, χ кр
1 – это 100 ⋅ 1 − % -ая точка, χ кр 2 – это 100 ⋅ % -ая точка
2
 2
распределения «Хи-квадрат» с числом степеней свободы ν =
k (k − 1)
. Для
2
нахождения этих точек можно воспользоваться функцией ХИ2ОБР(вероятность; ν )
пакета Excel. Критические точки принимают следующие значения:
2
−1
χ кр
1 = Pi (0,975;10) = 3,25,
2
−1
χ кр
2 = Pi (0,025;10) = 18,31.
2
2
Так как χ набл
> χ кр
2 , то гипотеза H 0 отвергается, корреляционная матрица
значима.
В пакете Mathcad (рисунок 7) были рассчитаны оценки собственных чисел
∧
матрицы
Rx :
∧
∧
∧
∧
∧
λ 1 = 2,913 ; λ 2 = 1,005 ; λ 3 = 0,972 ; λ 4 = 0,072 ; λ 5 = 0,038 . С
вероятностью γ = 0,95 построим доверительные интервалы для собственных чисел.
Доверительный интервал для i-ого собственного числа λi при большом объеме
выборки имеет вид:
∧
∧
λi
1 + u1+γ
2
2
⋅
n −1
где u1+γ – квантиль уровня
2
λi
< λi <
1 − u1+γ
2
2
⋅
n −1
,
1+ γ
стандартного нормального распределения;
2
22
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
n – объем выборки.
Квантиль уровня q можно найти с помощью функции НОРМСТОБР(q) пакета
Excel. Получаем: u 0,975 = 1,96 . Доверительные интервалы для собственных чисел
имеют вид:
2,061 < λ1 < 4,964;
0,711 < λ2 < 1,713,
0,688 < λ3 < 1,656;
0,051 < λ4 < 0,123;
0,027 < λ5 < 0,065.
∧
Так как λ 2 попадает в доверительный интервал для λ3 и наоборот, то есть
основание заподозрить кратность второго и третьего собственных чисел. Однако так
как собственные числа корреляционной матрицы являются дисперсиями главных
компонент, то оценка уровня информативности первых дух главных компонент
составляет
I 2 ( z ( x)) =
2,913 + 1.005
⋅ 100% = 78,38% ,
5
что
превышает
требуемый
уровень 70%. В связи с тем, что выделение третьей главной компоненты, возможно,
не потребуется, этап проверки кратности собственных чисел λ2 и λ3 реализован не
будет.
Гипотезу о достаточности двух главных компонент проверить с помощью
статистики (9) не представляется возможным, так как не выполнено условие
m<
k −1
.
2
Для построения главных компонент в пакете Statistica необходимо выполнить
следующие действия:
1) выбрать пункт меню «Statistics», подпункты «Multivariate Exploratory
Techniques», «Factor Analysis» (рисунок 8);
23
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Рисунок 8 – Выпор пунктов меню для реализации методов снижения размерности
признакового пространства в пакете Statistica
2) в появившейся форме для отбора признаков для анализа нажать кнопку
«Variables», выбрать все признаки (1-5) и нажать кнопку «ОК» на текущей и
предыдущей формах (рисунок 9);
Рисунок 9 – Выбор исходных признаков для построения новых факторов в пакете
Statistica
24
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3) в появившейся форме выбора метода построения факторов на странице
«Advanced»
в
группе
радио-кнопок
установить
«Principal
components»
(компонентный анализ), в полях «Максимальное число факторов» и «Минимальное
собственное число» ввести значения 5 и 0 соответственно, что даст возможность
построения всех возможных главных компонент. Вид формы представлен на
рисунке 10;
4) на текущей форме нажать кнопку «OK», после чего на экране появится
форма со значениями оценок собственных чисел (eigenvalues), расположенных по
убыванию. Вид формы представлен на рисунке 11.
Рисунок 10 – Выбор метода построения факторов в пакете Statistica
25
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Рисунок 11 – Результаты расчета оценок собственных чисел корреляционной
матрицы в пакете Statistica
Для определения вклада каждой главной компоненты в суммарную дисперсию
исходных признаков на форме «Factor Analysis Results» (рисунок 11) необходимо
нажать кнопку «Eigenvalues». На экране появится таблица, представленная на
рисунке 12.
Рисунок 12 – Вклады главных компонент в суммарную дисперсию исходных
признаков, рассчитанные в пакете Statistica
В первом столбце таблицы приведены оценки собственных чисел, в третьем
столбце – накопленные значения собственных чисел, во втором и в четвертом
столбцах – относительный вклад каждой главной компоненты в суммарную
дисперсию и накопленный относительный вклад соответственно.
26
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
∧
Для расчета собственных векторов матрицы R x необходимо на странице
«Scores» формы «Factor Analysis Results» (рисунок 11) выбрать кнопку «Factor scores
coefficients». На экране появится таблица, представленная на рисунке 13.
Рисунок 13 – Результаты расчета собственных векторов корреляционной матрицы в
пакете Statistica
После проведения нормировки собственных векторов получаем следующую
матрицу коэффициентов линейного преобразования центрировано-нормированных
исходных признаков x *j ( j = 1,5 ):
0,543 − 0,611 0,277 
 0,473 0,175


0
,
469
−
0
,
341
−
0
,
482
0
,
130
0
,
644



U = 0,516 0,261
0,348
0,727 − 0,124  .


0
,
529
−
0
,
266
−
0
,
303
−
0
,
254
−
0
,
702


 0,098 0,845 − 0,510 − 0,125 0,019 


При снижении размерности признакового пространства до двух главных
компонент следует рассматривать только два первых столбца матрицы U .
Главные компоненты связаны с центрировано-нормированными исходными
признаками следующими линейными комбинациями:
z1 = 0,473 x1* + 0,469 x2* + 0,516 x3* + 0,5291x4* + 0,098 x5* ,
z 2 = 0,175 x1* − 0,341x2* + 0,261x3* − 0,2663x4* + 0,845 x5* .
27
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Для интерпретации новых признаков необходимо провести анализ матрицы
факторных нагрузок. Для этого на странице «Loadings» формы «Factor Analysis
Results» (рисунок 11) необходимо нажать кнопку «Factor loadings». На экране
появится таблица, представленная на рисунке 14.
Рисунок 14 – Результаты расчета элементов матрицы факторных нагрузок в пакете
Statistica
Так как расчеты проводятся на основании корреляционной матрицы, то
элементы матрицы факторных нагрузок являются коэффициентами корреляции
исходных признаков и главных компонент. Как видно из таблицы, между
исходными признаками и
последними тремя главными компонентами не
наблюдается тесной связи. Это подтверждает правильность выделения только двух
первых главных компонент. Матрица факторных нагрузок имеет размерность вид:



A=




0,808
0,800
0,881
0,903
0,168
0,176 

− 0,341 
0,261  .

− 0,267 
0,847 
28
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Первая главная компонента тесно положительно связана (коэффициент
корреляции больше 0,7) с четырьмя исходными признаками: x1 (инвестиции,
направленные в жилищное строительство), x2 (ввод в действие жилых домов), x3
(ввод в действие жилых домов на 1000 человек населения), x4 (ввод в действие
жилых домов, построенных индивидуальными застройщиками). Поэтому первую
главную
компоненту
можно
интерпретировать
как
«Показатель
состояния
инвестиционно-строительной деятельности». Вторая главная компонента тесно
положительно связана с признаком x5 (общая площадь жилых помещений,
приходящаяся в средней на одного жителя), поэтому вторую главную компоненту
можно интерпретировать «Обеспеченность жильем».
График расположения признаков на плоскости, образованной построенными
главными компонентами, можно получить нажатием на кнопку «Plot of loadings,
2D». График представлен на рисунке 9.
Рисунок 9 – График расположения признаков на плоскости, образованной главными
компонентами, построенный в пакете Statistica
По расположению исходных признаков на плоскости можно сделать вывод
об отсутствии необходимости во вращении осей, образованных главными
компонентами.
29
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Центрировано-нормированные исходные признаки связаны с центрированонормированными главными компонентами f1 , f 2 следующими выражениями:
x1* = 0,809 f1 + 0,176 f 2 ;
x2* = 0,800 f1 − 0,341 f 2 ;
x3* = 0,881 f1 + 0,261 f 2 ;
x4* = 0,903 f1 − 0,267 f 2 ;
x5* = 0,168 f1 + 0,847 f 2 .
Для
расчета
матрицы
индивидуальных
значений
центрировано-
нормированных главных компонент необходимо на странице «Scores» формы
«Factor Analysis Results» выбрать кнопку «Factor scores». На экране появится
таблица, представленная на рисунке 10.
Рисунок 10 – Фрагмент матрицы индивидуальных значений центрированонормированных главных компонент
30
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Следует заметить, что относительный вклад первой главной компоненты в
суммарную дисперсию исходных признаков превышает 55%. Это дает возможность
рассматривать первую главную компоненту как интегральный показатель состояния
инвестиционно-строительной
деятельности,
по
индивидуальным
значениям
которого можно провести ранжирование муниципальных образований области [2].
Фрагмент результатов ранжирования городов и районов Оренбургской области по
убыванию индивидуальных значений f1 представлен в таблице 1.
Таблица 1 – Фрагмент результатов ранжирования муниципальных образований
Оренбургской области по убыванию значения интегрального показателя состояния
инвестиционно-строительной деятельности
Значение
Ранг
Наименование
интегрального
города/района
показателя
2
3
1
1
г.Оренбург
4,36570
2
Оренбургский р-н
3,40431
3
г.Бузулук
1,14743
4
г.Соль-Илецк
1,11185
5
Новоорский р-н
0,87841
6
г.Орск
0,55401
7
Октябрьский р-н
0,54557
8
г.Сорочинск
0,46426
9
Ташлинский р-н
0,36569
10
Саракташский р-н
0,36107
……………………………………………………………..
37
Бугурусланский р-н
-0,56056
38
Домбаровский р-н
-0,59914
39
Кваркенский р-н
-0,62661
31
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Продолжение таблицы 1
1
2
3
40
Сорочинский р-н
-0,71610
41
г.Медногорск
-0,73112
42
Переволоцкий р-н
-0,86419
43
Акбулакский р-н
-0,86651
44
Александровский р-н
-1,06872
45
Ясненский р-н
-1,08782
46
Соль-Илецкий р-н
-1,26844
В таблице 1 видны 10 «лучших» и 10 «худших» городов и районов
Оренбургской области с точки зрения построенного методом главных компонент
интегрального показателя состояния инвестиционно-строительной деятельности.
2.4 Порядок выполнения лабораторной работы в пакете Stata
Для ввода исходных данных в пакет Stata необходимо выбрать пункты меню
Data, Data Editor (рисунок 11). На экране появится пустая таблица, в которую
данные можно вводить вручную или скопировать через буфер обмена. При вводе
данные следует учесть, что по умолчанию в пакете Stata дробная часть отделяется от
целой части точкой, а не запятой.
Рисунок 11 – Выбор пунктов меню для открытия таблицы с исходными данными
32
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Фрагмент таблицы с исходными данными представлена на рисунке 12. Для
удобства столбцам таблицы даны свои названия, это можно сделать двойным
щелчком левой кнопки мыши на любой ячейке нужного столбца. Названия вводятся
латинскими буквами.
Для реализации метода главных компонент необходимо выбрать пункты меню
«Statistics», «Multivariate analysis», «Factor and principal component analysis»,
«Principal component analysis» (рисунок 13).
Рисунок 12 – Фрагмент таблицы с исходными данными в пакете Stata
Рисунок 13 – Выбор пунктов меню для реализации метода главных компонент
33
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
На экране появится форма, представленная на рисунке 14. В поле «Variables»
необходимо указать названия признаков (х1, х2, х3, х4, х5).
Рисунок 14 – Форма установки параметров метода главных компонент
После
нажатия
на
кнопку
«ОК»
на
экране
появятся
результаты,
представленные на рисунке 15.
Рисунок 15 – Результаты реализации метода главных компонент
Результаты содержат оценки собственных чисел, относительные вклады и
накопленные относительные вклады главных компонент в суммарную дисперсию
исходных признаков, а также коэффициенты линейного преобразования исходных
центрировано-нормированных признаков.
34
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Для построения графика расположения признаков на плоскости, образованной
построенными главными компонентами, необходимо выбрать пункты меню
«Statistics», «Multivariate analysis», «Factor and principal component analysis»,
«Postestimation», «Loading plot». График представлен на рисунке 16.
Рисунок 16 – График расположения признаков на плоскости, образованной
главными компонентами, построенный в пакете Stata
Для построения графика расположения объектов на плоскости, образованной
построенными главными компонентами, необходимо выбрать пункты меню
«Statistics», «Multivariate analysis», «Factor and principal component analysis»,
«Postestimation», «Score variables plot». График представлен на рисунке 17.
Рисунок 17 – График расположения объектов на плоскости, образованной главными
компонентами
35
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Весь описанный алгоритм реализации дискриминантного анализа в пакете
Stata можно выполнить с помощью четырех команд, которые в диалоговом режиме
работы автоматически отражаются в специальном окне Review, представленном на
рисунке 18.
Рисунок 18 – Команды для реализации метода главных компонент
Дополнительные возможности при реализации метода главных компонент
можно получить, выбрав страницу «Model 2» на форме, представленной на рисунке
14, и установив галочку в последнем поле (рисунок 19).
Рисунок 19 – Установки для получения дополнительных возможностей реализации
метода главных компонент
После нажатия на кнопку «ОК» будут получены результаты, представленные
на рисунке 20.
36
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Рисунок 20 – Результаты дополнительных расчетов в пакете Stata
На рисунке 20 представлены доверительные интервалы для собственных чисел
и коэффициентов линейного преобразования исходных признаков, а также
результаты проверки гипотезы о незначимости корреляционной матрицы («LR test
for independence»).
2.5 Порядок выполнения лабораторной работы с помощью надстройки
AtteStat табличного процессора Microsoft Excel
Для реализации метода главных компонент c помощью надстройки AtteStat
пакета Excel необходимо ввести исходные данные в первые пять столбцов таблицы,
затем выбрать пункт основного меню «AtteStat», подпункты «Модуль FAA –
Факторный анализ», «Факторный анализ». Вид экрана представлен на рисунке 21.
Далее необходимо заполнить появившуюся на экране форму «Факторный
анализ». В поле «Интервал данных» указываются ячейки с исходными данными, в
поле «Интервал вывода» указывается ячейка, с которой начнется вывод результатов.
Вид заполненной формы представлен на рисунке 22.
37
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Рисунок 21 – Выбор пунктов меню в пакете Excel для реализации метода главных
компонент
Рисунок 22 – Образец заполнения формы «Факторный анализ» для реализации
методы главных компонент
38
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
С помощью кнопки «Выполнить расчет» в таблице с исходными данными
появятся результаты, представленные на рисунке 23.
Рисунок 23 – Результаты реализации методы главных компонент c помощью
надстройки AtteStat пакета Excel
Результаты включают оценку корреляционной матрицы; матрицу нагрузок;
относительный вклад каждой главной компоненты в суммарную дисперсию
исходных признаков, а также накопленные вклады; матрицу нагрузок после
ортогонального вращения методом Варимакс [10].
2.6 Содержание письменного отчета
Отчет должен быть оформлен на листах формата А4 с титульным листом,
оформленным соответствующим образом, и содержать следующее:
1) постановку задачи;
2) исходные данные для анализа;
39
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3) краткое изложение теории;
4) результаты выполнения лабораторной работы.
2.7 Вопросы к защите лабораторной работы
1) Сформулируйте постановку задачи лабораторной работы
2) Чему равны вклад и относительный вклад третьей главной компоненты в
суммарную дисперсию исходных признаков?
3) Каков уровень информативности первых трех главных компонент?
4) Сколько главных компонент нужно построить для достижения уровня
информативности 100%?
5) Каким
образом
на
основании
собственных
векторов
рассчитаны
коэффициенты линейного преобразования исходных признаков?
6) Чему равен коэффициент корреляции между первой главной компонентой
и четвертым исходным признаком?
7) Ранжируйте исходные признаки по убыванию удельного веса их влияния
на формирование первой главной компоненты
8) Каким образом дается интерпретация главных компонент?
9) В каком случае первую главную компоненту можно рассматривать как
интегральный показатель?
10) Чему равны индивидуальные значения первой и второй главных
компонент для Бузулукского района?
40
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Список использованных источников
1
Айвазян, С.А. Прикладная статистика. Основы эконометрики: учебник для
вузов: в 2 т. / С.А. Айвазян, В.С. Мхитарян. – М.: ЮНИТИ-ДАНА, 2001. – Т. 1:
Теория вероятностей и прикладная статистика. – 656 с.
2
Айвазян, С. А. Эмпирический анализ синтетических категорий качества
жизни населения / С.А. Айвазян // Экономика и математические методы. – 2003. – Т.
39, № 3. – C. 19 −53.
3
Большаков, А. А. Методы обработки многомерных данных и временных
рядов: учеб. пособие для вузов / А. А. Большаков, Р. Н. Каримов. - М.: Горячая
линия - Телеком, 2007. - 522 с.
4
Боровиков, В.П. STATISTICA – Статистический анализ и обработка
данных в среде Windows / В.П. Боровиков, И.П. Боровиков. – М.: Инф. изд. дом
«Филин», 1998. – 608 с.
5
Города и районы Оренбургской области: Стат.сб./Территориальный орган
Федеральной службы государственной статистики по Оренбургской области. –
Оренбург. 2009. – 285 с.
6
Джонстон, Дж. Эконометрические методы / Дж. Джонстон; пер. с англ. и
предисл. А.А. Рывкина. – М.: Статистика, 1980. – 444 с.
7
Дубров,
А.М.
Многомерные
статистические
методы:
учебник
/
А.М. Дубров, В.С. Мхитарян, Л.И. Трошин. – М.: Финансы и статистика, 1998. –
352 с.
8
Ниворожкина, Л. И. Многомерные статистические методы в экономике:
учеб. для студентов вузов / Л. И. Ниворожкина, С. В. Арженовский. - М.: Дашков и
К; Ростов-на-Дону: Наука-Спектр, 2009. – 224 с.
9
Реннер, А.Г. Снижение размерности признакового пространства: метод.
указ. к лаб. практикуму и самостоят. работе студентов / А.Г. Реннер, О.С. Бравичева.
– Оренбург: ОГУ, 2005. - 29 с.
41
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
10 Сошникова, Л.А. Многомерный статистический анализ в экономике: учеб.
пособие для вузов / Л.А. Сошникова, В.Н. Тамашевич, Г.Е. Уебе, М. Шефер. – М.:
ЮНИТИ, 1999. – 598 с.
11 Тюрин,
Ю.Н.
Статистический
анализ
данных
на
компьютере
/
Ю.Н. Тюрин, А.А. Макаров; под ред. В.Э. Фигурнова. – М.: ИНФРА-М, 1998. –
528 с.
42
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Приложение А
(обязательное)
Исходные данные для анализа
Таблица А.1 – Обозначение и наименование показателей
Обозначение
Наименование показателя
инвестиции, направленные в жилищное строительство, на душу
x1
населения, руб.
x2
ввод в действие жилых домов, кв.м
x3
ввод в действие жилых домов на 1000 человек населения, кв.м;
ввод в действие жилых домов, построенных индивидуальными
x4
застройщиками, кв.м
общая площадь жилых помещений, приходящаяся в среднем на
x5
одного жителя, кв.м
x6
инвестиции, направленные в жилищное строительство, тыс. руб.
x7
объем бытовых услуг на душу населения, руб.
x8
объем бытовых услуг населению, тыс. руб.
x9
среднесписочная численность работников, человек
среднемесячная номинальная начисленная заработная плата
x10
работников, руб.
x11
средний размер назначенных месячных пенсий, руб.
x12
число дошкольных образовательных учреждений
численность воспитанников в дошкольных образовательных
x13
учреждениях, человек
x14
число дневных общеобразовательных учреждений
численность учащихся дневных общеобразовательных
x15
учреждений, человек
x16
число учреждений культурно-досугового типа
число мест в учреждениях культурно-досугового типа на 1000
x17
человек населения
x18
число общедоступных библиотек
43
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Таблица А.2 – Значения социально-экономических показателей для муниципальных образований Оренбургской области
за 2008 год
№
п/п
(1)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Наименование
города/района
(2)
Абдулинский
Адамовский
Акбулакский
Александровский
Асекеевский
Беляевский
Бугурусланский
Бузулукский
Гайский
Грачевский
Домбаровский
Илекский
Кваркенский
Красногвардейский
Кувандыкский
Курманаевский
Матвеевский
Новоорский
Новосергиевский
Октябрьский
Оренбургский
Первомайский
Переволоцкий
Пономаревский
Сакмарский
Саракташский
Светлинский
Северный
Соль-Илецкий
Сорочинский
x1
x2
x3
x4
x5
(3)
4559,3
5265,6
2853,3
1033,6
4415,8
3576,2
1955,9
3129,6
4539
4148,9
2824,3
3993,6
2613,9
4475
6072,6
3164,7
2934,5
6977,6
4275,5
6648,2
16552,1
3837,1
1630,9
5551
6311
6073,3
4393
493,1
2166,5
(4)
3168
10525
2400
1203
6045
4135
4978
6456
3095
3703
3368
6888
3447
6233
4667
3587
2566
16519
9343
10583
69133
6618
2921
5557
11570
16115
2458
4500
637
1999
(5)
268,5
352
80,8
62,3
266,3
213,1
226,3
192,7
281,4
250,2
180,1
240,8
163,4
269,8
207,4
181,2
177
521,1
253,2
474,6
924,2
231,4
98,4
334,8
380,6
370,5
145,4
263,2
23,2
130,7
(6)
2884
9142
2400
1203
6045
4135
2595
6120
3011
3703
1656
6888
3274
6233
4667
3587
2566
11264
9299
7419
41983
6618
2921
5557
11570
13990
4500
637
1999
(7)
24,9
19,9
17,4
18,9
20,4
18,4
20,9
20,2
21,4
23,2
20,6
18,9
20,2
21,3
18,3
22
21,5
25,4
21,9
22,3
20,4
18,3
19,9
23,3
19,2
18,6
21,4
20,9
17
21,9
x6
x7
x8
x9
(8)
(9)
(11)
(10)
53800
180
2124
1664
157441 427,7 12788 7942
84744
312,8 9291
4778
19948
203,4 3926
3171
100239 156,4 3550
4344
69379
145
2813
3536
43031
156,9 3453
3265
104843 258,2 8651
6373
49929
111,5 1226
2772
61404
289,7 4288
3094
52814
179,2 3350
3301
114218 171,9 4917
5071
55153
216,8 4575
4558
103374 352,3 8138
4381
136633 251,1 5650
3869
62661
189,3 3749
3873
42550
124,5 1805
2070
221190 377,6 11968 6203
157768 269,4 9940
9107
148254 167,4 3733
5364
1238097 3065,2 229274 25725
109741 101,4 2899
5557
48436
347,2 10312 5254
92147
181,2 3008
2444
191856 193,6 5886
5050
264188 222,8 9691
8971
135,3 2287
4235
75120
174
2976
3460
13510
157,2 4306
4229
33148
79,2
1212
3484
x10
x11
x12
x13
x14
x15
x16
x17
x18
(12)
6844
8102
6897
7933
6601
7600
8359
8846
10441
9173
9890
7422
7024
8905
6481
9907
8154
12340
9065
9239
18439
9467
7516
8703
9007
7889
9575
8569
6731
7910
(13)
3643
3725
3882
3883
3713
3845
3962
3763
4029
3601
3836
3669
3896
4042
3918
3916
3843
3968
3939
3698
3947
3930
3920
3926
3868
3896
3784
-
(14)
1
14
13
14
9
8
4
21
14
12
9
10
11
17
16
15
2
17
14
8
50
26
16
4
7
20
8
9
13
19
(15)
38
916
832
414
468
591
269
690
346
440
718
583
547
583
442
574
359
1462
776
487
2903
1383
779
369
742
1335
517
470
600
474
(16)
26
33
42
38
40
29
33
38
28
18
18
23
36
40
44
24
19
21
58
25
52
49
38
18
19
44
12
31
37
26
(17)
1131
3858
3524
2212
2600
2179
2167
3410
1278
1649
2501
3189
2856
3045
2702
2169
1614
3907
4398
2346
7883
3979
3318
1712
3071
4798
1928
1925
3720
1927
(18)
35
31
29
38
43
28
36
49
29
21
21
19
29
43
34
33
29
21
52
26
40
38
34
24
18
48
12
35
35
32
(19)
513
198
185
417
324
229
285
246
386
260
147
182
323
297
287
351
330
125
243
187
124
253
242
324
127
219
84
314
267
382
(20)
25
20
21
27
28
21
30
39
17
17
17
21
21
34
31
27
21
18
33
23
36
30
27
22
20
35
11
30
29
24
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Продолжение таблицы А.2
(1)
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
(2)
Ташлинский
Тоцкий
Тюльганский
Шарлыкский
Ясненский
г.Абдулино
г.Бугуруслан
г.Бузулук
г.Гай
г.Кувандык
г.Медногорск
г.Новотроицк
г.Оренбург
г.Орск
г.Соль-Илецк
г.Сорочинск
г.Ясный
(3)
6295,6
2880,3
3083,7
4949,7
1714,4
5016,9
3555,4
10262,6
3436,2
5866,1
2302,6
2758,7
7639,9
2791,1
11293,5
5730,8
4417,1
(4)
10137
7000
4359
5516
182
6293
18944
34381
14667
9976
3471
16520
324103
51430
14515
13700
6337
(5)
379,7
173,7
185,5
269,1
27,6
302,5
359,5
385,9
362,1
353,8
108,8
151
600
206
549,8
469,2
243,7
(6)
10137
7000
4359
5516
182
6293
10060
22630
6566
9976
1746
9419
84981
36911
12883
9832
6337
(7)
21,4
18,2
19,9
21,2
19,1
22,3
20,9
20,1
21,4
18,8
22,2
20,7
21,3
22,2
16,5
20,6
18,6
(8)
(9)
(10)
168093 184,9 4936
116075 218,6 8810
72468
279,8 6575
101468 144,2 2955
11315
60,7
401
104352 338,5 7040
187368 917,9 48372
914393 928,6 82735
139165 647,1 26207
165424 302,7 8535
73452
308,4 9838
301797 411,2 44989
4127092 1415,7 764757
696940 1117,6 279071
298149
475
12539
167339 300,2 8767
114844 393,5 10230
(11)
7046
4866
4895
4097
2080
4904
13607
27549
13853
5574
7675
40800
166427
64561
7301
5950
8157
(12)
6223
8513
7713
7900
10116
11221
12772
16348
14791
9829
10516
14167
15940
12428
11261
12267
11366
(13)
3821
3852
3901
3850
3973
4342
4328
4431
3915
4391
4504
4409
4364
4020
3923
45
(14)
24
11
11
7
3
5
18
27
10
9
11
38
127
61
9
10
7
(15)
952
982
837
346
118
712
2270
3669
1845
1116
978
4996
23288
9951
1184
1395
1639
(16)
46
35
25
34
12
8
8
14
9
7
13
23
96
53
8
7
4
(17)
3326
3443
2645
2160
779
2572
5227
8088
4259
3082
2852
10114
49828
23585
3652
3402
2789
(18)
41
34
22
35
18
1
3
3
2
1
7
8
14
12
8
2
3
(19)
246
190
192
279
306
16
8
13
34
14
36
19
12
9
28
23
31
(20)
28
25
22
29
10
4
10
10
4
7
12
11
32
15
6
5
2
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Таблица А.3 – Варианты заданий
Номер варианта
Набор показателей
(1)
0
1
2
3
4
5
6
7
8
9
10
11
12
(2)
x1 , x2 , x3 , x4 , x5
x2 , x4 , x5 , x6 , x8
x1 , x2 , x3 , x4 , x5
x7 , x8 , x9 , x10 , x11
x1 , x2 , x8 , x9 , x10
x3 , x6 , x7 , x9 , x10
x4 , x5 , x7 , x10 , x11
x12 , x13 , x14 , x15 , x16
x12 , x13 , x14 , x15 , x17
x12 , x13 , x16 , x17 , x18
x14 , x15 , x16 , x17 , x18
x12 , x14 , x16 , x17 , x18
x13 , x15 , x16 , x17 , x18
46
Документ
Категория
Без категории
Просмотров
8
Размер файла
656 Кб
Теги
392
1/--страниц
Пожаловаться на содержимое документа