Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Многомерный статистический анализ. Часть 2

Покупка
Артикул: 797222.01.99
Доступ онлайн
2 000 ₽
В корзину
В методическом пособии рассмотрены многомерные методы статистического анализа данных. Основное внимание уделено ряду важных вопросов снижения размерности в многомерном пространстве данных. Пособие предназначено для студентов, обучающихся в магистратуре по направлению подготовки 09.04.01 «Информатика и вычислительная техника», а также для изучающих информационные технологии. Будет полезно для студентов при подготовке выпускной квалификационной работы и магистерской диссертации.
Гончаренко, А. Н. Многомерный статистический анализ. Часть 2 : методическое пособие / А. Н. Гончаренко. - Москва : Издательский Дом НИТУ «МИСиС», 2022. - 70 с. - Текст : электронный. - URL: https://znanium.com/catalog/product/1914790 (дата обращения: 28.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Москва 2022

М ИНИС ТЕРС ТВО НАУКИ И ВЫСШ ЕГО О Б РА З О ВА Н И Я РФ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ «МИСиС»

ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И АВТОМАТИЗИРОВАННЫХ СИСТЕМ 
УПРАВЛЕНИЯ

Кафедра автоматизированных систем управления

А.Н. Гончаренко

МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ 
АНАЛИЗ

Часть 2

Методическое пособие

Рекомендовано редакционно-издательским 
советом университета

№ 4682

УДК 65.011.56 
 
Г65

Р е ц е н з е н т 
канд. техн. наук, доц. Д.В. Калитин

Гончаренко, Алексей Николаевич.
Г65  
Многомерный статистический анализ. Часть 2 : метод. 
пособие / А.Н. Гончаренко. – Москва : Издательский Дом 
НИТУ «МИСиС», 2022. – 70 с.

В методическом пособии рассмотрены многомерные методы статистического 
анализа данных. Основное внимание уделено ряду 
важных вопросов снижения размерности в многомерном пространстве 
данных.
Пособие предназначено для студентов, обучающихся в магистратуре 
по направлению подготовки 09.04.01 «Информатика и вычис-
лительная техника», а также для изучающих информационные тех-
нологии. Будет полезно для студентов при подготовке выпускной 
квалификационной работы и магистерской диссертации.

УДК 65.011.56

 Гончаренко А.Н., 2022
 НИТУ «МИСиС», 2022

СОДЕРЖАНИЕ

Введение ........................................................................ 4
2. Снижение размерности ................................................ 5
2.1. Многомерное пространство переменных ................... 5
2.2. Измерение латентных переменных. Семантический 
дифференциал ........................................................... 13
2.3. Метод главных компонент .................................... 20
2.4. Факторный анализ .............................................. 39
2.5. Многомерное шкалирование и анализ  
соответствий ............................................................. 50
Заключение ................................................................. 67
Библиографический список ............................................ 68

ВВЕДЕНИЕ

Данное методическое пособие является логическим про-
должением теоретического материала, изложенного в первой 
части, в рамках дисциплины «Многомерный статистический 
анализ». Основное внимание уделяется моделям анализа дан-
ных, условиям их применения, особенностям представления 
данных и интерпретации результатов. Подробно рассматри-
ваются методология количественных исследований и методы 
статистического анализа данных, а также раскрывается ряд 
важных вопросов снижения размерности в многомерном про-
странстве данных.
Для более четкого и правильного усвоения теоретический 
материал наполнен примерами на основе полученных данных 
в методическом пособии «Многомерный статистический ана-
лиз. Часть 1», что позволяет понять взаимосвязь применения 
различных методов и сформировать наиболее полную и целост-
ную картину знаний по изучаемой дисциплине.
В качестве информации, позволяющей расширить кругозор 
студентов и вызвать интерес к углубленному изучению дисци-
плины, в учебно-методическом пособии представлен дополни-
тельный материал в разделе «Библиографический список».

2. СНИЖЕНИЕ РАЗМЕРНОСТИ

2.1. Многомерное пространство 
переменных

Многомерное пространство переменных: геометрическая 
интерпретация. В количественных социологических иссле-
дованиях любой объект из изучаемой совокупности обладает 
множеством различных свойств, фиксируемых с помощью из-
меряемых переменных. Многомерность описания социологических 
объектов осложняет анализ данных и интерпретацию 
полученных результатов.
Одним из инструментов решения этой проблемы является 
геометрическая интерпретация набора используемых 
переменных, представление его в виде многомерного геометрического 
пространства. Переменные x1, x2 ... xk выступают 
в качестве осей этого пространства. Размерность пространства 
равна количеству переменных k. Углы между осями задаются 
соответствующими коэффициентами корреляций, 
а именно косинус угла между двумя переменными xi и xj 
(i, j = 
1, k) равен коэффициенту корреляции между ними: 
cos(xi, xj) = ri, j. В частности, если коэффициент корреляции 
между двумя переменными равен нулю, они образуют прямой 
угол (cos90° = 0); коэффициент корреляции, равный +1, 
порождает угол, равный 0°, т.е. оси практически совпадают; 
коэффициент корреляции, равный –1, порождает угол,  
равный 180°.
Таким образом, матрица корреляций полностью описывает 
структуру пространства переменных: чем выше корреляция 
между переменными, тем ближе они расположены друг 
к другу (рис. 2.1). Рекомендуется рассматривать пространства 
из переменных, имеющих одинаковый уровень измере-
ния – количественный, квазиинтервальный или дихотомиче-
ский.
Объекты из выборки изображаются в пространстве в виде 
точек, координатами которых служат значения соответствую-
щих переменных. Рассмотрим это в наиболее простом для изо-
бражения двумерном пространстве (рис. 2.2).

Рис. 2.1. Многомерное пространство переменных

Рис. 2.2. Европейские страны в пространстве двух переменных

Пример 1.1 (продолжение)1

Построим двумерное пространство, используя в качестве 
осей переменные «ВВП» (валовой национальный продукт на 
душу населения) и «рождаемость» (на 1000 жителей). В каче-
стве объектов в данном пространстве разместим европейские 
страны, для которых измерены соответствующие статистиче-

1 Гончаренко А.Н. Многомерный статистический анализ. Часть 1 : метод. 
пособие. М. : Издательский Дом НИТУ «МИСиС», 2022.

ские показатели. Коэффициент корреляции между перемен-
ными r = 0,08, т.е. переменные практически не коррелируют 
и угол между ними близок к 90°.
По взаимному расположению стран в ортогональном про-
странстве двух переменных можно судить, например, о том, 
что самая высокая рождаемость в 2008 г. была в Азербайд-
жане и Ирландии, самая низкая – в Германии, Швейцарии и 
Португалии. Самый высокий ВВП на душу населения был в 
Норвегии и Швейцарии, самый низкий – в Молдове, Грузии и 
Украине. В группе восточноевропейских стран Беларусь име-
ла средний уровень ВВП на душу населения и средний уровень 
рождаемости.
Расстояния между объектами в пространстве переменных. 
Матрица расстояний. Между объектами в геометрическом про-
странстве переменных могут вычисляться расстояния. В отли-
чие от корреляции, которая является мерой сходства, расстоя-
ние является мерой различий: чем больше расстояние между 
объектами, тем сильнее они отличаются друг от друга по значе-
ниям переменных, например по ответам на вопросы анкеты. Два 
объекта идентичны, если описывающие их переменные при-
нимают одинаковые значения; в этом случае расстояние между 
ними равно нулю. Таким образом, в социальных науках рассто-
яние между объектами может интерпретироваться как социаль-
ная дистанция.
Свойства расстояния между двумя объектами А и В:
1) dA, B > 0;
2) расстояние dA, B = 0, если объекты А и В тождественны 
друг другу (значения всех переменных для них совпадают);
3) dA, B может быть не ограничено «сверху»;
4) расстояние между объектами А и В симметрично: dA, B = 
= dB, A;
5) для любых трех объектов А, В и С выполняется «нера-
венство треугольника»: dA, B ≤ dA, C + dB, C.
Полный набор расстояний между всеми парами объектов из 
выборки представляется в виде матрицы расстояний, которая 
имеет размерность n × n, где n – объем выборки. На главной ди-
агонали матрицы расстояний находятся нули; она симметрич-
на относительно главной диагонали: dA, B = dB, A (табл. 2.1).

Таблица 2.1

Матрица расстояний

Объект
A
B
C
…
N
A
0
dA, B
dA, C
…
dA, N
B
dB, A
0
dB, C
…
dB, N
C
dC, A
dC, B
0
…
dC, N
…
…
…
…
…
…
N
dN, A
dN, B
dN, C
…
0

Выбор меры расстояния зависит от конфигурации простран-
ства и уровня измерения образующих его переменных. Кон-
фигурация пространства определяется углами между осями. 
В частности, пространство является ортогональным, если все 
углы в нем прямые (переменные, образующие пространство, не 
коррелируют друг с другом).
К числу наиболее часто используемых мер расстояния от-
носятся: многомерное евклидово расстояние; расстояние Ма-
халанобиса для неортогональных пространств, образованных 
количественными и квазиколичественными переменными; 
расстояние Хемминга (city-block) для пространства, образованного 
дихотомическими переменными; расстояние Чебышева 
для пространства, образованного порядковыми шкалами одинаковой 
размерности.
Многомерное расстояние Евклида является обобщением 
двумерного расстояния Евклида на пространства большей размерности. 
Оно применяется для ортогональных пространств, 
образованных более чем двумя количественными или квази-
количественными переменными:

 
(
)
( )
(
)
2
, 
1
,

k

A B
i
i
i
d
x
A
x
B

=
=
−
∑
 
(2.1)

где dA, B – расстояние между объектами A и B;  
xi(A), xi(B) – значения переменной xi для объектов A и B;  
k – количество переменных в пространстве.

Пример 1.1 (продолжение)1
Пространство, изображенное на рис. 2.2, является двумер-
ным, поэтому расстояния Евклида для расположенных в нем 
стран вычисляются при k = 2 (табл. 2.2).
В ортогональном пространстве двух переменных Беларусь 
наиболее близка к Литве (расстояние 1265) и наиболее удалена 
от Швейцарии (25 093).
Вычисление расстояния, например, между Беларусью и Литвой 
осуществляется следующим образом:

 
(
)
(
)
(
)
(
)
(
)
(
)

(
)
(
)

2
2

, 

2
2
2
2
12 607 11 342
11,12 10,64
1265
0,48
1265,

BY LT
d
GNP BY
GNP LT
BR BY
BR LT
=
−
+
−
=

=
−
+
−
=
+
=

где GNP (Gross National Product) – валовой национальный 
продукт;  
BR (Birth Rate) – рождаемость;  
BY – Беларусь; LT – Литва.

Очевидно, что основной вклад в расстояние в данном случае 
вносят различия в ВВП.
Если пространство количественных переменных не является 
ортогональным, используется расстояние Махаланобиса 
D, которое также является обобщением евклидова расстояния: 
если коэффициенты корреляции между всеми переменными 
равны нулю, расстояние Махаланобиса эквивалентно квадрату 
евклидова расстояния.
Для дихотомических переменных вычисляется расстояние 
Хемминга (синонимы: city-block, «расстояние городских 
кварталов», «манхэттенское» расстояние), которое равно количеству 
несовпадений ответов респондентов A и B по набору 
дихотомических переменных:

 
(
)
( )
, 
1
.

k

A B
i
i
i
d
x
A
x
B

=
=
−
∑
 
(2.2)

1 Гончаренко А.Н. Многомерный статистический анализ... М., 2022.

Таблица 2.2

Матрица расстояний Евклида, вычисленных по переменным 
«ВВП» и «рождаемость» для европейских стран

Страна

Австрия

Беларусь

Великобритания


Латвия

Литва

Польша

Россия

Украина

Финляндия

Швейцария

Эстония

Австрия
0
11 524
389
9315 12 789 13 971 15 020 19 128
213
13 569 4180

Беларусь 11 524
0
11 135 2209
1265
2447
3496
7604 11 737 25 093 7344

Велико-
британия

389
11 135
0
8926 12 400 13 582 14 631 18 739
602
13 958 3791

Латвия
9315
2209
8926
0
3474
4656
5705
9813
9528 22 884 5135

Литва
12 789 1265 12 400 3474
0
1182
2231
6339 13 002 26 358 8609

Польша
13 971 2447 13 582 4656
1182
0
1049
5157 14 184 27 540 9791

Россия
15 020 3496 14 631 5705
2231
1049
0
4108 15 233 28 589 10 840

Украина 19 128 7604 18 739 9813
6339
5157
4108
0
19 341 32 697 14 948

Финлян-
дия

213
11 737
602
9528 13 002 14 184 15 233 19 341
0
13 356 4393

Швейца-
рия

13 569 25 093 13 958 22 884 26 358 27 540 28 589 32 697 13 356
0
17 749

Эстония
4180
7344
3791
5135
8609
9791 10 840 14 948 4393 17 749
0

Пример 2.1. Вычисление расстояния Хемминга.
Алгоритм вычисления расстояния Хемминга для двух объ-
ектов А и В представлен в табл. 2.3. Дихотомические перемен-
ные принимают значения 0 – «нет», 1 – «да».

Таблица 2.3

Вычисление расстояния Хемминга

Переменный объект
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
S
А
1
1
1
1
1
0
0
0
0
0
В
1
0
1
0
1
0
1
0
1
0
xi(A) – xi(B)
0
1
0
1
0
0
1
0
1
0
4

Таким образом, для данного примера

 
(
)
( )

10

, 

1

4.
A B
i
i

i

d
x
A
x
B

=
=
−
=
∑

Расстояние Чебышева используется для порядковых шкал 
одинаковой размерности и представляет собой максимальную 
разность для двух объектов по всем переменным, взятую по аб-
солютной величине:

 
(
)
( )
, 
1    
max
.
A B
i
i
x
k
d
x
A
x
B
≤
≤
=
−
 
(2.3)

Пример 2.2. Вычисление расстояния Чебышева.
Алгоритм вычисления расстояния Чебышева для двух объ-
ектов А и В представлен в табл. 2.4. Используются 7-балльные 
порядковые переменные.

Таблица 2.4

Вычисление расстояния Чебышева

Переменный объект
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
А
1
2
3
4
5
6
7
5
3
1
В
1
3
5
7
6
5
4
1
2
7
xi(A) – xi(B)
0
1
2
3
1
1
3
4
1
6

В данном случае

 
(
)
( )
, 
1    10
max
6.
A B
i
i
x
d
x
A
x
B
≤
≤
=
−
=

Заметим, что расстояния Хемминга и Чебышева использу-
ются как для ортогональных, так и для неортогональных про-
странств.
Снижение размерности пространства переменных: поста-
новка задачи. Одновременный анализ большого числа пере-
менных, в той или иной степени коррелирующих между собой, 
вызывает значительные затруднения. Задача снижения раз-
мерности заключается в том, чтобы уменьшить число анализи-
руемых переменных, сохранив при этом большую часть исход-
ной информации, и по возможности добиться ортогональности 
нового пространства, так как большинство методов классифи-
кации и изучения причинных связей изначально разработаны 
для некоррелирующих друг с другом переменных.
Все процедуры снижения размерности основаны на идее 
о том, что тесно коррелирующие между собой переменные из-

Доступ онлайн
2 000 ₽
В корзину