Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Многомерный статистический анализ. Часть 1

Покупка
Артикул: 797221.01.99
Доступ онлайн
2 000 ₽
В корзину
В методическом пособии рассмотрены многомерные методы статистического анализа данных. Основное внимание уделено моделям анализа данных, условиям их применения, а также особенностям представления данных и интерпретации результатов. Пособие предназначено для студентов, обучающихся в магистратуре по направлению подготовки 09.04.01 «Информатика и вычислительная техника», а также для изучающих информационные технологии. Будет полезно для студентов при подготовке выпускной квалификационной работы и магистерской диссертации.
Гончаренко, А. Н. Многомерный статистический анализ. Часть 1 : методическое пособие / А. Н. Гончаренко. - Москва : Издательский Дом НИТУ «МИСиС», 2022. - 53 с. - Текст : электронный. - URL: https://znanium.com/catalog/product/1914789 (дата обращения: 28.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Москва 2022

М ИНИС ТЕРС ТВО НАУКИ И ВЫСШ ЕГО О Б РА З О ВА Н И Я РФ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ «МИСиС»

ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И АВТОМАТИЗИРОВАННЫХ СИСТЕМ 
УПРАВЛЕНИЯ

Кафедра автоматизированных систем управления

А.Н. Гончаренко

МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ 
АНАЛИЗ

Часть 1

Методическое пособие

Рекомендовано редакционно-издательским 
советом университета

№ 4681

УДК 65.011.56 
 
Г65

Р е ц е н з е н т 
канд. техн. наук, доц. Д.В. Калитин

Гончаренко, Алексей Николаевич.
Г65  
Многомерный статистический анализ. Часть 1 : метод. 
пособие / А.Н. Гончаренко. – Москва : Издательский Дом 
НИТУ «МИСиС», 2022. – 53 с.

В методическом пособии рассмотрены многомерные методы ста-
тистического анализа данных. Основное внимание уделено моделям 
анализа данных, условиям их применения, а также особенностям 
представления данных и интерпретации результатов.
Пособие предназначено для студентов, обучающихся в магистра-
туре по направлению подготовки 09.04.01 «Информатика и вычис-
лительная техника», а также для изучающих информационные тех-
нологии. Будет полезно для студентов при подготовке выпускной 
квалификационной работы и магистерской диссертации.

УДК 65.011.56

 Гончаренко А.Н., 2022
 НИТУ «МИСиС», 2022

СОДЕРЖАНИЕ

Введение ........................................................................ 4
1. Корреляционный и регрессионный анализ ..................... 5
1.1. Структура связей между переменными .................... 5
1.2. Множественная линейная регрессия ...................... 11
1.3. Логистическая регрессия ..................................... 38
1.4. Путевой анализ ................................................... 41
Заключение ................................................................. 51
Библиографический список ............................................ 52

ВВЕДЕНИЕ

Многомерные методы статистического анализа данных по-
явились еще в начале ХХ в. Однако из-за большого объема и 
сложности вычислений они по лучили широкое распростра-
нение только благодаря созданию компьютеров, особенно пер-
сональных, с «дружественными» операционными системами 
и пользовательскими интерфейсами.
В методическом пособии основное внимание уделяется мо-
делям анализа данных, условиям их применения, особенно-
стям представления данных и интерпретации результатов.
Настоящее учебное пособие предназначено для студентов, 
магистрантов, аспирантов, изучающих методологию коли-
чественных исследований и методы статистического анализа 
данных; преподавателей, научных сотрудников и специали-
стов, принимающих участие в эмпирических исследованиях. 
Его изучение предполагает предварительное знакомство с ос-
новами прикладной статистики (на уровне одномерных рас-
пределений, анализа парных связей, проверки статистических 
гипотез) и одним из программных средств статистического 
анализа данных (SPSS, Statistica, R и т.п.).

1. КОРРЕЛЯЦИОННЫЙ 
И РЕГРЕССИОННЫЙ АНАЛИЗ

1.1. Структура связей между 
переменными

В зависимости от вкладываемого в исследование смысла 
связи между переменными могут быть как корреляционны-
ми, так и причинными (каузальными). Связь между двумя 
переменными называется корреляционной, если они рассма-
триваются как двусторонне взаимодействующие, без выделе-
ния причины и следствия. Связь называется причинной, если 
одна из переменных (зависимая) измеряет следствие, а другая 
или несколько независимых переменных (предикторов) изме-
ряют одну или несколько причин.
Меры корреляционной связи. Большинство статистических 
мер связи предназначены для измерения парных корреляци-
онных связей между переменными. Разумеется, они могут ис-
пользоваться и для причинных связей на тех уровнях анализа, 
когда их причинно-следственное содержание игнорируется.
Выбор меры связи между двумя переменными зависит, 
в первую очередь, от уровня их измерения: для двух количе-
ственных переменных это коэффициент линейной корреляции 
Пирсона; для двух порядковых переменных – коэффициенты 
ранговой корреляции Спирмана и Кендалла; для двух дихото-
мических переменных – коэффициенты Ф (фи) и Юла; для но-
минальных переменных с числом градаций более двух – коэф-
фициент Крамера. Если переменные имеют разный уровень 
измерения, выбирается коэффициент, соответствующий более 
низкому уровню. Например, если одна переменная является 
количественной, а вторая порядковой, рекомендуется исполь-
зовать одну из порядковых мер связи (возможно, количествен-
ную переменную придется при этом сгруппировать в интер-
валы); если одна из переменных является номинальной, а 
вторая – порядковой, следует использовать коэффициент Кра-
мера. В многомерной статистике наиболее часто используется 
коэффициент линейной корреляции Пирсона в силу его уни-
версальности.

Наибольший интерес в задачах многомерной статистики 
представляют переменные, связи между которыми обладают 
«направленностью», т.е. могут трактоваться как «прямые» 
или «обратные». Понятие направленности может применяться 
только в двух случаях. Во-первых, когда обе переменные яв-
ляются количественными и (или) порядковыми: связь являет-
ся прямой, если значения двух переменных одновременно уве-
личиваются или уменьшаются; обратной – если увеличение 
значения одной переменной сопровождается уменьшением 
значения другой. Во-вторых, когда обе переменные являются 
дихотомическими: связь является прямой, если два фикси-
руемых свойства объектов чаще встречаются и не встречают-
ся совместно, чем порознь; обратной – если соответствующие 
свойства чаще встречаются порознь, чем совместно.
Коэффициент корреляции между переменными xi и xj обо-
значается ri, j и обладает следующими свойствами:
1) коэффициент корреляции симметричен (ri, j = rj, i);
2) значение коэффициента корреляции находится в преде-
лах –1 ≤ ri, j ≤ 1 для направленных связей; 0 ≤ ri, j ≤ 1 для нена-
правленных связей;
3) ri, j = 0, если связи между переменными нет;
4) ri, j > 0, если связь является прямой или ненаправленной;
5) ri, j < 0, если связь является обратной;
6) ri, j = ±1, если связь является полной, т.е. по значению 
одной переменной можно точно определить значение второй.
Идеальным случаем для задач снижения размерности и 
классификации является использование переменных с одина-
ковым уровнем измерения: количественных, порядковых (из-
меренных с использованием шкал Лайкерта и подобных им 
оценочных шкал с четным или нечетным количеством града-
ций, которые могут рассматриваться как квазиинтервальные 
или дихотомические. Номинальные переменные, не являющи-
еся дихотомическими, а также порядковые переменные, ко-
торые не могут рассматриваться как квазиинтервальные, ис-
пользуются только в отдельных многомерных статистических 
моделях с применением специально разработанных для этого 
техник, которые будут рассмотрены в соответствующих разде-
лах.

В ситуации, когда одновременно должны анализироваться 
несколько переменных с разным уровнем измерения, рекомен-
дуется использовать коэффициент парной корреляции Пирсона 
(1.1), универсальный в том смысле, что коэффициент ранговой 
корреляции Спирмана, коэффициент для двух дихотомических 
переменных и коэффициент бисериальной корреляции, исполь-
зуемый когда одна переменная количественная, а вторая – ди-
хотомическая, являются полными его аналогами:

 
( )
(
)
( )
(
)
1
,
,

n
i
i
j
j
l
i j
i
j

x l
x
x
l
x
r
S S

=
−
−
= ∑
 
(1.1)

где n – объем выборки;  
xi, xj – переменные с номерами i и j;  
xi(l), xj(l) – значения переменных xi и xj для объекта  
(респондента) из выборки с номером l (l = 
1, n);  
−xi, −xj – средние арифметические переменных xi и xj;  
Si, Sj – стандартные отклонения переменных xi и xj.

Матрица корреляций. Для представления структуры связей 
между переменными используется матрица корреляций. Это 
квадратная таблица, в которой строки и столбцы соответствуют 
одним и тем же переменным (общее количество переменных бу-
дем обозначать буквой k, размерность матрицы k × k). В клетке 
на пересечении строки с номером i и столбца с номером j указы-
вается значение коэффициента корреляции ri, j для переменных 
xi и xj (табл. 1.1).

Таблица 1.1

Матрица корреляций (i, j = 1, k)

Переменная
x1
x2
…
xj
…
xk
x1
1
r1, 2
…
r1, j
…
r1, k
x2
r2, 1
1
…
r2, j
…
r2, k
…
…
…
…
…
…
…
xi
ri, 1
ri, 2
…
ri, j
…
ri, k
…
…
…
…
…
…
…
xk
rk, 1
rk, 2
…
rk, j
…
1

В матрице корреляций могут использоваться любые меры 
связи при условии, что все переменные имеют одинаковый уро-
вень измерения. Так, если все переменные количественные, 
используется коэффициент Пирсона (r), если порядковые – ко-
эффициент Спирмана (rs) или Кендалла (t), если дихотомиче-
ские – коэффициент Ф (фи), если номинальные – коэффициент 
Крамера (V).
Если переменные имеют разный уровень измерения, в ма-
трицу корреляций не должны включаться номинальные пере-
менные, не являющиеся дихотомическими. Для переменных 
с любыми другими уровнями измерения вычисляется коэффи-
циент корреляции Пирсона с учетом его модификаций для по-
рядковых и дихотомических переменных. При компьютерной 
обработке данных это происходит автоматически.
Матрица корреляций симметрична относительно главной 
диагонали (ri, j = rj, i), которая полностью состоит из единиц 
(коэффициент корреляции переменной с самой собой равен 1). 
Поэтому она может быть представлена в форме верхнего или 
нижнего треугольника.
Граф матрицы корреляций. В социологии широко распро-
странены структурные модели. Их используют для анализа 
структуры связей между переменными, структуры исследуе-
мой статистической совокупности объектов, структуры набо-
ра понятий в представлениях респондентов и др. По методам 
представления различают математические и визуальные (гра-
фические) структурные модели, причем многие математиче-
ские модели могут быть представлены визуально.
Матрица корреляций содержит исчерпывающую информа-
цию о структуре связей между переменными. Однако для ее 
непосредственного анализа требуются опыт и значительные 
усилия, особенно при большом количестве используемых пе-
ременных. Поэтому во многих случаях при анализе матрицы 
корреляций применяются специальные алгоритмы, реализо-
ванные в компьютерных программах, – метод главных компо-
нент, факторный анализ, кластерный анализ и др.
Наиболее простым инструментом анализа матрицы корре-
ляций является граф. Граф – это геометрическая схема, состоя-
щая из точек, соединенных линиями и (или) стрелками. Точки 

называются вершинами графа, линии – ребрами, стрелки – ду-
гами. Вершины графа изображают переменные. При исполь-
зовании графа для анализа корреляционных связей вершины 
соединяются линиями (ребрами). Если связь между перемен-
ными является причинной, вершины соединяются стрелками 
(дугами), направленны ми от причины к следствию. В графе 
одновременно могут присутствовать как ребра, так и дуги. За-
метим, что если значения коэффициентов корреляции, по кото-
рым мы судим о силе связей и принимаем решение об отобра-
жении их на графе, вычисляются, то наличие или отсутствие 
причинных отношений между переменными, от которых зави-
сит выбор дуги или ребра в качестве средства изображения свя-
зи на графе, устанавливаются теоретически.
Вершины, соединенные ребрами и (или) дугами, называ-
ются смежными. Смежность вершины равна числу проходя-
щих через нее ребер и дуг. Вершины, не соединенные ни с ка-
кими другими вершинами (смежность равна 0), называются 
изолированными. Заметим, что независимо от количества изо-
браженных связей на графе должны присутствовать все пере-
менные (вершины), в том числе изолированные.
Наиболее сложной проблемой при построении графа связей 
является определение границы значений коэффициента кор-
реляции, выше которой связь можно считать «существенной». 
Граница выбирается таким образом, чтобы граф, с одной сторо-
ны, был достаточно информативным, обеспечивающим отраже-
ние всех существенных с точки зрения выявления структуры 
связей между переменными, с другой стороны, был достаточно 
«прозрачным», не содержал избыточных связей, затрудняю-
щих понимание структуры. В сложных случаях при построении 
графа рекомендуется для начала взять «завышенное» гранич-
ное значение, что обеспечит изображение минимального набо-
ра ребер. Впоследствии оно может быть уменьшено, что приве-
дет к увеличению числа отображаемых связей. Для построения 
графа рекомендуется начать с вершины с максимальной смеж-
ностью и изобразить все ее существенные связи. Затем перейти 
к следующей по смежности вершине. Процесс продолжается до 
тех пор, пока на граф не будут нанесены все ребра и (или) дуги, 
а также изолированные вершины. Взаимное расположение вер-

шин на графе, обеспечивающее наиболее ясное представление 
структуры связей между переменными, нередко оказывается 
сложной дизайнерской задачей. Для ее решения могут приме-
няться разнообразные программные средства.

Пример 1.1
В нашем примере в качестве границы выбрано r ≥ 0,55 
(рис. 1.1). В матрице корреляций (табл. 1.2) коэффициенты, 
значения которых по абсолютной величине не ниже 0,55, вы-
делены жирным шрифтом.

Таблица 1.2

Матрица корреляций между социально-демографическими 
показателями

Переменная
1
2
3
4
5
6
7
8
1. Медианный возраст
1
–0,74 0,26 –0,55 –0,78 0,39
0,53
0,39
2. Рождаемость
1
–0,46 0,81
0,50 –0,01 –0,08 0,08
3. Смертность
1
–0,90 –0,04 –0,75 –0,63 –0,55

4. Естественный прирост
1
0,50
0,38
0,27
0,40
5. Детская смертность
1
–0,49 –0,63 –0,58

6. Ожидаемая продолжи-
тельность жизни мужчин
1
0,92
0,77

7. Ожидаемая продолжи-
тельность жизни женщин
1
0,83

8. ВВП
1

Рис. 1.1. Граф матрицы причинных связей  
между переменными

Причинно-следственные отношения между переменными 
установлены посредством логического анализа.

Две переменные – ВВП и медианный возраст, характеризу-
ющий возрастную структуру населения, – являются экзоген-
ными; они не зависят от других рассматриваемых переменных, 
но в значительной мере сами их предопределяют. Уровень ВВП 
непосредственно влияет на ожидаемую продолжительность жиз-
ни мужчин и женщин, а также на уровень смертности (также за-
висящий от продолжительности жизни), и через него – опосредо-
ванно – на естественный прирост населения. С другой стороны, 
естественный прирост зависит от медианного возраста населения 
как непосредственно, так и опосредованно – через уровень рож-
даемости. Аналогично детская смертность зависит не только 
от возрастной структуры населения (страны со стареющим на-
селением прилагают больше усилий для сохранения каждого 
ребенка), но также от экономического фактора (ВВП) как непо-
средственно, так и опосредованно – через увеличение продолжи-
тельности жизни женщин.

1.2. Множественная линейная регрессия

Понятие причинной связи. Критерии каузальности. При-
чинной (причинно-следственной, каузальной) называется связь, 
в которой одни переменные интерпретируются как причины, 
другие – как следствия. Для обо значения причинных связей 
используются также понятия «зависимость», «влияние», «воз-
действие» и т.п. Переменная, измеряющая причину, называет-
ся независимой (предиктором); измеряющая следствие – зави-
симой.
В прикладной статистике причинно-следственная связь ин-
терпретируется шире, чем в философии науки. Так, в философии 
связь рассматривается как причинная, только если наступле-
ние причины неизбежно влечет за собой наступление следствия 
и в отсутствие причины следствие не наступает, в статистике же 
оценивается вероятность наступления следствия в случае на-
личия причины (чем она выше, тем сильнее причинная связь). 
В социально-экономических исследованиях существуют две тра-
диции статистического изучения причинных связей. В рамках 
социально-философской традиции, восходящей к О. Конту, при-
чинно-следственные отношения могут изучаться только посред-

Доступ онлайн
2 000 ₽
В корзину