Многомерный статистический анализ. Часть 1
Покупка
Тематика:
Математическая статистика
Издательство:
Издательский Дом НИТУ «МИСиС»
Год издания: 2022
Кол-во страниц: 53
Дополнительно
Вид издания:
Учебно-методическая литература
Уровень образования:
ВО - Магистратура
Артикул: 797221.01.99
Доступ онлайн
В корзину
В методическом пособии рассмотрены многомерные методы статистического анализа данных. Основное внимание уделено моделям анализа данных, условиям их применения, а также особенностям представления данных и интерпретации результатов. Пособие предназначено для студентов, обучающихся в магистратуре по направлению подготовки 09.04.01 «Информатика и вычислительная техника», а также для изучающих информационные технологии. Будет полезно для студентов при подготовке выпускной квалификационной работы и магистерской диссертации.
Тематика:
ББК:
УДК:
- 004: Информационные технологии. Вычислительная техника...
- 311: Теория статистики. Статистические методы
ОКСО:
- ВО - Магистратура
- 09.04.01: Информатика и вычислительная техника
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Москва 2022 М ИНИС ТЕРС ТВО НАУКИ И ВЫСШ ЕГО О Б РА З О ВА Н И Я РФ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ «МИСиС» ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И АВТОМАТИЗИРОВАННЫХ СИСТЕМ УПРАВЛЕНИЯ Кафедра автоматизированных систем управления А.Н. Гончаренко МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ Часть 1 Методическое пособие Рекомендовано редакционно-издательским советом университета № 4681
УДК 65.011.56 Г65 Р е ц е н з е н т канд. техн. наук, доц. Д.В. Калитин Гончаренко, Алексей Николаевич. Г65 Многомерный статистический анализ. Часть 1 : метод. пособие / А.Н. Гончаренко. – Москва : Издательский Дом НИТУ «МИСиС», 2022. – 53 с. В методическом пособии рассмотрены многомерные методы ста- тистического анализа данных. Основное внимание уделено моделям анализа данных, условиям их применения, а также особенностям представления данных и интерпретации результатов. Пособие предназначено для студентов, обучающихся в магистра- туре по направлению подготовки 09.04.01 «Информатика и вычис- лительная техника», а также для изучающих информационные тех- нологии. Будет полезно для студентов при подготовке выпускной квалификационной работы и магистерской диссертации. УДК 65.011.56 Гончаренко А.Н., 2022 НИТУ «МИСиС», 2022
СОДЕРЖАНИЕ Введение ........................................................................ 4 1. Корреляционный и регрессионный анализ ..................... 5 1.1. Структура связей между переменными .................... 5 1.2. Множественная линейная регрессия ...................... 11 1.3. Логистическая регрессия ..................................... 38 1.4. Путевой анализ ................................................... 41 Заключение ................................................................. 51 Библиографический список ............................................ 52
ВВЕДЕНИЕ Многомерные методы статистического анализа данных по- явились еще в начале ХХ в. Однако из-за большого объема и сложности вычислений они по лучили широкое распростра- нение только благодаря созданию компьютеров, особенно пер- сональных, с «дружественными» операционными системами и пользовательскими интерфейсами. В методическом пособии основное внимание уделяется мо- делям анализа данных, условиям их применения, особенно- стям представления данных и интерпретации результатов. Настоящее учебное пособие предназначено для студентов, магистрантов, аспирантов, изучающих методологию коли- чественных исследований и методы статистического анализа данных; преподавателей, научных сотрудников и специали- стов, принимающих участие в эмпирических исследованиях. Его изучение предполагает предварительное знакомство с ос- новами прикладной статистики (на уровне одномерных рас- пределений, анализа парных связей, проверки статистических гипотез) и одним из программных средств статистического анализа данных (SPSS, Statistica, R и т.п.).
1. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ 1.1. Структура связей между переменными В зависимости от вкладываемого в исследование смысла связи между переменными могут быть как корреляционны- ми, так и причинными (каузальными). Связь между двумя переменными называется корреляционной, если они рассма- триваются как двусторонне взаимодействующие, без выделе- ния причины и следствия. Связь называется причинной, если одна из переменных (зависимая) измеряет следствие, а другая или несколько независимых переменных (предикторов) изме- ряют одну или несколько причин. Меры корреляционной связи. Большинство статистических мер связи предназначены для измерения парных корреляци- онных связей между переменными. Разумеется, они могут ис- пользоваться и для причинных связей на тех уровнях анализа, когда их причинно-следственное содержание игнорируется. Выбор меры связи между двумя переменными зависит, в первую очередь, от уровня их измерения: для двух количе- ственных переменных это коэффициент линейной корреляции Пирсона; для двух порядковых переменных – коэффициенты ранговой корреляции Спирмана и Кендалла; для двух дихото- мических переменных – коэффициенты Ф (фи) и Юла; для но- минальных переменных с числом градаций более двух – коэф- фициент Крамера. Если переменные имеют разный уровень измерения, выбирается коэффициент, соответствующий более низкому уровню. Например, если одна переменная является количественной, а вторая порядковой, рекомендуется исполь- зовать одну из порядковых мер связи (возможно, количествен- ную переменную придется при этом сгруппировать в интер- валы); если одна из переменных является номинальной, а вторая – порядковой, следует использовать коэффициент Кра- мера. В многомерной статистике наиболее часто используется коэффициент линейной корреляции Пирсона в силу его уни- версальности.
Наибольший интерес в задачах многомерной статистики представляют переменные, связи между которыми обладают «направленностью», т.е. могут трактоваться как «прямые» или «обратные». Понятие направленности может применяться только в двух случаях. Во-первых, когда обе переменные яв- ляются количественными и (или) порядковыми: связь являет- ся прямой, если значения двух переменных одновременно уве- личиваются или уменьшаются; обратной – если увеличение значения одной переменной сопровождается уменьшением значения другой. Во-вторых, когда обе переменные являются дихотомическими: связь является прямой, если два фикси- руемых свойства объектов чаще встречаются и не встречают- ся совместно, чем порознь; обратной – если соответствующие свойства чаще встречаются порознь, чем совместно. Коэффициент корреляции между переменными xi и xj обо- значается ri, j и обладает следующими свойствами: 1) коэффициент корреляции симметричен (ri, j = rj, i); 2) значение коэффициента корреляции находится в преде- лах –1 ≤ ri, j ≤ 1 для направленных связей; 0 ≤ ri, j ≤ 1 для нена- правленных связей; 3) ri, j = 0, если связи между переменными нет; 4) ri, j > 0, если связь является прямой или ненаправленной; 5) ri, j < 0, если связь является обратной; 6) ri, j = ±1, если связь является полной, т.е. по значению одной переменной можно точно определить значение второй. Идеальным случаем для задач снижения размерности и классификации является использование переменных с одина- ковым уровнем измерения: количественных, порядковых (из- меренных с использованием шкал Лайкерта и подобных им оценочных шкал с четным или нечетным количеством града- ций, которые могут рассматриваться как квазиинтервальные или дихотомические. Номинальные переменные, не являющи- еся дихотомическими, а также порядковые переменные, ко- торые не могут рассматриваться как квазиинтервальные, ис- пользуются только в отдельных многомерных статистических моделях с применением специально разработанных для этого техник, которые будут рассмотрены в соответствующих разде- лах.
В ситуации, когда одновременно должны анализироваться несколько переменных с разным уровнем измерения, рекомен- дуется использовать коэффициент парной корреляции Пирсона (1.1), универсальный в том смысле, что коэффициент ранговой корреляции Спирмана, коэффициент для двух дихотомических переменных и коэффициент бисериальной корреляции, исполь- зуемый когда одна переменная количественная, а вторая – ди- хотомическая, являются полными его аналогами: ( ) ( ) ( ) ( ) 1 , , n i i j j l i j i j x l x x l x r S S = − − = ∑ (1.1) где n – объем выборки; xi, xj – переменные с номерами i и j; xi(l), xj(l) – значения переменных xi и xj для объекта (респондента) из выборки с номером l (l = 1, n); −xi, −xj – средние арифметические переменных xi и xj; Si, Sj – стандартные отклонения переменных xi и xj. Матрица корреляций. Для представления структуры связей между переменными используется матрица корреляций. Это квадратная таблица, в которой строки и столбцы соответствуют одним и тем же переменным (общее количество переменных бу- дем обозначать буквой k, размерность матрицы k × k). В клетке на пересечении строки с номером i и столбца с номером j указы- вается значение коэффициента корреляции ri, j для переменных xi и xj (табл. 1.1). Таблица 1.1 Матрица корреляций (i, j = 1, k) Переменная x1 x2 … xj … xk x1 1 r1, 2 … r1, j … r1, k x2 r2, 1 1 … r2, j … r2, k … … … … … … … xi ri, 1 ri, 2 … ri, j … ri, k … … … … … … … xk rk, 1 rk, 2 … rk, j … 1
В матрице корреляций могут использоваться любые меры связи при условии, что все переменные имеют одинаковый уро- вень измерения. Так, если все переменные количественные, используется коэффициент Пирсона (r), если порядковые – ко- эффициент Спирмана (rs) или Кендалла (t), если дихотомиче- ские – коэффициент Ф (фи), если номинальные – коэффициент Крамера (V). Если переменные имеют разный уровень измерения, в ма- трицу корреляций не должны включаться номинальные пере- менные, не являющиеся дихотомическими. Для переменных с любыми другими уровнями измерения вычисляется коэффи- циент корреляции Пирсона с учетом его модификаций для по- рядковых и дихотомических переменных. При компьютерной обработке данных это происходит автоматически. Матрица корреляций симметрична относительно главной диагонали (ri, j = rj, i), которая полностью состоит из единиц (коэффициент корреляции переменной с самой собой равен 1). Поэтому она может быть представлена в форме верхнего или нижнего треугольника. Граф матрицы корреляций. В социологии широко распро- странены структурные модели. Их используют для анализа структуры связей между переменными, структуры исследуе- мой статистической совокупности объектов, структуры набо- ра понятий в представлениях респондентов и др. По методам представления различают математические и визуальные (гра- фические) структурные модели, причем многие математиче- ские модели могут быть представлены визуально. Матрица корреляций содержит исчерпывающую информа- цию о структуре связей между переменными. Однако для ее непосредственного анализа требуются опыт и значительные усилия, особенно при большом количестве используемых пе- ременных. Поэтому во многих случаях при анализе матрицы корреляций применяются специальные алгоритмы, реализо- ванные в компьютерных программах, – метод главных компо- нент, факторный анализ, кластерный анализ и др. Наиболее простым инструментом анализа матрицы корре- ляций является граф. Граф – это геометрическая схема, состоя- щая из точек, соединенных линиями и (или) стрелками. Точки
называются вершинами графа, линии – ребрами, стрелки – ду- гами. Вершины графа изображают переменные. При исполь- зовании графа для анализа корреляционных связей вершины соединяются линиями (ребрами). Если связь между перемен- ными является причинной, вершины соединяются стрелками (дугами), направленны ми от причины к следствию. В графе одновременно могут присутствовать как ребра, так и дуги. За- метим, что если значения коэффициентов корреляции, по кото- рым мы судим о силе связей и принимаем решение об отобра- жении их на графе, вычисляются, то наличие или отсутствие причинных отношений между переменными, от которых зави- сит выбор дуги или ребра в качестве средства изображения свя- зи на графе, устанавливаются теоретически. Вершины, соединенные ребрами и (или) дугами, называ- ются смежными. Смежность вершины равна числу проходя- щих через нее ребер и дуг. Вершины, не соединенные ни с ка- кими другими вершинами (смежность равна 0), называются изолированными. Заметим, что независимо от количества изо- браженных связей на графе должны присутствовать все пере- менные (вершины), в том числе изолированные. Наиболее сложной проблемой при построении графа связей является определение границы значений коэффициента кор- реляции, выше которой связь можно считать «существенной». Граница выбирается таким образом, чтобы граф, с одной сторо- ны, был достаточно информативным, обеспечивающим отраже- ние всех существенных с точки зрения выявления структуры связей между переменными, с другой стороны, был достаточно «прозрачным», не содержал избыточных связей, затрудняю- щих понимание структуры. В сложных случаях при построении графа рекомендуется для начала взять «завышенное» гранич- ное значение, что обеспечит изображение минимального набо- ра ребер. Впоследствии оно может быть уменьшено, что приве- дет к увеличению числа отображаемых связей. Для построения графа рекомендуется начать с вершины с максимальной смеж- ностью и изобразить все ее существенные связи. Затем перейти к следующей по смежности вершине. Процесс продолжается до тех пор, пока на граф не будут нанесены все ребра и (или) дуги, а также изолированные вершины. Взаимное расположение вер-
шин на графе, обеспечивающее наиболее ясное представление структуры связей между переменными, нередко оказывается сложной дизайнерской задачей. Для ее решения могут приме- няться разнообразные программные средства. Пример 1.1 В нашем примере в качестве границы выбрано r ≥ 0,55 (рис. 1.1). В матрице корреляций (табл. 1.2) коэффициенты, значения которых по абсолютной величине не ниже 0,55, вы- делены жирным шрифтом. Таблица 1.2 Матрица корреляций между социально-демографическими показателями Переменная 1 2 3 4 5 6 7 8 1. Медианный возраст 1 –0,74 0,26 –0,55 –0,78 0,39 0,53 0,39 2. Рождаемость 1 –0,46 0,81 0,50 –0,01 –0,08 0,08 3. Смертность 1 –0,90 –0,04 –0,75 –0,63 –0,55 4. Естественный прирост 1 0,50 0,38 0,27 0,40 5. Детская смертность 1 –0,49 –0,63 –0,58 6. Ожидаемая продолжи- тельность жизни мужчин 1 0,92 0,77 7. Ожидаемая продолжи- тельность жизни женщин 1 0,83 8. ВВП 1 Рис. 1.1. Граф матрицы причинных связей между переменными Причинно-следственные отношения между переменными установлены посредством логического анализа.
Две переменные – ВВП и медианный возраст, характеризу- ющий возрастную структуру населения, – являются экзоген- ными; они не зависят от других рассматриваемых переменных, но в значительной мере сами их предопределяют. Уровень ВВП непосредственно влияет на ожидаемую продолжительность жиз- ни мужчин и женщин, а также на уровень смертности (также за- висящий от продолжительности жизни), и через него – опосредо- ванно – на естественный прирост населения. С другой стороны, естественный прирост зависит от медианного возраста населения как непосредственно, так и опосредованно – через уровень рож- даемости. Аналогично детская смертность зависит не только от возрастной структуры населения (страны со стареющим на- селением прилагают больше усилий для сохранения каждого ребенка), но также от экономического фактора (ВВП) как непо- средственно, так и опосредованно – через увеличение продолжи- тельности жизни женщин. 1.2. Множественная линейная регрессия Понятие причинной связи. Критерии каузальности. При- чинной (причинно-следственной, каузальной) называется связь, в которой одни переменные интерпретируются как причины, другие – как следствия. Для обо значения причинных связей используются также понятия «зависимость», «влияние», «воз- действие» и т.п. Переменная, измеряющая причину, называет- ся независимой (предиктором); измеряющая следствие – зави- симой. В прикладной статистике причинно-следственная связь ин- терпретируется шире, чем в философии науки. Так, в философии связь рассматривается как причинная, только если наступле- ние причины неизбежно влечет за собой наступление следствия и в отсутствие причины следствие не наступает, в статистике же оценивается вероятность наступления следствия в случае на- личия причины (чем она выше, тем сильнее причинная связь). В социально-экономических исследованиях существуют две тра- диции статистического изучения причинных связей. В рамках социально-философской традиции, восходящей к О. Конту, при- чинно-следственные отношения могут изучаться только посред-
Доступ онлайн
В корзину