Многомерный статистический анализ. Часть 2
Покупка
Тематика:
Математическая статистика
Издательство:
Издательский Дом НИТУ «МИСиС»
Год издания: 2022
Кол-во страниц: 70
Дополнительно
Вид издания:
Учебно-методическая литература
Уровень образования:
ВО - Магистратура
Артикул: 797222.01.99
Доступ онлайн
В корзину
В методическом пособии рассмотрены многомерные методы статистического анализа данных. Основное внимание уделено ряду важных вопросов снижения размерности в многомерном пространстве данных.
Пособие предназначено для студентов, обучающихся в магистратуре по направлению подготовки 09.04.01 «Информатика и вычислительная техника», а также для изучающих информационные технологии. Будет полезно для студентов при подготовке выпускной квалификационной работы и магистерской диссертации.
Тематика:
ББК:
УДК:
- 004: Информационные технологии. Вычислительная техника...
- 311: Теория статистики. Статистические методы
ОКСО:
- ВО - Магистратура
- 09.04.01: Информатика и вычислительная техника
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Москва 2022 М ИНИС ТЕРС ТВО НАУКИ И ВЫСШ ЕГО О Б РА З О ВА Н И Я РФ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ «МИСиС» ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И АВТОМАТИЗИРОВАННЫХ СИСТЕМ УПРАВЛЕНИЯ Кафедра автоматизированных систем управления А.Н. Гончаренко МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ Часть 2 Методическое пособие Рекомендовано редакционно-издательским советом университета № 4682
УДК 65.011.56 Г65 Р е ц е н з е н т канд. техн. наук, доц. Д.В. Калитин Гончаренко, Алексей Николаевич. Г65 Многомерный статистический анализ. Часть 2 : метод. пособие / А.Н. Гончаренко. – Москва : Издательский Дом НИТУ «МИСиС», 2022. – 70 с. В методическом пособии рассмотрены многомерные методы статистического анализа данных. Основное внимание уделено ряду важных вопросов снижения размерности в многомерном пространстве данных. Пособие предназначено для студентов, обучающихся в магистратуре по направлению подготовки 09.04.01 «Информатика и вычис- лительная техника», а также для изучающих информационные тех- нологии. Будет полезно для студентов при подготовке выпускной квалификационной работы и магистерской диссертации. УДК 65.011.56 Гончаренко А.Н., 2022 НИТУ «МИСиС», 2022
СОДЕРЖАНИЕ Введение ........................................................................ 4 2. Снижение размерности ................................................ 5 2.1. Многомерное пространство переменных ................... 5 2.2. Измерение латентных переменных. Семантический дифференциал ........................................................... 13 2.3. Метод главных компонент .................................... 20 2.4. Факторный анализ .............................................. 39 2.5. Многомерное шкалирование и анализ соответствий ............................................................. 50 Заключение ................................................................. 67 Библиографический список ............................................ 68
ВВЕДЕНИЕ Данное методическое пособие является логическим про- должением теоретического материала, изложенного в первой части, в рамках дисциплины «Многомерный статистический анализ». Основное внимание уделяется моделям анализа дан- ных, условиям их применения, особенностям представления данных и интерпретации результатов. Подробно рассматри- ваются методология количественных исследований и методы статистического анализа данных, а также раскрывается ряд важных вопросов снижения размерности в многомерном про- странстве данных. Для более четкого и правильного усвоения теоретический материал наполнен примерами на основе полученных данных в методическом пособии «Многомерный статистический ана- лиз. Часть 1», что позволяет понять взаимосвязь применения различных методов и сформировать наиболее полную и целост- ную картину знаний по изучаемой дисциплине. В качестве информации, позволяющей расширить кругозор студентов и вызвать интерес к углубленному изучению дисци- плины, в учебно-методическом пособии представлен дополни- тельный материал в разделе «Библиографический список».
2. СНИЖЕНИЕ РАЗМЕРНОСТИ 2.1. Многомерное пространство переменных Многомерное пространство переменных: геометрическая интерпретация. В количественных социологических иссле- дованиях любой объект из изучаемой совокупности обладает множеством различных свойств, фиксируемых с помощью из- меряемых переменных. Многомерность описания социологических объектов осложняет анализ данных и интерпретацию полученных результатов. Одним из инструментов решения этой проблемы является геометрическая интерпретация набора используемых переменных, представление его в виде многомерного геометрического пространства. Переменные x1, x2 ... xk выступают в качестве осей этого пространства. Размерность пространства равна количеству переменных k. Углы между осями задаются соответствующими коэффициентами корреляций, а именно косинус угла между двумя переменными xi и xj (i, j = 1, k) равен коэффициенту корреляции между ними: cos(xi, xj) = ri, j. В частности, если коэффициент корреляции между двумя переменными равен нулю, они образуют прямой угол (cos90° = 0); коэффициент корреляции, равный +1, порождает угол, равный 0°, т.е. оси практически совпадают; коэффициент корреляции, равный –1, порождает угол, равный 180°. Таким образом, матрица корреляций полностью описывает структуру пространства переменных: чем выше корреляция между переменными, тем ближе они расположены друг к другу (рис. 2.1). Рекомендуется рассматривать пространства из переменных, имеющих одинаковый уровень измере- ния – количественный, квазиинтервальный или дихотомиче- ский. Объекты из выборки изображаются в пространстве в виде точек, координатами которых служат значения соответствую- щих переменных. Рассмотрим это в наиболее простом для изо- бражения двумерном пространстве (рис. 2.2).
Рис. 2.1. Многомерное пространство переменных Рис. 2.2. Европейские страны в пространстве двух переменных Пример 1.1 (продолжение)1 Построим двумерное пространство, используя в качестве осей переменные «ВВП» (валовой национальный продукт на душу населения) и «рождаемость» (на 1000 жителей). В каче- стве объектов в данном пространстве разместим европейские страны, для которых измерены соответствующие статистиче- 1 Гончаренко А.Н. Многомерный статистический анализ. Часть 1 : метод. пособие. М. : Издательский Дом НИТУ «МИСиС», 2022.
ские показатели. Коэффициент корреляции между перемен- ными r = 0,08, т.е. переменные практически не коррелируют и угол между ними близок к 90°. По взаимному расположению стран в ортогональном про- странстве двух переменных можно судить, например, о том, что самая высокая рождаемость в 2008 г. была в Азербайд- жане и Ирландии, самая низкая – в Германии, Швейцарии и Португалии. Самый высокий ВВП на душу населения был в Норвегии и Швейцарии, самый низкий – в Молдове, Грузии и Украине. В группе восточноевропейских стран Беларусь име- ла средний уровень ВВП на душу населения и средний уровень рождаемости. Расстояния между объектами в пространстве переменных. Матрица расстояний. Между объектами в геометрическом про- странстве переменных могут вычисляться расстояния. В отли- чие от корреляции, которая является мерой сходства, расстоя- ние является мерой различий: чем больше расстояние между объектами, тем сильнее они отличаются друг от друга по значе- ниям переменных, например по ответам на вопросы анкеты. Два объекта идентичны, если описывающие их переменные при- нимают одинаковые значения; в этом случае расстояние между ними равно нулю. Таким образом, в социальных науках рассто- яние между объектами может интерпретироваться как социаль- ная дистанция. Свойства расстояния между двумя объектами А и В: 1) dA, B > 0; 2) расстояние dA, B = 0, если объекты А и В тождественны друг другу (значения всех переменных для них совпадают); 3) dA, B может быть не ограничено «сверху»; 4) расстояние между объектами А и В симметрично: dA, B = = dB, A; 5) для любых трех объектов А, В и С выполняется «нера- венство треугольника»: dA, B ≤ dA, C + dB, C. Полный набор расстояний между всеми парами объектов из выборки представляется в виде матрицы расстояний, которая имеет размерность n × n, где n – объем выборки. На главной ди- агонали матрицы расстояний находятся нули; она симметрич- на относительно главной диагонали: dA, B = dB, A (табл. 2.1).
Таблица 2.1 Матрица расстояний Объект A B C … N A 0 dA, B dA, C … dA, N B dB, A 0 dB, C … dB, N C dC, A dC, B 0 … dC, N … … … … … … N dN, A dN, B dN, C … 0 Выбор меры расстояния зависит от конфигурации простран- ства и уровня измерения образующих его переменных. Кон- фигурация пространства определяется углами между осями. В частности, пространство является ортогональным, если все углы в нем прямые (переменные, образующие пространство, не коррелируют друг с другом). К числу наиболее часто используемых мер расстояния от- носятся: многомерное евклидово расстояние; расстояние Ма- халанобиса для неортогональных пространств, образованных количественными и квазиколичественными переменными; расстояние Хемминга (city-block) для пространства, образованного дихотомическими переменными; расстояние Чебышева для пространства, образованного порядковыми шкалами одинаковой размерности. Многомерное расстояние Евклида является обобщением двумерного расстояния Евклида на пространства большей размерности. Оно применяется для ортогональных пространств, образованных более чем двумя количественными или квази- количественными переменными: ( ) ( ) ( ) 2 , 1 , k A B i i i d x A x B = = − ∑ (2.1) где dA, B – расстояние между объектами A и B; xi(A), xi(B) – значения переменной xi для объектов A и B; k – количество переменных в пространстве.
Пример 1.1 (продолжение)1 Пространство, изображенное на рис. 2.2, является двумер- ным, поэтому расстояния Евклида для расположенных в нем стран вычисляются при k = 2 (табл. 2.2). В ортогональном пространстве двух переменных Беларусь наиболее близка к Литве (расстояние 1265) и наиболее удалена от Швейцарии (25 093). Вычисление расстояния, например, между Беларусью и Литвой осуществляется следующим образом: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 , 2 2 2 2 12 607 11 342 11,12 10,64 1265 0,48 1265, BY LT d GNP BY GNP LT BR BY BR LT = − + − = = − + − = + = где GNP (Gross National Product) – валовой национальный продукт; BR (Birth Rate) – рождаемость; BY – Беларусь; LT – Литва. Очевидно, что основной вклад в расстояние в данном случае вносят различия в ВВП. Если пространство количественных переменных не является ортогональным, используется расстояние Махаланобиса D, которое также является обобщением евклидова расстояния: если коэффициенты корреляции между всеми переменными равны нулю, расстояние Махаланобиса эквивалентно квадрату евклидова расстояния. Для дихотомических переменных вычисляется расстояние Хемминга (синонимы: city-block, «расстояние городских кварталов», «манхэттенское» расстояние), которое равно количеству несовпадений ответов респондентов A и B по набору дихотомических переменных: ( ) ( ) , 1 . k A B i i i d x A x B = = − ∑ (2.2) 1 Гончаренко А.Н. Многомерный статистический анализ... М., 2022.
Таблица 2.2 Матрица расстояний Евклида, вычисленных по переменным «ВВП» и «рождаемость» для европейских стран Страна Австрия Беларусь Великобритания Латвия Литва Польша Россия Украина Финляндия Швейцария Эстония Австрия 0 11 524 389 9315 12 789 13 971 15 020 19 128 213 13 569 4180 Беларусь 11 524 0 11 135 2209 1265 2447 3496 7604 11 737 25 093 7344 Велико- британия 389 11 135 0 8926 12 400 13 582 14 631 18 739 602 13 958 3791 Латвия 9315 2209 8926 0 3474 4656 5705 9813 9528 22 884 5135 Литва 12 789 1265 12 400 3474 0 1182 2231 6339 13 002 26 358 8609 Польша 13 971 2447 13 582 4656 1182 0 1049 5157 14 184 27 540 9791 Россия 15 020 3496 14 631 5705 2231 1049 0 4108 15 233 28 589 10 840 Украина 19 128 7604 18 739 9813 6339 5157 4108 0 19 341 32 697 14 948 Финлян- дия 213 11 737 602 9528 13 002 14 184 15 233 19 341 0 13 356 4393 Швейца- рия 13 569 25 093 13 958 22 884 26 358 27 540 28 589 32 697 13 356 0 17 749 Эстония 4180 7344 3791 5135 8609 9791 10 840 14 948 4393 17 749 0 Пример 2.1. Вычисление расстояния Хемминга. Алгоритм вычисления расстояния Хемминга для двух объ- ектов А и В представлен в табл. 2.3. Дихотомические перемен- ные принимают значения 0 – «нет», 1 – «да». Таблица 2.3 Вычисление расстояния Хемминга Переменный объект x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 S А 1 1 1 1 1 0 0 0 0 0 В 1 0 1 0 1 0 1 0 1 0 xi(A) – xi(B) 0 1 0 1 0 0 1 0 1 0 4 Таким образом, для данного примера ( ) ( ) 10 , 1 4. A B i i i d x A x B = = − = ∑
Расстояние Чебышева используется для порядковых шкал одинаковой размерности и представляет собой максимальную разность для двух объектов по всем переменным, взятую по аб- солютной величине: ( ) ( ) , 1 max . A B i i x k d x A x B ≤ ≤ = − (2.3) Пример 2.2. Вычисление расстояния Чебышева. Алгоритм вычисления расстояния Чебышева для двух объ- ектов А и В представлен в табл. 2.4. Используются 7-балльные порядковые переменные. Таблица 2.4 Вычисление расстояния Чебышева Переменный объект x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 А 1 2 3 4 5 6 7 5 3 1 В 1 3 5 7 6 5 4 1 2 7 xi(A) – xi(B) 0 1 2 3 1 1 3 4 1 6 В данном случае ( ) ( ) , 1 10 max 6. A B i i x d x A x B ≤ ≤ = − = Заметим, что расстояния Хемминга и Чебышева использу- ются как для ортогональных, так и для неортогональных про- странств. Снижение размерности пространства переменных: поста- новка задачи. Одновременный анализ большого числа пере- менных, в той или иной степени коррелирующих между собой, вызывает значительные затруднения. Задача снижения раз- мерности заключается в том, чтобы уменьшить число анализи- руемых переменных, сохранив при этом большую часть исход- ной информации, и по возможности добиться ортогональности нового пространства, так как большинство методов классифи- кации и изучения причинных связей изначально разработаны для некоррелирующих друг с другом переменных. Все процедуры снижения размерности основаны на идее о том, что тесно коррелирующие между собой переменные из-
Доступ онлайн
В корзину