Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Методы и средства комплексного анализа данных

Покупка
Основная коллекция
Артикул: 632247.01.99
Доступ онлайн
от 616 ₽
В корзину
Кулаичев, А. П. Методы и средства комплексного анализа данных / А. П. Кулаичев. - 4-е изд., перераб. и доп. - Москва : НИЦ ИНФРА-М, 2016. - 511 с. - ISBN 978-5-16-104593-0 (online). - Текст : электронный. - URL: https://znanium.com/catalog/product/548836 (дата обращения: 26.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.

А.П. Кулаичев





                Методы и средства комплексного анализа данных









Москва

znanium com

электронно-библиотечная система
Инфра-М

2016

А.П. Кулаичев





                Методы и средства комплексного анализа данных










Москва
Инфра-М; Znanium.com

2016

        Кулаичев, А.П.
              Методы и средства комплексного анализа данных / А.П. Кулаичев. -М.: Инфра-М; Znanium.com, 2016. - 511 с.
        ISBN 978-5-16-104593-0 (online)



















         ISBN 978-5-16-104593-0 (online)

© Кулаичев, А.П., 2016

        О Г Л А В Л Е Н И Е

Первому читателю......................................6
Цель четвертого издания...............................7
Глава 1. Изучение прикладной статистики
1.1. Статистические разделы и методы..................9
1.2. Этапы анализа данных........................... 13
1.3. Статистические пакеты.......................... 15
1.4. Организация учебного процесса.................. 19
1.5. Примеры календарных планов......................23
1.6. Темы занятий....................................27
Глава 2. Работа в среде Windows
2.1. Универсальный статистический пакет STADIA.......33
2.2. Порядок диалога.................................42
2.3. Использование формул............................49
2.4. Экранная помощь и совет.........................51
2.5. Буфер обмена....................................52
2.6. Макрокоманды....................................53
2.7. Диагностика ошибок..............................55
Глава 3. Работа с данными
3.1. Электронная таблица.............................58
3.2. Чтение, запись и удаление файлов................60
3.3. Калькулятор.....................................65
3.4. Преобразования..................................67
3.5. Пропуски и выбросы..............................74
3.6. Внешние программы...............................78
Глава 4. Графические средства
4.1. Графический диалог..............................81
4.2. Научная графика и сплайны.......................87
4.3. Деловая графика.................................92
4.4. Трехмерная графика..............................96
Глава 5. Статистические средства
5.1. Статистический диалог..........................105
5.2. Статистические данные..........................108
5.3. Назначение статистических методов..............112
5.4. Статистические гипотезы........................114
5.5. Текстовый редактор результатов.................122
5.6. Обозначения, учебная версия и примеры..........124

Оглавление

Глава 6. Параметрические критерии
6.1. Описательная статистика........................127
6.2. Гистограмма и проверка распределения на нормальность .... 133
6.3. Линейная корреляция............................140
6.4. Критерии Стьюдента и Фишера....................144

Глава 7. Непараметрические критерии
7.1. Критерий хи-квадрат............................150
7.2. Критерии различия сдвига (положения)...........152
7.3. Критерии различия масштаба (рассеяния).........156
7.4. Критерии интегральных различий.................159
7.5. Ранговая корреляция............................160
7.6. Анализ таблиц сопряженности....................162

Глава 8. Дисперсионный анализ факторных эффектов
8.1. Модели факторного эксперимента.................170
8.2. Однофакторный дисперсионный анализ.............177
 8.2.1. Параметрические методы......................177
 8.2.2. Непараметрические методы Крускала-Уоллиса и Джонкхриера.....................................181
 8.2.3. Непараметрические методы Фридмана и Пейджа .183
8.3. Двухфакторный дисперсионный анализ.............186
8.4. Дисперсионный анализ групповых измерений.......192
8.5. Многофакторный дисперсионный анализ............214
8.6. Ковариационный анализ..........................217

Глава 9. Анализ временных рядов
9.1. Анализ и прогнозирование тренда................222
9.2. Корреляционный анализ..........................222
9.3. Спектральный анализ............................230
9.4. Сглаживание и фильтрация.......................245
9.5. Авторегрессионные модели.......................251
9.6. Фурье-модели...................................260

Глава 10. Регрессионный анализ
10.1. Общие регрессионные результаты................276
10.2. Сравнение двух линий регрессии................279
10.3. Простая регрессия.............................281
10.4. Множественная линейная регрессия..............298
10.5. Пошаговая регрессия...........................303
10.6. Общая регрессия...............................309

Оглавление

5

   Глава 11. Многомерные методы
   11.1. Факторный анализ............................315
   11.2. Кластерный анализ...........................350
   11.3. Дискриминантный анализ......................365
   11.4. Шкалирование................................371
   Глава 12. Вероятности и частоты
   12.1. Случайные величины и распределения..........378
   12.2. Вычисления вероятностей.....................380
   12.3. Согласие распределений......................384
   12.4. Согласие частот событий (долей).............387
   12.5. Последовательный анализ.....................390
   12.6. Анализ выживаемости.........................392
   Глава 13. Методы контроля качества
   13.1. Гистограмма качества........................397
   13.2. Диаграмма Парето............................399
   13.3. Контрольные карты...........................400
   Глава 14. Комплексная статистическая аналитика
   14.1. Оценка индивидуальной квалификации..........407
   14.2. Оценка квалификации в коллективных действиях.421
   14.3. Многомерные ряды и зависимости..............436
   14.4. Макроэкономические исследования.............457
    14.4.1. Временные и функциональные зависимости...457
    14.4.2. Деятельность предприятий.................464
    14.4.3. Экономика государства....................475
   Литература........................................486
   Приложение. Методология эргономичных приложений....489

   Предметный указатель..............................502

        ПЕРВОМУ ЧИТАТЕЛЮ

                          «Непродуманная жизнь не стоит того, чтобы ее прожить» [Хаммураби]
На рубеже 80-х нам посчастливилось с десяток лет вести в МГУ комплексный практикум по статистике, программированию и автоматизации эксперимента для старшекурсников и слушателей ФПК (небольшим общим объемом около 40 часов). В течение отведенных на статистику 1015 лекционных и практических часов слушатели, к своему немалому удивлению, начинали понимать в статистике то, что они не поняли на предыдущих объемных общих семестровых курсах. Тогда-то и зародилась идея создания такого методического и инструментального обеспечения, которое сделала бы эту область доступной не только для избранных.
Действительно, обычно профессиональные статистики и написанные ими учебники грешат изложением предмета в плане принципов построения и конструктивных особенностей телеги, в то время как потенциального пользователя волнует, где запрягать лошадь, и сколько, чего, куда и зачем можно увезти. По наблюдениям того времени, лишь отдельные монографии по статистике представлялись сбалансированными и понятными, а большинство статистических пакетов страдали обилием редко употребляемых методов, чрезмерно сложным и запутанным диалогом и тотальным отсутствием пояснений.
Поэтому в первой версии воплощались следующие тезисы:
•   достигнуть максимальной понятности, компактности и лаконичности в изложении материала и операционных средствах (статистика — для Человека);
•   собрать представительный набор элементарных и развитых методов анализа и преобразования данных, покрывающих большую часть типичных практических задач (все необходимое — под рукой);
•   предоставить лаконичные оперативные подсказки и неформальные взаимосвязанные справки по используемым методам (библиотека — на экране);
•   во всех возможных случаях буквально навязать наглядное графическое представление данных и результатов.
Особую признательность автор приносит А.Н. Гусеву, А.А. Макарову, В.Э. Фигурнову, Д.С. Шмерлингу, а также многим профессионалам, коллегам и пользователям за многочисленные обсуждения, настойчивые критические замечания и предложения. Большое спасибо профессору В.В. Налимову за изумительный пример личной стойкости, во многом инициировавший данную работу.
Москва, 1989                канд. физ.-мат. наук. А.П.Кулаичев

ЦЕЛЬ ЧЕТВЕРТОГО ИЗДАНИЯ

Посвящается друзьям и близким,        «Гуны движутся среди гун»
оставшимся во II тысячелетии                  [Бхагавад-Гита: 3, 28]
Достаточно часто приходится наблюдать чисто утилитарный подход к прикладной статистике: есть данные, есть конкретная узкая задача, есть метод для этой задачи, применяем этот метод. Обычно прагматической целью такой деятельности является сделать убедительными для аудитории выводы, очевидные исследователю из содержательных соображений, профессиональной интуиции и опыта. Широко распространены и более прозаические, житейские мотивировки, например: ©у нас все так делают» или ©при обсуждении работы посоветовали оценить различия данных по Вилкоксону — ну мы и оценили» (с глаз долой, из сердца вон). Такому узконаправленному взгляду способствует и большинство учебников, в которых статистические методы излагаются как изолированные, почти не связанные друг с другом разноцелевые разделы.
В противовес этому нашей главной задачей в данном издании является научение творческому подходу к работе с исходными данными, методологии комплексного статистического мышления с целью выжать из данных максимум возможного, потрясти их с разных сторон и разными методами, внимательно вглядываясь в результаты каждого шага, выявляя новые тонкие закономерности и последовательно выдвигая задачи и шаги для их дальнейшего изучения. Очень важно, что при этом высвечивается внутренняя взаимосвязанность и дополнительность различных разделов и методов анализа данных.
Этим подходом проникнуто большинство рассматриваемых в книге примеров, проходящих ©красной нитью» через серии разделов статистического анализа.
Но наиболее полно и всесторонне эта комплексная методология продемонстрирована в специальной заключительной главе 14.
При этом везде особо подчеркивается и предметно доказывается, что одним из важнейших и эффективнейших инструментов исследования является визуальный анализ данных и результатов, когда преимущества наглядно-образного мышления становятся очевидными.

  Москва, 2005                    доктор биол. наук А.П.Кулаичев

Глава 1



            ИЗУЧЕНИЕ ПРИКЛАДНОЙ СТАТИСТИКИ


                                 «Знающий — не говорит, говорящий — не знает» [Лао Дзы]
Введение. Хорошо известно, что в развитых странах практически любое решение (политическое, финансовое, техническое и даже бытовое) принимается только после всестороннего анализа данных. Поэтому изучение прикладной статистики и методов анализа данных является неотъемлемым компонентом образования на всех уровнях, а компьютерные пакеты для аналитических исследований и прогнозирования ежегодно расходятся в десятках тысяч экземпляров и являются настольным рабочим инструментом любого специалиста, так или иначе связанного с информационной сферой. И в нашей стране в последнее время заметен рост понимания значимости таких инструментов, хотя, в силу исторических причин, мы сильно отстали в соответствующем массовом образовании.

Для чего же нужна математическая статистика в нашем мире? Известно, что окружающий нас мир характеризуется постоянной изменчивостью и в нем, наряду с закономерностью, существует и случайность, порождающая много прекрасных вещей, включая разнообразие возможностей и свободу выбора. Однако в практической деятельности люди обычно хотят, чтобы их действия приносили стабильный, полезный и предсказуемый результат.

Действительно, современному человеку ежедневно приходится решать многие проблемы выбора, связанные с организацией производства, сбытом готовой продукции, оптимизацией поставок сырья, областями вложения капитала, эффективностью деятельности персонала, перспективными исследованиями и многое другое. Некоторое время, особенно на этапе становления, все эти вопросы можно решать за счет личной энергии, интуиции и предыдущего опыта. Однако тот, кто серьезно думает о перспективах своей деятельности, обязательно будет накапливать информацию об окружающем мире, пытаясь выделить закономерности из случайностей, чтобы опереться на них в своих действиях, и он будет постоянно искать стабильные и обоснованные критерии выбора, позволяющие стандартизировать процесс принятия решений.

Глава 1. Изучение прикладной статистики

10

Именно таким, изумительным по мощности и гибкости инструментом для выделения закономерностей и отсеивания случайностей, является аппарат математической статистики, созданный многими поколениями выдающихся математиков.

        1.1.   Статистические разделы и методы

В математической статистике для первоначального знакомства целесообразно выделить следующие крупные разделы: описательная статистика, критерии попарных различий, анализ факторных эффектов, регрессионный анализ, анализ временных рядов, многомерные методы, методы контроля качества.
Описательная статистика дает нам основные параметры, характеризующие собранную информацию (см. разд. 6.1): среднее значение, разброс значений или стандартное отклонение, характеристики формы распределения данных (мода, медиана, асимметрия, эксцесс, квантили) и т. п.
Критерии попарных различий оценивают различия между двумя совокупностями данных (см. разд. 6.2, 6.3, 7.1—7.5). Вот типичная ситуация: вы ввели важное нововведение: перешли к новой финансовой стратегии, изменили систему оплаты труда, перешли на выпуск новой продукции, использовали новую технологию, агрохимический прием, метод лечения и т. п. Вам кажется, что это дало положительный эффект, но действительно ли это так? А может быть, этот кажущийся эффект определен вовсе не вашим нововведением, а естественной случайностью типа последовательного выпадения орла при бросании монеты, и уже завтра вы получите прямо противоположный, но столь же случайный эффект? Вы можете теперь заменить приведенные данные на геологические образцы из двух регионов, а проблему — на неслучайность различий в содержании редкоземельных элементов, или же — на данные из совершенно другой области, но методы исследования от этого не изменятся.
Для разрешения подобных дилемм вы формируете два набора чисел, каждый из которых содержит, например, значения важного показателя эффективности вашей деятельности до и после произведенного нововведения: прибыль фирмы за ряд месяцев, объем реализации продукции, производительность труда работников, курс акций, плодовитость, выздорав-ливаемость и т. п. Результат применения критериев парных различий покажет, случайны или неслучайны различия подобных двух числовых выборок. При этом различия можно проанализировать по средним значениям (сдвигу), по разбросу значений (масштабу) или по синхронности изменений значений (корреляции), а также в зависимости от того, под

1.1. Статистические разделы и методы                         11

чиняются ли ваши данные нормальному {гауссову) распределению {параметрические критерии) или нет {непараметрические критерии).
Точно такой же подход применим и при сравнении любых двух альтернатив с целью решения проблемы выбора, например, деятельности двух фирм с целью вложения капитала в акции одной из них, двух способов обработки материалов, двух тактик ведения рекламной компании и т. п.
Факторные эффекты. Далее, часто необходимо выяснить, влияет или нет некоторый фактор на интересующий нас показатель. При этом фактор может быть количественным или качественным и иметь несколько градаций: например, влияние уровня инвестиций на прибыль, типа технологического оборудования на выпуск продукции, качества удобрения на урожайность и т. п. Решать такие задачи призваны методы анализа факторных эффектов или дисперсионного анализа {см. гл. 8).
Прогнозирование. Другая важная задача — прогнозирование будущего поведения некоторого временного ряда: изменение курса доллара, цен и спроса на продукцию или сырье, загрязнения окружающей среды, числа аварий и пр. Для такого временного ряда подбирают некоторое аналитическое уравнение {модель), на основании которого можно предсказать ближайшее или отдаленное будущее со строго статистически обоснованной точностью {или ошибкой) такого прогноза. Выявлению периодических процессов в поведении временных рядов и их динамических взаимосвязей служат методы корреляционного, спектрального и авторегрессионного анализа {см. гл. 9).
Регрессионный анализ. Вопросы моделирования статистических зависимостей между двумя или несколькими переменными решаются в разделе регрессионного анализа {см. гл. 10). С помощью таких моделей можно не только построить прогноз, но и определить оптимальные области для последующего управления и контроля, например, границу, за рамками которой дальнейшее вложение капитала уже не приносит пропорционального увеличения прибыли, наиболее экономичные режимы работы механизмов, безопасное время работы в неблагоприятных условиях и т. п.
Контроль качества. Далее, многих может интересовать, когда необходимо немедленно вмешаться в технологический или управленческий процесс. Не упустить этот важный момент помогут методы контроля качества {см. гл. 13), повсеместное и незамедлительное применение которых во многом определило поразительные успехи японской промышленности. Здесь мы наблюдаем изумительный пример внедрения статистических методов в широкую практику. Практикующими статистиками были сформулированы 6—8 правил оценивания динамики изменения качества продукции и их наглядного представления {так называемые контрольные карты). Эти правила выражены самими простейшими словами, и японские рабочие выучивают наизусть как молитву, после чего каждый про

Глава 1. Изучение прикладной статистики

стой рабочий знает, когда надо вызывать бригаду наладчиков, чтобы избежать многомиллионных потерь от выпуска некачественной продукции.
Многомерные методы. Часто необходимо увидеть закономерность, структуру и группировку в необозримом множестве объектов вашего интереса, каждый из которых описывается множеством переменных. Тогда к вашим услугам многомерные методы (см. гл. 11): дискриминантный, кластерный, факторный анализ и шкалирование. Пусть у вас имеются данные о различных сортах баварского пива, каждый из которых характеризуется множеством переменных: содержанием алкоголя, натрия и других веществ, калорийностью, цветом и т. п. Вы хотите закупать и продавать наиболее дешевое пиво, но близкое по совокупности свойств к очень престижному и дорогому сорту. Другой пример: у вас имеются данные о некотором множестве фирм, требующих кредитования, каждая из которых характеризуется рядом переменных: размером уставного капитала, объемом оборотных средств, числом наименований выпускаемой продукции, производственной мощностью, количеством персонала и т. п. Вы хотите льготно кредитовать только организации, наиболее близкие по совокупности параметров к уже зарекомендовавшему себя кругу ваших клиентов.
Для подобного типа задач, прежде всего, необходимо увидеть, как группируются объекты в многомерном пространстве описывающих их переменных (в нашем трехмерном мире визуализировать многомерные пространства невозможно). В этом плане факторный анализ вычислит новую, сокращенную систему координат, на которую изучаемые объекты будут проецироваться более экономным и информативным образом. Кластерный анализ построит дерево классификации объектов (дендрограмму), на котором ветви отходят от ствола соответственно взаимной удаленности (несхожести) объектов. Дискриминантный анализ подберет уравнение, разбивающее объекты на заданное число классов, используя которое можно успешно классифицировать новые объекты. Если же объекты вашего интереса могут быть оценены только экспертным способом посредством парных взаимных сравнений (психологические несоответствия коллег по работе, различия во взглядах политических лидеров, взаимные близости ряда парфюмерных препаратов и т. п.), то ту же самую проблему поможет решить метод многомерного шкалирования, который подберет нужное метрическое пространство для визуализации и измерения взаимного расположения таких объектов.
Универсальность статистики. Следует подчеркнуть, что методы статистического анализа универсальны и им безразлично, данные из какого источника вы конкретно анализируете: биологию, геологию, социологию или мифологию — они всегда предоставят вам математически четкий результат.

1.1. Статистические разделы и методы                          13

Дополнительные примеры использования статистических методов для решения задач из различных областей реальной практики можно найти в предлагаемой литературе и в гл. 14.
Следующий шаг в классификации и пояснении статистических методов сделан в разд. 5.3.
Последствия незнания. Незнание или неполное знание основ математической статистики может приводить ко многим нежелательным последствиям. Приведем один пример из области медицины [7].
О новых методах диагностики и лечения врачи узнают главным образом из публикаций в медицинских журналах. Познания читателей в статистике обычно скромны, поэтому выводы авторов им приходится принимать на веру. Это было бы не так страшно, если бы публикации предшествовала серьезная проверка результатов. К сожалению проводится она далеко не всегда.

Рис. 1.1. Доля медицинских статей, содержащих статистические ошибки

На рис. 1.1 суммированы результаты четырех исследований использования статистических методов в статьях, опубликованных в медицинских журналах с 1950 по 1976 г. Вертикальными черточками указаны доверительные интервалы (вычисление этих интервалов также является одним из методов статистики), в которые с 95% вероятности попадает истинный процент статей, содержащих ошибки. Как видно статистические ошибки встречаются примерно в половине статей. Как правило, это простейшие ошибки типа отсутствия контрольной группы, использование неслучайных выборок или пренебрежение статистической проверкой гипотез. По неизвестным науке причинам такие ошибки неизменно смещают выводы в пользу предлагаемого авторами метода.
Вред, наносимый подобными ошибками, очевиден. Исследователь заявляет о «статистически достоверном» эффекте лечения, редактор помещает статью в журнал, врач, не способный критически оценить публикацию,

Доступ онлайн
от 616 ₽
В корзину