Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Математически методы и информационные технологии в научных исследованиях

Покупка
Основная коллекция
Артикул: 734225.01.99
Доступ онлайн
800 ₽
В корзину
Учебное пособие предназначено для адъюнктов, обучающихся в ФГБОУ ВО Сибирская пожарно-спасательная академия ГПС МЧС России. Кроме того, материал пособия может быть полезен для магистров и слушателей старших курсов. Основу пособия составил материал курса «Математические методы и информационные технологии в научных исследованиях», преподаваемого для адъюнктов. В пособии рассмотрены некоторые методы статистического анализа данных с применением к практическим задачам, что призвано способствовать совершенствованию профессиональной подготовки будущих специалистов МЧС России. В пособии рассмотрены как классические методы анализа, так и некоторые современные инструменты. В качестве основного технического инструмента выбран язык программирования R для статистической обработки и визуализации данных.
Бабенышев, С. В. Бабёнышев, С. В. Математические методы и информационные технологии в научных исследованиях : учебное пособие / С. В. Бабёнышев, Е. Н. Матеров. - Железногорск : ФГБОУ ВО Сибирская пожарно-спасательная академия ГПС МЧС России, 2018. - 215 с. - Текст : электронный. - URL: https://znanium.com/catalog/product/1082157 (дата обращения: 23.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
МИНИСТЕРСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ ПО ДЕЛАМ ГРАЖДАНСКОЙ
ОБОРОНЫ, ЧРЕЗВЫЧАЙНЫМ СИТУАЦИЯМ И ЛИКВИДАЦИИ ПОСЛЕДСТВИЙ
СТИХИЙНЫХ БЕДСТВИЙ

ФГБОУ ВО СИБИРСКАЯ ПОЖАРНО-СПАСАТЕЛЬНАЯ АКАДЕМИЯ
ГПС МЧС РОССИИ

С.В. Бабёнышев, Е.Н. Матеров

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И ИНФОРМАЦИОННЫЕ
ТЕХНОЛОГИИ В НАУЧНЫХ ИССЛЕДОВАНИЯХ

Учебное пособие

Допущено Министерством Российской Федерации по делам гражданской обороны,
чрезвычайным ситуациям и ликвидации последствий стихийных бедствий
в качестве учебного пособия для адъюнктов образовательных организаций
МЧС России

Железногорск
2018

УДК 311:004.9R
ББК 60.6с515
Б12

Авторы: С. В. Бабёнышев, канд. физ.-мат. наук,
Е. Н. Матеров, канд. физ.-мат. наук

Рецензенты: А.П. Сатин, кандидат технических наук, доцент
(УНК АСИТ ФГБОУ ВО «Академия Государственной противопожарной службы
МЧС России»),
А. Ю. Тараканов, старший научный сотрудник
(ФГБОУ ВО ВНИИ ГОЧС (ФЦ))

Б12
Бабёнышев, С. В., Математические методы и информационные
технологии в научных исследованиях [Текст]: учебное пособие
/ С.В. Бабёнышев, Е.Н. Матеров — Железногорск: ФГБОУ ВО
Сибирская пожарно-спасательная академия ГПС МЧС России,
2018. — 215 с.: ил.

Учебное пособие предназначено для адъюнктов, обучающихся в ФГБОУ
ВО Сибирская пожарно-спасательная академия ГПС МЧС России. Кроме того,
материал пособия может быть полезен для магистров и слушателей старших
курсов. Основу пособия составил материал курса «Математические методы и
информационные технологии в научных исследованиях», преподаваемого для
адъюнктов.
В пособии рассмотрены некоторые методы статистического анализа данных
с применением к практическим задачам, что призвано способствовать совершенствованию профессиональной подготовки будущих специалистов МЧС России. В
пособии рассмотрены как классические методы анализа, так и некоторые современные инструменты. В качестве основного технического инструмента выбран
язык программирования R для статистической обработки и визуализации данных.

УДК 311:004.9R
ББК 60.6с515

c○ ФГБОУ ВО Сибирская пожарно-спасательная академия ГПС МЧС России, 2018
c○ С. В. Бабёнышев, Е. Н. Матеров, 2018

Оглавление

Введение
5

1
Описательная статистика
8

1.1
Характеристики средней тенденции данных
. . . . .
11

1.2
Показатели вариации данных относительно среднего
14

1.3
Показатели формы эмпирических распределений . . .
17

1.4
Программные средства для описательных статистик .
19

1.5
Проверка одномерного распределения на нормальность 22

1.6
Способы графического представления данных
. . . .
29

2
Элементы корреляционного анализа
55

2.1
Линейный коэффициент корреляции Пирсона
. . . .
55

2.2
Коэффициент корреляции Спирмена . . . . . . . . . .
68

2.3
Коэффициент корреляции Кенделла . . . . . . . . . .
72

2.4
Связь коэффициентов корреляции . . . . . . . . . . .
74

2.5
Программная реализация корреляционного анализа .
75

3
Основы регрессионного анализа
78

3.1
Парная линейная регрессия . . . . . . . . . . . . . . .
80

3.2
Множественная линейная регрессия . . . . . . . . . .
93

3.3
Программная реализация линейной регрессии . . . .
97

4
Временные ряды
113

4.1
Общие представления о временном ряде
. . . . . . .
113

4.2
Примеры временных рядов
. . . . . . . . . . . . . . .
121

4.3
Статистические функции временного ряда
. . . . . .
126

4.4
Стационарные временные ряды . . . . . . . . . . . . .
131

4.5
ARIMA-модель временного ряда . . . . . . . . . . . .
139

4.6
Программный анализ временных рядов . . . . . . . .
152

3

Оглавление

Приложение A Язык программирования R
175

A.1 Обзор языка R . . . . . . . . . . . . . . . . . . . . . .
175

A.2 Установка R . . . . . . . . . . . . . . . . . . . . . . . .
178

A.3 Базовые функции R . . . . . . . . . . . . . . . . . . .
180

A.4 Обзор библиотеки ggplot2 . . . . . . . . . . . . . . . .
187

A.5 Обзор библиотек dplyr и magrittr
. . . . . . . . . . .
200

Заключение
208

Литература
209

Предметный указатель
213

Введение

В современных условиях, для организации мониторинга, контроля и предвидения опасных процессов техносферы и явлений
природы, являющихся источниками чрезвычайных ситуаций, описания динамики развития обстановки, необходим объективный статистический анализ данных на основе оценки оперативной деятельности. Анализ данных позволяет осуществлять преобразование
данных и моделирование с целью извлечения полезной информации
и принятия решений. Осуществление такого рода мониторинга и
прогнозирования с целью повышения эффективности повседневной
деятельности оперативных подразделений МЧС России невозможно
без использования математического аппарата и информационных
технологий, поскольку объемы обрабатываемых данных могут быть
колоссальными.
Данное пособие является обзорным введением в методы первичной статистической обработки и визуализации данных, которые
могут стать основой для определения и совершенствования рекомендаций по оценке рисков чрезвычайных ситуаций и решению задач
управленческого характера. Основу материала, представленного в
пособии, составили как классические методы статистического анализа (например, корреляционный и регрессионный анализ), так и
введение в некоторые актуальные понятия с учетом возможностей
практического применения на примерах оперативных данных.
Анализ, моделирование и визуализация данных невозможны
без соответствующего прикладного программного обеспечения. В
данном издании в качестве основного инструмента был выбран
язык программирования R — специализированная программная среда с открытым кодом. Установка и работа в среде R описана в
Приложении A. Коротко отметим, что одними из главных преиму
5

Введение

ществ R перед другими средствами обработки данных являются:
нацеленность на статистическую обработку данных, возможность
получить качественный результат с помощью минимального набора
команд, большие графические возможности, и, что немаловажно,
бесплатность распространения. Практически все иллюстрации в
пособии выполнены авторами с использованием R. В каждой главе
содержится программный код написанный на R либо название соответствующих библиотек, иллюстрирующих как применяется тот
или иной метод.
Следует отметить, что использование информационных технологий и статистического анализа в применении к задачам, отвечающим приоритетным направлениям научно-технической деятельности
МЧС России, рассматривалось в различных учебных пособиях,
например [10], [14, Глава 8], [18], [20] однако использование языка R и некоторых вопросов статистического анализа в указанных
изданиях не рассматривались.
Кратко охарактеризуем содержание пособия.

∙ Глава 1 является вводной и содержит описательные статистики, их программную реализацию в R и некоторые современные
способы визуализации аналитических данных включая неклассические виды графиков.

∙ Глава 2 содержит элементы корреляционного анализа: коэффициенты корреляции Пирсона, Спирмена и Кенделла.

∙ В главе 3 рассмотрены основы регрессионного анализа: построение регрессионной модели, качества и значимости уравнения
регрессии.

∙ Глава 4 посвящена основам теории временных рядов. Здесь
подробно рассматриваются ARMA и ARIMA-модели и их
приложения.

∙ Приложение A посвящено основам языка R, отдельно сделан
обзор некоторых графических возможностей R.

Отметим, что детальное рассмотрение каждого из затронутых
в пособии вопросов выходит далеко за рамки настоящего издания.

Например, теория временных рядов — очень обширная область знаний и краткое знакомство с временными рядами в данном пособии
не охватывает многих вопросов, касающихся сезонных моделей и
спектрального анализа; в пособии не рассматривается логистическая регрессия; вопросы машинного обучения будут рассмотрены в
последующем издании. Данное пособие не призвано заменить классические учебники или научные публикации, а дать представление
о возможных статистических методах и стать идейным введением в
некоторые современные методики.
Б´ольшая часть рассмотренных в пособии примеров охватывает
динамику основных показателей оперативной обстановки в Российский Федерации. Основными источниками данных, представленных
в пособии стали:

∙ Электронная энциклопедия пожарного дела:

http://wiki-fire.org/

∙ Статистика пожаров:

https://sites.google.com/site/statistikapozaro/

∙ Сведения о чрезвычайных ситуациях на территории РФ:

https://sites.google.com/site/svedeniacs/

Авторы благодарны старшему научному сотруднику отдела прикладной информатики Института вычислительного моделирования
СО РАН Ничепорчуку Валерию Васильевичу за предоставление аналитических данных по пожарам в Красноярском крае, обобщаемых
Главным управлением МЧС России по Красноярскому краю.
Пособие основано на курсе дисциплины «Математические методы и информационные технологии в научных исследованиях»,
преподаваемого для адъюнктов направления подготовки 20.07.01
— Техносферная безопасность в ФГБОУ ВО Сибирская пожарноспасательная академия ГПС МЧС России. От читателя требуется знакомство с основами теории вероятностей и математической
статистики, преподаваемыми в рамках разделов курсов «Высшая
математика», «Математическая статистика» или эквивалентных курсов. Например, мы предполагаем знакомство с разделом «Проверка
статистических гипотез».

Глава 1

Описательная статистика

∙ Показатели эмпирических распределений

∙ Программные средства для описательных статистик

∙ Проверка одномерного распределения на нормальность

∙ Способы графического представления данных

С ростом технологий нас все больше окружает информация
самого различного характера и происхождения. Представление информации в формализованном виде, пригодном для коммуникации,
обработки и интерпретации определяет данные. Анализ обстояданные
тельств возникновения чрезвычайных ситуаций (ЧС), прогноз возможного развития явлений природного и техногенного характера, а
также принятие решений по снижению рисков, управлению силами
и средствами невозможен без правильного подхода к исследованию
данных.
В настоящее время, для решения сложных аналитических задач одной из самых передовых областей знаний является наука о
данных (Data Science) — междисциплинарная область, изучающая
наука
о данных
проблемы обобщения, анализа, алгоритмизации и представления
данных в численной и визуальной формах. Наука о данных опирается на инструменты эмпирических наук, статистики, отчетности,
анализа, визуализации, бизнес-аналитики, экспертных систем, машинного обучения, баз данных, хранения данных, интеллектуального анализа данных и больших данных. Наука о данных предлагает

8

следующую «дорожную карту» исследования данных, изображенную
на рис. 1.1.

Рисунок 1.1 — Общая схема анализа данных

1. Сначала осуществляется сбор и импорт данных. При этом
заранее не известно, какие переменные значимы, есть ли пропущенные данные, поэтому входные данные подвергаются
первичной обработке (заполнение пропущенных значений,
сглаживание выбросов, приведение к нормальному распределению и т.п.). Современные информационные технологии
предполагают хранение данных в табличном формате. Общий
принцип, который необходимо соблюдать при рассмотрении
таблиц, следующий: каждой переменной должен соответствовать столбец, каждому наблюдению — строка, а на их пересечении находятся наблюдаемые значения.

Глава 1. Описательная статистика

2. Далее данные преобразовываются в тот формат, который необходим для работы. Преобразование включает в себя как
правило: фильтрацию, позволяющую сконцентрироваться только на интересующих данных, создание новых переменных,
вычисление обобщающих статистик.

3. После преобразования данных для их дальнейшего понимания
существует две основных формы исследования данных: визуализация и моделирование. Поскольку они сами по себе
имеют как сильные, так и слабые стороны, они взаимно дополняют результат, а реальный практический анализ проводится
многократно от визуализации к моделированию и обратно.

Основное отличие разведочного анализа данных от моделирования заключается в том, что результаты разведочного анализа не
используются для выработки управленческих решений, их назначение — помощь в разработке наилучшей стратегии углубленного
анализа, выдвижение гипотез, уточнение особенностей применения
тех или иных математических методов и моделей. Основные цели
разведочного анализа данных:

∙ выявление основных структур
∙ выбор наиболее важных переменных
∙ обнаружение отклонений и аномалий
∙ проверка основных гипотез (предположений)
∙ разработка начальных моделей.

При описании и обработке эмпирических данных можно выделить следующие основные типы анализа:

1. Общая характеристики данных. Для первичной обработки
данных выделяют некоторое среднее значение, вокруг которого «разбросаны» данные. Существуют несколько типов для
характеристики средней тенденции и степени вариации относительно среднего, различного рода симметрии распределения
данных относительно среднего и так далее.

2. Сравнения между различными выборками. Данные из различных выборок сравнивают при помощи статистических те
1.1. Характеристики средней тенденции данных
11

стов для выявления вероятности, что различия между группами вызваны случайными причинами.

3. Сведения о взаимосвязях. Это выделение у данных соответствий и корреляций. При этом корреляция — это показатель
только силы взаимосвязи, не всегда раскрывающий причинноследственную связь. Для прогнозирования выделяют различного рода зависимости.

4. Сведения о структуре данных. Это самый сложный вид
анализа, использующий сразу несколько характеристик. Самая
главная возможность структурного анализа данных, — это
классификация объектов.

1.1
Характеристики средней тенденции
данных

Для анализа средней тенденции выборочных данных (усредненного значения данных — средней температуры, среднего числа
вызовов, среднего дохода, среднего размера, среднего выигрыша и
так далее) используются несколько числовых величин. Мы рассмотрим три из них: среднее арифметическое, медиану и моду. Несмотря
на то, что наиболее часто используемой величиной является среднее арифметическое, каждая из рассматриваемых величин имеет
свои достоинства и недостатки, и, соответственно, свою область
применения.

СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ

Напомним базовые понятия, используемые в математической
статистике. Пусть 𝑋 — исследуемая случайная величина (в общем случае — многомерная), так называемая генеральная совокупность. Реализации 𝑋 в виде последовательности взаимно неза- генеральная
совокупность
висимых и одинаково распределенных случайных величин 𝑋[𝑛] =
{𝑥1, 𝑥2, . . . , 𝑥𝑛} называют случайной выборкой. Значения 𝑥𝑖 называ- случайная
выборка
ют элементами выборки, а их количество 𝑛 — объемом выборки.

Глава 1. Описательная статистика

Одной из основных задач статистического исследования является
описание генеральной совокупности по данной случайной выборке
𝑋[𝑛]. Неубывающая совокупность элементов выборки

min(𝑋[𝑛]) = 𝑥(1) ⩽ 𝑥(2) ⩽ . . . ⩽ 𝑥(𝑛) = max(𝑋[𝑛])

называется вариационным рядом 𝑥(1), 𝑥(2), . . . , 𝑥(𝑛). Напомним, что
статистикой называют функцию от выборочных значений. Функстатистика
ция статистики принимает различные значения от выборки к выборке и может быть использовано при проверке статистических гипотез
или как оценка параметра совокупности.
Статистическая оценка, данная в виде числа (представляющего
точку на числовой прямой) называется точечной. Простейшим
примером точечной оценки является среднее арифметическое. Под
средним арифметическим (выборочным средним) наблюдений 𝑥
среднее
арифметическое
мы понимаем значение

𝑥 = 𝑥1 + 𝑥2 + . . . + 𝑥𝑛

𝑛
= 1

𝑛

(︃ 𝑛
∑︁

𝑖=1
𝑥𝑖

)︃

,

где 𝑥𝑖 — отдельные значения показателя, 𝑛 — количество объектов. Среднее арифметическое является наиболее распространенным
видом средних величин. К плюсам данного понятия можно отнести естественность определения, легкость вычисления и хорошие
математические свойства; к минусам — чувствительность к экстремальным значениям.
В случае, если значения статистического признака сгруппированы по вариантам, то для нахождения среднего используют формулу
для взвешенной среднеарифметической величины
взвешенное
среднее
арифметическое

𝑥 =

𝑛
∑︁

𝑖=1
𝑓𝑖𝑥𝑖

𝑛
∑︁

𝑖=1
𝑓𝑖

,

где 𝑓𝑖 — частоты, соответствующие вариантам. Понятие взвешенной
среднеарифметической величины также подходит для использования

Доступ онлайн
800 ₽
В корзину