Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Практикум по анализу данных на языках Python и R

Покупка
Новинка
Артикул: 818735.01.99
Доступ онлайн
350 ₽
В корзину
Данное учебное пособие предназначено для студентов очного отделения, изучающих дисциплину «Анализ данных». Пособие написано в соответствии с программой дисциплины «Анализ данных». Оно предназначено для подготовки бакалавров по направлениям «Экономика» и «Бизнес-информатика» Финуниверситета. В пособии отражены темы: выборочный метод, точечные и интервальные оценки, проверка статистических гипотез, корреляционный анализ, дисперсионный анализ и анализ временных рядов. Пособие может быть использовано как для проведения семинарских занятий, так и для организации самостоятельной работы студентов.
Баюк, О. А. Практикум по анализу данных на языках Python и R : учебное пособие / О. А. Баюк, М. Р. Исаева, М. О. Самсонкин. - Москва : Прометей, 2023. - 100 с. - ISBN 978-5-00172-356-1. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2124862 (дата обращения: 27.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ  
БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ  
«ФИНАНСОВЫЙ УНИВЕРСИТЕТ ПРИ ПРАВИТЕЛЬСТВЕ  
РОССИЙСКОЙ ФЕДЕРАЦИИ»  
(ФИНАНСОВЫЙ УНИВЕРСИТЕТ)

Департамент математики

О.А. Баюк, М.Р. Исаева, М.О. Самсонкин

ПРАКТИКУМ ПО АНАЛИЗУ 
ДАННЫХ НА ЯЗЫКАХ PYTHON И R
 
Учебное пособие

по дисциплине «Анализ данных»
для студентов, обучающихся по направлениям
38.03.01 «Экономика»
38.03.05 «Бизнес-информатика»

МОСКВА
2023
ISBN 978-5-00172-356-1

УДК 519.2
ББК 22.171
 
Б33

Авторы:
О.А. Баюк, кандидат технических наук, доцент Департамента 
математики, Финансовый университет;
М.Р. Исаева, студентка третьего курса факультета экономики 
и бизнеса Финансового университета;
М.О. Cамсонкин, студент третьего курса факультета 
экономики и бизнеса Финансового университета.

 

Б33
Практикум по анализу данных на языках Python 
и R: Учебное пособие / О.А. Баюк, М.Р. Исаева, 
М.О. Cамсонкин. — М.: Прометей, 2023. — 100 с.

ISBN 978-5-00172-356-1
Данное учебное пособие предназначено для студентов 
очного отделения, изучающих дисциплину «Анализ данных». 
Пособие написано в соответствии с программой дисциплины «
Анализ данных». Оно предназначено для подготовки 
бакалавров по направлениям «Экономика» и «Бизнес-информатика» 
Финуниверситета. В пособии отражены темы: выборочный 
метод, точечные и интервальные оценки, проверка 
статистических гипотез, корреляционный анализ, дисперсионный 
анализ и анализ временных рядов. Пособие может 
быть использовано как для проведения семинарских занятий, 
так и для организации самостоятельной работы студентов.

©  Коллектив авторов, 2023
© Издательство «Прометей», 2023
ОГЛАВЛЕНИЕ

Введение .........................................................................................5

Глава 1. Выполнение расчетно-аналитической работы 
с помощью языка PYTHON ..........................................................8
1.1. Загрузка программы  .............................................. 8
1.2. Загрузка исходных данных .....................................10
1.3. Оптимизация данных и вычисление 
дополнительных признаков для каждой компании.....14
1.4. Исследование изменения цен и проведение 
корреляционного анализа ......................................18
1.5. Исследование логарифмических доходностей  
акций ..................................................................27
1.6. Удаление выбросов логдоходностей акций ................28
1.7. Проверка гипотез о нормальности логдоходностей 
для каждой компании ............................................37
1.7.1. Проверка гипотезы по критерию Пирсона ........39
1.7.2. Проверка гипотезы по критерию Шапиро-
Уилка ..................................................................41
1.7.3. Проверка гипотезы по критерию 
Колмогорова-Смирнова .........................................44
1.8. Интервальные оценки параметров 
логарифмических доходностей. Определение 
доверительного интервала ......................................46
1.9. Тест Левена для проверки гипотезы о равенстве 
дисперсий тикеров ................................................47
1.10. Проверка гипотезы о равенстве логдоходностей 
компаний с помощью Т-критерия Стьюдента .............48
1.11. Влияние пандемии на цены акций. Проверка 
гипотезы об изменении средней после пандемии 
с помощью T-критерия Стьюдента ...........................49
1.12. Однофакторный дисперсионный анализ  
по периодам .........................................................52
1.13. Исследование тесноты связи между 
логдоходностями компаний ....................................55
ГЛАВА 2. Выполнение расчетно-аналитической работы 
с помощью языка R .....................................................................58
2.1. Загрузка программы  .............................................58
2.2. Загрузка исходных данных .....................................60
2.5. Исследование логарифмических доходностей  
акций ..................................................................80
2.6. Удаление выбросов логдоходностей акций ................81
2.7. Проверка гипотез о нормальности логдоходностей 
для каждой компании ............................................84
2.7.1. Проверка гипотезы по критерию Пирсона ........86
2.7.2. Проверка гипотезы  
по критерию Шапиро-Уилка ...................................87
2.7.3. Проверка гипотезы по критерию  
Колмогорова-Смирнова .........................................88
2.8. Интервальные оценки параметров 
логарифмических доходностей. Определение 
доверительного интервала ......................................89
2.9. Тест Фишера для проверки гипотезы о равенстве 
дисперсий тикеров ................................................90
2.10. Проверка гипотезы о равенстве логдоходностей 
компаний с помощью Т-критерия Стьюдента .............91
2.11. Влияние пандемии на цены акций. Проверка 
гипотезы об изменении средней после пандемии 
с помощью T-критерия Стьюдента ...........................92
2.12. Однофакторный дисперсионный анализ  
по периодам .........................................................95
Заключение..................................................................................97
Список литературы .....................................................................98
ВВЕДЕНИЕ

В предлагаемом пособии сформулировано задание 
по расчетно-аналитической работе (РАР) по дисциплине 
«Анализ данных» и приведены рекомендации по выполнению 
этого задания с использованием средств программирования 
RStudio и Python. Определены отличия 
в выполнении задания на разных языках программирования 
и сделаны выводы об удобстве использования каждого 
средства программирования на каждом этапе расчетно-
аналитической работы. 
Python — это высокоуровневый, интерпретируемый 
язык программирования, построчно выполняющий 
заданные программы при помощи интерпретатора1. Данный 
язык отличается значительной простотой и удобством 
использования. Python поддерживает разные 
файлы, такие как файлы CSV, файлы Excel, XML и JSON, 
и используется для решения широкого круга задач: проведения 
научных исследований, машинного обучения, веб-
разработок и многого другого. Python удобен для выполнения 
статистических исследований данных больших 
объемов.
Не менее популярным языком программирования 
для проведения анализа данных является R. Это программная 
среда имеет обширный набор библиотек, позволяющих 
совершать глубокий статистический анализ. 
Основное преимущество использования R заключается 
в том, что его можно применять для реализации статистических 
концепций, таких как линейное и нелинейное 
моделирование, анализ временных рядов, кластеризация. 
R позволяет обрабатывать различные структуры данных, 
такие как векторы, списки, матрицы, массивы, факторы 
и фреймы данных. 
Таким образом, обширный функционал самых популярных 
языков программирования и удобство их исполь-

1 Сузи, Р.А. Язык программирования Python: Курс лекций. 3 c.
зования для построения статистических моделей и проведения 
анализа больших объемов данных подчеркивает 
актуальность данного методического пособия. 

ЗАДАНИЕ ПО РАР

1. Скачать дневные цены закрытия акций в течение 
4—7 лет (например, 2015—2019).
Варианты по 3 компании для каждого студента формировать 
с указанием следующих параметров (тикеры 
для каждого варианта должен сообщить преподаватель): 
тикер компании, начальная дата (например, 208 дат 
с недельным шагом с января 2015 г.)
2. Вычислить следующие признаки для каждой компании:
– 
логарифм цены,
– логарифмическую доходность (логдоходность),
– логарифм объёма.
3. Выполнить следующие исследования: 
– предварительная обработка данных,
– описательная статистика,
– найти выбросы и построить диаграммы «Ящик 
с усами»,
– построить диаграммы рассеяния для логарифмов 
цен и логарифмов объёмов торгов.
4. Удалить строки с выбросами в логдоходностях всех 
трех компаний.
5. Выполнить повторение предварительного исследования 
с данными без выбросов: привести описательную 
статистику, построить диаграмму «Ящик с усами» и диаграммы 
рассеяния, построить гистограммы интервальных 
частот и эмпирическую функцию распределения.
6. Выполнить детальный анализ логдоходностей 
для каждой компании с данными без выбросов:
6.1. вычислить точечные оценки параметров нормального 
распределения;
6.2. построить интервальные оценки параметров нормального 
распределения;
6.3. построить диаграммы, содержащие гистограмму 
эмпирической плотности и график теоретической плотности 
распределения;
6.4. построить графики эмпирической функции распределения 
и графики теоретической функции распределения. 
проверить гипотезу о нормальности логдоходно-
стей по критерию хи-квадрат, по критерию Шапиро-Уилка 
и по критерию Колмогорова-Смирнова.
6.5. сравнить результаты проверки по трем критериям;

6.6. для каждой акции проверить на 5%-ном уровне 
значимости гипотезу о том, что дисперсии тикеров равны, 
в каждом случае вычислить также наблюдаемый уровень 
значимости (p-value).
6.7. проверить гипотезы о равенстве средних значений 
логарифмической доходности компаний (двусторон-
ний t-тест без каких-либо предположений об однородности 
дисперсий);
6.8. проверить гипотезы о влиянии пандемии на цены 
и доходности акций, проверить гипотезы об изменении 
средний с помощью критерия Стьюдента.
7. Выполнить однофакторный дисперсионный анализ 
для исследования зависимости средних значений логдо-
ходностей от номера года.
8. Исследовать тесноту связи между логдоходно-
стями. 
9. Оформить соответствующий выполненной работе 
отчёт в MS Word с формулами и с подробным описанием 
всех процедур, а также с таблицами и рисунками, на которых 
должны присутствовать все необходимые обозначения. 
ГЛАВА 1.  
ВЫПОЛНЕНИЕ РАСЧЕТНО-АНАЛИТИЧЕСКОЙ РАБОТЫ 
С ПОМОЩЬЮ ЯЗЫКА PYTHON

Прежде чем перейти к выполнению работы с помощью 
языка программирования Python, необходимо обосновать 
его актуальность и востребованность для решения 
данной задачи. В отличие от привычной программы 
Microsoft Excel, позволяющей выполнять статистические 
исследования и визуализировать данные при помощи 
простых инструментов, Python позволяет быстро анализировать 
большие объемы данных с использованием 
углубленной аналитической базы, строить модели и визу-
ализировать полученные результаты. Широкий доступ 
к различным высокоэффективным библиотекам делает 
Python наиболее доступным и удобным языком программирования, 
предназначенным для анализа данных. Особенно 
хорошо Python показывает себя при работе с большими 
данными (Big Data), анализ которых в среде Excel 
попросту невозможен ввиду ограничения на число строк 
(1048576).

1.1. Загрузка программы 

Для начала необходимо загрузить утилиту Anaconda, 
где можно будет использовать окружение Jupiter 
Notebook. Для этого нужно открыть официальный сайт 
Anaconda.com, выбрать требующуюся разрядность 
и запустить установочный файл. (ссылка для скачивания: 
https://www.anaconda.com/products/distribution).
Рис. 1. Загрузка программы Anaconda

В Anaconda.Navigator — графическом интерфейсе 
рабочего стола — находим окружение Jupiter. Jupyter 
Notebook — это инструмент для создания аналитических 
работ, так как он позволяет хранить вместе код, изображения, 
комментарии, формулы и графики. ПО подготовлено, 
переходим к парсингу данных. Под парсингом 
понимается процесс автоматизированного сбора информации, 
необходимой для анализа.

Рис. 2. Главная страница графического интерфейса 
Anaconda.Navigator
1.2. Загрузка исходных данных

Данные для исследования считываются из базы 
данных Московской биржи. Для этого следует перейти 
по адресу: https://mfd.ru/export/
На сайте MFD в разделе «Мосбиржа Акции и ПИФы» 
найдем тикеры нужных компаний с 2015 года по настоящее 
время. Далее следует задать формат записей формируемого 
списка. Для успешной обработки данных 
об акциях компаний с помощью программы Python установим 
следующие параметры. Промежуток — неделя, 
разделитель — точка с запятой, а вот десятичный разделитель 
лучше выбрать точкой — Python интерпретирует 
float, то есть числа с плавающей точкой, только если 
используется именно таковая.

Рис. 3. Выбор акций нужных компаний и формирование 
формата записей

Вообще формат txt не лучшим образом подходит 
для обработки библиотекой pandas, но это и не худший 
вариант. В любом случае, всегда есть возможность использовать 
формат csv. После нажатия кнопки «получить данные» 
в памяти компьютера сохранился текстовый файл 
с необходимыми данными. Теперь перейдем к загрузке 
этих данных в окружение Jupiter Notebook. 
Рис. 4. Поиск исходного файла

Для формирования имени файла следует использовать 
буквы латинского алфавита, не использовать пробелы. 
После изменения названия файла осуществим его 
загрузку. Для этого необходимо нажать кнопку 'Upload’.

Рис. 5. Загрузка исходного файла

Для создания notebook (нового файла) выбираем 
«New» в верхнем меню, а потом нажимаем «Python 3».
Рис. 6. Создание рабочего файла

Интерфейс Jupiter выглядит следующим образом. 
Добавление ячейки для написания кода происходит нажатием 
клавиши «плюс» на панели управления. Запуск 
кода происходит сочетанием клавиш Cnrl+Enter после 
того, как код выполнен у ячеек появляется нумерация. 
В Jupyter Notebook есть несколько инструментов, используемых 
для добавления описания. С их помощью можно 
не только оставлять комментарии, но также добавлять 
заголовки, списки и форматировать текст. Это делается 
с помощью Markdown. Чтобы поменять тип ячейки, нужно 
нажать на выпадающее меню с текстом “Code” и выбрать 
«Markdown» (либо использовать сочетание клавиш Esc+M).
Преступим к загрузке библиотеки. Первая команда — 
импорт библиотеки pandas. Назовем эту библиотеку pd для удобства 
командой ‘as pd’ (эта процедура называется, по аналогии 
с одной известной игрой, alias — присвоение имени).

Рис. 7. Загрузка библиотеки pandas
Доступ онлайн
350 ₽
В корзину