Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Интеллектуальный анализ данных

Покупка
Основная коллекция
Артикул: 736554.01.99
Доступ онлайн
700 ₽
В корзину
Практикум предназначен для изучения статистического пакета Statistics SPSS, его интерфейса и способов обмена данными с другими приложениями, а также изучению алгоритмов статистического анализа с использованием табличного процессора Excel и системы компьютерной математики Mathcad. Практикум предназначен для подготовки магистрантов направления 09.04.03 «Прикладная информатика», и может быть использован широким кругом специалистов изучающих методы анализа данных.
Богданов, Е. П. Интеллектуальный анализ данных : практикум для магистрантов направления 09.04.03 «Прикладная информатика» профиль подготовки «Информационные системы и технологии корпоративного управления» / Е. П. Богданов. - Волгоград : ФГБОУ ВО Волгоградский ГАУ, 2019. - 112 с. - Текст : электронный. - URL: https://znanium.com/catalog/product/1087885 (дата обращения: 19.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Министерство сельского хозяйства Российской Федерации

Департамент научно-технологической политики и образования

Федеральное государственное бюджетное

образовательное учреждение высшего образования

«Волгоградский государственный аграрный университет»

Е. П. Богданов

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ 

ДАННЫХ 

ПРАКТИКУМ

для подготовки

магистрантов направления 09.04.03 «Прикладная информатика»

профиль подготовки «Информационные системы

и технологии корпоративного управления»

Волгоград

Волгоградский ГАУ

2019г

УДК   004.67:519.257(07)
ББК 32.81я73
Б - 73

Рецензенты:
доктор технических наук, профессор, декан  факультета подготовки и 
переподготовки инженерных кадров ВолгГТУ Савкин А. Н., 
доктор технических наук, профессор ВолГАУ   О. В. Кочеткова

Богданов Евгений Павлович

Б - 73
Интеллектуальный анализ данных: практикум для маги
странтов направления 09.04.03 «Прикладная информатика» профиль 
подготовки «Информационные системы и технологии корпоративного 
управления» / Е. П. Богданов. – Волгоград: ФГБОУ ВО Волгоградский ГАУ, 2019. – 112 с.

Практикум предназначен для изучения статистического пакета 

Statistics SPSS, его интерфейса и способов обмена данными с другими 
приложениями, а также изучению алгоритмов статистического анализа с использованием табличного процессора  Excel и системы компьютерной математики Mathcad.

Практикум предназначен для подготовки магистрантов направ
ления 09.04.03 «Прикладная информатика», и может быть использован широким кругом специалистов изучающих методы анализа данных.

УДК   519.257  004.67
ББК 32.973.26-018.2я73

 ФГБОУ ВО Волгоградский ГАУ, 2019
 Богданов Е. П.

ОГЛАВЛЕНИЕ

Введение
5

Лабораторная работа № 1. Методы описательной статистики 
в пакете SPSS
7

Определение основных параметров выборки, построение 
таблиц частот и гистограмм
7

Работа с редактором данных
9

Открытие данных в формате электронных таблиц.
11

Создание вектора случайных чисел с помощью пакета SPSS
13

Выбор процедур для анализа
14

Вопросы для написания отчета
19

Лабораторная работа № 2. Проверка статистических гипотез  
в пакете SPSS
20

Отчет по лабораторной работе
28

Лабораторная работа № 3.  Анализ нормальных выборок
29

Глазомерный метод проверки нормальности и оценка доверительных интервалов для средних значений и дисперсий
29

Оценка среднего при неизвестной дисперсии
36

Оценка доверительного интервала для дисперсии
37

Отчет по лабораторной работе
38

Лабораторная работа  №4. Однофакторный дисперсионный 
анализ данных в табличном процессоре EXCEL
39

Проверка влияния обработки с использованием непараметрического критерия
39

Оценивание эффектов обработки
44

Однофакторный дисперсионный анализ
46

Отчет по лабораторной работе
49

Лабораторная работа  №5. Проверка влияния обработки с 
использованием непараметрического критерия и однофакторный дисперсионный анализ данных в программе SPSS
50

Однофакторный анализ в пакете SPSS
55

Отчет по лабораторной работе
57

Лабораторная работа № 6. Двухфакторный анализ при оценке 
влияния эффекта обработки  в пакете SPSS
58

Развернутые статистические характеристики для каждой 
группы
64

Отчет по лабораторной работе
68

Лабораторная работа №7. Двухфакторный анализ в  табличном процессоре Excel
69

Таблица двухфакторного анализа
70

Статистика Фридмана
75

Правило проверки гипотезы
75

Оценка параметров статистической модели
77

Двухфакторный дисперсионный анализ
80

Отчет по лабораторной работе
83

Лабораторная работа № 8. Регрессионный анализ в пакете 
SPSS
84

Отчет по лабораторной работе
94

Лабораторная работа № 9. Анализ таблиц сопряженности для 
данных, измеренных в номинальных шкалах, и различные 
виды коэффициентов корреляции в пакете SPSS
95

Использование различных видов коэффициентов корреляции
101

Отчет по лабораторной работе
103

Лабораторная работа № 10. Использование критериев согласия для оценки соответствия  фактических данных выбранному закону распределения
104

Отчет по лабораторной работе
108

Список рекомендованной литературы
109

ВВЕДЕНИЕ

В любой области науки и техники большое значение играет об
работка и анализ данных. Этот анализ должен учитывать, что на изу
чаемые процессы и явления действует большое число разнообразных 

факторов. Причем многие из них не могут быть учтены в используе
мых моделях. Потому исследуемые данные всегда содержат случай
ную составляющую, о природе которой строятся только догадки. 

Классической основой извлечения знаний из накопленных дан
ных является математическая статистика, которая базируется  на 

принципе случайного выбора и случайности, статистических законах 

и статистических моделях. Большое значение в развитии современно
го общества играет статистический прогноз и оценки его доверитель
ных интервалов. Существует большое количество программных про
дуктов, которые значительно упрощают громоздкие вычисления и 

упрощают анализ, однако при их использовании кажущаяся простота 

вычислений, достигаемая использованием программного обеспечения, 

не позволяет начинающему исследователю понять алгоритмы вычис
лений, оценить гипотезы, лежащие в их основе, оценить достовер
ность и надежность получаемых результатов.   

В настоящее время сформировалось мнение, что методы математи
ческой статистики оказались полезными, главным образом, для проверки 

заранее сформулированных гипотез и для «грубого» разведочного анали
за, составляющего основу оперативной аналитической обработки дан
ных.  Это в какой-то мере оправдано, когда речь идет об обработке очень 

больших объёмов данных и огромном числе действующих факторов.

Однако при  небольшом числе данных, с которыми имеют дело аналити
ки при исследовании эффектов обработки, сравнении выборок между со
бой, однофакторном и многофакторном анализе небольших выборок ме
тоды математической статистики оказываются незаменимы. Поэтому в 

данном пособии основное внимание уделено  освоению статистического 

пакета  Statistics SPSS и изучению алгоритмов статистического анализа 

средствами табличного процессора Excel и системы компьютерной ма
тематики Mathcad, которые позволяют детально изучить алгоритмы раз
личного вида оценок, методах вычисления параметрических и непара
метрических критериев.  В деталях рассмотреть и почувствовать, как 

влияет объём выборки на точность получаемых оценок.

Часть интеллектуального анализа данных, которая связывается с  

широким спектром процедур автоматического анализа данных высоко
интеллектуальными технологиями, была рассмотрена при изучении при
кладной информатике в курсе бакалавриата. Для этого была использова
на  аналитическая платформа Deductor, с использованием которых про
изводилась предобработка данных, создавались нейронные сети, позво
ляющие аппроксимировать многопараметрические зависимости, прово
дить кластеризацию больших совокупностей данных, получать деревья 

решений и создавать ассоциативные правила. Дальнейшее развитие  

навыков и умений в данном направлении будет   осуществлено при изу
чении дисциплины  "Математические и инструментальные методы под
держки принятия решений".

Важно отметить, что  методы статистического анализа данных 

являются универсальными и могут применяться в самых различных 

областях человеческой деятельности.  В пособии существенное вни
мание уделено  непараметрическим методам оценивания, которые яв
ляются  робастными (устойчивыми)  и имеют более широкие границы 

применения, чем классические методы статистики, созданные в  XIX 

и первой половине XX века.

ЛАБОРАТОРНАЯ РАБОТА № 1. 

МЕТОДЫ ОПИСАТЕЛЬНОЙ 

СТАТИСТИКИ В ПАКЕТЕ SPSS

Определение основных параметров выборки, построение 

таблиц частот и гистограмм

В примере, представленном здесь, используется файл дан
ных demo.sav. Файл данных представляет собой данные вымышленно
го опроса нескольких тысяч человек, содержащие демографическую 

информацию и информацию о потреблении.

Для открытия файла используйте  кнопку Открыть файл в пане
ли инструментов

После открытия файла demo.sav получим окно редактора данных

Рисунок 1 Окно редактора данных со значениями

Если в Редакторе данных навести курсор мыши на имя пере
менной (заголовок столбца), появится метка (более подробное описа
ние) переменной, если только она задана. По умолчанию, в Редакторе 

данных показаны значения данных. Чтобы были показаны метки: Вы
берите в меню: Вид > Метки значений.

Рисунок 2 – Выбор вида представленияданных

с указанием меток значений.

Файлы данных IBM® SPSS® Statistics организованы по наблю
дениям (строкам) и переменным (столбцам). В нашем файле данных 

наблюдения представляют отдельных респондентов опроса. А пере
менные представляют ответ на каждый вопрос, задававшийся в ходе 

опроса.

Рисунок 3 – Окно редактора с метками значений

Теперь в Редакторе данных отображаются описательные метки 

значений, облегчающие интерпретацию ответов.

Работа с редактором данных

В Редакторе данных отображается содержимое активного набо
ра данных. Информация в Редакторе данных состоит из переменных и 

наблюдений.

• В закладке Данные столбцы представляют собой переменные, 

а строки - наблюдения.

• В закладке Переменные, строки представляют переменные, а 

столбцы - свойства переменных.

Переменные используются для представления анализируемых 

данных. Для примера можно взять опрос. Любой вопрос, на который 

можно дать один ответ, представляет собой одну переменную. Пере
менные бывают различных типов, включая числовые, текстовые, ва
люту и даты

Данные можно вводить в Редакторе данных. Это может иметь 

смысл, когда объем данных невелик или когда необходимо внести не
большие изменения или добавления в данные большого объема.

Щелкните по закладке Переменные внизу окна Редактора дан
ных.

Необходимо задать переменные, которые будут использоваться. 

Мы зададим только три переменные: возраст, семейное положение 

и доход. На рис . 4 показан английский эквивалент переменных.

Рисунок 4 – Окно редактора данных при нажатой кнопке Переменные

Новые переменные автоматически становятся числовыми. 

Можно изменить тип переменных, выбирая из списка. В окне Пере
менные можно изменить количество десятичных знаков после запя
той, общее количество знаков, выделяемое под значение, изменить 

тип шкалы, в которой производится измерение анализируемой вели
чины.

Если не вводить имена переменных, а сразу начать ввод данных 

в окне Данные, то уникальные имена будут созданы автоматически 

(типа VAR1, VAR2 и т.д.). Однако эти имена не несут в себе содержа
тельной информации, и использовать их в больших файлах данных не 

рекомендуется.

В программе SPSS предусмотрена возможность импорта данных 

из других форматов. Рассмотрим только импорт файлов табличного 

процессора Excel и текстовых файлов.

Открытие данных в формате электронных таблиц.

► Выберите в меню: Файл> Открыть > Данные.

► Выберите Excel (*.xls) в качестве типов файлов, которые 

нужно просмотреть.

► Откройте файл demo.xls.

Открывается диалоговое окно Открытие файлов Excel (Рис. 6), 

которое позволяет указать, должны ли читаться имена переменных из 

электронной таблицы, а также задать диапазон ячеек, которые будут 

импортироваться.

В Excel версии 95 или более поздних версий можно также ука
зать, какие листы необходимо импортировать.

► Убедитесь, что флажок Читать имена переменных из первой 

строки данных установлен. Этот параметр включает чтение заголов
ков столбцов в качестве имен переменных.

Если заголовки столбцов не соответствуют требованиям IBM® 

SPSS® Statistics к именам переменных, они будут преобразованы в 

допустимые имена переменных, а исходные заголовки столбцов будут 

сохранены в качестве меток переменных.

Рисунок 5 -Открытие файла с данными типа sav, xls.

Рисунок 6 – Окно открытия файлов EXCEL

Доступ онлайн
700 ₽
В корзину