Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Интеллектуальный анализ данных

Покупка
Артикул: 777111.01.99
Доступ онлайн
600 ₽
В корзину
В учебном пособии рассматриваются вопросы, связанные с популярной сегодня областью машинного обучения и интеллектуального анализа данных. Исследуются основные технологические тренды, наиболее активно использующие алгоритмы интеллектуальной обработки данных, - бизнес, медицина, управление, индустрия. Обсуждаются вопросы терминологии, основные методы анализа и интерпретации данных, методы и инструменты машинного обучения. Приведены вопросы для самопроверки. Для студентов университетов и втузов.
Замятин, А. В. Интеллектуальный анализ данных : учебное пособие / А. В. Замятин. - Томск : Издательский Дом Томского государственного университета, 2020. - 196 с. - ISBN 978-5-94621-898-6. - Текст : электронный. - URL: https://znanium.com/catalog/product/1864765 (дата обращения: 26.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ 

РОССИЙСКОЙ ФЕДЕРАЦИИ

НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ 

ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

А.В. Замятин

ИНТЕЛЛЕКТУАЛЬНЫЙ

АНАЛИЗ ДАННЫХ

Учебное пособие

Томск

Издательский Дом Томского государственного университета

2020

УДК 519.254
ББК 32.81

З26

Замятин А.В.

З26
Интеллектуальный анализ данных : учебное пособие. – Томск :
Издательский Дом Томского государственного университета, 
2020. – 196 с.

ISBN 978-5-94621-898-6

В учебном пособии рассматриваются вопросы, связанные с популяр
ной сегодня областью машинного обучения и интеллектуального анализа 
данных. Исследуются основные технологические тренды, наиболее активно использующие алгоритмы интеллектуальной обработки данных, –
бизнес, медицина, управление, индустрия. Обсуждаются вопросы терминологии, основные методы анализа и интерпретации данных, методы и 
инструменты машинного обучения. 

Приведены вопросы для самопроверки.
Для студентов университетов и втузов.

УДК 519.254

ББК 32.81

Рецензенты:

доктор технических наук, профессор Л.Г. Гагарина
доктор технических наук, профессор С.П. Сущенко

ISBN 978-5-94621-898-6

© Замятин А.В., 2020
© Томский государственный университет, 2020

ОГЛАВЛЕНИЕ

Введение................................................................................................6
1. Актуальность ....................................................................................7
2. Терминология .................................................................................11

2.1. Data Mining / Data Science.......................................................15
2.2. Big Data.....................................................................................18

2.2.1. Основные понятия............................................................20
2.2.2. Свойства Big Data.............................................................21

2.3. Data Mining и Big Data ............................................................22
2.4. Дедукция и индукция..............................................................22

3. Примеры применения.....................................................................23

3.1. Интеллектуальный анализ данных в бизнесе .......................23

3.1.1. Розничная торговля ..........................................................24
3.1.2. Сфера развлечений ...........................................................25
3.1.3. Маркетинг, страхование, работа с персоналом .............26
3.1.4. Примеры применения классификации,
кластеризации и прогнозирования............................................27

3.2. Интеллектуальный анализ данных  
в решении сложных прикладных задач........................................29

3.2.1. Медицина ..........................................................................30
3.2.2. Государственное управление...........................................31

3.3. Интеллектуальный анализ данных  
в ранней диагностике опасных заболеваний................................32
3.4. Интеллектуальный анализ данных  
в индустриальной предиктивной аналитике................................33

4. Основные задачи и классификация методов анализа данных......37

4.1. Этапы интеллектуального анализа данных...........................37
4.2. Общие типы закономерностей при анализе данных ............37
4.3. Группы задач анализа данных................................................38
4.4. Классификация методов..........................................................42
4.5. Сравнительные характеристики основных методов ............44

5. Принципиальные основы машинного обучения..........................46
6. Основные методы анализа и интерпретации данных..................50

6.1. Предварительная обработка данных......................................50

6.2. Оптимизация признакового пространства ............................56

6.2.1. С трансформацией пространства признаков..................57
6.2.2. Без трансформации пространства признаков.................59

6.3. Классификация ........................................................................61

6.3.1. Постановка задачи классификации.................................61
6.3.2. Контролируемая непараметрическая классификация.....65
6.3.3. Контролируемая непараметрическая 
нейросетевая классификация.....................................................66
6.3.4. Классификация по методу машины опорных векторов 70
6.3.5. Деревья решений ..............................................................72

6.4. Неконтролируемая классификация (кластеризация)............84
6.5. Регрессия ..................................................................................89

6.5.1. Понятие регрессии............................................................89
6.5.2. Основные этапы регрессионного анализа......................90
6.5.3. Методы восстановления регрессии.................................91

6.6. Ассоциация...............................................................................92

6.6.1. Описание алгоритма.........................................................95
6.6.2. Пример исполнения алгоритма .......................................96

6.7. Последовательная ассоциация................................................98

6.7.1. Алгоритмы семейства «Априори» ..................................99
6.7.2. Алгоритм GSP.................................................................102

6.8. Многоуровневое машинное обучение.................................107

6.8.1. Бутстрэппинг...................................................................108
6.8.2. Бэггинг.............................................................................109
6.8.3. Стекинг............................................................................111
6.8.4. Бустинг ............................................................................112

6.9. Обнаружение аномалий ........................................................115

7. Визуализация ................................................................................118
8. Нейросетевые подходы и глубокое обучение............................120

8.1. Функции активации...............................................................120
8.2. Основные типы искусственных нейронных сетей .............123
8.3. Сверточные нейронные сети  
(Convolutional Neural Networks) ..................................................131
8.4. Популярные архитектуры CNN............................................134
8.5. Среды и фреймворки глубинного обучения .......................138

9. Обработка естественного языка..................................................140

9.1. Основные задачи обработки текста .....................................140
9.2. Этапы предварительной обработки текста .........................143

10. Критерии точности.....................................................................145

10.1. Метрики качества классификации.....................................145
10.2. Гипотеза A/B........................................................................150
10.3. Каппа-индекс согласия........................................................150
10.4. ROC-кривая..........................................................................152
10.5. Метрика качества прогноза временного ряда...................153
10.6. Метрики качества кластеризации ......................................155

11. Высокопроизводительная обработка данных ..........................157

11.1. Принципы высокопроизводительных вычислений..........157
11.2. Особенности построения вычислительного кластера......161
11.3. Среды и инструменты 
высокопроизводительных вычислений ......................................171

12. Инструменты Data Mining .........................................................176

12.1. Программные инструменты 
для высокопроизводительной обработки данных .....................177

12.1.1. Программная среда.......................................................177
12.1.2. Базы данных..................................................................178
12.1.3. Языки программирования............................................179

12.2. Примеры программных систем..........................................179

12.2.1. Примеры самостоятельных систем.............................179
12.2.2. Примеры облачных систем..........................................180

Вопросы и темы для самопроверки ................................................182
Литература ........................................................................................184

Интеллектуальный анализ данных

6

ВВЕДЕНИЕ

Стремительная технологическая эволюция последних лет в сфере

информационно-коммуникационных технологий позволила сформировать существенный задел в части развитой программно-аппаратной инфраструктуры, поддерживающей накопление и постоянное пополнение архивов данных различной природы и назначения. 

Обостряющаяся конкурентная борьба в различных областях че
ловеческой деятельности – бизнесе, медицине, корпоративном 
управлении и др. – и сложность внешней среды делают крайне востребованными подходы к экспертному использованию имеющихся 
данных для повышения обоснованности и оперативности принятия 
управленческих решений. 

При этом не всегда сегодня возможно непосредственное эффек
тивное применение хорошо проработанного и известного аппарата 
теории вероятностей или математической статистики без учета особенностей конкретной предметной области, компьютерных наук, 
вычислительной сложности известных и распространенных алгоритмов (включая детали хранения, передачи и обработки данных, 
алгоритмов машинного обучения и т.п.), современного и перспективного состояния информационных систем и технологий.

Именно поэтому относительно недавно стала привлекать особое 

внимание область, связанная с высокопроизводительной интеллектуальной аналитической обработкой данных, направленная на то, 
чтобы оперативно извлекать из значительных массивов накопленных и поступающих данных ценные экспертные знания, поддерживая эффективную управленческую деятельность. 

Учитывая междисциплинарный характер этой предметной обла
сти, ее глубину и ярко выраженную прикладную направленность, 
до сих пор существует определенный дефицит систематизированных представлений о ней, на устранение которых в некоторой степени направлено данное пособие.

1. Актуальность

7

1. АКТУАЛЬНОСТЬ

С 1960-х гг. информационно-коммуникационные технологии (ИКТ)

последовательно эволюционировали от простых систем обработки 
файлов до сложных, мощных систем управления базами данных (БД).
Исследования в области БД с 1970-х гг. смещались от ранних иерархических и сетевых баз данных к реляционным системам управления базами данных (СУБД), инструментам моделирования данных, 
а также к вопросам индексирования и организации данных. Пользователи получили гибкий и удобный интерфейс доступа к данным 
с помощью языков запросов (типа SQL), пользовательские интерфейсы, управление транзакциями и т.п. При этом создаваемые и поддерживаемые БД преимущественно имели ограниченный регистрирующий характер, поддерживая рутинные операции линейного 
персонала. Основным требованием к таким системам было обеспечение транзакционности и оперативности выполнения всех изменений.

Технология баз данных начиная с середины 1980-х гг. характеризо
валась популяризацией, широким внедрением и концентрацией исследовательских усилий на новых, все более мощных СУБД. Появились 
новые модели данных, такие как объектно-ориентированные, объектно-реляционные, дедуктивные модели. Возникали различные предметно-ориентированные базы данных и СУБД (пространственные, 
временные, мультимедийные, научные и пр.). Эффективные методы 
онлайновой обработки транзакций (On-Line Transaction Processing;
OLTP1) внесли большой вклад в эволюцию и широкое внедрение реляционной технологии в качестве одного из главных универсальных 
инструментов эффективного хранения, извлечения и управления большими объемами структурированных данных реляционных СУБД. 

С развитием сети Интернет получили развитие и вопросы по
строения распределенных баз данных, создания распределенных 

1 Способ организации БД, при котором система работает большим потоком с небольшими по размерам транзакциями при минимальном времени отклика системы.

Интеллектуальный анализ данных

8

глобальных информационных систем. Многократно возросла интенсивность формирования и архивирования различных данных, 
следствием чего стало развитие масштабируемых программноаппаратных комплексов, дорогостоящих мощных и недорогих 
пользовательских компьютеров и накопителей данных. 

Все это способствовало всплеску развития индустрии ИКТ и сде
лало огромное количество баз данных доступными для хранения разнородной информации в значительных объемах и управления транзакциями в них. При этом все больше актуализировалась потребность 
анализа имеющихся данных в разновременном аспекте с возможностью построения произвольных запросов при условии обработки 
сверхбольших объемов данных, полученных в том числе из различных регистрирующих БД. Использование для реализации таких задач 
традиционных регистрирующих систем и БД крайне затруднительно. 
Например, в регистрирующей системе информация актуальна исключительно на момент обращения к БД, а в следующий момент времени 
по тому же запросу можно ожидать другой результат. Интерфейс 
подобных систем рассчитан на проведение определенных стандартизованных операций, и возможности получения результатов на нерегламентированный произвольный запрос ограничены. Возможности
обработки больших массивов данных также могут быть ограничены 
вследствие ориентации СУБД на нормализованные данные, характерные для стандартных реляционных регистрирующих БД.

Ответом на возникшую потребность стало появление новой тех
нологии организации баз данных – технологии хранилищ данных 
(Data Warehouse1), предполагающей некоторую предварительную 
обработку данных и их интеграцию, а также онлайновую аналитическую обработку (On-Line Analytical Processing; OLAP2).

1Предметно-ориентированная информационная база данных, предназначенная главным образом для поддержки принятия решений с помощью отчетов.
2 Технология анализа данных, предполагающая подготовку агрегированной структурированной многомерной информации на основе больших массивов данных (OLAPкуба), используемой в реляционной БД при построении сложных многотабличных 
запросов.

1. Актуальность

9

Несмотря на очевидную пользу такого инструмента анализа дан
ных, он ориентирован на хорошо нормализованные табличные данные и не предполагает использования целого ряда дополнительного 
аналитического инструментария типа классификации, кластеризации, регрессионного анализа, моделирования, прогнозирования и 
интерпретации многомерных данных и т.п.

Таким образом, сегодня наблюдается высокий уровень развития 

масштабируемой аппаратно-программной ИКТ-инфраструктуры, 
позволяющей увеличивать и без того значительные архивы данных. 
Имеется достаточно существенный задел в области компьютерных 
наук и информационных технологий, разработаны теория и прикладные аспекты теории вероятностей и математической статистики. Вместе с тем следует признать, что присутствует заметный 
избыток данных1 при дефиците информации2 и знаний3. Быстро
растущие объемы накопленных и пополняемых (автоматически, 
а не людьми – как это было когда-то) архивов данных пока существенно превышают способности человека в их практически полезной обработке. Для обострения этого тезиса иногда говорят, что 
«…большие базы данных стали могилами, которые редко посещаются…» Как следствие, важные решения порой принимаются не 
на основе аналитических выводов из информативных БД, а на основе интуиции человека, не имеющего подходящих инструментов 
для извлечения полезных знаний из имеющихся огромных объемов 
данных. 

Поэтому в последние годы стремительное развитие получила об
ласть Data Science / Data Mining 4 (в отечественной литературе 
наиболее используемая аналогия – интеллектуальный анализ 

1 Под данными будем понимать представление некоторых фактов в формализованном виде, пригодном для хранения, обработки и передачи.
2 Под информацией будем понимать сведения в любой форме; в отличие от данных 
информация имеет некоторый контекст.
3 Под знаниями будем понимать совокупность информации о мире, свойствах объектов, закономерностях процессов и явлений, а также правилах их использования 
для принятия решений.
4 Вопросам терминологии посвящена глава 2.

Интеллектуальный анализ данных

10

данных, ИАД), направленная на поиск и разработку методов извлечения из имеющихся данных знаний, позволяющих принимать на 
их основе конкретные, в высокой степени обоснованные, практически полезные управленческие решения.

Рис. 1. Пример обобщенного иерархического представления методологий 

обработки данных при принятии управленческих решений

На рис. 1 приведен пример обобщенного иерархического пред
ставления методологий обработки данных, начиная от интеграции
разнородных источников данных и завершая использованием методов Data Mining для принятия управленческих решений.

Конечный 

пользователь

Бизнес аналитик

Рост уровня 
поддержки бизнесрешений

Аналитик 

данных

Анали
тик
БД

Источники данных 

Статьи, файлы, документы, БД, OLTP

Хранилища данных

OLAP

Анализ данных

Статистический анализ

Представление данных

Визуализация

Data Mining

Исследование информации

Принятие 
решений

2. Терминология

11

2. ТЕРМИНОЛОГИЯ

Рассматривая вопросы терминологии, описывающей обсуждае
мую предметную область интеллектуального анализа данных, 
логично изучить существующую и наиболее устоявшуюся в мире 
англоязычную терминологию, и уже ориентируясь на нее обсудить 
удачные терминологические аналогии, используемые в русскоязычных публикациях по данной тематике.

Выше, в главе 1, отмечено, что с развитием ИКТ-индустрии стре
мительно развиваются возможности генерирования значительных 
массивов данных, при умелом анализе которых могут быть найдены 
полезные знания, позволяющие повысить эффективность принятия 
управленческих решений в бизнесе, медицине или государственном 
управлении. Область, изучающую эти вопросы, принято называть 
Data Mining (сегодня за рубежом даже чаще встречается понятие 
Data Science), а специалиста этой области – Data Scientist. 

На рис. 2 изображен график роста востребованности данных 

специалистов за последние несколько лет. На рис. 3 приведена
диаграмма, отражающая число вакансий специалистов Data Scientist в последнее время на портале для поиска работы. Интересно 
отметить, что на сегодняшний день около 85% всех вакантных позиций такого типа открыты в США, а 15% – в странах Западной 
Европы [108].

Рис. 2. График уровня востребованности специалистов Data Scientist

Интеллектуальный анализ данных

12

Рис. 3. Иллюстрация востребованности специалистов Data Scientist.

Источник: http//www.indeed.com/jobtrends June 2016

0
5000
10000
15000
20000
25000
30000

H2O
Mllib

Theano

Apache MXNet

SAP

Databricks

Apache Flink

Spotfire

Gaffe
JMP
Keras

Ajteryx
Minitab
Pytorch

Scikit Learn

Cognos

Stata

Teradata

Apache Pig

Splunk

Tensorflow

SPSS

MATLAB

Scata

Apache Hive

Microsoft Azure

Google

SAS

Apache Spark

Tableau
Hadoop

C/C++/C#

R

Amazon ML

Java
SQL

Python

Количество вакансий специалистов на Indeed.com

2. Терминология

13

Интересной выглядит визуализация частоты запросов к поиско
вой системе, наглядно демонстрирующая широту использования 
основной и вспомогательной терминологии в данной предметной 
области (рис. 4).  

а
б

Рис. 4. Пример профиля частотности запросов: 

а – о предметной области анализа данных; б – о специалистах

При этом, если посмотреть на желаемый профиль специалиста 

Data Science, то видно, насколько разносторонней (междисциплинарной) квалификацией, с точки зрения современного работодателя, он должен сегодня обладать (рис. 5): 

– SQL – 54%;
– Python – 46%;
– R – 44%;
– SAS – 36%;
– Hadoop – 35%;
– Java – 32%;
– optimization – 23%;
– C++ – 21%4
– visualization – 20%;
– MATLAB – 18%;
– Business Intelligence – 17%;
– distributed – 16%;
– regression – 16%;
– unstructured – 16%;
– Hive – 16%;
– mobile – 15%.

Доступ онлайн
600 ₽
В корзину