Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Введение в интеллектуальный анализ данных

Покупка
Артикул: 761279.01.99
Доступ онлайн
250 ₽
В корзину
В работе рассматриваются вопросы, связанные с набирающей популярность областью интеллектуального анализа данных (англ. Data Mining). Изучаются основные технологические тренды, сопровождающие Data Mining, вопросы терминологии. Рассматриваются основные методы и инструменты Data Mining, связанные с высокопроизводительной интеллектуальной аналитической обработкой данных, направленной на то, чтобы оперативно извлекать из значительных массивов накопленных и поступающих данных ценные экспертные знания, поддерживая эффективную управленческую деятельность. Для студентов университетов и втузов.
Замятин, А. В. Введение в интеллектуальный анализ данных : учебное пособие / А. В. Замятин. - Томск : Издательство Томского государственного университета, 2016. - 120 с. - ISBN 978-5-94621-531-2. - Текст : электронный. - URL: https://znanium.com/catalog/product/1663560 (дата обращения: 10.05.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ  
И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ  
НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ  
ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ 
 
 
 
 
 
 
 
 
 
А.В. Замятин 
 
ВВЕДЕНИЕ  
В ИНТЕЛЛЕКТУАЛЬНЫЙ  
АНАЛИЗ ДАННЫХ 
 
Учебное пособие 
 
 
 
 
 
 
 
 
 
 
 
 
Томск  
Издательский Дом Томского государственного университета 
2016 
 

УДК 519.254 
ББК 32.81 
         З269 
 
 
Замятин А.В. 
З269 
Введение в интеллектуальный анализ данных : учеб. пособие. –  
Томск : Издательский Дом Томского государственного  
университета, 2016. – 120 с. 
 
ISBN 978-5-94621-531-2 
 
В работе рассматриваются вопросы, связанные с набирающей популярность областью интеллектуального анализа данных (англ. Data 
Mining). Изучаются основные технологические тренды, сопровождающие 
Data Mining, вопросы терминологии. Рассматриваются основные методы и 
инструменты Data Mining, связанные с высокопроизводительной интеллектуальной аналитической обработкой данных, направленной на то, чтобы оперативно извлекать из значительных массивов накопленных и поступающих данных ценные экспертные знания, поддерживая эффективную управленческую деятельность.  
Для студентов университетов и втузов. 
 
УДК 519.254 
ББК 32.81 
 
Рецензенты: 
С.П. Сущенко, доктор технических наук, профессор; 
Л.Г. Гагарина, доктор технических наук, профессор 
 
 
 
 
 
 
ISBN 978-5-94621-531-2 © Замятин А.В., 2016 
© Томский государственный университет, 2016 

ОГЛАВЛЕНИЕ 

  

ПРЕДИСЛОВИЕ ......................................................................................... 6 

1. АКТУАЛЬНОСТЬ ................................................................................... 7 

1.1. ЭВОЛЮЦИЯ ИНФОРМАЦИОННО-КОММУНИКАЦИОННЫХ 
ТЕХНОЛОГИЙ И ПОТЕНЦИАЛ ИНТЕЛЛЕКТУАЛЬНОГО  
АНАЛИЗА ДАННЫХ ............................................................................. 7 

1.2. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ В БИЗНЕСЕ ........ 11 

1.2.1. Розничная торговля ................................................................. 12 

1.2.2. Сфера развлечений .................................................................. 13 

1.2.3. Маркетинг, страхование, работа с персоналом....................... 13 

1.2.4. Примеры применения классификации,  
кластеризации и прогнозирования ................................................... 15 

1.3. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ В РЕШЕНИИ  
СЛОЖНЫХ ПРИКЛАДНЫХ ЗАДАЧ .................................................. 17 

2. ТЕРМИНОЛОГИЯ ................................................................................ 20 

2.1. DATA MINING ............................................................................... 23 

2.2. BIG DATA ...................................................................................... 26 

2.2.1. Основные понятия ................................................................... 28 

2.2.2. Свойства Big Data .................................................................... 29 

2.3. DATA MINING И BIG DATA ........................................................ 29 

2.4. ДЕДУКЦИЯ И ИНДУКЦИЯ .......................................................... 30 

3. ОСНОВНЫЕ ЗАДАЧИ И КЛАССИФИКАЦИЯ МЕТОДОВ  
АНАЛИЗА ДАННЫХ ............................................................................... 31 

3.1. ЭТАПЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ .......... 31 

3.2. ОБЩИЕ ТИПЫ ЗАКОНОМЕРНОСТЕЙ ПРИ АНАЛИЗЕ 
ДАННЫХ .............................................................................................. 31 

3.3. ГРУППЫ ЗАДАЧ АНАЛИЗА ДАННЫХ ...................................... 32 

3.4. КЛАССИФИКАЦИЯ МЕТОДОВ .................................................. 35 

3.5. СРАВНИТЕЛЬНЫЕ ХАРАКТЕРИСТИКИ  
ОСНОВНЫХ МЕТОДОВ ..................................................................... 37 

4. ОСНОВНЫЕ МЕТОДЫ АНАЛИЗА И ИНТЕРПРЕТАЦИИ  
ДАННЫХ .................................................................................................. 39 

4.1. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ .......................... 39 

4.2. ОПТИМИЗАЦИЯ ПРИЗНАКОВОГО ПРОСТРАНСТВА ............. 45 

4.2.1. С трансформацией пространства признаков ........................... 46 

4.2.2. Без трансформации пространства признаков .......................... 48 

4.3. КЛАССИФИКАЦИЯ ...................................................................... 50 

4.3.1. Постановка задачи классификации ......................................... 50 

4.3.2. Контролируемая непараметрическая классификация ............. 54 

4.3.3. Контролируемая непараметрическая нейросетевая 
классификация .................................................................................. 56 

4.3.4. Классификация по методу машины опорных векторов .......... 60 

4.3.5. Деревья решений ..................................................................... 62 

4.3.6. Неконтролируемая классификация ......................................... 76 

4.4. РЕГРЕССИЯ ................................................................................... 80 

4.4.1. Понятие регрессии................................................................... 80 

4.4.2. Основные этапы регрессионного анализа ............................... 81 

4.4.3. Методы восстановления регрессии ......................................... 81 

4.5. АССОЦИАЦИЯ .............................................................................. 83 

4.5.1. Описание алгоритма ................................................................ 86 

4.5.2. Пример исполнения алгоритма ............................................... 87 

4.6. ПОСЛЕДОВАТЕЛЬНАЯ АССОЦИАЦИЯ .................................... 89 

4.6.1. Алгоритмы семейства «Априори» .......................................... 90 

4.6.2. Алгоритм GSP ......................................................................... 93 

4.7. ОБНАРУЖЕНИЕ АНОМАЛИЙ .................................................... 98 

4.8. ВИЗУАЛИЗАЦИЯ ........................................................................ 100 

5. ВЫСОКОПРОИЗВОДИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ ............ 101 

6. ИНСТРУМЕНТЫ DATA MINING ...................................................... 105 

6.1. ПРОГРАММНЫЕ ИНСТРУМЕНТЫ ДЛЯ 
ВЫСОКОПРОИЗВОДИТЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ ........... 106 

6.1.1. Программная среда ................................................................ 106 

6.1.2. Базы данных .......................................................................... 107 

6.1.3. Языки программирования ..................................................... 108 

6.2. ПРИМЕРЫ ПРОГРАММНЫХ СИСТЕМ .................................... 108 

6.2.1. Примеры самостоятельных систем ....................................... 108 

6.2.2. Примеры облачных систем ................................................... 109 

ВОПРОСЫ И ТЕМЫ ДЛЯ САМОПРОВЕРКИ ...................................... 110 

ЛИТЕРАТУРА......................................................................................... 112 

 

 
 

ПРЕДИСЛОВИЕ 

Стремительная технологическая эволюция последних лет в 
сфере информационно-коммуникационных технологий позволила 
сформировать существенный задел в части развитой программноаппаратной инфраструктуры, поддерживающей накопление и постоянное пополнение архивов данных различной природы и 
назначения.  
Обостряющаяся конкурентная борьба в различных областях человеческой деятельности (бизнесе, медицине, корпоративном 
управлении и др.) и сложность внешней среды делают крайне востребованными подходы к экспертному использованию имеющихся 
данных для повышения обоснованности и оперативности принятия 
управленческих решений.  
При этом не всегда сегодня возможно непосредственное эффективное применение хорошо проработанного и известного аппарата 
теории вероятности или математической статистики без учета особенностей конкретной предметной области, компьютерных наук 
(включая детали хранения и обработки данных, алгоритмов машинного обучения и т.п.), специфики современных информационных технологий. 
Именно поэтому относительно недавно стала привлекать особое внимание область, связанная с высокопроизводительной интеллектуальной аналитической обработкой данных, направленная 
на то, чтобы оперативно извлекать из значительных массивов 
накопленных и поступающих данных ценные экспертные знания, 
поддерживая эффективную управленческую деятельность.  
Учитывая междисциплинарный характер этой предметной области, ее глубину и ярко выраженную прикладную направленность, до сих пор существует определенный дефицит систематизированных представлений о ней, на устранение которых в некоторой степени направлено данное пособие. 

1. АКТУАЛЬНОСТЬ 

1.1. ЭВОЛЮЦИЯ ИНФОРМАЦИОННОКОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ  
И ПОТЕНЦИАЛ ИНТЕЛЛЕКТУАЛЬНОГО  
АНАЛИЗА ДАННЫХ 

С 1960-х гг. информационно-коммуникационные технологии 
(ИКТ) последовательно эволюционировали от простых систем обработки файлов до сложных, мощных систем управления базами 
данных (БД). Исследования в области БД с 1970-х гг. смещались 
от ранних иерархических и сетевых баз данных к реляционным 
системам управления базами данных (СУБД), инструментам моделирования данных, а также к вопросам индексирования и организации данных. Пользователи получили гибкий и удобный интерфейс доступа к данным с помощью языков запросов (типа SQL), 
пользовательские интерфейсы, управление транзакциями и т.п. 
При этом создаваемые и поддерживаемые БД имели преимущественно ограниченный регистрирующий характер, поддерживая 
рутинные операции линейного персонала. Основными требованиями к таким системам были обеспечение транзакционности и оперативность выполнения всех изменений.  
Технология баз данных, начиная с середины 1980-х гг., характеризовалась популяризацией, широким внедрением и концентрацией исследовательских усилий на новые, все более мощные 
СУБД. Появились новые модели данных, такие как объектноориентированные, объектно-реляционные, дедуктивные модели. 
Возникали различные предметно-ориентированные базы данных и 
СУБД (пространственные, временные, мультимедийные, научные 
и пр.). Эффективные методы онлайновой обработки транзакций 
(on-line transaction processing – OLTP1) внесли большой вклад в 
                                                             
1 Способ организации БД, при котором система работает большим потоком с небольшими по размерам транзакциями при минимальном времени отклика системы. 

эволюцию и широкое внедрение реляционной технологии в качестве одного из главных универсальных инструментов эффективного хранения, извлечения и управления большими объемами структурированных данных реляционных СУБД.  
С развитием сети Интернет получили развитие и вопросы построения распределенных баз данных, создания распределенных 
глобальных информационных систем. Многократно возросла интенсивность формирования и архивирования различных данных, за 
которыми следовало развитие масштабируемых программноаппаратных комплексов, дорогостоящих мощных и недорогих 
пользовательских компьютеров и накопителей данных.  
Все это способствовало всплеску развития индустрии ИКТ и 
сделало огромное количество баз данных доступными для хранения 
разнородной информации в значительных объемах и управления 
транзакциями в них. При этом все больше возникала потребность 
анализа имеющихся данных в разновременном аспекте, с возможностью построения произвольных запросов, при условии обработки 
сверхбольших объемов данных, полученных, в том числе, из различных регистрирующих БД. Использование для этих задач традиционных регистрирующих систем и БД крайне затруднительно. 
Например, в регистрирующей системе информация актуальна исключительно на момент обращения к БД, а в следующий момент 
времени по тому же запросу можно ожидать другой результат. Интерфейс таких систем рассчитан на проведение определенных стандартизованных операций и возможности получения результатов на 
нерегламентированный произвольный запрос ограничены. Возможности обработки больших массивов данных также могут быть ограничены вследствие ориентации СУБД на нормализованные данные, 
характерные для стандартных реляционных регистрирующих БД. 
Ответом на возникшую потребность стало появление новой 
технологии организации баз данных – технологии хранилищ данных (англ. Data Warehouse2), предполагающей некоторую предва
                                                             
2 Предметно-ориентированная информационная база данных, главным образом 
предназначенная для поддержки принятия решений с помощью отчетов. 

рительную обработку данных и их интеграцию, а также онлайновую аналитическую обработку (англ. On-Line Analytical Processing, 
OLAP3).  
Несмотря на очевидную пользу такого инструмента анализа 
данных, он ориентирован на хорошо нормализованные табличные 
данные и не предполагает использование целого ряда дополнительного аналитического инструментария типа классификации, 
кластеризации, регрессионного анализа, моделирования, прогнозирования и интерпретации многомерных данных и т.п.  
Таким образом, сегодня наблюдается высокий уровень развития 
масштабируемой аппаратно-программной ИКТ инфраструктуры, 
позволяющей увеличивать и без того значительные архивы данных. Имеется достаточно существенный задел в области компьютерных наук и информационных технологий, разработаны теория 
и прикладные аспекты теории вероятности и математической статистики. Однако при этом следует признать, что присутствует заметный избыток данных 4 при дефиците информации5и знаний6. 
Быстро растущие объемы накопленных и пополняемых (автоматически, а не людьми – как это было когда-то) архивов данных пока 
существенно превышают способности человека в их практически 
полезной обработке. Для обострения этого тезиса иногда говорят, 
что «большие базы данных стали могилами, которые редко посещаются». Как следствие, важные решения порой принимаются не 
на основе аналитических выводов из информативных БД, а на основе интуиции человека, не имеющего подходящих инструментов 

                                                             
3  Технология анализа данных, предполагающая подготовку агрегированной 
структурированной многомерной информации на основе больших массивов данных (OLAP-куба), используемой в реляционной БД при построении сложных 
многотабличных запросов. 
4 Под данными будем понимать  представление некоторых фактов в формализованном виде, пригодном для хранения, обработки и передачи. 
5 Под информацией будем понимать сведения в любой форме; в отличие от данных, информация имеет некоторый контекст. 
6 Под знаниями будем понимать совокупность информации о мире, свойствах 
объектов, закономерностях процессов и явлений, а также правилах их использования для принятия решений. 

для извлечения полезных знаний из имеющихся огромных объемов данных.  
Поэтому в последние годы стремительное развитие получила 
область Data Mining7 (в отечественной литературе наиболее используемая аналогия – интеллектуальный анализ данных, ИАД), 
направленная на поиск и разработку методов извлечения из имеющихся данных знаний, позволяющих принимать на их основе 
конкретные, в высокой степени обоснованные, практически полезные управленческие решения.  
На рис. 1 приведен пример обобщенного иерархического представления методологий обработки данных, начиная от интеграции 
разнородных источников данных и завершая использованием методов Data Mining для принятия управленческих решений. 
 

 

Рис. 1. Пример обобщенного иерархического представления методологий  

обработки данных при принятии управленческих решений 

                                                             
7 Вопросам терминологии посвящена гл. 2. 

1.2. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ  
В БИЗНЕСЕ 

Наибольший интерес к технологиям интеллектуальной обработки данных, в первую очередь, проявляют компании, работающие в условиях высокой конкуренции и имеющие четкую группу 
потребителей (розничная торговля, финансы, связь, маркетинг). 
Они используют любую возможность для повышения эффективности собственного бизнеса через принятие более эффективных 
управленческих решений. Эти компании пытаются найти связь 
между «внутренними» (цена, востребованность продукта, компетентность персонала и т.п.) и «внешними» (экономические показатели, конкуренция, демография клиентов и т.п.) факторами. Это 
позволяет им оценить (прогнозировать) уровень продаж и удовлетворенности клиентов, размер доходов, а также сформулировать 
на основе совокупности всей имеющейся информации практически полезные выводы и рекомендации. Иногда отдача от применения этих инструментов может составлять сотни процентов при 
сравнительно невысокой стоимости внедрения. 
При этом результатом обработки данных должен быть такой 
информационный продукт, который позволяет принять конкретное 
управленческое действие без избыточного «погружения» лица, 
принимающего решение (ЛПР) в детали базовых данных или промежуточной аналитики (например, дать рекомендации по покупке / продаже на финансовом рынке, сформировать перечень мероприятий по увеличению производительности или маркетингу продукта и т.п.). Причем на практике возможна ситуация, при которой 
какое-либо решение в той или иной части необходимо принимать 
обязательно – вопрос только в том, принимается оно на основе 
объективной информации или интуитивно. 
Извлечение своевременной и готовой непосредственно для 
принятия управленческих решений информации из различных источников предполагает создание некоторых информационных 
продуктов. Примерами таких информационных продуктов в бизнесе могут быть ответы на вопросы типа: 

 Какой из продуктов следует рекламировать больше для 
увеличения прибыли?  
 Как следует усовершенствовать программу модернизации 
для уменьшения расходов? 
 Какой процесс производства изменить, чтобы сделать продукт лучше? 
Ключ к ответу на эти вопросы требует глубокого понимания 
имеющихся данных и их индуктивного8 анализа. 
Рассмотрим некоторые примеры применения методов интеллектуального анализа данных, используемых в бизнес-среде и подтверждающих на практике возрастающую актуальность этой интеллектуальной сферы человеческой деятельности. 
 

1.2.1. Розничная торговля 

Используя методы интеллектуального анализа данных, пункт 
розничной торговли (магазин) может фиксировать информацию 
обо всех покупках клиента и рассылать таргетировано9 рекламные 
предложения своим клиентам на основе истории их покупок. Анализируя демографическую информацию о клиентах, магазин может предлагать товары и рекламные предложения для конкретного 
клиентского сегмента. 
Всемирно известная торговая сеть США WalMart – пионер интеллектуального анализ данных, примененного для модернизации 
взаимодействия с поставщиками. Компания WalMart проанализировала транзакции 2 900 магазинов из 6 стран, сформировав хранилище данных объемом 7,5 Тбайт. При этом потребовалось выполнить к данным более 1 млн сложных запросов. Данные использованы для определения паттернов покупателей при совершенствовании мерчендайзинговых10 стратегий для 3 500 поставщиков.  

                                                             
8 От частного к общему. 
9 Таргетинг (англ. target – цель) – рекламный механизм, позволяющий выделить 
целевую аудиторию для демонстрации ей рекламы. 
10 Мерчендайзинг (англ. – merchandising) – искусство сбыта. 

Типовыми вопросами, на которые идет поиск ответов при анализе данных в розничной торговле, являются:  

 Кто ваш покупатель? 
 Как сегментировать клиентов? 
 На какую целевую аудиторию сделать акцент? 
 Какие факторы влияют на решение о покупке? 
 Какова значимость каждого из факторов? 
 Какие товары предлагать в совместных акциях? 
 Какие существуют зависимости в поведении клиентов? 
 На какой объем спроса в будущем ориентироваться? 

1.2.2. Сфера развлечений 

Интересными могут быть примеры анализа данных в сфере развлечений. Например, компания по продаже контента для видеопросмотра может анализировать историю пользовательских запросов и 
предлагать в соответствии с ними индивидуальные рекомендации. 
В Национальной баскетбольной ассоциации США традиционно 
используются инструменты анализа данных для оценки перемещений игроков на площадке, помогая тренерам команд в тактической 
борьбе и выработке стратегий на игру. Еще в 1995 г. такой анализ 
игры между New York Knicks и Cleveland Cavaliers выявил, что защитник Mark Price позволил забить нападающему John Williams из 
команды соперника лишь один бросок из четырех, в то время как 
общая статистика за игру по этому показателю для Cavaliers была 
зафиксирована на уровне 49,30%. Учитывая, что видео всех игр сохраняется фрагментарно, тренер с легкостью может отыскать в 
большом видеомассиве данных любые интересующие моменты и 
проанализировать причину успеха и неудачи в конкретном игровом 
эпизоде, без необходимости часами просматривать все видео в поисках нужного фрагмента.  

1.2.3. Маркетинг, страхование, работа с персоналом 

Наиболее распространенными сегодня примерами использования 
инструментов Data Mining являются различные интернет-магазины и 

Доступ онлайн
250 ₽
В корзину