Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Популярное введение в современный анализ данных в системе STATISTICA

Учебное пособие для вузов
Покупка
Артикул: 450369.01.01
Книга открывает широкому кругу читателей современный анализ дан- ных в программе STATISTICA. STATISTICA (производитель StatSoft, USA) занимает лидирующее положение среди программ анализа данных и имеет сотни тысяч зарегистрированных пользователей в России и мире. На про- стых, ясных примерах популярно описаны современные методы анализа данных - визуальный анализ и графическое представление данных, описа- тельные статистики, методы классификации и прогнозирования. Классические методы дополнены самым современным инструментари- ем, включая нейронные сети и DataMining. Читатель знакомится с методами и компьютерными технологиями анализа данных и учится применять их на практике, основной лейтмотив книги - теория неотделима от практики. Для широкого круга читателей, желающих познакомиться с современ- ными методами и компьютерными технологиями анализа данных и их при- менением в различных областях: экономика, маркетинг, финансы, страхова- ние, промышленность, телекоммуникации, медицина и др. Книга будет осо- бенно полезна студентам и преподавателям вузов при проведении учебных и практических занятий.
Боровиков, В. П. Популярное введение в современный анализ данных в системе STATISTICA: Учебное пособие для вузов / В.П. Боровиков. - Москва : Гор. линия-Телеком, 2013. - 288 с.: ил.; + CD-ROM. (обложка, cd rom)ISBN 978-5-9912-0326-5. - Текст : электронный. - URL: https://znanium.com/catalog/product/425084 (дата обращения: 26.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
М осква
Горячая линия - Телеком
2013

 
УДК 004.9:519.25 
ББК 32.973 
     Б83 

 
Боровиков В.П. 
Б83  Популярное введение в современный анализ данных в системе 
STATISTICA. Учебное пособие для вузов. – М.: Горячая линия – 
Телеком, 2013. – 288 с., ил.  

ISBN 978-5-9912-0326-5. 

Книга открывает широкому кругу читателей современный анализ данных в программе STATISTICA. STATISTICA (производитель StatSoft, USA) 
занимает лидирующее положение среди программ анализа данных и имеет 
сотни тысяч зарегистрированных пользователей в России и мире. На простых, ясных примерах популярно описаны современные методы анализа 
данных – визуальный анализ и графическое представление данных, описательные статистики, методы классификации и прогнозирования. 
Классические методы дополнены самым современным инструментарием, включая нейронные сети и DataMining. Читатель знакомится с методами 
и компьютерными технологиями анализа данных и учится применять их на 
практике, основной лейтмотив книги – теория неотделима от практики.  
Для широкого круга читателей, желающих познакомиться с современными методами и компьютерными технологиями анализа данных и их применением в различных областях: экономика, маркетинг, финансы, страхование, промышленность, телекоммуникации, медицина и др. Книга будет особенно полезна студентам и преподавателям вузов при проведении учебных и 
практических занятий. 
ББК 32.973 

 

Адрес издательства в Интернет WWW.TECHBOOK.RU 
 
Учебное издание 
Боровиков Владимир Павлович 
Популярное введение в современный анализ данных  
в системе STATISTICA  
Учебное пособие для вузов 
 

Подготовка оригинал-макета  Н. В. Дмитриевой 
Обложка художника  В. Г. Ситникова 
 
 
Подписано  в  печать  15.03.13.  Формат 70×100/16.  Усл. изд. л. 24.  Изд. № 8015 
 

ISBN 978-5-9912-0326-5                                                           © В. П. Боровиков, 2013 
                                                         © Издательство «Горячая линия – Телеком», 2013 

 

Оглавление 

ВВЕДЕНИЕ. ПРИГЛАШЕНИЕ В СОВРЕМЕННЫЙ АНАЛИЗ ДАННЫХ 
НА КОМПЬЮТЕРЕ ..................................................................................................................5 
ГЛАВА 1. ПЕРВЫЕ ШАГИ В STATISTICA ..........................................................................11 
1.1. Запуск программы......................................................................................................11 
1.2. Рабочее окно STATISTICA: классическое меню или Лента ....................................12 
1.3. Панели инструментов ................................................................................................14 
1.4. Аналитические модули STATISTICA ........................................................................16 
1.5. Создание файла данных.  Пример 1: результаты олимпийских чемпионов .........18 
1.6. Пример 2. Импорт газа и топлива в США................................................................25 
1.7. Вычисление дескриптивных статистик  исходных данных....................................32 
1.7.1. Некоторые сведения из элементарной статистики.........................................32 
1.7.2. Вычисление описательных статистик в STATISTICA...................................35 
1.8. Корреляции: определения и вычисления .................................................................38 
1.9. Простейшая визуализация: диаграммы рассеяния и гистограммы........................39 
1.9.1. Диаграмма рассеяния........................................................................................39 
1.9.2. Гистограмма ......................................................................................................42 
ГЛАВА 2. ВЕРОЯТНОСТНЫЙ КАЛЬКУЛЯТОР И ВЕРОЯТНОСТНЫЕ 
РАСПРЕДЕЛЕНИЯ.................................................................................................................44 
2.1. Вероятностный калькулятор .....................................................................................44 
2.1.1. Нормальное распределение..............................................................................46 
2.1.2. Распределение хи-квадрат................................................................................52 
2.1.3. t-распределение Стьюдента..............................................................................54 
2.1.4. Распределение Фишера.....................................................................................58 
2.1.5. Логаримфически-нормальное распределение ................................................60 
2.2. Биномиальное распределение и игровые задачи.....................................................62 
2.2.1. Задача о коровах................................................................................................65 
2.2.2. Задача шевалье де Мере ...................................................................................67 
2.2.3. Измененная задача шевалье де Мере ..............................................................68 
2.2.4. Еще одна задача игрока ....................................................................................70 
2.2.5. Задачи для самостоятельного решения ...........................................................72 
2.2.6. Генуэзская лотерея............................................................................................72 
2.3. Генерация случайных чисел в STATISTICA .............................................................74 
ГЛАВА 3. ВИЗУАЛЬНЫЙ АНАЛИЗ ДАННЫХ .................................................................76 
3.1. Двумерный визуальный анализ данных...................................................................76 
3.1.1. Гистограммы......................................................................................................76 
3.1.2. Диаграммы рассеяния.......................................................................................83 
3.2. Трехмерный визуальный анализ данных .................................................................91 
ГЛАВА 4. КЛАССИФИКАЦИЯ ДАННЫХ В STATISTICA ................................................94 
4.1. Обзор метода...............................................................................................................94 
4.2. Постановка задачи......................................................................................................94 
4.3. Пример Фишера: классификация цветов ирисов.....................................................96 
4.4. Обобщенный дискриминантный анализ.................................................................108 
ГЛАВА 5. КЛАСТЕРИЗАЦИЯ: МОДУЛЬ КЛАСТЕРНЫЙ АНАЛИЗ ............................115 
5.1. Обзор метода.............................................................................................................118 
5.2. Постановка задачи, обзор методов .........................................................................120 

Популярное введение в современный анализ данных в системе STATISTICA 

5.3. Модуль Кластерный анализ – технология, пошаговый разбор примера.............121 
ГЛАВА 6. РЕГРЕССИОННЫЙ АНАЛИЗ В STATISTICA – МОДУЛЬ 
МНОЖЕСТВЕННАЯ РЕГРЕССИЯ.....................................................................................129 
6.1. Описание модели......................................................................................................130 
6.2. Метод решения .........................................................................................................131 
6.3. Технология регрессионного анализа в STATISTICA..............................................136 
6.4. Пошаговые примеры................................................................................................143 
6.5. Примеры использования средства кисть  для анализа данных ............................150 
6.6. Задачи для самостоятельного решения ..................................................................154 
ГЛАВА 7. АНАЛИЗ ВЫЖИВАЕМОСТИ В STATISTICA .................................................158 
7.1. Таблицы жизни.........................................................................................................160 
7.2. Оценки Каплана – Мейера.......................................................................................165 
7.3. Сравнение выживаемости в группах ......................................................................168 
7.4. Регрессионные модели в анализе выживаемости..................................................169 
ГЛАВА 8. АВТОМАТИЗИРОВАННЫЕ НЕЙРОННЫЕ СЕТИ STATISTICA (SANN).....172 
8.1. Основные парадигмы нейронных сетей.................................................................173 
8.2. Математические модели ..........................................................................................174 
8.3. Обучение и кросс-проверка.....................................................................................175 
8.4. Модель Розентблатта ...............................................................................................176 
8.5. Пошаговый пример: прогнозирование временных рядов с помощью  
нейронных сетей..............................................................................................................177 
ГЛАВА 9. DATA MINING – ДОБЫЧА ДАННЫХ ............................................................187 
9.1. Этапы работы в Data Mining....................................................................................187 
9.2. Меню STATISTICA Data Miner.................................................................................189 
9.3. Средства анализа STATISTICA Data Miner .............................................................192 
9.4. Пример проекта в STATISTICA Data Miner.............................................................192 
ГЛАВА 10. ПОПУЛЯРНОЕ ВВЕДЕНИЕ  В ТЕОРИЮ ВЕРОЯТНОСТЕЙ.....................198 
10.1. Формула полной вероятности ...............................................................................201 
10.2. Формула Байеса......................................................................................................201 
10.3. Классическое вероятностное рассуждение ..........................................................204 
10.4. Вероятностные модели в биологии.......................................................................207 
10.5. Вероятностные модели в телекоме.......................................................................208 
10.6. Выборочный контроль качества............................................................................211 
10.7. Занимательные вероятностные задачи .................................................................213 
10.8. Вероятностный подход к задачам классификации..............................................218 
ПРИЛОЖЕНИЕ 1. ЯЗЫК STATISTICA VISUAL BASIC....................................................222 
ПРИЛОЖЕНИЕ 2. ПОДКЛЮЧЕНИЕ К БАЗЕ ДАННЫХ.................................................224 
ПРИЛОЖЕНИЕ 3. ОПЕРАЦИИ СТЕКИНГ И АНСТЕКИНГ...........................................233 
ПРИЛОЖЕНИЕ 4. ГАЛЕРЕЯ ГРАФИКОВ STATISTICA...................................................238 
БИБЛИОГРАФИЧЕСКИЙ СПИСОК..................................................................................285 
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ .............................................................................................286 

 

Введение. Приглашение  
в современный анализ данных на компьютере 

Эта книга посвящена анализу данных – мощному методу исследования окружающего мира, в котором мы существуем и в котором необходимо принимать осознанные решения. Если вы инженер, актуарий, маркетолог, аналитик, врач, то эта книга для вас. 
В современном информационно организованном мире невозможно обойтись без 
всестороннего исследования данных и, следовательно, без системы, позволяющей провести этот анализ. STATISTICA является лидером среди программ статистической обработки данных в среде Windows.  
На простых примерах, взятых из различных областей человеческой деятельности: 
экономика, бизнес, маркетинг, промышленность, телекоммуникации, медицина и др., мы 
показываем, как анализируются данные в системе STATISTICA, объединяющей в едином  
интерфейсе классические и современные методы анализа данных.  
Лейтмотивом книги является соединение методологии и компьютерной технологии 
анализа данных. 
Материал в книге расположен таким образом, что вы можете повторить все описанные действия вслед за нами на собственном компьютере. Упражнения и задачи для самостоятельной работы позволят углубить понимание предмета. 
Наш опыт показывает, что без самостоятельной работы с данными вы не сможете 
овладеть анализом данных, так же как не сможете научиться плавать, не входя в воду. 
Собственно наша цель состоит в том, чтобы научить вас использовать программу 
STATISTICA в своих целях. 
Исследование данных имеет свою последовательность: вначале данные нужно загрузить 
в систему из внешних баз данных. Далее необходимо провести чистку данных, удалить выбросы, заполнить пропуски, визуализировать данные, представить в удобном для исследования виде. Затем использовать разнообразные аналитические процедуры разведочного анализа (группировку, кластерный и дисперсионный анализ, регрессионные модели и др.) позволяющие найти закономерности и сформулировать разумные гипотезы о структуре данных. 
Именно эта последовательность действий реализована в системе STATISTICA в виде диалоговых окон с предопределенными настройками анализа. 
STATISTICA позволяет провести эти действия в удобной графической среде, гибко 
настраиваемой по желанию пользователя. 
Мы включили в книгу большое количество самых разнообразных примеров, чтобы 
пользователь повторил вслед за нами действия на компьютере. Именно в повторении 
действий и выполнении упражнений заключается лейтмотив книги. 
Если у вас осталось смутное представление о науке статистике после института, 
не отчаивайтесь: примеры и упражнения подобраны таким образом, что доступны даже 
школьникам старших классов. Делайте вслед за нами, и вы научитесь решать задачи с 
помощью STATISTICA самостоятельно! 
В самой науке статистика нет ничего сложного; следует напомнить, что первоначально большинство задач статистики возникло из игр: бросание костей, монет, карточных игр, рулетки. Близки к ним лотереи и разнообразные задачи на угадывание. Подобные задачи формулируются совершенно просто, «без всяких заумностей». Они доступны 
любому человеку со здравым мышлением. 
Математика (гр. mathÛma – знание, понимание) призвана объяснять закономерности, 
наблюдаемые на опыте, а не затемнять сознание сложными формулами и манипуляциями над числами. 

Популярное введение в современный анализ данных в системе STATISTICA 

Известная задача о том, стоит ли ставить на выпадение двух шестерок одновременно 
при бросании пары костей, возникла во Франции в конце XVII века из наблюдений за 
игрой. В STATISTICA эта задача может быть решена несколькими щелчками мыши. 
И мы покажем, как это сделать. 
В системе STATISTICA есть замечательное средство – вероятностный калькулятор, 
пользоваться которым так же просто, как обычным калькулятором. Многие элементарные вероятностные задачи могут быть решены с помощью этого средства. Мы научим 
вас пользоваться вероятностным калькулятором, а также строить разнообразные статистические графики: гистограммы, диаграммы рассеяния, графики типа «ящики с усами», 
вычислять простейшие статистики: среднее, стандартное отклонение, корреляции, процентные точки и т. д. Мы научим вас также генерировать случайные последовательности 
в STATISTICA, например, последовательности, возникающие при бросании монет. 
Мы научим вас решать простейшие игровые задачи, доводя их до численного результата с помощью STATISTICA. 
Слышали ли вы когда-нибудь о Генуэзской лотерее или о задачах, предложенных 
Сэмуэлем Пепайсом Ньютону? Если нет, мы расскажем вам об этих задачах и покажем, 
как они решаются с помощью STATISTICA. 
В этой книге популярно рассказывается о современном анализе данных, науке статистике и о системе STATISTICA, позволяющей проводить анализ данных на компьютере. 
Разбираемые примеры сгруппированы в разделах: 
• 
описательный анализ; 
• 
визуальный анализ; 
• 
разведочный анализ данных; 
• 
оценивание зависимостей в данных; 
• 
классификация – отнесение объекта к определенной группе – дискриминантный 
анализ, обобщенный дискриминантный анализ, деревья классификации; 
• 
кластерный анализ. 

Специальные темы, относящиеся к доказательной медицине, в частности, анализ 
выживаемости, собраны в отдельной главе. Анализ выживаемости представляет собой 
раздел современного анализа данных, объединяющий различные статистические процедуры для построения таблиц жизни, оценки функции выживания и др., наиболее интенсивно используемые в медицинских приложениях, биологии, а также при проведении 
актуарных расчетов. 
Кратко опишем основные разделы. 
В описательном анализе вычисляются самые общие дескриптивные статистики 
(среднее, стандартное отклонение, медиана и др.), позволяющие компактно описать данные. Эти статистики вычисляются как для всех данных, так и для группированных данных, например, для мужчин и женщин.  
Очень важным этапом исследования является визуализация данных. Вначале данные 
нужно увидеть, потом сформулировать разумные гипотезы относительно их природы, 
уникальные графики STATISTICA позволяют это сделать. 
Смысл нашего подхода к анализу данных состоит в том, чтобы получать всестороннее визуальное представление данных на всех этапах статистического исследования и на 
основе этого представления выбирать следующий шаг анализа. Визуализируя данные, 
вы выдвигаете гипотезы, которые невозможно было бы выдвинуть, имея только численное представление. 

Введение. Приглашение в анализ данных 
7 

В STATISTICA имеются сотни типов графиков, предназначенных для визуализации, 
разведывательного анализа, графического представления результатов и выбора последующих направлений анализа. Такие уникальные графики, как лица Черного, диаграммы Вороного, матричные графики, позволяющие, например, визуализировать корреляционную матрицу, категоризированные, трассировочные и др. графики, а также большой 
выбор двухмерных и трехмерных научных и деловых графиков и диаграмм становятся 
доступными для пользователя. 
Кроме стандартных типов графиков в STATISTICA имеется большое количество специализированных статистических графиков: «ящиков с усами» с разнообразными опциями по выбору средней точки, граничных значений, подгонки распределений, определения выбросов, разнообразных гистограмм, графиков на нормальной вероятностной 
бумаге, графиков типа «вероятность-вероятность», «квантиль-квантиль» и т. д.  
Примеры нескольких графиков приведены на рис. В.1–В.3.  

 
Рис. В.1. Лица Чернова – результаты допинг-контроля спортсменов 

 
Рис. В.2. Визуализация корреляций 

 

 
Рис. В.3. Диаграмма рассеяния 
 с образами – предпочтения в видах 
спорта 

Графики можно уменьшать, увеличивать, накладывать друг на друга, вращать, корректировать перспективу, применять средство «Рентген» в трехмерной графике, чтобы 
увидеть «очертания дальних гор на фоне ближних», определять собственную палитру 
цветов, добавлять пользовательский текст, рисунки, стрелки и т. д. 
В последних версиях системы STATISTICA многие настройки можно осуществлять 
непосредственно в окне графика, не открывая дополнительных окон. Например, враще
Популярное введение в современный анализ данных в системе STATISTICA 

ние трехмерного графика осуществляется с помощью прокруток, расположенных в нижней части окна (рис. В.4) – технологично, просто, удобно. Графики автоматически изменяются при изменении связанного с ними файла данных. 

 
Рис. В.4. Продвинутые настройки изображения графики 

Особенно важно средство Кисть для визуального анализа данных, описанию 
которого мы посвятим отдельный раздел книги. 
Одной из интересных возможностей STATISTICA является визуальное отображение 
данных и наложение результатов анализа на географическую карту. 
В качестве необычного примера рассмотрим визуальный анализ текста. Первые 
200 страниц прозы В. Гете «Ученические годы Вильгельма Мейстера» представляют 
прекрасный, почти недостижимый образец музыкальной прозы. Графическое изображение этого ритма мы видим на линейном графике, где ритм Гете отображен вместе с ритмом Толстого в повести «Казаки» (рис. В.5). 

 
Рис. В.5. Представление текста в виде линейных графиков 

На этих графиках последовательно отложена длина слов в случайно выбранных абзацах текстов Гете и Толстого. Не нужно быть лингвистом, чтобы, взглянув на график, 
убедиться в потрясающей ритмичности прозы Гете. Построив простейший график, мы 
наглядно представили ритмы этих текстов. Таким образом, мы увидели ритм прочитан
Введение. Приглашение в анализ данных 
9 

ного произведения. Конечно, подобные графики представляют лишь первый шаг в анализе текстовой информации. 
Ритмичные закономерности можно наблюдать в текстах Интернета, в лентах новостей, развлекательных программах и автоматически классифицировать тексты. 
Другие интересные примеры: сочетание цветов одежды, мода на цвет, музыкальные 
произведения, асимметрия женских фигур и использование её в дизайне одежды для 
подчеркивания женской индивидуальности и т. д. – из длинного ряда примеров, где может с успехом применяться анализ данных в его современной интерпретации. 
В разведочном анализе вы задаете первые, самые простые вопросы относительно 
структуры данных и хотите получить ясные ответы на них. 
Положим, вы имеете данные опроса о предпочтении разными людьми различных 
напитков. Вы можете спросить: 
Верно ли, что женщины предпочитают пепси, а мужчины – коку? 
Верно ли, что рекламная кампания дала эффект для определенной группы населения? 
Верно ли, что колеблющийся в течение дня курс одной акции влияет на  другой? 
и быстро получить ответ. 
Вы также можете построить корреляционные матрицы, визуализировать их, выделить группы зависимых переменных – степень зависимости двух переменных можно 
оценить с помощью их корреляции, проверить, насколько правдоподобны ваши гипотезы относительно данных, и если окажется, что гипотезы достаточно правдоподобны, – 
провести углубленный анализ в их рамках, либо выдвинуть новые предположения взамен отвергнутых старых. Термин корреляция (англ. correlation – взаимосвязь) наиболее 
часто используется в анализе данных. 
Статистический анализ тесно связан с действиями, которые вы хотите предпринять. 
Найдя определенные зависимости, вы стремитесь использовать их в своих целях, осознанно сделать выбор, именно в этом состоит цель анализа данных. 
Поиску зависимостей посвящена отдельная глава книги. Как зависит цена одних акций от других, цена покупки от цены продажи – вот те зависимости, которые необходимо знать при анализе фондового рынка. И мы научим вас строить эти зависимости. 
Если вы занимаетесь подбором песен для музыкальной передачи или телевизионного канала, то должны проанализировать аудиторию, выявить классы слушателей в зависимости от пола и возраста и определить, какие музыкальные произведения предпочитает та или иная группа. 
Один рассматриваемый нами пример связан с оценкой зависимости стоимости дома 
от его полезной площади. Оценив зависимость между полезной площадью дома и ценой, 
можно прогнозировать расходы при покупке жилья. Более сложные модели возникают 
при анализе данных о стоимости строительства атомных станций, дорог, исследовании 
зависимостей, в маркетинговых исследованиях, анализе текстов, расчете нагрузки в сетях мобильной связи и др. 
Удивительно, что аналогичные методы могут быть применены для решения самых 
разнообразных задач. 
Построение правил классификации важно в таких областях, как банковская сфера; налоговая служба; медицина; контроль качества; геология; классификация показателей; отнесение больного по результатам обследования к одной из возможных групп; отнесение продукта питания или сырья к определенным группам: высокое, среднее, низкое качество; отнесение месторождения к категории перспективных или неперспективных и т. д. 

Популярное введение в современный анализ данных в системе STATISTICA 

Известно, что месторождение нефти связано с наличием в пробах метана и близких 
соединений, классифицируя пробы, мы оцениваем вероятность наличия нефти, определяем направление дальнейших геологических исследований. 
Какие признаки сопутствуют месторождениям золота или алмазов, других полезных 
ископаемых? – вот типичные задачи классификации в геологии. Развитие методов анализа данных в геологии привело к созданию науки геостатистики, интенсивно развивающейся в настоящее время. 
Интересные задачи распознавания человеческого голоса, классификация голосовых 
сигналов, перевода устной речи в текст – вот области применения современного анализа 
данных в технике. 
Во всех этих областях объекты описываются набором многих величин, 
т. е. являются многомерными. 
Классическим является пример Фишера классификации цветов ириса. Эта задача 
имеет строгое математическое решение. Измеряя длину и ширину чашелистиков и лепестков ирисов, вы относите их к одному из трех классов – SETOSA, VERSICOL, 
VIRGINIC. 
О возможностях кластерного анализа мы популярно рассказываем на примере классификации автомобилей разных марок. Из других приложений кластерного анализа отметим задачу сегментации клиентских баз данных, сегментацию слушателей радиостанций, зрителей телеканала и т. д. 
В STATISTICA процесс анализа данных превращается в увлекательное исследование 
с использованием новейших компьютерных технологий. 
Итог вашей исследовательской работы – развернутый аналитический отчет, позволяющий увидеть и понять данные, принять верное решение в сложной ситуации. 
Ранее каждый шаг анализа, начиная от представления данных, перевода их в нужный формат, проверки, группировки, сортировки, сжатия, графической интерпретации, 
подготовки программ обработки до просмотра результатов, был трудной задачей. Теперь 
достаточно двух-трех щелчков мыши, чтобы огромные объемы данных чрезвычайно быстро преобразовывались, обрабатывались и появлялись на экране в виде графиков, диаграмм и таблиц. Все результаты анализа складываются в рабочие книги STATISTICA – 
своего рода контейнеры, содержащие нужные документы и доступные вам. 
Вы можете вернуться в любую точку анализа, подвергнуть данные другому способу 
обработки. Вы также можете внести в них искусственные изменения и проверить гипотезу типа «что будет, если». 
Статистические модули системы STATISTICA покрывают практически весь спектр 
современного и классического анализа данных.  
Если говорить кратко, то основное достоинство STATISTICA состоит в том, что весь 
анализ проводится в интерактивном режиме последовательно открывающихся диалоговых окон, покрывающих большинство вариантов анализа. Это дает возможность даже 
неподготовленному пользователю провести углубленный анализ данных и получить результат. 
Welcome to STATISTICA! Открывайте эту книгу и работайте вместе с нами в популярной во всем мире системе STATISTICA. 
Если вы захотите углубить знания и узнать анализ данных из первых рук, обратитесь в Академию Анализа Данных StatSoft(www.statsoft.ru/academy). 

                                                           
Академия Анализа Данных StatSoft – уникальный образовательный проект, позволяющий пользователям освоить современные компьютерные технологии анализа данных на реальных практических примерах-кейсах StatSoft. 

 

Глава 1. Первые шаги в STATISTICA 

Линейка продуктов STATISTICA включает в себя: базовый продукт STATISTICA 
Base, предоставляющий широкий набор основных статистик и графических инструментов; продукт STATISTICA Advanced, позволяющий работать с углубленными методами 
анализа; промышленные модули STATISTICA для контроля качества; Автоматизированные нейронные сети (SANN); средства для добычи данных – Data Mining; а также корпоративные решения. 
Существуют как однопользовательские, так и сетевые версии продуктов. С технической точки зрения отличие заключается в том, что однопользовательская версия ставится на компьютер с диска стандартным образом, как любое офисное программное обеспечение. А при установке сетевой версии  серверная и клиентские части устанавливаются отдельно, все исполняемые файлы хранятся на сервере, а на рабочих станциях 
хранятся только ссылки на эти файлы. 
В этой книге мы будем работать на однопользовательской версии STATISTICA. Повторяя действия вслед за нами, вы легко освоите программу. 

1.1. Запуск программы 

Для запуска системы нажмем кнопку Пуск, находящуюся в левом нижнем углу экрана. Подведем курсор к кнопке Пуск и нажмем левую кнопку мыши, затем нажмем  на 
вкладку Все программы (для Windows 7). В появившемся меню выберем STATISTICA 
(рис. 1.1) и щелкнем еще раз левой кнопкой мыши. 

 
Рис. 1.1. STATISTICA в меню Пуск 

Популярное введение в современный анализ данных в системе STATISTICA 

После щелчка на экране вашего компьютера появится Рабочее Окно системы 
STATISTICA. Для запуска системы вы также можете дважды кликнуть на файле statist.exe 
в Проводнике Windows или на ярлыке любого файла STATISTICA, например, электронные таблицы. 

1.2. Рабочее окно STATISTICA: классическое меню 
или Лента 

Уже при первом взгляде на рабочее окно системы (рис. 1.2) видно, что оно очень 
похоже на окно MS Excel. 

 
Рис. 1.2. Начало работы в STATISTICA 

Если это ваш первый запуск STATISTICA, то на экране появится диалог Интерфейс 
пользователя,  где вы можете выбрать классическое меню или Ленту в зависимости от 
вашего желания. Мы будем использовать классическое меню, поэтому советуем выбрать 
именно этот вид интерфейса (рис. 1.3), чтобы повторить вслед за нами наши действия. 
При последующих запусках системы вы увидите Приглашение в STATISTICA. 
Здесь выбирается способ начала работы с программой: 
• 
открыть файл данных STATISTICA; 
• 
открыть книгу Excel; 
• 
создать запрос к внешней базе данных; 
• 
открыть отчет; 
• 
открыть рабочую книгу; 
• 
открыть макрос; 
• 
открыть скрипт R; 
• 
открыть проект Data Miner (Добыча Данных); 
• 
открыть проект STATISTICA; 
• 
открыть электронный учебник; 
• 
просмотреть видео. 

В окне также указаны последние файлы, с которыми вы работали.