Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Статистическое управление процессами. «Большие данные»

Покупка
Артикул: 752956.01.99
Доступ онлайн
2 000 ₽
В корзину
«Большие данные» - сравнительно новое понятие. Эта область принадлежит к беспрецедентным возможностям работы с огромными массивами разнородных данных. Уже сейчас существует масса успешных применений этого нового направления, которое открывает новые горизонты и ставит новые вопросы. Предназначено студентам и аспирантам всех специальностей, имеющим дело с большими массивами данных и пользующимся компьютерами для их анализа и интерпретации.
Адлер, Ю. П. Статистическое управление процессами. «Большие данные» : учебное пособие / Ю. П. Адлер, Е. А. Черных. - Москва : Изд. Дом МИСиС, 2016. - 52 с. - ISBN 978-5-87623-969-3. - Текст : электронный. - URL: https://znanium.com/catalog/product/1232190 (дата обращения: 25.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
МИНИСТЕРСТВО ОБРА ЗОВАНИЯ И НАУКИ РФ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ 

ВЫСШЕГО ОБРАЗОВАНИЯ 

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ «МИСиС»

№ 2909

Кафедра сертификации и аналитического контроля

Ю.П. Адлер
Е.А. Черных

Статистическое управление 
процессами.
«Большие данные»

Учебное пособие

Рекомендовано редакционно-издательским советом 
университета

Москва  2016

УДК 658
 
А28

Р е ц е н з е н т

канд. техн наук С.В. Проничкин

 
Адлер Ю.П.

А28 
 
Статистическое управление процессами. «Большие дан
ные» : учеб. пособие / Ю.П. Адлер, Е.А. Черных. – М. : Изд. 
Дом МИСиС, 2016. – 52 с.

ISBN 978-5-87623-969-3

«Большие данные» – сравнительно новое понятие. Эта область принадле
жит к беспрецедентным возможностям работы с огромными массивами разнородных данных. Уже сейчас существует масса успешных применений этого 
нового направления, которое открывает новые горизонты и ставит новые вопросы. 

Предназначено студентам и аспирантам всех специальностей, имеющим 

дело с большими массивами данных и пользующимся компьютерами для их 
анализа и интерпретации.

УДК 658

 Ю.П. Адлер,

Е.А. Черных, 2016

ISBN 978-5-87623-969-3
 НИТУ «МИСиС», 2016

ОГЛАВЛЕНИЕ

Введение ................................................................................................4
1. Данные и решения ............................................................................8
2. Что делать с информацией? ..............................................................8
3. Вычисления и компьютеры ............................................................10
4. Данные и статистика .......................................................................12
5. Модели объектов и модели данных ................................................14
6. Что есть знание? ..............................................................................16
7. Статистическое мышление .............................................................17
8. Детерминизм или вероятностный мир? .........................................18
9. «Большие данные» ..........................................................................20
10. Методы анализа .............................................................................28
11. Программные продукты ................................................................31
12. Сферы применения .......................................................................34
Заключение .........................................................................................47
Библиографический список  ..............................................................48

Где жизнь, затерявшаяся в бытии?

Где мудрость, затерявшаяся в знании?

Где знание, затерявшееся в информации?

Томас Элиот. Скала. 1934 г.

Введение

Данная работа была написана в 2012 г. и частично опубликована 

в журнале «Методы оценки соответствия» в 2013 г. (№ 7–12). При 
подготовке к изданию в виде учебного пособия она была частично 
пересмотрена, заново отредактирована и к ней были добавлены в 
2015 г. одним из авторов (Ю.А.) некоторые новые материалы.

Любой человек, вынужденный принимать решения, каких в на
шей жизни предостаточно, хотел бы быть мудрым, как, например, 
Конфуций, или еще кто-нибудь из людей, мудрость которых не подвергается сомнению. Легко сказать. Откуда же к людям приходит 
мудрость, можно ли этому научиться? Мы не знаем «правильного» 
ответа на эти вопросы. Из общих соображений можно предположить, что мудрость приходит людям со временем, в результате накопления опыта успехов и неудач и осмысливания обстоятельств их 
появления. А. Шопенгауэр говорил, что лучший способ вложения 
наших денег возникает в том случае, если их у нас украдут. Тогда мы 
непосредственно получаем взамен жизненный опыт. Видимо, он полагал, что благодаря этому мы становимся мудрее. Наверно, в природе есть и не такие драматичные способы «помудрения». 

Если согласиться с тем, что сказано выше, то получается, что 

мудрость – это нечто такое, что получается в результате какой-то 
трансформации знаний, накапливаемых человеком в течение жизни. 
Правда, есть некоторые вопросы. При примерно равном жизненном 
опыте разные люди обычно не оказываются, так сказать, равно мудрыми. Кроме того, с возрастом бывает, что мудрость растет, а бывает, что падает. Только ли гены влияют на это? 

Все-таки похоже, что знания играют в этом деле, если не решаю
щую, то во всяком случае важную роль. Э. Деминг любил говорить, 
что «знаниям нет замены» [1]. Откуда же они берутся? Ну, сначала 
мы долго учимся, набираемся знаний. Потом начинаем работать, 
применяем полученные теоретические модели на практике, и прак
тика часто их сильно корректирует. Действуя, слушая, говоря, читая, мы продолжаем накапливать знания и постоянно проверяем 
их практикой. Принято думать, что знания возникают в результате 
накопления и анализа информации, которую мы добываем во внешнем мире и перерабатываем каким-то неведомым способом. Но что 
же такое информация и откуда она берется?

Древние говорили, что нам доступны всего три источника ин
формации: суждение мудреца (диалог), наблюдение мира (созерцание) и эксперимент (вмешательство). К этому иногда добавляют 
еще озарение (самадхи) – и это все. Суждения мудреца – это слова, 
которые нам предстоит каким-то образом интерпретировать. Созерцание порождает некие динамические картины вроде видеороликов, в которых содержатся, как мы надеемся, интересующие нас 
взаимосвязи рассматриваемых явлений. Иногда такую ситуацию называют «астроном – галактика». Можно тщательно регистрировать 
результаты наблюдений небесной сферы, можно строить на их основе любые умозаключения, но пока нам не удается, скажем, изменить 
траектории движения небесных тел. Еще говорят, что это все-таки 
эксперимент, только «пассивный», без вмешательства в ход событий. Наконец, последняя возможность – «активный» эксперимент. 
Прямое вмешательство в ход событий и сравнение результатов, полученных по определенным правилам, называемым методами планирования эксперимента. Таким образом, информация предстает 
перед нами в виде текстов, в виде рисунков, графиков или «фильмов» и в виде данных, полученных в результате измерений. 

На протяжении веков люди стремились преобразовать данные в 

такую форму, чтобы с ними было удобно работать, чтобы содержащаяся в них информация стала доступной для анализа. Самой удобной 
оказалась цифровая форма. И.В. Гёте как-то сказал: «Числа правят 
миром». Многим людям приписывается мысль о том, что без чисел 
нет никакой науки. Специально этим занимался Т. Данциг, книгу 
которого [2] высоко оценил А. Эйнштейн. Данциг писал: «…будучи 
языком науки, число представляет собой условную форму, используемую в целях ретрансляции (обратного перевода) фикции евклидова 
пространства в пространство аудио-тактильное» [3, с. 310]. Но как же 
они возникают, эти числа? Обычно – в результате процесса измерения. Людям пришлось придумать измерительные шкалы и приборы, 
которые сделали измерения технически реализуемыми [4]. Сами измерительные шкалы оказались сложными конструкциями. Матема
тики называют такие конструкции «кортежами». Это два множества: 
эмпирическое и числовое, каждое со своей системой отношений, и 
некоторая функция, которая их связывает. В эмпирическом множестве собраны те физические операции, которые выполняются для 
реализации измерения. Не важно, выполняются ли эти операции человеком, измерительным прибором или сложной измерительной системой. Если в эмпирическом множестве получен некоторый результат, то функция, связывающая два множества, как бы вытаскивает из 
числового множества некоторое число, которое и объявляется результатом измерений. Этот результат будет однозначным с точностью до 
ошибки измерения только в том случае, если в эмпирической системе 
есть «эталон», или точка отчета. Именно операции, производящиеся 
в эмпирическом множестве, определяют характер отношений, допустимых в числовом множестве. Поэтому возникает иерархия измерительных шкал. Известный российский металлург Д.К. Чернов совершил в ХIХ в. важное научное открытие: он обнаружил, что в стальном 
слитке при охлаждении происходят фазовые переходы. Особенность 
его открытия состояла в том, что он сделал свои выводы на основании 
наблюдений над изменениями цвета слитка от ослепительно желтого 
в момент заливки, до серого («стального») в холодном состоянии. В 
числовом множестве этим различным цветам можно было приписать 
любые значения, но они обязательно должны быть разными для разных цветов, поскольку эти цвета не эквивалентны один другому. Понадобились годы и школа Н.С. Курнакова, чтобы была построена количественная теория этого процесса и нарисована точная диаграмма 
состояния железо – углерод. Благодаря этому мы можем пользоваться 
не различием в цветах, а дифференциальным термическим анализом 
и металлографическими исследованиями шлифов вместе с теорией 
многокомпонентных систем. 

В конце концов и для понимания (познания), и для принятия 

управленческих решений мы имеем дело с данными, поступающими 
или непосредственно через наши органы чувств, или через измерительные приборы и системы. Данные «нападают на нас» со всех сторон, лезут во все щели. Просто нет от них отбоя. Пора предпринимать 
что-то решительное. Все вокруг говорят о «больших данных». Может, 
это как раз то, что нам надо? Давайте посмотрим. Но сначала посмотрим на данные вообще, они ведь, как известно, коварны и лукавы. 

Источниками данных служат системы, которые их порождают. 

Было бы странно, если бы состояние этих систем не оказывало влия
ния на получаемые данные. В 1958 г. была издана книга Я.П. Лумельского [5], ставшая популярной и переизданная уже через три года (ее 
цитируют и используют до сих пор). Автор приводит примеры важных 
практических задач из разных отраслей народного хозяйства. Методически они построены по одной схеме. Берется некоторый производственный процесс и тщательно стабилизируется, насколько это 
возможно, конечно. Затем собираются данные – результаты измерений ключевых характеристик этого процесса, причем объем выборки 
максимизируется, опять-таки, насколько возможно. По данным этой 
выборки строится уравнение регрессии, обычно линейное или квадратное. Данных много, уравнение прекрасно описывает их результаты, причем разница между линейными и квадратными уравнениями 
получается не очень существенной. Можно было бы радоваться такой 
удаче, если бы не одно смущающее обстоятельство: для предсказания 
результатов будущих опытов эти уравнения оказались совершенно 
непригодными. Почему? Ответ на этот вопрос я (Ю.А.) узнал в конце 1961 г. от моего учителя В.В. Налимова. Оказалось, что сколько 
бы данных мы не накапливали в хорошо работающем стабильном 
процессе, они все равно будут нести информацию только об одной 
многомерной точке – номинале исследуемого процесса. Оценка процесса в этой точке, конечно, улучшается с ростом числа наблюдений, 
но информации о других возможных режимах работы системы это 
не добавляет. Понятно, что через одну точку всегда можно провести 
сколько угодно каких угодно уравнений. Все они в этой точке будут 
адекватны, а про другие точки они просто ничего не знают. Выходит, 
что объем информации сам по себе не ведет к росту знаний. Много – 
не всегда значит хорошо. Кажущееся разнообразие не всегда ведет к 
реальному разнообразию [6]. 

Раз так, можно предложить работать с «разболтанным» про
цессом, в котором плохо соблюдается технологический регламент. 
Здесь то мы получим информацию о других точках и сможем ею воспользоваться. Увы – в таком случае информация окажется ненадежной. Поведение нестабильной, статистически неустойчивой системы непредсказуемо. Поэтому полученные таким образом результаты 
вряд ли будут воспроизводимыми. Работая с данными, мы вынуждены считаться со статистическими свойствами порождающих их систем. Это хорошо понимали У. Шухарт [7] и Э. Деминг [1]. Хотя они 
сами не пользовались термином «статистическое мышление», их 
ученики и последователи ввели и начали широко использовать этот 

термин, что позволяет рассмотреть его применительно к «большим 
данным» [8]. 

1. Данные и решения

В современной парадигме управления анализ ситуации и при
нятие решений осуществляются на основе измерений. Значит лицо, 
принимающее решение (ЛПР), например менеджер любого уровня, 
нуждается в систематическом получении «свежей» информации. Однако есть важные вопросы:

• Результаты измерения скольких показателей он хотел бы полу
чать?

• Какие именно показатели его интересуют?
• Как часто для него важны новые данные?
• Каким временем он располагает для анализа и принятия реше
ний?

Проблема в том, что потенциально число возможных показателей 

бесконечно. Это и есть еще один барьер, который Р. Беллман называл «проклятием размерности». К счастью, нас интересуют не все. 
Естественное стремление – измерять все, что нужно, и ничего сверх 
того. Вот только как узнать, что именно нужно? П. Сенге [9], например, отмечает со ссылкой на Э. Деминга, что обычно удается измерить не более 3 % тех показателей, которые действительно важны. 
Об остальных мы можем даже не подозревать. Конечно, есть и такие 
данные, которые мы хотели бы получить, но не можем себе позволить. Здесь, похоже, «большие данные» будут нам полезны, и мы готовы приступить к их обсуждению. 

Все сказанное выше вовсе не означает, что мы не хотим восполь
зоваться новыми возможностями «больших данных». Напротив, теперь как раз самое время выяснить их конкретные возможности. На 
эти возможности есть несколько взглядов: теоретиков, разработчиков методов, разработчиков программных продуктов и пользователей. Начнем с общего описания взглядов теоретиков, а затем поговорим обо всех остальных.

2. Что делать с информацией?

Первыми почувствовали опасность, видимо, в библиотеках. И не 

удивительно. Со времен знаменитой Александрийской библиотеки 
огромные собрания книг часто действовали на людей парализующе. 

Эта атмосфера замечательно передана в знаменитом рассказе Хорхе Луиса Борхеса «Вавилонская библиотека» [10]. Похожие мотивы 
встречаются и у Умберто Эко, да и у многих других мыслителей. Начало количественному подходу к анализу скорости накопления печатной продукции было положено, видимо, книгой Дирека де Солло 
Прайса «Малая наука, большая наука» [11]. Ее автор констатировал, что в развитии науки незаметно произошел переход от науки – 
хобби, к науке – производительной силе, необходимому условию 
прогресса общества. И этот скачок сопровождался стремительным 
ростом числа публикаций. Это ярко проявилось в росте числа журналов, которые начали издаваться в Европе с XVII в. Этот рост прекрасно описывался экспонентой. Прайс пишет [11, с. 288]: «Экспоненциальный закон настолько важен, что я не колеблясь бы заявил: 
закон экспоненциального роста следует считать основным законом 
любого анализа науки». Для числа журналов экспонента сохраняется практически 300 лет (с 1660 по 1960 г.), причем с отклонениями, 
которые не превышают 6%, несмотря на войны, революции и иные 
катаклизмы. Более того, возникающие отклонения быстро компенсируются. Рост таков, что удвоение многих показателей, таких, например, как число публикаций, происходит каждые 10–15 лет. И это 
при том, что в анализ не были включены страны Дальнего Востока 
(Китай, Япония и др.), Среднего Востока (Индия, Турция, Израиль 
и др.) и Латинской Америки! 

Наука ответила на такой вызов прежде всего созданием поиско
вых систем нового типа, призванных справиться с ужасающим потоком за счет анализа цитируемости одних источников в других, 
полагая, что сам факт цитируемости может говорить о «важности» 
публикаций. У истоков этого подхода стоял Юджин Гарфильд, который начал публиковать свой «Индекс научных цитат» («Science 
Citation Index» (SCI)) в 1963 г. Теперь это огромное коммерческое 
предприятие компании Thomson Reuter, которое обеспечивает весь 
мир наукометрической информацией. А для теоретического анализа науки как самоорганизующегося информационного потока 
пришлось создать новую науку, получившую название «Наукометрия» [12]. Книга В.В. Налимова и З.М. Мульченко с таким названием вышла в 1969 г. Это направление получило широкое распространение. Начал издаваться международный журнал «Scientometrics». 
Подробнее о становлении и развитии этого направления можно 
прочесть в работе [13].

Анализируя кривые Прайса, В.В. Налимов заметил, что их экс
траполяция приводит к абсурду [14]. Да, прогноз подтверждался 300 
лет, но продолжение тенденций приводит к тому, что учеными должны стать все люди, живущие на земле, что на публикацию всех ожидаемых работ надо извести все леса на земном шаре и т.д. Ясно, что это 
не сможет реализоваться. Значит, сделал вывод В.В. Налимов, должен 
измениться закон роста: экспонента должна перейти в логистическую 
кривую, рост должен замедлиться. Не все люди на Земле выбирают научное поприще, да и леса все-таки еще кое-где остались. В сущности, 
таким образом была предсказана компьютерная революция, которая 
уже началась. На революционную смену парадигм указывали и работы 
Маршалла Маклюэна [3], который полагал, что переход от восприятия 
информации через чтение, т.е. через линейную развертку, приводит к 
иным результатам и требует иных навыков, чем считывание с экрана 
телевизора или компьютера. Вот вам еще один признак начала новой 
промышленной революции –не первой и не последней в истории человечества. Можно полагать, что «большие данные» – это тоже один из 
атрибутов новой парадигмы. Если одна только наука порождает такую 
прорву информации, то что же говорить обо всем человечестве? Явно 
нужны были какие-то методы и инструменты, чтобы справиться с этой 
напастью. Вся надежда была на вычислительную технику и соответствующие программные продукты. Поэтому давайте сделаем краткий 
экскурс в эту область.

3. Вычисления и компьютеры

Человечество испокон веку жило мечтами о магических возмож
ностях вычислений. Пифагор был первым мыслителем, представления которого о числах дошли до нашего времени [15]. Он считал 
началами всего числа и числовые пропорции, которые называл «гармониями». Он отождествлял предметы реального мира и их свойства с числами, так что его можно считать основоположником теории измерений. По мере того как пальцев рук не хватало в связи с 
ростом сложности вычислений, в ход пошел абак, известный почти 
всем народам. У нас в стране он трансформировался в счеты. Когда в 1960 г. в Москву приехал Норберт Винер, он прочитал публичную лекцию в Московском университете, которую начал с рассказа 
о том, что в его университете в США создан вычислительный центр 
с большой вычислительной машиной. При входе в машинный зал 

под стеклом висели счеты. Надпись над стендом гласила: «При необходимости разбей и пользуйся». И действительно, сами машины 
были еще слишком ненадежны. От абака до современности промелькнули века, давшие среди прочего, арифметическую машину 
Блеза Паскаля во Франции, построенную им в 1640–1645 гг. [16], 
машину Готфрида Вильгельма Лейбница в Германии, построенную 
в 1663–1673 гг. [17], машину Чарльза Бэбиджа в Англии, построенную в 1822 г. [18]. Между прочим, с Ч. Бэбиджем дружила дочь лорда Байрона леди Ада Лавлейс, которую называют «первой программисткой» [19] ([18], с. 123.) Вот что писала дочь Байрона в 1843 г.: 
«Желательно предостеречь против преувеличения возможностей 
аналитической машины (Чарльза Бэбиджа). Она не претендует на 
то, чтобы создавать что-то действительно новое. Она не может выполнить все то, что мы умеем ей предписать. Функции машины заключаются в том, чтобы помочь нам получить то, с чем мы уже знакомы». Готовы ли мы сегодня с ней поспорить? 

Но современная история началась во время Второй мировой войны 

в США. Решающий вклад в нее внес, как принято считать, Джон фон 
Нейман (1903–1957) [20]. Пересказывать бурную драматическую историю создания и непрерывного совершенствования компьютеров здесь 
не представляется возможным. Но все-таки нельзя не упомянуть выдающиеся работы Алана Тьюринга (1912–1954), который первым показал принципиальную возможность создания компьютера и поставил 
вопрос: «Может ли машина мыслить?» [21] (в этой брошюре, оригинал 
которой вышел в 1950 г., в качестве приложения опубликована статья 
Джона фон Неймана «Общая и логическая теория автоматов»), Норберта Винера (1894–1964), который создал новую науку, названную 
«кибернетикой» (1947 г.) [22], Клода Шеннона (1916–2001), который 
опубликовал в 1948 г. работу «Математическая теория связи» [23], заложив основы теории информации. Прошедшие после Второй мировой войны примерно 70 лет были наполнены бурным ростом вычислительной техники, которая радикально изменила нашу жизнь. Именно 
компьютеры и связанные с ними системы, такие как Интернет, или 
мобильная связь, стали основой для очередной научно-технической 
революции, которую мы все теперь начинаем переживать. «Большие 
данные», несомненно, звено в этой цепи событий. Теперь мы лучше 
готовы к их обсуждению, но прежде – еще очень краткая история прикладной математической статистики и таких ее спутников, как «анализ 
данных», «раскопки в данных» и др.

Доступ онлайн
2 000 ₽
В корзину