Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета, 2015, №106

Покупка
Основная коллекция
Артикул: 641360.0001.99
Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета, 2015, вып. №106 - Краснод.:КубГАУ, 2015. - 1242 с.:. - Текст : электронный. - URL: https://znanium.com/catalog/product/641794 (дата обращения: 25.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Научный журнал КубГАУ, №105(02), 2015 года 

http://ej.kubagro.ru/2015/02/pdf/01.pdf 

1

УДК 303.732.4 
 
01.00.00 Физико-математические науки 
 

UDC 303.732.4 
 
Physical-Mathematical sciences 

РЕШЕНИЕ ЗАДАЧ СТАТИСТИКИ 
МЕТОДАМИ ТЕОРИИ ИНФОРМАЦИИ 
 

SOLVING PROBLEMS OF STATISTICS WITH 
THE METHODS OF INFORMATION THEORY 
 
Луценко Евгений Вениаминович 
д.э.н., к.т.н., профессор  
РИНЦ SPIN-код: 9523-7101 
prof.lutsenko@gmail.com 

Lutsenko Eugeny Veniaminovich 
Dr.Sci.Econ., Cand.Tech.Sci., professor  
SPIN-code: 9523-7101 
prof.lutsenko@gmail.com 
Кубанский государственный аграрный университет, Россия, 350044, Краснодар, Калинина, 13,  
 

Kuban State Agrarian University, Krasnodar, Russia 
 

Предлагается теоретическое обоснование,  методика 
численных расчетов и программная реализация решения задач статистики, в частности исследования 
статистических распределений, методами теории 
информации. При этом непосредственно на основе 
эмпирических данных расчетным путем определяется количество информации в наблюдениях, которое 
используется для анализа статистических распределений. Предлагаемый способ расчета количества 
информации не основан на предположениях о независимости наблюдений и их нормальном распределении, т.е. является непараметрическим и обеспечивает корректное моделирование нелинейных систем, 
а также позволяет сопоставимо обрабатывать разнородные (измеряемые в шкалах различных типов) 
данные числовой и нечисловой природы, измеряемые в различных единицах измерения. Таким образом, АСК-анализ и система «Эйдос» представляют 
собой современную инновационную (готовую к внедрению) технологию решения задач статистики методами теории информации. Данная статья может 
быть использована как описание лабораторной 
работы по дисциплинам: интеллектуальные системы; инженерия знаний и интеллектуальные системы; интеллектуальные технологии и представление 
знаний; представление знаний в интеллектуальных 
системах; основы интеллектуальных систем; введение в нейроматематику и методы нейронных 
сетей; основы искусственного интеллекта; интеллектуальные технологии в науке и образовании; 
управление знаниями; автоматизированный системно-когнитивный анализ и интеллектуальная 
система «Эйдос»; которые автор ведет в настоящее 
время, а также и в других дисциплинах, связанных 
с преобразованием данных в информацию, а ее в 
знания и применением этих знаний для решения 
задач идентификации, прогнозирования, принятия 
решений и исследования моделируемой предметной области (а это практически все дисциплины во 
всех областях науки) 
 

The article presents a theoretical substantiation, methods of numerical calculations and software implementation of the decision of problems of statistics, in particular the study of statistical distributions, methods of 
information theory. On the basis of empirical data by 
calculation we have determined the number of observations used for the analysis of statistical distributions. 
The proposed method of calculating the amount of 
information is not based on assumptions about the independence of observations and the normal distribution, i.e., is non-parametric and ensures the correct 
modeling of nonlinear systems, and also allows comparable to process heterogeneous (measured in scales 
of different types) data numeric and non-numeric nature that are measured in different units. Thus, ASCanalysis and "Eidos" system is a modern innovation 
(ready for implementation) technology solving problems of statistical methods of information theory. This 
article can be used as a description of the laboratory 
work in the disciplines of: intelligent systems; knowledge engineering and intelligent systems; intelligent 
technologies and knowledge representation; knowledge representation in intelligent systems; foundations 
of intelligent systems; introduction to neuromaturation 
and methods neural networks; fundamentals of artificial intelligence; intelligent technologies in science 
and education; knowledge management; automated 
system-cognitive analysis and "Eidos" intelligent system which the author is developing currently, but also 
in other disciplines associated with the transformation 
of data into information, and its transformation into 
knowledge and application of this knowledge to solve 
problems of identification, forecasting, decision making and research of the simulated subject area (which 
is virtually all subjects in all fields of science) 
 
 

Ключевые слова:   АСК-АНАЛИЗ, СИСТЕМА 
«ЭЙДОС», ТЕОРИЯ ИНФОРМАЦИИ, 
СТАТИСТИКА 

Keywords: ASC-ANALYSIS, "EIDOS", 
INFORMATION THEORY, STATISTICS 

 

Научный журнал КубГАУ, №105(02), 2015 года 

http://ej.kubagro.ru/2015/02/pdf/01.pdf 

2

«... навыки мысли и аналитический аппарат 
теории информации должны, по-видимому, 
привести к заметной перестройке здания 
математической статистики» 
А.Н. Колмогоров [2,3,4] 
 
СОДЕРЖАНИЕ 

1. ФОРМУЛИРОВКА ПРОБЛЕМЫ ............................................................................................................... 2 

2. ОБЩАЯ ИДЕЯ ПРЕДЛАГАЕМОГО РЕШЕНИЯ ПРОБЛЕМЫ........................................................... 3 

3. ОПЫТ ПРИМЕНЕНИЯ ТЕОРИИ ИНФОРМАЦИИ В СТАТИСТИКЕ .............................................. 4 

4. НЕКОТОРЫЕ ЗАДАЧИ СТАТИСТИКИ, КОТОРЫЕ МОГЛИ БЫ БЫТЬ РЕШЕНЫ 
МЕТОДАМИ ТЕОРИИ ИНФОРМАЦИИ...................................................................................................... 6 

5. КОГНИТИВНЫЕ ФУНКЦИИ, КАК НЕОБХОДИМЫЙ ЭЛЕМЕНТ  РЕШЕНИЯ ПРОБЛЕМЫ 11 

6. МАТЕМАТИЧЕСКАЯ СУЩНОСТЬ  ПРЕДЛАГАЕМОГО РЕШЕНИЯ ПРОБЛЕМЫ................. 12 

7. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ И МЕТОДИКА ЧИСЛЕННЫХ  РАСЧЕТОВ КОЛИЧЕСТВА 
ИНФОРМАЦИИ В НАБЛЮДЕНИЯХ ......................................................................................................... 14 

8. КРАТКИЙ ЧИСЛЕННЫЙ ПРИМЕР........................................................................................................ 19 

9. ВЫВОДЫ........................................................................................................................................................ 37 

10. ОГРАНИЧЕНИЯ И ПЕРСПЕКТИВЫ.................................................................................................... 38 

ЛИТЕРАТУРА................................................................................................................................................... 39 
___________________________ 
 
 
1. Формулировка проблемы 

В статистике существует проблема определения закона распределе
ния наблюдений, а затем и определения параметров этого распределения. 

Традиционно эта проблема решается путем проверки статистических 

гипотез, на основе специально разработанных довольно многочисленных  

статистических тестов и критериев с учетом ошибок первого и второго 

рода.  

Эта теория детально разработана и общеизвестна. Однако необходи
мо отметить, что по ряду причин на практике ей довольно редко пользуют
ся, а когда все же пользуются, то часто делают это некорректно. Довольно 

многие просто пользуются теми или иными возможностями MS Excel или 

статистических пакетов и при этом даже не задумываются, что применяе
мые ими методы являются параметрическими, т.е. существенным обра
зом основаны на предположении о выполнении для исследуемых наблю
Научный журнал КубГАУ, №105(02), 2015 года 

http://ej.kubagro.ru/2015/02/pdf/01.pdf 

3

дений гипотезы о нормальности распределения. Естественно они и не пы
таются проверить, так ли это. Детальный и исчерпывающий на сегодняш
ний день анализ причин некорректного использования статистических 

технологий приведен в классической работе [1] и здесь мы не будем на нем 

останавливаться. Отметим лишь, что этих причин так много и они на
столько разнообразны, что на наш взгляд ученый, собирающийся приме
нить статистику в своих исследованиях или при решении задач в своей об
ласти науки, по-видимому, практически обречен на ее некорректное ис
пользование. 

 

2. Общая идея предлагаемого решения проблемы 

Общая идея решения сформулированной проблемы состоит в пред
ложении применить непараметрические методы, в частности теорию ин
формации, для решения тех задач, которые традиционно решаются в па
раметрической статистике. 

Конечно, применение теории информации для решения проблем и 

развития статистики не является абсолютно новой идеей1. Как указывает в 

своих работах [2, 3] профессор А.И.Орлов, сходные идеи развивал еще в 

середине XX века С.Кульбак [4], а в эпиграф данной статьи вынесено про
граммное 
высказывание 
выдающегося 
российского 
математика 

А.Н. Колмогорова: «... навыки мысли и аналитический аппарат теории ин
формации должны, по-видимому, привести к заметной перестройке здания 

математической статистики», которое содержится в его предисловии к той 

же книге С.Кульбака и также приведено в работах [2, 3]. В наше время в 

этом направлении продуктивно работают Дуглас Хаббард [5], а также из
вестный российский математик, разработчик синергетической теории ин
формации В.Б.Вяткин [6-13]2. 

                                                 
1 Наверное, абсолютно новых идей вообще не существует. 
2 Может быть синергетическая теория информация, созданная трудами В.Б.Вяткина, 
также может быть использована для расчета количества информации в наблюдениях, 
что приведет к еще одному варианту статистики, основанной на теории информации. 

Научный журнал КубГАУ, №105(02), 2015 года 

http://ej.kubagro.ru/2015/02/pdf/01.pdf 

4

3. Опыт применения теории информации в статистике 

В работе [1] в разделе «11.1. Проблема множественных проверок 

статистических гипотез» профессор А.И.Орлов указывает, что регрессион
ный анализ является параметрическим методом и при множественных 

проверках статистических гипотез им пользоваться некорректно, т.к. одно
родные группы, полученные с помощью какого-либо алгоритма классифи
кации (кластеризации), подчиняются не нормальному распределению, а 

усеченному нормальному. 

Имеется определенный положительный опыт решения поставленной 

проблемы путем применения теории информации. 

В статье [14] метод наименьших квадратов (МНК) широко известен 

и пользуется заслуженной популярностью. Вместе с тем не прекращаются 

попытки усовершенствования этого метода. Результатом одной из таких 

попыток является взвешенный метод наименьших квадратов (ВМНК), суть 

которого в том, чтобы придать наблюдениям вес обратно пропорциональ
ный погрешностям их аппроксимации. Этим самым, фактически, наблюде
ния игнорируются тем в большей степени, чем сложнее их аппроксимиро
вать. В результате такого подхода формально погрешность аппроксимации 

снижается, но фактически это происходит путем частичного отказа от рас
смотрения «проблемных» наблюдений, вносящих большую ошибку. Если 

эту идею, лежащую в основе ВМНК довести до крайности (и тем самым до 

абсурда), то в пределе такой подход приведет к тому, что из всей совокуп
ности наблюдений останутся только те, которые практически точно ложат
ся на тренд, полученный методом наименьших квадратов, а остальные 

просто будут проигнорированы. Однако, по мнению автора, фактически 

это не решение проблемы, а отказ от ее решения, хотя внешне и выглядит 

как решение. В работе предлагается именно решение, основанное на тео
рии информации: считать весом наблюдения количество информации в ар
гументе о значении функции. Этот подход был обоснован в рамках нового 

инновационного метода искусственного интеллекта: метода автоматизиро
Научный журнал КубГАУ, №105(02), 2015 года 

http://ej.kubagro.ru/2015/02/pdf/01.pdf 

5

ванного системно-когнитивного анализа (АСК-анализа) и реализован еще 

30 лет назад в его программном инструментарии  – интеллектуальной сис
теме  «Эйдос» в виде так называемых «когнитивных функций». В данной 

статье приводится алгоритм и программная реализация данного подхода, 

проиллюстрированные на подробном численном примере.  

В статье [15] кратко рассматриваются математическая сущность 

предложенной автором модификации взвешенного метода наименьших 

квадратов (ВМНК), в котором в качестве весов наблюдений применяется 

количество информации в них. Предлагается два варианта данной моди
фикации ВМНК. В первом варианте взвешивание наблюдений произво
дится путем замены одного наблюдения с определенным количеством ин
формации в нем соответствующим  количеством наблюдений единичного 

веса, а затем к ним применяется стандартный метод наименьших квадратов 

(МНК). Во втором варианте взвешивание наблюдений производится для 

каждого значения аргумента путем замены всех наблюдений с определен
ным количеством информации в них одним наблюдением единичного веса, 

полученным как средневзвешенное от них, а затем к ним применяется 

стандартный МНК. Подробно описана методика численных расчетов ко
личества информации в наблюдениях, основанная на теории автоматизи
рованного системно-когнитивного анализа (АСК-анализ) и реализованная 

в его программном инструментарии – интеллектуальной системе «Эйдос». 

Приводится иллюстрация предлагаемого подхода на простом численном 

примере.  

Отметим также, что в статье [16] на небольшом численном примере 

рассматриваются новые математическая модель, алгоритм и результаты 

агломеративной кластеризации, основные отличия которых от ранее из
вестных стоят в том, что: а) в них параметры обобщенного образа кластера 

не вычисляются как средние от исходных объектов (классов) или центры 

тяжести, а определяются с помощью той же самой базовой когнитивной 

операции АСК-анализа, которая применяется и для формирования обоб
Научный журнал КубГАУ, №105(02), 2015 года 

http://ej.kubagro.ru/2015/02/pdf/01.pdf 

6

щенных образов классов на основе примеров объектов и которая действи
тельно обеспечивает обобщение; б) в качестве критерия сходства исполь
зуется не евклидово расстояние или его варианты, а интегральный крите
рий неметрической природы: «суммарное количество информации», при
менение которого теоретически корректно и дает хорошие результаты в 

неортонормированных пространствах, которые обычно и встречаются на 

практике; в) кластерный анализ проводится не на основе исходных пере
менных или матрицы сопряженности, зависящих от единиц измерения по 

осям, а в когнитивном пространстве, в котором по всем осям (описатель
ным шкалам) используется одна единица измерения: количество информа
ции, и поэтому результаты кластеризации не зависят от исходных единиц 

измерения признаков объектов. Имеется и ряд других менее существенных 

отличий. Все это позволяет получить результаты кластеризации, понятные 

специалистам и поддающиеся содержательной интерпретации, хорошо со
гласующиеся с оценками экспертов, их опытом и интуитивными ожида
ниями, что часто представляет собой проблему для классических методов 

кластеризации. Описанные методы теоретически обоснованы в системно
когнитивном анализе (СК-анализ) и реализованы в его программном инст
рументарии – интеллектуальной системе «Эйдос». 

Таким образом, в работах автора [14, 15 и 16] по сути, намечается 

путь решения проблемы построения непараметрического регрессионного 

анализа, основанного на теории информации, в том числе и для его приме
нения в относительно однородных группах, полученных путем когнитив
ной кластеризации. 

 

4. Некоторые задачи статистики, которые могли бы быть 

решены методами теории информации 

Задача № 1:  проверка статистических гипотез. По сути, эта задача 

является частным вариантом задачи распознавания образов, т.к. в ней по 

первичным и вторичным (расчетным) признакам наблюдений необходимо 

Научный журнал КубГАУ, №105(02), 2015 года 

http://ej.kubagro.ru/2015/02/pdf/01.pdf 

7

определить вид статистического распределения и его параметры. А теория 

информации хорошо позволяет решать подобные задачи распознавания, в 

том числе и в условиях зашумленности исходных данных. 

Задача № 2: исследование влияния уровня системности действую
щих на объекты наблюдения факторов на степень отклонения стати
стического распределения их характеристик от нормального. Данная за
дача тесно связана с системным обобщением математики, в частности сис
темной теорией информации, которые были предложены автором в ряде 

работ [см., например: 17, 35, 36]. Решение этой задачи может заложить ос
новы системного обобщения статистики (системной статистики) в резуль
тате применения идей системного обобщения математики в статистике. 

Эта задача тесно связана с Центральными предельными теоремами 

(ЦПТ) или законом больших чисел теории вероятностей, утверждаю
щих, что сумма достаточно большого количества слабо зависимых случай
ных величин, имеющих примерно одинаковые масштабы (ни одно из сла
гаемых не доминирует, не вносит в сумму определяющего вклада), имеет 

статистическое распределение, стремящееся (сходящееся) к нормальному 

распределению. С позиций системного обобщения математики независи
мые зависимые случайные величины представляют собой множество 

случайных величин. Если же между ними есть зависимости, то их уже 

нельзя (вернее можно, но это некорректно) рассматривать как множество и 

более адекватным является представление  о них, как о системе случай
ных величин [17]. Система имеет эмерджентные свойства, которых не бы
ло у ее элементов и эти свойства тем ярче выражены, чем выше уровень 

системности. Автором предложено несколько разных вариантов коэффи
циентов эмерджентности, которые представляют собой количественные 

информационные меры уровня системности и степени детерминированно
сти систем3. Система факторов влияет на систему не так, так как их сумма, 

                                                 
3 Отметим, что идеи оказались лакомым кусочком для плагиаторов. Об этом хорошо 
написано в статье В.Б.Вяткина «Групповой плагиат: от студента до министра»  

Научный журнал КубГАУ, №105(02), 2015 года 

http://ej.kubagro.ru/2015/02/pdf/01.pdf 

8

т.е. нелинейно. В результате статистическое распределение системы слу
чайных величин отклоняется от нормального тем в большей степени, чем 

выше уровень системности и нелинейность. Таким образом, вся парамет
рическая статистика описывает только линейные системы, а для нелиней
ных систем она является неадекватной. Отметим, что к нелинейным сис
темам, имеющим высокий уровень системности и ярко выраженные 

эмерджентные (синергетические) свойства, относятся все живые системы, 

искусственные и естественные экосистемы, биоценозы, системы с участи
ем людей (социально-экономические, психологические, культурные, поли
тические), вообще все сложные и большие системы. 

Задача № 3: нахождение информативных подмножеств признаков в 

регрессионном анализе и в автоматизированных системах управления. 

Данная задача сформулирована профессором А.И.Орловым в работе [1] 

следующим образом: «…в большинстве важных для практики случаев ста
тистические свойства процедур анализа данных, основанных на множест
венных проверках, остаются пока неизвестными. Примерами являются 

процедуры нахождения информативных подмножеств признаков (коэффи
циенты для таких и только таких признаков отличны от 0) в регрессионном 

анализе или выявления отклонений параметров в автоматизированных 

системах управления». Решение этой задачи давно (еще в 1979 году) пред
ложено автором в теории АСК-анализа и реализовано в его программном 

инструментарии – интеллектуальной системе «Эйдос» и представляет со
бой базовую когнитивную операцию «Абстрагирование» [18]. Это реше
ние основано на использовании вариабельности количества информации в 

значении аргумента (в признаке) о значении функции (классе) в качестве 

меры информативности (ценности, дискриминантной, дифференцирующей 

                                                                                                                                                        
http://trv-science.ru/2011/11/08/gruppovojj-plagiat-ot-studenta-do-ministra/ и других его 
статьях на эту тему. Чтобы убедиться в этом остаточно сделать запрос: «Коэффициенты 
эмерджентности». 

Научный журнал КубГАУ, №105(02), 2015 года 

http://ej.kubagro.ru/2015/02/pdf/01.pdf 

9

способности) данного значения аргумента (признака), т.е. его полезности 

для различения классов. 

Задача № 4: "стыковка" статистических процедур. Данная задача 

также сформулирована профессором А.И.Орловым в работе [1]: «Пробле
ма множественных проверок статистических гипотез – часть более общей 

проблемы "стыковки" (сопряжения) статистических процедур. Дело в том, 

что каждая процедура может применяться лишь при некоторых условиях, а 

в результате применения предыдущих процедур эти условия могут нару
шаться». Решению очень сходной задачи посвящен АСК-анализ, в котором 

с единых позиций теории информации рассматривается полная необходи
мая и достаточная система (конфигуратор) базовых когнитивных операций 

[19, 20, 21]. По сути можно сказать, что грандиозное здание статистики по
строено без единого плана, т.е. не системно, и в результате отдельные его 

конструкции не всегда гармонично сочетаются друг с другом и не образу
ют единого целого. Можно, конечно, попытаться все это упорядочить и 

расписать на языке непосвященных, а также снабдить их программным ин
струментарием, но эта задача в настоящее время, похоже, никем не ставит
ся. Автор предлагает другое, как это ни парадоксально, но возможно более 

простое решение: не реформировать старое, а построить рядом новое зда
ние системной статистики и сделать это по единому проекту, единой тео
ретической и методологической основе теории информации. По крайней 

мере, в совершенно аналогичной ситуации с автоматизацией системного 

анализа второй вариант решения оказался более эффективным, чем дру
гие [19]. В частности оказалось возможным создать и единую систему, ос
нованную на этой единой теоретической и металогической основе теории 

информации: интеллектуальную систему «Эйдос». Это вселяет надежду на 

решение проблемы, о которой в работе [1] профессор А.И.Орлов писал: 

«Математическая статистика демонстрирует … виртуозную математиче
скую технику для анализа частных случаев и полную беспомощность при 

выдаче практических рекомендаций». 

Научный журнал КубГАУ, №105(02), 2015 года 

http://ej.kubagro.ru/2015/02/pdf/01.pdf 

10

Задача № 5: конструирование системной информационной меры 

взаимосвязи двух векторов, аналогичной коэффициенту корреляции. Это 

сделано в АСК-анализе и реализовано в системе «Эйдос» и описано 

автором в монографии [37] еще в 1996 году в режиме «Содержательное 

сравнение двух классов». Суть идеи состоит в том, что: 

а) при расчете коэффициента корреляции учитываются не сами 

значения аргумента, а количество информации о значениях функции, 

которое в них содержится; 

б) учитываются не только вклад в сходство-различие значений 

аргумента с одинаковыми индексами, но и все их сочетания4. 

Разумеется, этим перечень задач статистики, которые на взгляд авто
ра могли бы быть решены с методами теории информации, в частности 

АСК-анализа и системы «Эйдос», далеко не исчерпывается. Конечно, здесь 

возникает естественный вопрос о том, какие вообще задачи статистики мо
гут быть решены с помощью теории информации. На это вопрос можно 

было бы ответить другим вопросом: «А какие задачи статистики не могут 

быть решены с помощью теории информации?» На наш взгляд любая нау
ка, а не только статистика, в процессе исследования и как его результат 

получает определенную информацию об объекте исследования. Поэтому 

теория информации в определенном смысле является метанаукой имею
щей не меньшую общность, чем философия, но в отличие от нее являю
щаяся естественной высокоматематизированной наукой, имеющей свой 

программный инструментарий. Даже мысленный эксперимент Альберта 

Эйнштейна с движущимся поездом и источниками света на платформе, на 

основе которого в теории относительности формируется представление об 

одновременности и времени, фактически является не более чем описанием 

системы передачи информации в пространстве-времени с помощью свето
вых сигналов. Даже когда мы узнаем, чему равен предел функции или ин
теграл, то даже если мы об этом и не знаем, то все равно на самом деле мы 
                                                 
4 См. главу III: http://lc.kubagro.ru/aidos/aidos96/3.htm