Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Программные продукты и системы, 2013, № 1 (101)

международный научно-практический журнал
Бесплатно
Основная коллекция
Артикул: 706069.0001.99
Программные продукты и системы : международный научно-практический журнал. – Тверь : НИИ Центрпрограммсистем, 2013. - № 1 (101). – 179 с. – ISSN 0236-235X. - Текст : электронный. - URL: https://znanium.ru/catalog/product/1016239 (дата обращения: 08.05.2024)
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Н а у ч н о - и с с л е д о в а т е л ь с к и й  и н с т и т у т

«Центрпрограммсисте м»

Программные

продукты и системы

НАУЧНО-ПРАКТИЧЕСКОЕ ИЗДАНИЕ

№ 1 (101), 2013

Главный редактор

С.В. ЕМЕЛЬЯНОВ, академик РАН

Тверь

Вниманию авторов!

Международный журнал «Программные продукты и системы» публикует материалы научного и науч
но-практического характера по новым информационным технологиям, результаты академических и отраслевых исследований в области использования средств вычислительной техники. Практикуется выпуск тематических номеров по искусственному интеллекту, системам автоматизированного проектирования, по технологии 
разработки программных средств и системам защиты, а также специализированные выпуски, посвященные 
научным исследованиям и разработкам отдельных вузов, НИИ, научных организаций. 

Решением Президиума Высшей аттестационной комиссии (ВАК) Министерства образования и науки 

РФ № 8/13 от 02.03.2012 международный журнал «Программные продукты и системы» внесен в Перечень ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней кандидата и доктора наук.

Информация об опубликованных статьях по установленной форме регулярно предоставляется в систе
му Российского индекса научного цитирования (РИНЦ) и готовится для передачи в международные базы цитирования.

Условия публикации

К рассмотрению принимаются ранее нигде не опубликованные материалы, соответствующие тематике 

журнала (специализация 05.13.ХХ – Информатика, вычислительная техника и управление) и отвечающие редакционным требованиям.

Работа представляется в электронном виде в формате Word (шрифт Times New Roman, размер 11 пунк
тов с полуторным межстрочным интервалом). При обилии сложных формул обязательно наличие статьи и в 
формате PDF. Формулы должны быть набраны в редакторе формул Word (Microsoft Equation или MathType). 
Объем статьи вместе с иллюстрациями – не менее 10 000 знаков. Просьба не присылать цветные, тонированные и не подлежащие дальнейшему редактированию средствами Word рисунки, а также отсканированные 
формулы и тексты. Заголовок должен быть информативным; сокращения, а также терминологию узкой тематики желательно в нем не использовать. Количество авторов на одну статью – не более 4, количество статей 
одного автора в номере, включая соавторство, – не более 2. Список литературы (оформленный в соответствии 
с ГОСТ Р 7.05–2008), наличие которого обязательно, должен включать не менее 3 пунктов.

Необходимы также аннотация (100–200 слов), ключевые слова (7–10) и индекс УДК. Название статьи, 

аннотация и ключевые слова должны быть переведены на английский язык (машинный перевод недопустим), 
а фамилии авторов, названия и юридические адреса организаций (если нет официального перевода), пристатейные списки литературы – транслитерированы. 

Вместе со статьей следует прислать отзыв-рекомендацию в произвольной форме, экспертное заключе
ние, лицензионное соглашение, а также сведения об авторах: фамилия, имя, отчество, название и юридический 
адрес организации, должность, ученые степень и звание (если есть), контактный телефон, электронный адрес, 
почтовый адрес для отправки бесплатного авторского экземпляра журнала. 

Порядок рецензирования

Все статьи, поступающие в редакцию (соответствующие тематике и оформленные согласно требовани
ям к публикации), подлежат обязательному рецензированию в течение месяца с момента поступления. 

В редакции есть устоявшийся коллектив рецензентов, среди которых члены международной редколле
гии журнала, эксперты из числа крупных специалистов в области информатики и вычислительной техники ведущих вузов страны, а также ученые и специалисты НИИ «Центрпрограммсистем» (г. Тверь).

Рецензирование проводится конфиденциально. Автору статьи предоставляется возможность ознако
миться с текстом рецензии. При необходимости статья отправляется на доработку.

Рецензии обсуждаются на заседаниях редакционной коллегии, которая проводится один раз в месяц в 

НИИ «Центрпрограммсистем» или в Главной редакции международного журнала «Проблемы теории и практики управления» (г. Москва).

Решение о целесообразности опубликования статьи после рецензирования принимается редакционным 

советом.

Статьи, одобренные редакционным советом, публикуются бесплатно в течение года с момента одобре
ния, а отправленные на доработку – с момента поступления после устранения замечаний. Если принятая к 
публикации статья, по мнению автора, является срочной, редакция вправе опубликовать ее в текущем номере 
на коммерческой основе.

Редакция международного журнала «Программные продукты и системы» в своей работе руководству
ется сводом правил Кодекса этики научных публикаций, разработанным и утвержденным Комитетом по этике научных публикаций, который создан на базе ВИНИТИ РАН.

Программные продукты и системы
№ 1, 2013 г.

3

УДК 681.3.06

ИНТЕГРИРОВАННАЯ ИНСТРУМЕНТАЛЬНАЯ СРЕДА 
ОРГАНИЗАЦИИ ПРОБЛЕМНО-ОРИЕНТИРОВАННЫХ 

РАСПРЕДЕЛЕННЫХ ВЫЧИСЛЕНИЙ

(Работа выполнена при частичной поддержке РФФИ, грант № 10-07-00146)

Г.А. Опарин, д.т.н., зам. директора по научной работе; 

А.П. Новопашин, к.т.н., зав. лабораторией; А.Г. Феоктистов, к.т.н., с.н.с.
(Институт динамики систем и теории управления Сибирского отделения РАН, 

ул. Лермонтова, 134, г. Иркутск, 664033, Россия, oparin@icc.ru, apn@icc.ru, agf@icc.ru)

В статье представлен подход к интегрированному использованию инструментальных средств организации рас
пределенных вычислений в рамках единой среды проектирования, создания и применения проблемно-ориентированнных программных комплексов различного назначения, функционирующих в интегрированной кластерной системе. Рассмотрены характеристики интегрированной кластерной системы и предложена технологическая схема решения вычислительных задач в ней. Перечислены интегрируемые инструментальные средства: среда непроцедурного программирования СиКруС для синтеза параллельных программ с учетом ресурсных ограничений используемой 
вычислительной системы и продолжительности исполнения прикладных модулей, инструментальные комплексы 
ORLANDO TOOLS и DISCOMP для разработки пакетов прикладных программ соответственно в однородных и разнородных распределенных вычислительных средах, инструментальный комплекс DISCENT для создания кластерных Grid, инструментальный комплекс СИРИУС для моделирования проблемно-ориентированных комплексов. Интеграция инструментальных средств осуществляется на основе модели кластерной системы, разработанной авторами. Приведены примеры задач, решенных с помощью вышеперечисленных инструментальных средств.

Отличительной особенностью представленного подхода является согласованное применение методологии разра
ботки параллельных и распределенных пакетов прикладных программ, мультиагентных технологий управления вычислительным процессом и комплексного моделирования (концептуального, имитационного и полунатурного) создаваемых проблемно-ориентированных программных комплексов.

Ключевые слова: распределенные вычисления, проблемно-ориентированные программные комплексы, инстру
ментальные средства организации и интеграции.

INTEGRATED TOOLKIT FOR ORGANIZATION OF THE PROBLEM-ORIENTED DISTRIBUTED 

COMPUTING

Oparin G.A., Ph.D., Deputy Director on Scientific Work; Novopashin A.P., Ph.D., Head of Laboratory; 

Feoktistov A.G., Ph.D., Senior Researcher

(Institute of Systems Dynamics and Control Theory of Siberian Branch of Russian Academy of Sciences (IDSTU SB RAS), 

134, Lermontova St., Irkutsk, 664033, Russia, oparin@icc.ru, apn@icc.ru, agf@icc.ru)

Аbstract. In this paper the approach to integrated use of tools for organization a distributed computing within the single 

environment for design, create and using problem-oriented software is represented. Problem-oriented software operates in the 
integrated cluster system. The characteristics of integrated cluster system are considered and the technological scheme of 
computing problems solving in this system is suggested. The integrable tools are listed: the non-procedural programming 
environment SyKruS for synthesis of parallel programs taking into account constraints on used resources of computer system 
and programming modules run-time, the toolkits DISCOMP and ORLANDO TOOLS for development of problem-oriented 
software in a homogeneous and heterogeneous distributed computing environments respectively, the toolkit DISCENT for 
cluster Grid development, the toolkit SIRIUS for modeling of problem-oriented software. The integration of tools is based on 
the cluster system model developed by the authors. The examples of problems solved with the use of above-listed tools are 
represented.

The distinctive feature of represented approach is coordinated use of methodology of development parallel and 

distributed software packages, multiagent technology for the computing process management and integrated modeling 
(conceptual, simulation and seminatural) problem-oriented software.

Keywords: distributed computing, problem oriented software, organization and integration tools.

Современное развитие информационно-вычис
лительных и сетевых технологий, ПО и аппаратных средств позволяет организовывать сложные 
географически распределенные вычислительные 
системы для поддержки проведения массовых ресурсоемких фундаментальных и прикладных исследований. В частности, в научном сообществе 
ведутся активные работы по созданию и использованию Грид-систем различного назначения [1, 2], 
среди которых важное место отводится вычислительным Грид-системам.

В данной статье представлен опыт, накоплен
ный в Институте динамики систем и теории 
управления СО РАН (ИДСТУ СО РАН) в области 
организации высокопроизводительных параллельных и распределенных вычислений.

Одной из разновидностей Грид-систем являет
ся интегрированная кластерная система – распределенная вычислительная среда, предназначенная 
для решения фундаментальных и прикладных вычислительных задач и характеризующаяся следующими особенностями:

Программные продукты и системы
№ 1, 2013 г.

4


в качестве узлов системы выступают вы
числительные кластеры;


кластеры организуются на базе как выде
ленных, так и невыделенных вычислительных 
машин и, следовательно, существенно различаются по степени надежности своих вычислительных 
ресурсов;


на разных уровнях интеграции системы су
ществуют различные категории пользователей, в
том числе нуждающиеся в высокоуровневых средствах организации вычислительного процесса решения задачи;


вычислительные кластеры используются 

пользователями системы совместно с владельцами 
этих кластеров;


задание пользователя представляет собой 

спецификацию процесса решения задач, содержащую информацию о требуемых вычислительных 
ресурсах, исполняемых прикладных программах, 
входных/выходных данных, а также другие необходимые сведения;


множество заданий пользователей рассмат
ривается с точки зрения теории очередей и представляется в виде совокупности потоков заданий с 
приоритетами;


поток заданий характеризуется динамично
стью, стохастичностью, неоднородностью, отсутствием обратной связи, неординарностью, стационарностью;


свободных ресурсов системы недостаточно 

для одновременного обслуживания всех заданий, 
находящихся в очередях; 


в рамках системы функционируют распре
деленные проблемно-ориентированные программные комплексы, размещенные в ее узлах;


в общем случае в системе имеется про
граммно-аппаратная 
вычислительная 
избыточ
ность (программа может быть размещена и выполнена в разных узлах системы, а одни и те же 
вычисления могут производиться с помощью различных программ);


в системе нет единой политики админи
стрирования вычислительных кластеров, на кластерах применяются различные принципы и механизмы обработки потоков заданий разных типов.

В настоящее время в ИДСТУ СО РАН в рамках 

САТУРН-технологии [3] разработаны новые программные инструменты [4, 5] для создания интегрированных кластерных систем: 

–
среда непроцедурного программирования 

СиКруС для синтеза параллельных программ на 
языке Fortran-DVM с учетом ресурсных ограничений используемой вычислительной системы и 
продолжительности исполнения прикладных модулей;

–
инструментальный комплекс ORLANDO 

для автоматического конструирования асинхрон
ных параллельных программ в вычислительных 
кластерах; 

–
инструментальный 
комплекс 
DISCOMP 

для организации распределенных пакетов прикладных программ в разнородных вычислительных средах; 

–
инструментальный комплекс DISCENT для

организации интегрированных кластерных сред; 

–
графическая инструментальная среда СИ
РИУС для моделирования и анализа эффективности функционирования интегрированных кластерных сред; 

–
мультиагентная среда децентрализованного 

планирования вычислений и распределения ресурсов, функционирующая на основе вероятностных 
моделей надежности интегрированной кластерной 
системы и экономических механизмов регулирования спроса и предложения ресурсов. 

Перечисленные инструментальные средства 

обеспечивают поддержку всех научно-технических процессов, связанных с решением в интегрированной кластерной системе фундаментальных и 
прикладных задач на основе парадигм параллельного и распределенного программирования.

Технология 
интеграции 
инструментальных 

средств организации проблемно-ориентированных 
распределенных вычислений базируется на согласованном применении следующих компонентов:


методы автоматизации процессов концеп
туализации предметных областей решаемых задач,
построения вычислительных моделей, проведения 
имитационного и полунатурного моделирования 
вычислительных систем, выполнения параллельных и распределенных вычислений, мониторинга 
работы вычислительных систем;


мультиагентные средства управления вы
числительными процессами решения прикладных 
и фундаментальных исследовательских задач, 
планирования и распределения вычислительных 
ресурсов;


инструментальные программные средства

создания и применения проблемно-ориентированных программных комплексов различного назначения, в том числе параллельных и распределенных пакетов прикладных программ;


программно-аппаратные средства (вычис
лительные кластеры и системное программное
обеспечение для их интеграции и управления), в 
рамках которых осуществляются создание и применение проблемно-ориентированных программных комплексов.

Перечисленные компоненты объединяются в 

технологическую схему (см. рис.) решения прикладных и фундаментальных исследовательских 
задач с заданными параметрами уровня их обслуживания (временем, стоимостью и надежностью 
процесса решения задачи). Объединение компонентов осуществляется на основе оригинальной 

Программные продукты и системы
№ 1, 2013 г.

5

объектной модели [6], которая обеспечивает взаимосвязанное представление проблемно-ориентированного, программно-аппаратного, имитационного и управляющего слоев знаний об интегрированной кластерной системе, а также всестороннее 
исследование необходимых свойств (эффективность, надежность и др.) проектируемых для этой 
системы прикладных программных комплексов 
различного назначения.

Использование в инструментальных средствах 

единой модели интегрированной кластерной системы позволяет обеспечить комплексирование по 
данным для всех проблемно-ориентированных 
программных комплексов, разрабатываемых с помощью этих средств. Это
дает
возможность 

использования в процессе создания нового программного комплекса фрагментов описания предметных 
областей, 
функциональных 
модулей, 

исходных данных и результатов вычислений, 
имеющихся в других комплексах. Вследствие этого сокращаются сроки разработки прикладного 
программного обеспечения и проведения вычислительных экспериментов.

В качестве примеров практического использо
вания представленных в статье инструментальных 
средств можно привести ряд практически важных 
задач, решенных в интегрированной кластерной 
системе ИДСТУ СО РАН, в том числе


параллельное решение систем булевых 

уравнений общего вида;


декомпозиция алгоритма филогенетическо
го классификатора CARMA;


имитационное и полунатурное моделирова
ние алгоритмов планирования и распределения 
ресурсов в распределенных вычислительных средах;

АДМИНИСТРАТОРЫ КЛАСТЕРОВ, РАЗРАБОТЧИКИ

ПРОБЛЕМНО-ОРИЕНТИРОВАННЫХ ПРОГРАММНЫХ КОМПЛЕКСОВ

СПЕЦИАЛИСТЫ-ПРЕДМЕТНИКИ

Управление             

программно-аппаратными 

средствами интегрированной 

кластерной системы

Построение агреги
рованной концептуальной 
модели интегрированной

кластерной системы

Описание программно
аппаратных средств 

интегрированной 

кластерной системы

Концептуализация 
предметной области

Построение 

вычислительной модели

Построение 

имитационной модели

Построение 

полунатурной модели

Мониторинг 

интегрированной 

кластерной системы

Модели
рование работы 
интегрированной 

кластерной системы

Модификация 
агрегированной 
концептуальной 

модели 

интегрированной 

кластерной 

системы

Формулировка постановок задач

Формирова
ние заданий и 
определение 

параметров уровня 
их обслуживания

Выполнение 

параллельных и 
распределенных 

вычислений

Управляющий 

узел

Вычислительный 

узел

Вычислительный 

узел

Вычислительный 

узел

...

Программно-аппаратные 
средства интегрированной 

кластерной системы

Классы задач

Интегрированная
кластерная система

Результаты 

решения 

задач

– передача управления между компонентами системы
– передача данных между компонентами системы
– передача управления между пользователями и компонентами системы
– передача данных между пользователями и компонентами системы
– инструментальная поддержка процессов в интегрированной кластерной системе

Программные продукты и системы
№ 1, 2013 г.

6


моделирование процессов складской логи
стики;


комплексирование по данным разработан
ных пакетов моделирования складской логистики.

В заключение отметим, что в статье представ
лен подход к организации проблемно-ориентированных распределенных вычислений, обеспечивающий единую технологическую схему решения 
широкого спектра задач в интегрированной кластерной системе, а также комплексную инструментальную поддержку всех научно-технических 
процессов в ней.

Основное отличие представленного подхода от 

традиционно применяемых к организации разнородных распределенных вычислительных сред
подходов в комплексном использовании методов и 
средств инженерии знаний, методов автоматического построения параллельных распределенных 
планов решения непроцедурных постановок задач 
на вычислительной модели предметной области в 
виде системы булевых уравнений, децентрализованной схемы управления решением поставленной 
задачи с использованием группы интеллектуальных агентов, концептуального, имитационного и 
полунатурного моделирования создаваемых проблемно-ориентированных распределенных программных комплексов.

Литература

1.
Foster I., Kesselman C., Tuecke S., Intern. Journ. of 

High Performance Computing Applications, 2001, Vol. 15, no. 3. 
pp. 200–222.

2.
Baker M., Buyya R., Laforenza D., Software: Practice and 

Experience, 2002, Vol. 32, no. 15, pp. 1437–1466.

3.
Опарин Г.А. Сатурн – метасистема для построения па
кетов прикладных программ. В кн.: Пакеты прикладных программ. Методы и разработки. Новосибирск: Наука, 1982. 
С. 130–160.

4.
Бычков И.В., Опарин Г.А., Новопашин А.П., Феокти
стов А.Г., Корсуков А.С., Сидоров И.А. Высокопроизводительные вычислительные ресурсы ИДСТУ СО РАН: Текущее состояние, возможности и перспективы развития // Вычислительные технологии. 2010. Т. 15. № 3. С. 69–82.

5.
Бычков И.В., Опарин Г.А., Феоктистов А.Г., Корсу
ков А.С. Децентрализованное управление потоками заданий в 
интегрированной кластерной системе // Вестн. НГУ. Сер.: Информационные технологии. 2011. Т. 9. Вып. 2. С. 42–54.

6.
Опарин Г.А., Феоктистов А.Г. Модели и инструмен
тальные средства организации распределенных вычислений // 
Параллельные вычисления и задачи управления: тр. IV Междунар. конф. М.: Изд-во ИПУ РАН, 2008. C. 1126–1135.

References

1.
Foster I., Kesselman C., Tuecke S., Intern. Journ. of 

High Performance Computing Applications, 2001, Vol. 15, no. 3,
pp. 200–222.

2.
Baker M., Buyya R., Laforenza D., Software: Practice and 

Experience, 2002, Vol. 32, no. 15, pp. 1437–1466.

3.
Oparin G.A., Pakety prikladnykh programm. Metody i raz
rabotki [Applied software packages. Methods and developments], 
Novosibirsk, 1982, pp. 130–160.

4.
Bychkov I.V., Oparin G.A., Novopashin A.P., Feoktis
tov A.G., Korsukov A.S., Sidorov I.A., Vychislitelnye tekhnologii, 
2010, Vol. 15, no. 3, pp. 69–82.

5.
Bychkov I.V., Oparin G.A., Feoktistov A.G., Korsu
kov A.S., Vestnik Novosibirskogo Gos. Univ., 2011, Vol. 9, Iss. 2, 
pp. 42–54.

6.
Oparin G.A., Feoktistov A.G., Parallelnye vychisleniya i 

zadachi upravleniya [Parallel Computing and Control Problems],
Proc. IV Intern. Conf., Moscow, IPU RAS, 2008, pp. 1126–1135.

УДК 007:519.816

ИНТЕГРАЦИЯ ТЕХНОЛОГИИ OLAP И НЕЧЕТКИХ МНОЖЕСТВ 
ДЛЯ ОБРАБОТКИ НЕОПРЕДЕЛЕННЫХ И НЕТОЧНЫХ ДАННЫХ 

В СИСТЕМАХ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ

(Работа выполнена при финансовой поддержке РФФИ, проекты №№ 11-01-00140, 12-07-00508)

А.П. Еремеев, д.т.н., профессор, зав. кафедрой; А.А. Еремеев, аспирант

(Национальный исследовательский университет «Московский энергетический институт», 

ул. Красноказарменная, 14, Е-250, г. Москва, 111250, Россия, 

eremeev@appmat.ru, YeremeevAA@mpei.ru)

Рассматриваются возможности интеллектуального анализа данных применительно к системам поддержки приня
тия решений, в том числе и к интеллектуальным системах поддержки принятия решений реального времени
(ИСППР РВ), посредством интеграции технологии OLAP (Online Analytical Processing) и нечеткой логики. Данная 
интеграция позволит реализовать в ИСППР РВ средства для комплексного многомерного анализа больших объемов 
данных, их динамики и тенденций. Отмечается, что, хотя технология OLAP и не является необходимым атрибутом 
современных хранилищ данных (Data Warehouses), в настоящее время она активно применяется, в частности, для 
анализа накопленной в хранилищах данных информации. Используются такие понятия из теории нечетких множеств, как нечеткий срез, нечеткое множество для задания индекса соответствия и др. Даются необходимые формальные определения и приводится соответствующий иллюстративный материал. Работа выполнена с целью 
использования соответствующих методов и программных средств в ИСППР РВ для анализа плохо определенной 
(неоднозначной) информации (данных и знаний) и оперирования ею.

Ключевые слова: интеллектуальная система, хранилище данных, технология OLAP, нечеткие множества.

Программные продукты и системы
№ 1, 2013 г.

7

INTEGRATION OF THE OLAP TECHNOLOGY AND FUZZY SETS FOR PROCESSING 

OF UNCERTAIN AND INEXACT DATA IN DECISION SUPPORT SYSTEMS

Eremeev A.P., Ph.D., Professor, Head of Chair; Eremeev A.A., Postgraduate

(National Research University «Moscow Power Engineering Institute», 

14, Krasnokazarmennaya, Moscow, 111250, Russia, eremeev@appmat.ru, YeremeevAA@mpei.ru)

Abstract. Possibilities of the intelligent data mining for decision support systems by means of integration of the OLAP 

technology and fuzzy logic are considered. The given integration allows implementing measures for complex 
multidimensional analysis of big data volumes, their dynamics and trends. It is noticed that although the OLAP technology 
does not be a needed attribute of modern data warehouses, at present this technology is actively applied, in particular, for data 
analyses storing in warehouses. Such concepts from the fuzzy set theory as a fuzzy cut, fuzzy set to set an accordance index 
are used. The necessary formal definitions are given and the corresponding illustrations are presented. The work is performed 
for analyses and operating ill-definite (ambiguous) information (data and knowledge).

Keywords: intelligent system, data ware house, OLAP technology, fuzzy sets.

Современные 
интеллектуальные 
системы

(ИС), ориентированные на открытые и динамические предметные (проблемные) области, представителем которых являются ИС поддержки принятия решений реального времени (ИСППР РВ) [1], 
оперируют, как правило, большими массивами 
быстро изменяемых данных, поступающих из различных внешних источников (датчиков, сенсоров, 
оператора или непосредственно от ЛПР), то есть 
имеют дело с динамической информацией, для 
поддержки которой необходима соответствующая 
организация баз данных и знаний. ИСППР РВ 
должны иметь средства для комплексного многомерного анализа больших объемов данных, их динамики и тенденций [2]. Для этого предлагается 
использовать технологию OLAP [3]. Хотя технология OLAP и не является необходимым атрибутом хранилищ данных (ХД) (Data Warehouses), в 
настоящее время она активно применяется для 
анализа накопленной в ХД информации. 

Согласно данной технологии, оперативная ин
формация (данные) собирается из различных 
источников, очищается, интегрируется и складывается в реляционное ХД. Затем данные подготавливаются для OLAP-анализа. Они могут быть загружены в специальную БД OLAP или оставлены 
в реляционном ХД. Важнейшим элементом являются метаданные – информация о структуре, размещении и 
трансформации данных. Благодаря 
им 
обеспечивается 
эффективное 

взаимодействие различных компонентов ХД.

В процессе анализа данных в 

ИСППР РВ часто возникает необходимость построения зависимостей 
между 
различными 
параметрами, 

число которых может быть значительным. Возможность такого анализа требует представления данных в 
виде многомерной модели – гиперкуба, или OLAP-куба, содержащего
одно или более измерений и представляющего собой упорядоченный 
набор ячеек (рис. 1). Каждая ячейка 
определяется одним и только одним 
набором значений измерений – ме
ток. Под измерением понимается множество меток, образующих одну из граней гиперкуба. Примером временного (темпорального) измерения является список дней, месяцев, кварталов. Примером географического измерения может быть перечень 
территориальных 
объектов: 
населенных 

пунктов, районов, регионов, стран и т.д. 

Для получения доступа к данным пользовате
лю необходимо указать одну или несколько ячеек 
путем выбора значений измерений, которым соответствуют необходимые ячейки. Процесс выбора 
значений измерений называется фиксацией меток, 
а множества выбранных значений измерений –
множеством фиксированных меток.

Используем следующие обозначения: OLAP
куб данных обозначается как множество ячеек
H(D, M), где D={d1, d2, …, dn} – множество измерений гиперкуба; 

1
2
...

n
d
d
d
M
M
M
M




– мно
жество меток гиперкуба; 


1
2
,
,
,

i
i
i
i
d
d
M
m
m
m


, 

i=1, …, n – множество меток измерения di; DD –
множество фиксированных измерений; MM –
множество фиксированных меток [3]. Подмножество OLAP-куба, соответствующее множествам 
фиксированных значений D, M обозначается как 
H(D, M). Каждой ячейке OLAP-куба hH соот
X223

X213
X313

X333
X133
X233

X123
X323

null

d2

d1

d3

m12
m22
m32

m11

m21

m31

m13

m23

m33

Измерения (Dimensions)

Метки (Members)

Ячейка (Cell)

Мера (Value, Measure)

Пустая ячейка (Empty Cell)

Гиперкуб данных
(Data Hypercube)

Рис. 1. Гиперкуб данных

Программные продукты и системы
№ 1, 2013 г.

8

ветствует единственно возможный набор меток 
измерений MhM. Ячейка может быть пустой (не 
содержать данных) или содержать значение показателя – меру. Множество мер OLAP-куба H(D, M) 
обозначается V(H).

Ценность и достоверность знаний, полученных 

в результате интеллектуального анализа данных, 
зависят как от эффективности используемых аналитических методов и алгоритмов, так и от правильно подобранных и подготовленных для анализа исходных данных.

Чтобы довести данные до приемлемого уровня 

качества и информативности, а также организовать интегрированное хранение данных в структурах, обеспечивающих их целостность, непротиворечивость, высокую скорость и гибкость выполнения аналитических запросов, необходимо 
выполнить ряд процедур, называемых консолидацией.

Консолидация – комплекс методов и процедур, 

направленных на извлечение данных из различных источников (ХД, БД и т.п.), обеспечение необходимого уровня их информативности и качества, преобразование в единый формат, в котором 
они могут быть загружены в ХД или аналитическую систему. Консолидация данных является начальным этапом реализации любой аналитической 
задачи или проекта. В ее основе лежит процесс 
сбора и организации хранения данных в виде, оптимальном с точки зрения их обработки на конкретной аналитической платформе или решения 
конкретной аналитической задачи. Сопутствующими задачами консолидации являются оценка 
качества данных и их обогащение. 

Основными критериями оптимальности (отно
сительно консолидации данных) являются обеспечение высокой скорости доступа к данным, компактность хранения, автоматическая поддержка 
целостности структуры данных, контроль непротиворечивости данных. 

Для повышения уровня качества и информа
тивности данных применяется интеграция различных технологий, например, в работе [4] рассматривается возможность интеграции темпоральных
БД, оперирующих с данными, актуальными в определенный момент времени или на некотором 
временном интервале, с ХД и технологией OLAP.

Еще один пример эффективного обогащения 

(путем интеграции) одной технологии (ХД) другой (нечеткая логика) демонстрируют нечеткие 
срезы – фильтры по измерениям, в которых фигурируют нечеткие величины, например «все молодые ученые с небольшим доходом». Напомним, 
что в реляционных БД эту роль выполняют нечеткие запросы, предложенные в работах Д. Дюбуа и 
Г. Прада. Информация в ХД присутствует обычно 
в четком виде, поэтому для использования в 
фильтрах нечетких понятий нужно предварительно представить их в виде нечетких множеств. 

Формирование нечетких срезов

Лингвистические переменные можно задать 

для любого измерения, атрибута измерения или 
факта, значения которого имеют непрерывный 
вид. Их параметры – названия, терм-множества, 
параметры функций принадлежности – будут содержаться в семантическом слое ХД (рис. 2). 

Результатом выполнения нечеткого среза, по
мимо самого подмножества ячеек гиперкуба, 
удовлетворяющих заданным условиям, является 
индекс соответствия срезу CI[0, 1]. По сути это 
итоговая степень принадлежности к нечетким 
множествам измерений и фактов, участвующих в 
сечении куба, которая рассчитывается для каждой 
записи набора данных. Для ускорения выполнения
запросов к ХД задают верхнюю границу a индекса 
соответствия CI >а, что позволяет уже на уровне 
SQL-запроса отсеять записи, заведомо не удовлетворяющие минимальному порогу индекса соответствия. На рисунке 2 показано, что элементы 
нечеткого множества со значениями в интервале 
[x1, x2] обеспечат степень принадлежности не ниже а. 

Алгоритм 
формирования 
нечеткого 
среза 

представлен на рисунке 3. На шаге 1 используется 

Рис. 2. Нечеткое множество для задания

индекса соответствия

0

1

x

a

μ(x)

x1
x2

Рис. 3. Алгоритм формирования нечеткого среза

6. Сортировка набора данных по убыванию CI

5. Расчет CI для каждой записи в запросе

4. Запрос к ХД

3. Преобразование нечеткого среза в SQL-запрос

2. Задание минимального индекса соответствия

1.  Задание нечеткого среза

Программные продукты и системы
№ 1, 2013 г.

9

семантический слой ХД. На шаге 3 в результирующий SQL-запрос попадают границы с учетом 
минимального индекса соответствия а. Шаг 5 
предполагает применение нечетких логических 
операций. 

Рассмотрим пример. Пусть в ХД содержится 

информация о соискателях вакансий и срез (четкий) по измерениям Код анкеты, Возраст и 
Стаж работы обеспечивает набор данных, представленный в таблице 1. Очевидно, что Код анкеты – это служебное поле. Для Возраста будем 
использовать лингвистическую переменную (рис.
4), а для поля Стаж работы – переменную, определенную на рисунке 5. При задании функций 
принадлежности используются следующие множества: Малый – {0; 0; 6}, Продолжительный –
{3; 6; 10; 20}, Большой – {15; 25; 40; 40}. 

Таблица 1

Информация о соискателях 

(срез по измерениям Возраст и Стаж работы)

Код анкеты
Возраст
Стаж работы

1
23
4

2
34
11

3
31
10

4
54
36

5
46
26

6
38
15

7
21
1

8
23
2

9
30
8

10
30
12

Определим нечеткий срез «Возраст = Средний

и Стаж работы = Продолжительный». Например, для анкеты 4 (см. табл. 1) получим: 







min
54 , 
36

70
54
min
,1
0,8.
20

средний
продолжительный
CI 














Аналогично рассчитываются степени принад
лежности к итоговому нечеткому множеству для 
каждого претендента. Зададим минимальный индекс соответствия, равный 0,3, и получим результат, показанный в таблице 2.

Таблица 2

Результат нечеткого среза

Код 

анкеты

Возраст
Стаж 
работы

Индекс 

соответствия

3
31
10
1

9
30
8
1

6
38
15
1

2
34
11
0,9

10
30
12
0,8

8
23
2
0,3

1
23
4
0,3

Возможны ситуации, когда аналитику (ЛПР) 

требуется не только извлечь информацию, оперируя нечеткими понятиями, но и проранжировать 
ее по убыванию (возрастанию) степени релевантности запроса. В этих случаях нечеткий поиск в 
ХД является наиболее предпочтительным и позволяет ответить на следующие вопросы: каких 
клиентов обзвонить в первую очередь, кому сделать рекламное предложение и т.д. 

С помощью аппарата нечетких множеств и ме
тодов извлечения нечетких данных реализуется 
расширение понятия OLAP-куба, что позволяет 
исследовать возможность представления неточных данных в OLAP. 

Анализ неточных данных 

и обобщение многомерной модели данных

В контексте представления неоднозначных 

(неточных и неопределенных) данных необходимо
рассмотреть расширение многомерной модели 
данных OLAP, а также анализ возможной семантики для агрегации запросов по таким данным [5]. 
Рассмотрим несколько критериев, которые должны быть удовлетворены при любом подходе к обработке неоднозначных данных в OLAP. Первый 
критерий – непротиворечивость (consistency), используемый для установления отношений между 
подобными запросами, формируемыми в связанных узлах доменной иерархии и позволяющими 
пользователям осуществлять ожидаемую навигацию вверх и вниз по иерархии. Второй критерий –
верность (faithfulness), гарантирующий то, что 
точные данные должны привести к лучшим результатам. Третий критерий – сохранение корреляции (correlation-preservation), по существу тре
Рис. 4. Графическое изображение лингвистической 

переменной Возраст

Рис. 5. Графическое изображение лингвистической 

переменной Стаж работы

0

0,2

0,4

0,6

0,8

1

1,2

0
10
20
30
40
50
60
70
80
90
100

μ(x)
Средний
Молодой

x

Старый

0

0,2

0,4

0,6

0,8

1

1,2

0
5
10
15
20
25
30
35
40 x

μ(x)

Большой
Продолжительный
Малый

Программные продукты и системы
№ 1, 2013 г.

10

бующий, чтобы статистические свойства данных 
не влияли на распределение неоднозначных записей данных.

Расширим обычную модель данных OLAP сле
дующим образом. Прежде всего ослабим ограничение, согласно которому атрибуты размерности в 
факте должны быть назначены из конечного множества значений основной области, чтобы смоделировать неточность. Второе расширение должно 
представить новый вид атрибута меры – неопределенность. Таким образом, неопределенное значение – это диапазон возможных значений вместе 
с вероятностью каждого из них. В частности, 
можно представить значение для неуверенной меры как функцию распределения вероятностей 
(probability distribution function, PDF) по значениям от основной области.

Подытоживая сказанное, в плане интеграции 

технологии OLAP и аппарата нечетких множеств 
для обработки неоднозначных данных в ИСППР 
РВ предлагаются обобщение OLAP-модели для 
возможности представления неоднозначности в 
данных как в случае неточных значений размерности, так и в случае неопределенных значений 
меры, а также введение ряда критериев (непротиворечивость, верность, сохранение корреляции), 
направленных на выбор наиболее подходящей семантики для агрегации запросов по неоднозначным данным.

Рассмотрим обобщение стандартной много
мерной модели данных, включающей неточности 
и неопределенности.

Атрибуты в стандартной модели OLAP могут 

быть двух видов – измерения и метки. Расширим 
модель с целью учета неопределенности в измерении величин и погрешности в измерении значения.

Пусть неопределенная область U, заданная на 

основной области (универсуме) O, есть множество 
всех возможных функций распределения вероятности (PDF) на O [5]. Таким образом, каждое значение u в U есть PDF, указывающая на степень 
уверенности в том, что истинное значение будет 
представлено как o для каждого oO. 

Неточная область I на основной области B яв
ляется подмножеством множества B, а элементы 
области I называются неточными значениями, 
I Интуитивно понятно, что неточное значение 
имеет непустое множество возможных значений. 
Разрешение атрибутам измерения иметь неточную 
область позволяет, например, использовать неточное (обобщенное) значение Москва для атрибута 
расположения в записи данных, если известно, что 
некое событие произошло в Москве, но неизвестно, в каком районе. 

В OLAP каждое измерение имеет соответст
вующую иерархию, например, размерность расположения может иметь атрибуты Города и Области, где Области – обобщение для Городов, что 

свидетельствует об особых случаях неточных областей, называемых иерархическими областями.

Иерархическая область H на основной области 

B определяется как неточная область на B, такая, 
что H содержит все одноэлементное множество 
(то есть соответствует некоторому элементу B) и
для любой пары элементов h1, h2H, h1h2 или 
h1h2=. Таким образом, каждый одноэлементный узел есть вершина в иерархической области 
H, а каждый неодноэлементный узел в H – неконечный узел. Например, Южный административный округ (АО), Западный АО и т.д. – конечные 
узлы с родителем Москва, для которого (узла), в 
свою очередь, родителем является Россия.

Схема таблицы фактов есть схема A1, …, Ak; 

M1, …, Mn, где размерность атрибута Ai , i1, …, 
k, имеет соответствующую неточную область определения dom(Ai), а размерность атрибута Mj, 
j1, …, n – область определения dom(Mj), которая 
может быть числовой или неточной. 

Экземпляром БД такой схемы таблицы фактов 

является коллекция фактов вида a1, …, ak; m1, …, 
mn, где adom(Ai), i1, …, k, и mjdom(Mj), j1, 
…, n. В частности, если dom(Ai) является иерархической областью, ai может быть любым конечным 
или неконечным узлом в dom(Ai).

Рассмотренное обобщение многомерной моде
ли данных позволяет представлять неточные данные и реализовать алгоритмы для оценки агрегации запросов.

В настоящее время довольно активно ведутся 

исследования по интеграции технологии OLAP с 
другими различными технологиями, в частности с 
нечеткими моделями. В статье рассмотрены возможности интеграции технологии OLAP с аппаратом нечетких множеств (нечетких срезов) в плане 
использования соответствующих методов и программных средств в ИСППР РВ для анализа и 
оперирования плохо определенной (неоднозначной) информацией (данными и знаниями). 

Базовые программные модули предложенной 

интеграции технологии OLAP и нечетких моделей 
реализуются на кафедре прикладной математики 
МЭИ в исследованиях, касающихся разработки 
методов, моделей и базовых инструментальных 
средств конструирования ИСППР РВ семиотического типа на основе нетрадиционных логик. В 
дальнейших исследованиях и разработках планируется рассмотреть использование концепции 
возможных миров (possible worlds) при неоднозначности данных, позволяющей реализовать 
новый, основанный на распределении подход к 
определению семантики запросов агрегации и 
глубокому анализу вариантов, возникающих при 
обработке неоднозначности данных, используя 
критерии непротиворечивости, верности и сохранения корреляции. Кроме того, представляют интерес алгоритмы для оценки агрегации запросов
(для обычных и для неточных мер), а также слож