Программные продукты и системы : международный научно-практический журнал. - Тверь : НИИ Центрпрограммсистем, 2023. - Т. 36, № 2. - 344 с. - ISSN 0236-235X. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2113365 (дата обращения: 30.04.2024)

Скопировать запись

Экспорт списка

Excel

RUSMARC .iso

win-1251

UTF-8

RUSMARC .txt

win-1251

UTF-8

IRBIS .txt

win-1251

UTF-8

Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.

Научно-исследовательский институт «Центрпрограммсистем»

Программные продукты и системы

Научный журнал

2023, том 36, № 2
(год издания тридцать шестой)


Главный редактор Г.И. САВИН, академик РАН





SOFTWARE & SYSTEMS



Research journal


2023, vol. 36, no. 2



Editor-in-Chief
G.I. SAVIN, Academician of the Russian Academy of Sciences




Research Institute CENTERPROGRAMSYSTEM

стр. 1

© ПРОГРАММНЫЕ ПРОДУКТЫ И СИСТЕМЫ
Научный журнал
2023. Т. 36. № 2
DOI: 10.15827/0236-235X.142
Главный редактор
Г.И. САВИН, академик РАН
Научные редакторы номера:
Н.А. СЕМЕНОВ, д.т.н., профессор
Т.М. ТАТАРНИКОВА, д.т.н., профессор
Б.М. ШАБАНОВ, д.т.н., чл.-корр. РАН

          Издатель НИИ «Центрпрограммсистем» (г. Тверь, Россия)
Учредитель В.П. Куприянов
Журнал зарегистрирован в Роскомнадзоре 3 марта 2020 г. Регистрационное свидетельство ПИ № ФС 77-77843

Подписной индекс в каталоге
Урал-Пресс 70799

                      ISSN 0236-235X (печатн.) ISSN 2311-2735 (онлайн)

РЕДАКЦИОННАЯ КОЛЛЕГИЯ

Семенов Н.А. - заместитель главного редактора, д.т.н., профессор Тверского государственного технического университета (г. Тверь, Россия)
Сотников А.Н. - заместитель главного редактора, д.ф.-м.н., профессор, заместитель директора
Межведомственного суперкомпьютерного центра РАН (г. Москва, Россия)
Афанасьев А.П. - д.ф.-м.н., профессор Московского физико-технического института (технического университета), заведующий Центром распределенных вычислений Института проблем передачи информации РАН (г. Москва, Россия) Баламетов А.Б. - д.т.н., профессор Азербайджанского научно-исследовательского и проектно-изыскательского института энергетики (г. Баку, Азербайджан)
Батыршин И.З. - д.т.н., профессор Мексиканского института нефти (г. Мехико, Мексика)
Борисов В.В. - д.т.н., профессор филиала Национального исследовательского университета «МЭИ» в г. Смоленске
(г. Смоленск, Россия)
Голенков В.В. - д.т.н., профессор Белорусского государственного университета информатики и радиоэлектроники
(г. Минск, Беларусь)
Елизаров А.М. - д.ф.-м.н., профессор Института математики и механики им. Н.И. Лобачевского Казанского федерального университета (г. Казань, Россия)
Еремеев А.П. - д.т.н., профессор Национального исследовательского университета «МЭИ» (г. Москва, Россия)
Кузнецов О.П. - д.т.н., профессор Института проблем управления РАН (г. Москва, Россия)
КурейчикВ.М. - д.т.н., профессор Инженерно-технологической академии Южного федерального университета
(г. Таганрог, Россия)
Лисецкий Ю.М. - д.т.н., генеральный директор «S&T Ukraine» (г. Киев, Украина)
Мамросенко К.А. - к.т.н., доцент Московского авиационного института (национального исследовательского университета), руководитель Центра визуализации и спутниковых информационных технологий НИИСИ РАН (г. Москва, Россия)
Мейер Б. - доктор наук, профессор, заведующий кафедрой Высшей политехнической школы - ETH (г. Цюрих, Швейцария) Палюх Б.В. - д.т.н., профессор Тверского государственного технического университета (г. Тверь, Россия) Серов В.С. - д.ф.-м.н., профессор Университета прикладных наук Оулу (г. Оулу, Финляндия)
Сулейманов Д.Ш. - академик АН Республики Татарстан, д.т.н., профессор Казанского государственного технического университета (г. Казань, Республика Татарстан, Россия)
Татарникова Т.М. - д.т.н., доцент, профессор Санкт-Петербургского государственного электротехнического университета «ЛЭТИ» им. В.И. Ульянова (Ленина) (г. Санкт-Петербург, Россия)
Ульянов С.В. - д.ф.-м.н., профессор, ведущий научный сотрудник Объединенного института ядерных исследований
(г. Дубна, Россия)
Хорошевский В.Ф. - д.т.н., профессор Московского физико-технического института (технического университета)
(г. Москва, Россия)
Шабанов Б.М. - д.т.н., чл.-корр. РАН, директор Межведомственного суперкомпьютерного центра РАН (г. Москва, Россия)
Язенин А.В. - д.ф.-м.н., профессор Тверского государственного университета (г. Тверь, Россия)

АССОЦИИРОВАННЫЕ ЧЛЕНЫ РЕДАКЦИИ

Национальный исследовательский университет «МЭИ», г. Москва, Россия
Технологический институт Южного федерального университета, г. Таганрог, Россия
Тверской государственный технический университет, г. Тверь, Россия

АДРЕС ИЗДАТЕЛЯ И РЕДАКЦИИ
Россия, 170024,
г. Тверь, просп. Николая Корыткова, д. 3а
Телефон (482-2) 39-91-49
Факс (482-2) 39-91-00
E-mail: red@cps.tver.ru
Сайт: www.swsys.ru

Дата выхода в свет 16.06.2023 г.
Отпечатано ИПП «Фактор и К»
Россия, 170100, г. Тверь, ул. Крылова, д. 26
Выпускается один раз в квартал
Год издания тридцать шестой Формат 60x84 1/8. Объем 160 стр. Заказ № 14. Тираж 1000 экз. Цена 550,00 руб.

стр. 2

© SOFTWARE & SYSTEMS
Research journal
2023, vol. 36, no. 2
DOI: 10.15827/0236-235X.142
Editor-in-chief
G.I. SAVIN, Academician of RAS
Science editors of the issue:
N.A. Semenov, Dr.Sc. (Engineering), Professor
T.M. Tatarnikova, Dr.Sc. (Engineering), Professor
B.M. Shabanov, Dr.Sc. (Engineering), Corresponding Member of the RAS

Publisher Research Institute
CENTERPROGRAMSYSTEM (Tver, Russian Federation)

Founder V.P. Kupriyanov

       The journal is registered with the Federal Service for Supervision of Communications, Information Technology and Mass Communications (Roskomnadzor)
           March 3rd, 2020 Registration certificate ПИ № ФС 77-77843

                           ISSN 0236-235X (print) ISSN 2311-2735 (online)


EDITORIAL BOARD

Semenov N.A. - Deputy Editor-in-Chief, Dr.Sc. (Engineering), Professor of the Tver State Technical University (Tver, Russian Federation)
Sotnikov A.N. - Deputy Editor-in-Chief, Dr.Sc. (Physics and Mathematics), Professor, Deputy Director of the Joint Supercomputer Center of the Russian Academy of Sciences (Moscow, Russian Federation) Afanasiev A.P. - Dr.Sc. (Physics and Mathematics), Professor of the Moscow Institute of Physics and Technology, Head of Centre for Distributed Computing of Institute for Information Transmission Problems (Moscow, Russian Federation)
Balametov A.B. - Dr.Sc. (Engineering), Professor of the Azerbaijan Scientific-Research & Design-Prospecting Power Engineering Institute (Baku, Azerbaijan)
Batyrshin I.Z. - Dr.Sc. (Engineering), Professor of the Mexican Petroleum Institute (Mexico City, Mexico)
Borisov V.V. - Dr.Sc. (Engineering), Professor of the MPEI Branch in Smolensk (Smolensk, Russian Federation) Golenkov V.V. - Dr.Sc. (Engineering), Professor of the Belarusian State University of Informatics and Radioelectronics (Minsk, Republic of Belarus)
Elizarov A.M. - Dr.Sc. (Physics and Mathematics), Professor of the N.I. Lobachevsky Institute of Mathematics and Mechanics of the Kazan Federal University (Kazan, Russian Federation)
Eremeev A.P. - Dr.Sc. (Engineering), Professor of the National Research University “Moscow Power Engineering Institute” (Moscow, Russian Federation)
Kuznetsov O.P. - Dr.Sc. (Engineering), Professor of the Institute of Control Sciences of the Russian Academy of Sciences (Moscow, Russian Federation)
Kureichik V.M. - Dr.Sc. (Engineering), Professor of the Academy of Engineering and Technology of the Southern Federal University (Taganrog, Russian Federation)
Lisetsky Yu.M. - Dr.Sc. (Engineering), CEO of "S&T Ukraine" (Kiev, Ukraine)
Mamrosenko K.A. - Ph.D. (Engineering), Associate Professor of the Moscow Aviation Institute (National Research University), Head of the Center of Visualization and Satellite Information Technologies SRISA RAS (Moscow, Russian Federation)
Meyer B. - Dr.Sc., Professor, Head of Department in the Swiss Federal Institute of Technology in Zurich, ETH (Zurich, Switzerland)
Palyukh B.V. - Dr.Sc. (Engineering), Professor of the Tver State Technical University (Tver, Russian Federation) Serov V.S. - Dr.Sc. (Physics and Mathematics), Professor of the Oulu University of Applied Sciences (Oulu, Finland) Suleimanov D.Sh. - Academician of TAS, Dr.Sc. (Engineering), Professor of the Kazan State Technical University (Kazan, Republic of Tatarstan, Russian Federation)
Tatarnikova T.M. - Dr.Sc. (Engineering), Associate Professor, Professor of the St. Petersburg Electrotechnical University "LETI" (St. Petersburg, Russian Federation)
Ulyanov S.V. - Dr.Sc. (Physics and Mathematics), Professor of the Dubna International University for Nature, Society and Man (Dubna, Russian Federation)
Khoroshevsky V.F. - Dr.Sc. (Engineering), Professor of the Moscow Institute of Physics and Technology (Moscow, Russian Federation)
Shabanov B.M. - Dr.Sc. (Engineering), Corresponding Member of the RAS, Director of the Joint Supercomputer Center of the Russian Academy of Sciences (Moscow, Russian Federation)
Yazenin A.V. - Dr.Sc. (Physics and Mathematics), Professor of the Tver State University (Tver, Russian Federation)


ASSOCIATED EDITORIAL BOARD MEMBERS

National Research University “Moscow Power Engineering Institute”, Moscow, Russian Federation Technology Institute at Southern Federal University, Taganrog, Russian Federation
Tver State Technical University, Tver, Russian Federation


EDITORIAL BOARD AND PUBLISHER OFFICE ADDRESS
Nikolay Korytkov Ave. 3а, Tver, 170024, Russian Federation
Phone: (482-2) 39-91-49 Fax: (482-2) 39-91-00
E-mail: red@cps.tver.ru
Website: www.swsys.ru

Release date 16.06.2023
Printed in printing-office “Faktor i K” Krylova St. 26, Tver, 170100, Russian Federation Published quarterly. 36th year of publication Format 60x84 1/8. Circulation 1000 copies Prod. order № 14. Wordage 160 pages. Price 550,00 rub.

стр. 3

Вниманию авторов

Журнал «Программные продукты и системы» публикует материалы научного и научно-практического характера по новым информационным технологиям, результаты академических и отраслевых исследований в области использования средств вычислительной техники. Практикуются выпуски тематических номеров по искусственному интеллекту, системам автоматизированного проектирования, по технологиям разработки программных средств и системам защиты, а также специализированные выпуски, посвященные научным исследованиям и разработкам отдельных вузов, НИИ, научных организаций.
Журнал «Программные продукты и системы» внесен в Перечень ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней кандидата и доктора наук.
Информация об опубликованных статьях по установленной форме регулярно предоставляется в систему РИНЦ, в CrossRef и в другие базы и электронные библиотеки.
Журнал «Программные продукты и системы» входит в бвзу данных RSCI, включен в ядро коллекции РИНЦ, размещенное на платформе Web of Science в виде базы данных RSCI.
Автор статьи отвечает за подбор, оригинальность и точность приводимого фактического материала. При перепечатке ссылка на журнал обязательна. Статьи публикуются бесплатно.
Условия публикации
К рассмотрению принимаются оригинальные материалы, отвечающие редакционным требованиям и соответствующие тематике журнала. Группа научных специальностей:
1.2. Компьютерные науки и информатика
1.2.1. Искусственный интеллект и машинное обучение (физико-математические науки).
1.2.2. Математическое моделирование, численные методы и комплексы программ (физико-математические науки, технические науки)
2.3. Информационные технологии и телекоммуникации
2.3.1. Системный анализ, управление и обработка информации, статистика (технические науки, физикоматематические науки).
2.3.2. Вычислительные системы и их элементы (технические науки).
2.3.3. Автоматизация и управление технологическими процессами и производствами (технические науки).
2.3.5. Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей (технические науки, физико-математические науки).
2.3.6. Методы и системы защиты информации (технические науки, физико-математические науки).
2.3.7. Компьютерное моделирование и автоматизация (технические науки, физико-математические науки).
2.3.8. Информатика и информационные процессы (технические науки).
Работа представляется в электронном виде в формате Word. Объем статьи вместе с иллюстрациями - не менее 10 000 знаков. Диаграммы, схемы, графики должны быть доступными для редактирования (Word, Visio, Excel). Заголовок должен быть информативным; сокращения, а также терминологию узкой тематики желательно в нем не использовать. Количество авторов на одну статью - не более 4, количество статей одного автора в номере, включая соавторство, - не более 2. Список литературы, наличие которого обязательно, должен включать не менее 10 пунктов.
Необходимы также содержательная структурированная аннотация (не менее 250 слов), ключевые слова (7-10) и индекс УДК. Название статьи, аннотация и ключевые слова должны быть переведены на английский язык (машинный перевод недопустим), а фамилии авторов, названия и юридические адреса организаций (если нет официального перевода) - транслитерированы по стандарту BGN/PCGN.
Вместе со статьей следует прислать экспертное заключение, лицензионное соглашение, а также сведения об авторах: фамилия, имя, отчество, название и юридический адрес организации, структурное подразделение, должность, ученые степень и звание (если есть), контактный телефон, электронный адрес.
Порядок рецензирования
Все статьи, поступающие в редакцию (соответствующие тематике и оформленные согласно требованиям к публикации), подлежат двойному слепому рецензированию в течение месяца с момента поступления, рецензия отправляется авторам.
В редакции сформирован устоявшийся коллектив рецензентов, среди которых члены редколлегии журнала, эксперты из числа крупных специалистов в области информатики и вычислительной техники ведущих вузов страны, а также ученые и специалисты НИИСИ РАН, МСЦ РАН (г. Москва) и НИИ «Центрпрограмм-систем» (г. Тверь).
Редакция журнала «Программные продукты и системы» в своей работе руководствуется сводом правил Кодекса этики научных публикаций, разработанным и утвержденным Комитетом по этике научных публикаций (Committee on Publication Ethics - COPE).

стр. 4

Программные продукты и системы /Software & Systems

36(2), 2023

УДК 519.248:658.518.5      doi: 10.15827/0236-235X.142.189-195  2023. Т. 36. № 2. С. 189-195


            Сравнительный анализ методов построения математических моделей функционирования объекта с применением машинного обучения


В.Н. Ковальногов
В.В. Шеркунов
Хуссейн Мохамед Хуссейн
В.Н. Клячкин
Ссылка для цитирования
Ковальногов В.Н., Шеркунов В.В., Хуссейн Мохамед Хуссейн, Клячкин В.Н. Сравнительный анализ методов построения математических моделей функционирования объекта с применением машинного обучения // Программные продукты и системы. 2023. Т. 36. № 2. С. 189-195. doi: 10.15827/0236-235X.142.189-195 Информация о статье
Поступила в редакцию: 27.10.2022 После доработки: 30.01.2023 Принята к публикации: 14.02.2023


Аннотация. Предметом данного исследования является технический объект, работа которого определяется множеством факторов, а качество функционирования характеризуется некоторым показателем. Требуется построить математическую модель, связывающую этот показатель со значениями факторов. В качестве примера исследуется влияние различных факторов на эффективность работы горелочных устройств (нагрузки, расхода воздуха, метана и биогаза, составов топлива и окислителя и других). Эффективность (качество функционирования) горелочного устройства оценивается по температуре дымовых газов. Задача решается методами машинного обучения, поскольку классические методы регрессионного анализа показали недостаточную точность. В настоящей статье исследуется эффективность метода опорных векторов, случайного леса и бустинга деревьев решений. Для численных расчетов использована локализованная версия 13.3 системы Statistica. Все три подхода машинного обучения показали существенное повышение точности модели на тестовой выборке. Наилучшие результаты в рассматриваемом примере дал метод бустинга деревьев решений. Рекомендуемая технология построения модели, обеспечивающая необходимую точность прогнозирования, сводится вначале к апробации классического регрессионного анализа (если полученная модель обеспечит необходимую точность, то она предпочтительна с точки зрения ее интерпретируемости). При недостаточной точности используются три рассмотренных метода машинного обучения, вместе с тем важен подбор параметров каждого из них, который, с одной стороны, обеспечивал бы необходимую точность, а с другой - не приводил бы к переобучению модели. Полученная модель может быть использована для оценки влияния различных факторов на эффективность работы технического объекта, а также для прогнозирования качества его функционирования, в частности, температуры дымовых газов.
Ключевые слова: регрессионная модель, мультиколлинеарность, метод опорных векторов, случайный лес, бу-стинг деревьев решений
Благодарности. Исследования поддержаны грантом Президента Российской Федерации, проект НШ-28.2022.4

   Рассматривается технический объект, работа которого определяется множеством р факторов Xj, а качество функционирования характеризуется показателем Y. Известны результаты наблюдений за работой объекта. Требуется построить математическую модель, связывающую показатель Y со значениями факторов Xj.
   Это стандартная задача построения множественной регрессии, решение которой при определенных условиях можно использовать для прогнозирования значений - откликов Y по заданному набору показателей Xj. Проблема состоит в том, что далеко не всегда такую модель можно корректно построить: она может оказаться незначимой или при значимости по критерию Фишера недостаточно качественной для прогнозирования вследствие низкого коэффициента детерминации -квадрата коэффициента корреляции между опытными и прогнозируемыми значениями (показывает, какая доля дисперсии отклика

может быть объяснена рассматриваемыми факторами) [1].
   В этом случае более эффективным может быть применение нейронных сетей. Известно, что глубокое обучение сетей приводит к существенному повышению качества построенной модели. Однако для глубокого обучения необходим достаточно большой объем выборочных данных, что для реальных технических объектов, как правило, получить невозможно: обычно выборки имеют объем в несколько десятков или сотен наблюдений [2, 3].
   В настоящей статье в качестве примера исследуется влияние различных факторов на эффективность работы горелочных устройств (нагрузки, расхода воздуха, метана и биогаза, составов топлива и окислителя и других). Эффективность горелочного устройства Y оценивается по температуре дымовых газов.
   Для численных расчетов использовалась локализованная версия 13.3 системы Statistica.

189

стр. 5

Программные продукты и системы / Software & Systems

36(2), 2023

Как правило, решение задач машинного обучения осуществляется путем разработки соответствующей программы на языке программирования Python, в котором есть множество уже отлаженных конструкторов для задач классификации и регрессии, а также метрик для оценки качества полученных моделей. В частности, аналогичная задача в статье [4] решалась с помощью такой программы другим методом - путем разделения состояний горелочного устройства на оптимальное, удовлетворительное и неудовлетворительное (муль-тиклассовая классификация).
   Вместе с тем при наличии в организации системы Statistica нужный результат может быть получен гораздо оперативнее. Эта система разработана американской компанией, адаптирована к отечественной практике и является самой распространенной статистической системой в России.

        Постановка задачи

   Эффективность функционирования рассматриваемого горелочного устройства, по мнению экспертов, определялась 20 факторами. Три пары показателей оказались связанными линейными зависимостями, таким образом, три фактора были исключены из рассмотрения (табл. 1).
   Также исследовалось наличие корреляционных связей между оставшимися 17 показателями. Сильная корреляция (выборочный коэффициент корреляции r >   0,9) имеет место
между парами показателей Х4-Х5, Х4-Х9, Х5-Х9, Х6-Х7, Х6-Х11. Однако, по предложению экспертов, все эти показатели были учтены в расчетах.
   Наличие выбросов в исходных данных оценивалось приближенно по диаграммам рассеяния между парами показателей. Всего из 309 наблюдений обнаружено 9 выбросов. Таким образом, число наблюдений равно 300.
   По этим данным строилась регрессионная модель с учетом ее мультиколлинеарности (наличия сильных корреляций между факторами). Использовалась гребневая регрессия. При этом незначимые по критерию Стьюдента факторы отсеивались: использовался алгоритм пошаговой регрессии.
   Этот алгоритм одновременно с гребневой регрессией реализован в системе Statistica. Результаты расчета показаны в таблице 2. Для обучения модели использованы 240 наблюдений из 300: 60 наблюдений оставлены для по

следующего тестирования, чтобы исключить переобучение модели. Из 17 факторов значимыми оказались только четыре: Х1 (нагрузка), Х14 (температура топлива), Х16 (размер сетки) и Х17 (коэффициент избытка воздуха):
   Y = 401,67 + 0,0376Х1+ 1,2883Х14 +
+ 27,1875Х16 - 45,773Х17.
   Параметр гребневой регрессии X = 0,001 подобран из условия обеспечения максимума коэффициента детерминации. Модель оказалась значимой по F-критерию Фишера (вероятность ошибки р < 0,05), все входящие в модель факторы значимы по t-критерию Стьюдента (вероятности ошибокр < 0,05), при этом коэффициент детерминации R² оказался равным 0,37, что является недопустимо низким значением.


Таблица 1
Показатели работы горелочного устройства
Table 1

Burner performance indicators

 Обо-    Наименование,       Значение     
значе-      единица        Мини-  Макси- 
 ние       измерения      мальное мальное
  Х1   Нагрузка, т/ч        170     500  
  Х2   Расход воздуха,     5044   59 719 
       м3/ч                              
  Х3   Расход метана,        0     5 375 
       м3/ч                              
  Х4   Расход биогаза,       0     5 000 
       м3/ч                              
       Состав                            
       топлива, %:                       
  Х5   СН4                  30      98   
  Х6   С2Н6                  0      15   
  Х7   С3Н8                  0       9   
  Х8   СО2                   0      32   
  Х9   N2                    0     1,05  
       Состав                            
       окислителя, %:                    
Х|0    О2                  0,179   0,232 
Х|1    N2                  0,750   0,768 
Х12    СО2                   0     0,023 
Х|з    Температура          446     533  
       воздуха, К                        
Х14    Температура          10      25   
       топлива, К                        
Х15    Угол наклона          0      50   
       лопаток                           
       завихрителя, град.                
 Х16   Размер сетки, м      0,1      1   
Х17    Коэффициент         0,88     1,5  
       избытка воздуха                   
  Y    Температура          348     412  
       дымовых газов, К                  

190

стр. 6

Программные продукты и системы / Software & Systems

36(2), 2023

                                    Таблица 2
Результаты расчета регрессии

Table 2

Regression calculation results

Фактор   Коэффи- Стандартная t (235) Значе-
         циент В  ошибка В           ние р 
Св. член 401,67  14,16       28,36   0,0000
Х1       0,0376  0,00994     3,77    0,0002
Х14      1,2883  0,31684     4,07    0,0001
Х16      27,1875 4,16803     6,52    0,0000
Х17      -45,773 11,46809    3,99    0,0001

   Примечание. Гребневая регрессия для зависимой переменной Y, наблюдений - 240, X = 0,001, R² = 0,37; F(4,235) = 33,85; p < 0,000; стандартная ошибка оценки 12,94.

   Именно это обстоятельство и привело к поиску других методов построения модели. Обзор методов построения регрессий с использованием машинного обучения выявил возможность использования трех подходов для получения наиболее качественных моделей: метода опорных векторов [5-7], случайного леса [8, 9] и бу-стинга деревьев решений [10, 11].
   Эти методы использовались для решения различных задач построения регрессий, например, для прогнозирования работы системы водоочистки, при вибромониторинге гидроагрегата, в задаче оценки стабильности функционирования газотурбинного двигателя и других. При этом выявлено, что ни один из методов не гарантирует достаточно качественное построение модели (за исключением глубокого обучения нейросетей, но, как известно, этот метод связан с требованием слишком большого объема наблюдений). В зависимости от конкретного набора исходных данных возможны как недостаточно высокая точность модели, так и ее переобучение.
   Цель исследования - разработать технологию построения регрессионной модели, обеспечивающую необходимую точность прогнозирования показателя эффективности функционирования технического объекта, путем выбора соответствующего метода обучения и оценки его параметров.

Метод опорных векторов

   Данный метод основан на разделении объектов гиперплоскостью способом, максимизирующим ширину разделяющей полосы - зазор между опорными векторами. Для линейно неразделимых данных используют различные варианты функции ядра. Программа позволяет выбрать тип ядра линейный, полиномиальный,

сигмоидный и радиальную базисную функцию. В рассматриваемой задаче опробованы различные типы ядер и выбрана радиальная базисная функция с параметром гамма, равным 0,0588 и обеспечивающим наилучшие предсказанные значения. При необходимости параметры могут быть уточнены с применением кросс-валидации.
   На рисунке 1 показаны опытные и предсказанные значения отклика для тестовой части выборки.


Температура дымовых газов Y

•"бЛюднаблюдаемое значение
п"бДск^предсказанное методом опорных векторов

Рис. 1. Предсказанные значения по тестовой выборке с помощью метода опорных векторов

Fig. 1. Predicted values from the test sample using the support vector machine


   По этим данным подсчитывались две характеристики качества построенной модели:
   - средняя абсолютная процентная ошибка (MAPE):
      ,     1 П^ | у. -у. I _
   MAPE = —У'Л      % % 100 % ,
           ⁿT i=1 | yi |
где пт - объем тестовой выборки; yi - опытное значение отклика; f - прогнозируемое значение по построенной модели;
   - корень из средней квадратичной ошибки (RMSE):

   RMSE = А — L (у,-у,У-
           n пт i=1


   Для данных по рисунку 1 определим
   МАРЕ = 2,09 %, RMSE = 10,2.
   Полученные значения будем далее сравнивать с соответствующими характеристиками моделей, построенных другими методами.


        Случайный лес


   Алгоритм сочетает в себе случайный выбор с возвращением и метод случайных подпро

191

стр. 7

Программные продукты и системы / Software & Systems

36(2), 2023

странств. Он состоит из множества независимых деревьев решений, при этом используются случайная выборка наблюдений из обучающего набора и случайный набор показателей при принятии решений о разбиении узлов. Случайный лес применяется для решения задач классификации, регрессии и кластеризации.
   Метод имеет высокую точность предсказания, нечувствителен к монотонным преобразованиям значений показателей, редко переобучается: добавление деревьев почти всегда только улучшает композицию, но после достижения определенного количества деревьев кривая обучения выходит на асимптоту. К недостаткам относят то, что в отличие от одного дерева результаты случайного леса сложнее интерпретировать; кроме того, требуется много памяти для хранения модели вследствие большого размера получающихся моделей.
   Программа Statistica показывает ход процесса обучения с помощью случайного леса, построенное дерево (рис. 2), столбчатую диа

грамму важности факторов по степени их влияния на отклик (рис. 3), а также прогнозируемые значения отклика на тестовой выборке.
   С учетом прогнозируемых этим методом значений получим: средняя абсолютная процентная ошибка МАРЕ = 2,25 %, корень из средней квадратичной ошибки RMSE = 10,8.
   Очевидно, что в рассматриваемой задаче точность прогнозирования методом случайного леса ниже, чем методом опорных векторов.

        Бустинг деревьев решений

   В ходе обучения случайного леса каждый базовый алгоритм строится независимо от остальных. В бустинге используется идея последовательного построения линейной комбинации алгоритмов. Каждый следующий алгоритм старается уменьшить ошибку текущего ансамбля.
   Бустинг, использующий деревья решений в качестве базовых алгоритмов, называется градиентным бустингом над решающими


Рис. 2. Дерево, построенное методом случайного леса Fig. 2. A tree built using the random forest method

192

стр. 8

Программные продукты и системы /Software & Systems

36(2), 2023

1,000000
0,900000
0,800000
0,700000
0,600000
0,500000
0,400000
0,300000
0,200000
0,100000
0,000000

Рис. 3. Столбиковая диаграмма значимости факторов

Fig. 3. A bar chart of the factor significance

деревьями. Если обучить одно дерево, то качество модели, скорее всего, будет низким. Однако о построенном дереве известно, на каких объектах оно давало точные предсказания, а на каких ошибалось. Таким образом, если вторая модель научится предсказывать разницу между реальным значением и ответом первой, то это позволит уменьшить ошибку композиции. Процесс продолжается, пока ошибка не минимизируется.
Настройки бустинга в системе Statistica были установлены по результатам предварительных испытаний: количество шагов - 200, минимальное число наблюдений - 7, максимальное количество уровней - 10. На рисунке 4 показан ход процесса обучения: синяя линия -средняя квадратичная ошибка на обучающей выборке, красная - на тестовой. Оптимальное число деревьев оказалось равным 197.
Программа, как и другие методы, выводит прогнозируемые значения отклика по тестовой выборке. С их учетом МАРЕ = 1,93 %, RMSE = 9,2.
Видно, что точность прогнозирования при использовании бустинга оказалась выше, чем двумя ранее рассмотренными методами, по обоим критериям.

Заключение

Построение математической модели функционирования технического устройства по ре-

Рис. 4. Ход процесса обучения при градиентном бустинге деревьев решений

Fig. 4. The course of the learning process with gradient boosting of decision trees

зультатам опытной эксплуатации методами регрессионного анализа по ограниченному объему наблюдений не всегда обеспечивает необходимое качество построенных моделей. Для повышения точности прогнозирования может оказаться полезным применение методов машинного обучения. Все три рассмотренных в статье подхода обучения с помощью метода опорных векторов, случайного леса и бустинга деревьев решений показали существенное повышение точности модели на тестовой выборке. Наилучшие результаты в рассматриваемом примере дал метод бустинга деревьев решений.
Таким образом, рекомендуемая технология построения математической модели, обеспечивающая необходимую точность прогнозирования показателя эффективности функционирования технического объекта, сводится к апробации вначале классического регрессионного анализа (если полученная модель обеспечит необходимую точность, то она предпочтительна с точки зрения ее интерпретируемости). При недостаточной точности используются три рассмотренных метода машинного обучения, при этом следует обратить внимание на необходимость подбора параметров каждого из методов, которые, с одной стороны, обеспечивали бы требуемую точность, с другой, не приводили бы к переобучению модели.

Список литературы

1. Клячкин В.Н., Крашенинников В.Р., Кувайскова Ю.Е. Прогнозирование и диагностика стабильности функционирования технических объектов. М.: РУСАЙНС, 2020. 200 с.
2. Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение; [пер. с англ.]. М.: ДМК Пресс, 2018. 652 с.
3. Hanin B. Universal function approximation by deep neural nets with bounded width and ReLU activations. Mathematics, 2019, no. 7, art. 992. doi: 10.3390/math7100992.

193

стр. 9

Программные продукты и системы / Software & Systems

36(2), 2023

    4.     Kovalnogov V., Fedorov R., Klyachkin V., Generalov D., Kuvayskova Y., Busygin S. Applying the random forest method to improve burner efficiency. Mathematics, 2022, no. 10, art. 2143. doi: 10.3390/math10122143.
    5.     Bavazeer S.A., Baakeem S.S., Mohamad A.A. A New radial basis approach based on Hermite expansion with respect to the shape parameter. Mathematics, 2019, no. 7, art. 979. doi: 10.3390/math7100979.
    6.     Sun X., Du P., Wang X., Ma P. Optimal penalized function-on-function regression under a reproducing kernel Hilbert space framework. J. of the American Statistical Association, 2018, vol. 113, no. 524, рр. 1601-1611. doi: 10.1080/ 01621459.2017.1356320.
    7.     Pedregosa F., Bach F., Gramfort A. On the consistency of ordinal regression methods. J. of Machine Learning Research, 2017, no. 18, pp. 1-35.
    8.     Chen R., Paschalidis I. A robust learning approach for regression models based on distributionally robust optimization. J. of Machine Learning Research, 2018, no. 19, pp. 1-48.
    9.     Devijver E., Perthame E. Prediction regions through inverse regression. J. of Machine Learning Research, 2020, no. 21, pp. 1-24.
    10.     Генрихов И.Е., Дюкова Е.В., Журавлёв В.И. Построение и исследование полных решающих деревьев для задачи восстановления регрессии в случае вещественнозначной информации // Машинное обучение и анализ данных. 2017. Т. 3. № 2. С. 107-118. doi: 10.21469/22233792.3.2.02.
    11.     Park Ch. Jump gaussian process model for estimating piecewise continuous regression functions. J. of Machine Learning Research, 2022, no. 23, рр. 1-37.

Software & Systems

doi: 10.15827/0236-235X.142.189-195

2023, vol. 36, no. 2, pp. 189-195

A comparative analysis of methods for constructing mathematical models
of object functioning using machine learning
                                                                                    Vladislav N. Kovalnogov Vyacheslav V. Sherkunov Hussein Mohamed Hussein
                                                                                         Vladimir N. Klyachkin For citation
Kovalnogov, V.N., Sherkunov, V.V., Hussein Mohamed Hussein, Klyachkin, V.N. (2023) ‘A comparative analysis of methods for constructing mathematical models of object functioning using machine learning’, Software & Systems, 36(2), pp. 189-195 (in Russ.). doi: 10.15827/0236-235X.142.189-195
Article info
Received: 27.10.2022                       After revision: 30.01.2023                     Accepted: 14.02.2023

Abstract. The subject of the study is a technical object; its work is determined by many factors, its performance is characterized by some indicator. It is necessary to build a mathematical model that connects this indicator with the values of factors. As an example, the article examines the influence of various factors on the efficiency of burner devices (load, air consumption, methane and biogas, fuel and oxidizer compositions, and others). The efficiency (performance) of the burner device is assessed by the temperature of the flue gases. The problem is solved by machine learning methods, since classical regression analysis methods showed insufficient accuracy. The article explores the effectiveness of the following approaches: the support vector method, random foresting and decision tree boosting. The authors used a localized version 13.3 of the Statistica system for numerical calculations. All three machine learning approaches discussed in the paper have shown a significant increase in the model accuracy on the test sample. The method of boosting decision trees has shown the best results in this example. The recommended model construction technology that provides the necessary forecasting accuracy is first reduced to testing the classical regression analysis (if the resulting model provides the necessary accuracy, then it is preferable from the point of view of its interpretability). If the accuracy is insufficient, the three considered methods of machine learning are used. It this case, it is important to select the parameters of each of the methods, which, on the one hand, would provide the necessary accuracy, on the other hand, would not lead to model retraining. The resulting model can be used to assess the influence of various factors on the efficiency of the technical facility, as well as to predict its functioning quality (in particular in the considered example, to predict the temperature of flue gases).
Keywords: regression model, multicollinearity, support vector method, random forest, decision tree busting
Acknowledgements. The research was supported by a grant from the President of the Russian Federation, project NSh-28.2022.4

194

стр. 10