Интеллектуальный анализ данных на платформе Loginom

Ознакомиться

Интеллектуальный анализ данных на платформе Loginom

Покупка

Новинка

Тематика: Базы и банки данных. СУБД

Издательство: Издательский Дом НИТУ «МИСиС»

Автор: Жукова Людмила Вячеславовна

Год издания: 2023

Кол-во страниц: 45

Дополнительно

Вид издания: Учебно-методическая литература

Уровень образования: ВО - Магистратура

Артикул: 831412.01.99

Доступ онлайн

2 000 ₽

В корзину

Как еще получить доступ?

Студенту или преподавателю

Отправьте заявку на получение ключа доступа в библиотеку Вашего учебного заведения

Представителю организации

Отправьте заявку на подключение к Znanium по договору

Аннотация
Коллекции
Классификаторы
Аффилиация
Бибзапись
Фрагменты

Рассматриваются особенности реализации задач линейной регрессии и задач кластеризации с помощью отечественного ПО Loginom. Предназначено для магистрантов Университета науки и технологий МИСИС, обучающихся по направлению подготовки 09.04.02 «Информационные системы и технологии», изучающих в рамках дисциплины «Интеллектуальный анализ данных» подходы и методы обработки больших структурированных, слабоструктурированных и неструктурированных данных.

Тематика:

0602: Базы и банки данных. СУБД

ББК:

3297: Вычислительная техника

УДК:

004: Информационные технологии. Вычислительная техника...

ОКСО:

ВО - Магистратура
09.04.02: Информационные системы и технологии

ГРНТИ:

Жукова Людмила Вячеславовна

Национальный исследовательский университет "Высшая школа экономики"

Жукова, Л. В. Интеллектуальный анализ данных на платформе Loginom : методические указания / Л. В. Жукова. - Москва : Издательский Дом НИТУ «МИСиС», 2023. - 45 с. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2147960 (дата обращения: 09.05.2024). – Режим доступа: по подписке.

Скопировать запись

Экспорт списка

Excel

RUSMARC .iso

win-1251

UTF-8

RUSMARC .txt

win-1251

UTF-8

IRBIS .txt

win-1251

UTF-8

Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.

Москва 2023

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РФ

УНИВЕРСИТЕТ НАУКИ И ТЕХНОЛОГИЙ МИСИС

ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И КОМПЬЮТЕРНЫХ НАУК

Магистерская школа информационных бизнес систем

Л.В. Жукова

ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
НА ПЛАТФОРМЕ LOGINOM

Методическое указание

Рекомендовано редакционно-издательским 
советом университета

№ 4409

стр. 1

УДК 004.6
 
Ж86

Р е ц е н з е н т :
канд. техн. наук, доц., проф. А.В. Белов (МИЭМ НИУ ВШЭ)

Жукова, Людмила Вячеславовна.
Ж86  
 Интеллектуальный анализ данных на платформе 
Loginom : метод. указание / Л.В. Жукова. – Москва : 
Издательский Дом НИТУ МИСИС, 2023. – 45 с.

Рассматриваются особенности реализации задач линейной 
регрессии и задач кластеризации с помощью отечественного 
ПО Loginom.
Предназначено для магистрантов Университета науки и технологий 
МИСИС, обучающихся по направлению подготовки 
09.04.02 «Информационные системы и технологии», изучающих 
в рамках дисциплины «Интеллектуальный анализ данных» 
подходы и методы обработки больших структурированных, сла-
боструктурированных и неструктурированных данных. 

УДК 004.6

  Л.В. Жукова, 2023
 НИТУ МИСИС, 2023

стр. 2

Cодержание

Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

1. Начало работы в ПО Loginom  . . . . . . . . . . . . . . . . . . . . . . .5

2. Модель линейной регрессии  . . . . . . . . . . . . . . . . . . . . . . . .9
2.1. Теоретические материалы  . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Кейс: оценка стоимости жилой недвижимости 
в г. Москве с помощью модели линейной регрессии 
в ПО Loginom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3. Кластеризация. Кейс: сегментация рынка 
по использованию программного обеспечения 
с привлечением кластерного анализа в ПО Loginom . . . . . .30

Заключение  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .43

Библиографический список  . . . . . . . . . . . . . . . . . . . . . . . . .44

стр. 3

ВВЕДЕНИЕ

Основной целью современных информационных аналитических 
систем является обеспечение быстрого доступа 
к данным, выполнение анализа данных и информационная 
поддержка процесса принятия решений. Предназначение 
бизнес-аналитики (Business Intelligence, BI) – извлечь знания 
о бизнесе из данных с использованием различных аппаратно-
программных технологий. Такие технологии дают 
возможность организациям превращать данные в информацию, 
а затем информацию в знания.
Отечественное ПО – low-code платформа Loginom позволяет 
использовать современные методы обработки данных 
с помощью интерфейса. Визуальный конструктор позволяет 
настроить все процессы анализа: интеграция, подготовка 
данных, моделирование, визуализация. Loginom сокращает 
время от тестирования гипотезы до создания работающей 
модели.
В пособии раскрываются теоретические и практические 
основы использования свободно распространяемой аналитической 
Low-code платформы Loginom Academic и Loginom 
Community (https://loginom.ru/downloads). Аналитическая 
платформа Loginom является более продвинутой версией 
АП Deductor, сохранившей классические модули, но при 
этом отличается принципиально новой системой доступности 
продвинутой аналитики.
Loginom – это аналитическая платформа, позволяющая 
в единой среде выполнить все этапы анализа данных от консолидации 
данных и построения моделей до визуализации и 
интеграции в бизнес-процесс.
Преимуществом Low-code платформы Loginom является 
принадлежность к отечественному ПО, наличие бесплатной 
версии, не ограниченной по времени для использования, 
удобный интерфейс, наличие библиотеки с материалами.

стр. 4

1. НАЧАЛО РАБОТЫ В ПО LOGINOM

Для решения задач анализа Loginom позволяет импортировать
данные из различных источников и применять к ним
необходимые алгоритмы обработки. Результаты можно просмотреть
в самой системе или экспортировать в сторонние
приемники данных.

Назначение и структура пакета. Все действия с проектом
в Loginom осуществляются в рамках пакета, который является
минимальной единицей поставки и представляет собой
контейнер для компонентов, сценариев, подключений и т.д.

Пакеты сохраняются по-отдельности в виде файлов с расширением .
lgp, и включают в себя ссылки и модули. При создании
нового пакета программа автоматически требует задание
его имени и места размещения пакета.
Ссылки применяются для подключения других пакетов
с целью использования созданных в них производных компонентов
и подключений в текущем проекте. Соответствующие
объекты доступны только в том случае, когда они опубликованы
для общего доступа.
Каждый пакет содержит хотя бы один модуль. Модуль
включает в себя:

– сценарий – это последовательность узлов обработки
данных;

– подключения – в них представлен список внешних источников
и приемников данных, к которым можно подключиться;

–
компоненты – доступные для работы подмодели, как
созданные в рамках текущего пакета, так и заимствованные
из других пакетов через ссылки.

Особенности работы платформы Loginom
1. При открытии любого пакета всегда создается файл
с именем <Название_пакета>.lgp.lck. Он защищает открытый
пакет от возможности редактировать или удалить его
другими пользователями. После закрытия пакета этот файл
удаляется.

стр. 5

2. Если включена опция автосохранения пакетов (см.
подробнее «Пакеты»), то рядом с открытым .lgp файлом
создается файл с именем <Название пакета>.lgp.autosave.
Пакет сохраняется в файл с расширением .lgp.autosave с заданной
периодичностью. При необходимости можно переименовать
файл <Название пакета>.lgp.autosave в <Название
пакета>.lgp и восстановить последнюю сохраненную
версию пакета.
Страница «Сценарий». Одной из основных концепций,
на которых базируется платформа Loginom, является сценарий.

Сценарий – последовательность действий, которые необходимо
провести для анализа данных. Он представляет собой
комбинацию узлов обработки данных, настраиваемую
пользователем для решения конкретной задачи. Сценарий
формируется с помощью удобного визуального интерфейса,
при котором сам пользователь выбирает нужные узлы.
Узел сценария выполняет отдельную операцию над данными.
Перечень возможных операций представлен палитрой
готовых компонентов. Часть компонентов доступна в базовой
бесплатной версии, некоторые компоненты продвинутой
аналитики доступны только в платной версии. В рамках
учебного курса студенту достаточно бесплатной версии для
решения задач по курсу.
Последовательность обработки задается соединением выхода
предыдущего узла сценария с входом последующего
(рис. 1). Входом и выходом обработчика являются входные
и выходные порты.

Узлы сценария создаются из компонентов двух типов:

– стандартные компоненты – предоставляются в рамках
платформы;

– производные компоненты – создаются и настраиваются
пользователем.

Чаще всего для создания производного компонента используется
подмодель. Подмодель является специальным

стр. 6

узлом, способным включать в себя другие узлы сценария. 
Подмодель представляет собой отдельный набор узлов, 
встраиваемый в общую модель как «черный ящик». Подмодель 
принимает информацию через входные порты, производит 
обработку и выдает результат на выходные порты. Входные 
и выходные порты задаются пользователем.

Рис. 1. Пример сценария

На рис. 2 узел «Предобработка» является производным 
компонентом – подмоделью.

Рис. 2. Узлы подмодели «Предобработка»

стр. 7

В состав подмодели могут также включаться и другие подмодели.
Вложенность подмоделей друг в друга не ограничена.
Страница «Модуль» представляет собой рабочее пространство,
которое состоит из панели компонентов, области
построения сценария, Инспектора свойств (по умолчанию
находится в свернутом состоянии) и панели инструментов
(рис. 3).

Рис. 3. Страница «Модуль»

Слева находится панель компонентов, состоящая из следующих
категорий:

– компоненты – стандартная библиотека базовых компонентов
Loginom;

– производные компоненты – создаваемые пользователями
компоненты на основе базовых;

– подключения – источники данных.

По центру расположена область построения сценария –
полотно, содержащее узлы сценария и связи между ними.

Справа находится «Инспектор свойств» – панель, содержащая
информацию о свойствах выделенного узла сценария.

стр. 8

2. МОДЕЛЬ ЛИНЕЙНОЙ РЕГРЕССИИ 

2.1. Теоретические материалы 

Связь между случайными величинами называется статистической 
связью. Наличие такой связи заключается в том, 
что изменение одной из переменных служит причиной для 
изменения другой. Это можно записать в виде уравнения 
регрессии y = f(x) + . Уравнение регрессии – это форма статистической 
связи между переменными. Формула статистической 
связи нескольких переменных называется множественной 
регрессией. Для линейной регрессии в качестве 
зависимой переменной (целевой функции) используется 
только количественная переменная.  
В матричной форме линейная регрессионная модель имеет 
вид


 
Y
Xa
,

где







 








11
1

12
2

1

1
1
;

1









k

k

T
kT

X
X
X
X
X

X
X


( 0
, ...,
k )
a
a
a
 – вектор параметров линейной регрессии;

  

( 1
, ...,
)
T  – вектор значений случайной составляющей.


Основные предположения регрессионного анализа:
 
– X  – детерминированная матрица ранга k;
 
– Е() = 0 и Е(

 ) = D() = 2Ik, где Ik – единичная матрица 
k  k. 

Этих предположений достаточно для выполнения теоремы 
Гаусса – Маркова. В соответствии с ней наиболее эффективной 
в классе линейных несмещенных оценок является 
оценка метода наименьших квадратов (МНК – оценка), ко-

стр. 9

торый заключается в минимизации суммы квадратов отклонений 
величины S относительно значений a:


 













2
0
1
1
1
(
...
)

T

t
t
k
kT
t
S
Y
a
a X
a X
Y
Xa
Y
Xa .

C помощью непосредственных вычислений можно убедиться, 
что 




 


( )
2
2
S a
X Y
X Xa
a
. 

Приравнивая производную к нулю, получим 



YX  
a X X ,
т.е. 




1
(
)
a
X X
X Y – вектор МНК – оценок значений параметров 
линейной регрессии.




Y
Xa  – подогнанные значения «зависимой» переменной, 
а 



e
Y
Y  – апостериорная остаточная разность. 
Числовые характеристики для сравнения линейных регрессионных 
моделей. Несмещенная оценка значения дисперсии 
случайной составляющей 2 определяется соотношением














2

2
1
(
)
(
) (
)
1
1


T

t
t
t
Y
Y
Y
Xa
Y
Xa
s
T
k
T
k

,

а 
 
2
s
s – стандартная ошибка оценки. Она является показателем 
рассеяния наблюдений относительно регрессионной 
прямой. Из двух моделей рекомендуется выбирать ту, что 
имеет меньшее значение 
2
s .
В качестве инструмента для сравнения линейных регрессионных 
моделей традиционно нередко рассматривают коэффициент 
детерминации 










 








2
2

2
1
2
2
2

1

(
)
1
(
)



T

t
t
T

t
t

Y
Y
Y
Y
e e
R
Y
Y
Y
Y
Y
Y

.

стр. 10

Фактически это доля дисперсии Y, «объясненная» регрессией
Y на X. Заметим, что всегда R2 растет с ростом числа
регрессоров. Постепенно усложнение модели за счет роста
ее размерности перестает быть адекватным росту ее качества.
Поэтому, кроме коэффициента детерминации, используют
также скорректированный

R2 –
 



2
2
adj R
1 (1
)
.
T
R
T
k

Его величина начинает снижаться при превышении размерности
модели некоторого порогового значения, которое и
принимается за истинное. Рекомендуется выбирать модель,
которая обеспечивает максимальное значение этой характеристики.

Альтернативой adjR2 являются критерии Акаике и
Шварца. Критерий Акаике реализует принцип экономии
(parsimony) и основан на статистике




2ln 2
2
s
k
AIC
T
T .

При выборе модели следует стремиться к минимизации
этой величины. Второе слагаемое в приведенном выражении
не позволяет повышать точность подгонки за счет излишнего
усложнения модели.
В аналогичном критерии Шварца (он же Байесовский
информационный критерий) используется больший штраф
за увеличение количества параметров модели:




2ln 2
ln
s
k
T
BIC
T
T
.

Нечисловые методы сравнения моделей. Нормальная
кривая. Одной из наиболее важных характеристик модели
является близость вида закона распределения случайной
составляющей модели к нормальному. При выполнении гипотезы
о нормальности и небольшом числе измерений становится
корректным использование таких важных критериев,

стр. 11

Доступ онлайн

2 000 ₽

В корзину

Как еще получить доступ?

Студенту или преподавателю

Отправьте заявку на получение ключа доступа в библиотеку Вашего учебного заведения

Представителю организации

Отправьте заявку на подключение к Znanium по договору