Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Интеллектуальный анализ данных на платформе Loginom

Покупка
Новинка
Артикул: 831412.01.99
Доступ онлайн
2 000 ₽
В корзину
Рассматриваются особенности реализации задач линейной регрессии и задач кластеризации с помощью отечественного ПО Loginom. Предназначено для магистрантов Университета науки и технологий МИСИС, обучающихся по направлению подготовки 09.04.02 «Информационные системы и технологии», изучающих в рамках дисциплины «Интеллектуальный анализ данных» подходы и методы обработки больших структурированных, слабоструктурированных и неструктурированных данных.
Жукова, Л. В. Интеллектуальный анализ данных на платформе Loginom : методические указания / Л. В. Жукова. - Москва : Издательский Дом НИТУ «МИСиС», 2023. - 45 с. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2147960 (дата обращения: 09.05.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Москва 2023

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РФ

УНИВЕРСИТЕТ НАУКИ И ТЕХНОЛОГИЙ МИСИС

ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И КОМПЬЮТЕРНЫХ НАУК

Магистерская школа информационных бизнес систем

Л.В. Жукова

ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
НА ПЛАТФОРМЕ LOGINOM

Методическое указание

Рекомендовано редакционно-издательским 
советом университета

№ 4409
УДК 004.6
 
Ж86

Р е ц е н з е н т :
канд. техн. наук, доц., проф. А.В. Белов (МИЭМ НИУ ВШЭ)

Жукова, Людмила Вячеславовна.
Ж86  
 Интеллектуальный анализ данных на платформе 
Loginom : метод. указание / Л.В. Жукова. – Москва : 
Издательский Дом НИТУ МИСИС, 2023. – 45 с.

Рассматриваются особенности реализации задач линейной 
регрессии и задач кластеризации с помощью отечественного 
ПО Loginom.
Предназначено для магистрантов Университета науки и технологий 
МИСИС, обучающихся по направлению подготовки 
09.04.02 «Информационные системы и технологии», изучающих 
в рамках дисциплины «Интеллектуальный анализ данных» 
подходы и методы обработки больших структурированных, сла-
боструктурированных и неструктурированных данных. 

УДК 004.6

  Л.В. Жукова, 2023
 НИТУ МИСИС, 2023
Cодержание

Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

1. Начало работы в ПО Loginom  . . . . . . . . . . . . . . . . . . . . . . .5

2. Модель линейной регрессии  . . . . . . . . . . . . . . . . . . . . . . . .9
2.1. Теоретические материалы  . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Кейс: оценка стоимости жилой недвижимости 
в г. Москве с помощью модели линейной регрессии 
в ПО Loginom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3. Кластеризация. Кейс: сегментация рынка 
по использованию программного обеспечения 
с привлечением кластерного анализа в ПО Loginom . . . . . .30

Заключение  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .43

Библиографический список  . . . . . . . . . . . . . . . . . . . . . . . . .44
ВВЕДЕНИЕ

Основной целью современных информационных аналитических 
систем является обеспечение быстрого доступа 
к данным, выполнение анализа данных и информационная 
поддержка процесса принятия решений. Предназначение 
бизнес-аналитики (Business Intelligence, BI) – извлечь знания 
о бизнесе из данных с использованием различных аппаратно-
программных технологий. Такие технологии дают 
возможность организациям превращать данные в информацию, 
а затем информацию в знания.
Отечественное ПО – low-code платформа Loginom позволяет 
использовать современные методы обработки данных 
с помощью интерфейса. Визуальный конструктор позволяет 
настроить все процессы анализа: интеграция, подготовка 
данных, моделирование, визуализация. Loginom сокращает 
время от тестирования гипотезы до создания работающей 
модели.
В пособии раскрываются теоретические и практические 
основы использования свободно распространяемой аналитической 
Low-code платформы Loginom Academic и Loginom 
Community (https://loginom.ru/downloads). Аналитическая 
платформа Loginom является более продвинутой версией 
АП Deductor, сохранившей классические модули, но при 
этом отличается принципиально новой системой доступности 
продвинутой аналитики.
Loginom – это аналитическая платформа, позволяющая 
в единой среде выполнить все этапы анализа данных от консолидации 
данных и построения моделей до визуализации и 
интеграции в бизнес-процесс.
Преимуществом Low-code платформы Loginom является 
принадлежность к отечественному ПО, наличие бесплатной 
версии, не ограниченной по времени для использования, 
удобный интерфейс, наличие библиотеки с материалами.
1. НАЧАЛО РАБОТЫ В ПО LOGINOM 

Для решения задач анализа Loginom позволяет импортировать 
данные из различных источников и применять к ним 
необходимые алгоритмы обработки. Результаты можно просмотреть 
в самой системе или экспортировать в сторонние 
приемники данных.

Назначение и структура пакета. Все действия с проектом 
в Loginom осуществляются в рамках пакета, который является 
минимальной единицей поставки и представляет собой 
контейнер для компонентов, сценариев, подключений и т.д.

Пакеты сохраняются по-отдельности в виде файлов с расширением .
lgp, и включают в себя ссылки и модули. При создании 
нового пакета программа автоматически требует задание 
его имени и места размещения пакета.
Ссылки применяются для подключения других пакетов 
с целью использования созданных в них производных компонентов 
и подключений в текущем проекте. Соответствующие 
объекты доступны только в том случае, когда они опубликованы 
для общего доступа.
Каждый пакет содержит хотя бы один модуль. Модуль 
включает в себя:
 
– сценарий – это последовательность узлов обработки 
данных;
 
– подключения – в них представлен список внешних источников 
и приемников данных, к которым можно подключиться;
 
– 
компоненты – доступные для работы подмодели, как 
созданные в рамках текущего пакета, так и заимствованные 
из других пакетов через ссылки.

Особенности работы платформы Loginom
1. При открытии любого пакета всегда создается файл 
с именем <Название_пакета>.lgp.lck. Он защищает открытый 
пакет от возможности редактировать или удалить его 
другими пользователями. После закрытия пакета этот файл 
удаляется.
2. Если включена опция автосохранения пакетов (см. 
подробнее «Пакеты»), то рядом с открытым .lgp файлом 
создается файл с именем <Название пакета>.lgp.autosave. 
Пакет сохраняется в файл с расширением .lgp.autosave с заданной 
периодичностью. При необходимости можно переименовать 
файл  <Название пакета>.lgp.autosave в <Название 
пакета>.lgp и восстановить последнюю сохраненную 
версию пакета.
Страница «Сценарий». Одной из основных концепций, 
на которых базируется платформа Loginom, является сценарий.

Сценарий – последовательность действий, которые необходимо 
провести для анализа данных. Он представляет собой 
комбинацию узлов обработки данных, настраиваемую 
пользователем для решения конкретной задачи. Сценарий 
формируется с помощью удобного визуального интерфейса, 
при котором сам пользователь выбирает нужные узлы.
Узел сценария выполняет отдельную операцию над данными. 
Перечень возможных операций представлен палитрой 
готовых компонентов. Часть компонентов доступна в базовой 
бесплатной версии, некоторые компоненты продвинутой 
аналитики доступны только в платной версии. В рамках 
учебного курса студенту достаточно бесплатной версии для 
решения задач по курсу.
Последовательность обработки задается соединением выхода 
предыдущего узла сценария с входом последующего 
(рис. 1). Входом и выходом обработчика являются входные 
и выходные порты.

Узлы сценария создаются из компонентов двух типов:

 
– стандартные компоненты – предоставляются в рамках 
платформы;
 
– производные компоненты – создаются и настраиваются 
пользователем.

Чаще всего для создания производного компонента используется 
подмодель. Подмодель является специальным 
узлом, способным включать в себя другие узлы сценария. 
Подмодель представляет собой отдельный набор узлов, 
встраиваемый в общую модель как «черный ящик». Подмодель 
принимает информацию через входные порты, производит 
обработку и выдает результат на выходные порты. Входные 
и выходные порты задаются пользователем.

Рис. 1. Пример сценария

На рис. 2 узел «Предобработка» является производным 
компонентом – подмоделью.

Рис. 2. Узлы подмодели «Предобработка»
В состав подмодели могут также включаться и другие подмодели. 
Вложенность подмоделей друг в друга не ограничена.
Страница «Модуль» представляет собой рабочее пространство, 
которое состоит из панели компонентов, области 
построения сценария, Инспектора свойств (по умолчанию 
находится в свернутом состоянии) и панели инструментов 
(рис. 3).

Рис. 3. Страница «Модуль»

Слева находится панель компонентов, состоящая из следующих 
категорий:
 
– компоненты – стандартная библиотека базовых компонентов 
Loginom;
 
– производные компоненты – создаваемые пользователями 
компоненты на основе базовых;
 
– подключения – источники данных.

По центру расположена область построения сценария – 
полотно, содержащее узлы сценария и связи между ними.

Справа находится «Инспектор свойств» – панель, содержащая 
информацию о свойствах выделенного узла сценария. 
2. МОДЕЛЬ ЛИНЕЙНОЙ РЕГРЕССИИ 

2.1. Теоретические материалы 

Связь между случайными величинами называется статистической 
связью. Наличие такой связи заключается в том, 
что изменение одной из переменных служит причиной для 
изменения другой. Это можно записать в виде уравнения 
регрессии y = f(x) + . Уравнение регрессии – это форма статистической 
связи между переменными. Формула статистической 
связи нескольких переменных называется множественной 
регрессией. Для линейной регрессии в качестве 
зависимой переменной (целевой функции) используется 
только количественная переменная.  
В матричной форме линейная регрессионная модель имеет 
вид


 
Y
Xa
,

где







 








11
1

12
2

1

1
1
;

1









k

k

T
kT

X
X
X
X
X

X
X


( 0
, ...,
k )
a
a
a
 – вектор параметров линейной регрессии;

  

( 1
, ...,
)
T  – вектор значений случайной составляющей.


Основные предположения регрессионного анализа:
 
– X  – детерминированная матрица ранга k;
 
– Е() = 0 и Е(

 ) = D() = 2Ik, где Ik – единичная матрица 
k  k. 

Этих предположений достаточно для выполнения теоремы 
Гаусса – Маркова. В соответствии с ней наиболее эффективной 
в классе линейных несмещенных оценок является 
оценка метода наименьших квадратов (МНК – оценка), ко-
торый заключается в минимизации суммы квадратов отклонений 
величины S относительно значений a:


 













2
0
1
1
1
(
...
)

T

t
t
k
kT
t
S
Y
a
a X
a X
Y
Xa
Y
Xa .

C помощью непосредственных вычислений можно убедиться, 
что 




 


( )
2
2
S a
X Y
X Xa
a
. 

Приравнивая производную к нулю, получим 



YX  
a X X ,
т.е. 




1
(
)
a
X X
X Y – вектор МНК – оценок значений параметров 
линейной регрессии.




Y
Xa  – подогнанные значения «зависимой» переменной, 
а 



e
Y
Y  – апостериорная остаточная разность. 
Числовые характеристики для сравнения линейных регрессионных 
моделей. Несмещенная оценка значения дисперсии 
случайной составляющей 2 определяется соотношением














2

2
1
(
)
(
) (
)
1
1


T

t
t
t
Y
Y
Y
Xa
Y
Xa
s
T
k
T
k

,

а 
 
2
s
s – стандартная ошибка оценки. Она является показателем 
рассеяния наблюдений относительно регрессионной 
прямой. Из двух моделей рекомендуется выбирать ту, что 
имеет меньшее значение 
2
s .
В качестве инструмента для сравнения линейных регрессионных 
моделей традиционно нередко рассматривают коэффициент 
детерминации 










 








2
2

2
1
2
2
2

1

(
)
1
(
)



T

t
t
T

t
t

Y
Y
Y
Y
e e
R
Y
Y
Y
Y
Y
Y

.
Фактически это доля дисперсии Y, «объясненная» регрессией 
Y на X. Заметим, что всегда R2 растет с ростом числа 
регрессоров. Постепенно усложнение модели за счет роста 
ее размерности перестает быть адекватным росту ее качества. 
Поэтому, кроме коэффициента детерминации, используют 
также скорректированный 

R2 – 
 



2
2
adj R
1 (1
)
.
T
R
T
k  

Его величина начинает снижаться при превышении размерности 
модели некоторого порогового значения, которое и 
принимается за истинное. Рекомендуется выбирать модель, 
которая обеспечивает максимальное значение этой характеристики.

Альтернативой adjR2 являются критерии Акаике и 
Шварца. Критерий Акаике реализует принцип экономии 
(parsimony) и основан на статистике 




2ln 2
2
s
k
AIC
T
T . 

При выборе модели следует стремиться к минимизации 
этой величины. Второе слагаемое в приведенном выражении 
не позволяет повышать точность подгонки за счет излишнего 
усложнения модели.
В аналогичном критерии Шварца (он же Байесовский 
информационный критерий) используется больший штраф 
за увеличение количества параметров модели:




2ln 2
ln
s
k
T
BIC
T
T
.

Нечисловые методы сравнения моделей. Нормальная 
кривая. Одной из наиболее важных характеристик модели 
является близость вида закона распределения случайной 
составляющей модели к нормальному. При выполнении гипотезы 
о нормальности и небольшом числе измерений становится 
корректным использование таких важных критериев, 
Доступ онлайн
2 000 ₽
В корзину