Интеллектуальный анализ данных на платформе Loginom
Покупка
Новинка
Тематика:
Базы и банки данных. СУБД
Издательство:
Издательский Дом НИТУ «МИСиС»
Автор:
Жукова Людмила Вячеславовна
Год издания: 2023
Кол-во страниц: 45
Дополнительно
Вид издания:
Учебно-методическая литература
Уровень образования:
ВО - Магистратура
Артикул: 831412.01.99
Доступ онлайн
В корзину
Рассматриваются особенности реализации задач линейной регрессии и задач кластеризации с помощью отечественного ПО Loginom. Предназначено для магистрантов Университета науки и технологий МИСИС, обучающихся по направлению подготовки 09.04.02 «Информационные системы и технологии», изучающих в рамках дисциплины «Интеллектуальный анализ данных» подходы и методы обработки больших структурированных, слабоструктурированных и неструктурированных данных.
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Москва 2023 МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РФ УНИВЕРСИТЕТ НАУКИ И ТЕХНОЛОГИЙ МИСИС ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И КОМПЬЮТЕРНЫХ НАУК Магистерская школа информационных бизнес систем Л.В. Жукова ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ НА ПЛАТФОРМЕ LOGINOM Методическое указание Рекомендовано редакционно-издательским советом университета № 4409
УДК 004.6 Ж86 Р е ц е н з е н т : канд. техн. наук, доц., проф. А.В. Белов (МИЭМ НИУ ВШЭ) Жукова, Людмила Вячеславовна. Ж86 Интеллектуальный анализ данных на платформе Loginom : метод. указание / Л.В. Жукова. – Москва : Издательский Дом НИТУ МИСИС, 2023. – 45 с. Рассматриваются особенности реализации задач линейной регрессии и задач кластеризации с помощью отечественного ПО Loginom. Предназначено для магистрантов Университета науки и технологий МИСИС, обучающихся по направлению подготовки 09.04.02 «Информационные системы и технологии», изучающих в рамках дисциплины «Интеллектуальный анализ данных» подходы и методы обработки больших структурированных, сла- боструктурированных и неструктурированных данных. УДК 004.6 Л.В. Жукова, 2023 НИТУ МИСИС, 2023
Cодержание Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 1. Начало работы в ПО Loginom . . . . . . . . . . . . . . . . . . . . . . .5 2. Модель линейной регрессии . . . . . . . . . . . . . . . . . . . . . . . .9 2.1. Теоретические материалы . . . . . . . . . . . . . . . . . . . . . . 9 2.2. Кейс: оценка стоимости жилой недвижимости в г. Москве с помощью модели линейной регрессии в ПО Loginom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3. Кластеризация. Кейс: сегментация рынка по использованию программного обеспечения с привлечением кластерного анализа в ПО Loginom . . . . . .30 Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .43 Библиографический список . . . . . . . . . . . . . . . . . . . . . . . . .44
ВВЕДЕНИЕ Основной целью современных информационных аналитических систем является обеспечение быстрого доступа к данным, выполнение анализа данных и информационная поддержка процесса принятия решений. Предназначение бизнес-аналитики (Business Intelligence, BI) – извлечь знания о бизнесе из данных с использованием различных аппаратно- программных технологий. Такие технологии дают возможность организациям превращать данные в информацию, а затем информацию в знания. Отечественное ПО – low-code платформа Loginom позволяет использовать современные методы обработки данных с помощью интерфейса. Визуальный конструктор позволяет настроить все процессы анализа: интеграция, подготовка данных, моделирование, визуализация. Loginom сокращает время от тестирования гипотезы до создания работающей модели. В пособии раскрываются теоретические и практические основы использования свободно распространяемой аналитической Low-code платформы Loginom Academic и Loginom Community (https://loginom.ru/downloads). Аналитическая платформа Loginom является более продвинутой версией АП Deductor, сохранившей классические модули, но при этом отличается принципиально новой системой доступности продвинутой аналитики. Loginom – это аналитическая платформа, позволяющая в единой среде выполнить все этапы анализа данных от консолидации данных и построения моделей до визуализации и интеграции в бизнес-процесс. Преимуществом Low-code платформы Loginom является принадлежность к отечественному ПО, наличие бесплатной версии, не ограниченной по времени для использования, удобный интерфейс, наличие библиотеки с материалами.
1. НАЧАЛО РАБОТЫ В ПО LOGINOM Для решения задач анализа Loginom позволяет импортировать данные из различных источников и применять к ним необходимые алгоритмы обработки. Результаты можно просмотреть в самой системе или экспортировать в сторонние приемники данных. Назначение и структура пакета. Все действия с проектом в Loginom осуществляются в рамках пакета, который является минимальной единицей поставки и представляет собой контейнер для компонентов, сценариев, подключений и т.д. Пакеты сохраняются по-отдельности в виде файлов с расширением . lgp, и включают в себя ссылки и модули. При создании нового пакета программа автоматически требует задание его имени и места размещения пакета. Ссылки применяются для подключения других пакетов с целью использования созданных в них производных компонентов и подключений в текущем проекте. Соответствующие объекты доступны только в том случае, когда они опубликованы для общего доступа. Каждый пакет содержит хотя бы один модуль. Модуль включает в себя: – сценарий – это последовательность узлов обработки данных; – подключения – в них представлен список внешних источников и приемников данных, к которым можно подключиться; – компоненты – доступные для работы подмодели, как созданные в рамках текущего пакета, так и заимствованные из других пакетов через ссылки. Особенности работы платформы Loginom 1. При открытии любого пакета всегда создается файл с именем <Название_пакета>.lgp.lck. Он защищает открытый пакет от возможности редактировать или удалить его другими пользователями. После закрытия пакета этот файл удаляется.
2. Если включена опция автосохранения пакетов (см. подробнее «Пакеты»), то рядом с открытым .lgp файлом создается файл с именем <Название пакета>.lgp.autosave. Пакет сохраняется в файл с расширением .lgp.autosave с заданной периодичностью. При необходимости можно переименовать файл <Название пакета>.lgp.autosave в <Название пакета>.lgp и восстановить последнюю сохраненную версию пакета. Страница «Сценарий». Одной из основных концепций, на которых базируется платформа Loginom, является сценарий. Сценарий – последовательность действий, которые необходимо провести для анализа данных. Он представляет собой комбинацию узлов обработки данных, настраиваемую пользователем для решения конкретной задачи. Сценарий формируется с помощью удобного визуального интерфейса, при котором сам пользователь выбирает нужные узлы. Узел сценария выполняет отдельную операцию над данными. Перечень возможных операций представлен палитрой готовых компонентов. Часть компонентов доступна в базовой бесплатной версии, некоторые компоненты продвинутой аналитики доступны только в платной версии. В рамках учебного курса студенту достаточно бесплатной версии для решения задач по курсу. Последовательность обработки задается соединением выхода предыдущего узла сценария с входом последующего (рис. 1). Входом и выходом обработчика являются входные и выходные порты. Узлы сценария создаются из компонентов двух типов: – стандартные компоненты – предоставляются в рамках платформы; – производные компоненты – создаются и настраиваются пользователем. Чаще всего для создания производного компонента используется подмодель. Подмодель является специальным
узлом, способным включать в себя другие узлы сценария. Подмодель представляет собой отдельный набор узлов, встраиваемый в общую модель как «черный ящик». Подмодель принимает информацию через входные порты, производит обработку и выдает результат на выходные порты. Входные и выходные порты задаются пользователем. Рис. 1. Пример сценария На рис. 2 узел «Предобработка» является производным компонентом – подмоделью. Рис. 2. Узлы подмодели «Предобработка»
В состав подмодели могут также включаться и другие подмодели. Вложенность подмоделей друг в друга не ограничена. Страница «Модуль» представляет собой рабочее пространство, которое состоит из панели компонентов, области построения сценария, Инспектора свойств (по умолчанию находится в свернутом состоянии) и панели инструментов (рис. 3). Рис. 3. Страница «Модуль» Слева находится панель компонентов, состоящая из следующих категорий: – компоненты – стандартная библиотека базовых компонентов Loginom; – производные компоненты – создаваемые пользователями компоненты на основе базовых; – подключения – источники данных. По центру расположена область построения сценария – полотно, содержащее узлы сценария и связи между ними. Справа находится «Инспектор свойств» – панель, содержащая информацию о свойствах выделенного узла сценария.
2. МОДЕЛЬ ЛИНЕЙНОЙ РЕГРЕССИИ 2.1. Теоретические материалы Связь между случайными величинами называется статистической связью. Наличие такой связи заключается в том, что изменение одной из переменных служит причиной для изменения другой. Это можно записать в виде уравнения регрессии y = f(x) + . Уравнение регрессии – это форма статистической связи между переменными. Формула статистической связи нескольких переменных называется множественной регрессией. Для линейной регрессии в качестве зависимой переменной (целевой функции) используется только количественная переменная. В матричной форме линейная регрессионная модель имеет вид Y Xa , где 11 1 12 2 1 1 1 ; 1 k k T kT X X X X X X X ( 0 , ..., k ) a a a – вектор параметров линейной регрессии; ( 1 , ..., ) T – вектор значений случайной составляющей. Основные предположения регрессионного анализа: – X – детерминированная матрица ранга k; – Е() = 0 и Е( ) = D() = 2Ik, где Ik – единичная матрица k k. Этих предположений достаточно для выполнения теоремы Гаусса – Маркова. В соответствии с ней наиболее эффективной в классе линейных несмещенных оценок является оценка метода наименьших квадратов (МНК – оценка), ко-
торый заключается в минимизации суммы квадратов отклонений величины S относительно значений a: 2 0 1 1 1 ( ... ) T t t k kT t S Y a a X a X Y Xa Y Xa . C помощью непосредственных вычислений можно убедиться, что ( ) 2 2 S a X Y X Xa a . Приравнивая производную к нулю, получим YX a X X , т.е. 1 ( ) a X X X Y – вектор МНК – оценок значений параметров линейной регрессии. Y Xa – подогнанные значения «зависимой» переменной, а e Y Y – апостериорная остаточная разность. Числовые характеристики для сравнения линейных регрессионных моделей. Несмещенная оценка значения дисперсии случайной составляющей 2 определяется соотношением 2 2 1 ( ) ( ) ( ) 1 1 T t t t Y Y Y Xa Y Xa s T k T k , а 2 s s – стандартная ошибка оценки. Она является показателем рассеяния наблюдений относительно регрессионной прямой. Из двух моделей рекомендуется выбирать ту, что имеет меньшее значение 2 s . В качестве инструмента для сравнения линейных регрессионных моделей традиционно нередко рассматривают коэффициент детерминации 2 2 2 1 2 2 2 1 ( ) 1 ( ) T t t T t t Y Y Y Y e e R Y Y Y Y Y Y .
Фактически это доля дисперсии Y, «объясненная» регрессией Y на X. Заметим, что всегда R2 растет с ростом числа регрессоров. Постепенно усложнение модели за счет роста ее размерности перестает быть адекватным росту ее качества. Поэтому, кроме коэффициента детерминации, используют также скорректированный R2 – 2 2 adj R 1 (1 ) . T R T k Его величина начинает снижаться при превышении размерности модели некоторого порогового значения, которое и принимается за истинное. Рекомендуется выбирать модель, которая обеспечивает максимальное значение этой характеристики. Альтернативой adjR2 являются критерии Акаике и Шварца. Критерий Акаике реализует принцип экономии (parsimony) и основан на статистике 2ln 2 2 s k AIC T T . При выборе модели следует стремиться к минимизации этой величины. Второе слагаемое в приведенном выражении не позволяет повышать точность подгонки за счет излишнего усложнения модели. В аналогичном критерии Шварца (он же Байесовский информационный критерий) используется больший штраф за увеличение количества параметров модели: 2ln 2 ln s k T BIC T T . Нечисловые методы сравнения моделей. Нормальная кривая. Одной из наиболее важных характеристик модели является близость вида закона распределения случайной составляющей модели к нормальному. При выполнении гипотезы о нормальности и небольшом числе измерений становится корректным использование таких важных критериев,
Доступ онлайн
В корзину