Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Основы машинного обучения

Покупка
Основная коллекция
Артикул: 800627.01.99
Доступ онлайн
250 ₽
В корзину
Изложены основы машинного обучения, а также история его появления. Даны определения основным понятиям: выборка, объекты выборки, параметры, функционал ошибки и прочее. Описаны основы градиентного спуска и его модификаций, основные алгоритмы обучения с учителем и обучения без учителя.
Лимановская, О. В. Основы машинного обучения : учебное пособие / О. В. Лимановская, Т. И. Алферьева ; Мин-во науки и высш. образования РФ. - Екатеринбург : Изд-во Уральского ун-та, 2020. - 88 с. - ISBN 978-5-7996-3015-7. - Текст : электронный. - URL: https://znanium.com/catalog/product/1960910 (дата обращения: 28.03.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Министерство науки и высшего образования 
Российской Федерации
Уральский федеральный университет
имени первого Президента России Б. Н. Ельцина

О. В. Лимановская, Т. И. Алферьева

ОснОвы 
машиннОгО Обучения

Учебное пособие

Рекомендовано методическим советом
Уральского федерального университета
для студентов вуза, обучающихся
по направлениям подготовки:
09.03.04 — Программная инженерия;
09.03.03 — Прикладная информатика;
02.04.02 — Фундаментальная информатика
и информационные технологии;
09.04.02 — Информационные системы и технологии

Екатеринбург
Издательство Уральского университета
2020

УДК 004.94(075.8)
ББК 32.973-018я73
          Л58
Рецензенты:
канд. физ.-мат. наук А. П. Сергеев (завлабораторией физики и эко-
логии Института промышленной экологии УрО РАН);
канд. техн. наук, доц. Т. Я. Ткаченко (заместитель завотделом циф-
ровых образовательных технологий ФГБОУ ВО «Уральский госу-
дарственный медицинский университет»)

Научный редактор — канд. техн. наук, доц. И. Н. Обабков

 
Лимановская, О. В.
Л58    Основы машинного обучения : учебное пособие / О. В. Лиманов-
ская, Т. И. Алферьева ; Мин-во науки и высш. образования РФ. — 
Екатеринбург : Изд-во Урал. ун-та, 2020. — 88 с.

ISBN 978-5-7996-3015-7

Изложены основы машинного обучения, а также история его появле-
ния. Даны определения основным понятиям: выборка, объекты выборки, 
параметры, функционал ошибки и прочее. Описаны основы градиентно-
го спуска и его модификаций, основные алгоритмы обучения с учителем 
и обучения без учителя.

Рис. 30. Табл. 4.

УДК 004.94(075.8)
ББК 32.973-018я73

ISBN 978-5-7996-3015-7 
© Уральский федеральный

 
     университет, 2020

Data Science —  
что это такое и зачем она нужна?

что такое data science?

История вопроса
Ч

еловечество всегда мечтало приподнять занавес с гря-
дущего и желало знать что будет. И если для сбора дан-
ных использовались точные методы (таблицы, архивы, 
летописи), то для предсказания все шло в ход — шаманы впада-
ли в транс и общались с потусторонним миром, сообщая ново-
сти оттуда; пифии, будучи опять же в трансе, делали малосвязные 
предсказания, которые потом трактовались жрецами в нужном 
смысле; астрологи пытались применить околонаучный подход 
и рассчитывали гороскопы для мероприятий и людей. Многое 
из этого набора до сих пор живо используется, но этим прогно-
зы не обоснованы и к ним нет доверия у научного сообщества.
Сбор данных можно смело считать началом статистики. Пер-
вая статистическая информация — глиняные таблички шумер-
ского царства (III–II тысячелетие до н. э.). В них содержалась 
экономическая информация — сделки, количество собранно-
го урожая, налоги и пр.
В Римской республике, а затем и в империи, была развитая 
финансовая и налоговая система, которая требовала ведения 
точного учета и сбора данных по сделкам, земельным владени-
ям, товарам, услугам и т. д. Официальная отчетность наносилась 
на доски: мраморные, бронзовые, медные, свинцовые и побе-
ленные деревянные. Текущие записи велись на деревянных та-

Data Science — что это такое и зачем она нужна? 

бличках, скрепленных вместе с одного края по две, три и боль-
ше — кодексы (лат. code — дерево). После завоевания Римом 
Египта появился папирус. Около 180 г. до н. э. был изобретен 
пергамент (изготовлялся из телячьей кожи, был дорог, но про-
чен). На развитие учета влияли техника письма и система сче-
та. Для вычислений использовался абак, заимствованный древ-
ними греками у египтян.
Бухгалтерский учет велся в Памятных книгах, или Мемо-
риалах, куда записывались ежедневные факты хозяйственной 
деятельности. Также велась кассовая книга — первый кодекс 
и книга системной записи — второй кодекс.
Бюджетный учет велся в государственных масштабах. В отдель-
ных провинциях велась книга Бревариум, в которой отражались 
как сметные ассигнования, так и их исполнение. Такой регистр 
получил название Книги имперских счетов, которую можно рас-
сматривать как первый баланс государственного бюджета.
Развивался и налоговый учет, который требовал классифи-
кации и оценки имущества для начисления налога.
И хотя учет в Древнем Риме носил контрольный характер, 
уже тогда, по мнению древнеримского ученого Колумеллы, 
важнейшей функцией учета становилось умение предвидеть 
результат хозяйствования.
В Средневековье функции сбора данных остались те же — 
контрольный учет для сбора налогов и ведения хозяйственной 
деятельности.
С возникновением теории вероятностей в XVII веке были 
совершены первые попытки обработки накопленных данных 
и построения первых моделей для прогнозирования. Напри-
мер, изучалась частота рождения мальчиков и девочек. Сво-
им появлением теория вероятностей обязана азартным играм. 
Исследуя вероятность выигрыша, Пьер Ферми и Блез Паскаль 
открыли первые вероятностные закономерности. Независимо 
от них, но под влиянием их работ, Христиан Гюйгенс в 1657 г. 
опубликовал работу, в которой дал основные понятия теории 

Что такое data science?

вероятностей (понятие вероятности как величины шанса; ма-
тематическое ожидание для дискретных случаев, в виде цены 
шанса) и теоремы сложения и умножения вероятностей.
В 1794 г. (по другим данным — в 1795 г.) немецкий математик 
формализовал один из методов современной математической 
статистики. Данный метод стал основой для построения регрес-
сионных моделей, цель которых — предсказание заданной вели-
чины. В XIX веке получил развитие анализ больших данных, ко-
торый дал новый толчок к развитию статистических моделей.
В XX веке пошло быстрое развитие статистики и математи-
ческой статистики как науки. В начале XX века была развита 
параметрическая статистика, созданы методы сравнения групп 
данных, оценки параметров групп и т. д.
Цель сбора данных кардинально изменилась к XX веку и пе-
решла от контрольного учета к созданию математических пред-
сказательных моделей.
Теперь перейдем ближе к современности и к науке о данных.
1974 г. впервые введен термин data science датским ученым 
в области информатики и компьютерной науки Питером Нау-
ром. Он считал, что наука о данных — дисциплина, изучающая 
жизненный цикл цифровых данных от появления до преобра-
зования для представления в других областях знаний.
В начале 2000-х гг. data science выделяется как отдельная 
дисциплина.

Определения

Определение науки о данных вполне точно приведено 
в Wikipedia.
Наука о данных (data science; иногда даталогия — datalogy) — 
раздел информатики, изучающий проблемы анализа, обработ-
ки и представления данных в цифровой форме*.

* С сайта http:www.ru.wikipedia.org.

Data Science — что это такое и зачем она нужна? 

В принципе такое определение достаточно полно описыва-
ет цели и суть науки о данных. Основной целью науки о дан-
ных является вывод новых знаний из имеющегося набора дан-
ных и получение новых зависимостей, часто неявных. Кроме 
того, одним из важных разделов науки о данных является ви-
зуализация больших данных.

Суть и цели

Остановимся подробнее на сути науки о данных. Исходной 
точкой в науке о данных являются собственно данные, и чем их 
больше — тем лучше. Далее нужно на основе этих данных най-
ти взаимосвязи в них или убедиться, что их нет.
Для чего все это нужно? А целей — множество.
Во-первых, на основе полученных закономерностей можно 
построить прогноз для заданной величины. Например, на ос-
нове данных об урожае пшеницы за последние 10 лет в задан-
ном регионе можно построить прогноз урожайности на следу-
ющий год.
Во-вторых, можно провести классификацию объектов на ос-
нове данных о них. Например, можно на основе клинических 
данных классифицировать методику лечения как эффектив-
ную или неэффективную.
В-третьих, можно визуализировать данные. Визуализация 
помогает выбрать стратегию анализа данных, а иногда она 
сама является целью анализа. Например, визуализация дан-
ных по движению городского транспорта в режиме on line цен-
но само по себе.
В-четвертых, можно провести анализ текстовой информации 
и, например, понять тональность отзыва о компании.
И наконец, в-пятых, можно найти новые зависимости 
в данных и на их основе прийти к новым знаниям о предме-
те анализа.

Data Science — зачем она нужна?

Data Science — зачем она нужна?

Спасаем Мир

Эпидемия Эбола в 2014 г. унесла более 11 000 жизней, 
и каждый день приносил новые смерти. Для data scientist за-
дача по анализу данных и построению модели стала вызовом. 
И в 2014 г. the Leiden Centre of Data Science (LCDS) принял этот 
вызов. В результате разработана комплексная модель симуля-
ции лихорадки Эбола, включающая диагностику распростране-
ния и испытание лекарств. Врачи, используя эту модель, оста-
новили эпидемию Эбола.

Немного о модели

Стандартную модель симуляции распространения эпидемии 
дополнили картой, составленной на основе SMS-сообщений, 
звонков и другой активности с мобильных телефонов и доба-
вили в нее все источники масс-медиа. На основе данной кар-
ты построили модель по пересечению и вычленению реальных 
данных. Использование данных с мобильных телефонов позво-
лило установить направление распространения эпидемии и уже 
на основе этих данных получить оптимальные места для раз-
вертывания медицинских центров. Комплексная сеть данных 
(мобильные, масс-медиа и правительственные данные) и соци-
альная сеть контактов дали возможность спрогнозировать ско-
рость и направление развития эпидемии.
Модели, полученные из анализа данных пациентов, позво-
ляют оценивать эффективность лекарств и проводить быстро 
множество тестов.

Data Science — что это такое и зачем она нужна? 

Познаем вселенную

The Center for Computational Astrophysics разрабатывает 
новый фреймворк (каркас программной системы), который 
предназначен для анализа астрономических данных. Он ис-
пользуется для построения модели Вселенной и оценки кос-
мологических констант. В XXI веке на основе нейронных сетей 
разработана 3D-модель Вселенной, в которой учтено распро-
странение темной материи и есть возможность предсказания 
космологических констант.

Контрольные вопросы

1. Что является основной целью науки о данных?
2. Приведите примеры задач, которые можно решать с по-
мощью науки о данных.

Основы обучения с учителем

Основные понятия

И

так, во введении мы рассмотрели области примене-
ния машинного обучения и его возможности на при-
мерах. Результаты применения поражают воображе-
ние. Теперь настала пора разобраться в деталях и понять, как же 
это становится возможным.
В машинном обучении выделяют 2 основных подхода — об-
учение с учителем и обучение без учителя. В этой главе рассмо-
трим первый подход — с учителем.
Начнем с жизненной ситуации. У девушки — день рождения, 
и Пете нужно подарить ей цветы. Известно, что она не любит 
экзотические цветы, но какие нравятся — не известно. Петя по-
дошел к проблеме с точки зрения машинного обучения и со-
брал данные о том, какие цветы больше всего любят девушки, 
и выбрал девушек близкого к имениннице возраста и внешно-
сти. Оказалось, что в предпочтениях лидируют два самых по-
пулярных цветка — роза и гербера. Причем 80 % девушек отда-
ют предпочтение розам, а 20 % — герберам.
Теперь разберемся, что же сделал Петя. Все девушки, о ко-
торых Петя собрал информацию о предпочтениях в цветах, яв-
ляются обучающей выборкой. Параметры, по которым Петя 
выбирал девушек, а именно возраст и цвет волос, являются при-
знаками или факторами выборки. Информация о каждой от-
дельной девушке (цвет волос, возраст и любимый цветок) явля-
ется объектом выборки. Причем цвет волос и возраст являются 
параметрами объекта, которые обычно обозначаются как x1 и x2, 

Доступ онлайн
250 ₽
В корзину