Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Введение в статистическое обучение с примерами на языке R

Покупка
Артикул: 781060.01.99
Доступ онлайн
899 ₽
В корзину
Книга представляет собой доступно изложенное введение в статистическое обучение - незаменимый набор инструментов, позволяющих извлечь полезную информацию из больших и сложных наборов данных, которые начали возникать в последние 20 лет в таких областях, как биология, экономика, маркетинг, физика и др. В этой книге описаны одни из наиболее важных методов моделирования и прогнозирования, а также примеры их практического применения. Рассмотренные темы включают линейную регрессию, классификацию, создание повторных выборок, регуляризацию, деревья решений, машины опорных векторов, кластеризацию и др. Описание этих методов сопровождается многочисленными иллюстрациями и практическими примерами. Поскольку цель этого учебника заключается в продвижении методов статистического обучения среди практикующих академических исследователей и промышленных аналитиков, каждая глава включает примеры практической реализации соответствующих методов с помощью R - чрезвычайно популярной среды статистических вычислений с открытым кодом. Издание рассчитано на неспециалистов, которые хотели бы применять современные методы статистического обучения для анализа своих данных. Предполагается, что читатели ранее прослушали лишь курс по линейной регрессии и не обладают знаниями матричной алгебры.
Введение в статистическое обучение с примерами на языке R : учебник / Д. Гарет, Д. Уиттон, Т. Хасти, Р. Тибширани ; пер. с англ. С. Э. Мастицкого. - 2-е изд. испр. - Москва : ДМК Пресс, 2017. - 456 с. - ISBN 978-5-97060-495-3. - Текст : электронный. - URL: https://znanium.com/catalog/product/1873554 (дата обращения: 29.03.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Введение 

в статистическое обучение 

с примерами на языке R

Издание второе, исправленное

Джеймс Г.

Уиттон Д.

Хасти Т.

Тибширани Р.

An Introduction to

Statistical Learning

with Applications in R

Gareth James

Daniela Witten

Trevor Hastie

Robert Tibshirani

Москва, 2017

Введение 

в статистическое обучение 

с примерами на языке R

Издание второе, исправленное

Джеймс Г.

Уиттон Д.

Хасти Т.

Тибширани Р.

УДК 519.25/.6:004.434R
ББК 22.17с5
 
Д40

 
 
Джеймс Г., Уиттон Д., Хасти Т., Тибширани Р.

Д40 
Введение в статистическое обучение с примерами на языке R. Изд. второе, испр.
Пер. с англ. С. Э. Мастицкого – М.: ДМК Пресс, 2017. – 456 с.: ил. 

 
ISBN 978-5-97060-495-3

Книга представляет собой доступно изложенное введение в статистическое 

обучение – незаменимый набор инструментов, позволяющих извлечь полезную 
информацию из больших и сложных наборов данных, которые начали возникать 
в последние 20 лет в таких областях, как биология, экономика, маркетинг, физика 
и др. В этой книге описаны одни из наиболее важных методов моделирования 
и прогнозирования, а также примеры их практического применения. Рассмотренные темы включают линейную регрессию, классификацию, создание повторных выборок, регуляризацию, деревья решений, машины опорных векторов, 
кластеризацию и др. Описание этих методов сопровождается многочисленными 
иллюстрациями и практическими примерами. Поскольку цель этого учебника 
заключается в продвижении методов статистического обучения среди практикующих академических исследователей и промышленных аналитиков, каждая 
глава включает примеры практической реализации соответствующих методов с 
помощью R – чрезвычайно популярной среды статистических вычислений с открытым кодом.

Издание рассчитано на неспециалистов, которые хотели бы применять совре
менные методы статистического обучения для анализа своих данных. Предполагается, что читатели ранее прослушали лишь курс по линейной регрессии и не 
обладают знаниями матричной алгебры.

 
          УДК 519.25/.6:004.434R

 
 
           ББК 22.17с5 

Translation from the English language edition:

An Introduction to Statistical Learning

by Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani

Copyright © Springer Science+Business Media New York 2013
Springer New York is a part of Springer Science+Business Media.

All Rights Reserved. 

This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of 

the material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation, 
broadcasting, reproduction on microfilms or in any other physical way, and transmission or information 
storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology now 
known or hereafter developed. Exempted from this legal reservation are brief excerpts in connection with 
reviews or scholarly analysis or material supplied specifically for the purpose of being entered and executed 
on a computer system, for exclusive use by the purchaser of the work. 

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то 

ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских 
прав.

Материал, изложенный в данной книге, многократно проверен. Но поскольку вероятность тех
нических ошибок все равно существует, издательство не может гарантировать абсолютную точность 
и правильность приводимых сведений. В связи с этим издательство не несет ответственности за возможные ошибки, связанные с использованием книги.

ISBN 978-1-4614-7137-0 (англ.)       Copyright © Springer Science+Business Media New York, 2013
ISBN 978-5-97060-495-3 (рус.)         © Издание, оформление, перевод, ДМК Пресс, 2017

Оглавление

От переводчика
10

Предисловие
11

1
Введение
13

2
Статистическое обучение
27

2.1
Что такое статистическое обучение? . . . . . . . . . . . . . .
27

2.1.1
Зачем оценивать 𝑓? . . . . . . . . . . . . . . . . . . . .
29

2.1.2
Как мы оцениваем 𝑓? . . . . . . . . . . . . . . . . . . .
33

2.1.3
Компромисс между точностью предсказаний
и интерпретируемостью модели . . . . . . . . . . . . .
36

2.1.4
Обучение с учителем и без учителя
. . . . . . . . . .
38

2.1.5
Различия между проблемами регрессии
и классификации
. . . . . . . . . . . . . . . . . . . . .
40

2.2
Описание точности модели . . . . . . . . . . . . . . . . . . . .
41

2.2.1
Измерение качества модели . . . . . . . . . . . . . . .
41

2.2.2
Компромисс между смещением и дисперсией . . . . .
46

2.2.3
Задачи классификации . . . . . . . . . . . . . . . . . .
49

2.3
Лабораторная работа: введение в R . . . . . . . . . . . . . . .
56

2.3.1
Основные команды . . . . . . . . . . . . . . . . . . . .
56

2.3.2
Графики . . . . . . . . . . . . . . . . . . . . . . . . . .
59

2.3.3
Индексирование данных . . . . . . . . . . . . . . . . .
60

2.3.4
Загрузка данных
. . . . . . . . . . . . . . . . . . . . .
61

2.3.5
Дополнительные графические и количественные
сводки . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63

2.4
Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65

3
Линейная регрессия
71

3.1
Простая линейная регрессия . . . . . . . . . . . . . . . . . . .
72

3.1.1
Оценивание коэффициентов . . . . . . . . . . . . . . .
73

3.1.2
Точность оценок коэффициентов . . . . . . . . . . . .
75

3.1.3
Оценивание точности модели . . . . . . . . . . . . . .
80

3.2
Множественная линейная регрессия
. . . . . . . . . . . . . .
83

3.2.1
Оценивание регрессионных коэффициентов . . . . . .
84

3.2.2
Некоторые важные вопросы . . . . . . . . . . . . . . .
87

3.3
Другие аспекты регрессионной модели . . . . . . . . . . . . .
95

3.3.1
Качественные предикторы . . . . . . . . . . . . . . . .
95

3.3.2
Расширения линейной модели . . . . . . . . . . . . . .
99

3.3.3
Потенциальные проблемы . . . . . . . . . . . . . . . . 105

Оглавление

3.4
Маркетинговый план . . . . . . . . . . . . . . . . . . . . . . . 116

3.5
Сравнение линейной регрессии с методом 𝐾 ближайших
соседей
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

3.6
Лабораторная работа: линейная регрессия . . . . . . . . . . . 123
3.6.1
Библиотеки . . . . . . . . . . . . . . . . . . . . . . . . . 123

3.6.2
Простая линейная регрессия . . . . . . . . . . . . . . . 124

3.6.3
Множественная линейная регрессия . . . . . . . . . . 127

3.6.4
Эффекты взаимодействия . . . . . . . . . . . . . . . . 129

3.6.5
Нелинейные преобразования предикторов . . . . . . . 130

3.6.6
Качественные предикторы . . . . . . . . . . . . . . . . 132

3.6.7
Написание функций . . . . . . . . . . . . . . . . . . . . 134

3.7
Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

4
Классификация
143

4.1
Общее представление о классификации
. . . . . . . . . . . . 143

4.2
Почему не линейная регрессия? . . . . . . . . . . . . . . . . . 144

4.3
Логистическая регрессия . . . . . . . . . . . . . . . . . . . . . 146
4.3.1
Логистическая модель
. . . . . . . . . . . . . . . . . . 147

4.3.2
Оценивание регрессионных коэффициентов . . . . . . 149

4.3.3
Предсказания
. . . . . . . . . . . . . . . . . . . . . . . 150

4.3.4
Множественная логистическая модель . . . . . . . . . 151

4.3.5
Логистическая регрессия для зависимых переменных
с числом классов > 2 . . . . . . . . . . . . . . . . . . . 154

4.4
Дискриминантный анализ . . . . . . . . . . . . . . . . . . . . 154
4.4.1
Использование теоремы Байеса для классификации . 155

4.4.2
Линейный дискриминантый анализ для 𝑝 = 1 . . . . . 155

4.4.3
Линейный дискриминантный анализ для 𝑝 > 1 . . . . 158

4.4.4
Квадратичный дискриминантный анализ . . . . . . . 166

4.5
Сравнение методов классификации . . . . . . . . . . . . . . . 168

4.6
Лабораторная работа: логистическая регрессия, LDA, QDA
и KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
4.6.1
Данные по цене акций
. . . . . . . . . . . . . . . . . . 172

4.6.2
Логистическая регрессия . . . . . . . . . . . . . . . . . 174

4.6.3
Линейный дискриминантный анализ . . . . . . . . . . 178

4.6.4
Квадратичный дискриминантный анализ . . . . . . . 180

4.6.5
Метод 𝐾 ближайших соседей . . . . . . . . . . . . . . 181

4.6.6
Применение к данным по жилым прицепам . . . . . . 182

4.7
Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

5
Методы создания повторных выборок
192

5.1
Перекрестная проверка . . . . . . . . . . . . . . . . . . . . . . 193
5.1.1
Метод проверочной выборки . . . . . . . . . . . . . . . 193

5.1.2
Перекрестная проверка по отдельным наблюдениям . 196

5.1.3
𝑘–кратная перекрестная проверка
. . . . . . . . . . . 198

5.1.4
Компромисс между смещением и дисперсией
в контексте 𝑘–кратной перекрестной проверки . . . . 201

5.1.5
Перекрестная проверка при решении задач
классификации
. . . . . . . . . . . . . . . . . . . . . . 202

5.2
Бутстреп . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

5.3
Лабораторная работа: перекрестная проверка и бутстреп . . 209

Оглавление
7

5.3.1
Метод проверочной выборки . . . . . . . . . . . . . . . 209

5.3.2
Перекрестная проверка по отдельным наблюдениям . 210

5.3.3
𝑘–кратная перекрестная проверка
. . . . . . . . . . . 212

5.3.4
Бутстреп . . . . . . . . . . . . . . . . . . . . . . . . . . 212

5.4
Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

6
Отбор и регуляризация линейных моделей
221

6.1
Отбор подмножества переменных . . . . . . . . . . . . . . . . 223
6.1.1
Отбор оптимального подмножества . . . . . . . . . . . 223

6.1.2
Пошаговый отбор . . . . . . . . . . . . . . . . . . . . . 225

6.1.3
Выбор оптимальной модели . . . . . . . . . . . . . . . 228

6.2
Методы сжатия
. . . . . . . . . . . . . . . . . . . . . . . . . . 234

6.2.1
Гребневая регрессия
. . . . . . . . . . . . . . . . . . . 234

6.2.2
Лассо . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239

6.2.3
Выбор гиперпараметра . . . . . . . . . . . . . . . . . . 248

6.3
Методы снижения размерности . . . . . . . . . . . . . . . . . 250
6.3.1
Регрессия на главные компоненты . . . . . . . . . . . 251

6.3.2
Метод частных наименьших квадратов
. . . . . . . . 258

6.4
Особенности работы с данными большой размерности . . . . 259
6.4.1
Данные большой размерности . . . . . . . . . . . . . . 259

6.4.2
Что не так с большими размерностями? . . . . . . . . 261

6.4.3
Регрессия для данных большой размерности . . . . . 263

6.4.4
Интерпретация результатов в задачах большой
размерности . . . . . . . . . . . . . . . . . . . . . . . . 264

6.5
Лабораторная работа 1: методы отбора подмножеств
переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
6.5.1
Отбор оптимального подмножества . . . . . . . . . . . 265

6.5.2
Отбор путем пошагового включения и исключения
переменных
. . . . . . . . . . . . . . . . . . . . . . . . 269

6.5.3
Нахождение оптимальной модели при помощи
методов проверочной выборки и перекрестной
проверки . . . . . . . . . . . . . . . . . . . . . . . . . . 270

6.6
Лабораторная работа 2: гребневая регрессия и лассо
. . . . 273

6.6.1
Гребневая регрессия
. . . . . . . . . . . . . . . . . . . 273

6.6.2
Лассо . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277

6.7
Лабораторная работа 3: регрессия при помощи методов PCR
и PLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
6.7.1
Регрессия на главные компоненты . . . . . . . . . . . 278

6.7.2
Регрессия по методу частных наименьших
квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . 280

6.8
Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282

7
Выходя за пределы линейности
288

7.1
Полиномиальная регрессия
. . . . . . . . . . . . . . . . . . . 289

7.2
Ступенчатые функции . . . . . . . . . . . . . . . . . . . . . . 291

7.3
Базисные функции
. . . . . . . . . . . . . . . . . . . . . . . . 292

7.4
Регрессионные сплайны
. . . . . . . . . . . . . . . . . . . . . 294

7.4.1
Кусочно–полиномиальная регрессия . . . . . . . . . . 294

7.4.2
Ограничения и сплайны . . . . . . . . . . . . . . . . . 295

Оглавление

7.4.3
Представление сплайнов с помощью базисных
функций
. . . . . . . . . . . . . . . . . . . . . . . . . . 296

7.4.4
Выбор числа и расположения узлов сочленения
. . . 298

7.4.5
Сравнение с полиномиальной регрессией
. . . . . . . 299

7.5
Сглаживающие сплайны . . . . . . . . . . . . . . . . . . . . . 300
7.5.1
Общее представление о сглаживающих сплайнах . . . 300

7.5.2
Нахождение параметра сглаживания 𝜆
. . . . . . . . 302

7.6
Локальная регрессия . . . . . . . . . . . . . . . . . . . . . . . 304

7.7
Обобщенные аддитивные модели . . . . . . . . . . . . . . . . 307
7.7.1
GAM для регрессионных задач . . . . . . . . . . . . . 307

7.7.2
GAM для задач классификации . . . . . . . . . . . . . 311

7.8
Лабораторная работа: нелинейные модели . . . . . . . . . . . 311
7.8.1
Полиномиальная регрессия и ступенчатые функции . 313

7.8.2
Сплайны . . . . . . . . . . . . . . . . . . . . . . . . . . 317

7.8.3
GAM
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 319

7.9
Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322

8
Методы, основанные на деревьях решений
328

8.1
Деревья решений: основные понятия . . . . . . . . . . . . . . 328
8.1.1
Регрессионные деревья . . . . . . . . . . . . . . . . . . 329

8.1.2
Деревья классификации . . . . . . . . . . . . . . . . . 337

8.1.3
Сравнение деревьев с линейными моделями . . . . . . 339

8.1.4
Преимущества и недостатки деревьев решений . . . . 341

8.2
Бэггинг, случайные леса, бустинг . . . . . . . . . . . . . . . . 342
8.2.1
Бэггинг . . . . . . . . . . . . . . . . . . . . . . . . . . . 342

8.2.2
Случайные леса . . . . . . . . . . . . . . . . . . . . . . 347

8.2.3
Бустинг . . . . . . . . . . . . . . . . . . . . . . . . . . . 349

8.3
Лабораторная работа: деревья решений . . . . . . . . . . . . 351
8.3.1
Построение деревьев классификации . . . . . . . . . . 351

8.3.2
Построение регрессионных деревьев . . . . . . . . . . 355

8.3.3
Бэггинг и случайные леса . . . . . . . . . . . . . . . . 356

8.3.4
Бустинг . . . . . . . . . . . . . . . . . . . . . . . . . . . 358

8.4
Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359

9
Машины опорных векторов
364

9.1
Классификатор с максимальным зазором . . . . . . . . . . . 364
9.1.1
Что такое гиперплоскость? . . . . . . . . . . . . . . . . 365

9.1.2
Классификация с использованием гиперплоскости . . 365

9.1.3
Классификатор с максимальным зазором . . . . . . . 368

9.1.4
Построение классификатора с максимальным
зазором . . . . . . . . . . . . . . . . . . . . . . . . . . . 370

9.1.5
Случай, когда разделяющая гиперплоскость
не существует
. . . . . . . . . . . . . . . . . . . . . . . 370

9.2
Классификаторы на опорных векторах . . . . . . . . . . . . . 371
9.2.1
Общие представления о классификаторах
на опорных векторах . . . . . . . . . . . . . . . . . . . 371

9.2.2
Более подробное описание классификатора
на опорных векторах . . . . . . . . . . . . . . . . . . . 374

9.3
Машины опорных векторов
. . . . . . . . . . . . . . . . . . . 377

Оглавление
9

9.3.1
Классификация с использованием нелинейных
решающих границ . . . . . . . . . . . . . . . . . . . . . 377

9.3.2
Машина опорных векторов
. . . . . . . . . . . . . . . 378

9.3.3
Применение к данным по нарушению сердечной
функции
. . . . . . . . . . . . . . . . . . . . . . . . . . 382

9.4
Машины опорных векторов для случаев с несколькими
классами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
9.4.1
Классификация типа «один против одного» . . . . . . 384

9.4.2
Классификация типа «один против всех» . . . . . . . 384

9.5
Связь с логистической регрессией . . . . . . . . . . . . . . . . 384

9.6
Лабораторная работа: машины опорных векторов . . . . . . 387
9.6.1
Классификатор на опорных векторах
. . . . . . . . . 387

9.6.2
Машина опорных векторов
. . . . . . . . . . . . . . . 391

9.6.3
ROC–кривые . . . . . . . . . . . . . . . . . . . . . . . . 393

9.6.4
SVM с несколькими классами . . . . . . . . . . . . . . 395

9.6.5
Применение к данным по экспрессии генов . . . . . . 395

9.7
Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397

10 Обучение без учителя
402

10.1 Трудность обучения без учителя
. . . . . . . . . . . . . . . . 402

10.2 Анализ главных компонент
. . . . . . . . . . . . . . . . . . . 403

10.2.1 Что представляют собой главные компоненты? . . . . 404
10.2.2 Альтернативная интерпретация главных компонент . 408
10.2.3 Дополнительный материал по PCA . . . . . . . . . . . 409
10.2.4 Другие приложения PCA
. . . . . . . . . . . . . . . . 414

10.3 Методы кластеризации . . . . . . . . . . . . . . . . . . . . . . 414

10.3.1 Кластеризация по методу К средних . . . . . . . . . . 415
10.3.2 Иерархическая кластеризация . . . . . . . . . . . . . . 418
10.3.3 Практические аспекты применения кластеризации . . 429

10.4 Лабораторная работа 1: анализ главных компонент
. . . . . 432

10.5 Лабораторная работа 2: кластерный анализ . . . . . . . . . . 434

10.5.1 Кластеризация по методу K средних . . . . . . . . . . 434
10.5.2 Иерархическая кластеризация . . . . . . . . . . . . . . 436

10.6 Лабораторная работа 3: анализ данных NCI60
. . . . . . . . 438

10.6.1 Применение PCA к данным NCI60 . . . . . . . . . . . 439
10.6.2 Кластеризация наблюдений из набора данных
NCI60 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441

10.7 Упражнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444

Предметный указатель
450

От переводчика

В последние несколько лет наблюдается небывалый рост объема, скорости
получения и сложности данных в самых разных областях жизнедеятельности человека. Неудивительно, что и спрос на специалистов, способных
извлечь полезную информацию из этих потоков данных, сегодня высок,
как никогда раньше. Важную роль в подготовке таких специалистов играет учебная литература по современным методам статистического анализа. Написать хороший учебник — это титанический труд, однако авторы
книги, которую Вы сейчас держите в руках, справились с этой задачей
блестяще. Простота изложения материала, многочисленные практические
примеры и хорошо продуманные лабораторные работы и упражнения сделали книгу «An Introduction to Statistical Learning with Applications in R»
чрезвычайно популярной в академических кругах и среди аналитиков коммерческих организаций во всем мире. Для меня было честью выполнить
перевод этой работы, и я рад, что теперь она стала доступной и для русскоязычных читателей.
К сожалению, в первом издании этой книги на русском языке, которое
вышло в апреле 2016 г., был найден целый ряд опечаток и ошибок, возникших в ходе верстки1. Все обнаруженные с тех пор ошибки были учтены и
исправлены в настоящем издании, за что я безмерно благодарен помогавшим с этой работой читателям. В случае обнаружения новых недостатков,
сообщайте, пожалуйста, по адресу rtutorialsbook@gmail.com.
Я благодарен Дмитрию Мовчану и всей команде «ДМК Пресс» за помощь с подготовкой и изданием этой книги, а также Артему Груздеву,
Дмитрию Дерябину и Александру Вишератину за оказанные ими консультации и советы по улучшению первых вариантов рукописи. Наконец,
я хотел бы поблагодарить свою жену Светлану за ее поддержку во всех
моих начинаниях, одним из которых стала работа над этим переводом.

Сергей Мастицкий
Лондон, декабрь 2016 г.

1 Полный список этих опечаток и ошибок можно найти на GitHub-странице книги:

https://github.com/ranalytics/islr-ru.

Предисловие

К статистическому обучению относят набор инструментов, предназначенных для моделирования и понимания сложно организованных данных.
Это недавно разработанная область статистики, которая развилась параллельно с достижениями в компьютерных науках и особенно машинном
обучении. Данная область охватывает многие методы, включая лассо и
разреженную регрессию, классификационные и регрессионные деревья,
бустинг и метод опорных векторов.
Одновременно со взрывообразным ростом круга задач, связанных с
«большими данными», статистическое обучение стало очень популярным
во многих научных областях, а также в маркетинге, финансах и других
бизнес–дисциплинах. Люди с навыками статистического обучения очень
востребованны.
Одна из первых книг в этой области — «Основы статистического обучения» (ОСО)2 — была опубликована в 2001 г., а в 2009 г. вышло ее второе
издание. ОСО стала очень популярной книгой среди не только статистиков, но и специалистов из смежных областей. Одна из причин такой популярности заключается в относительно легкодоступном стиле изложения.
Однако ОСО предназначена для людей с основательной математической
подготовкой. Новая книга «Введение в статистическое обучение» возникла в связи с ощутимой необходимостью в более широком и не таком
техническом изложении материала. В этой новой книге мы освещаем многие из тех же тем, которые присутствуют в ОСО, но уделяем основное
внимание практическому применению соответствующих методов, а не их
математическим деталям. Мы разработали лабораторные работы, иллюстрирующие реализацию каждого метода с использованием статистического пакета R. Эти лабораторные работы позволяют читателю получить
ценный практический опыт.
Эта книга подойдет для студентов и магистрантов, углубленно изучающих статистику или родственные дисциплины, а также для представителей других наук, которые желают применять инструменты статистического обучения для анализа своих данных. Ее можно использовать в качестве
учебника для курса, длящегося один или два семестра.
Мы благодарим за ценные комментарии следующих читателей черновых вариантов этой книги: Паллави Басу, Александру Чулдечову, Патрика Данахера, Уилла Фитиана, Луэллу Фу, Сэма Гросса, Макса Гразьера
Г’Селла, Кортни Паулсон, Ксингао Кьяо, Элизу Шенг, Ноа Симон, Кена
Минга Тана и Ксина Лу Тана.

2 Hastie T., Tibshirani R., Friedman J. (2001) The Elements of Statistical Learning.
Springer, 745 p.

Предисловие

«Делать предсказания трудно, особенно в отношении будущего».

Йоги Берра

Джеймс Гарет
(Лос–Анджелес, США)

Даниела Уиттен
(Сиэттл, США)

Тревор Хасти
(Пало Альто, США)

Роберт Тибширани
(Пало Альто, США)

Глава 1

Введение

Обзор задач статистического обучения

Под статистическим обучением понимают огромный набор инструментов, предназначенных для понимания данных. Эти инструменты можно
разделить на две группы: обучение с учителем и обучение без учителя. В общих чертах статистическое обучение подразумевает построение
статистической модели для предсказания, или оценивания, некоторой выходной переменной на основе одной или нескольких входных переменных.
Подобные проблемы встречаются в настолько разнящихся областях, как
бизнес, медицина, астрофизика и государственное управление. При обучении без учителя имеются входные переменные, но нет предсказываемой
переменной; тем не менее мы можем выявить закономерности и структуру
в таких данных. В качестве иллюстрации некоторых практических приложений статистического обучения ниже мы кратко обсудим три реальных
набора данных, рассматриваемых в этой книге.

Данные по заработной плате

В этом примере мы исследуем связь нескольких факторов с уровнем заработной платы у группы мужчин из центрально–атлантического региона
США (в этой книге мы будем ссылаться на соответствующие данные как
«набор данных Wage»). В частности, мы хотим выяснить зависимость между заработной платой работника (переменная wage) и его возрастом (age),
уровнем образования (education), а также календарным годом (year). Посмотрите, например, на график, представленный слева на рис. 1.1, где показана связь между заработной платой и возрастом работников из этого
набора данных. Имеется свидетельство в пользу того, что wage увеличивается по мере возрастания age, а затем снова снижается примерно после
60 лет. Синяя линия, которая соответствует оценке среднего уровня wage
для заданного значения age, позволяет увидеть этот тренд более четко.
Зная возраст работника, мы можем предсказать его заработную плату
по этой кривой. Однако на рис. 1.1 также хорошо виден значительный разброс относительно этого среднего значения, из чего следует, что сама по
себе переменная age вряд ли позволит с большой точностью предсказать
wage для конкретного человека.

Введение

Заработная плата

Заработная плата

Заработная плата

Возраст
Год
Уровень  
образования

РИСУНОК 1.1. Таблица Wage с данными по заработной плате мужчин
из центрально–атлантического региона США. Слева: wage как функция
от age. В среднем wage увеличивается одновременно с age до возраста
около 60 лет, после чего начинает снижаться. В центре: wage как функция от year. В период с 2003 по 2009 г. имеет место медленный, но
устойчивый рост wage в среднем на 10 000$ в год. Справа: диаграмма
размахов wage как функции от education, где 1 соответствует самому
низкому уровню образования (неоконченная средняя школа), а 5 – самому
высокому уровню (ученая степень). В среднем wage возрастает с уровнем
образования

У нас имеется также информация по уровню образования каждого работника и его заработной плате wage за каждый год year. Графики, представленные в центре и справа на рис. 1.1, показывают wage в зависимости
от year и education и свидетельствуют о том, что каждый из этих факторов связан с wage. С 2003 по 2009 г. значения зарплаты с каждым годом
линейно возрастают примерно на 10 000$, хотя этот рост очень слабый,
по сравнению с разбросом в данных. Зарплаты также выше у людей с
более высоким уровнем образования: работники с наименьшим уровнем
образования (1) в целом зарабатывают гораздо меньше, чем работники с
самым высоким уровнем (5). Очевидно, что наиболее точное предсказание
wage для конкретного человека будет получено при объединении информации по его возрасту age, уровню образования education и году year.
В главе 3 мы обсудим линейную регрессию, которую можно применить
для предсказания wage по этим данным. В идеале мы должны предсказывать wage с учетом нелинейного характера связи этой переменной с age.
В главе 7 мы рассмотрим класс методов, предназначенных для решения
данной проблемы.

Данные по рынку акций

В случае с набором данных Wage предсказывается непрерывное, или количественное, выходное значение. Часто такую ситуацию называют проблемой восстановления регрессии. Однако в некоторых случаях мы можем
столкнуться с необходимостью предсказать нечисловое значение, т. е. категориальную, или качественную, выходную переменную. Так, в главе 4
мы рассмотрим набор данных по рынку акций, который описывает днев
ные изменения индекса Standard & Poor’s 500 (S&P) в течение 5–летнего
периода (с 2001 по 2005 г.). Мы будем ссылаться на него как на «набор данных Smarket». Задача заключается в предсказании возрастания
или снижения индекса на основе его удельного изменения за последние
5 дней. Здесь проблема статистического обучения не подразумевает предсказания числового значения. Вместо этого предсказывается рост (Up) или
снижение (Down) рынка акций для того или иного дня. Это известно как
проблема классификации. Модель, способная с высокой точностью предсказывать направление движения рынка, была бы очень полезной!

Вчера

Направление сегодня

Снижение
Снижение
Снижение
Рост
Рост
Рост

Два дня назад

Направление сегодня

Три дня назад

Направление сегодня

Процентное изменение S&P

Процентное изменение S&P

Процентное изменение S&P

РИСУНОК 1.2. Слева: диаграмма размахов, отражающая процентное
изменение индекса S&P по сравнению со вчерашним значением для дней,
когда происходили рост или снижение рынка (по данным Smarket). В центре и справа: то же, но показаны процентные изменения по сравнению
с двумя и тремя предыдущими днями соответственно

На рис. 1.2 слева представлена диаграмма размахов, отражающая процентные изменения индекса акций по сравнению с предыдущим днем: для
648 дней, когда в следующие за ними дни рынок вырос, и для 602 дней,
когда рынок ушел вниз. Эти две диаграммы почти идентичны, что указывает на невозможность простой стратегии по использованию вчерашнего состояния индекса S&P для предсказания его сегодняшнего положения. Остальные графики, на которых приведены диаграммы размахов для
процентных изменений в сравнении с двумя и тремя предыдущими днями, также указывают на отсутствие выраженной связи между прошлым и
текущим состояниями индекса. Безусловно, отсутствие связи здесь ожидаемо, иначе при наличии тесных корреляций между следующими друг
за другом днями мы могли бы использовать простую торговую стратегию
для получения прибыли. Тем не менее в главе 4 мы подробно исследуем эти
данные при помощи нескольких методов статистического обучения. Интересно, что есть некоторые указания на наличие слабых закономерностей
в этих данных, предполагающие возможность правильного предсказания
направления движения рынка примерно в 60% случаев (по крайней мере,
для этого 5–летнего периода; рис. 1.3).

Доступ онлайн
899 ₽
В корзину