Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Темные данные: практическое руководство по принятию правильных решений в мире недостающих данных

Покупка
Артикул: 781043.01.99
Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой — крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.
Хэнд, Д. Темные данные: практическое руководство по принятию правильных решений в мире недостающих данных : практическое руководство / Д. Хэнд. - Москва : Альпина Паблишер, 2021. - 369 с. - ISBN 978-5-9614-4143-7. - Текст : электронный. - URL: https://znanium.ru/catalog/product/1873513 (дата обращения: 20.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Посвящается Шелли

DARK DATA

Why What You Don’t Know Matters

D J. H

Москва
2021

Перевод с английского

ISBN 978-5-9614-4143-7 (рус.)
ISBN 978–0 691 182 377 (англ.)

Все права защищены. Никакая часть этой книги не может быть воспроизведена в какой бы то ни было форме 
и какими бы то ни было средствами, включая размещение 
в сети интернет и в корпоративных сетях, а также запись 
в память ЭВМ для частного или публичного использования, без письменного разрешения владельца авторских прав. 
По вопросу организации доступа к электронной библиотеке 
издательства обращайтесь по адресу mylib@alpina.ru.

© 2020 by David J. Hand
 
This edition published by arrangement 
with the Science Factory, Louisa Pritchard 
Associates and The Van Lear Agency LLC.
© Издание на русском языке, перевод, оформление. 
ООО «Альпина Паблишер», 2021

УДК 004.6
ББК 32.972
 
Х99
Переводчик: М. Белоголовский
Редактор: В. Ионов

Хэнд Д.

Х99  
Темные данные: Практич еское руководство по принятию правильных решений в мире недостающих данных / Дэвид Хэнд ; 
Пер. с англ. — М. : Альпина Паблишер, 2021. — 366 с.

ISBN 978-5-9614-4143-7

Человечество научилось собирать, обрабатывать и использовать 
в науке, бизнесе и повседневной жизни огромные массивы данных. 
Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд 
считает, что это по меньшей мере недальновидно, а порой — крайне 
опасно. В своей книге он выделяет 15 влияющих на наши решения 
и действия видов данных, которые остаются в тени. Например, речь 
идет об учете сигналов бедствия, которые могли бы подать жители 
бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно 
исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие 
меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, 
интересующихся дата-сайенс, программированием и статистикой.

УДК 004.6
ББК 32.972

СОДЕРЖАНИЕ

Предисловие ..................................................................................................................................................9

ЧАСТЬ I
ТЕМНЫЕ ДАННЫЕ
Происхождение и последствия

ГЛАВА 1. Темные данные: Незримая сила, 
которая формирует наш мир ..........................................................................13

Призрак данных ..........................................................................................................................13

Так вы думаете, у вас есть все данные? ................................................................23

Не было ничего необычного, 
поэтому мы не придали этому значения ..........................................................28

Сила темных данных ..........................................................................................................33

Всюду вокруг нас ........................................................................................................................36

ГЛАВА 2. Обнаружение темных данных: 
Что мы собираем, а что нет ...............................................................................41

Темные данные со всех сторон .......................................................................................41

Извлечение, отбор и самоотбор данных ............................................................44

От нескольких ко многим ................................................................................................58

Экспериментальные данные ..........................................................................................72

Остерегайтесь человеческих слабостей .............................................................84

ГЛАВА 3. Определения и темные данные: 
Что именно вы хотите узнать? .....................................................................89

Ошибки в определениях и измерениях ..................................................................89

Невозможно измерить все ...............................................................................................98

Скрининг .........................................................................................................................................108

Выбор на основе прошлого .............................................................................................. 113

ГЛАВА 4. Непреднамеренные темные данные: 
Видим одно, регистрируем другое ........................................................117

Общая картина ....................................................................................................................... 117

Обобщение ..................................................................................................................................... 121

Человеческий фактор .........................................................................................................123

Недостатки приборов ........................................................................................................129

Объединение наборов данных.......................................................................................132

ГЛАВА 5. Стратегические темные данные: 
Уловки, обратная связь 
и информационная асимметрия .............................................................135

Уловки ................................................................................................................................................135

Обратная связь .......................................................................................................................144

Информационная асимметрия ................................................................................ 151

Неблагоприятный отбор и алгоритмы ...........................................................154

ГЛАВА 6. Умышленно затемненные данные: 
Мошенничество и обман ....................................................................................164

Мошенничество .......................................................................................................................164

Кража идентификационных данных 
и интернет-мошенничество .......................................................................................169

Мошенничество с личными финансами ...........................................................174

Мошенничество на финансовых рынках 
и инсайдерская торговля .................................................................................................179

Страховое мошенничество ......................................................................................... 184

И прочее ...........................................................................................................................................190

ГЛАВА 7. Наука и темные данные: Природа познания .....................194

Сущность науки ......................................................................................................................194

Если бы я знал заранее… .................................................................................................199

Натыкаясь на темные данные .................................................................................210

Темные данные и общая картина ............................................................................212

Сокрытие фактов ................................................................................................................230

Отзыв публикаций ...............................................................................................................249

Источник и его достоверность: кто вам такое сказал? ..................251

ЧАСТЬ II
ОСВЕЩЕНИЕ И ИСПОЛЬЗОВАНИЕ 
ТЕМНЫХ ДАННЫХ

ГЛАВА 8. Принцип работы с темными данными: 
Проливаем свет ...............................................................................................................259

Надежда! .......................................................................................................................................259

Связываем наблюдаемые и недостающие данные ....................................261

Определение механизма появления недостающих данных .............271

Работа с имеющимися данными ............................................................................273

Выход за пределы данных: что, если ты умрешь первым? ............279

Выход за пределы данных: вменение ....................................................................283

Неправильное число! ...........................................................................................................295

ГЛАВА 9. Полезные темные данные: 
Переосмысление вопроса .................................................................................302

Сокрытие данных .................................................................................................................302

Сокрытие данных от самих себя: 
рандомизированные контролируемые исследования ............................304

Что могло бы быть .............................................................................................................306

Репликация данных .............................................................................................................. 311

Мнимые данные: байесовское априорное распределение .....................318

Частная жизнь и защита конфиденциальности ....................................321

Сбор данных в темноте ...................................................................................................331

ГЛАВА 10. Классификация темных данных: 
Путь в лабиринте ..........................................................................................................335

Систематика темных данных ...............................................................................335

Подведение итогов ................................................................................................................344

Примечания .............................................................................................................................................353

ПРЕДИСЛОВИЕ

Перед вами необычная книга. Почти все, что издается на эту 

тему —  будь то популярная литература о больших или открытых 
данных, обработке данных или пособия по статистическому 
анализу, —  основывается на том, что у вас уже есть. Речь идет 
об информации, хранящейся в компьютере, ящиках рабочего 

стола или аудио-, видеозаписях вашего смартфона. Но эта книга 

совсем о другом. Она о данных, которых у вас нет. Возможно, вы 

пытаетесь получить их прямо сейчас или  когда-то без успешно 
пытались сделать это, а может быть, ошибочно полагаете, что 
они у вас имеются. Как бы то ни было, речь пойдет о данных, 
которых у вас нет.
Я утверждаю и далее продемонстрирую это на многих примерах, что отсутствующие данные важны не менее тех, которыми мы располагаем. Вы сможете сами убедиться, что неиз
вестные нам данные являются причиной многих заблуждений, 

порой имеющих катастрофические последствия. Я покажу, как 
и почему это происходит. Затем я расскажу, как этого можно 
избежать —  на что именно стоит обращать внимание, чтобы 
обойти неприятности. А в завершение, когда вы поймете, как 
возникают темные данные и как они создают нам проблемы, 
я покажу, как с их помощью перевернуть с ног на голову тра
диционное представление об анализе данных и, если вы достаточно проницательны, глубже вникнуть в свою область, улучшить процесс принятия решений и выбора действий.
Мое собственное понимание темных данных развивалось 
постепенно, на протяжении всей карьеры. Я благодарю всех, 

Предисловие

кто подкидывал мне проблемы, которые, как я постепенно 
осознал, были не чем иным, как проблемами темных данных. 

Я выражаю признательность всем, кто вместе со мной искал спо
собы их решения. Сферы, где возникали эти проблемы, варьировались от медицинских исследований и фармацевтической 

промышленности до государственной и социальной политики, 

финансового сектора и производства —  ни одна сфера человеческой деятельности не свободна от рисков, которые несут 
с собой темные данные.
Отдельно хочу поблагодарить тех, кто любезно согласился 
пожертвовать своим временем, чтобы прочитать рукопись 
этой книги, а именно Кристофороса Анагностопулоса, Нила 
Ченнона, Найла Адамса и трех анонимных читателей от издательства. Они помогли мне избежать неловкости перед вами, 

сократив число допущенных ошибок. Питер Таллак, мой агент, 
помог найти идеального издателя для этой работы, любезно 

давал мне советы и направлял работу над книгой в целом. Мой 
редактор из издательства Princeton University Press Ингрид 

Гнерлих была мудрым и ценным гидом в вопросах оформления 

проекта. Наконец, я особенно признателен своей жене профес
сору Шелли Ченнон, за ее вдумчивую критику моих рукописей. 
Благодаря ее вкладу книга стала значительно лучше.

Имперский колледж, Лондон

ЧАСТЬ I

ТЕМНЫЕ ДАННЫЕ

П 
 

Г 
Темные данные

Н ,   
 

П 

К ак-то во время прогулки я встретил странного пожилого человека, который  что-то высыпал на пешеходную дорожку примерно через каждые  м. Я не смог сдержать любопытства 
и поинтересовался, что это он такое делает.
— Рассыпаю слоновий порошок, —  совершенно серьезно 
ответил он. —  Слоны не выносят его запах, поэтому держатся 
подальше.
— Постойте, но в наших краях нет слонов, —  улыбнулся я.
— Вот именно! —  воскликнул он. —  Это очень эффективное средство.

Этот забавный случай служит хорошим прологом для вещей 
куда более серьезных, о которых я собираюсь рассказать.
Каждый год корь убивает почти   человек. Один 
из  заболевших умирает от осложнений, многие страдают от необратимой потери слуха или от поражения головного мозга. К счастью, для Соединенных Штатов это редкое 
заболевание —  например, в  г. было зарегистрировано 
всего  случаев. Однако внезапная вспышка кори в январе 

 г. привела к тому, что в штате Вашингтон была объявлена