Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Глубокое обучение в биологии и медицине

Покупка
Артикул: 748318.01.99
Доступ онлайн
699 ₽
В корзину
Глубокое обучение добилось впечатляющих успехов во многих отраслях. Сейчас оно все глубже проникает в прикладные научные исследования, в частности биологию и смежные дисциплины. Эта книга рассказывает о применении глубокого обучения в геномике, химии, биофизике, микроскопии, медицине и других направлениях современных исследований всего, что связано с живыми организмами. Издание будет полезно широкому кругу специалистов, связанных с анализом данных в химии, биологии и медицине, а также разработчикам ПО для них и студентам вузов.
Глубокое обучение в биологии и медицине : практическое пособие / Б. Рамсундар, П. Истман, П. Уолтере, В. Панде ; пер. с англ. В. С. Яценкова. - Москва : ДМК Пресс, 2020. - 200 с. - ISBN 978-5-97060-791-6. - Текст : электронный. - URL: https://znanium.com/catalog/product/1210629 (дата обращения: 20.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Бхарат Рамсундар, Питер Истман, Патрик Уолтерс и Виджай Панде

Глубокое обучение  
в биологии и медицине

Bharath Ramsundar, Peter Eastman, Patrick Walters, and Vijay Pande

Deep Learning  
for the Life Sciences

 
Beijing • Boston • Farnham • Sebastopol • Tokyo

Бхарат Рамсундар, Питер Истман, Патрик Уолтерс и Виджай Панде

Глубокое обучение 
в биологии и медицине

Москва, 2020

УДК 004.891 
ББК 32.972.13
Р21

Рамсундар Б., Истман П., Уолтерс П., Панде В.
Р21
Глубокое обучение в биологии и медицине / пер. с анг. В. С. Яценкова. – М.: 
ДМК Пресс, 2020. – 200 с.: ил.

ISBN 978-5-97060-791-6

Глубокое обучение добилось впечатляющих успехов во многих отраслях. Сейчас 
оно все глубже проникает в прикладные научные исследования, в частности биологию 
и смежные дисциплины. Эта книга рассказывает о применении глубокого обучения 
в геномике, химии, биофизике, микроскопии, медицине и других направлениях современных исследований всего, что связано с живыми организмами.
Издание будет полезно широкому кругу специалистов, связанных с анализом 
данных в химии, биологии и медицине, а также разработчикам ПО для них и студентам вузов.

УДК 004.891 
ББК.32.972.13

Original English language edition published by O’Reilly Media, Inc., 1005 Gravenstein Highway 
North, Sebastopol, CA 95472. Copyright © 2019 Bharath Ramsundar, Peter Eastman, Patrick Walters, 
and Vijay Pande. Russian-language edition copyright © 2020 by DMK Press. All rights reserved.

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой 
бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав.

ISBN 978-1-492-03983-9 (анг.)
Copyright © 2019 Bharath Ramsundar,  
Peter Eastman, Patrick Walters, and Vijay Pande
ISBN 978-5-97060-791-6 (рус.)
© Оформление, издание, перевод, ДМК Пресс, 2020

Содержание

Предисловие .............................................................................................................8

Об авторах ...............................................................................................................11

Глава 1. Глубокое обучение и науки о жизни .................................................13
Почему все говорят о глубоком обучении? ..............................................................13
Современные науки о жизни – это науки о данных ...............................................14
О чем эта книга? ........................................................................................................15

Глава 2. Введение в глубокое обучение ...........................................................19
Линейные модели ......................................................................................................20
Многослойные персептроны ....................................................................................21
Обучение модели .......................................................................................................24
Проверка модели .......................................................................................................26
Регуляризация ............................................................................................................27
Оптимизация гиперпараметров...............................................................................28
Другие типы моделей ................................................................................................29
Сверточные нейронные сети ................................................................................30
Рекуррентные нейронные сети ............................................................................31
Дополнительное чтение ............................................................................................32

Глава 3. Машинное обучение с DeepChem ......................................................33
Наборы данных DeepChem ........................................................................................34
Обучение модели для предсказания токсичности молекул ...................................35
Пример: обучение модели MNIST ............................................................................42
Набор данных распознавания цифр MNIST ........................................................42
Сверточная архитектура для набора MNIST ........................................................43
Заключение ................................................................................................................47

Глава 4. Машинное обучение и молекулы.......................................................48
Что такое молекула? ..................................................................................................48
Что такое внутримолекулярные связи? ...................................................................50
Ковалентные связи ................................................................................................51
Нековалентные связи ............................................................................................51
Молекулярные графы ................................................................................................52
Конформации молекулы ...........................................................................................53
Хиральность молекул ............................................................................................54
Фичеризация молекулы ........................................................................................55
Строки SMILES и пакет RDKit ...............................................................................55
Расширенные отпечатки связей ...........................................................................56
Молекулярные дескрипторы ....................................................................................57
Графовые свертки ......................................................................................................57

 Содержание

Обучение модели для прогнозирования растворимости .......................................58
MoleculeNet ................................................................................................................60
Строки SMARTS ..........................................................................................................60
Заключение ................................................................................................................63

Глава 5. Глубокое обучение и биофизика ........................................................64
Белковые структуры ..................................................................................................65
Белковые последовательности .............................................................................67
Общие принципы связывания с белками ............................................................70
Биофизическая фичеризация ...................................................................................71
Координатная фичеризация .................................................................................71
Атомная фичеризация ..........................................................................................76
Пример использования PDBBind ..............................................................................76
PDBBind Dataset .....................................................................................................76
Представление набора данных PDBBind ..............................................................79
Заключение ................................................................................................................82

Глава 6. Глубокое обучение и геномика ...........................................................85
ДНК, РНК и белки .......................................................................................................85
Реальное положение дел ...........................................................................................87
Сайты связывания и факторы транскрипции .........................................................90
Сверточная модель связывания TF ......................................................................90
Доступность хроматина ............................................................................................93
РНК-интерференция .................................................................................................95
Заключение ................................................................................................................98

Глава 7. Машинное обучение и микроскопия .................................................99
Краткое введение в микроскопию .........................................................................101
Современная оптическая микроскопия ............................................................102
Дифракционный предел .........................................................................................104
Электронная и атомно-силовая микроскопия ..................................................105
Микроскопия сверхвысокого разрешения ........................................................107
Глубокое обучение и дифракционный предел ..................................................109
Подготовка биологических препаратов для микроскопии ..................................109
Окрашивание .......................................................................................................109
Фиксация препаратов .........................................................................................110
Секционирование препаратов ...........................................................................111
Флуоресцентная микроскопия ...........................................................................111
Артефакты пробоподготовки .............................................................................113
Применение глубокого обучения в микроскопии .................................................114
Подсчет клеток .....................................................................................................114
Клеточная сегментация ......................................................................................117
Вычислительные анализы...................................................................................121
Заключение ..............................................................................................................121

Глава 8. Глубокое обучение в медицине ........................................................123
Компьютерная диагностика ....................................................................................123
Вероятностные диагнозы с байесовскими сетями ................................................124

Содержание  7

Данные электронных медицинских карт ..............................................................126
В чем опасность больших баз данных ЭМК пациентов?...................................128
Глубокая радиология ...............................................................................................129
Рентгенография и компьютерная томография .................................................131
Гистология ............................................................................................................133
Магниторезонансная томография .....................................................................133
Модель глубокого обучения в качестве лечебного средства ................................134
Диабетическая ретинопатия...................................................................................135
Перспективы глубокого обучения в медицине .....................................................139
Этические соображения ......................................................................................139
Потеря работы .....................................................................................................140
Заключение ..............................................................................................................140

Глава 9. Генеративные модели .........................................................................141
Вариационные автоэнкодеры .................................................................................141
Генеративные состязательные сети .......................................................................143
Применение генеративных моделей в науках о жизни ........................................144
Генерация новых идей для соединений-прототипов .......................................144
Разработка белков ...............................................................................................145
Инструменты для научного поиска ....................................................................145
Будущее генеративного моделирования ...........................................................146
Работа с генеративными моделями .......................................................................146
Анализ вывода генеративной модели ...............................................................148
Заключение ..............................................................................................................151

Глава 10. Интерпретация глубоких моделей ................................................154
Как объяснить предсказания? ................................................................................154
Оптимизация входов ...............................................................................................158
Прогнозирование неопределенности ....................................................................161
Интерпретируемость, объяснимость и последствия для реального мира ..........165
Заключение ..............................................................................................................165

Глава 11. Практический пример виртуального скрининга ........................166
Подготовка набора данных для прогнозного моделирования .............................167
Обучение прогностической модели .......................................................................172
Подготовка набора данных для прогнозирования................................................177
Применение прогностической модели ..................................................................180
Заключение ..............................................................................................................186

Глава 12. Ожидания и перспективы ................................................................188
Медицинская диагностика ......................................................................................188
Персонализированная медицина ...........................................................................190
Фармацевтические исследования ..........................................................................191
Биологические исследования .................................................................................193
Заключение ..............................................................................................................194

Колофон ..................................................................................................................195

Предметный указатель .......................................................................................196

Предисловие

Настало время, когда науки о жизни и данных соединились. Достижения в области робототехники и автоматики позволяют химикам и биологам получать огромное количество данных. Современный ученый за один день может сгенерировать 
больше данных, чем его предшественники два десятка лет назад могли бы собрать 
за всю карьеру. Эта способность быстро генерировать данные создала ряд новых 
научных проблем. Осталась позади эпоха, когда мы обрабатывали данные, загружая их в электронную таблицу и создавая пару графиков. Чтобы извлечь научные 
знания из новых огромных наборов данных, мы должны уметь выявлять и использовать неочевидные связи.
Одним из мощных инструментов для выявления закономерностей и взаимосвязей в данных является глубокое обучение, класс алгоритмов, которые произвели революцию в ряде областей, включая анализ изображений, языковой перевод 
и распознавание речи. Алгоритмы глубокого обучения превосходно зарекомендовали себя при выявлении и использовании шаблонов в больших наборах данных. 
По этим причинам глубокое обучение широко применяется во всех дисциплинах 
науки о жизни. В этой книге представлен обзор применения глубокого обучения 
в ряде областей, включая генетику, поиск лекарств и медицинскую диагностику. 
Обзор сопровождается примерами кода, которые помогают применить новые 
знания на практике и дают читателю отправную точку для будущих исследований 
и разработок.

Условные обозначения и соглашения, принятые в книге

В книге используются следующие типографские соглашения.
Курсив – используется для смыслового выделения важных положений, новых 
терминов, имен команд и утилит, а также имен и расширений файлов и каталогов.
Моноширинный шрифт – используется для листингов программ, а также в обычном 
тексте для обозначения имен переменных, функций, типов, объектов, баз данных, 
переменных среды, операторов, ключевых слов и других программных конструкций и элементов исходного кода.
Моноширинный полужирный шрифт – используется для обозначения команд или фрагментов текста, которые пользователь должен ввести дословно без изменений.
Моноширинный курсив – используется для обозначения в исходном коде или в командах шаблонных меток-заполнителей, которые должны быть заменены соответствующими контексту реальными значениями.

 Такая пиктограмма обозначает совет или рекомендацию.

 Такая пиктограмма обозначает указание или примечание общего характера.

 Эта пиктограмма обозначает предупреждение или особое внимание к  потенциально опасным объектам.

Благодарности  9

отзывы и пожелания

Мы всегда рады отзывам наших читателей. Расскажите нам, что вы думаете об 
этой книге – что понравилось или, может быть, не понравилось. Отзывы важны 
для нас, чтобы выпускать книги, которые будут для вас максимально полезны.
Вы можете написать отзыв прямо на нашем сайте www.dmkpress.com, зайдя на 
страницу книги, и оставить комментарий в разделе «Отзывы и рецензии». Также 
можно послать письмо главному редактору по адресу dmkpress@gmail.com, при 
этом напишите название книги в теме письма. 
Если есть тема, в которой вы квалифицированы, и вы заинтересованы в написании новой книги, заполните форму на нашем сайте по адресу http://dmkpress.
com/authors/publish_book/ или напишите в издательство по адресу dmkpress@
gmail.com.

скачивание исходного кода примеров

Скачать файлы с дополнительной информацией для книг издательства «ДМК 
Пресс» можно на сайте www.dmkpress.com или www.дмк.рф на странице с описанием соответствующей книги. 

список опечаток

Хотя мы приняли все возможные меры для того, чтобы удостовериться в качестве 
наших текстов, ошибки все равно случаются. Если вы найдете ошибку в одной из 
наших книг — возможно, ошибку в тексте или в коде, — мы будем очень благодарны, если вы сообщите нам о ней. Сделав это, вы избавите других читателей от 
расстройств и поможете нам улучшить последующие версии этой книги. 
Если вы найдете какие-либо ошибки в коде, пожалуйста, сообщите о них главному редактору по адресу dmkpress@gmail.com, и мы исправим это в следующих 
тиражах.

нарУшение авторских прав

Пиратство в интернете по-прежнему остается насущной проблемой. Издательства «ДМК Пресс» и O'Reilly очень серьезно относятся к вопросам защиты авторских прав и лицензирования. Если вы столкнетесь в интернете с незаконно выполненной копией любой нашей книги, пожалуйста, сообщите нам адрес копии 
или веб-сайта, чтобы мы могли применить санкции.
Пожалуйста, свяжитесь с нами по адресу электронной почты dmkpress@gmail.
com со ссылкой на подозрительные материалы.
Мы высоко ценим любую помощь по защите наших авторов, помогающую нам 
предоставлять вам качественные материалы. 

благодарности

Авторы хотели бы поблагодарить Николь Таш (Nicole Tache), нашего редактора 
в O’Reilly, а также технических рецензентов и бета-рецензентов за их ценный 

 Предисловие

вклад в книгу. Кроме того, мы хотели бы поблагодарить Карла Лесвинга (Karl 
Leswing) и Чжэньциня (Майкла) Ву (Zhenqin/Michael Wu) за их вклад в код, а также 
Джонни Израэли (Johnny Israeli) за ценные советы для главы по геномике.
Бхарат благодарит свою семью за поддержку и ободрение в течение многих 
долгих выходных и ночей, проведенных в работе над этой книгой.
Питер хотел бы поблагодарить свою жену за ее постоянную поддержку, а также 
многих коллег, от которых он так много узнал о машинном обучении.
Патрик благодарен своей жене Андреа и дочерям Эли и Мэдди за их любовь 
и поддержку. Он также благодарит прошлых и настоящих коллег из Vertex Pharmaceuticals и Relay Therapeutics, у которых он многому научился.
Наконец, мы хотим поблагодарить сообщество разработчиков программного 
обеспечения DeepChem за поддержку и консультации на протяжении работы над 
книгой.

Об авторах

Бхарат Рамсундар (Bharath Ramsundar) является соучредителем и техническим 
директором компании Datamined, занятой созданием больших наборов биологических данных. Эти наборы данных широко востребованы в связи с бумом ИИ 
в биотехнологиях. Бхарат также является ведущим разработчиком и создателем 
DeepChem.io, пакета с открытым исходным кодом, основанного на TensorFlow 
и нацеленного на повышение доступности глубокого обучения в области поиска 
лекарств, и соавтором пакета тестов MoleculeNet.
Бхарат получил степени бакалавра в Калифорнийском университете в Беркли 
по специальностям «Электроника и информатика» и «Математика» и был удостоен чести произнести прощальную речь перед выпускниками математического 
факультета. Недавно он защитил кандидатскую диссертацию по информатике 
в Стэнфордском университете (все, кроме формальной части) в группе Виджая 
Панде и при поддержке Hertz Fellowship, стипендиального фонда с самым строгим отбором аспирантов.

Питер Истман (Peter Eastman) разрабатывает программное обеспечение для 
биологов и химиков в отделе биотехнологий Стэнфордского университета. Он 
является ведущим автором OpenMM, инструментария для высокопроизводительного моделирования молекулярной динамики, и основным разработчиком 
DeepChem, пакета для глубокого машинного обучения в области химии, биологии 
и материаловедения. С 2000 года он является профессиональным инженеромпрограммистом, в том числе вице-президентом по разработке программного 
обеспечения для Silicon Genetics – компании, занимающейся разработкой программного обеспечения для биоинформатики. Сейчас исследовательские интересы Питера сосредоточены на пересечении физики и глубокого обучения.

Пэт Уолтерс (Pat Walters) возглавляет группу по вычислительной информатике в Relay Therapeutics в Кембридже, штат Массачусетс. Его группа работает над 
новыми вычислительными методами, объединяющими компьютерное моделирование и экспериментальные данные в программах по разработке новых лекарственных препаратов. До прихода в Relay Therapeutics он более 20 лет проработал 
в Vertex Pharmaceuticals, где занимал должность генерального директора по моделированию и информатике.
Пэт является членом редакционно-консультативного совета «Журнала медицинской химии» и ранее занимал аналогичные должности в журналах «Молекулярная информатика» и «Бюллетень исследований и разработки лекарственных 
средств». Он продолжает играть активную роль в научном сообществе. Пэт был 
председателем конференции Гордона по компьютерной разработке лекарств 
2017 го да и сыграл важную роль в ряде профессиональных сообществ, включая 
базу данных разработчиков лекарственных средств (Drug Design Data Resource, 
D3R) и Ассоциацию американских химиков-разработчиков (American Chemical 
Society TDT initiative). Пэт получил докторскую степень по органической химии 
в университете Аризоны, где изучал применение искусственного интеллекта 

 Об авторах

в анализе молекулярных конформаций. До получения степени доктора он работал в Varian Instruments как химик и разработчик программного обеспечения. Пэт 
Уолтерс получил степень бакалавра по химии в Калифорнийском университете 
в Санта-Барбаре.

Виджай Панде (Vijay Pande), доктор философии, является генеральным партнером Andreessen Horowitz, где отвечает за инвестиции фирмы в области биологии 
и информатики, включая применение вычислений, машинного обучения и искусственного интеллекта в биологии и здравоохранении, а также инновационных 
научных технологий. Он  работает адъюнкт-профессором факультета биотехнологий в Стэнфорде, где изучает применение компьютерных методов в медицине 
и биологии и консультирует студентов и аспирантов, что привело к появлению более двухсот публикаций, двух патентов и двух новых лекарственных препаратов.
Будучи предпринимателем, Виджай является основателем Проекта распределенных вычислений Folding@Home по изучению заболеваний, расширяющего границы применения компьютерных технологий, таких как распределенные системы, 
машинное обучение и экзотические компьютерные архитектуры, в биологии 
и медицине. Он занимается как фундаментальными исследованиями, так и разработкой новых методов лечения. Виджай также стал соучредителем Globavir Biosciences, где превратил свои научные достижения в Стэнфорде и Folding@Home 
в успешный стартап, открывая лекарства от лихорадки денге и лихорадки Эбола. 
В подростковом возрасте он был первым сотрудником стартапа видеоигр Naughty 
Dog Software, производителя популярной игровой франшизы Crash Bandicoot.

Глава 1

Глубокое обучение 
и науки о жизни

Существует много направлений, где могут проявить себя энтузиасты и эксперты 
по работе с данными, однако лишь немногие области могут сравниться с биомедицинскими исследованиями по фундаментальным последствиям применения 
больших данных. Появление современной медицины коренным образом изменило природу человеческого существования. За последние 20 лет мы увидели 
инновации, которые изменили жизнь множества людей. Впервые обнаруженный 
в 1981 году, ВИЧ/СПИД был смертельным заболеванием. Появление антиретровирусной терапии значительно увеличило продолжительность жизни больных 
ВИЧ в развитых странах. Другие болезни, такие как гепатит С, который десять лет 
назад считался в основном неизлечимым, теперь можно вылечить. Достижения 
в области генетики позволяют обнаруживать, и, надеемся, в скором времени, лечить, широкий спектр заболеваний. Инновации в диагностике и измерительной 
аппаратуре позволили врачам целенаправленно выявлять и контролировать заболевания в организме человека. Многие из этих прорывов случились и продолжают развиваться благодаря новым вычислительным методам.

почемУ все говорят о глУбоком обУчении?

Алгоритмы машинного обучения теперь являются ключевым компонентом всех 
современных компьютерных технологий, от покупок в интернете до социальных 
сетей. Команды ученых-компьютерщиков разрабатывают алгоритмы, позволяющие цифровым помощникам, таким как Amazon Echo или Google Home, понимать 
речь. Достижения в области машинного обучения позволяют на лету выполнять 
перевод веб-страниц. Помимо влияния на повседневную жизнь, машинное обучение активно воздействует на многие области естественных наук и наук о жизни. 
Алгоритмы машинного обучения применяются ко всему, начиная с поиска новых 
галактик и заканчивая классификацией субатомных взаимодействий на Большом 
адронном коллайдере.
Одним из источников этих технологических достижений стало появление класса методов машинного обучения, известных как глубокие нейронные сети. Хотя 
технологические основы искусственных нейронных сетей были разработаны 
в 1950-х годах и усовершенствованы в 1980-х годах, истинная мощь этого метода не была полностью реализована до тех пор, пока за последнее десятилетие не 

Доступ онлайн
699 ₽
В корзину