Глубокое обучение в биологии и медицине
Покупка
Тематика:
Прикладные информационные технологии
Издательство:
ДМК Пресс
Перевод:
Яценков Валерий Станиславович
Год издания: 2020
Кол-во страниц: 200
Дополнительно
Вид издания:
Практическое пособие
Уровень образования:
ВО - Специалитет
ISBN: 978-5-97060-791-6
Артикул: 748318.01.99
Доступ онлайн
В корзину
Глубокое обучение добилось впечатляющих успехов во многих отраслях. Сейчас оно все глубже проникает в прикладные научные исследования, в частности биологию и смежные дисциплины. Эта книга рассказывает о применении глубокого обучения в геномике, химии, биофизике, микроскопии, медицине и других направлениях современных исследований всего, что связано с живыми организмами.
Издание будет полезно широкому кругу специалистов, связанных с анализом данных в химии, биологии и медицине, а также разработчикам ПО для них и студентам вузов.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 34.03.01: Сестринское дело
- ВО - Специалитет
- 04.05.01: Фундаментальная и прикладная химия
- 09.05.01: Применение и эксплуатация автоматизированных систем специального назначения
- 30.05.01: Медицинская биохимия
- 30.05.02: Медицинская биофизика
- 30.05.03: Медицинская кибернетика
- 31.05.01: Лечебное дело
- 31.05.02: Педиатрия
- 31.05.03: Стоматология
- 32.05.01: Медико-профилактическое дело
- 33.05.01: Фармация
- Аспирантура
- 06.06.01: Биологические науки
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Бхарат Рамсундар, Питер Истман, Патрик Уолтерс и Виджай Панде Глубокое обучение в биологии и медицине
Bharath Ramsundar, Peter Eastman, Patrick Walters, and Vijay Pande Deep Learning for the Life Sciences Beijing • Boston • Farnham • Sebastopol • Tokyo
Бхарат Рамсундар, Питер Истман, Патрик Уолтерс и Виджай Панде Глубокое обучение в биологии и медицине Москва, 2020
УДК 004.891 ББК 32.972.13 Р21 Рамсундар Б., Истман П., Уолтерс П., Панде В. Р21 Глубокое обучение в биологии и медицине / пер. с анг. В. С. Яценкова. – М.: ДМК Пресс, 2020. – 200 с.: ил. ISBN 978-5-97060-791-6 Глубокое обучение добилось впечатляющих успехов во многих отраслях. Сейчас оно все глубже проникает в прикладные научные исследования, в частности биологию и смежные дисциплины. Эта книга рассказывает о применении глубокого обучения в геномике, химии, биофизике, микроскопии, медицине и других направлениях современных исследований всего, что связано с живыми организмами. Издание будет полезно широкому кругу специалистов, связанных с анализом данных в химии, биологии и медицине, а также разработчикам ПО для них и студентам вузов. УДК 004.891 ББК.32.972.13 Original English language edition published by O’Reilly Media, Inc., 1005 Gravenstein Highway North, Sebastopol, CA 95472. Copyright © 2019 Bharath Ramsundar, Peter Eastman, Patrick Walters, and Vijay Pande. Russian-language edition copyright © 2020 by DMK Press. All rights reserved. Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. ISBN 978-1-492-03983-9 (анг.) Copyright © 2019 Bharath Ramsundar, Peter Eastman, Patrick Walters, and Vijay Pande ISBN 978-5-97060-791-6 (рус.) © Оформление, издание, перевод, ДМК Пресс, 2020
Содержание Предисловие .............................................................................................................8 Об авторах ...............................................................................................................11 Глава 1. Глубокое обучение и науки о жизни .................................................13 Почему все говорят о глубоком обучении? ..............................................................13 Современные науки о жизни – это науки о данных ...............................................14 О чем эта книга? ........................................................................................................15 Глава 2. Введение в глубокое обучение ...........................................................19 Линейные модели ......................................................................................................20 Многослойные персептроны ....................................................................................21 Обучение модели .......................................................................................................24 Проверка модели .......................................................................................................26 Регуляризация ............................................................................................................27 Оптимизация гиперпараметров...............................................................................28 Другие типы моделей ................................................................................................29 Сверточные нейронные сети ................................................................................30 Рекуррентные нейронные сети ............................................................................31 Дополнительное чтение ............................................................................................32 Глава 3. Машинное обучение с DeepChem ......................................................33 Наборы данных DeepChem ........................................................................................34 Обучение модели для предсказания токсичности молекул ...................................35 Пример: обучение модели MNIST ............................................................................42 Набор данных распознавания цифр MNIST ........................................................42 Сверточная архитектура для набора MNIST ........................................................43 Заключение ................................................................................................................47 Глава 4. Машинное обучение и молекулы.......................................................48 Что такое молекула? ..................................................................................................48 Что такое внутримолекулярные связи? ...................................................................50 Ковалентные связи ................................................................................................51 Нековалентные связи ............................................................................................51 Молекулярные графы ................................................................................................52 Конформации молекулы ...........................................................................................53 Хиральность молекул ............................................................................................54 Фичеризация молекулы ........................................................................................55 Строки SMILES и пакет RDKit ...............................................................................55 Расширенные отпечатки связей ...........................................................................56 Молекулярные дескрипторы ....................................................................................57 Графовые свертки ......................................................................................................57
Содержание Обучение модели для прогнозирования растворимости .......................................58 MoleculeNet ................................................................................................................60 Строки SMARTS ..........................................................................................................60 Заключение ................................................................................................................63 Глава 5. Глубокое обучение и биофизика ........................................................64 Белковые структуры ..................................................................................................65 Белковые последовательности .............................................................................67 Общие принципы связывания с белками ............................................................70 Биофизическая фичеризация ...................................................................................71 Координатная фичеризация .................................................................................71 Атомная фичеризация ..........................................................................................76 Пример использования PDBBind ..............................................................................76 PDBBind Dataset .....................................................................................................76 Представление набора данных PDBBind ..............................................................79 Заключение ................................................................................................................82 Глава 6. Глубокое обучение и геномика ...........................................................85 ДНК, РНК и белки .......................................................................................................85 Реальное положение дел ...........................................................................................87 Сайты связывания и факторы транскрипции .........................................................90 Сверточная модель связывания TF ......................................................................90 Доступность хроматина ............................................................................................93 РНК-интерференция .................................................................................................95 Заключение ................................................................................................................98 Глава 7. Машинное обучение и микроскопия .................................................99 Краткое введение в микроскопию .........................................................................101 Современная оптическая микроскопия ............................................................102 Дифракционный предел .........................................................................................104 Электронная и атомно-силовая микроскопия ..................................................105 Микроскопия сверхвысокого разрешения ........................................................107 Глубокое обучение и дифракционный предел ..................................................109 Подготовка биологических препаратов для микроскопии ..................................109 Окрашивание .......................................................................................................109 Фиксация препаратов .........................................................................................110 Секционирование препаратов ...........................................................................111 Флуоресцентная микроскопия ...........................................................................111 Артефакты пробоподготовки .............................................................................113 Применение глубокого обучения в микроскопии .................................................114 Подсчет клеток .....................................................................................................114 Клеточная сегментация ......................................................................................117 Вычислительные анализы...................................................................................121 Заключение ..............................................................................................................121 Глава 8. Глубокое обучение в медицине ........................................................123 Компьютерная диагностика ....................................................................................123 Вероятностные диагнозы с байесовскими сетями ................................................124
Содержание 7 Данные электронных медицинских карт ..............................................................126 В чем опасность больших баз данных ЭМК пациентов?...................................128 Глубокая радиология ...............................................................................................129 Рентгенография и компьютерная томография .................................................131 Гистология ............................................................................................................133 Магниторезонансная томография .....................................................................133 Модель глубокого обучения в качестве лечебного средства ................................134 Диабетическая ретинопатия...................................................................................135 Перспективы глубокого обучения в медицине .....................................................139 Этические соображения ......................................................................................139 Потеря работы .....................................................................................................140 Заключение ..............................................................................................................140 Глава 9. Генеративные модели .........................................................................141 Вариационные автоэнкодеры .................................................................................141 Генеративные состязательные сети .......................................................................143 Применение генеративных моделей в науках о жизни ........................................144 Генерация новых идей для соединений-прототипов .......................................144 Разработка белков ...............................................................................................145 Инструменты для научного поиска ....................................................................145 Будущее генеративного моделирования ...........................................................146 Работа с генеративными моделями .......................................................................146 Анализ вывода генеративной модели ...............................................................148 Заключение ..............................................................................................................151 Глава 10. Интерпретация глубоких моделей ................................................154 Как объяснить предсказания? ................................................................................154 Оптимизация входов ...............................................................................................158 Прогнозирование неопределенности ....................................................................161 Интерпретируемость, объяснимость и последствия для реального мира ..........165 Заключение ..............................................................................................................165 Глава 11. Практический пример виртуального скрининга ........................166 Подготовка набора данных для прогнозного моделирования .............................167 Обучение прогностической модели .......................................................................172 Подготовка набора данных для прогнозирования................................................177 Применение прогностической модели ..................................................................180 Заключение ..............................................................................................................186 Глава 12. Ожидания и перспективы ................................................................188 Медицинская диагностика ......................................................................................188 Персонализированная медицина ...........................................................................190 Фармацевтические исследования ..........................................................................191 Биологические исследования .................................................................................193 Заключение ..............................................................................................................194 Колофон ..................................................................................................................195 Предметный указатель .......................................................................................196
Предисловие Настало время, когда науки о жизни и данных соединились. Достижения в области робототехники и автоматики позволяют химикам и биологам получать огромное количество данных. Современный ученый за один день может сгенерировать больше данных, чем его предшественники два десятка лет назад могли бы собрать за всю карьеру. Эта способность быстро генерировать данные создала ряд новых научных проблем. Осталась позади эпоха, когда мы обрабатывали данные, загружая их в электронную таблицу и создавая пару графиков. Чтобы извлечь научные знания из новых огромных наборов данных, мы должны уметь выявлять и использовать неочевидные связи. Одним из мощных инструментов для выявления закономерностей и взаимосвязей в данных является глубокое обучение, класс алгоритмов, которые произвели революцию в ряде областей, включая анализ изображений, языковой перевод и распознавание речи. Алгоритмы глубокого обучения превосходно зарекомендовали себя при выявлении и использовании шаблонов в больших наборах данных. По этим причинам глубокое обучение широко применяется во всех дисциплинах науки о жизни. В этой книге представлен обзор применения глубокого обучения в ряде областей, включая генетику, поиск лекарств и медицинскую диагностику. Обзор сопровождается примерами кода, которые помогают применить новые знания на практике и дают читателю отправную точку для будущих исследований и разработок. Условные обозначения и соглашения, принятые в книге В книге используются следующие типографские соглашения. Курсив – используется для смыслового выделения важных положений, новых терминов, имен команд и утилит, а также имен и расширений файлов и каталогов. Моноширинный шрифт – используется для листингов программ, а также в обычном тексте для обозначения имен переменных, функций, типов, объектов, баз данных, переменных среды, операторов, ключевых слов и других программных конструкций и элементов исходного кода. Моноширинный полужирный шрифт – используется для обозначения команд или фрагментов текста, которые пользователь должен ввести дословно без изменений. Моноширинный курсив – используется для обозначения в исходном коде или в командах шаблонных меток-заполнителей, которые должны быть заменены соответствующими контексту реальными значениями. Такая пиктограмма обозначает совет или рекомендацию. Такая пиктограмма обозначает указание или примечание общего характера. Эта пиктограмма обозначает предупреждение или особое внимание к потенциально опасным объектам.
Благодарности 9 отзывы и пожелания Мы всегда рады отзывам наших читателей. Расскажите нам, что вы думаете об этой книге – что понравилось или, может быть, не понравилось. Отзывы важны для нас, чтобы выпускать книги, которые будут для вас максимально полезны. Вы можете написать отзыв прямо на нашем сайте www.dmkpress.com, зайдя на страницу книги, и оставить комментарий в разделе «Отзывы и рецензии». Также можно послать письмо главному редактору по адресу dmkpress@gmail.com, при этом напишите название книги в теме письма. Если есть тема, в которой вы квалифицированы, и вы заинтересованы в написании новой книги, заполните форму на нашем сайте по адресу http://dmkpress. com/authors/publish_book/ или напишите в издательство по адресу dmkpress@ gmail.com. скачивание исходного кода примеров Скачать файлы с дополнительной информацией для книг издательства «ДМК Пресс» можно на сайте www.dmkpress.com или www.дмк.рф на странице с описанием соответствующей книги. список опечаток Хотя мы приняли все возможные меры для того, чтобы удостовериться в качестве наших текстов, ошибки все равно случаются. Если вы найдете ошибку в одной из наших книг — возможно, ошибку в тексте или в коде, — мы будем очень благодарны, если вы сообщите нам о ней. Сделав это, вы избавите других читателей от расстройств и поможете нам улучшить последующие версии этой книги. Если вы найдете какие-либо ошибки в коде, пожалуйста, сообщите о них главному редактору по адресу dmkpress@gmail.com, и мы исправим это в следующих тиражах. нарУшение авторских прав Пиратство в интернете по-прежнему остается насущной проблемой. Издательства «ДМК Пресс» и O'Reilly очень серьезно относятся к вопросам защиты авторских прав и лицензирования. Если вы столкнетесь в интернете с незаконно выполненной копией любой нашей книги, пожалуйста, сообщите нам адрес копии или веб-сайта, чтобы мы могли применить санкции. Пожалуйста, свяжитесь с нами по адресу электронной почты dmkpress@gmail. com со ссылкой на подозрительные материалы. Мы высоко ценим любую помощь по защите наших авторов, помогающую нам предоставлять вам качественные материалы. благодарности Авторы хотели бы поблагодарить Николь Таш (Nicole Tache), нашего редактора в O’Reilly, а также технических рецензентов и бета-рецензентов за их ценный
Предисловие вклад в книгу. Кроме того, мы хотели бы поблагодарить Карла Лесвинга (Karl Leswing) и Чжэньциня (Майкла) Ву (Zhenqin/Michael Wu) за их вклад в код, а также Джонни Израэли (Johnny Israeli) за ценные советы для главы по геномике. Бхарат благодарит свою семью за поддержку и ободрение в течение многих долгих выходных и ночей, проведенных в работе над этой книгой. Питер хотел бы поблагодарить свою жену за ее постоянную поддержку, а также многих коллег, от которых он так много узнал о машинном обучении. Патрик благодарен своей жене Андреа и дочерям Эли и Мэдди за их любовь и поддержку. Он также благодарит прошлых и настоящих коллег из Vertex Pharmaceuticals и Relay Therapeutics, у которых он многому научился. Наконец, мы хотим поблагодарить сообщество разработчиков программного обеспечения DeepChem за поддержку и консультации на протяжении работы над книгой.
Об авторах Бхарат Рамсундар (Bharath Ramsundar) является соучредителем и техническим директором компании Datamined, занятой созданием больших наборов биологических данных. Эти наборы данных широко востребованы в связи с бумом ИИ в биотехнологиях. Бхарат также является ведущим разработчиком и создателем DeepChem.io, пакета с открытым исходным кодом, основанного на TensorFlow и нацеленного на повышение доступности глубокого обучения в области поиска лекарств, и соавтором пакета тестов MoleculeNet. Бхарат получил степени бакалавра в Калифорнийском университете в Беркли по специальностям «Электроника и информатика» и «Математика» и был удостоен чести произнести прощальную речь перед выпускниками математического факультета. Недавно он защитил кандидатскую диссертацию по информатике в Стэнфордском университете (все, кроме формальной части) в группе Виджая Панде и при поддержке Hertz Fellowship, стипендиального фонда с самым строгим отбором аспирантов. Питер Истман (Peter Eastman) разрабатывает программное обеспечение для биологов и химиков в отделе биотехнологий Стэнфордского университета. Он является ведущим автором OpenMM, инструментария для высокопроизводительного моделирования молекулярной динамики, и основным разработчиком DeepChem, пакета для глубокого машинного обучения в области химии, биологии и материаловедения. С 2000 года он является профессиональным инженеромпрограммистом, в том числе вице-президентом по разработке программного обеспечения для Silicon Genetics – компании, занимающейся разработкой программного обеспечения для биоинформатики. Сейчас исследовательские интересы Питера сосредоточены на пересечении физики и глубокого обучения. Пэт Уолтерс (Pat Walters) возглавляет группу по вычислительной информатике в Relay Therapeutics в Кембридже, штат Массачусетс. Его группа работает над новыми вычислительными методами, объединяющими компьютерное моделирование и экспериментальные данные в программах по разработке новых лекарственных препаратов. До прихода в Relay Therapeutics он более 20 лет проработал в Vertex Pharmaceuticals, где занимал должность генерального директора по моделированию и информатике. Пэт является членом редакционно-консультативного совета «Журнала медицинской химии» и ранее занимал аналогичные должности в журналах «Молекулярная информатика» и «Бюллетень исследований и разработки лекарственных средств». Он продолжает играть активную роль в научном сообществе. Пэт был председателем конференции Гордона по компьютерной разработке лекарств 2017 го да и сыграл важную роль в ряде профессиональных сообществ, включая базу данных разработчиков лекарственных средств (Drug Design Data Resource, D3R) и Ассоциацию американских химиков-разработчиков (American Chemical Society TDT initiative). Пэт получил докторскую степень по органической химии в университете Аризоны, где изучал применение искусственного интеллекта
Об авторах в анализе молекулярных конформаций. До получения степени доктора он работал в Varian Instruments как химик и разработчик программного обеспечения. Пэт Уолтерс получил степень бакалавра по химии в Калифорнийском университете в Санта-Барбаре. Виджай Панде (Vijay Pande), доктор философии, является генеральным партнером Andreessen Horowitz, где отвечает за инвестиции фирмы в области биологии и информатики, включая применение вычислений, машинного обучения и искусственного интеллекта в биологии и здравоохранении, а также инновационных научных технологий. Он работает адъюнкт-профессором факультета биотехнологий в Стэнфорде, где изучает применение компьютерных методов в медицине и биологии и консультирует студентов и аспирантов, что привело к появлению более двухсот публикаций, двух патентов и двух новых лекарственных препаратов. Будучи предпринимателем, Виджай является основателем Проекта распределенных вычислений Folding@Home по изучению заболеваний, расширяющего границы применения компьютерных технологий, таких как распределенные системы, машинное обучение и экзотические компьютерные архитектуры, в биологии и медицине. Он занимается как фундаментальными исследованиями, так и разработкой новых методов лечения. Виджай также стал соучредителем Globavir Biosciences, где превратил свои научные достижения в Стэнфорде и Folding@Home в успешный стартап, открывая лекарства от лихорадки денге и лихорадки Эбола. В подростковом возрасте он был первым сотрудником стартапа видеоигр Naughty Dog Software, производителя популярной игровой франшизы Crash Bandicoot.
Глава 1 Глубокое обучение и науки о жизни Существует много направлений, где могут проявить себя энтузиасты и эксперты по работе с данными, однако лишь немногие области могут сравниться с биомедицинскими исследованиями по фундаментальным последствиям применения больших данных. Появление современной медицины коренным образом изменило природу человеческого существования. За последние 20 лет мы увидели инновации, которые изменили жизнь множества людей. Впервые обнаруженный в 1981 году, ВИЧ/СПИД был смертельным заболеванием. Появление антиретровирусной терапии значительно увеличило продолжительность жизни больных ВИЧ в развитых странах. Другие болезни, такие как гепатит С, который десять лет назад считался в основном неизлечимым, теперь можно вылечить. Достижения в области генетики позволяют обнаруживать, и, надеемся, в скором времени, лечить, широкий спектр заболеваний. Инновации в диагностике и измерительной аппаратуре позволили врачам целенаправленно выявлять и контролировать заболевания в организме человека. Многие из этих прорывов случились и продолжают развиваться благодаря новым вычислительным методам. почемУ все говорят о глУбоком обУчении? Алгоритмы машинного обучения теперь являются ключевым компонентом всех современных компьютерных технологий, от покупок в интернете до социальных сетей. Команды ученых-компьютерщиков разрабатывают алгоритмы, позволяющие цифровым помощникам, таким как Amazon Echo или Google Home, понимать речь. Достижения в области машинного обучения позволяют на лету выполнять перевод веб-страниц. Помимо влияния на повседневную жизнь, машинное обучение активно воздействует на многие области естественных наук и наук о жизни. Алгоритмы машинного обучения применяются ко всему, начиная с поиска новых галактик и заканчивая классификацией субатомных взаимодействий на Большом адронном коллайдере. Одним из источников этих технологических достижений стало появление класса методов машинного обучения, известных как глубокие нейронные сети. Хотя технологические основы искусственных нейронных сетей были разработаны в 1950-х годах и усовершенствованы в 1980-х годах, истинная мощь этого метода не была полностью реализована до тех пор, пока за последнее десятилетие не
Доступ онлайн
В корзину