Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Алгоритмы биоинформатики

Покупка
Артикул: 817236.01.99
Перед вами одно из самых популярных за рубежом руководств по биоинформатике. Книга обеспечивает уникальный баланс между практическими задачами современной биологии и фундаментальными алгоритмическими идеями. Каждая глава начинается с биологического вопроса, а затем неуклонно развивается алгоритмическая сложность, необходимая для ответа на него. Сотни упражнений включены непосредственно в текст и помогают разобраться в непростом материале. Издание предназначено специалистам в области анализа данных, а также будет полезно ученым, инженерам, студентам и аспирантам, работающим на стыке биологии и информатики.
Компо, Ф. Алгоритмы биоинформатики : практическое руководство / Ф. Компо, П. Певзнер ; пер. с англ. И. Л. Люско. - Москва : ДМК Пресс, 2023. - 682 с. - ISBN 978-5-93700-175-7. - Текст : электронный. - URL: https://znanium.com/catalog/product/2109518 (дата обращения: 27.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Филлип Компо и Павел Певзнер

Алгоритмы биоинформатики
Bioinformatics 
Algorithms

An Active Learning 
Approach

PHILLIP COMPEAU AND PAVEL PEVZNER
Москва, 2023

Алгоритмы  
биоинформатики

ФИЛЛИП КОМПО И ПАВЕЛ ПЕВЗНЕР
УДК 575.112
ББК 28.071.3
К63

Певзнер П., Компо Ф. 
К63 
Алгоритмы биоинформатики / пер. с англ. И. Л. Люско. – М.: ДМК Пресс, 
2023. – 682 с.: ил. 

ISBN 978-5-93700-175-7

Перед вами одно из самых популярных за рубежом руководств по биоинформатике. 
Книга обеспечивает уникальный баланс между практическими задачами современной 
биологии и фундаментальными алгоритмическими идеями. Каждая глава начинается 
с биологического вопроса, а затем неуклонно развивается алгоритмическая сложность, 
необходимая для ответа на него. Сотни упражнений включены непосредственно 
в текст и помогают разобраться в непростом материале. 
Издание предназначено специалистам в области анализа данных, а также будет 
полезно ученым, инженерам, студентам и аспирантам, работающим на стыке биологии 
и информатики.

УДК 575.112
ББК 28.071.3

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой 
бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев 
авторских прав.

 Copyright © 2015 by Phillip Compeau 
and Pavel Pevzner
ISBN 978-5-93700-175-7 (рус.) 
 © Перевод, оформление, издание, 
ДМК Пресс, 2022
Содержание

От издательства ...................................................................................................... 16

Глава 1. В каком месте генома начинается  
репликация ДНК?............................................................................................... 17

Путешествие в тысячу миль… ............................................................................................ 18
Скрытые сообщения в точке начала репликации ............................................................ 20
DnaA-боксы ................................................................................................................... 20
Скрытые сообщения в «Золотом жуке» ....................................................................... 21
Подсчет слов .................................................................................................................. 22
Задача поиска часто встречающихся слов .................................................................. 23
Более быстрый подход к задаче частых слов .............................................................. 24
Часто используемые слова в Vibrio cholerae ............................................................... 26
Некоторые скрытые сообщения более примечательны, чем другие .............................. 27
Взрыв скрытых сообщений ................................................................................................ 31
Поиск скрытых сообщений в нескольких геномах ..................................................... 31
Задача поиска сгустков ................................................................................................. 32
Самое простое объяснение процесса репликации ДНК .................................................. 34
Асимметрия репликации ................................................................................................... 37
Специфическая статистика прямой и обратной полуцепей ........................................... 41
Неизвестный биологический феномен или статистическая случайность? .............. 41
Дезаминирование ......................................................................................................... 43
Диаграмма смещения ................................................................................................... 44
Некоторые скрытые сообщения более неуловимы, чем другие ...................................... 47
Последняя попытка найти DnaA-боксы в E. Coli .............................................................. 51
Эпилог. Осложнения в предсказаниях ori ......................................................................... 53
Открытые проблемы .......................................................................................................... 55
Множественные точки начала репликации в бактериальном геноме ...................... 55
Поиск источников репликации у архей ...................................................................... 57
Поиск точек начала репликации у дрожжей ............................................................... 59
Вычисление вероятностей паттернов в строке .......................................................... 60
Зарядные станции .............................................................................................................. 61
Массив частот ................................................................................................................ 61
Преобразование Patterns в Numbers и наоборот ........................................................ 63
Поиск часто встречающихся слов путем сортировки ................................................. 65
Содержание

Решение задачи поиска сгустков ................................................................................. 66
Решение задачи часто встречающихся слов с несовпадениями ............................... 68
Генерация окрестности строки .................................................................................... 69
Поиск часто встречающихся слов с несовпадениями путем сортировки ................. 71
Сопутствующие материалы ............................................................................................... 72
Оценка «О большого» (Big-O) ....................................................................................... 72
Вероятности паттернов в строке ................................................................................. 73
Самый красивый эксперимент в биологии ................................................................. 78
Направленность цепей ДНК ......................................................................................... 80
Ханойские башни .......................................................................................................... 81
Парадокс перекрывающихся слов ............................................................................... 83
Библиографические примечания ...................................................................................... 85

Глава 2. Какие сегменты ДНК играют роль 
молекулярных часов?  ................................................................................... 87

Есть ли у нас «часовой ген»? .............................................................................................. 88
Найти мотив сложнее, чем вы думаете ............................................................................. 89
Идентификация вечернего элемента .......................................................................... 89
Игра в прятки с мотивами ............................................................................................ 90
Метод грубой силы поиска мотива .............................................................................. 92
Считаем мотивы ................................................................................................................. 93
От мотивов к матрицам профиля и консенсусным строкам ..................................... 93
На пути к более адекватной функции оценки мотивов ............................................. 96
Энтропия и motif logo ................................................................................................... 97
От поиска мотива к поиску медианной строки ................................................................ 98
Задача поиска мотива ................................................................................................... 98
Переформулировка задачи поиска мотива ................................................................. 99
Задача поиска медианной строки...............................................................................101
Почему мы переформулировали задачу поиска мотива? .........................................103
Жадный алгоритм поиска мотива ....................................................................................104
Использование матрицы профиля для бросания костей ..........................................104
Анализ жадного алгоритма поиска мотива ...............................................................106
Поиск мотива и Оливер Кромвель ....................................................................................107
Какова вероятность того, что завтра не взойдет солнце? .........................................107
Правило преемственности Лапласа ............................................................................108
Улучшенный алгоритм жадного поиска мотивов .....................................................109
Рандомизированный поиск мотива .................................................................................112
Игра в кости для поиска мотивов ...............................................................................112
Почему рандомизированный поиск мотивов работает ............................................114
Почему рандомизированный алгоритм работает так хорошо? .....................................116
Сэмплирование по Гиббсу ................................................................................................119
Сэмплирование по Гиббсу в действии .............................................................................121
Эпилог. Как туберкулез впадает в спячку, чтобы спрятаться от антибиотиков? ..........124
Зарядная станция ..............................................................................................................127
Решение задачи медианной строки ...........................................................................127
Сопутствующие материалы ..............................................................................................128
Экспрессия генов .........................................................................................................128
ДНК-чипы .....................................................................................................................128
Игла Бюффона ..............................................................................................................129
Содержание 7

Сложности в поиске мотива ........................................................................................132
Относительная энтропия ............................................................................................132
Библиографические примечания .....................................................................................134

Глава 3. Как мы собираем геномы? .................................................135

Взрывающиеся газеты .......................................................................................................136
Задача реконструкции строки ..........................................................................................139
Сборка генома сложнее, чем вы думаете ...................................................................139
Реконструкция строк из k-меров ................................................................................139
Повторы усложняют сборку генома ............................................................................142
Реконструкция строк как прогулка по графу перекрытий .............................................143
От строки к графу .........................................................................................................143
Геном исчезает .............................................................................................................146
Два способа представления графов ............................................................................147
Гамильтоновы пути и универсальные строки ...........................................................148
Другой граф для реконструкции строк ............................................................................150
Склеивание узлов и графы де Брюйна .......................................................................150
Прогулка по графу де Брюйна ...........................................................................................152
Эйлеровы пути .............................................................................................................152
Другой способ построения графов де Брюйна ...........................................................153
Построение графов де Брюйна из композиции k-меров ..........................................155
Графы де Брюйна в сравнении с графами перекрытия ............................................156
Семь мостов Кенигсберга ..................................................................................................157
Теорема Эйлера ..................................................................................................................160
От теоремы Эйлера к алгоритму нахождения эйлеровых циклов .................................163
Построение эйлеровых циклов ...................................................................................163
От эйлеровых циклов к эйлеровым путям .................................................................164
Создание универсальных строк ..................................................................................165
Сборка геномов из рид-пар ..............................................................................................167
От ридов к рид-парам ..................................................................................................167
Преобразование рид-пар в длинные виртуальные риды .........................................169
От композиции к спаренной композиции .................................................................170
Парные графы графы де Брюйна ................................................................................172
Ловушка парных графов де Брюйна ...........................................................................173
Эпилог. Сборка генома – работа с реальными данными секвенирования ....................176
Разбиваем риды на k-меры .........................................................................................176
Фрагментация генома на контиги ..............................................................................177
Сборка ридов с возможными ошибками ...................................................................179
Определение кратности ребер в графах де Брюйна ..................................................180
Зарядные станции .............................................................................................................181
Влияние склейки на матрицу смежности ..................................................................181
Генерация всех эйлеровых циклов .............................................................................182
Реконструкция строки, записанной как путь в парном графе де Брюйна ...............184
Максимальные неветвящиеся пути в графе ..............................................................186
Сопутствующие материалы ..............................................................................................187
Краткая история технологий секвенирования ДНК ..................................................187
Повторы в геноме человека ........................................................................................189
Графы ............................................................................................................................190
Игра «Икосиан» ............................................................................................................193
Разрешимые и неразрешимые задачи .......................................................................194
Содержание

От Эйлера до Гамильтона и де Брюйна ......................................................................195
Семь мостов Калининграда .........................................................................................196
Подводные камни сборки двухцепочечной ДНК .......................................................197
«ЛУЧШАЯ» теорема ......................................................................................................198
Библиографические примечания .....................................................................................199

Глава 4. Как мы секвенируем антибиотики? ..........................201

Открытие антибиотиков ...................................................................................................202
Как бактерии производят антибиотики? .........................................................................203
Как пептиды кодируются геномом .............................................................................203
Где в геноме Bacillus brevis закодирован тироцидин? ..............................................206
От линейных к циклическим пептидам .....................................................................207
Уклоняясь от центральной догмы молекулярной биологии ..........................................208
Секвенирование антибиотиков путем их дробления на части ......................................209
Введение в масс-спектрометрию ................................................................................209
Задача секвенирования циклопептидов ....................................................................210
Алгоритм грубой силы для секвенирования циклопептидов ........................................212
Алгоритм ветвей и границ для секвенирования циклопептидов ..................................214
Масс-спектрометрия и гольф............................................................................................217
От теоретических к реальным спектрам ....................................................................217
Адаптация секвенирования циклопептидов для спектров с ошибками .................218
От 20 до более чем 100 аминокислот................................................................................222
Спектральная свертка спасает положение ......................................................................223
Эпилог. От смоделированных спектров – к реальным ...................................................227
Зарядные станции .............................................................................................................229
Создание теоретического спектра пептида ...............................................................229
Насколько быстро выполняется алгоритм CyclopeptideSequencing? .......................231
Сокращение списка пептидов Leaderboard ................................................................232
Сопутствующие материалы ..............................................................................................233
Гаузе и лысенковщина .................................................................................................233
Открытие кодонов .......................................................................................................235
Чувство кворума ...........................................................................................................236
Молекулярная масса ....................................................................................................236
Сленоцистеин и пирролизин ......................................................................................237
Псевдополиномиальный алгоритм для Теоремы магистрали .................................237
Расщепленные гены .....................................................................................................238
Библиографические примечания .....................................................................................240

Глава 5. Как мы сравниваем участки ДНК? ..............................241

Взлом нерибосомного кода ...............................................................................................242
Клуб галстуков РНК ......................................................................................................242
От сравнения белков к нерибосомному коду .............................................................242
Что общего между онкогенами и факторами роста? ................................................244
Введение в выравнивание последовательностей ............................................................245
Выравнивание последовательности как игра ............................................................245
Выравнивание последовательностей и самая длинная общая 
подпоследовательность ...............................................................................................247
Туристическая задача Манхэттена ...................................................................................248
Какова наилучшая стратегия осмотра достопримечательностей? ..........................248
Содержание 9

Достопримечательности в произвольном ориентированном графе .......................252
Выравнивание последовательности – это замаскированная туристическая  
задача Манхэттена .......................................................................................................253
Введение в динамическое программирование: задача размена монет ........................257
Жадный обмен денег ...................................................................................................257
Рекурсивный размен денег .........................................................................................258
Размениваем деньги с помощью динамического программирования ...................259
Новый взгляд на туристическую задачу Манхэттена ................................................261
От Манхэттена к произвольному DAG .............................................................................266
Выравнивание последовательности как построение графа в стиле Манхэттена ...266
Динамическое программирование в произвольном графе DAG ..............................267
Топологические порядки .............................................................................................269
Возвращаясь к графу выравнивания ................................................................................274
Считаем выравнивания .....................................................................................................277
Что не так с моделью LCS? ...........................................................................................277
Матрицы счета .............................................................................................................279
От глобального к локальному выравниванию .................................................................280
Глобальное выравнивание ..........................................................................................280
Ограничения глобального выравнивания .................................................................281
Бесплатные поездки на такси в графе выравнивания ..............................................284
Меняющиеся грани выравнивания последовательности ...............................................287
Задача 1. Расстояние редактирования ........................................................................287
Задача 2. Настройка выравнивания ............................................................................288
Задача 3. Выравнивание с перекрытием ....................................................................289
Штрафы за вставки и удаления при выравнивании последовательности ....................290
Штрафы за аффинные пробелы ..................................................................................290
Строительство графа Манхэттена на трех уровнях ...................................................293
Компактное выравнивание последовательности ............................................................296
Вычисление счета выравнивания с использованием линейной памяти .................296
Задача среднего узла ...................................................................................................298
Удивительно быстрый и экономичный алгоритм выравнивания ...........................301
Задача среднего ребра .................................................................................................303
Эпилог. Множественное выравнивание последовательностей ......................................305
Построение трехмерного Манхэттена ........................................................................305
Жадный алгоритм множественного выравнивания .................................................307
Сопутствующие материалы ..............................................................................................310
Светлячки и нерибосомный код .................................................................................310
Поиск LCS без постройки города ................................................................................311
Построение топологической сортировки ...................................................................312
Матрица счета PAM ......................................................................................................313
Алгоритмы «разделяй и властвуй» .............................................................................314
Счет множественных выравниваний .........................................................................316
Библиографические примечания .....................................................................................318

Глава 6. Есть ли в человеческом геноме «хрупкие» 
области? .....................................................................................................................319

О мышах и людях ...............................................................................................................320
Насколько различаются геномы человека и мыши? .................................................321
Синтенные блоки .........................................................................................................321
Содержание

Реверсии .......................................................................................................................322
Точки перестановки .....................................................................................................324
Модель эволюции хромосом со случайными разрывами ...............................................325
Сортировка по реверсиям .................................................................................................328
Жадный алгоритм сортировки по реверсиям .................................................................332
Точки останова ...................................................................................................................334
Что такое точки останова? ...........................................................................................334
Счет точек останова .....................................................................................................335
Сортировка по реверсиям для устранения точек останова ......................................336
Рекомбинации в геномах опухолей..................................................................................338
От монохромосомных к мультихромосомным геномам ................................................339
Транслокации, слияния и расщепления .....................................................................339
От генома к графу ........................................................................................................340
Двойные разрывы ........................................................................................................341
Графы точек останова ........................................................................................................344
Вычисление дистанции двойного разрыва .....................................................................347
Горячие точки рекомбинации в геноме человека ...........................................................350
Модель случайных разрывов соответствует теореме о дистанции двойного  
разрыва .........................................................................................................................350
Модель хрупких разрывов ...........................................................................................351
Эпилог. Конструирование синтенных блоков .................................................................353
Геномные точечные диаграммы и общие k-меры .....................................................353
Поиск общих k-меров ..................................................................................................354
Построение синтенных блоков из общих k-меров ....................................................357
Синтенные блоки как связные компоненты в графах ..............................................359
Зарядные станции .............................................................................................................363
От геномов к графу точек останова ............................................................................363
Решение задачи сортировки по двойным разрывам ................................................366
Сопутствующие материалы ..............................................................................................368
Почему генный состав Х-хромосом так консервативен? ..........................................368
Открытие геномных рекомбинаций ..........................................................................368
Экспоненциальное распределение .............................................................................369
Сортировка блинов Билла Гейтса и Дэвида X. Коэна ................................................370
Сортировка линейных перестановок по реверсиям .................................................371
Библиографические примечания .....................................................................................373

Глава 7. Какое животное заразило нас  
коронавирусом? ..................................................................................................375

Самая быстрая вспышка ...................................................................................................376
Проблемы в отеле «Метрополь» ..................................................................................376
Эволюция SARS ............................................................................................................376
Преобразование матриц расстояний в эволюционные деревья ....................................378
Построение матрицы расстояний из геномов коронавируса ...................................378
Эволюционные деревья в виде графов ......................................................................379
Построение филогении по расстояниям ....................................................................383
На пути к алгоритму построения филогении по расстоянию ........................................386
В поисках соседних листьев ........................................................................................386
Вычисление длины ветвей ..........................................................................................388
Аддитивная филогения .....................................................................................................391
Содержание 11

Обрезка дерева .............................................................................................................391
Прикрепление ветви ....................................................................................................392
Алгоритм реконструкции филогении по расстоянию ...............................................393
Построение эволюционного дерева коронавирусов .................................................394
Использование метода наименьших квадратов для построения приблизительных 
филогений ..........................................................................................................................395
Ультраметрические эволюционные деревья ...................................................................397
Алгоритм объединения соседей .......................................................................................402
Преобразование матрицы расстояний в матрицу объединения соседей ................402
Анализ коронавирусов с помощью алгоритма объединения соседей .....................406
Ограничения методов реконструкции эволюционного дерева по расстояниям ....408
Реконструкция эволюционного дерева по признакам ...................................................408
Таблицы признаков .....................................................................................................408
От анатомических к генетическим признакам .........................................................409
Сколько раз эволюция изобретала крылья для насекомых? .....................................410
Задача минимального показателя экономии ..................................................................411
Задача максимальной экономии ......................................................................................418
Эпилог. Эволюционные деревья в борьбе с преступностью ...........................................425
Сопутствующие материалы ..............................................................................................426
Когда HIV перешел от приматов к человеку? .............................................................426
Поиск дерева с помощью настройки матрицы расстояний ......................................427
Условие четырех точек .................................................................................................429
Заразили ли нас атипичной пневмонией летучие мыши? .......................................430
Почему алгоритм объединения соседей работает? ...................................................432
Вычисление длин ветвей в алгоритме объединения соседей ...................................436
Большая панда: медведь или енот? ............................................................................437
Откуда пришли люди? .................................................................................................439
Библиографические примечания .....................................................................................441

Глава 8. Как дрожжи научились делать вино? .......................443

Эволюционная история виноделия ..................................................................................444
Как давно мы зависим от алкоголя? ...........................................................................444
Диауксический сдвиг ...................................................................................................445
Идентификация генов, ответственных за диауксический сдвиг ...................................445
Две эволюционные гипотезы с разными судьбами ..................................................445
Какие гены дрожжей вызывают диауксический сдвиг ..............................................446
Введение в кластеризацию ...............................................................................................447
Анализ экспрессии генов ............................................................................................447
Кластеризация генов дрожжей ...................................................................................451
Принцип правильной кластеризации ..............................................................................452
Кластеризация как задача оптимизации .........................................................................454
Самый дальний первый обход ..........................................................................................456
Самый дальний первый обход ....................................................................................456
Кластеризация k-средних .................................................................................................458
Искажение квадрата ошибки ......................................................................................458
Кластеризация k-средних и центр тяжести ...............................................................460
Алгоритм Ллойда ...............................................................................................................462
От центров к кластерам и обратно .............................................................................462
Инициализация алгоритма Ллойда ............................................................................465
Содержание

Инициализатор k-means++ ..........................................................................................466
Кластеризация генов, вовлеченных в диауксический сдвиг ..........................................466
Ограничения кластеризации k-средних ..........................................................................468
Ограничения кластеризации k-средних ....................................................................468
От подбрасывания монеты к кластеризации k-средних ................................................470
Подбрасывание монет с неизвестной симметрией ...................................................470
В чем же состоит вычислительная задача? ................................................................473
От подбрасывания монеты к алгоритму Ллойда .......................................................474
Вернемся к кластеризации ..........................................................................................476
Принятие мягких решений при подбрасывании монет .................................................477
Максимизация ожиданий: Е-шаг ................................................................................477
Максимизация ожиданий: М-шаг ...............................................................................478
Алгоритм максимизации ожидания ...........................................................................480
Мягкая кластеризация k-средних .....................................................................................480
Применение алгоритма максимизации ожидания к кластеризации ......................480
От центров к мягким кластерам .................................................................................480
От мягких кластеров к центрам ..................................................................................483
Иерархическая кластеризация .........................................................................................484
Введение в кластеризацию по расстояниям ..............................................................484
Определение кластеров по структуре дерева ............................................................487
Анализ диауксического сдвига с иерархической кластеризацией ...........................490
Эпилог. Кластеризация образцов опухоли ......................................................................493
Сопутствующие материалы ..............................................................................................494
Полногеномная дупликация или серия дупликаций? ...............................................494
Измерение экспрессии генов ......................................................................................495
ДНК-микрочипы ..........................................................................................................496
Доказательство теоремы о центре тяжести ...............................................................496
Матрица экспрессии генов и матрица расстояний/сходств .....................................498
Кластеризация и испорченные клики ........................................................................499
Библиографические примечания .....................................................................................501

Глава 9. Как мы обнаруживаем локацию 
болезнетворных мутаций? ......................................................................503

Что вызывает синдром Одо? .............................................................................................504
Введение во множественное выравнивание последовательностей ..............................505
Объединение Patterns в префиксное дерево ...................................................................506
Построение префиксного дерева Trie .........................................................................506
Применение префиксного дерева к множественному выравниванию ...................508
Предварительная обработка генома как альтернатива ..................................................511
Суффиксные попытки (suffix tries)  ............................................................................511
Использование суффиксных попыток для сопоставления последовательностей .....512
Суффиксные деревья (suffix trees) ....................................................................................514
Суффиксные массивы ........................................................................................................518
Выравнивание паттерна с суффиксным массивом ...................................................519
Преобразование Барроуза–Уилера ...................................................................................521
Сжатие генома ..............................................................................................................521
Построение преобразования Барроуза–Уилера.........................................................521
От повторов к сериям ..................................................................................................523
Первая попытка инвертирования преобразования Барроуза–Уилера ..........................524
Содержание 13

Свойство «первый–последний» и инвертирование преобразования  
Барроуза–Уилера ...............................................................................................................527
Свойство «первый–последний» ..................................................................................527
Использование свойства «первый–последний» для инвертирования 
преобразования Барроуза–Уилера .............................................................................530
Сопоставление последовательностей с помощью преобразования  
Барроуза–Уилера ...............................................................................................................534
Первая попытка сопоставления паттернов Барроуза–Уилера .................................534
Перемещение по последовательности назад .............................................................535
Маппинг «последний–первый» ..................................................................................537
Делаем сопоставление паттернов по Барроузу–Уилеру быстрее ...................................539
Замена маппинга «последний–первый» оценочными массивами ..........................539
Удаление первого столбца матрицы Барроуза–Уилера ............................................542
Где находятся совпадающие паттерны? ..........................................................................543
Барроуз и Уиллер устанавливают контрольные точки ...................................................545
Эпилог. Устойчивое к несовпадениям картирование рида ............................................547
Сведение приблизительного сопоставления с паттерном к точному......................547
BLAST: Сравнение последовательности с базой данных ..........................................549
Приблизительное сопоставление последовательностей с помощью  
преобразования Барроуза–Уилера .............................................................................550
Сопутствующие материалы ..............................................................................................552
Построение суффиксного дерева ................................................................................552
Решение задачи самой длинной общей подстроки ...................................................555
Построение частичного суффиксного массива ..........................................................557
Эталонный геном человека .........................................................................................558
Рекомбинации, вставки и делеции в геномах человека............................................558
Алгоритм Ахо–Корасик ...............................................................................................559
Суффиксные массивы и суффиксные деревья ...........................................................560
Бинарный поиск ...........................................................................................................565
Библиографические примечания .....................................................................................566

Глава 10. Почему биологи до сих пор не разработали 
вакцину от ВИЧ? ................................................................................................567

Классификация фенотипа ВИЧ .........................................................................................568
Каким образом ВИЧ ускользает от иммунной системы человека? ..........................568
Ограничения метода выравнивания последовательностей .....................................570
Азартные игры с якудза ....................................................................................................572
Две монеты в рукаве у дилера ..........................................................................................573
Поиск CG-островов ............................................................................................................575
Скрытые марковские модели ...........................................................................................576
От подбрасывания монеты к скрытой марковской модели .....................................576
Диаграмма НММ ..........................................................................................................577
Переформулировка задачи казино .............................................................................578
Задача декодирования ......................................................................................................581
Граф Витерби ................................................................................................................581
Алгоритм Витерби .......................................................................................................583
Насколько быстр алгоритм Витерби? .........................................................................584
Поиск наиболее вероятного результата HMM .................................................................586
Профильные HMM для выравнивания последовательностей ........................................588
Содержание

Как НММ связаны с выравниванием последовательностей? ...................................588
Создание профильной НММ .......................................................................................591
Вероятности перехода и эмиссии профильной HMM ...............................................594
Классификация белков с помощью профильных HMM ..................................................597
Выравнивание белков по профильной HMM .............................................................597
Возвращение псевдосчетов .........................................................................................598
Проблема с молчащими состояниями ........................................................................601
Действительно ли профильные HMM так полезны? .......................................................606
Обучение параметров HMM ..............................................................................................608
Определение параметров HMM, когда скрытый путь известен ...............................608
Обучение Витерби........................................................................................................609
Мягкие решения для определения параметров ..............................................................611
Задача мягкого декодирования ..................................................................................611
Алгоритм «вперед–назад» ...........................................................................................612
Обучение Баума–Уэлча .....................................................................................................615
Многоликость HMM ...........................................................................................................617
Эпилог. Природа – мастер, а не изобретатель  ................................................................618
Сопутствующие материалы ..............................................................................................619
Эффект Красной Королевы ..........................................................................................619
Гликозилирование .......................................................................................................620
Метилирование ДНК ....................................................................................................621
Условная вероятность ..................................................................................................621
Библиографические примечания .....................................................................................622

Глава 11. Является ли T. rex всего лишь гигантской 
курицей? ....................................................................................................................623

Палеонтология встречается с информатикой .................................................................624
Какие белки присутствуют в этом образце? ....................................................................625
Расшифровка идеального спектра ...................................................................................626
От идеального спектра к реальному ................................................................................629
Секвенирование пептидов ................................................................................................632
Определение пептидов по спектрам ..........................................................................632
Где находятся суффиксные пептиды? ........................................................................634
Алгоритм секвенирования пептидов .........................................................................637
Идентификация пептидов ................................................................................................639
Задача идентификации пептидов ..............................................................................639
Идентификация пептидов в неизвестном протеоме T. rex ......................................640
Поиск совпадений пептидов со спектром .................................................................640
Идентификация пептидов и теорема о бесконечных обезьянах ...................................642
Частота ложных открытий...........................................................................................642
Статистическая значимость пептид-спектр-совпадений ........................................645
Спектральные словари ......................................................................................................647
Пептиды T. rex: постороннее загрязнение или древнее сокровище? ............................651
Загадка гемоглобина ....................................................................................................651
Споры о ДНК динозавров ............................................................................................653
Эпилог. От немодифицированных к модифицированным пептидам. (Часть 1) ..........654
Посттрансляционные модификации ..........................................................................654
Поиск модификаций как задача выравнивания ........................................................655
Построение сетки Манхэттена для спектрального выравнивания ..........................657
Эпилог. От немодифицированных к модифицированным пептидам (Часть 2) ...........660
Содержание 15

Алгоритм спектрального выравнивания ...................................................................660
Сопутствующие материалы ..............................................................................................663
Предсказание генов .....................................................................................................663
Поиск всех путей в графе.............................................................................................664
Задача антисимметричного пути ...............................................................................665
Преобразование спектров в спектральные векторы .................................................666
Теорема о бесконечных обезьянах .............................................................................670
Вероятностное пространство пептидов в словаре ....................................................671
Действительно ли динозавры являются предками птиц? ........................................672
Библиографические примечания .....................................................................................673

Предметный указатель ....................................................................................674
От издательства

Отзывы и пожелания

Мы всегда рады отзывам наших читателей. Расскажите нам, что вы ду маете 
об этой книге, – что понравилось или, может быть, не понравилось. Отзывы 
важны для нас, чтобы выпускать книги, которые будут для вас максимально 
полезны.
Вы можете написать отзыв на нашем сайте www.dmkpress.com, зайдя  на 
страницу книги и оставив комментарий в разделе «Отзывы и рецензии». Также 
можно послать письмо главному редактору по адресу dmkpress@gmail.
com; при этом укажите название книги в теме письма. 
Если вы являетесь экспертом в какой-либо области и заинтересованы в написании 
новой книги, заполните форму на нашем сайте по адресу http://dmk-
press.com/authors/publish_book/ или напишите в издательство по адресу dmk-
press@gmail.com.

Список опечаток

Хотя мы приняли все возможные меры для того, чтобы обеспечить высокое 
качество наших текстов, ошибки все равно случаются. Если вы найдете ошибку 
в одной из наших книг, мы будем очень благодарны, если вы сообщите о ней 
главному редактору по адресу dmkpress@gmail.com. Сделав это, вы избавите 
других читателей от недопонимания и поможете нам улучшить последующие 
издания этой книги. 

Нарушение авторских прав

Пиратство в интернете по-прежнему остается насущной проблемой. Издательства «
ДМК Пресс» и Manning Publications очень серьезно относятся к вопросам 
защиты авторских прав и лицензирования. Если вы столкнетесь в интернете 
с незаконной публикацией какой-либо из наших книг, пожалуйста, пришлите 
нам ссылку на интернет-ресурс, чтобы мы могли применить санкции.
Ссылку на подозрительные материалы можно прислать по адресу электронной 
почты dmkpress@gmail.com.
Мы высоко ценим любую помощь по защите наших авторов, благодаря которой 
мы можем предоставлять вам качественные материалы.
В какоМ МеСте геноМа начинаетСя репликация днк? 17
Глава 1
Глава 1
В каком месте генома 
В каком месте генома 
начинается репликация ДНК?
начинается репликация ДНК?

Алгоритмическая разминка
Алгоритмическая разминка
глаВа 1

Путешествие в тысячу миль…

Репликация генома – одна из важнейших задач, выполняемых в клетке. Прежде 
чем клетка сможет делиться, она должна сначала реплицировать свой геном, 
чтобы каждая из двух дочерних клеток наследовала свою собственную 
копию генома. В 1953 году Джеймс Уотсон и Фрэнсис Крик завершили свою 
знаменательную статью о двойной спирали ДНК ставшей теперь популярной 
фразой:

От нашего внимания не ускользнуло, что специфическое выстраивание 
пар азотистых оснований, которое мы постулировали, сразу предполагает 
возможный механизм копирования генетического материала.

Они предположили, что две цепи родительской молекулы ДНК раскручиваются 
во время репликации, и затем каждая родительская цепь действует как 
матрица для синтеза новой молекулярной цепи. В результате процесс репликации 
начинается с пары комплементарных цепей ДНК и заканчивается двумя 
парами комплементарных цепей, как показано на рис. 1.1.

Рис. 1.1 наивный взгляд на репликацию днк. нуклеотиды аденин (а) 
и тимин (т) комплементарны друг другу, как и цитозин (С) с гуанином (G). 
комплементарные нуклеотиды связываются друг с другом в днк

Хотя на рис. 1.1 репликация ДНК представлена на простом уровне, детали 
репликации оказались гораздо более сложными, чем предполагали Уотсон 
и Крик; как мы увидим далее, для обеспечения репликации ДНК требуется поразительный 
механизм молекулярной логистики. 
На первый взгляд, ученый-компьютерщик может и не подумать, что эти 
детали имеют какое-либо значение для вычислений. Чтобы алгоритмически 
имитировать процесс, показанный на рис. 1.1, нам нужно всего лишь взять 
строку, представляющую геном, и выдать ее копию! И все же, если мы найдем 
время для обзора лежащего в основе этого биологического процесса, мы будем 
вознаграждены новыми алгоритмическими идеями, полученными в анализе 
процесса репликации.
В какоМ МеСте геноМа начинаетСя репликация днк? 19

Репликация начинается в области генома, называемой точкой начала репликации (
обозначается ori), и выполняется молекулярными копировальными 
машинами, называемыми ДНК-полимеразами. Обнаружение ori представляет 
собой важную задачу не только для понимания того, как клетки реплицируются, 
но и для решения различных биомедицинских задач. Например, в некоторых 
методах генной терапии используются генетически сконструированные 
мини-геномы, которые называются вирусными векторами, потому что они 
способны проникать через клеточные стенки (прямо как настоящие вирусы). 
Вирусные векторы, несущие искусственные гены, использовались в сельском 
хозяйстве для создания морозоустойчивых томатов и кукурузы, устойчивой 
к пестицидам. В 1990 году генная терапия была впервые успешно проведена на 
людях, когда она спасла жизнь четырехлетней девочке, страдающей тяжелым 
комбинированным иммунодефицитом; девочка была настолько уязвима для 
инфекций, что была вынуждена жить в стерильной среде.
Идея генной терапии состоит в том, чтобы намеренно заразить пациента, 
у которого отсутствует важный для жизнедеятельности ген, вирусным вектором, 
содержащим искусственный ген, кодирующий так называемый терапевтический 
белок. Оказавшись внутри клетки, вектор реплицируется и в конечном 
итоге производит множество копий терапевтического белка, который, 
в свою очередь, лечит болезнь пациента. Чтобы гарантировать, что вектор 
действительно реплицируется внутри клетки, биологи должны знать, где находится 
точка начала репликации, ori, в геноме вектора, и убедиться, что выполняемые 
ими генетические манипуляции не влияют на него.
В следующей задаче мы предполагаем, что геном имеет одно начало репликации 
и представлен в виде цепи ДНК или цепи нуклеотидов из четырехбук-
венного алфавита {A, C, G, T}.

Задача поиска точки начала репликации: найти ori в геноме

 
Input: ДНК-цепь Genome. 
 
Output: локация ori в Genome.

ОСТАНОВИТЕСЬ и задумайтесь. Является ли эта биологическая 
задача четко сформулированной вычислительной задачей?


Хотя задача поиска точки начала репликации ставит законный биологический 
вопрос, она не представляет собой четко сформулированную вычислительную 
задачу. Действительно, биологи могут немедленно запланировать 
эксперимент по обнаружению ori: например, они могут удалять различные 
короткие сегменты генома, пытаясь найти сегмент, удаление которого останавливает 
репликацию. Но специалисты по информатике, с другой стороны, 
глаВа 1

покачали бы головами и потребовали бы больше информации, прежде чем они 
смогли бы даже начать думать о задаче.
Почему биологов должно волновать, что думают ученые-компьютерщики? 
Вычислительные методы в настоящее время являются единственным реальным 
способом ответить на многие вопросы современной биологии. Во-первых, 
эти методы намного быстрее, чем экспериментальные методы; во-вторых, результаты 
многих экспериментов не могут быть интерпретированы без вычислительного 
анализа. В частности, существующие экспериментальные методы 
определения локации ori требуют много времени. В результате ori был экспериментально 
обнаружен только у нескольких видов. Таким образом, мы хотели 
бы разработать вычислительный метод поиска ori, чтобы биологи могли тратить 
свое время и деньги на другие задачи.

Скрытые сообщения  
в точке начала репликации

DnaA-боксы

В оставшейся части этой главы мы сосредоточимся на относительно простом 
случае обнаружения ori в бактериальных геномах, большинство из которых 
состоит из одной кольцевой хромосомы. Исследования показали, что область 
бактериального генома, кодирующая ori, обычно имеет длину в несколько сотен 
нуклеотидов. Наш план состоит в том, чтобы начать с бактерии, у которой 
известны ее ori, а затем определить, что делает этот участок генома особенным, 
чтобы разработать вычислительный метод для нахождения ori у других 
бактерий. Наш пример – Vibrio cholerae, бактерия, вызывающая холеру; вот последовательность 
нуклеотидов, расположенная в ее ori:

Atcaatgatcaacgtaagcttctaagcatgatcaaggtgctcacacagtttat
ccacaacctgagtggatgacatcaagataggtcgttgtatctccttcctctcg
tactctcatgaccacggaaagatgatcaagagaggatgatttcttggccatat
cgcaatgaatacttgtgacttgtgcttccaattgacatcttcagcgccatatt
gcgctggccaaggtgacggagcgggattacgaaagcatgatcatggctgttgt
tctgtttatcttgttttgactgagacttgttaggatagacggtttttcatcac
tgactagccaaagccttactctgcctgacatcgaccgtaaattgataatgaat
ttacatgcttccgcgacgatttacctcttgatcatcgatccgattgaagatct
tcaattgttaattctcttgcctcgactcatagccatgatgagctcttgatcat
gtttccttaaccctctattttttacggaagaatgatcaagctgctgctcttga
tcatcgtttc

 Загрузить данные 1.1

Откуда бактериальная клетка знает, что нужно начинать репликацию именно 
в этом коротком участке гораздо более длинной хромосомы Vibrio cholerae, 
В какоМ МеСте геноМа начинаетСя репликация днк? 21

состоящей из 1 108 250 нуклеотидов? Должно быть какое-то скрытое сообщение 
в этой области, приказывающее клетке начать репликацию именно здесь. 
Действительно, мы знаем, что инициация репликации опосредована DnaA, 
белком, который связывается с коротким сегментом внутри ori, известным как 
DnaA-бокс. Вы можете думать о DnaA-боксе как о сообщении в цепи ДНК, сообщающем 
DnaA белку: «Присоединяйся сюда!» Вопрос в том, как найти это 
скрытое сообщение, не зная заранее, как оно выглядит, – сможете ли вы его 
найти? Другими словами, можете ли вы найти что-то, чем выделяется ori? Это 
рассуждение ставит следующую задачу.

Задача поиска скрытого сообщения: найти скрытое сообщение 
в точке начала репликации.

 
Input: строка Text (представляющая начало репликации генома). 
 
Output: скрытое сообщение в Text.

ОСТАНОВИТЕСЬ и задумайтесь. Представляет ли эта задача 
четко сформулированную вычислительную задачу?

Скрытые сообщения в «Золотом жуке»

Хотя задача скрытого сообщения ставит законный интуитивный вопрос, она 
все еще не имеет абсолютно никакого смысла для ученого-компьютерщика, 
поскольку понятие скрытого сообщения точно не определено. Область ori холерного 
вибриона в настоящее время так же загадочна, как пергамент, обнаруженный 
Уильямом Леграном в рассказе Эдгара Аллана По «Золотой жук». На 
пергаменте было написано следующее:

53++!305))6*;4826)4+.)4+);806*;48!8’60))85;1+(;:+*8!83(88)5*!;46(;88*96*?;
8)*+(;485);5*!2:*+(;4956*2(5*4)8’8*;4069285);)6!8)4++;1(+9;48081;8:8+1;48!
85:4)485!528806*81(+9;48;(88;4(+?34;48)4+;161;:188;+?;

Увидев пергамент, рассказчик замечает: «Если бы все драгоценности Гол-
конды ждали меня после решения этой загадки, я совершенно уверен, что не 
смог бы их заработать». Легран возражает: «Вполне можно сомневаться, способна 
ли человеческая изобретательность построить такого рода загадку, которую 
человеческая находчивость при правильном применении не могла бы 
разрешить». Он обращает внимание, что три последовательных символа «;48» 
появляются на пергаменте с удивительной частотой:

53++!305))6;4826)4+.)4+);806*;48!8’60))85;1+(;:+*8!83(88)5*!;46(;88*96*?;8
)*+(;485);5*!2:*+(;4956*2(5*4)8’8*;4069285);)6!8)4++;1(+9;48081;8:8+1;48!8
5;4)485!528806*81(+9 ;48;(88;4(+?34;48)4+;161;:188;+?;