Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Компьютерное представление химической информации

Покупка
Артикул: 800223.01.99
Доступ онлайн
450 ₽
В корзину
В учебном пособии рассмотрены основные типы представления органических молекул в компьютерном виде: линейные нотации WLN, ROSDAL, SMILES, SLN, InChI и табличные представления — Z-матрицы, MOL-, SDF- и RDF-форматы. Системное изложение материала позволит студентам самостоятельно подготовиться к занятиям и сдаче зачетов и экзаменов. Для студентов бакалавриата, осваивающих дисциплины «Основы квантовой химии и хемоинформатики», «Компьютерные информационные системы в биотехнологии» и «Компьютерное моделирование состава продуктов питания», а также для студентов магистратуры, аспирантов и научных работников.
Нейн, Ю. И. Компьютерное представление химической информации : учебное пособие / Ю. И. Нейн, М. Н. Иванцова ; под общ. ред. М. Ф. Костериной ; Министерство науки и высшего образования Российской Федерации, Уральский федеральный университет. - Екатеринбург : Изд-во Уральского ун-та, 2020. - 142 с. - ISBN 978-5-7996-3018-8. - Текст : электронный. - URL: https://znanium.com/catalog/product/1953596 (дата обращения: 09.05.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Екатеринбург
Издательство Уральского университета
2020

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

УРАЛЬСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ 
ИМЕНИ ПЕРВОГО ПРЕЗИДЕНТА РОССИИ Б. Н. ЕЛЬЦИНА

Ю. И. Нейн, М. Н. Иванцова

КОМПЬЮТЕРНОЕ ПРЕДСТАВЛЕНИЕ 
ХИМИЧЕСКОЙ ИНФОРМАЦИИ

Учебное пособие

Рекомендовано методическим советом 
Уральского федерального университета в качестве учебного пособия 
для студентов вуза, обучающихся по направлениям подготовки
18.03.01 «Химическая технология»,
19.03.01 «Биотехнология»

© Уральский федеральный университет, 2020

Под общей редакцией  М. Ф. Костериной

Р е ц е н з е н т ы:
кафедра химии и процессов горения
Уральского института Государственной противопожарной службы
МЧС России
(и. о. начальника кафедры кандидат химических наук
капитан внутренней службы А. В. Кокшаров);
Е. В. Щегольков, кандидат химических наук, 
старший научный сотрудник 
лаборатории фторорганических соединений
Института органического синтеза УрО РАН

УДК 54:004(075.8)
ББК 4+30.2-5-05я73
 
Н46

Нейн, Ю. И.
Компьютерное представление химической информации : учеб-
ное пособие / Ю. И. Нейн, М. Н. Иванцова ; под общ. ред. М. Ф. Ко-
стериной ; Министерство науки и высшего образования Российской 
Федерации, Уральский федеральный университет. — Екатеринбург : 
Изд-во Урал. ун-та, 2020. — 142 с. : ил. — Библиогр.: с. 141. — 
30 экз. — ISBN 978-5-7996-3018-8. — Текст : непосредственный.

ISBN 978-5-7996-3018-8

В учебном пособии рассмотрены основные типы представления 
органических молекул в компьютерном виде: линейные нотации WLN, 
ROSDAL, SMILES, SLN, InChI и табличные представления — Z-матрицы, 
MOL-, SDF- и RDF-форматы. Системное изложение материала позволит 
студентам самостоятельно подготовиться к занятиям и сдаче зачетов и эк-
заменов.
Для студентов бакалавриата, осваивающих дисциплины «Основы 
квантовой химии и хемоинформатики», «Компьютерные информацион-
ные системы в биотехнологии» и «Компьютерное моделирование состава 
продуктов питания», а также для студентов магистратуры, аспирантов 
и научных работников.

Н46

УДК 54:004(075.8)
ББК 4+30.2-5-05я73

ISBN 978-5-7996-3018-8

ÎÃËÀÂËÅÍÈÅ

Предисловие ..........................................................................................................5

Введение ......................................................................................................... 6

1. ПРЕДСТАВЛЕНИЕ ИНФОРМАЦИИ В КОМПЬЮТЕРНОМ ВИДЕ ............. 9
 
1.1. Единицы измерения информации ..................................................... 9
 
1.2. Информационно-поисковые языки ................................................. 13
 
1.3. Представление органических молекул в компьютерном виде ..... 18

2. ЛИНЕЙНЫЕ НОТАЦИИ ............................................................................. 19
 
2.1. Линейная нотация Висвессера (WLN)............................................ 19
 
2.2. Представление органических структур в формате ROSDAL ....... 30
 
2.3. Cпецификация упрощенного представления молекул 
 
в строке ввода (SMILES) ......................................................................... 31
 
2.4. Линейная нотация сибил (SLN) ...................................................... 43

3. ТАБЛИЧНЫЕ ПРЕДСТАВЛЕНИЯ .............................................................. 45
 
3.1. Представление 3D-структур ............................................................ 45
 
3.2. Продолжающиеся таблицы (таблицы соединений) ...................... 48
 
3.3. Мол-файл (Mol-fi le) .......................................................................... 54
 
3.4. Pdb-файлы (база данных по белкам) ............................................... 58
 
3.5. Z-матрица .......................................................................................... 60
 
3.6. Теория графов (диаграммы графов) ............................................... 66
 
 3.6.1. Матрица смежности ................................................................... 68
 
 3.6.2. Матрица расстояний ................................................................... 70
 
 3.6.3. Матрица понижения ................................................................... 71
 
 3.6.4. Матрица связей ........................................................................... 72
 
 3.6.5. Матрица «связь — электрон» (BE-матрица) ............................ 75
 
3.7. Представление матрицы химических реакций .............................. 77
 
 3.7.1. SD-файлы .................................................................................... 77
 
 3.7.2. RXN-файлы (реакционные файлы) ........................................... 77
 
 3.7.3. RD-файлы (файлы «реакция — данные») ................................ 80
 
 3.7.4. CML (химический язык разметки) ............................................ 81

4. НУМЕРАЦИЯ АТОМОВ ............................................................................. 83
 
4.1. Алгоритм Моргана ........................................................................... 83

 
4.2. CANGEN-алгоритм .......................................................................... 86

5. МЕЖДУНАРОДНЫЙ ХИМИЧЕСКИЙ ИДЕНТИФИКАТОР (InChI) .......... 90
 
5.1. Правила InChI ................................................................................... 93
 
 5.1.1. Нумерация атомов (Color List) .................................................. 94
 
 5.1.2. Записи основных слоев .............................................................. 98
 
5.2. Inchikey — ключ для поиска структуры ....................................... 104

ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ ........................................... 108

БИБЛИОГРАФИЧЕСКИЙ СПИСОК ............................................................. 141

Возникновение и развитие информационных справочных изданий 
по химическим структурам резко увеличило поток новой 
информации, поиск, просмотр и анализ которой в настоящее время 
немыслим без применения автоматизированных информационно-
поисковых технологий. В вопросах разработки таких технологий 
одной из важнейших задач является составление алгоритма ввода 
структурных формул органических соединений, позволяющих однозначно 
представлять двухмерную структурную формулу соединения 
набором строк символов, удобных для ввода в память ЭВМ.
Предлагаемая книга не претендует на исчерпывающую полноту 
описания всех возможных вариантов представлений молекул 
в компьютерном виде. Цель пособия — познакомить студентов 
с основными наиболее распространенными кодировками и научить 
самостоятельно кодировать и расшифровывать структуры химических 
соединений.
В учебном пособии рассмотрены основные типы представления 
органических молекул в компьютерном виде: линейные нотации 
WLN, ROSDAL, SMILES, SLN, InChI и табличные представле-
ния — Z-матрицы, MOL-, SDF- и RDF-форматы. Книга содержит 
теоретический и практический материал. В заключительном разделе 
пособия приводятся варианты контрольных заданий, которые могут 
быть использованы преподавателем для проведения как текущей, 
так и итоговой аттестации студентов. Дается список литературы 
для более углубленного изучения линейных и табличных нотаций.
Данное учебное пособие представляет собой коллективный 
труд преподавателей кафедры технологии органического синтеза 
химико-технологического института Уральского федерального 
университета. Авторы выражают глубокую признательность 
Ю. Ю. Моржерину за ряд ценных советов, данных им при подготовке 
пособия.

ÏÐÅÄÈÑËÎÂÈÅ

Хемоинформатика — это научная дисциплина, возникшая 
в последние 50 лет в пограничной области между химией и вычислительной 
математикой. Во второй половине XX в. стало ясно, 
что во многих областях химии огромный объем информации, накопленный 
в ходе химических исследований, может быть обработан 
и проанализирован только с помощью компьютеров. Более того, 
многие из проблем в химии настолько сложны, что для их решения 
требуются новые подходы, основанные на применении методов 
информатики. Исходя из этого были разработаны методы для по-
строения баз данных по химическим соединениям и реакциям для 
прогнозирования физических, химических и биологических свойств 
соединений и материалов, для поиска новых лекарственных препа-
ратов, анализа спектральной информации, для предсказания хода 
химических реакций и планирования органического синтеза.
Современное понятие «химическая структура» весьма разно-
плановое и многоаспектное, однако графические плоские изобра-
жения молекул — их структурные формулы до сих пор остаются 
основным способом выражения информации о строении химиче-
ских соединений. Именно эти «картинки» являются естественным 
языком химиков, именно с них начинается обсуждение тех или иных 
свойств конкретного вещества. По образному выражению академика 
Н. С. Зефирова, «структурная формула — это геном свойств хими-
ческого соединения». Фактически это означает, что, имея в своем 
распоряжении адекватные способы параметризации двухмерной 
структурной формулы и методы извлечения содержащейся в ней 
информации, исследователь может получить до 90 % сведений 
о свойствах изучаемого вещества из структурной формулы.
Традиционно используемая и по сей день классическая фраг-
ментация структурных формул соединений по функциональным 
группам, кратным связям, циклам, ароматическим или конденси-
рованным системам лежала в основе большинства ранних работ 

ÂÂÅÄÅÍÈÅ

по исследованию соотношений «структура — биологическая ак-
тивность». Она позволяет выявлять умозрительные эмпирические 
закономерности, например, такого типа: соединения, содержащие 
короткие ненасыщенные цепи, более активны, чем подобные им на-
сыщенные соединения; введение алкильных радикалов в положения 
1 или 3 уменьшает длительность действия соединений и наделяет их 
возбуждающим действием. Формирование во второй половине XX в. 
научного направления QSAR как самостоятельного раздела науки 
потребовало разработки унифицированных способов кодирования 
структурных формул соединений совокупностью подструктурных 
фрагментов, удобных для использования в задачах вычислительного 
прогноза биологических и небиологических свойств веществ.
В хемоинформатике для внутреннего представления структур хи-
мических соединений обычно используются молекулярные графы, 
которые могут быть при необходимости дополнены информацией 
о трехмерных координатах атомов, а также о динамике их изменения 
во времени. Долговременное хранение химической информации 
и обмен ею между приложениями осуществляется при помощи 
файлов, организованных в соответствии с типами внешнего пред-
ставления химической информации.
Простейшим типом внешнего представления структур хими-
ческих соединений являются линейные нотации в виде строки 
символов. Исторически первым видом линейных нотаций явилась 
линейная нотация Висвессера (WLN). В настоящее время наибо-
лее распространенным видом линейных нотаций являются строки 
SMILES. Кроме того, применяются линейные нотации SLN (Sybyl 
Line Notation, Tripos, Inc.; содержит также возможность специфи-
кации структур Маркуша), SMARTS (расширение SMILES для 
поисковых запросов к химическим базам данных), ROSDAL. Для 
унификации кодировки химических структур в 2005 г. ИЮПАК 
(Международный союз теоретической и прикладной химии, IUPAC) 
принял универсальную линейную нотацию InChI и InChIKey.
Второй тип внешнего представления структур химических со-
единений и реакций между ними основан на непосредственном 
кодировании матрицы смежности молекулярного графа. Такие рас-
пространенные форматы, как MOL, SDF и RDF, которые в настоящее 

время являются общепринятыми стандартными для обмена химиче-
ской информацией, можно считать способами представления в виде 
текстового файла матрицы смежности молекулярного графа. Этой 
же цели служат и специфические форматы MOL2, HIN, PCM и др., 
предназначенные для работы с распространенными программами 
по молекулярному моделированию.
Наконец, третий тип внешнего представления структур хи-
мических соединений основан на технологии XML. Наиболее 
распространенным языком описания химической информации, 
опирающимся на эти принципы, является CML.

1.1. ЕДИНИЦЫ ИЗМЕРЕНИЯ ИНФОРМАЦИИ

Обычно информация представляет собой последовательность 
символов. Каждый символ имеет каноническое изображение, ко-
торое позволяет однозначно идентифицировать данный символ. 
Варианты начертания символов задают разные шрифты.
В вычислительных машинах для представления информации 
используются цепочки байтов. Поэтому для перевода информации 
из машинного представления в понятный для человека вид не-
обходимы таблицы кодировки символов — таблицы соответствия 
между символами определенного языка и кодами символов. Их еще 
называют кодовыми страницами или применяют английский термин 
character set (который иногда сокращают до charset).
В ЭВМ применяется двоичная система, т. е. все числа в ком-
пьютере представляются с помощью нулей и единиц, поэтому ком-
пьютер может обрабатывать только информацию, представленную 
в цифровой форме.
Для преобразования числовой, текстовой, графической, звуковой 
информации в цифровую необходимо применить кодирование. Ко-
дирование — это преобразование данных одного типа через данные 
другого типа. В ЭВМ применяется система двоичного кодирования, 
основанная на представлении данных последовательностью двух 
знаков: 1 и 0, которые называются двоичными цифрами (binary 
digit — сокращенно bit).
Таким образом, единицей информации в компьютере является 
один бит, т. е. двоичный разряд, который может принимать значение 
0 или 1. Восемь последовательных битов составляют байт. В одном 
байте можно закодировать значение одного символа из 256 возмож-
ных (256 = 2 в степени 8). Более крупной единицей информации 
является килобайт (Кбайт), равный 1024 байтам (1024 = 2 в степе-
ни 10). Еще более крупные единицы измерения данных: мегабайт, 

1. ÏÐÅÄÑÒÀÂËÅÍÈÅ ÈÍÔÎÐÌÀÖÈÈ 
 ÊÎÌÏÜÞÒÅÐÍÎÌ ÂÈÄÅ

гигабайт, терабайт (1 Мбайт = 1024 Кбайт; 1 Гбайт = 1024 Мбайт; 
1 Тбайт = 1024 Гбайт).
Целые числа кодируются двоичным кодом довольно просто 
(путем деления числа на два). Для кодирования нечисловой инфор-
мации используется следующий алгоритм: все возможные значения 
кодируемой информации нумеруются и эти номера кодируются 
с помощью двоичного кода. Например, для представления текстовой 
информации используется таблица нумерации символов или табли-
ца кодировки символов, в которой каждому символу соответствует 
целое число (порядковый номер). Восемь двоичных разрядов могут 
закодировать 256 различных символов.
Самой известной таблицей кодировки является код ASCII (Аме-
риканский стандартный код для обмена информацией). Первона-
чально он был разработан для передачи текстов по телеграфу, причем 
в то время он был 7-битовым, т. е. для кодирования символов англий-
ского языка, служебных и управляющих символов использовались 
только 128 7-битовых комбинаций (табл. 1). 

Таблица 1
Первые 128 значений кодировочной таблицы ASCII

.0
.1
.2
.3
.4
.5
.6
.7
.8
.9
.A
.B
.C
.D
.E
.F

0. NUL SOH STX ETX EOT ENQ ACK BEL
BS
TAB
LF
VT FF CR SO
SI

1. DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS
US

2.
!
"
#
$
%
&
′
(
)
*
+
,
-
.
/

3.
0
1
2
3
4
5
6
7
8
9
:
;
<
=
>
?

4.
@
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O

5.
P
Q
R
S
T
U
V
W
X
Y
Z
[
\
]
^
_

6.
`
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o

7.
p
q
r
s
t
u
v
w
x
y
z
{
|
}
~
DEL

При этом первые 32 комбинации (кода) служили для кодиро-
вания управляющих сигналов (начало текста, конец строки, пере-
вод каретки, звонок, конец текста и т. д.). При разработке первых 

компьютеров фирмы IBM этот код был использован для представле-
ния символов в компьютере. Поскольку в исходном коде ASCII было 
всего 128 символов, для их кодирования хватило значений байта, 
у которых 8-й бит равен 0. Значения байта с 8-м битом, равным 1, 
стали использовать для представления символов псевдографики, 
математических знаков и некоторых символов из языков, отличных 
от английского (греческого, немецких умляутов, французских диа-
критических знаков и т. п.).
Существующий стандарт ASCII (8-разрядная система кодирова-
ния) содержит две таблицы кодирования — базовую и расширенную. 
Первая таблица содержит 128 основных символов, в ней размещены 
коды символов английского алфавита, а во второй таблице коди-
рования содержатся 128 расширенных символов. Так как в этот 
стандарт не входят символы национальных алфавитов других стран, 
то в каждой стране 128 кодов расширенных символов заменяются 
символами национального алфавита. В настоящее время существует 
множество таблиц кодировки символов, в которых 128 кодов рас-
ширенных символов заменены символами национального алфавита.
Когда стали приспосабливать компьютеры для других стран 
и языков, места для новых символов уже не стало хватать. Для того 
чтобы полноценно поддерживать помимо английского и другие 
языки, фирма IBM ввела в употребление несколько кодовых таблиц, 
ориентированных на конкретные страны. Так, для скандинавских 
стран была предложена таблица 865 (Nordic), для арабских стран — 
таблица 864 (Arabic), для Израиля — таблица 862 (Israel) и т. д. 
В этих таблицах часть кодов из второй половины кодовой таблицы 
использовалась для представления символов национальных алфа-
витов (за счет исключения некоторых символов псевдографики).
С русским языком ситуация развивалась особым образом. 
Очевидно, что замену символов во второй половине кодовой та-
блицы можно произвести разными способами. Вот и появились 
для русского языка несколько разных таблиц кодировки символов 
кириллицы: KOI8-R, IBM-866, CP-1251, ISO-8551-5. Все они 
одинаково изображают символы первой половины таблицы (от 0 
до 127) и различаются представлением символов русского алфавита 
и псевдографики.

Так, например, кодировка символов русского языка Windows–1251 
используется для компьютеров, которые работают под управлением 
операционной системы Windows (табл. 2). Другая кодировка для 
русского языка — это KOI8, которая также широко используется 
в компьютерных сетях и российском секторе интернета (табл. 3).

Таблица 2
Кодировка символов русского языка Windows–1251

.0
.1
.2
.3
.4
.5
.6
.7
.8
.9
.A
.B
.C
.D
.E
.F

8.
Ђ
Ѓ
‚
ѓ
„
…
†
‡
€
‰
Љ
‹
Њ
Ќ
Ћ
Џ

9.
ђ
‘
’
“
”
•
–
—
™
љ
›
њ
ќ
ћ
џ

A.
Ў
ў
Ј
¤
Ґ
¦
§
Ё
©
Є
«
¬
®
Ї

B.
°
±
І
і
ґ
μ
¶
·
ё
№
є
»
ј
Ѕ
ѕ
ї

C.
А
Б
В
Г
Д
Е
Ж
З
И
Й
К
Л
М
Н
О
П

D.
Р
С
Т
У
Ф
Х
Ц
Ч
Ш
Щ
Ъ
Ы
Ь
Э
Ю
Я

E.
а
б
в
г
д
е
ж
з
и
й
к
л
м
н
о
п

F.
р
с
т
у
ф
х
ц
ч
ш
щ
ъ
ы
ь
э
ю
я

Таблица 3
Кодировка символов русского языка KOI8-R

.0
.1
.2
.3
.4
.5
.6
.7
.8
.9
.A
.B
.C
.D
.E
.F

8.
─
│
┌
┐
└
┘
├
┤
┬
┴
┼
▀
▄
█
▌
▐

9.
░
▒
▓
⌠
■
·
√
≈
≤
≥
⌡
°
²
·
÷

A.
═
║
╒
ё
╓
╔
╕
╖
╗
╘
╙
╚
╛
╜
╝
╞

B.
╟
╠
╡
Ё
╢
╣
╤
╥
╦
╧
╨
╩
╪
╫
╬
©

C.
ю
а
б
ц
д
е
ф
г
х
и
й
к
л
м
н
о

D.
п
я
р
с
т
у
ж
в
ь
ы
з
ш
э
щ
ч
ъ

E.
Ю
А
Б
Ц
Д
Е
Ф
Г
Х
И
Й
К
Л
М
Н
О

F.
П
Я
Р
С
Т
У
Ж
В
Ь
Ы
З
Ш
Э
Щ
Ч
Ъ

Доступ онлайн
450 ₽
В корзину