Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Научное приборостроение, 2022, том 32, № 1

научный журнал
Бесплатно
Основная коллекция
Артикул: 784041.0001.99
Научное приборостроение : научный журнал. - Санкт-Петербург : Институт аналитического приборостроения РАН, 2022. - Т. 32, № 1. - 92 с. - ISSN 2312-2951. - Текст : электронный. - URL: https://znanium.ru/catalog/product/1878621 (дата обращения: 28.03.2024)
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
ISSN 0868–5886                                          НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1, c. 3–10 
 

 СИСТЕМНЫЙ  АНАЛИЗ  ПРИБОРОВ 

  И  ИЗМЕРИТЕЛЬНЫХ  МЕТОДИК 

3 
 

 
УДК 543.51+ 681.2–5 
 
 А. Г. Бородинов, В. В. Манойлов,  И. В. Заруцкий, А. И. Петров, В. Е. Курочкин, 2022 
 

МЕТОДИКА  ОЦЕНКИ  КАЧЕСТВА  ГЕНОМНОЙ  СБОРКИ  

НА  ОСНОВЕ  АНАЛИЗА  ЧАСТОТНОСТИ  K-МЕРОВ   

В  СЕКВЕНАТОРЕ  ПАРАЛЛЕЛЬНОГО  СЕКВЕНИРОВАНИЯ 

 

В настоящее время в связи с развитием приборостроения для проведения генетического анализа существует 
острая необходимость в разработке методик оценки качества геномной сборки. Подсчет встречаемости различных k-меров часто возникает в задачах сборки генома. В данной работе на основе анализа различных 
программных средств выбраны программы, которые позволяют оценить качество геномной сборки. С помощью выбранных программ обработаны данные, полученные на отечественном секвенаторе параллельного 
секвенирования Нанофор СПС. На основе результатов обработки этих данных произведена оценка качества 
геномной сборки по методике анализа k-меров для прибора Нанофор СПС. 
 
 
Кл. сл.:  k-мер, NGS-методы, биоинформатика, сборка генома 
 
 

ВВЕДЕНИЕ 

K-мер — это просто последовательность из k 

символов в строке (или нуклеотидов в последовательности ДНК в задаче секвенирования). Разложение последовательности на ее k-меры  позволяет 
анализировать этот набор фрагментов фиксированного размера, а не последовательность целиком, и это может быть более эффективным подходом. Простой пример: чтобы проверить, происходит ли последовательность S из организма A или 
из организма B, предполагая, что геномы A и B 
известны и достаточно разные, мы можем проверить, содержит ли S больше k-меров, присутствующих в A или в B. 

Практически любой геном содержит повто
ряющиеся области, однако, начиная с определенного значения k, k-меры определенным образом 
однозначно идентифицируют его; если мы посчитаем количество появлений k-мер для достаточно 
большого k (ограниченного сверху длиной чтения), оказывается, что большинство из них находятся в геноме в единственном экземпляре. Например, если порядок длины генома сравним  
с человеческим, вероятность встретить случайную 
подстроку длины 14 хотя бы один раз составляет 
0.975893 [1]. Для k = 20 эта же вероятность составляет 0.000909.  

Подсчет встречаемости различных k-меров ча- 

сто возникает в задачах сборки генома. Распределение частот встречаемости используется для процедуры корректирования рдов, что подразумевает разделение содержащихся k-меров на "доверенные" и "ошибочные" [1]. Подобная информация 

используется некоторыми программами сборки 
генома для определения того, является ли рассматриваемый участок повтором или нет.  

В настоящее время в связи с развитием 

приборостроения для проведения генетического 
анализа существует острая необходимость в разработке 
методик 
оценки 
качества 
геномной 

сборки. 
Такие 
методики 
позволят 
оценить 

достоверность проведения генетического анализа 
в существующих и вновь разрабатываемых приборах. В данной работе на основе анализа 
различных 
программных 
средств 
выбраны 

программы, которые позволяют оценить качество 
геномной сборки в секвенаторах параллельного 
секвенирования. С помощью выбранных программ 
обработаны данные, полученные на отечественном секвенаторе параллельного секвенирования Нанофор СПС. 

АНАЛИЗ ПРОГРАММНЫХ СРЕДСТВ ОЦЕНКИ 

КАЧЕСТВА СБОРКИ ГЕНОМА 

Поскольку количество k-мер растет экспонен
циально для значений k, подсчет k-мер для больших значений k является вычислительно сложной 
задачей. Хотя достаточно простые реализации работают для малых значений k, их необходимо 
адаптировать для приложений с высокой пропускной способностью или когда k велико. Для решения этой проблемы были разработаны различные 
инструменты: 

• Jellyfish использует многопоточную хеш
таблицу без блокировок для подсчета k-мер и имеет реализации на Python, Ruby и Perl [2]; 

А. Г. БОРОДИНОВ, В. В. МАНОЙЛОВ,  И. В. ЗАРУЦКИЙ, А. И. ПЕТРОВ, В. Е. КУРОЧКИН 

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1 

4

• KMC — это инструмент для подсчета k-мер, 

который использует многодисковую архитектуру 
для оптимизации скорости [3]; 

• Gerbil использует подход хеш-таблицы, но с до
полнительной поддержкой ускорения графического 
процессора [4]; 

• K-mer Analysis Toolkit (KAT) использует 

модифицированную версию Jellyfish для анализа 
количества k-мер [5]. 

В качестве основного инструмента работы с k
мерами был выбран KAT (K-mer Analysis Tookit), 
представляющий эффективный набор средств для 
быстрого подсчета, сравнения и анализа спектров 
k-мер произвольной длины из данных генетических последовательностей.  

Основным методом анализа при работе с k
мерами является проверка качества сборки генома 
путем сравнения характеристик k-меров совокупности анализируемых рдов с референтным образцом или с собранным геномом (при сборке de 
novo). Инструмент KAT hist — это графическое 
представление набора данных, показывающее, 
сколько коротких последовательностей фиксированной длины (k-мер) появляется определенное 
количество раз. Частота встречаемости нанесена 
на ось х, а число k-меров на оси у. Пример 31-mer 
spectrum of S.cerevisae S288C WGS  приведен  
на рис. 1. 

Инструмент KAT comp генерирует матрицу  

с k-мерным набором последовательностей частот 

k-меров на одной оси, а частотой встречаемости   
k-меров другого набора на другой оси. При сравнении набора рдов со сборкой KAT сначала вычисляет свойства и состав k-меров сборки. При 
представлении в виде стоковых гистограмм спектр 
k-меров для рдов разбивается по числу копий kмеров для сборки. Кроме того, KAT предоставляет 
инструмент sect для отслеживания покрытия kмерами, исходя из рассчитанных спектров k-меров 
для совокупности рдов и референса. Это может 
помочь идентифицировать такие артефакты сборки, как события сворачивания и разворачивания, 
или обнаруживать повторяющиеся области в последовательности ДНК.  

KAT также включает инструмент hist для вы
числения спектра из одного набора последовательностей и инструмент gcp для анализа гуанинцитозин содержания (GC-контента) в зависимости 
от частоты k-меров. Инструмент filter можно использовать для выделения последовательностей  
из полного набора в соответствии либо с покрытием k-мерами или GC-содержанием для заданного 
набора. Эти инструменты могут использоваться 
для различных задач, включая обнаружение и извлечение загрязняющих веществ (contaminant 
detection) как в необработанных рдах, так и  
в сборках (assemblies), анализ смещения по GCсоставу 
и 
согласованность 
между 
парно
концевыми (paired end) рдами с чувствительностью по концентрациям примесей от 0.1  ppm. 

 
 

 

 

Рис. 1. Графическое представление набора данных KAT hist 

 
 
 

МЕТОДИКА  ОЦЕНКИ  КАЧЕСТВА  ГЕНОМНОЙ  СБОРКИ 

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1 

5

KAT прост в использовании, обеспечивает вы
сокую скорость анализа. Время получения результатов анализа составляет не более минуты.  

МЕТОДИКИ РАБОТЫ С K-МЕРАМИ  

В работе [1] предложен метод оценки качества 

геномной сборки, заключающийся в установлении 
соответствия между уникальными k-мерами в со- 
бранном геноме и k-мерами в рдах. Процедура 
выглядит следующим образом. 

1. Построение гистограммы встречаемости k
меров для рдов.  

2. Выбор окрестности пика уникальных k
меров на гистограмме встречаемости.  

3. Построение гистограммы встречаемости k
меров для каждой сборки.  

4. Расчет меры Q как доли различных k-меров, 

взятых из окрестности пика на гистограмме встречаемости k-меров в чтениях.  

5. Выбор сборки с максимальным значением 
в качестве наилучшей. 

В работе [6] предложен метод исправления 

ошибок, оптимизированный для работы с чтениями, содержащими как ошибки замены, так  
и ошибки вставки и удаления. Поскольку ошибки 
происходят с небольшой частотой, вероятность 
того, что один и тот же k-мер будет прочитан несколько раз с одинаковым набором ошибок, очень 
мала. Из этого вытекает, что те k-меры, которые 
встречаются в наборе чтений мало раз, являются 
ошибочными, остальные же являются реальными 
подстроками генома (рис. 2). 

 
 

 

 

Рис. 2. Распределение частот k-меров в рдах [6] 

 
 
 
 
 

А. Г. БОРОДИНОВ, В. В. МАНОЙЛОВ,  И. В. ЗАРУЦКИЙ, А. И. ПЕТРОВ, В. Е. КУРОЧКИН 

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1 

6

 

 
 
 

ИСПОЛЬЗОВАНИЕ ПРОГРАММЫ KAT  

ДЛЯ ОБРАБОТКИ ДАННЫХ  

СЕКВЕНАТОРА НАНОФОР СПС 

Для обработки данных секвенатора Нанофор 

СПС  была использована опция программы КАТ 
"K-mer comparison plot". По сути мы представляем, сколько элементов каждой частоты в спектре 
рдов оказались не включены в референтный ге- 

ном (в нашем случае Phix174), включены один раз, 
включены дважды и т.д.  

На рис. 3, 4 представлены k-mer comparison 

plot, полученные соответственно для приборов 
Illumina и Нанофор СПС. Показательно, что для 
сходных характеристик проточных ячеек запуск 
Нанофор СПС обеспечивает больший уровень покрытия рдами референсной последовательности 
(центр тяжести k-меров с уникальным покрытием).   

 
 

 

 

 
 

Рис. 3. Типичный k-mer comparison 
plot 
секвенирования 
Phix 
174 

на Illumina Miseq 

Рис. 4. Типичный k-mer comparison 
plot 
секвенирования 
Phix 
174 

на Нанофор СПС 

МЕТОДИКА  ОЦЕНКИ  КАЧЕСТВА  ГЕНОМНОЙ  СБОРКИ 

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1 

7

ЗАКЛЮЧЕНИЕ 

Проекты сборки генома обходятся дорого как 

по времени, так и по вложенным средствам.  
В этом случае выявление проблем с экспериментальными данными, обаруженных уже после сборки, может стать настоящей неудачей. С помощью 
K-mer Analysis Toolkit (KAT) исследователи могут 
получить доступ к качественным критериям  
и подтвердить свои результаты на более ранних 
этапах. 

K-меры представляют собой небольшие фраг
менты исходного генома с фиксированным числом 
оснований ДНК. Компьютер может эффективно 
работать с большим количеством k-меров, а затем 
идентифицировать связи между этими фрагментами, чтобы создать представление об исходном геноме. Основанные на k-мерах методы обычно используются для эффективного создания геномных 
сборок. KAT построен для изучения и сравнения 
наборов данных секвенирования с использованием 
основных свойств каждого отдельного k-мера, таких как частота встречаемости и нуклеотидный 
состав. 

В первую очередь KAT может анализировать 

данные секвенирования для определения уровней 
случайных 
ошибок, 
систематических 
ошибок  

и контаминации. Информация, полученная в ходе 
этого анализа, может помочь исследователям решить, следует ли продолжать выполнение последующих задач, таких как сборка генома. Затем 
KAT может перепроверить проведенную сборку 
генома, определив полноту и точность сборки без 
каких-либо внешних справочных данных. 

СПИСОК ЛИТЕРАТУРЫ 

1. Романенков К.В. Метод оценки качества сборки гено
ма на основе частот k-меров, Препринт. ИПМ им. 
М.В. Келдыша, 2017. 

2. Marcais G., Kingsford C. A fast, lock-free approach for 

efficient parallel counting of occurrences of k-mers // Bioinformatics. 2011. Vol. 27, is. 6. P. 764–770. DOI: 
10.1093/bioinformatics/btr011 

3. Deorowicz S., Kokot M., Grabowski S., Debudaj
Grabysz А. KMC 2: fast and resource-frugal k-mer counting // Bioinformatics. 2015. Vol. 31, is. 10. P. 1569–1576. 
DOI: 10.1093/bioinformatics/btv022 

4. Erbert M., Rechner S., Müller-Hannemann M. Gerbil:  

a fast and memory-efficient k-mer counter with GPUsupport // Algorithms for Molecular Biology. 2017. 
Vol. 12. Art. Num. 9. DOI: 10.1186/s13015-017-0097-9 

5. Mapleson D., Accinelli G.G., Kettleborough G.,Wright J., 

Clavijo B.J. KAT: a K-mer analysis toolkit to quality control NGS datasets and genome assemblies // Bioinformatics. 2017. Vol. 33, is. 4. P. 574–576. DOI: 
10.1093/bioinformatics/btw663 

6. Александров А.В., Шалыто А.А. Метод исправления 

ошибок вставки и удаления в наборе чтений нуклеотидной последовательности // Научно-технический 
вестник информационных технологий, механики и оптики. 
2016. 
Т. 
16, 
№ 
1. 
С. 
108–114. 
DOI: 

10.17586/2226-1494-2016-16-1-108-114 
 
 
 
 
 
 

Институт аналитического приборостроения РАН,  
Санкт-Петербург 

 

Контакты: Бородинов Андрей Геннадьевич, 
borodinov@gmail.com 
 
 
 
 

Материал поступил в редакцию 30.12.2021 

 

 
 

ISSN 0868–5886                                         NAUCHNOE  PRIBOROSTROENIE, 2022, Vol. 32, No. 1, pp. 3–10 

8 

METHODOLOGY  FOR  ASSESSING  THE  QUALITY  

OF  GENOMIC  ASSEMBLY  BASED  ON  THE  ANALYSIS  

OF  THE  FREQUENCY  OF  K-MERS  IN  A  PARALLEL  

SEQUENCING  SEQUENCER 

 

A. G. Borodinov,  V. V. Manoilov, I. V. Zarutskiy, A. I. Petrov, V. E. Kurochkin 

 

Institute for Analytical Instrumentation of RAS,  Saint-Petersburg, Russia 

 

Counting the occurrence of different k-mers often causes problems of genome assembly. Analysis of the fre
quency distribution of k-mers makes it possible to find assembly errors in already formed contigs. Currently, in 
connection with the development of instrumentation for genetic analysis, there is an urgent need to develop methods for assessing the quality of genomic assembly. Such techniques will make it possible to assess the reliability of genetic analysis in existing and newly developed devices. In this work, based on the analysis of various 
software tools, programs were selected to assess the quality of genomic assembly in parallel sequencing sequencers. Using the selected programs, the data obtained on the domestic sequencer for parallel sequencing Nanofor SPS were processed. Based on the results of processing these data, the quality of the genomic assembly 
was assessed by the method of analysis of k-mers and recommendations were given for improving the hardware 
and software of the Nanofor SPS device. 
 
 
Keywords: k-mers, NGS, bioinformatics, genome assembly 

 

INTRODUCTION 

A k-mer is simply a sequence of k symbols in  

a string (or nucleotides in a DNA sequence in the case 
of sequencing). The decomposition of a sequence into 
its k-mers allows one to analyze this set of fixed size 
fragments, rather than the whole sequence, and this 
may be a more efficient approach. A simple example: 
to check if the sequence S originates from organism A 
or from organism B, assuming that the genomes of A 
and B are known and quite different, we can check 
which k-mers contains S more of: those present in A 
or in B. 

Almost any genome contains repeating regions, 

however, starting from a certain value of k, k-mers in 
a certain way uniquely identify it. If we count  
the number of occurrences of k-mers for a sufficiently 
large value of k (limited from above by the length of 
reads), it appears that most of them are in a single 
copy in the genome. For example, if the order of genome length is comparable with a human one,  
the probability of encountering a random substring of 
k =14 length at least once is 0.975893 [1]. For k = 20, 
the probability is 0.000909. 

Counting the occurrence of different k-mers often 

arises in genome assembly tasks. The frequency distribution is used for the read correction procedure, which implies the seraration of the contained k-mers into "trusted" 
and "erroneous" ones [1]. This information is used by 
some genome assembly software programs to determine whether the region in question is a repeat or not. 

Currently, due to the development of instrumenta
tion for genetic analysis, there is an urgent need for 
the development of methods for assessing the quality 
of genomic assembly. Such techniques make it possible to assess the reliability of genetic analysis in existing and newly developed devices. In this work, based 
on the analysis of various software tools, programs 
were chosen that allow assessing the quality of genomic assembly in sequencers for parallel sequencing. 
Using the selected programs, the data obtained on the 
domestic sequencer Nanofor SPS [Нанофор СПС] for 
parallel sequencing were processed. 

ANALYSIS OF SOFTWARE FOR ASSESSING  

THE QUALITY OF GENOME ASSEMBLY 

Since the number of k-mers grows exponentially 

for values of k, calculating k-mers for large values of 
k is computationally challenging. While fairly simple 
applications work for small values of k, they need to 
be adapted when high throughput is needed or when k 
is large. Various tools have been developed to solve 
this problem: 

• Jellyfish uses a multi-threaded, lock-free hash ta
ble for counting k-mers and has implementations in 
Python, Ruby, and Perl [2]; 

• KMC is a k-mer calculator that uses a multi-disk 

architecture to optimize speed [3]; 

• Gerbil uses a hash table approach, but with addi
tional support for GPU acceleration [4]; 

• The K-mer Analysis Toolkit (KAT) uses a mod
МЕТОДИКА  ОЦЕНКИ  КАЧЕСТВА  ГЕНОМНОЙ  СБОРКИ 

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1 

9

ified version of Jellyfish to analyze the number of kmers [5]. 

As the main tool for working with k-mers, KAT 

(K-mer Analysis Tookit) was chosen, representing  
an effective set of tools for quickly calculating, comparing and analyzing the spectra of k-mers of arbitrary 
length from genetic sequence data. 

The main analysis method when working with k
mers is to check the quality of genome assembly by 
comparing the characteristics of the k-mers of the set 
of analyzed reads with the reference sample or with 
the assembled genome (when assembling de novo).  
A KAT hist tool is a graphical representation of a dataset showing how many short, fixed-length sequences 
(k-mers) appear a specified number of times. The frequency of occurrence is plotted on the axis x, and the 
number of k-mers on the axis y. An example of 31mer spectrum of S. cerevisae S288C WGS is given in 
Fig. 1. 

 

 
 
A KAT comp generates a matrix with a k-mer set 

of frequency sequences of k-mers on one axis, and  
the frequency of occurrence of k-mers of another set 
on the other axis. When comparing a set of reads with 
an assembly, KAT first calculates the properties and 
composition of the k-mers of the assembly. When presented in the form of stock histograms, the spectrum 
of k-mers for reads is divided according to the number 
of copies of k-mers for assembly. In addition, KAT 
provides sect tool for tracking k-mer coverage based 
on calculated k-mer spectra for a set of reads and  
a reference. This can help identify assembly artifacts 
such as folding and unfolding, or detect repeating regions in a DNA sequence. 

KAT also includes a hist tool for calculating  

a spectrum of a set of sequences and a gcp tool for 
analyzing guanine-cytosine content versus frequency 
of k-mers. A filter tool can be used to select sequences from the complete set according to either kmer coverage or GC content for a given set. These 
tools can be used for a variety of tasks, including contaminant detection and extraction in both raw reads 
and assemblies, bias analysis over GC content, and 
consistency between paired end reads with sensitivity 
to impurity concentrations from 0.1 ppm. KAT is easy 
to handle, it provides high speed analysis. The time 
spent on obtaining the result of the analysis is no more 
than 1 min.  

 
 

TECHNIQUES FOR WORKING WITH K-MERS 

In [1], a method for assessing the quality of ge
nomic assembly is proposed, which consists in establishing a correspondence between unique k-mers in 
the assembled genome and k-mers in reads. The procedure is as follows. 

1. Construction of a histogram of the occurrence of 

k-mers for the reads. 

2. Selection of the vicinity of the peak of unique k
mers on the histogram of occurrence. 

3. Plotting a histogram of the occurrence of k-mers 

for each assembly. 

4. Calculation of the measure Q as the fraction of 

different k-mers taken from the vicinity of the peak on 
the histogram of the occurrence of k-mers in reads. 

5. Selection of the assembly with the maximum 

value of as the best. 

In [6], an error correction method is proposed that 

is optimized for working with reads containing both 
substitution errors and insertion and deletion errors. 
Since errors occur with a small probability, the probability that the same k-mer will be read several times 
with the same set of errors is very small. It follows 
that those k-mers that occur a few times in the set of 
reads are erroneous, while the rest are real substrings 
of the genome (Fig. 2). 

USING THE KAT SOFTWARE 

FOR SEQUENATOR NANOFOR SPS 

DATA PROCESSING 

To process the data of the Nanofor SPS sequencer, 

the KAT program option k-mer comparison plot was 
used. In fact, we get a notion of how many elements 
of each frequency in the read spectrum were not included in the reference genom (in our case Phix174), 
included once, included twice, etc. 

Figs. 3, 4 show the k-mer comparison plot results 

obtained with the Illumina and Nanofor SPS instruments, respectively. It is significant that Nanofor SPS 
provides a higher level of coverage of the reference 
sequence by reads (the centroid of k-mers with  
a unique coverage) in cases of similar characteristics 
of flow cells. 

 
 

Fig. 1. Graphical representation of the KAT hist 
dataset 

Fig. 2. Frequency distribution of k-mers in reads [6] 
 

Fig. 3. Typical k-mer comparison plot results of Phix 
174 sequencing using Illumina Miseq 

А. Г. БОРОДИНОВ, В. В. МАНОЙЛОВ,  И. В. ЗАРУЦКИЙ, А. И. ПЕТРОВ, В. Е. КУРОЧКИН 

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1 

10

CONCLUSION 

Genome assembly projects are costly in both time 

and investment. Identifying problems with experimental data discovered after assembly can be a real failure. With the K-mer Analysis Toolkit (KAT) researchers can access quality criteria and confirm  
the results in the earlier stages. 

K-mers are small fragments of the original genome 

with a fixed number of DNA bases. A computer can 
efficiently work with a large number of k-mers and 
then identify the relations between these fragments to 
create an idea of the original genome. K-mer-based 
methods are commonly used to efficiently generate 
genomic assemblies. KAT is built to examine and 
compare sequencing datasets using the basic properties of each individual k-mer, such as frequency and 
nucleotide composition. 

First of all, the KAT can analyze sequencing data 

to determine the levels of random errors, systematic 
errors and contamination. The information gained 
from this analysis can help researchers decide whether 
to continue with subsequent tasks, such as genome 
assembly. Then the KAT can re-check the performed 
assembly of the genome, determining the completeness and accuracy of the assembly without any external reference. 

REFERENСES 

1. Romanenkov K.V. [A new method of evaluating genome 

assemblies based on k-mers frequencies]. Preprinty Instituta prikladnoi matematiki im. M.V. Keldysha RAN [Preprints of the Keldysh Institute of Applied Mathematics], 
2017, no. 11, 24 p. DOI: 10.20948/prepr-2017-11 (In 
Russ.). 

2. Marcais G., Kingsford C. A fast, lock-free approach for 

efficient parallel counting of occurrences of k-mers. Bioinformatics, 2011, vol. 27, is. 6, pp. 764–770. DOI: 
10.1093/bioinformatics/btr011 

3. Deorowicz S., Kokot M., Grabowski S., Debudaj
Grabysz А. KMC 2: fast and resource-frugal k-mer counting. Bioinformatics, 2015, vol. 31, is. 10, pp. 1569–1576. 
DOI: 10.1093/bioinformatics/btv022 

4. Erbert M., Rechner S., Müller-Hannemann M. Gerbil: 

a fast and memory-efficient k-mer counter with GPUsupport. Algorithms for Molecular Biology, 2017, vol. 12, 
art. num. 9. DOI: 10.1186/s13015-017-0097-9 

5. Mapleson 
D., 
Accinelli 
G.G., 
Kettleborough 
G., 

Wright J., Clavijo B.J. KAT: a K-mer analysis toolkit to 
quality control NGS datasets and genome assemblies. Bioinformatics, 2017, vol. 33, is. 4, pp. 574–576. DOI: 
10.1093/bioinformatics/btw663 

6. Alexandrov A.V., Shalyto A.A. [Error correction method 

for sequencing data with insertions and deletions]. 
Nauchno-tekhnicheskii vestnik informatsionnykh tekhnologii, mekhaniki i optiki [Scientific and Technical Journal 
of Information Technologies, Mechanics and Optics], 
2016, vol. 16, no. 1, pp. 108–114. DOI: 10.17586/22261494-2016-16-1-108-114 (In Russ.). 

 

 
 
Contacts: Borodinov Andrey Gennad'evich,  
borodinov@gmail.com 
 

 
 
 

Article received by the editorial office on 30.12.2021 

 

 

Fig. 4. Typical k-mer comparison plot results of Phix 
174 sequencing using Nanofor SPS 

ISSN 0868–5886                                          НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1, c. 11–20 
 

 СИСТЕМНЫЙ  АНАЛИЗ  ПРИБОРОВ 

  И  ИЗМЕРИТЕЛЬНЫХ  МЕТОДИК 

11 

 
УДК 001.8 
 
 И. Б. Птицына, 2022 
 

НАУЧНЫЕ  ПРИБОРЫ  И  ИНСТРУМЕНТЫ   

КАК  ОСОБЫЙ  ВИД  АРТЕФАКТОВ 

 

История артефактов — произведенных человеком предметов — так же велика, как и история человечества. 
Среди большого разнообразия артефактов важное место с самого начала занимали инструменты и несколько 
позже — приборы. Развитие социума всегда сопровождалось и сопровождается необходимостью увеличения 
возможностей этих артефактов и их усложнением. Все артефакты подобного рода — это экстрасоматические органы, дополнение к органам телесным и умственным, это инструменты, созданные для повышения 
способности решать определенные проблемы. С развитием технологий их возможности стали настолько 
большими, что возник вопрос, превышают ли они возможности человеческого мозга. Особенно этот вопрос 
актуален для такой разновидности инструментов, которые созданы для помощи мозгу, — обучающихся 
компьютерных программ искусственного интеллекта. Чтобы понять это, нужно обратиться к истокам науки, 
когда закладывались основы методологии и общие принципы получения умственного продукта. Этот результат имеет особенность — он часто воспринимается антропоморфно, перенося свойства экспериментатора на результат его деятельности. Это особенно актуально для сложных приборов и инструментов. В статье 
показана природа взаимоотношений человека и инструмента как его искусственного экстрасоматического 
органа. 
 
 
Кл. сл.: прибор, инструмент, артефакт, экстрасоматический орган, искусственный интеллект, методология, 
модель, антропоморфизм, мифологизация науки 
 
 
 

ВВЕДЕНИЕ 

Термин "артефакт" имеет несколько значений. 

В экспериментальных науках под артефактом часто понимают нежелательное постороннее воздействие на объект, искажающее результат эксперимента, или результат такого воздействия. В науках, изучающих человека и его деятельность, под 
артефактом понимают любой объект, подвергавшийся воздействию человека.  В  настоящем тексте — это искусственно созданный с определенной целью объект, имеющий заданные физические 
характеристики и знаковое, символическое содержание [1]. Артефакты можно условно разделить  
на две большие группы: объекты, используемые 
для увеличения силовых двигательных и прочих 
телесных возможностей (инструменты), и объекты, используемые для воздействия на внешнюю 
среду для ее трансформации и усовершенствования (объекты культуры). 

Некоторые животные уже в состоянии исполь
зовать для своих нужд подходящие предметы. Как 
зачатки инструментов можно рассматривать палки, которыми они достают предметы из недоступного места, или камни, которые используют для 
разбивания орехов и раковин. Зачатки элементов 
культуры у них — создание различного рода убежищ, гнезд.  

ОСНОВНЫЕ ВИДЫ АРТЕФАКТОВ 

Очевидно, что человеческие артефакты отли
чаются 
принципиально 
большей 
сложностью  

и разнообразием. Уже у древних людей появляются не только приспособленные предметы в качестве инструментов, а специально изготовленные под 
определенную задачу. Среди самых первых инструментов  расколотые куски гальки с острым краем — скребки и резаки. Объекты культуры пополняются новым типом артефактов, связанным с ритуалами как методом общения с духами и потусторонним миром, — обереги и другие предметы 
культа, которые позже и дадут основу тому, что 
сейчас понимают под объектами культуры. Именно находки этих новых типов артефактов дают 
основания антропологам утверждать, что их производители уже относятся к миру людей, а не к животным. По ходу развития человечества инструменты совершенствовались и становились разнообразнее. Появляется специализация — рабочие 
инструменты, медицинские, оружие. За длинную 
историю были не только приобретения, но и потери. Многие культуры исчезали, не оставив описания технологий. Например, до сих пор идут споры 
о том, как без развитой техники можно было выпиливать и шлифовать огромные каменные глыбы 
и возводить из них мегалиты. 

И. Б. ПТИЦЫНА 

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2022, том 32, № 1 

12

Исследовательская деятельность является не
обходимым компонентом деятельности человека. 
Среди инструментов формируется особая большая 
группа, предназначенная для увеличения человеческих возможностей при изучении окружающей 
среды, — приборы. История приборов, начиная  
с 
простейших 
измерительных 
инструментов, 

обычно приводится в руководствах по приборостроению [2–6], кроме того, существует довольно 
обширная литература по истории отдельных типов 
приборов. Приборы расширяют возможности сенсорных систем и позволяют наблюдать и регистрировать те параметры объектов, которые недоступны обычному восприятию. 

Чтобы понять, как возникли более сложные ар
тефакты, в том числе и инструменты, нужно обратиться к истокам науки. Новоевропейская наука, 
или то, что называют современной наукой, возникла относительно недавно и характеризуется 
наличием установленных методов исследования  
и системы доказательств [7]. 

ИСТОКИ НАУКИ 

Современная наука возникла из трех основных 

источников. Древнюю науку (натурфилософию) 
часто считают началом. К нему могут быть добавлены источники знаний из древней Индии и арабских стран, а также средневековая схоластика, которая имеет богословское содержание, но сохранила интерес к античным авторам. 

Другой источник — практические навыки ре
месленников, которые передавались из поколения 
в поколение в семье или ремесленной мастерской 
и  изменяли общий уровень знаний. 

Третьим, наиболее интригующим источником, 

была алхимия. Известно, что она дала толчок развитию современной химии [8], но этим ее роль  
не ограничивается. После ее появления исследования стали приобретать современный вид. 

Началась эпоха Возрождения, во время которой 

изменилось мировоззрение людей. Алхимия существовала и раньше, но в этот период она пережила 
свой расцвет, а затем была вытеснена наукой. 
Христианский Бог, прочно занимавший центр картины мира, начал несколько терять свое положение, поначалу совсем незначительно. Появились 
дерзкие умы, которые пытались в чем-то уподобиться Ему. Они хотели не только знать, как Господь сотворил этот мир, познать Его творение,  
но и создать то, что считалось доступным только 
Богу. Они были заняты поисками философского 
камня, который не только превращает другие материалы в золото, но и управляет вопросами жизни и смерти. Он дает вечную молодость и позволяет вырастить в пробирке гомункула — маленького, но живого человека. Многие из тех, кто были 

первыми учеными и заложили основы современной науки, были алхимиками [9]. Самый известный из тех, о ком сохранились достоверные сведения,  это Ньютон, который, однако, при жизни не 
афишировал свои исследования алхимии [10]. 
Практически одновременно ученые начали закладывать рациональные основы науки, ее методологию [11]. 

СВОЙСТВА ИНСТРУМЕНТОВ,  

ИНСТРУМЕНТ КАК ВОПЛОЩЕННАЯ МЫСЛЬ 

Все инструменты, в том числе приборы, были 

созданы для увеличения возможностей человека. 
Инструменты можно рассматривать как искусственно созданные дополнения к человеческим органам — экстрасоматические органы. Производственные инструменты увеличивают физические 
возможности человека (например, молоток, электродрель, токарный станок), а инструменты исследования — возможности органов чувств: например, очки, телескоп, измеритель давления, регистратор колебаний. На протяжении жизни последнего поколения появился новый тип инструментов, 
которые увеличивают умственные способности, — 
компьютеры совокупно с программами, и среди 
них выделяется подгруппа искусственного интеллекта (ИИ). Их история началась с простейших 
приспособлений для счета — абакусов, счетов, 
арифмометров и калькуляторов, а позже они приобрели много новых функций и сейчас используются как отдельные приборы, так и как части экспериментальных установок. Все инструменты 
специализированы, иногда реализуют  большой, 
но ограниченный список функций. Сейчас есть 
большой перечень областей, в которых используются возможности ИИ, и этот список постоянно 
расширяется. Как и любой артефакт, ИИ является 
воплощением какой-то деятельности, направленной 
на решение конкретной задачи. Это реализованная 
в материале модель задачи. При этом сохраняются 
все проблемы моделей, в том числе ограничения 
на выбранные параметры для моделирования, что 
также приводит к необходимости ограничения 
возможностей прибора. 

Результатом работы ИИ являются предпола
гаемые физические явления, такие как появление 
на экране компьютера черно-белых или цветных 
изображений, которые пользователь воспринимает 
как текст или как другие данные, полученные  
в результате реализации алгоритма. Это просто 
физические явления в физическом субстрате,  
а именно результат — это интерпретация этих 
изображений пользователем как итог деятельности 
пользователя совместно с разработчиками и другими создателями алгоритма. ИИ не может оценивать и интерпретировать результат своей работы,