Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Передача, хранение и обработка больших объемов научных данных

Покупка
Основная коллекция
Артикул: 726962.01.01
К покупке доступен более свежий выпуск Перейти
В учебном пособии рассматриваются крупные научные проекты и объемы генерируемых ими данных, дается обзор научных компьютерных сетей, позволяющих производить высокоскоростную передачу больших объемов данных для этих проектов. Рассматриваются вычислительные системы, предлагаемые ведущими производителями компьютерной техники для обработки больших объемов данных и предоставляющие как возможности хранения больших объемов данных, в том числе распределенных, так и средства аналитики и параллельной обработки данных в реальном масштабе времени. Особое внимание уделено безопасности передаваемой научной информации. Соответствует требованиям федеральных государственных образовательных стандартов высшего образования последнего поколения. Для студентов технических специальностей бакалавриата, магистратуры, специалитета, обучающихся по направлениям подготовки «Прикладная математика и информатика», «Бизнес-информатика» и «Информатика и вычислительная техника».
Григорьев, А. А. Передача, хранение и обработка больших объемов научных данных : учебное пособие / А.А. Григорьев, Е.А. Исаев, П.А. Тарасов. — Москва : ИНФРА-М, 2021. — 207 с. — (Высшее образование: Бакалавриат). — DOI 10.12737/1073525. - ISBN 978-5-16-015985-0. - Текст : электронный. - URL: https://znanium.com/catalog/product/1073525 (дата обращения: 19.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
ПЕРЕДАЧА, ХРАНЕНИЕ 

И ОБРАБОТКА 

БОЛЬШИХ ОБЪЕМОВ 
НАУЧНЫХ ДАННЫХ

А.А. ГРИГОРЬЕВ
Е.А. ИСАЕВ
П.А. ТАРАСОВ

Рекомендовано Межрегиональным учебно-методическим советом 

профессионального образования в качестве учебного пособия 

для студентов высших учебных заведений, обучающихся 

по направлениям подготовки 01.03.02 «Прикладная математика 

и информатика», 09.03.01 «Информатика и вычислительная техника», 

38.03.05 Бизнес-информатика»  (квалификация (степень) «бакалавр») 

(протокол № 10 от 12.10.2020)

Москва
ИНФРА-М

2021

УЧЕБНОЕ ПОСОБИЕ

УДК 004.6(075.8)
ББК 32.973.202я73
 
Г83

Григорьев А.А.

Г83 
 
Передача, хранение и обработка больших объемов научных данных : 

учебное пособие / А.А. Григорьев, Е.А. Исаев, П.А. Тарасов. — Москва : 
ИНФРА-М, 2021. — 207 с. — (Высшее образова ние: Бакалавриат). — 
DOI 10.12737/1073525.

ISBN 978-5-16-015985-0 (print)
ISBN 978-5-16-108415-1 (online)

В учебном пособии рассматриваются крупные научные проекты и объ
емы генерируемых ими данных, дается обзор научных компьютерных 
сетей, позволяющих производить высокоскоростную передачу больших 
объемов данных для этих проектов. Рассматриваются вычислительные 
системы, предлагаемые ведущими производителями компьютерной техники для обработки больших объемов данных и предоставляющие как 
возможности хранения больших объемов данных, в том числе распределенных, так и средства аналитики и параллельной обработки данных в реальном масштабе времени. Особое внимание уделено безопасности передаваемой научной информации.

Соответствует требованиям федеральных государственных образова
тельных стандартов высшего образования последнего поколения.

Для студентов технических специальностей бакалавриата, магистрату
ры, специалитета, обучающихся по направлениям подготовки «Прикладная математика и информатика», «Бизнес-информатика» и «Информатика и вычислительная техника».

УДК 004.6(075.8)

ББК 32.973.202я73

Р е ц е н з е н т ы:

Сиденко А.В., доктор экономических наук, профессор, президент, 

директор Института статистики Российской академии диалектикосистемных исследований и разработок;

Тихвинский В.О., доктор экономических наук, кандидат техниче
ских наук, старший научный сотрудник, профессор кафедры «Цифровая экономика, управление и бизнес-технологии» факультета «Цифровая экономика и массовые коммуникации» Московского технического университета связи и информатики

ISBN 978-5-16-015985-0 (print)
ISBN 978-5-16-108415-1 (online)

© Григорьев А.А., Исаев Е.А., 

Тарасов П.А., 2021

Данная книга доступна в цветном  исполнении 
в электронно-библиотечной системе Znanium.com

Список принятых сокращений

АПКШ — Аппаратно-программный комплекс шифрования
ВОЛС — Волоконно-оптические линии связи
Гбит/с  — Гигабит в секунду 
ГВС — Городская вычислительная сеть
ДМЗ — Демилитаризованная зона
ЖКХ — Жилищно-коммунальное хозяйство
ИМПБ РАН — Институт математических проблем биологии 

Российской академии наук

ИПМ РАН — Институт прикладной математики имени М.В. Кел
дыша Российской академии наук

ИТЭФ — Институт теоретической и экспериментальной физики 

имени А.И. Алиханова Национального исследовательского центра 
«Курчатовский институт»

ИФВЭ — Институт физики высоких энергий имени А.А. Логу
нова

Кбит/с — Килобит в секунду
КПС — Комплекс программных средств
ЛВС — Локальная вычислительная сеть
МГУ — Московский государственный университет
МСЦ РАН — Межведомственный суперкомпьютерный центр 

Российской академии наук

МЦОД — Модульный центр обработки данных
НАИРИТ — Национальная ассоциация инноваций и развития 

информационных технологий 

НИИЯФ МГУ — Научно-исследовательский институт ядерной 

физики имени Д.В. Скобельцына МГУ

НПО — Научно-производственное объединение
НСД — Несанкционированный доступ
ОИЯИ — Объединенный институт ядерных исследований
ПИЯФ РАН — Петербургский институт ядерной физики имени 

Б.П. Константинова РАН

Пбит/с — Петабит в секунду
ПЗ — Программная задача
РАН  — Российская академия наук
РДИГ — Российский Грид для интенсивных операций с дан
ными 

РНЦ КИ — Российский национальный центр «Курчатовский 

институт»

РТ — Радиотелескоп
СКС — Структурированная кабельная система
СУБД — Система управления базами данных
СХД — Системы хранения данных
Тбит — Терабит
Тбит/с — Терабит в секунду
Тб — Терабайт
ЦОД — Центр обработки данных
ЦОНИ — Центр обработки научных данных
AARNet — Australia’s Academic and Research Network
AODV — Ad hoc On-Demand Distance Vector
ASE — Amplified Spontaneous Emission
ASN — Alcatel-Lucent Submarine Networks
ALICE — América Latina Interconectada Con Europa
APAN — All Partners Access Network
ATSP — Attack-tolerant Time-Synchronization Protocol
BI — Business intelligence
BGP — Border Gateway Protocol
CARP — Clustered anti-replay protection
CBS — Centre Biological Sciences 
CERN — European Organization For Nuclear Research
CHEMAS — Checkpoint-based Multi-hop Acknowledgement 

Scheme

CLARA — Cooperación Latino Americana de Redes Avanzadas
CLARIN — Common Language Resources and Technology Infra
structure

DARIAH — Digital Research Infrastructure for the Arts and Hu
manities

DAS — Direct-attached storage
DDoS — Distributed Denial of Service
DDBJ — DeoxyriboNucleic Acid Data Bank of Japan
DEISA — Distributed European Infrastructure for Supercomputing 

Applications

DHCP — Dynamic Host Configuration Protocol 
DNA — DeoxyriboNucleic Acid
DNS — Domain Name System
DSSS — Direct Sequence Spread Spectrum
DTU — Technical University of Denmark
DWDM  — Dense Wavelength Division Multiplexing
EED — Extremely Efficient Detection
EGEE — Enabling Grids for E-sciencE
ENA — European Nucleotide Archive

EGI — European Grid Infrastructure
EDD — Efficient and Distributed Detection
EDFA — Erbium Doped Fiber Amplifier
ESnet — Energy Sciences Network
FLOPS — FLoating-point Operations Per Second
FHSS — Frequency-Hopping Spread Spectrum
GFLOPS — GigaFLOPS
GLORIAD — Global Ring for Advanced Applications Development
GTSP — Gradient Time Synchronization Protocol
IDC — International Data Corporation
JAM — A Jammed-Area Mapping service for sensor networks
MMTS — Maximum and Minimum Consensus based Time Synchro
nization

NAS — Network Attached Storage
HCP — Hitachi Content Platform
HDFS — Hadoop Distribited File System
HIP — History Information exchange Protocol
HNAS — Hitachi Network Attached Storage
HOP — History information exchange Optimized Protocol
HPC — High Performance Computing
HTTP — HyperText Transfer Protocol
IEEE — Institute of Electrical and Electronics Engineers
IoT — Internet of Things
LADEE — Lunar Atmosphere and Dust Environment Explorer 
LCRD — Laser Communications Relay Demonstration
LEACH — Low Energy Adaptive Clustering Hierarchy
LHC  — The Large Hadron Collider
LSGC  — The Life-Science Grid Community
MPLS — Multiprotocol Label Switching
NASA — National Aeronautics and Space Administration
NCBI — National Center for Biotechnology Information
NIST — National Institute of Standards and Technology
NTP — Network Time Protocol
NGS — Next-Generation Sequencing
Nikhef — National Institute for Subatomic Physics
NGI — National Grid Infrastructures
NoSQL — Not Only SQL 
NREN — National Research and Education Networks 
NTT — Nippon Telegraph и Telephone corporation
OSI — Open Systems Interconnection
OSG — Open Science Grid
RASNet — Russian Academy of Sciences Network

RDIG — Russian Data Intensive Grid
RFC — Request for Comments
RSSI — Received signal strength indicator
RUHEP — Russian High Energy Physics
RUNNet — Russian UNiversity Network
SAN — Storage Area Network
SDSS — Sloan Digital Sky Survey
SEDD — Storage Efficient Distributed Detection
SEEREN2 — South-Eastern European Research and Education 

Network 2 generation

SINET — Science Information Network
SIP — Session Initiation Protocol
SPREAD — Secure Protocol for REliable dAta Delivery
SQL — Structured Query Language
TCP — Transmission Control Protocol
TEIN — Trans-Eurasia Information Network
TGAC — The Genome Analysis Centre
VRC — Virtual research communities
VPN — Virtual Privacy Network
WeNMR — A worldwide e-Infrastructure for Nuclear magnetic 

resonance (NMR) and structural biology 

WSN — Wireless Sensor Networks
UDP — User Datagram Protocol
UWB — Ultra Wide Band

Введение

В настоящее время практически во всех областях науки на
блюдается стремительный, лавинообразный рост объемов данных, 
получаемых в ходе научных экспериментов или вычислительного 
моделирования [15]. Потрясающий прогресс в области информационных технологий, микро- и наноэлектроники приводит к созданию 
экспериментальных установок, генерирующих объемы данных, достигающие сотен терабайт и петабайт, в самых различных сферах 
человеческой деятельности, таких как климатология и метеорология, задачи биоинформатики и математической биологии, эксперименты физики элементарных частиц, астрономические наблюдения.

Необходимость передачи сверхбольших объемов данных, по
лучаемых в результате научных экспериментов, для их обработки 
в рамках облачных технологий или с использованием технологии 
Grid, обеспечение удаленного доступа исследователей к уникальному научному оборудованию, совместное выполнение проектов 
сотрудниками распределенных научных лабораторий, организация 
работы с базами данных научной информации, обмен опытом 
и результатами научных исследований, различные формы дистанционного обучения, проведение онлайн-конференций в режиме 
реального времени — все это требует наличия высокоскоростных 
каналов связи как в локальных сетях научно-исследовательских 
центров, так и в глобальном масштабе международного научного 
сотрудничества. Успех в науке XXI века зависит от возможности 
ученых оперировать большими объемами данных, доступа к вычислительным и информационным ресурсам и эффективности удаленного взаимодействия ученых в реальном масштабе времени [76]. 
Исследователи должны иметь возможность фильтровать данные, 
поступающие из отдаленных источников в реальном масштабе 
времени, и отбирать лишь небольшую долю этих данных. С одной 
стороны, проблема связана с получением доступа к нужной информации, размещенной в определенном месте, в нужное время. 
С другой стороны, возникает проблема эффективного управления 
экспериментальной установкой с удаленного рабочего места исследователя. Еще одна особенность современных научных экспериментов — это сочетание распределенного хранилища данных с необходимостью удаленного доступа к высокопроизводительным вычислительным комплексам для анализа этих данных и получения 

результатов эксперимента. Исследователи также заинтересованы 
в долгосрочном хранении полученных архивов для возможности 
последующих исследований. Кроме того, научные данные в большинстве своем не имеют ограничений приватности или коммерческой тайны, научное сообщество естественным образом заинтересовано в общедоступности полученных данных. Планирование новых 
задач, исследований и экспериментов строится на анализе текущих 
результатов, что в целом накладывает дополнительные требования 
к возможности оперативного удаленного доступа к таким данным.

Таким образом, в современном мире мы сталкиваемся с острой 

необходимостью решения следующих проблем: резкое увеличение передаваемых объемов научной информации в локальных 
и региональных сетях передачи данных; необходимость хранения, 
обработки и анализа этих данных для получения нового знания. 
Учитывая колоссальные объемы получаемых научных данных 
и скорость их прироста, каждая из указанных задач становится достаточно сложной для эффективного решения, тем более что в ряде 
случаев уже имеется исчерпание имеющихся ресурсов, а реальные 
прогнозы потребностей указывают на продолжение роста информационных потоков в десятки и сотни раз [16].

В данной работе рассматриваются крупные научные про
екты и объемы генерируемых ими данных, дается обзор научных 
компьютерных сетей, позволяющих производить высокоскоростную передачу больших объемов данных для этих проектов; 
вычислительные системы, предлагаемые ведущими производителями компьютерной техники для обработки больших объемов 
данных и предоставляющие как возможности хранения больших 
объемов данных, в том числе распределенных, так и средства аналитики и параллельной обработки данных в реальном масштабе 
времени. Приведен пример топологической схемы и структурной 
организации научной локальной вычислительной сети Пущинской 
радиоастрономической обсерватории Астрокосмического центра 
ФИАН им. П.Н. Лебедева, а также дано описание и показаны 
возможности вычислительного кластера ИМПБ ПНЦ РАН для 
решения научных задач. Особое внимание уделено современным 
методам обеспечения информационной безопасности облачных 
вычислений, дата-центров, а также волоконно-оптических линий 
связи при передаче больших объемов научных данных, в том числе 
и современным возможностям квантовой криптографии.

Представленные материалы учебного пособия отвечают требо
ваниям стандартов таких дисциплин, как «Информационные про
цессы, системы и сети», «Информационная безопасность и защита 
информации», «Сетевые технологии» и др.

Целью освоения дисциплины «Информационные процессы, 

системы и сети» является приобретение начальных теоретических 
знаний в области информационных процессов, систем и сетей, 
а также начальных практических навыков в сфере разработки приложений БД, интернет-сайтов, проведения рекламных кампаний 
в интернете и реализации задач анализа с использованием данных 
интернет-статистики.

Курс «Информационные процессы, системы и сети» в струк
туре образовательной программы частично относится к профессиональным, а частично к базовым дисциплинам, читается на первыхвторых курсах и базируется:
• на базовом школьном курсе информатики;
• программировании;
• теоретических основах информатики.

Целью освоения дисциплины «Информационная безопасность 

и защита информации» является приобретение начальных теоретических знаний в области положений информационной безопасности и защиты информации. В процессе изучения дисциплины 
рассматриваются основные законодательные акты, касающиеся вопросов информационной безопасности. Вводится понятие информации с точки зрения предмета защиты информации, определяются 
основные категории, которым должна удовлетворять информация. 
Вводится понятие «атака» на информацию, рассматриваются основные виды атак, последствия от них. Вводятся понятия «информационная система», «информационная сеть», описываются 
основные виды угроз на них и способы защиты от этих угроз. Для 
распределенных компьютерных сетей возможные виды угроз передачи информации рассматриваются с привязкой их к уровням модели межсетевого взаимодействия OSI. Рассматриваются основные 
стандарты и спецификации в области информационной безопасности, как международные, так и российские, изучаются основные 
понятия, определенные в них.

Данная учебная дисциплина включена в раздел «Б3.В.5 Про
фессиональный» основной образовательной программы 01.03.02 
«Прикладная математика и информатика», относится к вариативной части и осваивается в седьмом семестре четвертого курса.

Для ее освоения студент должен прослушать такие курсы, как 

«Введение в криптографию», «Современные информационные технологии», «Архитектура компьютеров».

Целью освоения дисциплины «Сетевые технологии» является 

формирование у студентов практических навыков и знаний, связанных с созданием и эксплуатацией локальных вычислительных 
сетей (ЛВС) в различных условиях. В рамках курса студенты 
должны познакомиться с основами проектирования и создания 
ЛВС, техническими и программными средствами, обеспечивающими их работу, а также с основами работы в глобальной сети 
Интернет. Рассматриваются возможности применения интернеттехнологий в ЛВС (создание защищенной интранет-сети). Курс 
ориентирован на выработку основных навыков по определению 
требований к ЛВС, организации логической работы сети, разграничению потоков информации и их защите от несанкционированного 
доступа.

Данная учебная дисциплина включена в раздел «Б1.Б.16 Дис
циплины (модули)» основной профессиональной образовательной 
программы 09.03.01 «Информатика и вычислительная техника 
(Автоматизированные системы обработки информации и управления)» и относится к базовой (общепрофессиональной) части.

В результате освоения перечисленных дисциплин студент 

должен:

знать

• основы функционирования информационных систем различ
ного назначения (ERP, CRM, BI, GIS, BI-систем, HR-системы);

• базовые информационные процессы;
• основы функционирования информационных сетей;
• законодательный морально-этический, административно-проце
дурный, физический, аппаратно-программный аспекты обеспечения информационной безопасности;

• существующие способы защиты информации на этапах хра
нения, обработки, передачи информации в целях сохранения ее 
необходимых качеств, таких как доступность, целостность;

• понятия конфиденциальности, апеллируемости, аутентичности;
• стеки протоколов передачи данных;
• методы кодирования и проверки правильности передачи данных;
• стандарты локальных и глобальных сетей;

уметь

• анализировать ценность информационных решений для раз
личных групп потребителей;

• осуществлять базовое прототипирование информационных 

систем, включая модель базы данных и интерфейс;

• использовать базовые информационные процессы для описания 

информационных потоков предприятия;

К покупке доступен более свежий выпуск Перейти