Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Информационные технологии в лингвистике

Покупка
Артикул: 619296.01.99
Доступ онлайн
100 ₽
В корзину
В учебном пособии излагаются основы курса «Информационные технологии в лингвистике», приводятся задания для организации самостоятельной работы студентов и глоссарий, включающий необходимые понятия курса.
Щипицина, Л. Ю. Информационные технологии в лингвистике [Электронный ресурс] : учеб. пособие / Л. Ю. Щипицина. — Москва : ФЛИНТА, 2013. — 128 с. - ISBN 978-5-9765-1431-7. - Текст : электронный. - URL: https://znanium.com/catalog/product/462989 (дата обращения: 25.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Л.Ю. Щипицина

ИнформацИонные техноЛогИИ
в ЛИнгвИстИке

Учебное пособие

Москва 
Издательство «ФлИнта» 
2013

3

УДК
800(075.8) 
ББК 
81.1я73
   
Щ85

Щипицина Л.Ю. 
    Информационные технологии в лингвистике [Электронный    
ресурс]: учеб. пособие / Л.Ю. Щипицина. — М. : ФЛИНТА,
2013. — 128 с.
      
  ISBN 978-5-9765-1431-7 

В учебном пособии излагаются основы курса «Информационные технологии 
в лингвистике», приводятся задания для организации самостоятельной 
работы студентов и глоссарий, включающий необходимые понятия курса.
Для преподавателей и студентов филологических и лингвистических 
специальностей.

© Щипицина л.Ю., 2013 
© Издательство «ФлИнта», 2013

УДК 800(075.8) 
ББК  81.1я73

ISBN  978-5-9765-1431-7 

содержание

Предисловие ............................................................................................................ 4

Часть 1.  Основные понятия . ................................................................................ 6

1.1. лингвистика. Язык . ...................................................................... 6

1.2. Информация. Информационные технологии .......................... 12

1.3. аппаратное и программное обеспечение  информационных 
технологий в лингвистике . ........................................................ 21

Часть 2. Области применения информационных технологий  
в лингвистике ........................................................................................ 27

2.1. автоматический анализ и синтез звучащей речи .................... 27

2.2. автоматическое распознавание текста .................................... 35

2.3. автоматическое аннотирование и реферирование текста ...... 38

2.4. автоматический анализ и синтез текста .................................. 43

Часть 3. Прикладные разделы компьютерной лингвистики ............................ 57

3.1. Корпусная лингвистика . ............................................................. 57

3.2. Компьютерная лексикография .................................................. 65

3.3. Компьютерная терминография ................................................. 76

3.4. Машинный перевод . .................................................................. 81

3.5. Компьютерное обучение языкам .............................................. 91

3.6. Информационно-поисковые системы ...................................... 98

Заключение .......................................................................................................... 104 

Библиография . .................................................................................................... 105 

Приложения ......................................................................................................... 111

Приложение 1. Глоссарий . ....................................................................... 111 

Приложение 2. темы докладов по курсу ................................................. 115 

Приложение 3. тест для проверки знаний по курсу ............................... 117 

Приложение 4. Ключи к тесту . ................................................................ 124

Р е ц е н з е н т ы: 

д-р филол. наук, проф., зав. кафедрой теории перевода 
и межкультурной коммуникации Воронежского
государственного университета В.Б. Кашкин;
канд. техн. наук, доцент кафедры информационных технологий 
и автоматизированных систем Московского государственного института 
электроники и математики Э.С. Клышинский

Щ85

5

Предисловие

Информационные технологии в настоящее время являются неотъемлемой частью любой сферы профессиональной деятельности, 
в том числе лингвистики. И если когда-то использование компьютеров и соответствующих программ в лингвистических исследованиях, 
переводе и в обучении языку не являлось обязательным, то сегодня 
уже со студенческой скамьи будущим преподавателям иностранных 
языков, переводчикам и лингвистам-исследователям необходимы 
компетенции, связанные с использованием информационных технологий в своей профессиональной сфере деятельности.
Первичному знакомству с возможностями информационных 
технологий в лингвистике служит настоящее учебное пособие, которое предназначено для студентов лингвистических специальностей бакалавриата младших курсов. Пособие соответствует рабочей 
программе дисциплины «Информационные технологии в лингвистике» и может быть использовано в качестве основного источника 
литературы по этой дисциплине.
Именно полный охват тем курса, подлежащих изучению студентами, а также наличие системы заданий и упражнений, облегчающих формирование у обучающихся необходимых компетенций, отличает данное пособие от других подобных изданий.
Пособие включает три основных части, библиографический список и приложения.
В основное содержание пособия входит часть 1 «Основные понятия», часть 2 «Области применения информационных технологий 
в лингвистике» и часть 3 «Прикладные разделы компьютерной 
лингвистики». Каждая часть содержит несколько разделов, включающих перечень основных теоретических вопросов, рассматриваемых в разделе, их краткое изложение, вопросы для обсуждения на 
семинарских занятиях, список литературы для самостоятельной 
подготовки студентов по теме раздела, упражнения и лабораторные 
работы. Для выполнения лабораторных работ требуются главным 

образом базовые программы операционной системы и ресурсы Интернета, что до минимума сводит необходимость привлечения дополнительного программного обеспечения в ходе изучения курса.
В библиографическом списке приводится литература, использованная при подготовке пособия, а также список интернет-ресурсов, 
который может быть дополнен студентами при работе над курсом.
В приложении приводится глоссарий с определениями необходимых теоретических понятий курса, сформулированных автором 
пособия с опорой на различные источники, список тем, предлагаемых студентам для более глубокой проработки в виде индивидуальных докладов, а также тест для проверки знаний по курсу, снабженный ключами, что позволяет использовать тест для индивидуальной 
работы студентов.
Содержание и учебно-методический аппарат пособия позволяют 
рассматривать его как базовое в освоении возможностей информационных технологий в лингвистике. В дальнейшем предусматривается углубленное изучение отдельных разделов курса («Машинный 
перевод», «автоматический анализ текста», «Компьютерная лингводидактика» и т.п.) в зависимости от профиля подготовки обучающегося в рамках специальных дисциплин профессионального цикла 
бакалавриата и магистратуры.

7

Часть 1

основные ПонятИя

1.1. Лингвистика. Язык

лингвистика как наука о закономерностях строения и развития естественного языка. Понятие теоретической и прикладной лингвистики. Соотношение прикладной и компьютерной лингвистики.
Язык как знаковая система. Понятие естественного и искусственного языка. Виды искусственных языков.

Изучение возможностей применения информационных технологий в лингвистике предполагает знание основных понятий соответствующей области знания, среди которых можно выделить понятия 
из сферы лингвистики (язык, лингвистика, компьютерная лингвистика и т.п.) и информатики (информация, алгоритм, модель и др.). 
Знакомство с этими понятиями начнем с лингвистических терминов, характеризующих непосредственную профессиональную область деятельности лингвистов, преподавателей иностранных языков и переводчиков.
лингвистика (или языкознание) традиционно понимается как 
наука о естественном человеческом языке [9, 28]. лингвистов занимают вопросы строения языка (выделение в нем фонетического, 
лексического, грамматического уровня и уровня текста), социального варьирования языка, вопросы порождения и понимания языковых 
высказываний, принципы функционирования языка в обществах 
разных типов, происхождения и развития языка и другие его аспекты [13, 618—622].
В зависимости от изучаемого аспекта языка, национальной традиции и научной методологии выделяются различные разделы лингвистики, например структурная лингвистика, социолингвистика, 
психолингвистика и т.п.
Чтобы определить раздел лингвистики, наиболее тесно связанный с использованием информационных технологий, целесообразно 

обратиться к разграничению теоретической и прикладной лингвистики.
теоретическая (или фундаментальная) лингвистика — это область языкознания, направленная на объективное установление состояния отдельного языка, его истории и закономерностей. Эта 
область лингвистики призвана ответить на вопрос «Каков язык?» 
[37, 214—215].
Прикладная лингвистика развивается с конца 20-х годов XX в. и 
является областью языкознания, связанной с разработкой методов 
решения практических задач использования языка [13, 397]. Прикладная лингвистика отвечает на вопрос «Как лучше использовать 
язык?».
Следует отметить, что в России и за рубежом сложились разные 
интерпретации понятия прикладной лингвистики. Если за рубежом в 
1930—1940-е годы под прикладной лингвистикой (Applied Linguistics) 
прежде всего понимается процесс обучения иностранному языку, 
методика его преподавания, особенности описания грамматики для 
учебных целей, то в России начиная с 1950-х годов, прикладная лингвистика ассоциируется с компьютерными технологиями и автоматическими системами обработки информации [4, 6]. В связи с этим в 
русскоязычной научной традиции прикладная лингвистика нередко 
рассматривается как синоним компьютерной / вычислительной / автоматической / инженерной лингвистики.
на современном этапе развития науки в рамках прикладной 
лингвистики выделяется несколько направлений по оптимизации 
использования языка, которые объединяются исследователями в две 
большие группы: традиционные («вечные») и новые.
К традиционным направлениям и соответствующим задачам 
прикладной лингвистики относятся:

l  создание и совершенствование письменностей;

l  создание систем транскрипции устной речи;

l  создание систем транслитерации иноязычных слов;

l  создание систем стенографии;

l  создание систем письма для слепых;

9

l  упорядочение, унификация и стандартизация научно-технической терминологии;

l  изучение процессов и создание правил образования названий новых изделий, товаров, химических веществ;

l  разработка методов адекватного преобразования текстов в иноязычную форму (перевода);

l  совершенствование методики преподавания языков и др. [13, 397].

новыми задачами прикладной лингвистики считаются:

l  разработка лингвистических основ машинного перевода;

l  автоматическое индексирование и аннотирование документов;

l  автоматический анализ текстов;

l  автоматический синтез текстов;

l  создание словарей-тезаурусов для автоматического поиска информации и др. [ср. 36].

Именно те области прикладной лингвистики, которые связаны с 
привлечением компьютеров для решения практических задач использования языка, являются предметом компьютерной лингвистики, оформившейся в 1960-е годы как особое научное направление.
Компьютерную лингвистику можно определить как область использования компьютерных инструментов — программ, технологий 
организации и обработки данных — для моделирования функционирования языка в тех или иных условиях, а также сферу применения 
компьютерных моделей языка в лингвистике и смежных с ней дисциплинах [4, 13].
В связи с тем, что язык представляет собой весьма сложное образование, в компьютерной лингвистике сложились и развиваются 
различные направления, примерно сопоставимые с отдельными 
уровнями языка, с процессами порождения и восприятия языковых 
сообщений или другими видами человеческой деятельности, связанной с языком. Соответственно, к направлениям компьютерной лингвистики относятся:

l  автоматический анализ текстов;

l  автоматический синтез текстов;

l  создание и поддержка автоматических словарей;

l  создание автоматизированных информационно-поисковых систем;

l  машинный перевод;

l  создание автоматических систем обучения языку;

l  автоматическая атрибуция и дешифровка анонимных текстов;

l  создание лингвистических баз данных;

l  разработка программных инструментов для решения задач теоретической и прикладной лингвистики и т.д. [20; 53 и др.].

лингвистика в целом и компьютерная лингвистика в частности 
имеют дело с языками различного типа и их отдельными уровнями. 
Язык в наиболее общем виде определяется как знаковая система, 
используемая для общения в некотором социуме [13, 604; 29, 5].
Различают естественные и искусственные языки. Естественный 
язык — это исторически сложившаяся и используемая в определенной 
этнической группе или национальном государстве знаковая система. 
Примерами естественных языков выступают русский и английский 
(принадлежащие к индоевропейской языковой семье) или финский и 
эстонский (принадлежащие к финно-угорской языковой семье).
Искусственные языки представляют собой знаковые системы, 
искусственно создаваемые в тех областях, где применение естественных языков менее эффективно или невозможно. Среди искусственных выделяются неспециализированные (или международные) 
языки (эсперанто, волапюк и др.) и специализированные языки. К последним относятся языки науки (математики, логики, химии и т.д., 
создание которых началось в XVI в.) и языки человеко-машинного 
общения (получающие распространение в специальных областях 
человеческой деятельности, связанной с облегчением диалога человека и компьютера, начиная с 1940-х годов) [13, 201—202].
Примеры языков человеко-машинного общения простираются 
от простейших систем символического кодирования (ассемблеров) 
до специализированных языков программирования (С++, Java, 
Python, ErLang и др.). К 1980-м годам в мире насчитывалось около 
500 языков программирования [13, 202]. В настоящее время активно 

11

используется примерно столько же, хотя общее количество известных языков программирования достигает нескольких тысяч [55]. 
Эти факты свидетельствуют об остроте проблемы человеко-машинного общения и о множестве подходов к ее решению.
Подводя итог разделу, констатируем, что лингвистикой следует 
считать науку о закономерностях происхождения, строения и функционирования естественного человеческого языка. Предметом лингвистики и компьютерной лингвистики как ее особого раздела выступает язык — знаковая система, используемая с различными целями.

Вопросы для обсуждения

1.  Что такое лингвистика? назовите ее разделы. В каком разделе лингвистика 
имеет дело с информационными технологиями?

2.  Можно ли считать синонимами прикладную и компьютерную лингвистику? аргументируйте свой ответ.

3.  Перечислите основные направления компьютерной лингвистики. Расскажите об одном из направлений.

4.  Сравните разные определения языка. Выделите в них ключевые слова. Составьте на основе повторяющихся ключевых слов свое определение языка.

5.  Подумайте, с естественным или искусственным языком имеет дело компьютерная лингвистика?

6.  Какие виды естественных и искусственных языков вам известны? Приведите примеры естественных и искусственных языков разных видов.

Рекомендуемая литература

1.  Баранов а.н. Введение в прикладную лингвистику: учеб. пособие. 3-е изд. 
М.: лКИ, 2007. С. 6—8, 20.

2.  Беляева л.н. лингвистические автоматы в современных гуманитарных 
технологиях: учеб. пособие. СПб.: Книжный Дом, 2007. С. 36—40.

3.  Большой энциклопедический словарь. Языкознание. М.: Большая Российская энциклопедия, 1998. С. 201—202; 604—606, 618—622.

4.  Всеволодова а.В. Компьютерная обработка лингвистических данных: 
учеб. пособие. 2-е изд., испр. М.: Флинта: наука, 2007. С. 63—64.

5.  Зубов а.В., Зубова И.И. Информационные технологии в лингвистике: 
учеб. пособие. М.: академия, 2004. С. 5—7.

Упражнения

1.  Определите статистические показатели приведенного ниже текста смешанного языкового типа.

Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы 
включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, 
автоматического перевода, различные словари и тезаурусы. некоторые версии этих 
компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и 
Solaris (источник: Проекты Cíbola/Oleada http://rvb.ru/soft/catalogue/c01.html).

Слов

Символов (без пробелов)

Символов (с пробелами)

Символов в латинской графике

Чисел

Средняя длина слов

2.  Какому языку соответствует средняя длина слов текста смешанного типа, 
приведенного в задании 1? Для выполнения задания вычислите среднюю 
длину слов русского языка из приведенного текста и среднюю длину слов 
в латинской графике.

3.  Определите, каким языкам соответствуют следующие специфические буквы, буквосочетания и слова:

а)  Ø ö ß ρ ω ё š,

б)  th sch šč,

в)  et, the, der, och, için.

4.  Создайте диагностический словарь для определения языка на материале 
текстов на двух разных языках (на ваш выбор). Для этого заполните следующую таблицу.

Таблица

Критерий
Язык 1:
Язык 2:

типичные артикли

Указательные местоимения 

13

Критерий
Язык 1:
Язык 2:

Местоимения 3-го лица

Отдельные формы 
вспомогательных глаголов

Основные предлоги и союзы

Другие частотные слова

5.  Дополните таблицу встречаемости букв в распространенных европейских 
языках [Всеволодова 2007: 64], добавив в нее данные по русскому языку. 
Используйте для этого любой текст на русском языке объемом не менее 
100 символов.

6.  Прочитайте несколько фраз на эсперанто. назовите морфологические диагностические показатели этого языка, учитывая, что существительные и 
прилагательные на эсперанто всегда имеют одни и те же окончания.

               Рус.                Эсперанто
           зеленое дерево            verda arbo
           старый человек           maljuna viro
           хороший друг            bela amiko

1.2. Информация. Информационные технологии

Информация как предмет изучения информатики и кибернетики. Понятие информационных технологий в лингвистике.
Виды информации. Способы кодирования и носители информации. Информационные революции.
Понятие модели и алгоритма в информатике. Понятие искусственного интеллекта.

Одним из основных назначений языка является его использование для передачи информации между людьми. Поэтому, говоря о 
языке, невозможно обойти вниманием и понятие информации.
Информация в обыденном понимании трактуется как сведения о 
положении дел в окружающем мире, его свойствах, протекающих в 
нем процессах и т.п. [31]. В специальных науках, изучающих информацию, это понятие определяется несколько иначе: как последовательность сигналов или символов некоторого алфавита, кодирую
щая некоторое сообщение без учета смыслового содержания этого 
сообщения (в теории передачи информации) или как содержание, 
которое получено из внешнего мира и позволяет адекватно реагировать живому организму (или технической системе) на окружающую 
среду (в кибернетике) [16, 11—12].
Обобщая различные определения информации, можно предложить следующую трактовку этого понятия: информация — это сведения об окружающем мире, передаваемые человеком, живыми организмами или техническими системами для регулирования своего 
поведения в окружающей среде.
Роль информации в современном обществе исключительно велика. Информация, кодируемая с помощью языка, превращается в 
знания; знания же передаются от поколения к поколению, тем самым обеспечивая преемственность общественных устоев.
Информация может кодироваться вербально или невербально. 
Различие способов кодирования информации (аудитивный, тактильный, визуальный, густический и т.д.) обусловливает множество способов ее представления:

l  тексты;

l  рисунки, чертежи, фотографии;

l  световые или звуковые сигналы;

l  электрические и нервные импульсы;

l  жесты и мимика;

l  запахи и вкусовые ощущения;

l  хромосомы, посредством которых передаются по наследству 
признаки и свойства организмов, и т.д.

Способов представления информации, как показывают примеры, достаточно много. но поскольку человек может воспринимать 
информацию лишь с помощью собственных органов чувств, целесообразно классифицировать виды информации именно на этом основании. По тому, какими органами чувств воспринимаются и какой 
сигнальной системой закодированы сведения об окружающем мире, 
можно выделить звуковую, вкусовую, тактильную, визуально-образную и визуально-символическую информацию. Именно последние 

Окончание таблицы

15

два вида информации являются наиболее значимыми для современного человека, при этом если в XX в. человек имел дело в основном 
с визуально-образной, то в XXI в. наиболее значимой становится 
визуально-символическая информация.
Символ (греч. σύμβολον) — это знак, обозначающий некоторый 
предмет или явление. В лингвистике символами считаются в первую очередь слова, поскольку именно слово является минимальной 
единицей, способной обозначать предметы и явления окружающего 
мира. В информатике символами считаются главным образом буквы, 
знаки препинания, цифры и другие знаки печатного текста, а также 
звуковые знаки — фонемы — устного текста, являющиеся составляющими алфавитов и фонетических систем различных естественных 
и искусственных языков. Эти символы складываются в слова и предложения, кодирующие передаваемую информацию.
Процессы, связанные с определенными операциями над информацией, называются информационными процессами. В настоящее 
время над информацией можно производить следующие операции:

создавать       принимать          комбинировать

хранить         передавать          копировать

искать          воспринимать        формализовать

измерять        использовать        делить на части

упрощать       разрушать           обрабатывать

собирать        распространять       преобразовывать

В связи с постоянным увеличением количества используемой людьми информации на определенном этапе развития общества потребовалось привлечение специальных технических средств для ее обработки и 
хранения. Принципиальные изменения в способах фиксации и передачи 
информации, связанные с изобретением новых технических средств 
получили название информационных революций. Исследователями выделяются три информационные революции [28, 404—405]:

1)  ок. 3000 лет до н.э. — изобретение письменности (шумерская 
клинопись): информация может накапливаться;

2)  1453 г. — изобретение книгопечатания: информация становится 
массово доступной;

3)  начало 1970-х годов — создание персональных ЭВМ и телекоммуникационных сетей: информация может автоматически обрабатываться и доставляться в электронном виде с высокой скоростью.

третья информационная революция в значительной степени стимулировалась тем, что в середине XX в. появляются специальные 
науки, изучающие информацию: информатика и кибернетика. Информатика — это наука о накоплении, обработке и передаче информации с помощью ЭВМ. наука об управлении, связи и переработке информации называется кибернетикой.
Именно в рамках теории информации (математической теории 
связи) для иллюстрации информационного обмена, осуществляемого с помощью технических средств, К. Шенноном и У. Уивером 
была предложена наглядная модель (рис. 1).

Рис. 1. модель к. Шеннона и У. Уивера [33, 131]

Особо значимым для информационных технологий представляется указание в данной модели на кодирующее и декодирующее 
устройство, поскольку одной из важных задач информатики является перевод информации, закодированной в «человеческих» символах, в информацию, понятную компьютерам, и наоборот.
Компьютеры в информационном обмене становятся средством 
кодирования, обработки, хранения и передачи больших массивов 
символьной информации. Совокупность законов, методов и средств 
получения, хранения, передачи, распространения и преобразования 
информации с помощью компьютеров получило обозначение «информационные технологии».

Источник

Источник 
шума

Получатель

Передатчик 
(кодирующее 
устройство)

Приемник 
(декодирующее 
устройство)

Сообщение
Сообщение

Сигнал

Канал
Полученный 
сигнал

17

При сужении этого понятия для его использования в особой профессиональной сфере (лингвистика) получаем сочетание «информационные технологии в лингвистике», понимаемое как совокупность 
законов, методов и средств получения, хранения, передачи, распространения и преобразования информации о языке и законах его 
функционирования с помощью компьютеров [20, 8].
Одной из задач соответствующей области знания является сравнение способов кодирования информации человеком и компьютером.
Под кодированием в целом понимается процесс представления 
информации в виде последовательности условных обозначений. 
Иными словами, кодирование — это сопоставление объектов и отношений между ними с символами или словами какого-либо языка 
[16, 39—40].
В процессе кодирования соотношение слова (символа) и его значения обычно называется семантикой, правила, выражающие общие синтаксические свойства слов и групп слов, позволяющие производить и/или описывать правильные предложения языка — грамматикой [11, 98; 51, 19].
О способах кодирования информации человеком говорилось 
выше. Компьютер может обрабатывать все известные виды информации, включая:

l  числовую,

l  буквенную (вербальную),

l  графическую,

l  звуковую,

l  видеоинформацию.
Информация в компьютере представлена в двоичном коде, алфавит которого состоит из двух цифр (0 и 1).
так, числовая информация используемой человеком десятичной 
системы счисления предстает в ЭВМ в виде следующих сочетаний 
символов 0 и 1:

0 — 0              4 — 100              8 — 1000
1 — 1              5 — 101              9 — 1001
2 — 10             6 — 110             10 — 1010
3 — 11             7 — 111

Для кодирования компьютером вербальной информации изначально использовался код ASCII (American Standard Code for Information Interchange). Для кодирования одного символа в этом коде 
требуется 1 байт (или 8 битов). В целом в ASCII можно закодировать 
256 символов, при этом каждому символу ставится в соответствие 
уникальный десятичный код от 0 до 255. так, запись слова «КОМПЬЮтЕР» в двоичном коде выглядит следующим образом (табл. 1).

Таблица 1
Двоичные коды символов, 
составляющих слово «КОМПЬЮТЕР» [43, 62]

1
2
3
4
5
6
7
8
9

К
О
М
П
Ь
Ю
т
Е
Р

10001010 10001110 10001100 10001111 10011100 10001110 10010010 10000101 10010000

Для кодирования данного слова в памяти компьютера потребуется 9 восьмибитовых комбинаций цифр, т.е. 9 байтов. Следует помнить о том, что двоичные коды этого же слова, написанного строчными буквами, будут иными.
В настоящее время для увеличения количества символов, которые могут быть зашифрованы в одной и той же системе кодирования, используется стандарт UNICODE, в котором для кодирования 
одного символа используется два байта.
Для кодирования графической информации обычно используется 2 способа — представление рисунка в виде растрового или векторного изображения. Растровое изображение формируется из определенного количества строк, содержащих определенное количество 
точек (пикселей). Векторное изображение — графический объект, 
состоящий из элементарных графических объектов, например отрезков и дуг. Положение этих элементарных объектов определяется 
координатами точек и длиной радиуса.
Кодирование звуковой информации опирается на материальные 
характеристики этой информации. Известно, что звук представляет 
собой звуковую волну с непрерывно меняющейся амплитудой и частотой звучания. Чем больше амплитуда сигнала, тем он громче, чем 
больше частота сигнала, тем выше тон. Визуально представить зву
19

ковую волну помогает фонограмма, т.е. зафиксированные специальными приборами и отражаемые, к примеру, на экране монитора колебания звуковой волны (рис. 2).

Рис. 2. визуальное представление слова «мама» [2]

При кодировании видео к звуковой информации добавляются визуальные изображения, представляемые в виде множества отдельных кадров, плавно переходящих один в другой на временной оси.
Для компьютерной обработки лингвистических данных важно 
иметь представление о компьютерной лингвистической модели и об 
алгоритме решения лингвистических задач.
Моделью обычно считают материальный или идеальный образ 
некоторой совокупности предметов или явлений, заменяющий реальные предметы и явления и включающий только их наиболее существенные признаки [43, 38]. Примерами материальных моделей 
выступают рисунки или трехмерные изображения молекул в химии, 
солнечной системы в астрономии, организма человека в анатомии.
лингвистические модели являются большей частью идеальными 
конструктами, позволяющими раскрыть особенности строения и 
функционирования языка, производство и восприятие речи и текста 
[20, 14]. Простейшие лингвистические модели иллюстрируют строение слова из фонем, предложения из именных и глагольных групп, 
текста из единиц сюжета. так, базовыми элементами текста в сюжетной грамматике выступают экспозиция, событие и эпизод [4, 27]. Сложные лингвистические модели включают большее количество состав
ляющих различных уровней и отличаются комплексными целями 
(ср. параграф 2.4 «автоматический анализ и синтез текста»).
Построение компьютерных лингвистических моделей предполагает выполнение некоторой последовательности действий. Формализованное описание такой последовательности действий, приводящей 
к решению поставленной задачи, называется алгоритмом [43, 40]. 
алгоритмы могут быть записаны в виде вербальных инструкций, 
блок-схем, таблиц или на языках программирования. Примеры алгоритмов различного рода см. в работе [20, 18—19, 36—37].
С 1970-х годов различные подходы к моделированию человеческой деятельности в различных сферах и предметных областях интегрируются в усилиях по созданию искусственного интеллекта. Под 
искусственным интеллектом (англ. Artificial Intelligence) понимается междисциплинарная область исследований, связанная с созданием 
сложных человеко-машинных и робототехнических систем [13, 14].
Подводя итог содержанию данного раздела, констатируем: информация, являющаяся непременным условием существования человеческого общества, представляет собой сведения об окружающем мире, передаваемые человеком, живыми организмами или техническими системами для адекватной реакции на изменения в 
окружающей среде. Компьютерные инструменты получения, хранения, передачи, распространения и преобразования информации, а 
также соответствующие законы и методы получили обозначение 
информационных технологий. Если с помощью компьютеров мы 
получаем, храним, передаем и распространяем любую информацию, 
касающуюся языка и законов его функционирования, мы имеем 
дело с информационными технологиями в лингвистике.

Вопросы для обсуждения

1.  Сопоставьте разные определения информации. Какое из определений, на 
ваш взгляд, лучше всего подходит к лингвистике?

2.  Сравните свойства информации, выделяемые в разных источниках.

3.  Как соотносятся информация, сообщение и данные?

4.  назовите основные этапы развития информационных технологий.

21

5.  В чем ученые видят будущее информационных технологий? Что вы думаете по этому поводу?

6.  Что такое задача и правило? Как эти понятия связаны с алгоритмом?

7.  Каковы свойства алгоритмов?

Рекомендуемая литература

1.  Всеволодова а.В. Компьютерная обработка лингвистических данных: 
учеб. пособие. 2-е изд., испр. М.: Флинта: наука, 2007. С. 9—16.

2.  Зубов а.В., Зубова И.И. Информационные технологии в лингвистике: 
учеб. пособие. М.: академия, 2004. С. 7—19.

3.  Степанов а.н. Информатика: учеб. пособие. СПб.: Питер, 2006. С. 35—42.

Упражнения

1.  найдите лишнее в приведенном ниже списке. Решите данную задачу с точки зрения компьютерной семантики и компьютерной грамматики.

   Ландыш, левкой, лаватера, лютик, люпин, ромашка, липа.

2.  Дайте определения элементам следующих синтаксических моделей, примеры цит. по: [апресян 1966: 167—168].

а)  AnNn ↔ N(A)nNg       (быстрое движение ↔ быстрота движения)

b)  VNa ↔ N(V)nNg       (прибавляю число ↔ прибавление числа)

c)  N1
nN2
g ↔A(N2)nN1
n     (права автора ↔ авторские права)

d)  VвNa ↔ N(V)nвNa      (возвожу в степень ↔ возведение в степень)

e)  DV ↔ A(D)nN(V)n     (сильно желать ↔ сильное желание)

An = ... Nn = ... Ng = ... N(A)n = ... N(V)n = ... V = ... D = ...

3.  По образцу задания 2 составьте модели следующих трансформаций: визит 
врача ↔ врачебный визит, ароматный сад ↔ аромат сада, выхожу из 
дома ↔ выход из дома.

4.  Приведите примеры словосочетаний (а) и предложения (б) на русском языке, описываемых следующими моделями:

а)  N1
n из N2
g ↔ A(N2)nN1
n
б)  AnNnVDAaNa

1.3. Аппаратное и программное обеспечение 
информационных технологий в лингвистике

Компьютер и периферийные устройства как аппаратная 
основа информационных технологий. Системное и прикладное программное обеспечение. лингвистические ресурсы 
(lingware). автоматизированное рабочее место лингвиста.

Для выполнения объемных расчетов над лингвистическими данными, а также для лингвистического моделирования удобно использовать электронные вычислительные машины (или компьютеры). 
Компьютер — это электронное устройство, служащее для автоматического создания, обработки, передачи и воспроизводства информации по созданным человеком алгоритмам (программам), написанным на понятном для машины языке [43, 42; 15, 22].
Как следует из приведенного определения, в использовании компьютеров сочетается аппаратное (hardware) и программное обеспечение (software) информационных технологий.
К аппаратному обеспечению относится сам компьютер (стационарный или переносной), а также периферийные устройства, служащие для ввода/вывода информации в компьютер пользователем 
(клавиатура, мышь, монитор, принтер и т.д.) или для соединения 
компьютера с другими устройствами (например, модем).
Программное обеспечение — это компьютерные программы, представляющие собой последовательность написанных на машинном 
языке команд, служащие для управления аппаратными средствами 
или для выполнения различных операций над информацией, и соответствующая документация.
В зависимости от назначения программных средств различают 
системное и прикладное программное обеспечение. Системные программы служат управлению работой аппаратных средств и включают операционные системы, утилиты, драйверы и некоторые другие 
виды программ. Прикладные программы предназначены для конечного пользователя и позволяют ему выполнять различные операции 
над информацией: создавать и обрабатывать текст (текстовые редакторы), обрабатывать графические изображения (графические редакторы), работать над звуковой и видеоинформацией (мультимедий
Доступ онлайн
100 ₽
В корзину