Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Корпусная лингвистика

Покупка
Основная коллекция
Артикул: 754196.01.99
Доступ онлайн
229 ₽
195 ₽
В корзину
Учебник знакомит с концепциями корпусной лингвистики, дает возможность освоить азы корпусных технологий, приобрести навыки работы с корпусами, определить место дисциплины и собственно корпусов в ряду информационных технологий. Базой для создания учебника послужили исследовательская работа и преподавательская деятельность авторов. Предназначен для студентов, магистрантов и аспирантов филологических и педагогических специальностей, а также для всех интересующихся вопросами корпусной лингвистики.
Захаров, В. П. Корпусная лингвистика : учебник / В. П. Захаров, С. Ю. Богданова. - 3-е изд., перераб. - Санкт-Петербург : СПбГУ, 2020. - 234 с. - ISBN 978-5-288-05997-1. - Текст : электронный. - URL: https://znanium.com/catalog/product/1244746 (дата обращения: 20.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
3-е издание, переработанное

В. П. Захаров, С. Ю. Богданова

КОРПУСНАЯ 
ЛИНГВИСТИКА

ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

УДК 81.32
ББК 81.1-923
          З-38

Авторы:
канд. филол. наук, доцент В. П. Захаров (С.-Петерб. гос. ун-т);  
д-р филол. наук, профессор С. Ю. Богданова (Иркутский гос. ун-т)

Рецензенты:
д-р филол. наук С. А. Крылов (ИВ РАН); 
д-р филол. наук, профессор Л. Н. Беляева (РГПУ им. А. И. Герцена);
канд. филол. наук, доцент М. В. Хохлова (СПбГУ)

Рекомендовано к публикации 
Учебно-методической комиссией УГСН 45.00.00 
Языкознание и литературоведение 
Санкт-Петербургского государственного университета

З-38
Захаров В. П., Богданова С. Ю.
Корпусная лингвистика: учебник. 3-е изд., перераб.  — СПб.: 
Изд-во С.-Петерб. ун-та, 2020. — 234 с. 
ISBN 978-5-288-05997-1

Учебник знакомит с концепциями корпусной лингвистики, дает возможность освоить азы корпусных технологий, приобрести навыки работы с корпусами, определить место дисциплины и собственно корпусов 
в ряду информационных технологий. Базой для создания учебника послужили исследовательская работа и преподавательская деятельность 
авторов. 
Предназначен для студентов, магистрантов и аспирантов филологических и педагогических специальностей, а также для всех интересующихся 
вопросами корпусной лингвистики. 

УДК 81.32
ББК 81.1-923

  
© Санкт-Петербургский 
 
 
государственный университет, 2020
ISBN 978-5-288-05997-1  
© В. П. Захаров, С. Ю. Богданова, 2020

Оглавление

Предисловие к третьему изданию.............................................................. 
7

Предисловие к первому и второму изданиям ......................................... 
9

ЧАСТЬ 1. ВВЕДЕНИЕ В КОРПУСНУЮ ЛИНГВИСТИКУ
Глава 1. Основные понятия корпусной лингвистики ....................... 
11
1.1. Определение корпусной лингвистики ............................... 
—
1.2. Предмет корпусной лингвистики ........................................ 
13
1.3. Терминология корпусной лингвистики ............................. 
15
1.4. Направления в лингвистике, предвосхитившие 
появление корпусной лингвистики ................................... 
17
1.5. Основные характеристики корпусов.................................. 
21
1.5.1. Репрезентативность корпусов ........................................ 
—
1.5.2. Прагматическая ориентированность ........................... 
22
1.6. История создания лингвистических корпусов ................ 
24

Глава 2. Стандартизация в корпусной лингвистике.......................... 
26
2.1. Объекты стандартизации ...................................................... 
—
2.2. Международные стандарты корпусной лингвистики .... 
27
2.3. Разметка корпусов в проекте (стандарте) TEI ................. 
28

Глава 3. Разметка корпусов ........................................................................ 
34
3.1. Понятие разметки ................................................................... 
—
3.2. Лингвистическая разметка ................................................... 
36
3.2.1. Морфологическая разметка ........................................... 
37
3.2.1.1. XML формат (формат с ключевыми словами) ..... 
—
3.2.1.2. Позиционный формат кодирования 
данных разметки ......................................................... 
40
3.2.1.3. Гибридный формат кодирования  данных 
разметки ........................................................................ 
43
3.2.2. Синтаксическая разметка ............................................... 
45
3.2.3. Семантическая разметка ................................................. 
50
3.3. Экстралингвистическая разметка ....................................... 
54

Глава 4. Типология корпусов ..................................................................... 
56
4.1. Классификация корпусов по различным основаниям .. 
—
4.2. Особенности корпусов отдельных типов .......................... 
61

Оглавление

4.2.1. Параллельные корпусы .................................................... 
61
4.2.2. Корпусы устной речи ....................................................... 
64
4.2.3. Учебные корпусы текстов ............................................... 
67
Вопросы и задания для самоконтроля ...................................... 
69

ЧАСТЬ 2. СОЗДАНИЕ КОРПУСОВ

Глава 5. Традиционная технология создания корпусов ................... 
70
5.1. Проектирование и технологический процесс 
создания корпусов .................................................................. 
—
5.2. Отбор источников. Критерии отбора ................................ 
72
5.3. Основные процедуры обработки входных текстов ........ 
74
5.4. Как создать собственный корпус? ....................................... 
77

Глава 6. Создание корпусов на базе веба............................................... 
79
6.1. Поисковые системы Интернета как корпусы ................... 
—
6.2. Веб как корпус .......................................................................... 
80
6.3. Технология WaC ....................................................................... 
83

Глава 7. Обзор существующих корпусов различных типов ............ 
85
7.1. Зарубежные корпусы .............................................................. 
—
7.2. Корпусы русского языка ........................................................ 
95
7.2.1. Первые корпусы русского языка ................................... 
—
7.2.2. Современные корпусы русского языка ....................... 
99
7.2.2.1. Национальный корпус русского языка ................. 
—
7.2.2.2. Хельсинкский аннотированный корпус 
(ХАНКО) ....................................................................... 
101
7.2.2.3. Корпусы университета г. Лидс ................................. 
102
7.2.2.4. Другие текстовые корпусы русского языка .......... 
103
7.2.2.5. Устные корпусы русского языка .............................. 
—
7.2.2.6. Мультимедийные корпусы русского языка .......... 
105
7.3. Специальные корпусы ........................................................... 
107
Вопросы и задания для самоконтроля ...................................... 
109

ЧАСТЬ 3. ПОЛЬЗОВАНИЕ КОРПУСАМИ

Глава 8. Корпусные менеджеры ................................................................ 
110
8.1. Корпус как поисковая система ............................................. 
—
8.2. Функциональные возможности корпусных 
менеджеров ................................................................................... 
115

Оглавление

8.3. Языки запросов корпусных менеджеров........................... 
116
8.4. Язык запросов корпусного менеджера Sketch Engine .... 
118
8.5. Язык регулярных выражений RegEx .................................. 
121
8.6. Сервисные функции ............................................................... 
127

Глава 9. Способы использования корпусов ......................................... 
132
9.1. Пользователи корпусов .......................................................... 
—
9.2. Что можно получить из корпуса? ........................................ 
133
9.2.1. Эмпирическая поддержка ............................................... 
—
9.2.2. Статистическая информация ......................................... 
135
9.2.3. Метаинформация .............................................................. 
135
Вопросы и задания для самоконтроля ...................................... 
—

ЧАСТЬ 4. ЛИНГВИСТИЧЕСКИЕ ИССЛЕДОВАНИЯ 
НА БАЗЕ КОРПУСОВ

Глава 10. Лексикографические исследования, основанные 
на корпусах ................................................................................... 
137
10.1. Пример одного лексикографического исследования ... 
138
10.1.1. Распределение deal по регистрам ............................ 
140
10.1.2. Распределение смыслов (значений) 
по регистрам ................................................................ 
143
10.1.3. Слово deal как глагол ................................................. 
148
10.2. Анализ использования слов, кажущихся 
синонимами ......................................................................... 
149
10.2.1. Распределение по регистрам синонимичных 
английских прилагательных big, large и great ....... 
149
10.2.2. Удаленные коллокаты large .....................................  
156

Глава 11. Грамматические исследования, основанные 
на корпусах .........................................................................  
158
11.1. Распределение и функции номинализаций ................. 
159
11.1.1. Анализ распределения номинализаций 
по регистрам ................................................................ 
—
11.1.2. Распределение и функция суффиксов 
номинализаций ........................................................... 
161
11.2. Распределение грамматических категорий .................. 
163
11.2.1. Частотность грамматических категорий .............. 
164
11.2.2. Сравнение соотношения «существительное/
глагол» по регистрам ................................................. 
166

Оглавление

Глава 12. Исследования дискурса, основанные на корпусах .........  167
12.1. Характеристики референциальных выражений ........... 
169
12.1.1. Распределение референциальных выражений 
по регистрам ................................................................ 
169
12.1.2. Техника интерактивного анализа: кодирование  
характеристик референциальных выражений .... 
173
12.2. Распределение обращений в неформальной беседе ... 
175
12.3. Пример исследования дискурса на материале 
речевого корпуса ................................................................. 
176

Глава 13. Корпусные методы исследования ......................................... 
179
13.1. Применение корпусных методов сбора, обработки 
и аннотирования текстового материала ....................... 
180
13.1.1. Корпусы делового языка ........................................... 
—
13.1.2. Корпусы диалектов ..................................................... 
182
13.1.3. Корпус устной речи «Один речевой день» ........... 
183
13.1.4. Учебный прагматический корпус ........................... 
185
13.2. Применение корпусных методов извлечения 
информации из русскоязычных корпусов текстов .... 
186
13.2.1. Корпусы и переводная лексикография ................. 
—
13.2.2. Веб-корпусы: pro et contra ........................................  
190
13.3. Применение статистических методов в корпусных 
исследованиях...................................................................... 
193
13.3.1. Корпусный анализ фразеологии ............................. 
194
13.3.2. Диахронические исследования грамматики ........ 
198
13.4. Выделение коллокаций статистическими методами ... 
200
Вопросы и задания для самоконтроля ................................... 
204

Заключение ...................................................................................................... 
205

Темы докладов, рефератов, курсовых работ ........................................... 
207

Рекомендуемая литература .......................................................................... 
211

Список цитируемых источников ............................................................... 
214

Глоссарий  ......................................................................................................... 
226

Список сокращений ...................................................................................... 
230

Предметный указатель .................................................................................. 
231

Предисловие  
к третьему изданию 

Предлагаемый учебник является результатом научной и педагогической деятельности авторов, а также обобщением многочисленных 
материалов по корпусной лингвистике, опубликованных в России 
и за рубежом, естественно, малой их части. На его основе построены лекционные курсы по корпусной лингвистике и смежным с ней 
дисциплинам, читаемые на протяжении многих лет В. П. Захаровым 
в Санкт-Петербургском государственном университете и С. Ю. Богдановой в Иркутском государственном университете. Материал, 
представленный в учебнике, также может быть использован в курсах 
лекций по дисциплинам «Информационные и коммуникационные 
технологии в науке и образовании», «Основы прикладной лингвистики», «Квантитативная лингвистика», «Корпусы при автоматической 
обработке текста», «Компьютерные методы в лингвистических исследованиях», «Корпусы и переводоведение» и др.
По сравнению со вторым изданием главные изменения следующие:
• переработаны многие прежние и добавлены новые разделы, 
в частности раздел 5.4. «Как создать собственный корпус?», 
глава 6 «Создание корпусов на базе веба», глава 13 «Корпусные методы исследования» и др.;
• добавлена или исправлена информация о корпусах, существовавших на момент подготовки второго издания, и новых;
• добавлена информация о новых корпусных инструментах,

появившихся или претерпевших изменения после выхода 
второго издания;
• отражены некоторые новые публикации;
• изменена структура учебника. 

 Предисловие к третьему изданию  

В данном издании учебник состоит из 13 глав, разбитых на 4 части: «Введение в корпусную лингвистику», «Создание корпусов», 
«Пользование корпусами» и «Лингвистические исследования на 
базе корпусов».
Современное развитие лингвистики как эмпирической науки 
диктует необходимость использования новых, объективных методов исследования. Корпусная лингвистика является одним из разделов науки о языке, который предоставляет такие возможности. 
Как ими воспользоваться — об этом авторы постарались рассказать 
в учебнике.

Предисловие  
к первому и второму изданиям

Предлагаемый вашему вниманию учебник является своего рода обобщением многочисленных разрозненных материалов, опубликованных за последние два десятилетия в России и за рубежом. Данные 
материалы легли в основу лекционных курсов по дисциплине «Корпусная лингвистика», читаемых кандидатом филологических наук, 
доцентом Виктором Павловичем Захаровым в Санкт-Петербургском 
государственном университете и доктором филологических наук, 
профессором Светланой Юрьевной Богдановой в Иркутском государственном лингвистическом университете. Материал, представленный в учебном пособии, также может быть использован в курсах 
лекций по дисциплинам «Информационные и коммуникационные 
технологии в науке и образовании», «Основы прикладной лингвистики», «Компьютерные методы в лингвистических исследованиях» и др. 
Цель учебника — познакомить студентов с концепциями корпусной лингвистики, помочь им освоить основы корпусных технологий, приобрести навыки работы с корпусами, определить место 
дисциплины и собственно корпусов в ряду информационно-лингвистических технологий.
Задачи учебного пособия:
• ознакомить студентов с новой парадигмой в лингвистических исследованиях;
• ознакомить студентов с историей корпусных исследований;
• ознакомить студентов с языковыми и программными средствами корпусной лингвистики;
• сформировать у студентов навыки работы с программными 
средствами и информационными ресурсами корпусной лингвистики; 
• ознакомить студентов с конкретными лингвистическими исследованиями, основанными на корпусных данных.

 Предисловие к первому и второму изданиям 

Учебник состоит из трех частей. Первая часть — «Введение 
в корпусную лингвистику» — знакомит с основными понятиями 
и терминами корпусной лингвистики, историей ее становления 
как раздела языкознания, целями и задачами, типами существующих корпусов. Вторая часть — «Создание корпусов» — описывает 
в общих чертах технологические процессы, связанные с проектированием корпусов, отбором и обработкой языкового материала, 
способами разметки. Третья часть — «Использование корпусов» — 
включает три раздела. Раздел 3.1 «Корпусные менеджеры» посвящен 
описанию корпусных менеджеров, обеспечивающих поиск в корпусе. Раздел 3.2 «Обзор существующих корпусов различных типов» 
представляет собой обзор как зарубежных национальных корпусов, 
так и корпусов русского языка. Раздел 3.3 «Корпусные исследования» посвящен описанию конкретных исследований на базе корпусов разных типов, в нем приводятся результаты научных изысканий 
и дается их теоретическая интерпретация. 
В первую очередь авторы хотят показать, как можно, базируясь 
на корпусах, работать с реальным языковым материалом быстрее 
и эффективнее. В этом разделе приведены примеры исследований 
лишь в нескольких областях лингвистики — лексикографии, грамматике и анализе дискурса. Безусловно, сфера применения корпусных данных в лингвистике значительно шире. 
В приложении приведен краткий глоссарий терминов корпусной лингвистики.
Надеемся, что студенты направления «Лингвистика» заинтересуются использованием корпусов независимо от сферы их научных интересов, а каждый преподаватель найдет в учебнике то, о чем 
нужно говорить его аудитории. 

Авторы выражают искреннюю благодарность заведующему 
кафедрой математической лингвистики СПбГУ Александру Сергеевичу Герду за критические замечания и рекомендации, сделанные 
в процессе подготовки учебника.

Часть 1

Введение в корпусную лингвистику

Глава 1. Основные понятия корпусной 
лингвистики

1.1. Определение корпусной лингвистики

Корпусная лингвистика — раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением 
компьютерных технологий. Под лингвистическим, или языковым, 
корпусом текстов (или обычно просто корпусом текстов) понимается большой, представленный в машиночитаемом формате, унифицированный, структурированный, размеченный, филологически 
компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Имея в виду круг задач 
(подчас достаточно широкий), для решения которых создается тот 
или иной корпус, можно говорить, что корпус всегда прагматически 
ориентирован.
В настоящее время существует множество определений понятия 
«корпус». Например, определение, приведенное в учебнике Э. Финегана, гласит: корпус — репрезентативное собрание текстов, обычно 
в машиночитаемом формате, включающее информацию о ситуации, 
в которой текст был произведен, такую как информация о говорящем, авторе, адресате или аудитории [Finegan, 2004]. 
Википедия определяет корпусы как большие и структурированные наборы текстов (теперь обычно в электронном виде), которые 
используются для статистического анализа и проверки гипотез, подтверждения или обоснования лингвистических правил. 
Т. Мак-Энери и Э. Вилсон дают следующее определение: корпус — это собрание языковых фрагментов, отобранных в соответствии с четкими языковыми критериями для использования в качестве модели языка [McEnery, Wilson, 2001]. 
В приведенных определениях подчеркиваются основные черты 
современного корпуса текстов: цель («логическая идея», прагмати
Часть 1.  Введение в корпусную лингвистику

ческая ориентация), машиночитаемый формат, репрезентативность 
как результат особой процедуры отбора текстов, наличие металингвистической информации. Стандартизованное представление 
словесного материала на машинном носителе позволяет применять 
стандартные программы его обработки.
Целесообразность создания и смысл использования корпусов 
определяются следующими предпосылками:
• достаточно большой (репрезентативный) и сбалансированный объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых 
явлений;
• данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;
• однажды созданный и подготовленный массив данных может использоваться многократно, различными исследователями и в различных целях.

В понятие «корпус текстов» входит также система управления 
текстовыми и лингвистическими данными, которую называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). 
Это специализированная поисковая система, включающая в себя 
программные средства для поиска запрашиваемых данных в корпусе и предоставления их пользователю в удобной форме, а также для 
получения статистической информации.
Поиск в корпусе позволяет по любому слову построить конкорданс — список всех употреблений данного слова в контексте со 
ссылками на источник. 
Однако кроме этого корпусы могут использоваться для получения справок о характеристиках текста или лексических единиц, 
статистических данных о языковых единицах и о лингвистических 
категориях и метаданных (частоте словоформ, лексем, грамматических категориях, изменении частот и контекстов в различные периоды времени), данных о совместной встречаемости лексических 
единиц, жанрово-стилистических характеристиках и т. п. Эти статистические данные могут выдаваться непосредственно (например, 
частотный список), а могут использоваться для «внутренних» подсчетов и выдачи новых данных, непосредственно в корпусе не заложенных, например количественное выражение устойчивости соче
Глава 1. Основные понятия корпусной лингвистики

таний в тексте, парадигматическая (семантическая) кластеризация 
лексических единиц, выявление ключевых слов текста. 
Представительный массив языковых данных за определенный 
период позволяет изучать динамику процессов изменения лексического состава языка, проводить анализ лексико-грамматических характеристик в разных жанрах и у разных авторов. 
Лингвистов-исследователей все больше интересуют функции 
дополнительной, можно сказать, интеллектуальной обработки корпусных данных. И такие программы есть, они представляют собой 
уже не просто корпусный менеджер как информационно-поисковую систему фактографического типа, а сложный конгломерат программных, лингвистических, математических средств, обеспечивающий широкий набор разнообразных лингвистических функций. 
Мы предлагаем для этого понятия название «корпусная служба».

1.2. Предмет корпусной лингвистики

Сегодня корпусная лингвистика часто понимается как новая лингвистическая дисциплина, которая связана с изучением использования языка в реальной жизни с помощью компьютеров и электронных корпусов. Корпусная лингвистика имеет по крайней мере 
две черты, дающие ей основание претендовать на положение самостоятельной дисциплины: 1) характер используемого словесного 
материала, а именно размеченные тексты; 2) специфика инструментария. 
Если такие разделы лингвистики, как синтаксис, семантика 
и социолингвистика, имеют целью описание или оценку языковой 
структуры или языкового использования, то корпусная лингвистика является более широким понятием, методологией, которую 
можно применить ко многим аспектам как языковых исследований, так и не только языковых. Корпусные методы лежат в основе 
новой дисциплины, которая получила название «культурометрия» 
(culturomics) и распространяется на все области гуманитарных исследований.
Корпусную лингвистику называют «пучком методов из разных 
областей лингвистических исследований» [Lüdeling, Kytö, 2008]. Как 
метод лингвистического анализа корпусная лингвистика связана также с контрастивными исследованиями, направленными на установление фактов общего и отдельного между языками, диалектами или 

Часть 1.  Введение в корпусную лингвистику

вариантами языка в ходе их сопоставительного изучения [Гвишиани, 
2008]. Многие виды лингвистического анализа наилучшим образом 
развиваются на прочной и обширной базе эмпирических данных.
Задаваясь вопросом о месте корпусной лингвистики в лингвистике вообще, видимо, правильнее всего будет сказать, что это методология лингвистического исследования, применимая практически 
к любой области лингвистики. Однако существует и другой взгляд: 
корпусная лингвистика — это, собственно, и есть настоящая научная лингвистика. В англоязычной литературе эти подходы — корпусная лингвистика как методология лингвистики и как отдельная 
наука — получили название corpus-based (корпусно-ориентированный подход) и corpus-driven (корпусно-управляемый подход).
Первый подход предполагает, что корпусы используются для 
проверки лингвистических теорий или гипотез, чтобы их подкрепить, подтвердить, опровергнуть или уточнить. Второй подход провозглашает, что корпус сам является главным и единственным источником наших теорий о языке, корпусная лингвистика получает 
здесь статус теории [Tognini-Bonelli, 2001, р. 1] и рассматривается 
как «важнейший концепт в лингвистической теории» [Stubbs, 1993, 
р. 24]. Это значит, что корпус неявно содержит в себе теорию языка 
и нужно ее оттуда только «добыть» [Sinclair, 2004, р. 191]. «Теория не 
существует независимо от данных» [Tognini-Bonelli, 2001, р. 84–85]. 
Это понимание возвращает нас к работам американских структуралистов первой трети XX в. 
В недрах корпусной лингвистики этот подход называют неоферсианским (neo-Firthian), так как он сильно связан с понятием коллокации, введенным Дж. Р. Фёрсом (Firth). Может быть, самой знаменитой цитатой в корпусной лингвистике является высказывание 
Дж. Р. Фёрса: «Вы поймете слово по его окружению» (“You shall know 
a word by the company it keeps”) [Firth, 1957, р. 11]. Суть этого подхода заключается в том, что значение слова (равно как и другие лингвистические концепты) существует только в контексте (в тексте). 
Предполагается, что аналитик, исследующий данные, не использует 
никаких априори установленных теоретических концепций. Другой краеугольный камень подхода неоферсианцев к изучению языка — это понятие дискурса. Дискурс для них — это не только текст, 
«практика» языка, но и способ реализации самого языка или подъязыка, не только способ говорения, но и способ мышления. И здесь 
воззрения ученых, исповедующих это направление и использующих 

Доступ онлайн
229 ₽
195 ₽
В корзину