Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Моделирование в корпусной лингвистике: специализированные корпусы русского языка

Покупка
Основная коллекция
Артикул: 733821.01.99
Доступ онлайн
249 ₽
В корзину
Монография содержит описание средств и методов, принципов и процедур создания корпусов языков для специальных целей, в том числе для исследования языка и решения практических лексикографических, учебных и других задач. В книге рассмотрены основные параметры специальных корпусов текста, возможности их варьирования и взаимосвязь с типами лингвистических задач. Проведен анализ существующих стандартов корпусной лингвистики, разработаны программные средства морфологической разметки. Книга предназначена для специалистов по корпусной лингвистике, а также для лингвистов, использующих корпусы в своей работе. Может стать подспорьем в преподавании дисциплин, относящихся к автоматизированной обработке текста.
Моделирование в корпусной лингвистике: специализированные корпусы русского языка : монография / В. П. Захаров, И. В. Азаров, О. А. Митрофанова [и др.]. - СПб : Изд-во С.-Петерб. ун-та, 2019. - 208 с. - ISBN 978-5-288-05902-5. - Текст : электронный. - URL: https://znanium.com/catalog/product/1080953 (дата обращения: 25.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Ответственный редактор В. П. Захаров

МОДЕЛИРОВАНИЕ  
В КОРПУСНОЙ ЛИНГВИСТИКЕ 

Специализированные корпусы  
русского языка

ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

УДК 81-33
ББК 81.1
 
М74

Реценз ен ты:  д-р филол. наук C. А. Кузнецов,  
 
(С.-Петерб. гос. ун-т);
 
д-р техн. наук А. А. Карпов 
 
(С.-Петерб. ин-т информат. и автоматиз. РАН)

Рекомендовано к публикации научной комиссией  
в области наук о языках и литературе  
Санкт-Петербургского государственного университета

М74
Моделирование в корпусной лингвистике: специализированные корпусы русского языка / В. П. Захаров, И. В. Азарова, О. А. Митрофанова, А. М. Попов, М. В. Хохлова; отв. ред. 
В. П. Захаров. — СПб.: Изд-во С.-Петерб. ун-та, 2019. — 208 с. 
ISBN 978-5-288-05902-5

Монография содержит описание средств и методов, принципов и процедур создания корпусов языков для специальных целей, в том числе для 
исследования языка и решения практических лексикографических, учебных и других задач. В книге рассмотрены основные параметры специальных корпусов текста, возможности их варьирования и взаимосвязь с типами лингвистических задач. Проведен анализ существующих стандартов 
корпусной лингвистики, разработаны программные средства морфологической разметки. 
Книга предназначена для специалистов по корпусной лингвистике, 
а также для лингвистов, использующих корпусы в своей работе. Может 
стать подспорьем в преподавании дисциплин, относящихся к автоматизированной обработке текста.

УДК 81-33
ББК 81.1

Работа выполнена по проекту «Модель программно-лингвистического 
комплекса для создания и использования специализированных корпусов 
русского языка» в рамках мероприятия «Проведение фундаментальных научных 
исследований по приоритетным направлениям Программы развития СПбГУ»

  
© Санкт-Петербургский 
 
 
государственный университет, 2019
ISBN 978-5-288-05902-5 
© Авторы, 2019

ОГЛАВЛЕНИЕ

Предисловие  ................................................................................................... 
7

Введение  ......................................................................................................... 
9

Глава 1.  КОРПУСЫ СПЕЦИАЛЬНЫХ ТЕКСТОВ ............................ 
11
1.1.  Понятие «язык для специальных целей»  
и «специальный текст» .......................................................... 
11
1.2.  Создание специальных корпусов  
как многокритериальная теоретическая задача ............. 
12
1.3.  Варьирование объема и баланс корпуса  .......................... 
12
1.4.  Варьирование тематических и жанровых  
характеристик корпуса.......................................................... 
15
1.5.  Структура и текстовые единицы корпуса ........................ 
15
1.6.  Специальная обработка текстов корпуса ......................... 
16
1.7.  Разметка текстов корпуса ..................................................... 
18

Глава 2.  СЕРВИС КОРПУСНОГО МЕНЕДЖЕРА  ............................ 
19
2.1.  Функции корпусных менеджеров....................................... 
19
2.2.  Выбор корпусного менеджера ............................................. 
23

Глава 3. 
ВАРЬИРОВАНИЕ ОСНОВНЫХ ПАРАМЕТРОВ 
ПРИМЕНИТЕЛЬНО К РАЗЛИЧНЫМ 
ТИПАМ СПЕЦИАЛЬНЫХ КОРПУСОВ  ............................ 
28
3.1.  Корпус терминологических текстов  ................................. 
28
3.2.  Корпус современных текстов для использования 
в качестве фонового  .............................................................. 
31

Оглавление

Глава 4. 
РАЗМЕТКА КОРПУСОВ .......................................................... 
33
4.1.  Стандартизация в корпусной лингвистике ..................... 
33
4.2.  Международные стандарты корпусной лингвистики ... 
34
4.3.  Разработка наборов метаданных ........................................ 
35
4.4.  Рекомендации проекта Text Encoding Initiative  .............. 
36
4.5.  Структура текста TEI............................................................. 
37
4.6.  Рекомендации TEI по созданию языковых корпусов .... 
38

Глава 5. 
ФОРМАТЫ ЛИНГВИСТИЧЕСКОЙ РАЗМЕТКИ ............. 
48
5.1.  Лингвистическая разметка .................................................. 
48
5.2.  Форматные средства разметки ............................................ 
48
5.3.  Металингвистичеcкое наполнение форматов ................. 
62

Глава 6. 
ОПТИМИЗАЦИЯ ПАРАМЕТРОВ 
МОРФОСИНТАКСИЧЕСКОЙ АННОТАЦИИ ................ 
76
6.1.  Система грамматических классов  
и подклассов слов в русском языке  ................................... 
76
6.2.  Оптимизация синтаксической аннотации в корпусах 
текстов ....................................................................................... 
82
6.3.  Соотношение значений параметров морфологической 
и синтаксической аннотации .............................................. 
84

Глава 7. 
ПРОГРАММНЫЕ СРЕДСТВА  
МОРФОЛОГИЧЕСКОЙ РАЗМЕТКИ ................................... 
86
7.1.  Принцип работы систем морфологического анализа, 
основанных на правилах ...................................................... 
86
7.2.  Реализация компьютерной морфологии  
для русского языка ................................................................. 
87
7.3.  Разработка конверторов форматов .................................... 
89

Глава 8. 
СОЗДАНИЕ СПЕЦИАЛЬНЫХ КОРПУСОВ  
ТЕКСТОВ ..................................................................................... 
100
8.1.  Проектирование и технологический процесс создания 
корпуса ...................................................................................... 
100
8.2.  Установка системы NoSketch Engine .................................. 
102
8.3.  Загрузка корпусов в систему NoSketch Engine ................ 
105

Оглавление

8.4.  Выбор тематических подобластей и отбор текстов ....... 
107
8.5.  Подготовка данных для корпусов специальных 
текстов ....................................................................................... 
109
8.6.  Альтернативные способы создания корпусов ................ 
111

Глава 9. 
СОЗДАНИЕ ФОРМАЛЬНОЙ МОДЕЛИ ВЫДЕЛЕНИЯ 
ТЕРМИНОВ И ТЕРМИНОЛОГИЧЕСКИХ 
СЛОВОСОЧЕТАНИЙ ИЗ КОРПУСОВ ............................... 
113
9.1.  Термины и специальные тексты ......................................... 
113
9.2.  Методы выделения прототипов терминов в корпусах 
специальных текстов ............................................................. 
114

Глава 10. АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ КЛЮЧЕВЫХ 
СЛОВ И СЛОВОСОЧЕТАНИЙ В КОРПУСАХ 
СПЕЦИАЛЬНЫХ ТЕКСТОВ .................................................. 
119
10.1. Постановка задачи ................................................................. 
119
10.2. Основные результаты автоматической обработки 
корпусов специальных текстов ........................................... 
120

Глава 11. ЭКСПЕРИМЕНТЫ ПО АВТОМАТИЧЕСКОМУ 
ВЫЯВЛЕНИЮ ТЕРМИНОЛОГИЧЕСКИХ 
СЛОВОСОЧЕТАНИЙ С ИСПОЛЬЗОВАНИЕМ 
СТАТИСТИЧЕСКИХ МЕТОДОВ 
И СРАВНИТЕЛЬНОГО КОРПУСА....................................... 
124
11.1. Терминологическая грамматика в Sketch Engine ............ 
125
11.2. Эксперименты и их оценка  ................................................. 
129

Глава 12. СОЗДАНИЕ ПОДКОРПУСА С СЕМАНТИЧЕСКОЙ 
РАЗМЕТКОЙ НА БАЗЕ ДАННЫХ НКРЯ ДЛЯ 
ПРОВЕДЕНИЯ ПРОЦЕДУРЫ АВТОМАТИЧЕСКОГО 
ВЫДЕЛЕНИЯ КОНСТРУКЦИЙ  ........................................... 
135

Заключение ...................................................................................................... 
139
Литература ....................................................................................................... 
141
References  ......................................................................................................... 
148

Приложение 1. Глоссарий............................................................................. 
156

Приложение 2. Список словосочетаний по теме «терроризм», 
выделенных по текстам сайтов  северокавказских 
сепаратистов ................................................................................ 
167

Оглавление

Приложение 3. Список словосочетаний по теме «терроризм», 
выделенных по текстам официальной печати ..................... 
175

Приложение 4. Корпус по энергетике в вертикальном формате 
(фрагмент) .................................................................................... 
184

Приложение 5. Грамматика лексико-синтаксических шаблонов  
для русского языка ..................................................................... 
192

Приложение 6. Термины и терминологические сочетания, 
выделенные автоматически из корпуса  
по энергетике ............................................................................... 
197

ПРЕДИСЛОВИЕ 

Монография содержит описание принципов и процедур создания 
корпусов языков для специальных целей. Специализированные 
подъязыки (языки для специальных целей) являются функциональными разновидностями языка, призванными обеспечить адекватное и эффективное общение специалистов в определенной предметной области. Особо важное место они занимают в системах автоматической обработки текста. 
Методология исследования базируется на декомпозиции корпусной технологии на отдельные блоки и выработку требований 
к программно-лингвистическому обеспечению каждого из них 
с учетом существующих стандартов и типовых проектных решений. 
В работе со специальными корпусами применяются констраcтивный 
анализ, дистрибутивно-статистические методы. Материал и инструмент исследования — существующие и специально создаваемые 
корпусы с лингвистической разметкой и корпусные лингвистические процессоры.
В исследовании рассмотрены основные параметры специальных корпусов текста, возможности их варьирования и взаимосвязь 
с типами лингвистических задач. Проведен анализ существующих 
международных стандартов корпусной лингвистики, разработаны программные средства морфологической разметки. Выделены 
и описаны формальные признаки научного термина, адаптированы 
рекомендации проекта Text Encoding Initiative (TEI) для работы со 
специальными корпусами, выработаны подходы к аналитико-лингвистической разметке, используемой в различных языковых исследованиях. Разработаны автоматизированные процедуры выделения 
терминов и терминологических словосочетаний из специальных 
корпусов, процедуры автоматического построения каталога русских 
конструкций. Предложенная методология может применяться при 
создании корпусов текстов и исследовании лексики и семантики 
языков для специальных целей.

Предисловие 

Собраны коллекции текстов по разным предметным областям. 
Отработана технология предварительной обработки и унификации 
текстов. На основе отдельных подмножеств этой библиотеки созданы корпусы под управлением корпусных менеджеров NoSketch Engine, Sketch Engine и AntConc и ведутся работы в области компьютерной терминологии. Частично эти исследования описаны в данной монографии.
Монография написана сотрудниками кафедры математической 
лингвистики СПбГУ и является результатом работы над научно-исследовательским проектом СПбГУ «Модель интегрированного программно-лингвистического комплекса для создания специализированных корпусов русского языка». 
Монография состоит из предисловия, введения, 12 глав, заключения, списка литературы (87 названий) и 6 приложений. В число 
приложений входит глоссарий терминов. Авторский вклад в написание текста монографии распределяется следующим образом: 
В. П. Захаров — главы 1, 2, 3, 4, 5, 8, 9, Глоссарий терминов; И. В. Азарова — главы 1, 3, 6, 9; О. А Митрофанова — главы 2, 10, 12; А. М. Попов — главы 5, 7; М. В. Хохлова — главы 2, 11. В написании главы 8 
принимал участие А. В. Добров.
Монография предназначена для широкого круга специалистов 
по корпусной лингвистике, а также для лингвистов, использующих 
корпусы в своей работе. Может быть использована как учебное пособие в преподавании дисциплин, относящихся к автоматизированной обработке текста.

ВВЕДЕНИЕ

Основная тема монографии — моделирование источниковедческой 
базы исследований языков для специальных целей. В настоящее время огромное развитие получили корпусы текстов как инструменты 
лингвистического анализа и корпусная лингвистика как особое 
направление в фундаментальной и прикладной лингвистике. Все 
современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов. Развитие корпусной лингвистики совпало с развитием современных интеллектуальных программных систем, предназначенных для обработки текстов 
на естественном языке и требующих большой экспериментальной 
лингвистической базы. 
Поиск в корпусе текстов позволяет по любому слову построить 
конкорданс — список всех употреблений данного слова в контексте 
со ссылками на источник. Корпусы могут использоваться для получения разнообразных справок и статистических данных о языковых и речевых единицах. Например, на основе корпусов можно 
получить данные о частоте словоформ, лексем, грамматических 
категорий, проследить изменение частот и контекстов в различные 
периоды времени, получить данные о совместной встречаемости 
лексических единиц. Корпусы призваны служить также источником и инструментом многоаспектных лексикографических работ по 
подготовке разнообразных исторических и современных словарей. 
Данные корпусов могут быть использованы для построения и уточнения грамматик и в целях обучения языку. 
Важное место в лингвистике и в информационных технологиях занимают специализированные подъязыки (по-другому — языки 
для специальных целей). Это понятие используется для обозначения функциональной разновидности языка, призванной обеспечить 
адекватное и эффективное общение специалистов в определенной 
предметной области [The Encyclopedia… 2004, p. 2011]. Однако в на
Введение

стоящее время это понятие должно быть расширено и на область 
систем автоматической обработки текста. Понятие языка для специальных целей родственно с такими понятиями, как «подъязык», 
«функциональный стиль», «регистр», «жанр» и др. С лингвистической точки зрения эти языки, с одной стороны, понимаются как 
ограниченный набор лексических и грамматических конструкций, 
с другой стороны, они имеют свои особенности по синтаксису, семантике, формальным характеристикам, которые требуют особого 
изучения, и своего экспериментального материала — корпусов текстов. Практика разработки и применения электронных корпусов 
текстов показала, что невозможно создать универсальный корпус, 
обеспечивающий решение всех задач. Задачи и цели любого исследования определяют тип корпуса, правила отбора текстов и способ 
и степень их обработки. Корпусы всегда создаются под определенную задачу или круг задач. Эта задача определяет как наполнение 
корпуса текстами, так и разметку корпуса. Идея специализации корпуса (в противоположность универсализации) как подстройки его 
параметров под определенную задачу в свое время была сформулирована А. С. Гердом и В. П. Захаровым [Герд, Захаров 2004а; 2004б].
Среди специальных текстов можно выделить ядерные и периферийные. Ядерные — это прежде всего научные тексты, насыщенные 
специфической лексикой, отсутствующей в общих словарях. Сюда 
же относятся специфические виды научно-технических документов, 
такие как патенты, стандарты и т. п. К периферийным текстам можно отнести научно-популярные тексты c меньшей концентрацией 
специфической лексики, тексты юридического характера и различные тексты так называемой деловой прозы. И те, и другие имеют 
свою специфику. 
При проектировании корпуса должен быть решен ряд вопросов, касающихся наполнения и структуры корпуса. Создание корпуса предполагает средства подготовки и загрузки текстов в корпус. 
Характерная особенность современных корпусов — наличие в текстах специальной разметки, которая заключается в приписывании 
текстам и их компонентам дополнительной информации (метаданных), записанной в определенном формате. Корпус текстов предполагает специализированную систему управления данными — корпусный менеджер, обеспечивающий функциональные возможности использования корпуса. Все эти и другие вопросы освещаются 
в данной монографии.

Глава 1

КОРПУСЫ СПЕЦИАЛЬНЫХ ТЕКСТОВ

1.1. Понятие «язык для специальных целей» 
и «специальный текст»

В последнее время в лингвистической литературе широкое распространение получило понятие «язык для специальных целей» 
(language for specific purposes — LSP). Это понятие, как правило, используется для обозначения функциональной разновидности языка, призванной обеспечить общение специалистов в определенной 
предметной области. Это функциональная разновидность литературного языка, обслуживающая профессиональную сферу общения. 
Текст на таком языке — это текст, в котором аккумулировано и сохранено специальное знание. Подробнее см. [Гвишиани 2013; Герд 
2011; Кудашев 2007; Москаленко 2017; Хомутова 2016]. 
Тексты языков для специальных целей, или специализированных подъязыков (далее будем называть их специальные тексты), 
недостаточно полно отражены в общенациональных корпусах 
(в частности, в корпусах русского языка) и требуют создания для 
них соответствующих специальных корпусов в качестве отдельных 
объектов анализа. Согласно определению А. С. Герда: «Специальный 
текст — это текст, основное содержание которого составляет то или 
иное профессиональное знание…» [Герд 2011, с. 21]. Особенности 
профессионального знания и, соответственно, текстов специализированных подъязыков определяются жанром, типом источника, 
формой представления, временем создания, тематикой и др. (полную, но не исчерпывающую типологию специальных текстов см. 
в работе [Герд 2011, с. 30–34]). В данной работе под специальным 
текстом имеются в виду прежде всего ядерные тексты — научные, 
а также относящиеся к определенному виду или типу (патенты, 
стандарты, ГОСТы и т. п.). 

Глава 1.  Корпусы специальных текстов

1.2. Создание специальных корпусов  
как многокритериальная теоретическая задача

Специальный корпус в нашем понимании является не только набором специальных текстов, но и отражением в каком-либо из своих 
параметров специфики конкретной лингвистической задачи. Например, для задач автоматического выделения терминов из текстов 
некоторой предметной области будет необходимо создать корпус 
текстов по данной проблематике, причем трудно перечислимое 
множество тематических областей потребует столь же большого 
разнообразия корпусов текста. При этом, возможно, потребуется 
задать тип и назначение словаря, который будет создаваться на базе 
корпуса. В свою очередь, задача извлечения мнений из текста также потребует создания специальных корпусов текста, в которых будут представлены тональные совокупности текстов. С нашей точки 
зрения, важно понять, какие параметры корпусов являются существенными, в какой степени их можно и нужно варьировать, какие 
инструменты необходимы для технологической и лингвистической 
поддержки такого варьирования.
Общие направления варьирования можно представить следующим образом:
1) увеличение объема корпуса по определенной тематике (тематика в широком смысле может быть задана в терминах 
предметных областей, жанров, хронологических периодов 
и т. п.);
2) изменение пропорций текстов и их объемов в сторону максимальной репрезентативности в рамках тематической 
специфики корпуса;
3) совершенствование и обогащение разметки текстов, которая 
должна отвечать типу текстов и конкретным решаемым задачам;
4) варьирование программного обеспечения и сервиса.

1.3. Варьирование объема и баланс корпуса 

Представительность корпуса получила название репрезентативности, а соотношение его отдельных частей (по разным характеристикам) — сбалансированности. В настоящее время считается, что 

1.3. Варьирование объема и баланс корпуса 

общеязыковой (национальный) корпус должен включать не менее 
100 млн словоупотреблений. Имеются разные подходы к определению репрезентативности. Во многом она зависит от типа корпуса 
и решаемых на его основе задач. Минимальный объем специальных 
корпусов может быть рассчитан путем измерения насыщенности 
частотного словаря (относительные частоты лексем не меняются 
или меняются незначительно). Сбалансированность корпуса невозможно рассчитать и описать строго математически, к чему, однако, 
нужно стремиться как на этапе проектирования корпуса, так и на 
этапе его эксплуатации. Именно репрезентативность и сбалансированность корпуса определяют достоверность полученных на его 
материале результатов. 
Можно сказать, что корпус — это уменьшенная модель языка 
или, в нашем случае, подъязыка. Под сбалансированностью понимается необходимо-достаточное и пропорциональное представление 
в корпусе различных текстов данной проблемной области или данного типа, т. е. способность отражать все свойства изучаемого подъязыка, для чего требуется эксплицитное описание документальных 
источников, имеющих отношение к решаемой задаче. Эта проблема 
рассматривается как проблема адекватного отражения, адаптации 
или отображения больших массивов текстов или некоторых иных 
фрагментов речевой деятельности на существенно меньший по объему корпус текстов. Методология конструирования такого объекта, 
как специальный корпус, должна зависеть от типа корпуса и корректно отражать частные, единичные лингвистические феномены 
в корпусе текстов. 
Цели создания и методы использования корпуса должны быть 
явно поставлены на этапе проектирования. Решаться же они, по 
крайней мере некоторые из них, могут постепенно в процессе создания и опытной эксплуатации корпуса. Создание сбалансированного 
специального корпуса может быть обеспечено методом последовательного приближения. Невозможно сразу идеально сбалансировать 
корпус только на основе экстралингвистических характеристик. 
Сначала создается представительная работающая модель. Затем 
данный корпус используется и анализируется с учетом характеристик выполняемой задачи. В результате обратной связи корпус совершенствуется посредством добавления или удаления материала. 
Таким образом, существует необходимость в наличии подходящего механизма, обеспечивающего обратную связь с пользователями. 

Глава 1.  Корпусы специальных текстов

Все, что может сделать создатель корпуса в начале пути — это попытаться чересчур не «отклонять» корпус в каком-то одном направлении. 
Неразумно ждать, пока кто-то по-научному сбалансирует корпус, перед тем как его использовать, и неосмотрительно было бы 
оценивать результаты анализа корпуса как малодостоверные или 
неуместные просто потому, что нельзя доказать, что используемый 
корпус сбалансирован. Опыт учит, что лучше стремиться к первоначальной записи наиболее важного набора признаков и значений, 
которые впоследствии могут расшириться, как только позволят ресурсы. Регулирование баланса корпуса, как правило, выполняется 
только после его создания или, по крайней мере, создания функциональной модели.
Параллельно с работой над источниками создание каждого 
подкорпуса требует детального изучения информационных потребностей пользователей, особенно если корпус предназначен для 
применения его в режиме открытого доступа. В конечном счете целесообразность и успешность разработки каждого такого корпуса, 
помимо чисто «лингвотехнологических» оценок, будет определяться 
по числу обращений к корпусу и его востребованности. От пользователей и решаемых задач также зависит глубина анализа и аннотации текстов на входе.
В коллективной исследовательской деятельности каждый исследователь вправе выдвигать и обосновывать свое видение задачи 
и свой проект соответствующего подкорпуса. Для совмещения этих 
подчас противоречивых требований особенно важно иметь систему, в которой была бы предусмотрена совместимость форматов 
и метаданных с учетом их эволютивности. 
Когда говорят о сбалансированном корпусе, то понимают также сбалансированность его по возможностям: тонко налаженный 
корпус предполагает модель программно-лингвистического инструмента, поддающуюся настройке и регулированию. 
Важным является вопрос оценки пригодности корпуса для решения широкого круга задач. Эта оценка является отчасти эмпирической и связывает определенные характеристики корпуса (в том 
числе и способы его подготовки) с типами реализуемых заданий. 
Эти параметры принято называть стандартами оценки.

Доступ онлайн
249 ₽
В корзину