Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Основы квантитативной лингвистики и новых информационных технологий

Покупка
Артикул: 636398.04.99
Доступ онлайн
175 ₽
В корзину
Учебное пособие содержит теоретический и практический материал, задания для самостоятельной работы, глоссарий по дисциплине «Квантитативная лингвистика и новые информационные технологии». В теоретическую часть включен материал, связанный с особенностями использования квантитативных методов в лингвистических исследованиях. Практическая часть содержит задания, направленные на обобщение знаний, отработку умений и навыков, необходимых для проведения лингвостатистических исследований на базе новых информационных технологий. Для студентов лингвистических факультетов высших образовательных учреждений, а также аспирантов и соискателей, работающих над проблемами лингвистики, преподавателей-филологов и лингводидактов.
Гребенщикова, А. В. Основы квантитативной лингвистики и новых информационных технологий : учебное пособие / А. В. Гребенщикова. - 3-е изд., стер. - Москва : ФЛИНТА, 2018. - 152 с. - ISBN 978-5-9765-2137-7. - Текст : электронный. - URL: https://znanium.com/catalog/product/1142454 (дата обращения: 29.03.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
A.В.  Гребенщикова

ОСНОВЫ 
КВАНТИТАТИВНОЙ
ЛИНГВИСТИКИ 
И НОВЫХ ИНФОРМАЦИОННЫХ
ТЕХНОЛОГИЙ

Учебное пособие

3-е издание, стереотипное

Рекомендовано Учебно-методическим объединением 
по образованию в области лингвистики 
Министерства образования и науки 
Российской Федерации в качестве учебного пособия 
для студентов, обучающихся по направлению подготовки 
магистров «Лингвистика»

Москва
Издательство «ФЛИНТА»
2018

УДК 81´32:81´33(075.8)
ББК 81.1-5-923
         Г79

Г79

Гребенщикова А.В
   Основы квантитативной лингвистики и новых информационных 
технологий : учеб. пособие  /  А.В. Гребенщикова. – 3-е изд., стер. –М. : 
ФЛИНТА, 2018. – 152 с.

ISBN 978-5-9765-2137-7 

Учебное пособие содержит теоретический и практический мате
риал, задания для самостоятельной работы, глоссарий по дисциплине 
«Квантитативная лингвистика и новые информационные технологии». В теоретическую часть включен материал, связанный с особенностями использования квантитативных методов в лингвистических 
исследованиях. Практическая часть содержит задания, направленные 
на обобщение знаний, отработку умений и навыков, необходимых 
для проведения лингвостатистических исследований на базе новых 
информационных технологий.

Для студентов лингвистических факультетов высших образова
тельных учреждений, а также аспирантов и соискателей, работающих над проблемами лингвистики, преподавателей-филологов и 
лингводидактов.

УДК 81´32:81´33(075.8)
ББК 81.1-5-923

ISBN 978-5-9765-2137-7
© Издательство «ФЛИНТА», 2014
© Гребенщикова А.В., 2014

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ . ........................................................................................................6

1. КВАНТИТАТИВНАЯ ЛИНГВИСТИКА 

КАК НАПРАВЛЕНИЕ ОБЩЕГО ЯЗЫКОЗНАНИЯ..

.................................................9 1.1. Понятие «квантитативная лингвистика» 

и взаимосвязь дисциплины с другими науками . .....................................9

1.2. История взаимодействия математики и лингвистики. Математическая 
(комбинаторная и квантитативная) лингвистика ....11

1.3. Характеристика квантитативных методов в лингвистике 

и их роль ...................................................................................................15

1.4. Основные области применения структурно-вероятностной 

модели языка ............................................................................................20
Вопросы для самоконтроля .....................................................................22
Основные теоретические аспекты для обсуждения .. ..........................22
Список рекомендуемой литературы . .....................................................23
Практические задания .............................................................................23
Задания для самостоятельной работы . . ................................................23

2. ПОНЯТИЕ И СУЩНОСТЬ ЛИНГВОСТАТИСТИЧЕСКОГО АНАЛИЗА.
КЛЮЧЕВЫЕ ПОНЯТИЯ КВАНТИТАТИВНОЙ ЛИНГВИСТИКИ . ....24

2.1. Условия успешного осуществления лингвостатистического 

анализа .. . .................................................................................................24

2.2. Понятие статистического закона и вероятности . . . .............................26
2.3. Понятие цели и единицы лингвостатистического анализа .................29
2.4. Методика сбора информации для лингвостатистического анализа .
..................30 2.5. Минимально-необходимые статистические инструменты: 

частота, генеральная и выборочная совокупности .. ...........................31
Вопросы для самоконтроля .....................................................................34
Основные теоретические аспекты для обсуждения .. ..........................34
Список рекомендуемой литературы . . ...................................................35
Практические задания .............................................................................35
Задания для самостоятельной работы . . ................................................38

Р е ц е н з е н т:

д-р филол. наук, профессор, академик Международной академии 
информатизации, директор Института прикладной и математической 
лингвистики Р.К. Потапова

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ . ........................................................................................................6

1. КВАНТИТАТИВНАЯ ЛИНГВИСТИКА  
КАК НАПРАВЛЕНИЕ ОБЩЕГО ЯЗЫКОЗНАНИЯ ...................................9
1.1. Понятие «квантитативная лингвистика»  
и взаимосвязь дисциплины с другими науками ......................................9
1.2. История взаимодействия математики и лингвистики.  
Математическая (комбинаторная и квантитативная) лингвистика ....11
1.3. Характеристика квантитативных методов в лингвистике  
и их роль ...................................................................................................15
1.4. Основные области применения структурно-вероятностной  
модели языка ............................................................................................20
Вопросы для самоконтроля .....................................................................22
Основные теоретические аспекты для обсуждения .............................22
Список рекомендуемой литературы . .....................................................23
Практические задания .............................................................................23
Задания для самостоятельной работы . ..................................................24

2. ПОНЯТИЕ И СУЩНОСТЬ ЛИНГВОСТАТИСТИЧЕСКОГО 
АНАЛИЗА. КЛЮЧЕВЫЕ ПОНЯТИЯ КВАНТИТАТИВНОЙ 
ЛИНГВИСТИКИ ..........................................................................................25
2.1. Условия успешного осуществления лингвостатистического  
анализа ......................................................................................................25
2.2. Понятие статистического закона и вероятности ..................................27
2.3. Понятие цели и единицы лингвостатистического анализа .................30
2.4. Методика сбора информации для лингвостатистического анализа ......31
2.5. Минимально-необходимые статистические инструменты:  
частота, генеральная и выборочная совокупности ..............................32
Вопросы для самоконтроля .....................................................................35
Основные теоретические аспекты для обсуждения .............................35
Список рекомендуемой литературы . .....................................................36
Практические задания .............................................................................36
Задания для самостоятельной работы . ..................................................39

3. КЛЮЧЕВЫЕ ПОНЯТИЯ КВАНТИТАТИВНОЙ  
ЛИНГВИСТИКИ .........................................................................................40
3.1. Проблема репрезентативности лингвистической выборки .................41
3.2. Выборочная частота, средняя частота и отклонение от средней 
частоты .....................................................................................................42
3.3. Проблема определения рационального объема выборки ....................47
Вопросы для контроля ............................................................................49
Основные теоретические аспекты для обсуждения .............................50
Список рекомендуемой литературы ......................................................50
Практические задания ............................................................................51
Задания для самостоятельной работы ...................................................51

4. КВАНТИТАТИВНЫЕ ИССЛЕДОВАНИЯ ЛЕКСИКИ.  
ЗАКОН ЦИПФА — МАНДЕЛЬБРОТА ....................................................54
4.1. Значение количественных и статистических методов  
в исследовании лексики .........................................................................54
4.2. Частота как характеристика употребительности слова в тексте. 
Частотные словари, модель «ранг-частота» .........................................56
4.3. Закон Ципфа. Уточнение закона Ципфа: закон Ципфа — 
Мандельброта ..........................................................................................58
4.4. Другие закономерности в функционировании лексики ......................63
Вопросы для контроля ............................................................................65
Основные теоретические аспекты для обсуждения .............................65
Список рекомендуемой литературы ......................................................66
Практические задания ............................................................................66
Задания для самостоятельной работы ...................................................67

5. КОРПУСНАЯ ЛИНГВИСТИКА. НАЦИОНАЛЬНЫЕ КОРПУСЫ 
ТЕКСТОВ .....................................................................................................72
5.1. Корпусная лингвистика как наука. Понятие «корпус текста» ............72
5.2. Классификация корпусов........................................................................74
5.3. Особенности применения корпусов текстов ........................................78
5.4. Национальные корпусы текстов ............................................................80
Вопросы для контроля ............................................................................84
Основные теоретические аспекты для обсуждения .............................84
Список рекомендуемой литературы ......................................................85
Практические задания ............................................................................85
Задания для самостоятельной работы ...................................................90

6. НАПРАВЛЕНИЯ ЛИНГВИСТИКИ, ИСПОЛЬЗУЮЩИЕ 
СТАТИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТА. АТРИБУЦИЯ ......................94
6.1. Понятие стилеметрии и атрибуции. Область их применения .............95
6.2. История развития автороведения и стилеметрии .................................97
6.3. Основные аспекты процесса атрибуции текста ..................................101
6.4. Обзор программного обеспечения для идентификации авторства 
текстов ....................................................................................................102
Вопросы для контроля ..........................................................................104
Основные теоретические аспекты для обсуждения ...........................104
Список рекомендуемой литературы ....................................................105
Практические задания ..........................................................................105

7. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ОБРАБОТКЕ ТЕКСТОВ. 
АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ И АННОТИРОВАНИЕ 
ТЕКСТОВ ...................................................................................................110
7.1. Обработка текстов на естественных языках и искусственный  
интеллект ...............................................................................................110
7.2. Реферат и аннотация текста. Общие понятия .....................................114
7.3. Автоматическое реферирование и аннотирование ............................116
7.4. Системы автоматического реферирования и аннотирования  
текстов ....................................................................................................121
Вопросы для контроля ..........................................................................122
Основные теоретические аспекты для обсуждения ...........................122
Список рекомендуемой литературы ....................................................123
Практические задания ..........................................................................123
Задания для самостоятельной работы .................................................129

ЗАКЛЮЧЕНИЕ ..............................................................................................139

ГЛОССАРИЙ .................................................................................................140

БИБЛИОГРАФИЯ..........................................................................................147

ВВЕДЕНИЕ

Учебное пособие опирается на теоретико-практический курс 
«Квантитативная лингвистика и новые информационные технологии» 
и представляет собой синтез существующей, но не описанной в достаточной мере информации в области квантитативной лингвистики, стоящей на стыке общей и частных лингвистик, лексикостатистики и  
прикладного языкознания. Пособие дает целостное представление об 
основных понятиях квантитативной лингвистики, целях и способах 
применения новых информационных технологий в процессе изучения 
иностранного языка, а также осуществления профессиональной переводческой деятельности. В нем рассматриваются проблемы использования новых информационных технологий в лингвистических исследованиях, раскрываются особенности применения вероятностных и 
статистических методов для обработки текстовой информации, приводятся примеры перспективных направлений лингвостатистического 
анализа, что позволит будущим лингвистам эффективно осуществлять 
профессиональную деятельность в условиях информационного общества.
Целью настоящей работы является формирование лингвоинформационной компетентности студентов, а именно: ознакомление с основами применения количественных методов в лингвистической практике 
в условиях информационной среды, развитие умений и навыков использования новых информационных технологий в профессиональной 
переводческой деятельности.
В рамках поставленной цели можно выделить ряд следующих  
задач:
 – ознакомить студентов с новой парадигмой в лингвистических 
исследованиях, сущностью предмета квантитативной линг- 
вистики и историей развития квантитативной лингвистики как 
науки;
 – дать представление о принципах построения частотных словарей, 
особенностях их использования в переводческой и исследовательской деятельностях, обеспечить развитие навыков построения частотных списков на основе программно-сетевых ресурсов, 

а также навыков работы с существующими электронными 
частотными словарями;
 – ознакомить студентов с концепциями корпусной лингвистики, 
дать им возможность освоить основы корпусных технологий, 
приобрести навыки работы с корпусами, определить место дисциплины и собственно корпусов в ряду информационных технологий;
 – систематизировать знания студентов в области автоматической 
обработки текстовой информации, дать представление об основах стилеметрии и атрибуции, отработать типичные операции по 
использованию экспертных программ в области психолингвистики;
 – ознакомить студентов с конкретными лингвостатистическими 
исследованиями, основанными на применении новых информационных технологий.
Учебное пособие состоит из введения, семи глав, заключения, глоссария и библиографического списка. Материал отсортирован по тематическому принципу.
Каждая глава знакомит с основными понятиями и терминами определенного раздела квантитативной лингвистики, историей его становления, его целями и задачами. В учебном пособии раскрываются особенности организации лингвостатистического анализа, применения 
корпусов текстов в учебных и исследовательских целях. Отдельное 
внимание уделяется вопросам построения и использования частотных словарей, основам автороведческой экспертизы, освещаются базовые процедуры автоматической обработки текста. Практические задания, представленные в учебном пособии, дают возможность обобщить знания, отработать отдельные практические умения и навыки  
в области применения квантитативных методов в лингвистических 
исследованиях, а также использования новых информационных  
технологий в рутинных переводческих действиях. В каждой главе 
представлены теоретические вопросы для обсуждения, список рекомендуемой литературы, практические задания, а также задания для 
самостоятельной работы. Глоссарий содержит подборку основополагающих понятий квантитативной лингвистики и представляет собой 
эффективный инструмент систематизации полученных в ходе изучения курса знаний.

Особенностью данного пособия является анализ современных программных продуктов в области обработки лингвистических данных, в 
результате знакомства с которыми студенты смогут самостоятельно 
применять их в научно-исследовательской и дальнейшей профессиональной деятельности. В общем смысле учебное пособие должно способствовать расширению представлений студентов об особенностях 
лингвостатистических исследований, совершенствованию умений самостоятельного научного поиска, анализа языкового материала, развитию навыков использования новых информационных технологий в условиях типовых лингвистических исследовательских задач.

1. КВАНТИТАТИВНАЯ ЛИНГВИСТИКА  
КАК НАПРАВЛЕНИЕ ОБЩЕГО 
ЯЗЫКОЗНАНИЯ

1.1. Понятие «квантитативная лингвистика»  
и взаимосвязь дисциплины с другими науками

Существует достаточно большое число определений понятия 
«лингвистика». В самом общем смысле термин происходит от латинского слова «lingua», что означает «язык» и понимается как наука о 
языке. Синонимами термина «лингвистика» являются языкознание, 
языковедение. В «Лингвистическом энциклопедическом словаре» 
лингвистика определяется как «наука о естественном человеческом 
языке вообще и обо всех языках мира как индивидуальных его представителях» [27]. Рассматривая понятие «лингвистика», Ю.С. Маслов 
пишет, что она «исследует сущность и природу языка, проблему его 
происхождения и общие законы его развития и функционирования» 
[32. С. 4]. Лингвистика изучает не только существующие (существовавшие или возможные в будущем) языки, но и человеческий язык вообще. Так как язык представляет собой весьма разнообразное и сложное явление, в лингвистике как науке о языке выделяется множество 
направлений, одним из которых является «квантитативная лингви- 
стика».
Название «квантитативная лингвистика» достаточно условно, хотя 
и довольно широко используется в современной научной литературе. 
Сам термин происходит от английского «quantitative linguistics» и часто понимается как количественная лингвистика. Обратимся к рассмотрению сущности данного термина.
Толковый переводоведческий словарь дает следующее определение термину: «Квантитативная лингвистика — это направление лингвистики, в рамках которого изучаются и эксплицируются лингвистиче
ские явления с помощью методов “количественной” математики (теория вероятностей, математическая статистика, теория информации, 
математический анализ и др.)». Одним из синонимов слова «квантитативная лингвистика» данный источник называет термин «статистическая лингвистика» или «лингвостатистика» [47].
Согласно большому энциклопедическому словарю Ю.С. Степанова, 
лингвистическая статистика, лингвостатистика — раздел языкознания, 
занимающийся статистическими методами количественных закономерностей в языке и речи [45].
Обращаясь к работам Р.Г. Пиотровского, мы видим, что квантитативная лингвистика рассматривается как «раздел общей лингвистики 
и, в частности, математической лингвистики. Квантитативная лингвистика занимается изучением процесса изучения языка, его изменения 
и сферы применения, а также структуры естественных языков» [37.  
С. 18].
К.Б. Бектаев, Р.Г. Пиотровский, анализируя данный термин, утвер- 
ждают, что в целом квантитативная лингвистика может рассматриваться как: 1) техника лингвистического наблюдения и описания, обработки данных наблюдения; 2) метод исследования языка и речи, не 
обязательно противополагаясь сопоставленному, сравнительно-историческому и другим методам языкознания; 3) концепция, система количественных идей и представлений об объекте лингвистической науки [37. С. 25].
Вместе с тем А.Н. Баранов отмечает, что квантитативная лингвистика как наука имеет прикладной характер и находится в тесном взаимодействии с другими смежными дисциплинами. Так, автор считает, 
что квантитативная лингвистика эмпирически основывается на результатах языковой статистики, которая, в свою очередь, может интерпретироваться как статистика языков или статистика лингвистического 
объекта. Таким образом, мы видим, что квантитативная лингвистика 
рассматривается в этом случае как направление лингвистики, отличное от лингвостатистики.
Кроме того, А.Н. Баранов подчеркивает взаимосвязь прикладной, 
корпусной, компьютерной и квантитативной лингвистик, отмечая, что 
корпусная и компьютерная лингвистики вносят свой вклад в квантитативную лингвистику, поставляя важные эмпирические данные  
[9. С. 26].

Итак, обобщая вышеизложенное, скажем, что квантитативная лингвистика:
1) имеет цель сформулировать законы, по которым функционирует язык, и в конечном счете построить общую теорию языка 
в виде совокупности взаимосвязанных законов функционирования языков;
2) совместно с другими лингвистическими дисциплинами участвует в решении задачи построения теории языка;
3) исследует язык при помощи количественных и статистических 
методов;
4) характеризует междисциплинарное направление в прикладных 
исследованиях, связывающее языкознание, математику и 
информатику.

1.2. История взаимодействия математики  
и лингвистики. Математическая (комбинаторная 
и квантитативная) лингвистика

Рассмотрев сущность термина «квантитативная лингвистика», обратимся к вопросу особенностей взаимосвязи языкознания и математики, проследим хронологию взаимодействия данных научных направлений. Краткий анализ взаимодействия математики и языкознания проводит А.В. Гладкий в своей работе «О точных методах в 
гуманитарных науках» [17].
Так, А.В. Гладкий отмечает, что когда во второй половине 50-х го- 
дов XX в. некоторые молодые лингвисты задумались о применении 
математических методов для исследования структуры языка и начали 
сотрудничать с математиками, это вызвало у очень многих их коллег 
удивление и даже шок. В это время все науки четко делились на два независимых направления: точные и гуманитарные. Таким образом, многие ученые были твердо убеждены, что гуманитарные науки, одной из 
которых является лингвистика, с математикой и другими «точными» 
науками не имеют и не могут иметь ничего общего.
Однако наличие тесной связи между естественным языком и математикой вовсе не было в то время новым открытием. Л.С. Выготский 
писал в опубликованной в 1934 г. книге «Мышление и речь»:

«Первым, кто увидел в математике мышление, происходящее из 
языка, но преодолевающее его, был, по-видимому, французский 
Декарт, — и продолжал.— Наш обычный разговорный язык из-за присущих ему колебаний и несоответствий грамматического и психологического находится в состоянии подвижного равновесия между идеалами математической и фантастической гармонии и в непрестанном движении, которое мы называем эволюцией» [15. С. 210].
Возникшее в Древней Греции «Учение о грамматических категориях» уже представляло собой описание ряда важнейших аспектов строения языка с помощью абстрактных моделей, близких по стилю к тем 
моделям, которые были созданы древнегреческими математиками для 
описания пространственных форм. Только привычность таких понятий, как падеж, род и т.п., ставших «нашей второй натурой», мешает 
нам понять, какого высокого уровня абстрактного мышления потребовало их создание.
Таким образом, вполне закономерным видится взаимодействие 
языкознания и математики, а удивление может вызвать скорее всего 
факт того, что первые попытки использовать для описания языкового 
«идеала математической гармонии» настоящие математические средства были предприняты лишь в середине XX столетия.
А.В. Гладкий указывает две причины такого «запоздания» [17]. 
Первая причина лежит в лингвистике как науке. Наука о языке после 
значительных шагов, сделанных в античную эпоху, снова начала понастоящему развиваться только в XIX в., но в течение всего этого столетия главное внимание лингвистов было обращено на историю языка.  
И лишь в следующем веке, который был для гуманитарных наук веком 
структурализма, лингвистика впервые после античного периода обратилась к изучению языковых структур, но уже на новом уровне. Когда 
лингвисты осознали, что язык представляет собой, говоря словами Ф. де 
Соссюра, «систему чистых отношений» (т.е. систему знаков, физическая 
природа которых несущественна, а существенны только отношения 
между ними), стала совершенно очевидна параллель между языком и 
математическими конструкциями, которые тоже являются «системами 
чистых отношений». И уже в начале XX в. тот же де Соссюр мечтал об 
исследовании языка математическими средствами.
Вторая причина значительного перерыва во взаимодействии ма- 
тематики и лингвистики связана с математикой. В математике в  

XVII—XVIII вв. вышли на первый план количественные методы, и 
только в XIX в. математики снова начали строить неколичественные 
абстрактные модели. Новые абстрактные модели отличались от античных более высоким уровнем абстракции, а также тем, что они могли 
использоваться для описания значительно более широкого круга явлений, чем пространственные формы. Нередко такие модели оказывались удобным и даже необходимым средством изучения явлений, о которых математики вовсе не думали и даже не знали об их существовании. Среди новых абстрактных моделей были и те, которые 
впоследствии получили применение в лингвистике. Особенно интенсивное развитие математических дисциплин, содержанием которых 
было построение таких моделей, пришлось на первую половину XX в. 
Поэтому встреча математики и лингвистики в середине этого столетия 
была вполне закономерна.
Важным событием для развития математической лингвистики в середине ХХ в. становятся труды американского лингвиста Ноама 
Хомского, в которых предлагается новый подход к пониманию синтаксиса. Хомский утверждает, что синтаксические структуры обладают 
собственным комплексом связей и независимы от семантических 
свойств элементов предложения. Труды Хомского дают начало теориям формальных грамматик и синтаксиса, нашедшим применение при 
создании формальных языков [6].
Одним из результатов этой встречи было возникновение новой математической дисциплины — математической лингвистики, предметом 
которой является разработка математического аппарата для лингвистических исследований. В 1957 г. в Америке состоялся Восьмой международный конгресс лингвистов, на котором математическая лингвистика 
была впервые заявлена как отдельное научное направление. Профессор 
Джошуа Уотмоу в своем докладе на конгрессе упомянул, что за два года 
до этого конгресса начал работать семинар по математической лингвистике в Гарвардском университете, и с этих пор впервые математическая 
лингвистика появилась в учебном расписании. С тех пор интерес к математической лингвистике и количество исследований в этой области 
сильно возросли как в Америке, так и в Европе. В эти же годы математическая лингвистика стала развиваться также и на Дальнем Востоке, 
результатом чего было возникновение в Японии журнала «Mathematical 
Linguistics» и «Японского общества математической лингвистики».

Доступ онлайн
175 ₽
В корзину