Основы квантитативной лингвистики и новых информационных технологий
Покупка
Тематика:
Общие вопросы. Лингвистика
Издательство:
ФЛИНТА
Год издания: 2018
Кол-во страниц: 152
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-9765-2137-7
Артикул: 636398.04.99
Доступ онлайн
В корзину
Учебное пособие содержит теоретический и практический материал, задания для самостоятельной работы, глоссарий по дисциплине «Квантитативная лингвистика и новые информационные технологии». В теоретическую часть включен материал, связанный с особенностями использования квантитативных методов в лингвистических исследованиях. Практическая часть содержит задания, направленные на обобщение знаний, отработку умений и навыков, необходимых для проведения лингвостатистических исследований на базе новых информационных технологий.
Для студентов лингвистических факультетов высших образовательных учреждений, а также аспирантов и соискателей, работающих над проблемами лингвистики, преподавателей-филологов и лингводидактов.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 45.03.01: Филология
- 45.03.02: Лингвистика
- 45.03.03: Фундаментальная и прикладная лингвистика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
A.В. Гребенщикова ОСНОВЫ КВАНТИТАТИВНОЙ ЛИНГВИСТИКИ И НОВЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ Учебное пособие 3-е издание, стереотипное Рекомендовано Учебно-методическим объединением по образованию в области лингвистики Министерства образования и науки Российской Федерации в качестве учебного пособия для студентов, обучающихся по направлению подготовки магистров «Лингвистика» Москва Издательство «ФЛИНТА» 2018
УДК 81´32:81´33(075.8) ББК 81.1-5-923 Г79 Г79 Гребенщикова А.В Основы квантитативной лингвистики и новых информационных технологий : учеб. пособие / А.В. Гребенщикова. – 3-е изд., стер. –М. : ФЛИНТА, 2018. – 152 с. ISBN 978-5-9765-2137-7 Учебное пособие содержит теоретический и практический мате риал, задания для самостоятельной работы, глоссарий по дисциплине «Квантитативная лингвистика и новые информационные технологии». В теоретическую часть включен материал, связанный с особенностями использования квантитативных методов в лингвистических исследованиях. Практическая часть содержит задания, направленные на обобщение знаний, отработку умений и навыков, необходимых для проведения лингвостатистических исследований на базе новых информационных технологий. Для студентов лингвистических факультетов высших образова тельных учреждений, а также аспирантов и соискателей, работающих над проблемами лингвистики, преподавателей-филологов и лингводидактов. УДК 81´32:81´33(075.8) ББК 81.1-5-923 ISBN 978-5-9765-2137-7 © Издательство «ФЛИНТА», 2014 © Гребенщикова А.В., 2014 ОГЛАВЛЕНИЕ ВВЕДЕНИЕ . ........................................................................................................6 1. КВАНТИТАТИВНАЯ ЛИНГВИСТИКА КАК НАПРАВЛЕНИЕ ОБЩЕГО ЯЗЫКОЗНАНИЯ.. .................................................9 1.1. Понятие «квантитативная лингвистика» и взаимосвязь дисциплины с другими науками . .....................................9 1.2. История взаимодействия математики и лингвистики. Математическая (комбинаторная и квантитативная) лингвистика ....11 1.3. Характеристика квантитативных методов в лингвистике и их роль ...................................................................................................15 1.4. Основные области применения структурно-вероятностной модели языка ............................................................................................20 Вопросы для самоконтроля .....................................................................22 Основные теоретические аспекты для обсуждения .. ..........................22 Список рекомендуемой литературы . .....................................................23 Практические задания .............................................................................23 Задания для самостоятельной работы . . ................................................23 2. ПОНЯТИЕ И СУЩНОСТЬ ЛИНГВОСТАТИСТИЧЕСКОГО АНАЛИЗА. КЛЮЧЕВЫЕ ПОНЯТИЯ КВАНТИТАТИВНОЙ ЛИНГВИСТИКИ . ....24 2.1. Условия успешного осуществления лингвостатистического анализа .. . .................................................................................................24 2.2. Понятие статистического закона и вероятности . . . .............................26 2.3. Понятие цели и единицы лингвостатистического анализа .................29 2.4. Методика сбора информации для лингвостатистического анализа . ..................30 2.5. Минимально-необходимые статистические инструменты: частота, генеральная и выборочная совокупности .. ...........................31 Вопросы для самоконтроля .....................................................................34 Основные теоретические аспекты для обсуждения .. ..........................34 Список рекомендуемой литературы . . ...................................................35 Практические задания .............................................................................35 Задания для самостоятельной работы . . ................................................38 Р е ц е н з е н т: д-р филол. наук, профессор, академик Международной академии информатизации, директор Института прикладной и математической лингвистики Р.К. Потапова
ОГЛАВЛЕНИЕ ВВЕДЕНИЕ . ........................................................................................................6 1. КВАНТИТАТИВНАЯ ЛИНГВИСТИКА КАК НАПРАВЛЕНИЕ ОБЩЕГО ЯЗЫКОЗНАНИЯ ...................................9 1.1. Понятие «квантитативная лингвистика» и взаимосвязь дисциплины с другими науками ......................................9 1.2. История взаимодействия математики и лингвистики. Математическая (комбинаторная и квантитативная) лингвистика ....11 1.3. Характеристика квантитативных методов в лингвистике и их роль ...................................................................................................15 1.4. Основные области применения структурно-вероятностной модели языка ............................................................................................20 Вопросы для самоконтроля .....................................................................22 Основные теоретические аспекты для обсуждения .............................22 Список рекомендуемой литературы . .....................................................23 Практические задания .............................................................................23 Задания для самостоятельной работы . ..................................................24 2. ПОНЯТИЕ И СУЩНОСТЬ ЛИНГВОСТАТИСТИЧЕСКОГО АНАЛИЗА. КЛЮЧЕВЫЕ ПОНЯТИЯ КВАНТИТАТИВНОЙ ЛИНГВИСТИКИ ..........................................................................................25 2.1. Условия успешного осуществления лингвостатистического анализа ......................................................................................................25 2.2. Понятие статистического закона и вероятности ..................................27 2.3. Понятие цели и единицы лингвостатистического анализа .................30 2.4. Методика сбора информации для лингвостатистического анализа ......31 2.5. Минимально-необходимые статистические инструменты: частота, генеральная и выборочная совокупности ..............................32 Вопросы для самоконтроля .....................................................................35 Основные теоретические аспекты для обсуждения .............................35 Список рекомендуемой литературы . .....................................................36 Практические задания .............................................................................36 Задания для самостоятельной работы . ..................................................39
3. КЛЮЧЕВЫЕ ПОНЯТИЯ КВАНТИТАТИВНОЙ ЛИНГВИСТИКИ .........................................................................................40 3.1. Проблема репрезентативности лингвистической выборки .................41 3.2. Выборочная частота, средняя частота и отклонение от средней частоты .....................................................................................................42 3.3. Проблема определения рационального объема выборки ....................47 Вопросы для контроля ............................................................................49 Основные теоретические аспекты для обсуждения .............................50 Список рекомендуемой литературы ......................................................50 Практические задания ............................................................................51 Задания для самостоятельной работы ...................................................51 4. КВАНТИТАТИВНЫЕ ИССЛЕДОВАНИЯ ЛЕКСИКИ. ЗАКОН ЦИПФА — МАНДЕЛЬБРОТА ....................................................54 4.1. Значение количественных и статистических методов в исследовании лексики .........................................................................54 4.2. Частота как характеристика употребительности слова в тексте. Частотные словари, модель «ранг-частота» .........................................56 4.3. Закон Ципфа. Уточнение закона Ципфа: закон Ципфа — Мандельброта ..........................................................................................58 4.4. Другие закономерности в функционировании лексики ......................63 Вопросы для контроля ............................................................................65 Основные теоретические аспекты для обсуждения .............................65 Список рекомендуемой литературы ......................................................66 Практические задания ............................................................................66 Задания для самостоятельной работы ...................................................67 5. КОРПУСНАЯ ЛИНГВИСТИКА. НАЦИОНАЛЬНЫЕ КОРПУСЫ ТЕКСТОВ .....................................................................................................72 5.1. Корпусная лингвистика как наука. Понятие «корпус текста» ............72 5.2. Классификация корпусов........................................................................74 5.3. Особенности применения корпусов текстов ........................................78 5.4. Национальные корпусы текстов ............................................................80 Вопросы для контроля ............................................................................84 Основные теоретические аспекты для обсуждения .............................84 Список рекомендуемой литературы ......................................................85 Практические задания ............................................................................85 Задания для самостоятельной работы ...................................................90
6. НАПРАВЛЕНИЯ ЛИНГВИСТИКИ, ИСПОЛЬЗУЮЩИЕ СТАТИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТА. АТРИБУЦИЯ ......................94 6.1. Понятие стилеметрии и атрибуции. Область их применения .............95 6.2. История развития автороведения и стилеметрии .................................97 6.3. Основные аспекты процесса атрибуции текста ..................................101 6.4. Обзор программного обеспечения для идентификации авторства текстов ....................................................................................................102 Вопросы для контроля ..........................................................................104 Основные теоретические аспекты для обсуждения ...........................104 Список рекомендуемой литературы ....................................................105 Практические задания ..........................................................................105 7. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ОБРАБОТКЕ ТЕКСТОВ. АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ И АННОТИРОВАНИЕ ТЕКСТОВ ...................................................................................................110 7.1. Обработка текстов на естественных языках и искусственный интеллект ...............................................................................................110 7.2. Реферат и аннотация текста. Общие понятия .....................................114 7.3. Автоматическое реферирование и аннотирование ............................116 7.4. Системы автоматического реферирования и аннотирования текстов ....................................................................................................121 Вопросы для контроля ..........................................................................122 Основные теоретические аспекты для обсуждения ...........................122 Список рекомендуемой литературы ....................................................123 Практические задания ..........................................................................123 Задания для самостоятельной работы .................................................129 ЗАКЛЮЧЕНИЕ ..............................................................................................139 ГЛОССАРИЙ .................................................................................................140 БИБЛИОГРАФИЯ..........................................................................................147
ВВЕДЕНИЕ Учебное пособие опирается на теоретико-практический курс «Квантитативная лингвистика и новые информационные технологии» и представляет собой синтез существующей, но не описанной в достаточной мере информации в области квантитативной лингвистики, стоящей на стыке общей и частных лингвистик, лексикостатистики и прикладного языкознания. Пособие дает целостное представление об основных понятиях квантитативной лингвистики, целях и способах применения новых информационных технологий в процессе изучения иностранного языка, а также осуществления профессиональной переводческой деятельности. В нем рассматриваются проблемы использования новых информационных технологий в лингвистических исследованиях, раскрываются особенности применения вероятностных и статистических методов для обработки текстовой информации, приводятся примеры перспективных направлений лингвостатистического анализа, что позволит будущим лингвистам эффективно осуществлять профессиональную деятельность в условиях информационного общества. Целью настоящей работы является формирование лингвоинформационной компетентности студентов, а именно: ознакомление с основами применения количественных методов в лингвистической практике в условиях информационной среды, развитие умений и навыков использования новых информационных технологий в профессиональной переводческой деятельности. В рамках поставленной цели можно выделить ряд следующих задач: – ознакомить студентов с новой парадигмой в лингвистических исследованиях, сущностью предмета квантитативной линг- вистики и историей развития квантитативной лингвистики как науки; – дать представление о принципах построения частотных словарей, особенностях их использования в переводческой и исследовательской деятельностях, обеспечить развитие навыков построения частотных списков на основе программно-сетевых ресурсов,
а также навыков работы с существующими электронными частотными словарями; – ознакомить студентов с концепциями корпусной лингвистики, дать им возможность освоить основы корпусных технологий, приобрести навыки работы с корпусами, определить место дисциплины и собственно корпусов в ряду информационных технологий; – систематизировать знания студентов в области автоматической обработки текстовой информации, дать представление об основах стилеметрии и атрибуции, отработать типичные операции по использованию экспертных программ в области психолингвистики; – ознакомить студентов с конкретными лингвостатистическими исследованиями, основанными на применении новых информационных технологий. Учебное пособие состоит из введения, семи глав, заключения, глоссария и библиографического списка. Материал отсортирован по тематическому принципу. Каждая глава знакомит с основными понятиями и терминами определенного раздела квантитативной лингвистики, историей его становления, его целями и задачами. В учебном пособии раскрываются особенности организации лингвостатистического анализа, применения корпусов текстов в учебных и исследовательских целях. Отдельное внимание уделяется вопросам построения и использования частотных словарей, основам автороведческой экспертизы, освещаются базовые процедуры автоматической обработки текста. Практические задания, представленные в учебном пособии, дают возможность обобщить знания, отработать отдельные практические умения и навыки в области применения квантитативных методов в лингвистических исследованиях, а также использования новых информационных технологий в рутинных переводческих действиях. В каждой главе представлены теоретические вопросы для обсуждения, список рекомендуемой литературы, практические задания, а также задания для самостоятельной работы. Глоссарий содержит подборку основополагающих понятий квантитативной лингвистики и представляет собой эффективный инструмент систематизации полученных в ходе изучения курса знаний.
Особенностью данного пособия является анализ современных программных продуктов в области обработки лингвистических данных, в результате знакомства с которыми студенты смогут самостоятельно применять их в научно-исследовательской и дальнейшей профессиональной деятельности. В общем смысле учебное пособие должно способствовать расширению представлений студентов об особенностях лингвостатистических исследований, совершенствованию умений самостоятельного научного поиска, анализа языкового материала, развитию навыков использования новых информационных технологий в условиях типовых лингвистических исследовательских задач.
1. КВАНТИТАТИВНАЯ ЛИНГВИСТИКА КАК НАПРАВЛЕНИЕ ОБЩЕГО ЯЗЫКОЗНАНИЯ 1.1. Понятие «квантитативная лингвистика» и взаимосвязь дисциплины с другими науками Существует достаточно большое число определений понятия «лингвистика». В самом общем смысле термин происходит от латинского слова «lingua», что означает «язык» и понимается как наука о языке. Синонимами термина «лингвистика» являются языкознание, языковедение. В «Лингвистическом энциклопедическом словаре» лингвистика определяется как «наука о естественном человеческом языке вообще и обо всех языках мира как индивидуальных его представителях» [27]. Рассматривая понятие «лингвистика», Ю.С. Маслов пишет, что она «исследует сущность и природу языка, проблему его происхождения и общие законы его развития и функционирования» [32. С. 4]. Лингвистика изучает не только существующие (существовавшие или возможные в будущем) языки, но и человеческий язык вообще. Так как язык представляет собой весьма разнообразное и сложное явление, в лингвистике как науке о языке выделяется множество направлений, одним из которых является «квантитативная лингви- стика». Название «квантитативная лингвистика» достаточно условно, хотя и довольно широко используется в современной научной литературе. Сам термин происходит от английского «quantitative linguistics» и часто понимается как количественная лингвистика. Обратимся к рассмотрению сущности данного термина. Толковый переводоведческий словарь дает следующее определение термину: «Квантитативная лингвистика — это направление лингвистики, в рамках которого изучаются и эксплицируются лингвистиче
ские явления с помощью методов “количественной” математики (теория вероятностей, математическая статистика, теория информации, математический анализ и др.)». Одним из синонимов слова «квантитативная лингвистика» данный источник называет термин «статистическая лингвистика» или «лингвостатистика» [47]. Согласно большому энциклопедическому словарю Ю.С. Степанова, лингвистическая статистика, лингвостатистика — раздел языкознания, занимающийся статистическими методами количественных закономерностей в языке и речи [45]. Обращаясь к работам Р.Г. Пиотровского, мы видим, что квантитативная лингвистика рассматривается как «раздел общей лингвистики и, в частности, математической лингвистики. Квантитативная лингвистика занимается изучением процесса изучения языка, его изменения и сферы применения, а также структуры естественных языков» [37. С. 18]. К.Б. Бектаев, Р.Г. Пиотровский, анализируя данный термин, утвер- ждают, что в целом квантитативная лингвистика может рассматриваться как: 1) техника лингвистического наблюдения и описания, обработки данных наблюдения; 2) метод исследования языка и речи, не обязательно противополагаясь сопоставленному, сравнительно-историческому и другим методам языкознания; 3) концепция, система количественных идей и представлений об объекте лингвистической науки [37. С. 25]. Вместе с тем А.Н. Баранов отмечает, что квантитативная лингвистика как наука имеет прикладной характер и находится в тесном взаимодействии с другими смежными дисциплинами. Так, автор считает, что квантитативная лингвистика эмпирически основывается на результатах языковой статистики, которая, в свою очередь, может интерпретироваться как статистика языков или статистика лингвистического объекта. Таким образом, мы видим, что квантитативная лингвистика рассматривается в этом случае как направление лингвистики, отличное от лингвостатистики. Кроме того, А.Н. Баранов подчеркивает взаимосвязь прикладной, корпусной, компьютерной и квантитативной лингвистик, отмечая, что корпусная и компьютерная лингвистики вносят свой вклад в квантитативную лингвистику, поставляя важные эмпирические данные [9. С. 26].
Итак, обобщая вышеизложенное, скажем, что квантитативная лингвистика: 1) имеет цель сформулировать законы, по которым функционирует язык, и в конечном счете построить общую теорию языка в виде совокупности взаимосвязанных законов функционирования языков; 2) совместно с другими лингвистическими дисциплинами участвует в решении задачи построения теории языка; 3) исследует язык при помощи количественных и статистических методов; 4) характеризует междисциплинарное направление в прикладных исследованиях, связывающее языкознание, математику и информатику. 1.2. История взаимодействия математики и лингвистики. Математическая (комбинаторная и квантитативная) лингвистика Рассмотрев сущность термина «квантитативная лингвистика», обратимся к вопросу особенностей взаимосвязи языкознания и математики, проследим хронологию взаимодействия данных научных направлений. Краткий анализ взаимодействия математики и языкознания проводит А.В. Гладкий в своей работе «О точных методах в гуманитарных науках» [17]. Так, А.В. Гладкий отмечает, что когда во второй половине 50-х го- дов XX в. некоторые молодые лингвисты задумались о применении математических методов для исследования структуры языка и начали сотрудничать с математиками, это вызвало у очень многих их коллег удивление и даже шок. В это время все науки четко делились на два независимых направления: точные и гуманитарные. Таким образом, многие ученые были твердо убеждены, что гуманитарные науки, одной из которых является лингвистика, с математикой и другими «точными» науками не имеют и не могут иметь ничего общего. Однако наличие тесной связи между естественным языком и математикой вовсе не было в то время новым открытием. Л.С. Выготский писал в опубликованной в 1934 г. книге «Мышление и речь»:
«Первым, кто увидел в математике мышление, происходящее из языка, но преодолевающее его, был, по-видимому, французский Декарт, — и продолжал.— Наш обычный разговорный язык из-за присущих ему колебаний и несоответствий грамматического и психологического находится в состоянии подвижного равновесия между идеалами математической и фантастической гармонии и в непрестанном движении, которое мы называем эволюцией» [15. С. 210]. Возникшее в Древней Греции «Учение о грамматических категориях» уже представляло собой описание ряда важнейших аспектов строения языка с помощью абстрактных моделей, близких по стилю к тем моделям, которые были созданы древнегреческими математиками для описания пространственных форм. Только привычность таких понятий, как падеж, род и т.п., ставших «нашей второй натурой», мешает нам понять, какого высокого уровня абстрактного мышления потребовало их создание. Таким образом, вполне закономерным видится взаимодействие языкознания и математики, а удивление может вызвать скорее всего факт того, что первые попытки использовать для описания языкового «идеала математической гармонии» настоящие математические средства были предприняты лишь в середине XX столетия. А.В. Гладкий указывает две причины такого «запоздания» [17]. Первая причина лежит в лингвистике как науке. Наука о языке после значительных шагов, сделанных в античную эпоху, снова начала понастоящему развиваться только в XIX в., но в течение всего этого столетия главное внимание лингвистов было обращено на историю языка. И лишь в следующем веке, который был для гуманитарных наук веком структурализма, лингвистика впервые после античного периода обратилась к изучению языковых структур, но уже на новом уровне. Когда лингвисты осознали, что язык представляет собой, говоря словами Ф. де Соссюра, «систему чистых отношений» (т.е. систему знаков, физическая природа которых несущественна, а существенны только отношения между ними), стала совершенно очевидна параллель между языком и математическими конструкциями, которые тоже являются «системами чистых отношений». И уже в начале XX в. тот же де Соссюр мечтал об исследовании языка математическими средствами. Вторая причина значительного перерыва во взаимодействии ма- тематики и лингвистики связана с математикой. В математике в
XVII—XVIII вв. вышли на первый план количественные методы, и только в XIX в. математики снова начали строить неколичественные абстрактные модели. Новые абстрактные модели отличались от античных более высоким уровнем абстракции, а также тем, что они могли использоваться для описания значительно более широкого круга явлений, чем пространственные формы. Нередко такие модели оказывались удобным и даже необходимым средством изучения явлений, о которых математики вовсе не думали и даже не знали об их существовании. Среди новых абстрактных моделей были и те, которые впоследствии получили применение в лингвистике. Особенно интенсивное развитие математических дисциплин, содержанием которых было построение таких моделей, пришлось на первую половину XX в. Поэтому встреча математики и лингвистики в середине этого столетия была вполне закономерна. Важным событием для развития математической лингвистики в середине ХХ в. становятся труды американского лингвиста Ноама Хомского, в которых предлагается новый подход к пониманию синтаксиса. Хомский утверждает, что синтаксические структуры обладают собственным комплексом связей и независимы от семантических свойств элементов предложения. Труды Хомского дают начало теориям формальных грамматик и синтаксиса, нашедшим применение при создании формальных языков [6]. Одним из результатов этой встречи было возникновение новой математической дисциплины — математической лингвистики, предметом которой является разработка математического аппарата для лингвистических исследований. В 1957 г. в Америке состоялся Восьмой международный конгресс лингвистов, на котором математическая лингвистика была впервые заявлена как отдельное научное направление. Профессор Джошуа Уотмоу в своем докладе на конгрессе упомянул, что за два года до этого конгресса начал работать семинар по математической лингвистике в Гарвардском университете, и с этих пор впервые математическая лингвистика появилась в учебном расписании. С тех пор интерес к математической лингвистике и количество исследований в этой области сильно возросли как в Америке, так и в Европе. В эти же годы математическая лингвистика стала развиваться также и на Дальнем Востоке, результатом чего было возникновение в Японии журнала «Mathematical Linguistics» и «Японского общества математической лингвистики».
Доступ онлайн
В корзину