Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Основы стилеметрии

Покупка
Основная коллекция
Артикул: 753893.01.99
Доступ онлайн
119 ₽
В корзину
Предлагаемое пособие содержит описание основных понятий по курсу «Стилеметрия». Освоение стилеметрии как дисциплины требует от обучающихся уверенного владения лингвистическими понятиями и методами, а также навыками использования приемов математического и статистического анализа, и примеры контрольных работ. В пособии компактно изложены представляющие наибольшую сложность при изучении и наиболее практически значимые разделы, такие как роль статистических рядов в стилеметрическом анализе, их типология, поиск обобщающих характеристик, процедура аппроксимации и измерение синтаксической сложности. Приводятся образцы контрольных работ по изучаемым темам. Предназначено для студентов магистратуры, специализирующихся в области прикладной лингвистики и автоматической обработки текста по профилю «Прикладная экспериментальная лингвистика».
Мартыненко, Г. Я. Основы стилеметрии : учебно-методическое пособие / Г. Я. Мартыненко, А. О. Гребенников. - Санкт-Петербург : СПбГУ, 2018. - 27 с. - ISBN 978-5-288-05808-0. - Текст : электронный. - URL: https://znanium.com/catalog/product/1243852 (дата обращения: 16.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Учебно-методическое пособие

ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Г. Я. Мартыненко, А. О. Гребенников

ОСНОВЫ СТИЛЕМЕТРИИ

УДК 81ʹ33
ББК 81.1
 
М29

Реценз ен ты:  Е. Л. Алексеева (С.-Петерб. гос. ун-т); 

Е. Р. Пономарёв (С.-Петерб. гос. ун-т культуры и искусства)

Печатается по решению

Учебно-методической комиссии филологического факультета

Санкт-Петербургского государственного университета

М29

Мартыненко Г. Я., Гребенников А. О.

Основы стилеметрии: учеб.-метод. пособие. — СПб.: Изд-во 
С.-Петерб. ун-та, 2018. — 27 с. 
ISBN 978-5-288-05808-0

Предлагаемое пособие содержит описание основных понятий по курсу 

«Стилеметрия». Освоение стилеметрии как дисциплины требует от обучающихся уверенного владения лингвистическими понятиями и методами, 
а также навыками использования приемов математического и статистического анализа. и примеры контрольных работ. В пособии компактно изложены представляющие наибольшую сложность при изучении и наиболее практически значимые разделы, такие как роль статистических рядов 
в стилеметрическом анализе, их типология, поиск обобщающих характеристик, процедура аппроксимации и измерение синтаксической сложности. Приводятся образцы контрольных работ по изучаемым темам.

Предназначено для студентов магистратуры, специализирующихся 

в области прикладной лингвистики и автоматической обработки текста по 
профилю «Прикладная экспериментальная лингвистика».

УДК 81ʹ33

ББК 81.1

  
© Санкт-Петербургский 

 
 
государственный 

 
 
университет, 2018

© Г. Я. Мартыненко, 

ISBN 978-5-288-05808-0 
 
А. О. Гребенников, 2018

СОДЕРЖАНИЕ

Предисловие .....................................................................................................  
4

Предмет и методы стилеметрии ..................................................................  
5

Типология статистических распределений ..............................................  
5

Моделирование распределений ...................................................................  
6

Ранговые средние и энтропия ......................................................................  
10

Аппроксимация распределений ..................................................................  
12

Измерение синтаксической сложности .....................................................  
16

Образцы контрольных работ .......................................................................  
21

Литература ........................................................................................................  
23

Приложение. Программа курса ...................................................................  
25

ПРЕДИСЛОВИЕ

Предлагаемое пособие по курсу «Стилеметрия» предназначено 
в первую очередь студентам 1-го курса магистратуры, обучающимся по профилю «Прикладная и экспериментальная лингвистика» направления «Лингвистика». Будучи комплексной и многоаспектной дисциплиной, стилеметрия требует от обучающегося 
как уверенного владения лингвистическими понятиями и методами, так и навыка использования приемов точных наук, прежде 
всего элементов математического и статистического анализа. В то 
же время естественный ход развития научной мысли приводит 
к тому, что полноценное овладение практически любым курсом 
по читаемому в вузе предмету невозможно при обращении только 
к одной рекомендуемой монографии по данному вопросу: множество небольших, но важных тем находят свое отражение в целом 
ряде разрозненных учебников, монографий и статей, которые не 
всегда легко и быстро доступны, да и подход к уже описанным 
в них реалиям может меняться со временем.

Поэтому из общей программы курса (см. приложение) для ком
пактного изложения в данном пособии были выбраны только разделы, являющиеся наиболее практически значимыми при освоении 
курса и представляющие наибольшую сложность при изу чении, 
в особенности для студентов магистратуры, получивших степень 
бакалавра не по профилю «Прикладная, компьютерная и математическая лингвистика» в СПбГУ: роль статистических рядов в стилеметрическом анализе, их типология, поиск обобщающих характеристик, процедура аппроксимации и измерение синтактической 
сложности.

ПРЕДМЕТ И МЕТОДЫ СТИЛЕМЕТРИИ

Термин стилеметрия был изобретен немецким филологом В. Диттенбергом при решении задач атрибуции и датировки текстов 
Платона в конце ХХ века. Стилеметрия — прикладная филологическая дисциплина, занимающаяся измерением стилевых характеристик с целью упорядочивания и систематизации (атрибуции, 
диагностики, типологии и т. п.) текстов. Важную роль в стилеметрии играют лексико-статистические методы. С помощью данных 
методов измеряется лексическое богатство текстов, степень статистической устойчивости лексических единиц, степень однородности статистической структуры текста и т. п. Согласно принципам 
стилеметрии единственно надежным инструментом, с помощью 
которого можно обнаружить правильность, регулярность, устойчивость в стилистической картине текста, измерить степень стилистического сходства или различия между текстами, являются статистические ряды. В стилеметрических исследованиях статистические ряды могут рассматриваться как упорядоченная совокупность 
количественно выраженных значений, т. е. результатов измерения 
объекта (объектов), обычно с указанием статистического веса (частоты или ранга) этих значений в совокупности. Принято различать эмпирические ряды, отражающие результат группировки данных наблюдения, и теоретические распределения, выбранные для 
описания закономерностей, которым подчиняется фактическое 
распределение. Все многообразие эмпирических рядов стремятся 
свести к хорошо известным вариантам. Для аппроксимации эмпирических распределений используются моделирующие распределения.

ТИПОЛОГИЯ СТАТИСТИЧЕСКИХ РАСПРЕДЕЛЕНИЙ

С теоретико-вероятностной точки зрения все варианты распределений делятся на семейство гауссовых и негауссовых распределений. К гауссовым относятся теоретические распределения, описы
ваемые тем или иным вариантом экспоненциальной функции. Эталоном для группы выступает нормальное распределение (рис. 1). 

f (x)

x

f (x)

x

Рис. 1. Эталон для гауссова распределения

Рис.2. Эталон для негауссова распределения

В роли эталона для второй группы выступает уравнение не
равносторонней гиперболы — убывающей степенной зависимости 
(рис. 2). Увеличение генеральной совокупности для данных типов 
распределений приводит к бесконечности их моментов, в частности к дисперсии. 

Именно негауссовость характерна для распределений самого 

обширного круга природных и социальных явлений. Следовательно, в основе количественного анализа в стилеметрии должен 
лежать аппарат негауссовой статистики, использующий характеристики статистических распределений, слабо зависящие от объема 
выборки и сходящиеся (с устремлением этих объемов к бесконечности) к конечным пределам.

МОДЕЛИРОВАНИЕ РАСПРЕДЕЛЕНИЙ

Проблема поиска обобщающих характеристик лингвистических распределений тесно связана с проблемой построения системы количественных измерителей для исследуемых признаков. 
Обычно ряд признаков представляется в виде переменных одного 
из трех основных типов: номинальных, количественных или порядковых. Способ представления материала определяет характер 
исследуемых параметров и методы их изучения. Применительно 
к лингвистике это означает следующее. Любой словарь в своем общем виде представляет собой совокупность слов, т. е. некоторых 
наименований. Это номинальные переменные, которые не подлежат упорядочиванию, так как по самой своей природе не допу
скают количественного измерения. Действительно, понятия типа 
«среднее имя» или «медиана имени» лишены всякого смысла. При 
решении задач статистического моделирования нам необходимо 
представить значения номинальных переменных числами, т. е. 
привлечь дополнительную информацию об изучаемых объектах, 
по существу, заменяя один признак другим. Упорядочивая слова 
по частоте (как, например, при составлении частотного словаря) 
или по какому-нибудь другому более сложному критерию, вместо 
слов и их значений мы получаем другие признаки (например частоту слова). Результатом подобного рода действий является ряд, 
где в роли варьирующего признака выступают наименования, а 
в качестве статистических весов — частоты, соответствующие 
этим наименованиям. На этой основе мы уже получаем возможность упорядочивания, а значит и количественного измерения, 
в том числе вычисления различных обобщающих характеристик 
распределения. Далее мы можем отказаться от номинальных переменных и перейти к количественной шкале путем построения 
спектрового распределения, в котором частоты слов ставятся 
в соответствие численности слов с данной частотой. Когда же мы 
строим ранговое распределение, то мы получаем комбинацию порядковой (ранги) и количественной (частоты) переменной. К таким распределениям можно, по-видимому, применять весь аппарат описательной статистики, в частности все виды степенных 
и распределительных средних.

В последние годы в квантитативной лингвистике, а также в био
метрии, социометрии, наукометрии и других измеряющих дисциплинах настойчиво разрабатывается теория устойчивых статистик 
ранговых распределений. Одновременно ведутся и эмпирические 
исследования, направленные на выявление скорости сходимости 
некоторых величин по мере увеличения объема выборки. 

Прежде всего исследователи ведут поиск функции, моделирую
щей процесс нарастания объема словаря в зависимости от увеличения объема выборки. На основе функции, выражающей зависимость объема словаря (V) от объема выборки (N), можно, например, 
находить неизвестное значение V по данному N, а также определять степень насыщения или достаточности объема выборки. 
Практической стороной изучения этой зависимости является построение прогноза роста словаря и фиксация его предельного объема вне диапазона наблюдений. Установление формы связи между 
объемом словаря и объемом текста позволяет также исследовать 
стилистические особенности индивидуальных жанров и текстов 

и содействует решению некоторых других прикладных задач (например, установлению авторства).

Имеются многочисленные попытки построения эмпирических 

формул для выражения такой связи. Первые формулы такого рода 
появились в середине ХХ века в работах П. Гиро, Й. Чотлоса, В. Курашкевича и др. Попытки их построения продолжаются до настоящего времени.

Наряду с применением чисто эмпирических формул были по
пытки смоделировать процесс нарастания объема словаря исходя из определенных теоретических предпосылок, основываясь, 
например, на предположении о логонормальном распределении 
слов или о действии закона Ципфа. Опираясь на достигнутом, ряд 
исследователей осуществили выводы своих формул, моделирующих такой процесс. Материалы для подобных исследований были 
весьма разнообразны: частотный словарь английского языка Х. Кучеры, словари отдельных произведений художественной прозы, 
однородные выборки на материалах различных подъязыков и языков и т. п. В своем абсолютном большинстве все они представляют 
собой частотные словари, которые могут быть представлены в виде 
рангового распределения.

Одной из важнейших закономерностей, выявленных при кван
титативном анализе текстов, является статистическая связь между 
частотой и рангом единицы словаря. Во всех случаях, когда исследователь обращается к текстам естественного языка, он встречается с так называемым эффектом концентрации и рассеяния, который заключается в наличии небольшой группы очень частых слов 
(«ядро») и большой группы редких слов («хвост»), между которыми наблюдается плавный переход через «зону среднечастотных 
слов». Для аналитического выражения зависимости между этими 
величинами предлагается множество формул, представляющих собой разновидности закона Ципфа, основная форма распределения 
которого задается формулой неравносторонней гиперболы:

Fi = Ci

–γ ,

где Fi — абсолютная частота, i — ранг, C, γ, — параметры распределения. Смысл закона Ципфа, охватывающего широкий круг 
явлений, в данном случае состоит в том, что частота убывает со 
скоростью, пропорциональной росту словаря, измеряемому по 
рангам i. Однако мнения об адекватности закона Ципфа экспериментальным данным крайне противоречивы, так как в своем непосредственном виде данный закон обнаруживает значительные 

расхождения между теоретическими и эмпирическими данными 
в начальной и конечной частях рангового распределения. Это породило процесс усовершенствования, когда ряд исследователей, не 
отрицая работоспособности закона, вносили в него разнообразные 
поправочные коэффициенты, что привело к появлению других модификаций, более точно отражающих процессы распределения.

По мнению ряда исследователей, глубинный смысл закона 

Ципфа в случае его применения в лингвостатистике заключается 
в том, что ранги, приписываемые словам, не зависят от конкретных 
особенностей отправителя сообщения. Частота или вероятность 
способны характеризовать отдельную языковую выборку, автора 
сообщения и его умение пользоваться словами данного ранга. Зависимость «ранг — частота» отражает степень приспособления 
личности к социальной среде не только на уровне слов, но и идей.

Таким образом, закон Ципфа и его модификации предлагается 

использовать в качестве основы для аппроксимации эмпирических 
данных зависимости между объемом словаря и объемом выборки. 
Следует отметить, что, несмотря на различную пригодность применения вышеописанных вариантов в зависимости от особенностей исследуемого текста, общий вид распределения сохраняется.

Однако в качестве основы для выведения формул роста словаря 

использовались и другие известные распределения, например распределение Вейбулла, которое в своей интегральной форме имеет 
вид

N = Nmax – Nmaxe–cxd,

где N — объем словаря, х — объем выборки, Nmax — асимптотический объем словаря, с, d — параметры распределения. Экспериментальные данные показали, что именно эта функция обнаруживает 
наиболее удовлетворительное согласие с эмпирическим распределением. Cледует отметить, что использование функции Вейбулла 
не является идеальным и не отбрасывает необходимости исследований, направленных на выявление новых видов аппроксимирующих функций, еще более точно отражающих зависимость между 
объемом словаря и объемом выборки.

РАНГОВЫЕ СРЕДНИЕ И ЭНТРОПИЯ

Показатели лексико-семантической концентрации рассматриваются в качестве одной из главных стилевых характеристик в стилеметрических исследованиях. 

Практические исследования показали, что распределения, 

в которых элементы совокупности упорядочиваются по функциональному весу в системе (примером такого распределения является в языкознании частотный словарь), имеют сходный характер 
в самом широком классе систем, причем не только лингвистических. Как уже отмечалось выше, небольшое число элементов несет 
основную функциональную нагрузку (концентрация активности), 
а функциональная роль большинства элементов крайне мала (рассеяние активности). Именно поэтому большое внимание уделяется 
исследованию концентрации.

При оценивании параметров генеральной совокупности, еди
ницы которой упорядочены по функциональному признаку, следует 
пользоваться ранговыми статистиками, при расчете которых в роли 
варьирующего признака выступают ранги, а в качестве статистических весов — частоты, соответствующие конкретным рангам. 
В качестве основной статистики рангового распределения в таком
случае выступает ранговое среднее (r), вычисляемое по формуле

r = Σr . fr /N ,

где r — ранг, fr — соответствующая этому рангу частота, N — объем 
выборки. Было установлено, что ранговые средние слабо зависят 
от объема выборки и, следовательно, могут использоваться в качестве меры концентрации для разновеликих совокупностей любого 
типа, например для частотных словарей разного объема. Ранговое 
среднее должно рассматриваться не в качестве меры центральной 
тенденции, а как мера концентрации частот в верхней зоне частотного распределения. Оно выступает в качестве своеобразной 
границы, отделяющей зону концентрации от зоны рассеяния. Чем 
больше «частотный перепад» между «головой» и «хвостом» рангового распределения, тем выше в нем уровень частотной концентрации. Наименьшая концентрация (наибольшее ранговое среднее) 
при этом присуща равномерному ранговому распределению, которое может выступать в качестве эталона, относительно которого 
изменяется концентрация. 

При исследовании поведения ранговых статистик различных 

частотных словарей была обнаружена быстрая сходимость ран
говых средних к предельным величинам, но только тогда, когда 
исследуемая совокупность качественно однородна в функционально-стилистическом и тематическом отношениях (распределение предикатных слов в отечественной формуле изобретения на 
устройство, распределение лексических единиц с префиксом без- 
в поэтических текстах различных авторов, английского частотного 
словаря подъязыка электроники П. М. Алексеева, частотного словаря современного английского языка Х. Кучеры). В разнородной 
совокупности (частотный словарь языка в целом) скорость сходимости очень мала. Быстрая сходимость ранговых средних, позволяющая сравнивать совокупности разного объема, особенно 
важна для квантитативной лингвистики, где текст изучается как 
целостность, формируемая в первую очередь структурными, а не 
объемными факторами. 

Использование ранговых средних также позволяет сделать ин
тересные выводы об особенностях индивидуального авторского 
стиля, дает возможность интерпретации художественного миропонимания отдельных авторов. При этом явление быстрой сходимости рангового среднего не дало оснований для окончательного 
ответа на вопрос о минимальном размере текста, необходимого 
для практической состоятельности выборочной ранговой характеристики. Данная граница в каждом отдельном случае должна 
определяться эмпирически, путем вычисления ранговых характеристик для нарастающих объемов текста (см. ниже).

Исследование закономерностей концентрации и рассеяния ин
формации в совокупностях не только тождественной, но и отдаленной природы позволило установить, что численность ядерной 
зоны ограничена сверху небольшим числом, а для суммарной активности ядра, переходной зоны и периферии (т. е. в случае если 
исследуемое распределение представляет собой частотный словарь, — высокочастотных, среднечастотных и низкочастотных 
слов) в среднем характерна пропорция: 20 %, 30 %, 50%.

Еще одним инструментом традиционной математической стати
стики, активно используемым при решении разнообразных лингвистических задач, является вычисление степени неопределенности распределений — энтропии (H), вычисляемой по формуле

H = – Σpi log2 pi ,

где pi — вероятность, представляющая собой в случае частотного 
словаря отношение частоты слова к объему выборки, log2 — двоичный логарифм. Единицей энтропии является бит.

Доступ онлайн
119 ₽
В корзину