Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Сетевые лингвистические технологии

Покупка
Артикул: 745259.01.99
Доступ онлайн
260 ₽
В корзину
Современные лингвистические технологии являются необходимым условием решения многих задач, относящихся к поддержке открытого образования и самообразования в области филологии, их применение предполагает выработку у студентов навыков и умений работы с различными источниками информации в одно- и многоязычной среде. В монографии рассмотрены типы систем, словарей и инструментарий для их получения, рекомендуемые авторами для использования в исследовательской и методической работе.
Беляева, Л. Н. Сетевые лингвистические технологии : монография / Л. Н. Беляева, О. Н. Камшилова, К. Р. Пиотровская. - Санкт-Петербург : Изд-во РГПУ им. А. И. Герцена, 2019. - 111 с. - ISBN 978-5-8064-2701-5. - Текст : электронный. - URL: https://znanium.com/catalog/product/1173703 (дата обращения: 26.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Российский государственный педагогический 

университет им. А. И. Герцена

Л. Н. Беляева, О. Н. Камшилова,

К. Р. Пиотровская

СЕТЕВЫЕ ЛИНГВИСТИЧЕСКИЕ

ТЕХНОЛОГИИ

Коллективная монография

Санкт-Петербург

Издательство РГПУ им. А. И. Герцена

2019

УДК 801
ББК 81.1я73

Б 44

Рецензенты: д-р пед. наук, профессор Л. К. Гейхман (Пермский

национальный исследовательский политехнический университет);
д-р филол. наук, профессор Н. Л. Шубина (РГПУ им. А. И. Герцена)

Беляева Л. Н., Камшилова О. Н., Пиотровская К. Р.

Б 44
Сетевые лингвистические технологии: коллективная монография. —
СПб.: Изд-во РГПУ им. А. И. Герцена, 2019. — 111 с.

ISBN 978–5–8064–2101–5

Современные лингвистические технологии являются необходимым условием ре
шения многих задач, относящихся к поддержке открытого образования и самообразования в области филологии, их применение предполагает выработку у студентов навыков
и умений работы с различными источниками информации в одно- и многоязычной среде.

В монографии рассмотрены типы систем, словарей и инструментарий для их 

получения, рекомендуемые авторами для использования в исследовательской и методической работе.

ISBN 978–5–8064–2101–5

УДК 801

ББК 81.1я73

© Л. Н. Беляева, О. Н. Камшилова,

К. Р. Пиотровская, 2019

© С. В. Лебединский, дизайн обложки, 2019
© Издательство РГПУ им. А. И. Герцена, 2019

СОДЕРЖАНИЕ

Предисловие...............................................................................................................4

1. Сетевые лингвистические ресурсы и потенциал информационной

образовательной среды......................................................................................7

1.1. Общие положения.........................................................................................7

1.2. Лексикографические базы и банки данных...............................................11

1.3. Словарь WordNet и возможности его использования...............................31

1.4. Корпуса текстов: назначение и использование.........................................43

2. Количественные методы в филологии..........................................................67

2.1. Общие замечания........................................................................................67

2.2. Методика анализа результатов количественного анализа текста ............68

2.3. Коэффициенты и метрики количественного анализа текста....................72

3. Лингвистические средства обработки текстов.............................................78

3.1. Общие замечания........................................................................................78

3.2. Частотные словари и инструменты их получения ....................................81

3.3. Решение задач выбора материала ..............................................................92

3.4. Решение задач анализа с помощью программы AntConc .........................96

Заключение ............................................................................................................104

Список литературы...............................................................................................105

ПРЕДИСЛОВИЕ

Современные лингвистические технологии являются необходи
мым условием решения многих задач, относящихся к поддержке открытого образования и самообразования в области филологии, их 
применение предполагает выработку у студентов навыков и умений 
работы с различными источниками информации в одно- и многоязычной среде. Огромное количество информации, хранящейся и постоянно пополняющейся в системе Интернет, требует критического 
подхода к тому, что можно из нее извлечь, и специальных приемов 
работы с хорошо структурированными и ответственными материалами. Монография посвящена анализу существующих сетевых источников лингвистической информации, рекомендациям и способам работы с ними.

Деятельность лингвиста в современном мире является основой 

оперативного извлечения и анализа информации [Климзо 2006; Кривых, Рябичкина, Смирнова 2008; Сальмон 2007]. Особенно важными в 
этом случае являются характеристики скорости обработки текстов на 
естественном языке, их классификация, реферирование и перевод, поскольку результаты этой деятельности, выполненной поздно или некорректно, приводят к критическим последствиям.

Современным средством поддержки работы лингвиста являются 

информационные технологии (ИТ) и созданные с их помощью лингвистические ресурсы и системы осуществления и/или поддержки перевода. Однако именно лингвист, воспринимающий компьютер как 
реальную угрозу своему существованию в профессии, часто оказывается в ситуации, когда ему не известны или недостаточно известны 
возможности применения информационных технологий для решения 
собственных задач. Незнание этих возможностей (или, что еще хуже, 
знание неполное и/или некорректное) приводит к тому, что лингвист 
не умеет оценивать и выбирать нужные именно ему средства и, сле
довательно, не способен их адекватно использовать. В результате, 
сталкиваясь с некорректным использованием ИТ и не умея получить с 
их помощью желаемый результат, именно лингвист часто просто отвергает саму идею использования информационных технологий в 
своей профессиональной деятельности.

В последнее время появился новый английский термин language

worker, который можно приблизительно перевести как специалист в 
области переработки текстов, этим термином объединяются лингвисты: терминологи, переводчики, те, кто создает научные, учебные и 
технические материалы (технические писатели — technical authors, 
technical writers, специалисты по передаче технической информации —
technical communicators) [Беляева 2016]. В предлагаемой вашему вниманию монографии они все будут называться лингвистами, поскольку 
лингвистические технологии разного уровня и назначения предназначены именно для облегчения и ускорения их работы.

Под лингвистическими ресурсами принято понимать естествен
ные или искусственные языки и средства их лингвистической поддержки, которые используются для представления информации об 
обрабатываемом естественном языке (словари, онтологии, тезаурусы 
и пр.) [Большакова, Клышинский и др. 2011: 97–99], для представления ресурсов в системе обработки информации, для решения задач 
извлечения эмпирической информации, а также собственно языковые 
ресурсы (тексты), собранные в обширные базы данных и представляющие собой источник знаний о языках [Рычкова 2010]. Использование лингвистических ресурсов возможно как в «ручном» режиме, так 
и при решении задач автоматической обработки текста, в последнем 
случае следует учитывать:

 многовариантность результатов автоматического синтаксиче
ского анализа предложения, определяемую лексической и синтаксической омонимией, снятие которой вызывает затруднения даже при 
«ручном» анализе;

 синтаксическую и семантическую многозначность структур 

предложения в целом и структур именных и глагольных групп, составляющих функциональные компоненты предложения;

 особенности реализации процедур трансфера с учетом сопо
ставительного анализа структурных характеристик исходного языка и 
языка перевода (ср. Козеренко и др. 2009: 120).

Особое место в комплексе лингвистических ресурсов занимают 

ресурсы лексикографические, представляющие для лингвиста воз
можность оперативного извлечения терминологической информации 
из текстов различных областей знаний.

Инструментарий, предназначенный для работы с текстами на 

естественном языке, включает два комплекса: набор систем семантического анализа текстов (системы информационного поиска, реферирования, машинного перевода и т. п.) и набор систем для выполнения 
предварительных количественных и качественных исследований текстов, которые можно считать системами формальной обработки текста или вспомогательными средствами анализа.

К системам формальной обработки текстов, предназначенных для 

решения задач лингвистического анализа, относятся:

 прикладные программы получения частотных словарей для 

предварительного анализа лексического спектра текста;

 прикладные программы получения комбинаторных словарей —

конкордансов для анализа лексических и синтаксических особенностей текста.

В монографии рассмотрены типы систем, словарей и инструмен
тарий для их получения, рекомендуемые авторами для использования 
в исследовательской и методической работе.

1. СЕТЕВЫЕ ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ

И ПОТЕНЦИАЛ ИНФОРМАЦИОННОЙ

ОБРАЗОВАТЕЛЬНОЙ СРЕДЫ

1.1. ОБЩИЕ ПОЛОЖЕНИЯ

В современном мире в условиях открытой и многоязычной науч
ной коммуникации и развития средств непрерывного и открытого 
обучения возникает целый ряд задач, решение которых связано с качеством и практической применимостью различных информационных 
технологий, реализующих анализ текстов на естественном языке и 
звучащей речи.

К таким задачам в самом общем виде относятся:
 автоматический поиск, извлечение и обогащение информации 

и знаний, получаемых из различных мультимедийных многоязычных 
источников и источников, связанных с коммуникацией различных 
участников;

 межъязыковое или многоязычное извлечение, презентация и 

распространение информации;

 автоматическое обнаружение и «отслеживание» новой факто
графической информации из неструктурированных мультимедийных 
данных;

 использование источников знаний для того, чтобы облегчить 

разметку знаний и доступ к ним (в качестве таких структурированных 
источников знаний могут выступать одно- и многоязычные лексиконы, толковые и энциклопедические словари, тезаурусы, энциклопедии 
и т. д.);

 поддержка вопросно-ответного взаимодействия человека и 

компьютера, а также людей между собой с помощью компьютера как 
посредника для извлечения знаний из источников различной природы, структуры и состава;

 поддержание дистанционного обучения в системах открытого 

образования, включая автоматизированное тестирование уровня знаний, 
разработку электронных учебников и диалоговых обучающих систем;

 создание интеллектуальных средств поддержки автоматизиро
ванного ведения библиографической работы, анализа и понимания 
документов для того, чтобы обеспечить возможности доступа к информации различных экспертов или групп экспертов;

 моделирование знаний, потребностей и намерений пользовате
лей на основе анализа их запросов к различным системам, созданных 
ими продуктов и взаимодействия с компьютером;

 обеспечение возможности устного диалога с компьютером и 

поддержки анализа и порождения звучащей речи.

Все это определяет необходимость создания и использования 

(в том числе обучения использованию) специализированных систем 
обработки многоязычной информации, в частности, систем компьютерной поддержки обучения в условиях традиционного и открытого 
образования, а также систем автоматической переработки текстов 
(АПТ), предназначенных для специалиста в конкретной области знаний.

Образовательная среда как совокупность условий реализации 

учебного процесса является инновационной лишь тогда, когда в ней 
обеспечивается полноценная поддержка самостоятельной работы 
обучающихся и профессиональной и научной деятельности преподавателей. Следовательно, при создании такой среды особое внимание 
должно уделяться именно средствам, обеспечивающим поиск информации, ее извлечение из различных носителей, а также хранение в базах данных и знаний.

Специалист, работающий в системе открытого образования, дол
жен иметь возможность выбора конкретной информационной системы. Он может переходить от использования «простых» терминологических ресурсов, к которым можно отнести всевозможные учебные 
пособия, фонетические и обучающие системы, словари и глоссарии, 
находящиеся как в памяти компьютера, так и в сети, к привлечению 
более сложных систем, таких как системы поиска и обработки информации, машинного перевода и т. д.

При подобной информационной поддержке можно создать ком
плекс средств обучения и самообразования для пользователя любого 
уровня. Кроме того, наличие подобных средств дает возможность любому преподавателю, организующему работу студента, выбирать те 
виды деятельности, которые могут осуществляться студентом само
стоятельно, и те, которые требуют контакта с преподавателем. Тем 
самым обучение превращается в осознанно направляемый процесс, 
допускающий контроль результатов на любом этапе и управление 
скоростью обучения в зависимости от успехов и интересов конкретного обучающегося.

В зависимости от целей анализа и решаемых задач принято выде
лять три класса систем автоматической переработки текста.

К системам I класса относят системы, в которых целью анализа 

являются лингвистические операции над текстовой информацией, 
к ним относятся системы, осуществляющие машинный перевод, информационный поиск, аннотирование и реферирование, системы текстологического анализа, различные корпус-менеджеры. Результат работы оформляется в виде текста.

К системам II класса относят системы, в которых целью анализа 

является вычисление нового знания из данных, извлеченных из текста 
или базы знаний, к ним относятся экспертные системы, автоматизированные словари, системы извлечения терминологии. Результат 
оформляется в виде текста или в виде таблицы.

К системам III класса относят системы, в которых целью анализа 

является совершение определенных действий на основе данных, извлеченных из текста или базы знаний, роботы-манипуляторы, системы управления, графические системы. Результат оформляется в виде 
инструкции, схемы действий, чертежа.

Большинство систем автоматической переработки текста можно 

найти в системе Интернет, в которой хранятся:

‒ информация общего характера на серверах сети,
‒ базы словарных и терминологических данных и средства их 

создания и ведения,

‒ базы данных библиотек, научных издательских и учебных цен
тров,

‒ базы данных персональных сайтов,
‒ учебная информация университетов и издательств,
‒ оперативная информация, передаваемая по электронной почте.
Ресурсы системы Интернет, которые можно использовать для 

решения практических и исследовательских задач, зависят от типа 
области знаний.

В «известных», традиционных областях знаний в сети есть:
‒ архивы переведенных материалов разных фирм, так, хранили
ще переводов Translation memory (Память переводов) содержит пере
воды элементов графического интерфейса пользователя различных 
систем, например, Microsoft Glossary и OpenOffice;

‒ коллекции терминов, например, TaaS (Terminology as a 

Service), http://www.taas-project.eu, созданные для непосредственного 
доступа и поиска по многоязыковой терминологической базе;

‒ наборы текстов, относящихся к узким предметным областям 

или из субъективно подобранной художественной литературы, см. 
ниже информацию о сетевых версиях публицистики и художественной литературы.

В новых областях знаний ситуация более сложная, здесь имеется:
‒ небольшое количество переведенных текстов,
‒ недостаточное количество словарей, глоссариев, терминологи
ческих банков,

‒ большое количество одноязычных текстов.
В общем случае при анализе текстов на естественном языке ре
шаются задачи, направленные на извлечение знаний и поддержку исследовательской и учебной деятельности:

‒ поиск, извлечение и обогащение информации и знаний, полу
чаемых из различных источников;

‒ межъязыковое или многоязычное извлечение, презентация и 

распространение информации;

‒ обнаружение и «отслеживание» новой фактографической ин
формации;

‒ использование источников знаний для того, чтобы облегчить 

разметку знаний и доступ к ним;

‒ поддержка диалогового взаимодействия человека и компьюте
ра, а также людей с помощью посредника-компьютера;

‒ поддержка дистанционного обучения в системах открытого 

образования;

‒ создание интеллектуальных средств ведения библиографиче
ской работы, анализа и понимания документов;

‒ моделирование знаний, потребностей и намерений;
‒ решение задач текстологического и литературоведческого ана
лиза;

‒ обеспечение возможности устного диалога с компьютером и 

поддержки анализа и порождения звучащей речи.

Рассмотрим возможности использования наиболее популярных и 

проверенных систем доступа к лингвистическим технологиям.

1.2. ЛЕКСИКОГРАФИЧЕСКИЕ БАЗЫ

И БАНКИ ДАННЫХ

Особое место в комплексе лингвистических ресурсов занимают 

ресурсы лексикографические, предоставляющие возможность оперативного извлечения информации из различных источников: терминологических баз и банков данных, электронных словарей и словарей 
автоматизированных систем обработки текстов, из предметно-ориентированных корпусов текстов и т. п.

Особенности лексикографических ресурсов лингвиста.
Компьютерные лексикографические (терминологические) ресурсы

были хорошо приняты лингвистами с момента своего появления —
с начала шестидесятых годов прошлого века. В крупных правительственных и промышленных организациях была осознана неотложная 
потребность в быстром доступе к современным глоссариям и словарям в области науки, техники, экономики и социальных наук в целом. 
Трудности были абсолютно ясными: быстро изменяющаяся терминология многих научно-технических дисциплин, появление новых понятий, новых методов и новых продуктов, часто недостаточная стандартизация терминологии и многочисленность источников информации 
различного качества и надежности. По оценкам того времени лингвисты могли тратить до 60% своего времени на консультации со словарями, глоссариями и другими терминологическими источниками 
[Krollmann et al. 1965].

Следует отметить, что системы, работающие с терминологией, 

существуют достаточно давно. Еще в 70-х годах ХХ века крупные 
компании и правительственные организации создавали машинные 
языковые фонды: параллельно с экономическим и техническим ростом постоянно появлялась новая терминология, и такие фонды предназначались для унификации терминов, использующихся в определенных типах текстов и при переводе. В это время одним из наиболее 
крупных фондов был ТЕАМ, разработанный компанией Siemens для 
работы с европейскими языками, в частности с русским, он включал 
около 700 000 лексических единиц из различных тематических областей (естественные науки, бизнес, техника и т. п.), соответственно 
сгруппированных [Hutchins 2001]. Материалы этого фонда используются и в настоящее время при создании специализированных словарей. В 80-е годы прошлого века разрабатывалась концепция Машин
Доступ онлайн
260 ₽
В корзину