Сетевые лингвистические технологии
Покупка
Тематика:
Общие вопросы. Лингвистика
Год издания: 2019
Кол-во страниц: 111
Дополнительно
Вид издания:
Монография
Уровень образования:
ВО - Магистратура
ISBN: 978-5-8064-2701-5
Артикул: 745259.01.99
Доступ онлайн
В корзину
Современные лингвистические технологии являются необходимым условием решения многих задач, относящихся к поддержке открытого образования и самообразования в области филологии, их применение предполагает выработку у студентов навыков и умений работы с различными источниками информации в одно- и многоязычной среде.
В монографии рассмотрены типы систем, словарей и инструментарий для их получения, рекомендуемые авторами для использования в исследовательской и методической работе.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Магистратура
- 44.04.01: Педагогическое образование
- 45.04.02: Лингвистика
- 45.04.03: Фундаментальная и прикладная лингвистика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Российский государственный педагогический университет им. А. И. Герцена Л. Н. Беляева, О. Н. Камшилова, К. Р. Пиотровская СЕТЕВЫЕ ЛИНГВИСТИЧЕСКИЕ ТЕХНОЛОГИИ Коллективная монография Санкт-Петербург Издательство РГПУ им. А. И. Герцена 2019
УДК 801 ББК 81.1я73 Б 44 Рецензенты: д-р пед. наук, профессор Л. К. Гейхман (Пермский национальный исследовательский политехнический университет); д-р филол. наук, профессор Н. Л. Шубина (РГПУ им. А. И. Герцена) Беляева Л. Н., Камшилова О. Н., Пиотровская К. Р. Б 44 Сетевые лингвистические технологии: коллективная монография. — СПб.: Изд-во РГПУ им. А. И. Герцена, 2019. — 111 с. ISBN 978–5–8064–2101–5 Современные лингвистические технологии являются необходимым условием ре шения многих задач, относящихся к поддержке открытого образования и самообразования в области филологии, их применение предполагает выработку у студентов навыков и умений работы с различными источниками информации в одно- и многоязычной среде. В монографии рассмотрены типы систем, словарей и инструментарий для их получения, рекомендуемые авторами для использования в исследовательской и методической работе. ISBN 978–5–8064–2101–5 УДК 801 ББК 81.1я73 © Л. Н. Беляева, О. Н. Камшилова, К. Р. Пиотровская, 2019 © С. В. Лебединский, дизайн обложки, 2019 © Издательство РГПУ им. А. И. Герцена, 2019
СОДЕРЖАНИЕ Предисловие...............................................................................................................4 1. Сетевые лингвистические ресурсы и потенциал информационной образовательной среды......................................................................................7 1.1. Общие положения.........................................................................................7 1.2. Лексикографические базы и банки данных...............................................11 1.3. Словарь WordNet и возможности его использования...............................31 1.4. Корпуса текстов: назначение и использование.........................................43 2. Количественные методы в филологии..........................................................67 2.1. Общие замечания........................................................................................67 2.2. Методика анализа результатов количественного анализа текста ............68 2.3. Коэффициенты и метрики количественного анализа текста....................72 3. Лингвистические средства обработки текстов.............................................78 3.1. Общие замечания........................................................................................78 3.2. Частотные словари и инструменты их получения ....................................81 3.3. Решение задач выбора материала ..............................................................92 3.4. Решение задач анализа с помощью программы AntConc .........................96 Заключение ............................................................................................................104 Список литературы...............................................................................................105
ПРЕДИСЛОВИЕ Современные лингвистические технологии являются необходи мым условием решения многих задач, относящихся к поддержке открытого образования и самообразования в области филологии, их применение предполагает выработку у студентов навыков и умений работы с различными источниками информации в одно- и многоязычной среде. Огромное количество информации, хранящейся и постоянно пополняющейся в системе Интернет, требует критического подхода к тому, что можно из нее извлечь, и специальных приемов работы с хорошо структурированными и ответственными материалами. Монография посвящена анализу существующих сетевых источников лингвистической информации, рекомендациям и способам работы с ними. Деятельность лингвиста в современном мире является основой оперативного извлечения и анализа информации [Климзо 2006; Кривых, Рябичкина, Смирнова 2008; Сальмон 2007]. Особенно важными в этом случае являются характеристики скорости обработки текстов на естественном языке, их классификация, реферирование и перевод, поскольку результаты этой деятельности, выполненной поздно или некорректно, приводят к критическим последствиям. Современным средством поддержки работы лингвиста являются информационные технологии (ИТ) и созданные с их помощью лингвистические ресурсы и системы осуществления и/или поддержки перевода. Однако именно лингвист, воспринимающий компьютер как реальную угрозу своему существованию в профессии, часто оказывается в ситуации, когда ему не известны или недостаточно известны возможности применения информационных технологий для решения собственных задач. Незнание этих возможностей (или, что еще хуже, знание неполное и/или некорректное) приводит к тому, что лингвист не умеет оценивать и выбирать нужные именно ему средства и, сле
довательно, не способен их адекватно использовать. В результате, сталкиваясь с некорректным использованием ИТ и не умея получить с их помощью желаемый результат, именно лингвист часто просто отвергает саму идею использования информационных технологий в своей профессиональной деятельности. В последнее время появился новый английский термин language worker, который можно приблизительно перевести как специалист в области переработки текстов, этим термином объединяются лингвисты: терминологи, переводчики, те, кто создает научные, учебные и технические материалы (технические писатели — technical authors, technical writers, специалисты по передаче технической информации — technical communicators) [Беляева 2016]. В предлагаемой вашему вниманию монографии они все будут называться лингвистами, поскольку лингвистические технологии разного уровня и назначения предназначены именно для облегчения и ускорения их работы. Под лингвистическими ресурсами принято понимать естествен ные или искусственные языки и средства их лингвистической поддержки, которые используются для представления информации об обрабатываемом естественном языке (словари, онтологии, тезаурусы и пр.) [Большакова, Клышинский и др. 2011: 97–99], для представления ресурсов в системе обработки информации, для решения задач извлечения эмпирической информации, а также собственно языковые ресурсы (тексты), собранные в обширные базы данных и представляющие собой источник знаний о языках [Рычкова 2010]. Использование лингвистических ресурсов возможно как в «ручном» режиме, так и при решении задач автоматической обработки текста, в последнем случае следует учитывать: многовариантность результатов автоматического синтаксиче ского анализа предложения, определяемую лексической и синтаксической омонимией, снятие которой вызывает затруднения даже при «ручном» анализе; синтаксическую и семантическую многозначность структур предложения в целом и структур именных и глагольных групп, составляющих функциональные компоненты предложения; особенности реализации процедур трансфера с учетом сопо ставительного анализа структурных характеристик исходного языка и языка перевода (ср. Козеренко и др. 2009: 120). Особое место в комплексе лингвистических ресурсов занимают ресурсы лексикографические, представляющие для лингвиста воз
можность оперативного извлечения терминологической информации из текстов различных областей знаний. Инструментарий, предназначенный для работы с текстами на естественном языке, включает два комплекса: набор систем семантического анализа текстов (системы информационного поиска, реферирования, машинного перевода и т. п.) и набор систем для выполнения предварительных количественных и качественных исследований текстов, которые можно считать системами формальной обработки текста или вспомогательными средствами анализа. К системам формальной обработки текстов, предназначенных для решения задач лингвистического анализа, относятся: прикладные программы получения частотных словарей для предварительного анализа лексического спектра текста; прикладные программы получения комбинаторных словарей — конкордансов для анализа лексических и синтаксических особенностей текста. В монографии рассмотрены типы систем, словарей и инструмен тарий для их получения, рекомендуемые авторами для использования в исследовательской и методической работе.
1. СЕТЕВЫЕ ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ И ПОТЕНЦИАЛ ИНФОРМАЦИОННОЙ ОБРАЗОВАТЕЛЬНОЙ СРЕДЫ 1.1. ОБЩИЕ ПОЛОЖЕНИЯ В современном мире в условиях открытой и многоязычной науч ной коммуникации и развития средств непрерывного и открытого обучения возникает целый ряд задач, решение которых связано с качеством и практической применимостью различных информационных технологий, реализующих анализ текстов на естественном языке и звучащей речи. К таким задачам в самом общем виде относятся: автоматический поиск, извлечение и обогащение информации и знаний, получаемых из различных мультимедийных многоязычных источников и источников, связанных с коммуникацией различных участников; межъязыковое или многоязычное извлечение, презентация и распространение информации; автоматическое обнаружение и «отслеживание» новой факто графической информации из неструктурированных мультимедийных данных; использование источников знаний для того, чтобы облегчить разметку знаний и доступ к ним (в качестве таких структурированных источников знаний могут выступать одно- и многоязычные лексиконы, толковые и энциклопедические словари, тезаурусы, энциклопедии и т. д.); поддержка вопросно-ответного взаимодействия человека и компьютера, а также людей между собой с помощью компьютера как посредника для извлечения знаний из источников различной природы, структуры и состава;
поддержание дистанционного обучения в системах открытого образования, включая автоматизированное тестирование уровня знаний, разработку электронных учебников и диалоговых обучающих систем; создание интеллектуальных средств поддержки автоматизиро ванного ведения библиографической работы, анализа и понимания документов для того, чтобы обеспечить возможности доступа к информации различных экспертов или групп экспертов; моделирование знаний, потребностей и намерений пользовате лей на основе анализа их запросов к различным системам, созданных ими продуктов и взаимодействия с компьютером; обеспечение возможности устного диалога с компьютером и поддержки анализа и порождения звучащей речи. Все это определяет необходимость создания и использования (в том числе обучения использованию) специализированных систем обработки многоязычной информации, в частности, систем компьютерной поддержки обучения в условиях традиционного и открытого образования, а также систем автоматической переработки текстов (АПТ), предназначенных для специалиста в конкретной области знаний. Образовательная среда как совокупность условий реализации учебного процесса является инновационной лишь тогда, когда в ней обеспечивается полноценная поддержка самостоятельной работы обучающихся и профессиональной и научной деятельности преподавателей. Следовательно, при создании такой среды особое внимание должно уделяться именно средствам, обеспечивающим поиск информации, ее извлечение из различных носителей, а также хранение в базах данных и знаний. Специалист, работающий в системе открытого образования, дол жен иметь возможность выбора конкретной информационной системы. Он может переходить от использования «простых» терминологических ресурсов, к которым можно отнести всевозможные учебные пособия, фонетические и обучающие системы, словари и глоссарии, находящиеся как в памяти компьютера, так и в сети, к привлечению более сложных систем, таких как системы поиска и обработки информации, машинного перевода и т. д. При подобной информационной поддержке можно создать ком плекс средств обучения и самообразования для пользователя любого уровня. Кроме того, наличие подобных средств дает возможность любому преподавателю, организующему работу студента, выбирать те виды деятельности, которые могут осуществляться студентом само
стоятельно, и те, которые требуют контакта с преподавателем. Тем самым обучение превращается в осознанно направляемый процесс, допускающий контроль результатов на любом этапе и управление скоростью обучения в зависимости от успехов и интересов конкретного обучающегося. В зависимости от целей анализа и решаемых задач принято выде лять три класса систем автоматической переработки текста. К системам I класса относят системы, в которых целью анализа являются лингвистические операции над текстовой информацией, к ним относятся системы, осуществляющие машинный перевод, информационный поиск, аннотирование и реферирование, системы текстологического анализа, различные корпус-менеджеры. Результат работы оформляется в виде текста. К системам II класса относят системы, в которых целью анализа является вычисление нового знания из данных, извлеченных из текста или базы знаний, к ним относятся экспертные системы, автоматизированные словари, системы извлечения терминологии. Результат оформляется в виде текста или в виде таблицы. К системам III класса относят системы, в которых целью анализа является совершение определенных действий на основе данных, извлеченных из текста или базы знаний, роботы-манипуляторы, системы управления, графические системы. Результат оформляется в виде инструкции, схемы действий, чертежа. Большинство систем автоматической переработки текста можно найти в системе Интернет, в которой хранятся: ‒ информация общего характера на серверах сети, ‒ базы словарных и терминологических данных и средства их создания и ведения, ‒ базы данных библиотек, научных издательских и учебных цен тров, ‒ базы данных персональных сайтов, ‒ учебная информация университетов и издательств, ‒ оперативная информация, передаваемая по электронной почте. Ресурсы системы Интернет, которые можно использовать для решения практических и исследовательских задач, зависят от типа области знаний. В «известных», традиционных областях знаний в сети есть: ‒ архивы переведенных материалов разных фирм, так, хранили ще переводов Translation memory (Память переводов) содержит пере
воды элементов графического интерфейса пользователя различных систем, например, Microsoft Glossary и OpenOffice; ‒ коллекции терминов, например, TaaS (Terminology as a Service), http://www.taas-project.eu, созданные для непосредственного доступа и поиска по многоязыковой терминологической базе; ‒ наборы текстов, относящихся к узким предметным областям или из субъективно подобранной художественной литературы, см. ниже информацию о сетевых версиях публицистики и художественной литературы. В новых областях знаний ситуация более сложная, здесь имеется: ‒ небольшое количество переведенных текстов, ‒ недостаточное количество словарей, глоссариев, терминологи ческих банков, ‒ большое количество одноязычных текстов. В общем случае при анализе текстов на естественном языке ре шаются задачи, направленные на извлечение знаний и поддержку исследовательской и учебной деятельности: ‒ поиск, извлечение и обогащение информации и знаний, полу чаемых из различных источников; ‒ межъязыковое или многоязычное извлечение, презентация и распространение информации; ‒ обнаружение и «отслеживание» новой фактографической ин формации; ‒ использование источников знаний для того, чтобы облегчить разметку знаний и доступ к ним; ‒ поддержка диалогового взаимодействия человека и компьюте ра, а также людей с помощью посредника-компьютера; ‒ поддержка дистанционного обучения в системах открытого образования; ‒ создание интеллектуальных средств ведения библиографиче ской работы, анализа и понимания документов; ‒ моделирование знаний, потребностей и намерений; ‒ решение задач текстологического и литературоведческого ана лиза; ‒ обеспечение возможности устного диалога с компьютером и поддержки анализа и порождения звучащей речи. Рассмотрим возможности использования наиболее популярных и проверенных систем доступа к лингвистическим технологиям.
1.2. ЛЕКСИКОГРАФИЧЕСКИЕ БАЗЫ И БАНКИ ДАННЫХ Особое место в комплексе лингвистических ресурсов занимают ресурсы лексикографические, предоставляющие возможность оперативного извлечения информации из различных источников: терминологических баз и банков данных, электронных словарей и словарей автоматизированных систем обработки текстов, из предметно-ориентированных корпусов текстов и т. п. Особенности лексикографических ресурсов лингвиста. Компьютерные лексикографические (терминологические) ресурсы были хорошо приняты лингвистами с момента своего появления — с начала шестидесятых годов прошлого века. В крупных правительственных и промышленных организациях была осознана неотложная потребность в быстром доступе к современным глоссариям и словарям в области науки, техники, экономики и социальных наук в целом. Трудности были абсолютно ясными: быстро изменяющаяся терминология многих научно-технических дисциплин, появление новых понятий, новых методов и новых продуктов, часто недостаточная стандартизация терминологии и многочисленность источников информации различного качества и надежности. По оценкам того времени лингвисты могли тратить до 60% своего времени на консультации со словарями, глоссариями и другими терминологическими источниками [Krollmann et al. 1965]. Следует отметить, что системы, работающие с терминологией, существуют достаточно давно. Еще в 70-х годах ХХ века крупные компании и правительственные организации создавали машинные языковые фонды: параллельно с экономическим и техническим ростом постоянно появлялась новая терминология, и такие фонды предназначались для унификации терминов, использующихся в определенных типах текстов и при переводе. В это время одним из наиболее крупных фондов был ТЕАМ, разработанный компанией Siemens для работы с европейскими языками, в частности с русским, он включал около 700 000 лексических единиц из различных тематических областей (естественные науки, бизнес, техника и т. п.), соответственно сгруппированных [Hutchins 2001]. Материалы этого фонда используются и в настоящее время при создании специализированных словарей. В 80-е годы прошлого века разрабатывалась концепция Машин
Доступ онлайн
В корзину