Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Оценка семантического потенциала текстов в аналитических системах

Покупка
Артикул: 776355.01.99
Доступ онлайн
220 ₽
В корзину
В исследовании рассматривается один из перспективных способов практического использования данных о семантическом потенциале текста на русском языке - специфическом интегральном показателе, отражающем меру его смысловой неопределенности с точки зрения автоматизированного анализатора. Оценивание данного показателя посредством формально-семантического анализа многозначной лексики применено в интересах разработки минимизированного алгоритма автоматической классификации русскоязычных текстов по признаку их функционально-стилевой отнесенности, что, в свою очередь, позволяет в перспективе обеспечить оптимизацию производительности и эффективности основных разновидностей автоматизированных систем обработки текстов - средств понимания естественного языка, поисковых роботов и каталогизаторов, а также систем машинного перевода.
Головко, Н. В. Оценка семантического потенциала текстов в аналитических системах : монография / Н. В. Головко. - 2-е изд., стер. - Москва : ФЛИНТА, 2019. - 206 с. - ISBN 978-5-9765-4237-2. - Текст : электронный. - URL: https://znanium.com/catalog/product/1862759 (дата обращения: 28.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Н.В. Головко

ОЦЕНКА СЕМАНТИЧЕСКОГО ПОТЕНЦИАЛА ТЕКСТОВ 

В АНАЛИТИЧЕСКИХ СИСТЕМАХ

Монография

2-е издание, стереотипное

Москва

Издательство «ФЛИНТА»

2019

УДК 81'322.2 
ББК 81.1 
        Г 61 

Рецензент: 

доктор филологических наук, профессор, декан факультета филологии, 
журналистики и межкультурной коммуникации ФГАОУ ВПО «СевероКавказский федеральный университет» Гусаренко Сергей Викторович

Головко Н.В.

Г 61
Оценка семантического потенциала текстов в аналитических системах 

[Электронный ресурс]: монография / Н.В. Головко. — 2-е изд., стер. —
М. : ФЛИНТА, 2019. — 206 с.

ISBN 978-5-9765-4237-2

 В исследовании рассматривается один из перспективных способов 
практического использования данных о семантическом потенциале текста 
на русском языке – специфическом интегральном показателе, отражающем 
меру 
его 
смысловой 
неопределенности 
с 
точки 
зрения 
автоматизированного 
анализатора. 
Оценивание 
данного 
показателя 
посредством формально-семантического анализа многозначной лексики 
применено в интересах разработки минимизированного алгоритма 
автоматической классификации русскоязычных текстов по признаку их 
функционально-стилевой отнесенности, что, в свою очередь, позволяет в 
перспективе 
обеспечить 
оптимизацию 
производительности 
и 
эффективности основных разновидностей автоматизированных систем 
обработки текстов – средств понимания естественного языка, поисковых 
роботов и каталогизаторов, а также систем машинного перевода. 

УДК 81'322.2
ББК 81.1

ISBN 978-5-9765-4237-2     
       © Головко Н.В., 2019 
   © Издательство «ФЛИНТА», 2019 

Введение

В конце XX века многие исследователи проявляли  существенный интерес 

к разработкам в области искусственного интеллекта вообще и к вопросам 

автоматизированной обработки естественных языков в частности. Этот интерес 

сохраняется и поныне, регулярно находя выражение в инновационных 

алгоритмах, программных продуктах и программно-аппаратных решениях, 

призванных обеспечить машинное «понимание» тех или иных текстов.

Интенсивное 
развитие 
информационных 
технологий 
позволяет 

накапливать значительные объемы разнообразных данных, что автоматически 

ставит вопросы о надлежащей обработке упомянутых сведений, оперативном 

поиске требуемой информации, а также предельном упрощении человеко
машинной коммуникации вкупе с автоматизацией действий, на выполнение 

которых затрачиваются существенные временные ресурсы. Все это формирует 

предпосылки для развития и совершенствования автоматизированных систем 

обработки текстов (АСОТ).

Хотя первичные исследования, послужившие базой для дальнейших 

разработок, датируются концом XIX – началом XX века (в связи с этим могут 

быть упомянуты, к примеру, концепции Дж. Милля (1914), представляющие 

собой образцы раннего приближения к теории фреймов), период активного 

изучения подобных вопросов приходится главным образом на 80-е годы 

минувшего века. В это время наблюдается рост интереса советских и 

зарубежных ученых к лингвистическим возможностям вычислительных машин. 

Теоретические основания данных исследований закладывались Р. Шенком 

(1977), М. Минским (1978), Ч. Филлмором (1985),  Т. Виноградом (1985), В.А. 

Звегинцевым (1985) и другими известными специалистами. В СССР регулярно 

публиковались аналитические обзоры и сборники статей по компьютерной

лингвистике, подготовленные С.М. Шевенко (1985), А.Н. Барановым (1987), 

Б.Ю. 
Городецким 
(1989), 
что 
свидетельствовало 
об 
актуальности 

рассматриваемой проблемы с точки зрения советских ученых. При этом 

вопросы 
машинного 
«понимания» 
естественных 
языков 
неразрывно 

увязывались с разработками в области лексической семантики и семантических 

языков (Б.Н. Плотников (1981), А.Ф. Лосев (1982), Д.Н. Шмелев (1973), Ю.Д. 

Апресян (1974), Н.Д. Арутюнова (1988), Е.С. Кубрякова (1992)). Велись 

исследования и в сфере формализации языковых образцов (А.М. Шахмайкин 

(1986)).

После того, как Советский Союз прекратил свое существование, 

объективные обстоятельства, связанные с политической обстановкой в 

государстве, оказали негативное воздействие на развитие отечественной 

компьютерной лингвистики, в результате чего активные разработки в области 

автоматизированных систем обработки текстов были практически полностью 

прекращены. Те из них, которые нашли применение в коммерческом секторе, 

как и более актуальные разработки зарубежных ученых, легли в основу 

разнообразных продуктов и решений, обеспечивающих их производителям 

конкурентное преимущество перед прочими игроками рынка; таким образом, 

упомянутые научные достижения обрели статус информации, охраняемой 

коммерческой тайной, что автоматически обусловило низкую степень их 

доступности для рядового исследователя.

Тем 
не 
менее, 
российские 
и 
зарубежные 
специалисты 
активно 

рассматривают вопросы формально-семантического анализа текстов (Леонтьева 

Н.Н. (2002); P. Cimiano, S. Staab, J. Tane (2003); D. Ferrucci (2004); И.В. Азарова, 

Е.А. Овчинникова (2005) и др.), автоматической классификации данных для 

нужд информационно-поисковых систем (Панков И.П., Захаров В.П (1996); 

П.И. Браславский (1999)), формализации языковых сообщений (В.А. Фомичев 

(2002); A. Mehler, U. Waltinger, A. Wegner (2007)). Кроме того, разработки 

зарубежных ученых манифестируются в создаваемых ими аналитических 

системах 
(например, 
о 
текущем 
состоянии 
ведомых 
американскими 

лингвистами и инженерами работ в данной области можно судить по 

особенностям вычислительного кластера IBM Watson (2010)). Из наиболее 

содержательно близких к настоящему исследованию работ надлежит упомянуть 

диссертацию О.Г. Шевелева «Разработка и исследование алгоритмов сравнения 

стилей текстовых произведений» (2006).

Необходимо отметить, что в настоящее время существует потребность в 

оптимизации систем автоматизированного анализа текстов на естественных 

языках, которая связана с ростом объемов информации и необходимостью ее 

надлежащей классификации. Несмотря на активное исследование связанных 

вопросов и существенный объем накопленных за все время их изучения 

данных, 
современные 
АСОТ 
по-прежнему 
нуждаются 
не 
только 
в 

совершенствовании, 
но 
и 
в 
дальнейшем 
повышении 
скорости 
и 

производительности их работы. Кроме того, ряд исследователей отмечает, что 

собственно 
лингвистическое 
обеспечение 
упомянутых 
систем 
нередко 

характеризуется недостаточной степенью унифицированности, системности и 

разработанности, что приводит к не вполне верному пониманию сущности 

языковых явлений и, как следствие, к выбору неоптимальных аналитических 

критериев. Это приводит нас к заключению, что на данный момент 

востребованными являются исследования, в которых рассматривались бы 

потенциальные пути улучшения базовых показателей типичных АСОТ, 

основанные на достаточно надежном теоретико-лингвистическом фундаменте и 

обеспечивающие более корректное отражение специфики языковой системы.

Привлекая формально-семантический анализ многозначной лексики для 

исследования текстовых образцов, мы рассчитываем выйти тем самым на 

формирование у машины определенного эмулированного представления о 

семантике и о контексте. Наш анализ показывает, что разработчики 

современных 
автоматизированных 
классификаторов 
и 
обработчиков 

информации полагаются главным образом на те
формальные признаки 

исследуемых текстов, которые не проникают глубже плана выражения и не 

имеют какой-либо опосредованной или непосредственной связи с планом 

содержания, хотя актуальность и необходимость обращения к значению и 

смыслу языковых единиц не раз обосновывалась в упомянутых нами выше 

исследованиях. В тех же случаях, когда учеными предпринимаются попытки 

выхода 
на 
план 
содержания 
посредством, 
к 
примеру, 
изучения 

генерализованного грамматического значения, для подобных исследований 

привлекаются 
громоздкие 
методы 
и 
приемы, 
для 
поддержания 

работоспособности которых требуются сложные алгоритмы и объемные базы 

данных, что, в свою очередь, негативно сказывается на производительности 

АСОТ. Сложившееся положение требует разработки принципиально новых 

аналитических алгоритмов, способных претендовать на адекватное отражение 

семантических и контекстуальных особенностей предъявляемых им текстовых 

образцов 
и 
в 
то 
же 
время 
отличающихся 
высокой 
скоростью 

функционирования и экономичностью в отношении системных ресурсов. 

Настоящее исследование фокусируется на лексико-семантических аспектах

значения текста на естественном языке, в частности – семантическом потенциале

текста как интегральном показателе многозначности входящих в его состав 

лексических единиц, определяемом
средствами формально-семантического 

анализа. Подробному рассмотрению подвергаются системные внутриязыковые 

взаимоотношения, существующие, с одной стороны, между лексической 

многозначностью и полисемантичностью текста, и, с другой стороны, между 

неоднозначностью текста
и его функционально-стилевой отнесенностью. 

Данные взаимоотношения выражаются в специфических характеристиках 

естественноязыковых текстов, которые, в свою очередь, манифестируются в 

машиночитаемых 
формальных 
маркерах 
и 
могут 
быть 
подвергнуты 

автоматизированному анализу.

В рамках работы будет рассмотрено одно из потенциальных направлений 

практического 
использования 
данных 
о 
семантическом 
потенциале 

естественноязыковых текстов и методов его оценивания, а именно –

оптимизация автоматизированных систем обработки текстов посредством 

функционально-стилистической 
классификации 
исследуемых 
образцов. 

Соответственно, в ходе исследования мы намерены выявить, описать и 

систематизировать 
те 
средства 
формально-семантического 
анализа 

многозначной лексики, использование которых позволяет усовершенствовать 

лингвистическое обеспечение автоматизированных систем обработки текстов и 

оптимизировать 
их. 
Для 
этого 
надлежит
определить 
характеристики 

естественноязыковых текстов, обработка которых составляет наиболее 

эффективные потенциальные пути оптимизации АСОТ, после чего на примере 

русского языка сформировать и описать минимальный набор машиночитаемых 

формальных 
маркеров, 
позволяющих 
реализовать 
выбранные 
пути 

оптимизации АСОТ посредством классификации естественноязыковых текстов 

на основании упомянутых характеристик;
изучить классификационные 

возможности выявленных маркеров, в том числе показателей потенциальной 

полисемантичности, находимых в результате формально-семантического 

анализа многозначной лексики, и  разработать алгоритм анализа и 

классификации текстов по выявленным формальным маркерам, построить 

демонстрационный 
образец 
программного 
обеспечения, 
реализующего 

разработанный алгоритм, и провести испытания, позволяющие судить о 

степени эффективности построенного программного обеспечения, а также

рассмотреть 
перспективы 
повышения 
эффективности 
построенного 

программного обеспечения по результатам проведенных испытаний.

Нами выдвинута следующая гипотеза: основанием для достоверной и 

эффективной функционально-стилистической классификации текстов, которая 

выступает в качестве источника оптимизации существующих и перспективных 

АСОТ, может служить упрощенный аналитический алгоритм, принцип работы 

которого базируется на определении и сопоставлении двух минимально 

необходимых 
диагностических 
показателей: 
средней 
длины 
слова 
и 

потенциальной полисемантичности текста, выявляемой посредством обработки 

его лексического массива. Потенциальная полисемантичность текста при этом 

рассматривается как мера его неопределенности (т.е. энтропия), которая 

образуется в результате суммирования неопределенностей лексических единиц, 

входящих в состав исследуемого текста.

В настоящем исследовании систематизированы, обработаны и сведены в 

единую дефиницию разрозненные определения формально-семантического 

анализа, представлен способ оценивания потенциальной полисемантичности 

текстов на основе расчета и сопоставления массовых долей специфических 

словарных групп (данное терминологическое выражение применяется в рамках 

исследования для обозначения всякого конститутивного фрагмента словника 

лексикографического 
издания 
с 
алфавитным 
принципом 
сортировки, 

объединяющего заголовочные слова по признаку инициальной графемы), 

сформирован и описан минимальный набор машиночитаемых формальных 

маркеров функционально-стилевой принадлежности русскоязычных текстов, а 

также 
предложено 
обоснование 
для 
упрощенного 
исследовательского 

алгоритма, возможности которого обладают значительным потенциалом с 

точки зрения оптимизации АСОТ. Полученные результаты, разработанные 

алгоритмы и построенное на их основании программное обеспечение после 

необходимой 
адаптации 
могут 
быть 
применены 
для 
улучшения 

производительности и качества функционирования основных типов АСОТ –

поисковых роботов и каталогизаторов, комплексов машинного перевода, а 

также средств человеко-машинного взаимодействия.

По нашему мнению, формально-семантический анализ многозначной 

лексики, 
выступающий 
эффективным 
средством 
автоматического 

классифицирования текстов на естественных языках по признаку их 

функционально-стилевой 
принадлежности, 
представляет 
собой 
наиболее 

эффективное направление оптимизации автоматизированных систем обработки 

естественноязыковых текстов в рамках комплексного подхода к формированию 

их лингвистического обеспечения.

Исследования по заявленной теме выполнялись в рамках реализации 

Федеральной целевой программы «Научные и научно-педагогические кадры 

инновационной России» на 2009-2013 годы (НК-523П) и были обусловлены 

Государственным контрактом № П122 от 13 апреля 2010 г. на выполнение 

поисковых научно-исследовательских работ для государственных нужд. 

1. ФОРМАЛЬНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ МНОГОЗНАЧНОЙ 

ЛЕКСИКИ И АКТУАЛЬНЫЕ ПРОБЛЕМЫ АВТОМАТИЗИРОВАННЫХ 

СИСТЕМ ОБРАБОТКИ ТЕКСТОВ (АСОТ)

1.1. Структурно-семантические аспекты лексического значения слова

Вопросы, связанные с лексическим значением слова в целом и явлением 

лексической многозначности в частности, находились в сфере внимания многих 

известных отечественных и зарубежных лингвистов. Общетеоретические 

положения подобного рода разрабатывались А.Ф. Лосевым (1982), Ю.Д. 

Апресяном (1995), Е.С. Кубряковой (1992), Д.Н. Шмелевым (1973), Н.Д. 

Арутюновой (1988), А.Е. Кибриком
(1992), Е.В. Падучевой (1985), Р. 

Якобсоном (1983), Дж. Лайонзом (1978), Е. Куриловичем (1962), А. Вежбицкой 

(1967) и др. Некоторые из вышеупомянутых положений, детальный обзор 

которых мы полагаем уместным представить в данной главе, способны 

выступить в качестве надежной основы для дальнейших исследований по 

лингвистическому обеспечению АСОТ и формально-семантическому анализу 

многозначной лексики.

В соответствии с концепциями А.Ф. Лосева
[58], язык неизбежно 

предполагает 
смысловую 
подвижность 
и 
непрерывность. 
Если 
язык 

рассматривается, начиная с минимального фонетического значения и 

заканчивая полноценными структурами данных значений, то исследователю 

необходимо исходить из принципа вариативности; кроме того, поскольку речь 

идет о смысловом знаке, указанный принцип может привести к неожиданным 

семантическим 
комплексам, 
которые 
смогут 
быть 
соотнесены 
ни 
с 

изначальными звуками, ни с их разнообразными сочетаниями. В процессе 

изучения языкового контекста
следует отметить разнообразие значений 

каждого отдельного слова; это значение может принимать различные формы, 

фактически – от нуля до бесконечности. В отдельных случаях слово или даже 

отдельная морфема может иметь десятки возможных значений. В иных случаях 

представляется возможным говорить о бесконечном разнообразии допустимых 

значений, так что возникают затруднения при перечислении всех возможных 

семантических оттенков данного слова. В третьем случае вероятна полная 

потеря значения и приравнивание его к нулю.

Так, по мнению А.Ф. Лосева, объяснение специфических сем отдельных 

слов (напр., розоватый, мрачноватый и т.п.) возможно исключительно через 

привлечение некоторых иных элементов, выходящих за их пределы. Данное 

объяснение может быть осуществлено с привлечением словесного контекста 

рассматриваемого слова в определенной группе аналогичных слов, в 

определенной разновидности языка, где это слово употребляется в той или 

иной обстановке и, вероятно, в значительном историко-культурном контексте. 

Таким образом, основополагающим базовым принципом, определяющим 

употребление и значение того или иного знака, является контекст, а для языка 

— как языковой, так и внеязыковой контекст в наиболее широком смысле этого 

слова. Соответственно вышесказанному представляется возможным считать 

т.н. аксиомой знака тезис о его контекстной значимости: любой знак получает 

свою полноценную значимость только в контексте других знаков.

В соответствии с позицией А.Ф. Лосева, вместе с тем данная аксиома 

контекста требует рассмотрения вопросов, касающихся определения того, что 

такое знак. Представляется очевидным, что никакой знак не может быть 

представлен в абсолютном смысловом вакууме и что любое значение от 

наименее до наиболее значительного он может получать исключительно в том 

или ином смысловом окружении, т.е. контексте. Данное утверждение 

предполагает значительное количество очевидных аксиом того или иного рода, 

которые могут не быть сформулированы, но предполагаться к существованию 

каждым лингвистом. Из возникающего множества вопросов может быть 

выбрана проблема, связанная с явлением значения, - ввиду самого термина, 

имеющего определенное распространение в лингвистике. 

А.Ф. Лосев уверен, что понятия знака и значения являются в достаточной 

степени изученными, и очевидно, что любой знак имеет значение. Вместе с тем 

Доступ онлайн
220 ₽
В корзину