Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Фразеологический машинный перевод текстов. Теоретические основы и технологические решения

Покупка
Артикул: 795264.01.99
Доступ онлайн
607 ₽
В корзину
В монографии рассматриваются теоретические основы и технологические решения в области разработки систем машинного перевода текстов нового поколения - систем фразеологического машинного перевода. Концепция создания таких систем была предложена проф. Г. Г. Белоноговым в 1975 г. в его предисловии к книге Д. А. Жукова «Мы переводчики». В рамках этой концепции впервые было сформулировано утверждение, что в качестве основных единиц смысла в словарях систем машинного перевода должны использоваться наименования понятий ‐ фразеологические словосочетания. В монографии описаны основные принципы и технологии создания и функционирования таких систем, позволяющих получать высокое качество перевода текстов. Наряду с техническими решениями, в ней также рассмотрены процессы управления функционированием системы, ее настройки на конкретные предметные области и взаимодействия пользователей с системой в процессе диалогового общения. Монография рассчитана на широкий круг научных сотрудников и специалистов в области научно‐технической информации, компьютерной лингвистики и информационных технологий, а также преподавателей, студентов и аспирантов системы высшего образования.
Хорошилов, А. А. Фразеологический машинный перевод текстов. Теоретические основы и технологические решения : монография / Ал‐др А. Хорошилов, А. В. Кан, Ал‐ей А. Хорошилов ; под науч. ред. К. К. Колина. - Москва : Берлин : Директ‐Медиа, 2019. - 466 с. - ISBN 978-5-4499-0089-0. - Текст : электронный. - URL: https://znanium.com/catalog/product/1908602 (дата обращения: 28.03.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Ал‐др А. Хорошилов, А. В. Кан,  
Ал‐ей А. Хорошилов 

ФРАЗЕОЛОГИЧЕСКИЙ  
МАШИННЫЙ ПЕРЕВОД ТЕКСТОВ  

Теоретические основы  и  технологические  

решения 

Москва 
Берлин 
2019 

УДК 81ʹ322 
ББК 81.184 
Х82 
Рецензенты: 
заслуж. деятель науки РФ, проф., докт. филол. наук  
Р. С. Гиляревский 

проф., докт. техн. наук В. А. Цветкова 
Научный редактор – заслуженный деятель науки РФ 

доктор технических наук, профессор К.К. Колин 

Хорошилов, Ал‐др А. 
Х82       Фразеологический машинный перевод текстов.  
  Теоретические основы и технологические решения /  
  Ал‐др А. Хорошилов, А. В. Кан, Ал‐ей А. Хорошилов ; под 
        научной ред. К. К. Колина. – Москва : Берлин : Директ‐Медиа,  

  2019. – 466 с. DOI: 10.23681/563869  

ISBN  978‐5‐4499‐0089‐0 

В монографии рассматриваются теоретические основы и технологические решения в 
области разработки систем машинного перевода текстов нового поколения – систем фра‐
зеологического машинного перевода. Концепция создания таких систем была предложе‐
на проф. Г. Г. Белоноговым в 1975 г. в его предисловии к книге Д. А. Жукова «Мы ‐ 
переводчики». В рамках этой концепции впервые было сформулировано утверждение, 
что в качестве основных единиц смысла в словарях систем машинного перевода должны 
использоваться наименования понятий ‐ фразеологические словосочетания. В моногра‐
фии описаны основные принципы и технологии создания и функционирования таких 
систем, позволяющих получать высокое качество перевода текстов. Наряду с технически‐
ми решениями, в ней также рассмотрены процессы управления функционированием 
системы, ее настройки на конкретные предметные области и взаимодействия пользовате‐
лей с системой в процессе диалогового общения. 
Монография рассчитана на широкий круг научных сотрудников и специалистов в 
области научно‐технической информации, компьютерной лингвистики и информацион‐
ных технологий, а также преподавателей, студентов и аспирантов системы высшего обра‐
зования.  
УДК 81ʹ322 
ББК 81.184 

ISBN 978‐5‐4499‐0089‐0 
© Хорошилов Ал‐др А., Кан  А. В., Хорошилов Ал‐ей А., 
 2019 
© Издательство «Директ‐Медиа», оформление, 2019 

Содержание 

Высокое качество перевода текстов –  необходимое  

условие развития  современного общества и эффективного 

международного научно‐технического  сотрудничества ..........9 

Предисловие ......................................................................................14 

Введение..............................................................................................16 

Глава 1. Единицы языка и речи в системах автоматической 

обработки текстовой  информации.............................................20 

Глава 2. Концепция фразеологического  машинного  

перевода текстов с одних  естественных языков на другие.....41 

2.1. Предварительные замечания..............................................41 

2.2. Концепция фразеологического машинного   

перевода текстов ...........................................................................49 

2.3. Пути реализации концепции фразеологического 

машинного перевода ...................................................................51 

Выводы.............................................................................................53 

Глава 3. Общие принципы создания  и функционирования 

систем ФМП .......................................................................................56 

3.1 Основные подходы к решению проблемы 

машинного перевода ...................................................................56 

3.2 Общий порядок функционирования систем ФМП .......58 

3.3 Первоначальный процесс создания системы ФМП .......63 

3.4 Общая базовая архитектура системы ФМП.....................65 

Выводы.............................................................................................72 

Глава 4. Машинные грамматики  естественных языков ..........73 

4.1 Общие принципы создания машинных  грамматик.....73 

4.2. Машинная грамматика русского языка ...........................77 

4.3 Машинная грамматика языков стран  Западной  

Европы и Юго‐Восточной Азии ..............................................111 

Выводы...........................................................................................138 

Глава 5. Семантико‐синтаксический анализ текстов..............140 

5.1 Синтаксическая модель русского языка на основе 

обобщенных синтагм .................................................................140 

5.2 Разрешение грамматической неоднозначности  

английских слов с помощью метода аналогии ...................147 

5.3 Разрешение грамматической омонимии  

русских слов .................................................................................154 

5.4 Общие принципы построения процедур   

семантико‐синтаксического анализа текстов.......................157 

5.5 Принципы синтаксического анализа текстов   

на основе использования синтаксических правил..............161 

5.6 Процедура синтаксического анализа русских текстов 

на основе синтаксических правил...........................................165 

5.7 Процедура синтаксического анализа английских текстов, 

основанного на синтаксических правилах............................169 

5.8 Автоматическое установление структурного сходства 

предложений...............................................................................171 

5.9 Построение процедуры синтаксического анализа 

английских текстов на основе обобщенных синтагм .........175 

Выводы...........................................................................................187 

Глава 6. Концептуальный анализ текстов.................................189 

6.1 Общие принципы реализации процедуры  

концептуального анализа текстов ..........................................189 

6.2 Концептуальный анализ с контролем  по словарю  

ЭКС.................................................................................................191 

6.3 Концептуальный анализ текстов на основе   

«логической шкалы» эталонного словаря ............................196 

6.4 Концептуальный анализ текстов на основе   

синтаксических структур эталонного словаря ....................200 

6.5. Концептуальный анализ на основе  обобщенных  

синтагм ..........................................................................................209 

6.6 Сравнительный анализ частотных словарей,   

полученных различными методами ......................................215 

Выводы...........................................................................................219 

Глава 7. Трансфер............................................................................221 

7.1 Основные принципы реализации процедуры  

трансфера .....................................................................................221 

7.2 Структура и содержание двуязычных словарей  

системы ФМП ..............................................................................223 

7.3 Преобразование текстового представления  текста  

в совокупность поисковых представлений фрагментов  

текста...........................................................................................233 

7.4 Поиск переводных соответствий фрагментов   

исходного текста в комплексе словарей системы ФМП ....234 

7.5 Выбор приоритетных переводных соответствий  

для фрагментов исходного текста...........................................237 

7.6 Соотнесение исходных текстовых фрагментов  с их 

приоритетными переводными соответствиями .................239 

Выводы...........................................................................................243 

Глава 8. Семантико‐синтаксический синтез текстов ..............244 

8.1 Принципы реализации процедуры  синтаксического 

синтеза текстов ............................................................................244 

8.2 Синтаксический синтез глагольных   

словосочетаний............................................................................247 

8.3 Локальный синтаксический синтез   

словосочетаний............................................................................251 

8.4 Семантико‐синтаксический синтез переводного 

предложения ...............................................................................256 

8.5 Перевод текстов на основе модели обобщенных  

синтагм ..........................................................................................259 

8.6 Перевод текстов на основе установления  смыслового 

сходства синтаксических конструкций предложений.......274 

Выводы...........................................................................................277 

Глава 9. Технологии создания декларативных средств  

для системы ФМП...........................................................................279 

9.1 Предварительные замечания.............................................279 

9.2 Исследования тематических реферативных  баз  

данных ВИНИТИ ........................................................................280 

9.3. Автоматическое составление словарей  наименований 

понятий без контроля по тезаурусу.......................................293 

9.4 Технологии составление словарей  по отраслевому  

корпусу текстов ...........................................................................299 

9.5 Автоматизация составления словарей по  
параллельным   двуязычным текстам ....................................333 
9.6 Общий порядок автоматизированного  составления 

и ведения фразеологических  машинных словарей...........325 

Выводы...........................................................................................330 

Глава 10. Технологии функционирование  систем ФМП ......331 

10.1 Основные виды переводческой деятельности..............331 

10.2. Модификации системы ФМП.........................................332 

10.3. Лингвистическое обеспечение систем ФМП...............345 

10.4. Порядок работы лингвиста‐переводчика  в системе  

ФМП .............................................................................................. 347 

Глава 11. Технологии создания новых  направлений  

перевода для системы ФМП.........................................................388 

11.1. Возможности создания универсального 

мультиязычного переводчика .................................................388 

11.2. Разработка технологий создания новых   

направлений перевода системы ФМП...................................394 

Выводы...........................................................................................410 

Глава 12. Опыт эксплуатации модификаций систем  

ФМП ...................................................................................................411 

12.1. Начальный этап разработки системы ..........................411 

12.2. Дальнейшее развитие системы RETRANS...................419 

12.3. Отраслевые модификации системы ФМП ..................421 

12.4. Программно‐лингвистическая платформа   

MetaFraz ........................................................................................427 

Выводы...........................................................................................443 

Заключение ......................................................................................445 

Литература .......................................................................................450 

Высокое качество перевода текстов –  
необходимое условие развития  
современного общества и эффективного меж‐
дународного научно‐технического  
сотрудничества 

В настоящей монографии впервые в отечественной и мировой 
научно‐технической литературе излагается принципиально но‐
вая концепция комплексного решения проблемы существенного 
повышения качества автоматизированного перевода текстов, 
представленных на различных языках мирового сообщества. В 
современных условиях становления глобального информацион‐
ного общества, нарастания комплекса глобальных проблем и 
развития новой научно‐технологической революции актуаль‐
ность и значимость этой проблемы трудно переоценить1. 
Современное международное информационное пространство 
быстро развивается в результате все более широкого распростра‐
нения компьютерных телекоммуникаций, которые сегодня охва‐
тывают все страны мира и становятся неотъемлемой частью их 
культуры, научно‐технологической и социально‐экономической 
деятельности2. При этом особую важность приобретает научно‐
техническая информация, которая содержит сведения о новых 
достижениях в области науки и технологий, здравоохранения, 
организации общественного производства, а также о методах 
противодействия новым вызовам и угрозам XXI века.  
Серьезная лингвистическая проблема использования такой 
информации специалистами различных стран состоит в том, что 

1 Соколов И. А., Колин К. К. Новый этап информатизации общества и акту‐
альные проблемы образования // Информатика и ее применения, 2008. Т. 2,  
№ 1. С. 67‐76. 

2 Колин К. К., Урсул А. Д. Информация и культура. Введение в информаци‐
онную 
культурологию. 
М.: 
Изд‐во 
Стратегические 
приоритеты,  
2015. – 300 с. 

она, как правило, содержит большое количество специальных 
терминов, требующих адекватного перевода. А этого современ‐
ные средства перевода текстов в необходимой степени еще не 
обеспечивают. Поэтому проблема повышения качества перевода 
текстов научно‐технической информации и является той акту‐
альной и стратегически важной проблемой, без решения кото‐
рой эффективное использование передовых достижений научно‐
технического прогресса и международное научно‐техническое 
сотрудничество практически невозможно. 
Необходимо отметить, что попытки решения этой проблемы 
предпринимались неоднократно, начиная с середины минувшего 
века, когда появились средства вычислительной техники, и про‐
должаются до сих пор. Однако полученные в них результаты еще 
нельзя признать удовлетворительными. Наглядным примером 
здесь может служить современное состояние этой проблемы в 
странах Европейского экономического союза, для которых сис‐
тему высококачественного автоматизированного перевода тек‐
стов создать пока еще не удалось3. 
Аналогичная проблема существует и в странах Евразийского 
экономического союза, а также в странах, которые являются чле‐
нами БРИКС, ШОС и СНГ. Причем, здесь она осложняется еще и 
существенным различием алфавитов, на которых представлена 
текстовая информация. Так, например, в Китае используются 
иероглифы, в Индии – слоговое письмо, а в других странах этих 
новых объединений государств – латиница и кириллица.  
Но все же главная причина того, что удовлетворительного 
решения проблемы качественного автоматизированного перево‐
да тестов до сих пор не было найдено, состоит не в этом. Она за‐
ключается в том, что для такого решения нужна принципиально 
новая концепция и технология автоматизированного перевода 

                                                 

3 Колин К. К., Хорошилов А. А. Проблема многоязычия в информационном 
общества и интеллектуальные переводческие технологии // Информационное 
общества, 2012, № 1. С. 56‐61. 

текстов, которую используют авторы настоящей монографии. 
Она называется концепцией фразеологического перевода.  
Суть этой концепции состоит в том, что смысл переводимого 
на другой язык текста раскрывается более полно в тех случаях, 
когда перевод осуществляется не пословно, а путем использова‐
ния словосочетаний и даже целых фраз. При этом предполагает‐
ся, 
что 
адекватность 
такого 
перевода 
заранее 
проверена 
квалифицированными экспертами. 
Впервые эта концепция была предложена российским уче‐
ным доктором технических наук, профессором Г. Г. Белоноговым 
еще в середине XX века4. Однако практическая реализация этой 
концепции была тогда невозможной, главным образом, по при‐
чине недостаточных объемов памяти вычислительных средств. 
Сегодня же ситуация в этой области качественно изменилась. 
Ведь даже память обычного персонального компьютера оказыва‐
ется вполне достаточной для обеспечения функционирования 
той комплексной интеллектуальной системы автоматизирован‐
ного фразеологического перевода текстов, которая разработана и 
описана авторами данной монографии. 
В ней подробно излагаются основополагающие принципы 
создания этой системы, технологии ее проектирования, а также 
примеры и результаты практического использования для пере‐
вода тестов, представленных на русском, английском и казахском 
языках.  
Важная отличительная особенность этой системы состоит в 
том, что она является динамической и включает в себя средства 
настройки на конкретные предметные области информационно‐
го пространства, которые в наибольшей степени интересуют ее 
пользователей. Для этих целей в системе предусмотрена воз‐
можность создания специальных тематических словарей для ка‐
ждой предметной области, которые в процессе перевода 

                                                 

4 Белоногов Г. Г., Хорошилов Ал‐др А., Хорошилов Ал‐сей А. Фразеологиче‐
ский машинный перевод текстов с одних естественных языков на другие. // На‐
учно‐техническая информация. Серия 2. 2010, № 10.  

используются одновременно с базовыми фразеологическими 
словарями общей лексики и обладают по отношению к ним бо‐
лее высоким приоритетом. Эти словари формируются с привле‐
чением экспертов, хорошо знающих терминологию данной  
предметной области, и, по существу, являются базами знаний 
этих экспертов, что и гарантирует высокое качество перевода 
текстов.   
В монографии показано, что в процессе практической апро‐
бации этого важного свойства системы машинного перевода тек‐
стов было разработано более 150 таких тематических словарей по 
различным направлениям развития научно‐технического про‐
гресса: авиация, космонавтика, вычислительная техника, ядерная 
энергетика и т.п. Для этих целей в системе предусмотрены спе‐
циальные программные средства, которые существенно снижают 
трудоемкость работы экспертов при формировании тематиче‐
ских словарей. 
Кроме того, в системе предусмотрена также возможность соз‐
дания персональных словарей для отдельных пользователей, ра‐
ботающих в новой или же узкоспециализированной предметной 
области. Формирование этих словарей может осуществляться 
самими пользователями в процессе их работы в системе и позво‐
ляет учесть специфику новой терминологии в данной области, 
которая может находиться еще в стадии становления. Эта осо‐
бенность представляется очень важной для целей лингвистиче‐
ской 
поддержки 
деятельности 
ученых 
и 
специалистов, 
работающих сегодня на переднем крае развития научно‐
технического прогресса.  
Необходимо отметить, что рассмотренная в данной моногра‐
фии концепция автоматизированного фразеологического пере‐
вода текстов может стать методологической основой для 
решения еще одной стратегически важной лингвистической 
проблемы развития современного общества. Она состоит в необ‐
ходимости создания многоязычных систем автоматизированного 
перевода для нескольких языков, являющихся наиболее важными 

для развития определенной предметной области, региона мира 
или же международной организации. Исследования показыва‐
ют5, что именно эта проблема является сегодня наиболее острой 
в условиях становления многополярного мироустройства, так как 
взаимное понимание и доверие между народами различных 
стран – это необходимые условия для объединения их усилий с 
целью решения общих глобальных проблем современности, со‐
вместного противодействия новым угрозам XXI века6. 
Несколько слов об авторах настоящей монографии. Все они 
являются высоко квалифицированными специалистами в облас‐
ти создания сложных программных систем и длительное время 
работают над проблематикой автоматизированного фразеологи‐
ческого перевода текстов. Научный руководитель авторского 
коллектива – доктор технических наук Александр Алексеевич 
Хорошилов является учеником и соратником профессора 
Г. Г. Белоногова, светлой памяти которого и посвящена эта книга. 
Мне представляется, что ее содержание будет полезным, пре‐
жде всего, для специалистов, связанных с анализом международ‐
ной научно‐технической информации, а также для научных 
работников, преподавателей  студентов и аспирантов российских 
и зарубежных вузов, дипломатических работников и специали‐
стов в области международного научно‐технического сотрудни‐
чества. 

Научный редактор 
  К. К. Колин. 

5 Соколов И. А., Колин К. К. Развитие информационного общества в России 
и актуальные проблемы информационной безопасности. // Информационное 
общество, 2009, № 4‐5. С. 98‐107. 

6 Колин К. К. Глобальные угрозы развитию цивилизации в XXI веке. // Стра‐
тегические приоритеты, 2014, № 1. С. 6‐30. 

Посвящается  светлой памяти профессора  
Герольда Георгиевича Белоногова 

Предисловие 

Профессор Герольд Георгиевич Белоногов является одним из 
основоположников отечественной информатики, признанным 
как в России, так и за рубежом. Он внес большой вклад в 
развитие теории и практики создания автоматизированных 
информационных систем. Под его руководством разработан ряд 
перспективных систем автоматической обработки текстовой 
информации. Наиболее значительным его достижением являет‐
ся разработка теоретической концепции фразеологического 
машинного перевода текстов (ФМП). Ключевым положением 
этой 
концепции 
является 
утверждение, 
что 
основными 
единицами языка и речи, которые следует включать в машинный 
словарь систем ФМП, должны быть фразеологические единицы 
(словосочетания, фразы).  
В рамках этой концепции им были решены сложнейшие 
теоретические проблемы практической реализации програм‐
мных и декларативных средств для систем ФМП. Все эти 
решения базировались на современных представлениях о 
смысловой структуре научно‐технических текстов и мощном 
фундаменте – оригинальной машинной грамматике русского 
языка.  
В процессе создания методов, процедур и технологий  ФМП 
Г. 
Г. 
Белоноговым 
была 
создана 
научная 
школа 
и 
квалифицированный 
коллектив 
разработчиков, 
в 
рамках 
которого было подготовлено четыре докторских и более 
тридцати 
кандидатских 
диссертационных 
работ 
по 
этой 
тематике. Сам он является автором более 150 научных работ и 
нескольких монографий. 
Профессор Г. Г. Белоногов являлся членом Международной 
академии информационных процессов и технологий. В 1996 году 

Международный биографический центр (г. Кембридж, Англия) 
присвоил ему звание «Международный человек года». 
В настоящей монографии предпринята попытка в краткой 
форме обобщить теоретические положения, предложенные 
проф. Г. Г. Белоноговым, и описать основные технологические 
решения, положенные в основу разработки системы ФМП и ее 
модификаций. 
Авторы выражают благодарность заслуж. деятелю науки РФ, 
проф., докт. филол. наук Р. С. Гиляревскому, заслуж. деятелю 
науки РФ, проф., докт. техн. наук К. К. Колину, проф., докт. физ.‐
мат. 
наук 
А. 
В. 
Пантелееву, 
проф., 
докт. 
техн. 
наук 
В. А. Цветковой и проф., докт. физ.‐мат. наук В. И. Синицину, 
поддержавших идею написания этой монографии и оказавших 
содействие в подготовке к ее опубликованию. 

Введение 

Современное человеческое общество характеризуется высо‐
ким уровнем активности в различных областях деятельности 
(экономике, политике, науки, технике, культуре и др.). Эта ак‐
тивность привела к быстрому росту объемов информации, цир‐
кулирующей между различными сообществами людей, и к 
трудностям по освоению этой информации. Создалась ситуация, 
которую стали обозначать термином «информационный взрыв». 
Положение осложнилось еще и тем, что между странами и на‐
родами существуют языковые барьеры, которые при возрастании 
потоков информации стало трудно преодолевать. Традиционные 
методы их преодоления (обучение языкам и переводческая дея‐
тельность) оказались недостаточными. Возникла необходимость 
искать альтернативные пути решения проблемы.  
Возможность поиска новых путей решения проблемы появи‐
лась к середине 50‐х годов прошлого столетия, когда были по‐
строены первые электронные вычислительные машины. Эти 
машины являются по существу универсальными алгоритмиче‐
скими машинами, на которых можно решать не только «вычисли‐
тельные» задачи, но и любые другие задачи, описываемые с 
помощью алгоритмов: логический вывод, распознавание образов, 
машинный перевод текстов, игра в шахматы и многие другие. 
Перевод текстов с одних языков на другие – сложный творче‐
ский процесс, требующий от переводчика не только соответст‐
вующей лингвистической подготовки, но и хороших знаний 
предметных областей, к которым переводимые тексты относятся. 
Он осуществляется на основе восприятия и понимания челове‐
ком исходного текста и последующей передачи его содержания 
средствами выходного языка. При этом переводятся не столько 
значения слов и их последовательностей, сколько мыслительные 
образы, порождаемые в сознании переводчика под их воздейст‐
вием. 
Системы машинного перевода текстов с одних естественных 
языков на другие моделируют работу человека‐переводчика. Их 

Доступ онлайн
607 ₽
В корзину