Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Компьютерная лингвистика и интеллектуальные технологии. Том II

Бесплатно
Основная коллекция
Артикул: 802340.01.99
Сборник включает 17 докладов международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2022», представляющих широкий спектр теоретических и прикладных исследований в области компьютерного моделирования естественного языка и создания новых лингвистических технологий. Для специалистов в области теоретической и прикладной лингвистики и интеллектуальных технологий.
Компьютерная лингвистика и интеллектуальные технологии. Том II : материалы ежегодной международной конференции «Диалог». Вып. 21 (доп. вып.) / отв. за вып. А. В. Ульянова. - Москва : РГГУ, 2022. - 195 с. - ISBN 978-5-7281-3204-2978-5-7281-3206-6-. - Текст : электронный. - URL: https://znanium.com/catalog/product/1993547 (дата обращения: 06.05.2024)
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Компьютерная лингвистика 
и интеллектуальные технологии

По материалам ежегодной международной конференции 
«Диалог» (2022)

Выпуск 21 
Дополнительный том

Computational Linguistics  
and Intellectual Technologies

Papers from the Annual International Conference “Dialogue” (2022)

Issue 21 
Supplementary volume

ONLINE: ISSN 2075-7182

УДК 81’322(063)
ББК 81.1я431
К63

Редакционная 
коллегия:
В. П. Селегей (главный редактор), В. И. Беликов, И. М. Богуславский, Б. В. Добров, 
Д. О. Добровольский, Л. Л. Иомдин, И. М. Кобозева, Н. В. Лукашевич, Д. Маккарти, 
П. Наков, Й. Нивре, А. Ч. Пиперски, В. Раскин, Э. Хови, Т. О. Шаврина, С. А. Шаров, 
Т. Е. Янко

К63
Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной меж-
дународной конференции «Диалог». Вып. 21, дополнительный том. Москва: РГГУ, 2022. C. 1001–1190.

ISBN 978-5-7281-3204-2
ISBN 978-5-7281-3206-6 (доп. том)

Сборник включает 17 докладов международной конференции по компьютерной лингвистике и ин-
теллектуальным технологиям «Диалог 2022», представляющих широкий спектр теоретических и при-
кладных исследований в области компьютерного моделирования естественного языка и создания но-
вых лингвистических технологий.
Для специалистов в области теоретической и прикладной лингвистики и интеллектуальных 
технологий.

УДК 81’322(063)
ББК 81.1я431

ISBN 978-5-7281-3204-2 
ISBN 978-5-7281-3206-6 (доп. том)
©  Оформление. Российский государственный 
гуманитарный университет, 2022

Предисловие

Дополнительный том по материалам ежегодной международной конференции «Диалог» (2022) со-
держит избранные материалы, отобранные рецензентами для представления на конференции в рамках 
стендовых и специальных сессий, но не вошедшие в ежегодник «Компьютерная лингвистика и интеллек-
туальные технологии». 
Как и статьи основного сборника данные статьи представляют все направления «Диалога» (могут 
представлять результаты продолжающихся исследований, вводить в обращение новые ресурсы) и отра-
жают те направления исследований в области компьютерного моделирования и анализа естественного 
языка, которые по традиции представляются на конференции:
• Компьютерные лингвистические ресурсы;
• Компьютерный анализ документов (классификация, перевод, поиск, саммаризация, генерация, 
анализ тональности и аргументации и т. д.);
• Глубокое обучение в компьютерной лингвистике (методики применения, содержательная 
лингвистическая интерпретация);
• Компьютерный анализ Social Media;
• Корпусная лингвистика и корпусометрия (методики создания, использования и оценки корпусов 
и датасетов);
• Компьютерная семантика (от аналитических до дистрибуционных моделей);
• Лингвистические онтологии и автоматическое извлечение знаний;
• Мультимодальные подходы к анализу языка (на стыке NLP и Computer Vision);
• Мультиканальная коммуникация (включая лингвистический анализ речи);
• Лингвистические модели общения и диалоговые агенты;
• Лингвистический анализ текста (морфология, синтаксис, семантика);
• Компьютерная лексикография;
• Полевая компьютерная лингвистика (методы создания и переноса языковых моделей для 
малоресурсных языков).

В сборнике представлены и статьи технологических соревнований между разработчиками систем лингвистического 
анализа русскоязычных текстов — Dialogue Evaluation, которые проводились по следующим 
направлениям:
• RUSSE Detox: Соревнование по автоматической детоксификации текстов;
• RuATD: Соревнование по распознаванию сгенерированных текстов;
• RuArg: Соревнование по анализу аргументации;
• RuNNE: Соревнование по извлечению вложенных именованных сущностей в few-shot режиме.

С 2019 года Оргкомитет конференции «Диалог» принял решение объединить статьи раздела «Статьи, 
публикуемые на сайте» в сборник «Дополнительный том». Сборник индексируется РИНЦ.

Программный комитет конференции «Диалог»
Редколлегия сборника «Компьютерная лингвистика и интеллектуальные технологии»

III

Организаторы

Ежегодная конференция «Диалог» проводится при организационной поддержке компании ABBYY.
Учредителями конференции являются:
• Институт лингвистики РГГУ
• Институт проблем передачи информации РАН
• Компания ABBYY
• Филологический факультет МГУ
• Школа прикладной математики и информатики МФТИ

Международный программный комитет

Богуславский Игорь Михайлович
ИППИ РАН, Россия;  
Мадридский политехнический университет, Испания

Буате Кристиан
Университет Джозефа Фурье — Гренобль 1, Франция

Гельбух Александр Феликсович
Национальный политехнический институт, Мексика

Иомдин Леонид Лейбович
ИППИ РАН им. А.А. Харкевича, Россия

Кобозева Ирина Михайловна
МГУ им. М. В. Ломоносова, Россия

Корбетт Гревил
Университет Суррея, Великобритания

Кронгауз Максим Анисимович
НИУ «Высшая школа экономики», Россия

Лукашевич Наталья Валентиновна
НИВЦ МГУ им. М. В. Ломоносова, Россия

Маккарти Диана
Кембриджский университет, Великобритания

Мельчук Игорь Александрович
Монреальский университет, Канада

Нивре Йоаким
Уппсальский университет, Швеция

Ниренбург Сергей
Университет Мэриленда, Балтимор, США

Райгородский Андрей Михайлович
МФТИ, Россия

Раскин Виктор
Университет Пердью, США

Селегей Владимир Павлович
Компания ABBYY, МФТИ, Россия

Хови Эдуард
Университет Карнеги — Меллон, США

Шаров Сергей Александрович
Университет Лидса, Великобритания

Организационный комитет

Селегей Владимир Павлович, 
председатель
Компания ABBYY, Россия

Беликов Владимир Иванович
Институт русского языка им. В. В. Виноградова РАН, Россия

Браславский Павел Исаакович
Уральский федеральный университет, Россия

Добров Борис Викторович
НИВЦ МГУ им. М. В. Ломоносова, Россия

Захаров Леонид Михайлович
МГУ им. М. В. Ломоносова, Россия

Иомдин Леонид Лейбович
Институт проблем передачи информации РАН им. А. А. Харкевича, 
Россия

Кобозева Ирина Михайловна
МГУ им. М. В. Ломоносова, Россия

Козеренко Елена Борисовна
Институт проблем информатики РАН, Россия

Кутузов Андрей Борисович
Университет Осло, Норвегия

Ляшевская Ольга Николаевна
Институт русского языка им. В. В. Виноградова РАН, Россия

Пиперски Александр Чедович
РГГУ, Россия

Толдова Светлана Юрьевна
НИУ «Высшая школа экономики», Россия

Шаврина Татьяна Олеговна
СберТех, Россия

Шаров Сергей Александрович
Университет Лидса , Великобритания

IV

Секретариат

Родионова Ольга Игоревна, координатор оргкомитета
Компания ABBYY, Россия

Ульянова Анна Вячеславовна, секретарь оргкомитета
РГГУ, Россия

Рецензенты

Азарова Ирина Владимировна
Андрианов Андрей Иванович
Антонова Александра Александровна
Артемова Екатерина Леонидовна
Баранов Анатолий Николаевич
Беликов Владимир Иванович
Богданов Алексей Владимирович
Богданова-Бегларян Наталья Викторовна
Богуславский Игорь Михайлович
Бочаров Виктор Владиславович
Бурцев Михаил Сергеевич
Васильев Виталий Геннадьевич
Гусев Илья Олегович
Добров Борис Викторович
Добровольский Владимир Андреевич
Добровольский Дмитрий Олегович
Зализняк Анна Андреевна
Захаров Леонид Михайлович
Иванов Владимир Владимирович
Ивойлова Александра Михайловна
Иомдин Леонид Лейбович
Инькова Ольга Юрьевна
Катинская Анисья Юрьевна
Кибрик Андрей Александрович
Клышинский Эдуард Станиславович
Клячко Елена Леонидовна
Князев Сергей Владимирович
Кобозева Ирина Михайловна
Копотев Михаил Вячеславович
Коротаев Николай Алексеевич
Котельников Евгений Вячеславович

Котов Артемий Александрович
Куратов Юрий Михайлович
Кутузов Андрей Борисович
Лапошина Антонина Николаевна
Левонтина Ирина Борисовна
Лобанов Борис Мефодьевич
Лукашевич Наталья Валентиновна
Малафеев Алексей Юрьевич
Митрофанова Ольга Александровна
Мичурина Мария Александровна
Недолужко Анна
Новицкий Валерий Игоревич
Орлов Евгений Анатольевич
Переверзева Светлана Игоревна
Петрова Мария Владимировна
Пиперски Александр Чедович
Подлесская Вера Исааковна
Рыгаев Иван Петрович
Селегей Владимир Павлович
Слюсарь Наталия Анатольевна
Смирнов Иван Валентинович
Смуров Иван Михайлович
Татевосов Сергей Георгиевич
Толдова Светлана Юрьевна
Федорова Ольга Викторовна
Феногенова Алена Сергеевна
Хохлова Мария Владимировна
Циммерлинг Антон Владимирович
Шаврина Татьяна Олеговна
Шаров Сергей Александрович
Янко Татьяна Евгеньевна

V

Computational linguistics and intellectual technologies 2022

Contents1

Басина П., Гойко В., Петров Е., Бакулин В.
Классификация публикаций сообществ «ВКонтакте» для оценки качества жизни населения  .... 1001

Блинова О., Тарасов Н.
Метрики сложности русских правовых текстов: отбор, использование, первичная оценка 
эффективности  ............................................................................................................................................ 1017

Buzanov A., Toldova S., Budilova Z., Slioussar N.
Non-canonical constructions with reflexive possessives in Russian: u-possessor constructions  ............... 1029

Гладилин С. А., Сизов В. Г., Казенников А. О., Морозов Д. А., Дяченко П. В., Дон О. Р., 
Козеренко А. Д., Пискунова С. В., Махова А. А., Буйлова Н. Н.
Прототип корпусной платформы нового поколения для НКРЯ  .......................................................... 1043

Iriskhanova O., Kiose M., Leonteva A., Agafonova O.
Staged and natural gesturing in argumentation and description  ................................................................ 1055

Хохлова М. В.
О некоторых типах ошибок в русскоязычном Интернет-корпусе  ...................................................... 1068

Khusainova A., Romanov V., Khan A.
Automatic Bilingual Phrase Dictionary Construction from GIZA++ Output  .............................................. 1077

Kiose M., Rzheshevskaya A., Izmalkova A.
Gaze behavior in single-page monomodal and cross-modal switches as affected by Event construal  ....... 1087

Konodyuk N.
Prompt Tuning for Text Detoxification  .......................................................................................................... 1098

Lepekhin M., Sharoff S.
Experiments with adversarial attacks on text genres  ................................................................................... 1106

Летучий А. Б.
Императив в роли главного предиката  ................................................................................................... 1118

Lozovskaya A. I., Pitolin D. V. , Bessonov S. A.
Setting Up A Complex Model Of Speech Analysis: Pilot Study Of Late Bilingual Speech  ............................ 1131

Ostyakova L., Molchanova M., Petukhova K., Smilga N., Kornev D., Burtsev M.
Corpus with Speech Function Annotation: Challenges, Advantages, and Limitations  ................................ 1138

Potekhin A.
Lexical and Syntactic Features for Reader Rating Prediction  ....................................................................... 1149

Слюсарь Н. А., Гурков И. Е., Чернова Д. А.
Одни ошибки вреднее других: роль типа и частотности орфографических ошибок 
в обработке слов  .......................................................................................................................................... 1158

Totmina E. V.
Detoxification of Russian texts based on combination of controlled generation using pretrained 
ruGPT3 and the Delete method  ..................................................................................................................... 1167

Верещагина А. Д.
Корпусные исследования возрастных распределений лексических паремий  ................................. 1175

Abstracts  ........................................................................................................................................................ 1186

Авторский указатель  .................................................................................................................................. 1189

Author Index  .................................................................................................................................................. 1189

* 
The reports of each section are ordered by the surname of the first author in compliance with the English alphabet.

VI

 

Classification community publications of the «VKontakte»  
for assessing the quality of life of the population 

Polina Basina

TSU 
Tomsk, Russia 

basina@data.tsu.ru

Vyacheslav Goiko

TSU 
Tomsk, Russia 

goiko@data.tsu.ru

Evgeny Petrov

TSU 
Tomsk, Russia 

petrov@data.tsu.ru

Vyacheslav Bakulin

TSU 
Tomsk, Russia 

slava38710505@gmail.com

Abstract 

Social networks are an everyday tool for users to express their opinions and preferences. User digital trace are a 
valuable source of data for understanding the problems of the population in various spheres of life.  The focus of this 
work is aimed at developing an algorithm for automatic classification of text content «VKontakte» according to the 
selected categories of quality of life. This social network is one of the most popular platforms among users. The categories 
of quality of life are «education», «healthcare», «security», «social security», «work of authorities», «ecology» and «ac-
cessibility of goods and services». The paper uses static and contextualized models for creating vector representations 
and effective algorithms for classifying Russian-language content of social networks (LSTM, BiLSTM, GRU, RuBERT). 
We prefer the RuBERT -tiny model due to the best completeness indicators in most categories. 
Keywords: quality of life, digital trace, VKontakte, natural language processing, text classification, RuBERT 
DOI: 10.28995/2075-7182-2022-21-1001-1016 

Классификация публикаций сообществ «ВКонтакте»  
для оценки качества жизни населения 

Полина Басина

НИ ТГУ 
Томск, Россия 

basina@data.tsu.ru

Вячеслав Гойко

НИ ТГУ 
Томск, Россия 

goiko@data.tsu.ru

Евгений Петров

НИ ТГУ 
Томск, Россия 

petrov@data.tsu.ru

Вячеслав Бакулин

НИ ТГУ 
Томск, Россия 

slava38710505@gmail.com

Аннотация 

Сегодня социальные сети — это повседневный инструмент пользователя для выражения своих мнений и 
предпочтений. Цифровые следы, создаваемые в сети, являются ценным источником данных для выделения 
проблем населения в различных сферах жизнедеятельности. Фокус данной работы сосредоточен на разра-
ботке алгоритма, позволяющего автоматически классифицировать текстовый контент социальной сети 
«ВКонтакте», являющейся одной из популярных платформ среди пользователей, по категориям качества 
жизни: «образование», «здравоохранение», «безопасность», «социальное обеспечение», «работа органов вла-
сти», «экология» и «доступность товаров и услуг». Для реализации поставленной задачи в рамках работы 

1001

использованы статичные и контекстуализированные модели создания векторных представлений и эффектив-
ные алгоритмы классификации русскоязычного контента социальных сетей (LSTM, BiLSTM, GRU, RuBERT). 
На сегодняшний день мы отдаем предпочтение модели RuBERT-tiny за счет лучших показателей полноты в 
большинстве категорий.  
Ключевые слова: качество жизни, цифровые следы, «ВКонтакте», обработка естественного языка, клас-
сификация текстов, RuBERT 

1 
Введение 

В современном мире социальные сети являются повседневным инструментом пользователей для 
выражения своих мнений и предпочтений. Согласно данным отчета «We Are Social» и «Kepios» 
в РФ за 2021 год количество пользователей1 социальных сетей увеличилось на 7 млн и на начало 
2022 года составляет 106 млн. Ежедневно среднестатистический пользователь проводит в соци-
альных сетях 2 часа 27 минут; в качестве популярных причин использования выделяют — «под-
держание связей», «заполнение свободного времени», «чтение новостей», «поиск контента», «об-
мен мнениями». Самую многочисленную ежемесячную аудиторию собирают платформы 
«WhatsApp», «ВКонтакте» и «Instagram» 2 . Согласно последней официальной информации 
«ВКонтакте»3, социальная сеть фиксирует резкий рост активности аудитории и количества поль-
зователей — «к примеру, на неделе с 21 по 27 февраля средняя ежедневная аудитория платформы 
в России выросла на 200 000 пользователей»4. 
Цифровые следы, создаваемые в социальных сетях, являются ценным источником для различных 
приложений — анализ мнений и настроений, обобщение и категоризация текстов, обнаружение 
фейковых новостей и другие [Abbas 2021]. Одним из популярных направлений выступает 
оценка качеств жизни населения. То, как люди оценивают различные области своей жизни (субъективное 
благополучие), имеет важное значение для управленческого сектора и научных исследований. 
В качестве традиционного подхода оценки качества жизни выступают опросы, являющиеся 
дорогостоящей и трудоемкой процедурой, которая имеет определенные ограничения. Однако, 
сегодня пользователи склоны открыто делиться своими настроениями и мнениями в виде 
постов и реакций в социальных сетях, представляя тем самым ценную информацию для оценки 
их благополучия с применением алгоритмов машинного обучения [Hao et al. 2014]. Последние 
несколько лет на факультете психологии Санкт-Петербургского государственного университета 
проводится проект «Стресс, здоровье и психологическое благополучие в социальных сетях: 
кросс-культурное исследование». Исследователи выявляют лексические паттерны психологического 
благополучия, анализируя поведение пользователей социальных сетей [Bogolyubova et al. 
2018, Bogolyubova et al. 2017].  
При этом важно отметить, что эффективность работы алгоритмов по обработке естественного 
языка, в частности для задач классификации, зависит от многих факторов, где одними из значимых 
являются язык и источник данных. Например, новостные статьи и посты в социальных сетях 
будут написаны разными стилями речи. В качестве особенностей текстов социальных сетей исследователи 
отмечают: использование жаргонизмов, неологизмов и диалектов; неполные предложения; 
речевые и орфографические ошибки; символы эмодзи, как средства придания сообщениям 
эмоциональной окраски [Moshkin et al. 2019]. М. Абрахам и П. Набенде провели эксперименты 
по классификации твитов, написанных на различных языках, для эпидемиологического 
надзора с использованием нейросетевых архитектур CNN, RNN, LSTM и BERT. Исследователи 
отметили разную производительность алгоритмов в зависимости от того языка, на котором напи-
саны тексты [Abraham et al. 2021]. Е. В. Михалкова и др. для решения задачи определения интересов 
пользователей сравнили применимость алгоритмов классификации на данных русскоязычных 
текстов «ВКонтакте» и англоязычных постов «Twitter». Они использовали несколько алгоритмов 
машинного обучения — метод опорных векторов, наивный Байесовский классификатор, 
логистическая регрессия, деревья решений и k-ближайших соседей. В ходе экспериментов ис-

 

1 Важно отметить, что под пользователями не следует понимать уникальных людей. 
2 Digital 2022: THE RUSSIAN FEDERATION https://datareportal.com/reports/digital-2022-russian-federation 
3 Актуальная информация на момент написания статьи. 
4 ВКонтакте фиксирует резкий всплеск аудитории и просмотра контента https://vk.com/press/users-activity 

Basina P., Goiko V., Petrov E., Bakulin V.

1002

следователи сделали вывод, что выбор социальной сети является важным фактором для разработки 
модели, а языковые различия не влияют на результаты классификации при должной нормализации 
данных [Mikhalkova et al. 2018]. С. Ватерлоо и др. изучили нормы выражения эмоций 
в социальных сетях — «Facebook», «Twitter», «Instagram» и «WhatsApp». Авторы обнаружили 
различия в платформах с точки зрения проявляемых там реакций [Waterloo et al. 2018]. 
Цифровые следы, создаваемые в социальной сети, с одной стороны, являются ценными источником 
данных для выделения проблем населения в различных сферах жизнедеятельности; с другой — 
представляют собой большие данные, изучение которых невозможно традиционными методами. 
Данные факторы обуславливают необходимость разработки автоматизированных решений. 
При этом учитывая разнообразие контента социальной сети, возникает необходимость его 
категоризации с применением экспертных мнений, что подразумевает под собой использование 
контролируемых методов машинного обучения. Результаты автоматической классификации в 
дальнейшем применяются для расчета индекса актуальности темы, который выражает то, 
насколько актуальна определенная тема (категория) в конкретном регионе в заданный временной 
промежуток. Индекс рассчитывается на основе цифровых следов анализируемого контента — 
лайки, комментарии, репосты. Фокус данной работы сосредоточен на разработке алгоритма, позволяющего 
автоматически классифицировать текстовый контент социальной сети «ВКонтакте», 
являющейся одной из популярных платформ среди пользователей, по категориям качества жизни. 
Статья состоит из 5 разделов: изучения практик применения алгоритмов машинного обучения 
для оценки благополучия пользователей социальных медиа, описания данных, описания экспе-
риментов и методов оценки, результатов экспериментов и дальнейших путей развития. 

2 
Изучение практик применения алгоритмов машинного обучения для оценки 
благополучия пользователей социальных медиа 

Е.В. Щекотин и др. условно выделяют три направления исследований, связанных с социальными 
медиа и благополучием: информационные технологии как инструмент изучения; социальные ме-
диа как фактор влияния на благополучие; социальные сети как самодостаточный источник дан-
ных [Shchekotin, Myagkov et al. 2020]. Мы сосредоточимся на практиках оценки качества жизни 
на основе текстовых данных социальных сетей с применением алгоритмов машинного обучения. 
В одной из работ предлагается единый подход к построению профиля субъективного благопо-
лучия на основе языка социальных сетей в обновлениях статуса «Facebook». Исследователи при-
меняют анализ настроений для оценки аффективных характеристик пользователей («счастья») и 
обучают модель случайного леса для прогнозирования субъективного благополучия с использо-
ванием полученных оценок и других языковых функций обновлений статуса [Chen et al. 2017]. 
К. Джайдка и др. сравнили оценки благополучия на уровне округов США, основанные на данных 
«Twitter», с показателями индекса Гэллапа, рассчитанными на материалах телефонных опросов. 
Они обнаружили, что методы на уровне слов дали противоречивые измерения на уровне округа 
из-за региональных, культурных и социально-экономических различий в использовании языка. 
Однако, удаление всего лишь трех наиболее часто встречающихся слов привело к заметному 
улучшению результатов прогноза. Методы, основанные на данных, позволили получить надеж-
ные оценки, приближенные к индексу Гэллапа [Jaidka et al. 2020]. Другие авторы, используя дан-
ные социальных сетей 1785 пользователей с метками субъективного благополучия, обучают мо-
дели машинного обучения, которые способны «распознавать» индивидуальные оценки для поль-
зователей [Hao et al. 2014]. М. Бхасин и др. анализируют аффективные и внутренние состояния 
пользователей. Они создали модель состояний счастья людей: G (длительное счастье), P (мерца-
ние) и I (разочарование). Исследователи использовали XGBoost для классификации 54 066 поль-
зователей «Twitter» на основе их твитов. Авторы утверждают, что, анализируя результаты клас-
сификации, могли бы повторно подтвердить характеристики, упомянутые в определении трех со-
стояний (G, P, I), а также выявить дополнительные черты [Bhasin et al. 2021]. 
Многие исследователи акцентируют внимание на качестве жизни пользователей в период пан-
демии, когда социальные медиа позволяют получить уникальные данные. Ю. Хан и др. проана-
лизировали с помощью алгоритмов классификации субъективное благополучие пользователей на 
основе сообщений в популярной в Китае социальной сети «Weibo» во время и после вспышки 
пандемии COVID-19. Результаты показывают тенденцию к снижению, а затем тенденцию к росту 

Classification community publications of the «VKontakte» for assessing the quality of life of the population

1003

уровня субъективного благополучия пользователей во время пандемии в целом [Han et al. 2022]. 
Ю. Ванг и др. изучили влияние изоляции на субъективное благополучие людей в Китае во время 
пандемии COVID-19 на материалах аналогичной социальной сети. Выборка состояла из двух 
групп: пользователи, проживающие в городах самоизоляции, и пользователи без ограничений на 
социальные контакты. Для каждой группы были рассчитаны показатели благополучия с помощью 
прогностических моделей машинного обучения в течение 2 недель до и после даты введения 
в действие блокировки жилых помещений, используя оригинальные сообщения пользователей в 
«Weibo» [Wang et al. 2020]. 

3 
Описание данных 

Рассматриваемый в рамках данной работы алгоритм обучен и применяется для контента социальной 
сети «ВКонтакте». Выбор сети обусловлен, с одной стороны, ее популярностью среди 
аудитории, что подтверждают статистические данные; с другой — возможностями самой платформы. 
Данные «ВКонтакте» обладают рядом преимуществ: публичный API; детализация контента 
во времени и по территориальным единицам; выражение собственного мнения пользователем (
посты) и его открытое взаимодействие с контентом посредством различных реакций (лайки, 
комментарии, репосты); относительно низкие временные затраты. Среди недостатков отмечают 
смещение выборочной совокупности; технические трудности сбора данных; специфичность тек-
стов социальной сети [Shchekotin, Kovarzh et al. 2020].  
Для получения репрезентативных данных, позволяющих учесть территориальные особенно-
сти, которые могут проявляться в текстовом контенте как содержательно, так и с точки зрения 
языковых особенностей, в качестве источников были выбраны региональные сообщества. Важ-
ным критерием такого сообщества является территориальная принадлежность аудитории — не 
менее 50% подписчиков, указавших свое местоположение, должны быть из 1 региона, указанного 
пользователем как место проживания. Другие значимые характеристики, которые были исполь-
зованы для отбора сообществ, представлены в работе [Shchekotin, Myagkov et al. 2020]. Полный 
список расположен в репозитории Github5. 
Каждый объект базы данных (далее — БД) «ВКонтакте» имеет числовой идентификатор, поз-
воляющий с помощью API получить о нем информацию и связанные объекты. Например, при 
помощи идентификаторов сообществ могут быть выгружены их публикации, комментарии к ним 
(с указанием ID автора комментария), списки пользователей, которым понравилась публикации. 
Поскольку при создании нового объекта «ВКонтакте» ему присваивается идентификатор, являю-
щийся результатом инкрементации идентификатора ранее созданного объекта, можно сгенериро-
вать необходимый список идентификаторов для выгрузки без обращения к «ВКонтакте». Про-
граммное обеспечение для сбора данных реализовано на скриптовом языке Python, имеет ряд 
модулей, в частности, для работы с API «ВКонтакте», записи результатов в хранилище и обеспе-
чения параллелизма при выгрузке. Для хранения выгрузок используется СУБД PostgreSQL. 
Для обучения и оценки алгоритма классификации был сформирован набор размеченных дан-
ных — 84 000 постов «ВКонтакте». Были использованы случайные посты, опубликованные в ре-
гиональных сообществах в период с января по июль 2021 года. Авторами публикаций могли вы-
ступать как участники сообществ, так и сами сообщества; при отборе постов не учитывались 
социолингвистические параметры авторов. В выборку могли попасть любые сообщения вне за-
висимости от количества их цифровых следов (лайки, комментарии, репосты, просмотры).  
Учитывая специфику контента социальных сетей, необходимо было очистить данные от неинформативных 
сообщений, к которым относятся: развлекательный контент, спортивные события, 
рекламные и коммерческие сообщения, заметки фан-клубов и др. Отфильтрованные сообщения 
были размечены согласно выделенным категориям качества жизни: «образование», «здравоохранение», «
безопасность», «социальное обеспечение», «работа органов власти», «экология» и «доступность 
товаров и услуг». Каждое сообщение могло быть отнесено только к 1 категории. На 
предыдущем этапе исследования было выделено 19 категорий [Shchekotin, Myagkov et al. 2020]. 

 

5 Methodology of formation of the register of regional communities of the Vkontakte social network 
https://github.com/datacentr/Methodology-of-formation-of-the-register-of-regional-communities-of-the-Vkon-
takte-social-network 

Basina P., Goiko V., Petrov E., Bakulin V.

1004

Показатели субъективного благополучия сформированы на основе анализа существующих подходов 
и моделей оценки. В данной статье выделенные раннее категории укрупнены, что обусловлено 
следующими факторами: пересечение категорий; некоторые из выделенных раннее категорий 
собирали мало сообщений; упрощение процедуры разметки.  
 

Категория 
Описание категории 
Пример сообщения  

Образование
К данной категории относятся посты 
на следующие темы: дошкольное, об-
щее, профессиональное и послевузов-
ское образование, курсы повышения 
квалификации, дополнительное обра-
зование детей и взрослых.  

«Хабаровские школы ча-
стично перейдут на дистан-
ционное обучение. Ученики 
среднего и старшего звена по-
сле каникул в учебные заведе-
ния не вернутся. Заниматься 
они будут удалённо, из дома»

Здравоохранение 
К данной категории относятся сооб-
щения, связанные с процедурами лече-
ния, процессом оказания медицинских 
услуг, материальным оснащением ме-
дицинских учреждений. 

«Массовая вспышка коронави-
русной инфекции зафиксиро-
вана в учреждении социальной 
защиты Тотемского района» 

Безопасность 
К данной категории относятся сооб-
щения, связанные с ситуациями нару-
шения, предотвращения и обеспече-
ния безопасности жителей.  

«Труп мужчины нашли в Тю-
мени в Антипино 20 апреля. 
Тело было обнаружено в рай-
оне ул. Изумрудная. Сейчас 
следователям предстоит 
выяснить обстоятельства 
смерти человека»

Социальное 
обеспечение 

К данной категории относятся сооб-
щения, связанные с оказанием по-
мощи и поддержки социально-неза-
щищенным слоям населения государ-
ством.

«Семьи из Карелии получили 
выплаты на строительство 
жилья» 

Политика
К данной категории относятся сооб-
щения о свободе СМИ, протестном по-
тенциале, свободе выборов, отноше-
нию к власти, политические решения, 
внутренняя политика. 

«Власти 
Москвы 
отказали 

местному отделению КПРФ в 
праве провести митинг 23 
февраля, сославшись на огра-
ничения из-за коронавируса.» 

Экология 
Эта категория представляет информа-
цию о взаимодействии субъектов с 
окружающей средой (природные ре-
сурсы, животный мир). Мы акценти-
руем внимание как на процессы разру-
шающего и неконтролируемого влия-
ния человека (несанкционированные 
свалки, выбросы заводов), так и на 
осознанные практики проявления эко-
логического сознания/культуры (раз-
дельный сбор мусора, субботники, пе-
реработка мусора, зоозащитники). 

«На берегу Верхнего пруда и 
горожанами, и журналистами 
были обнаружены алые следы, 
похожие на кровь. А местные 
жители рассказали, что до 
этого здесь были замечены 
браконьеры. Общественники 
тогда направили письменные 
жалобы 
в 
различные 
инстанции» 

Classification community publications of the «VKontakte» for assessing the quality of life of the population

1005