Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Проблемы оптимизации выборочных данных с неполнотой в диапазоне

Покупка
Новинка
Основная коллекция
Артикул: 822018.01.99
Доступ онлайн
348 ₽
В корзину
В монографии рассматриваются основные принципы построения выборки в социологических исследованиях и влияние конструкции выборки на точность получаемых результатов. Главное внимание уделяется проблемам при неполном диапазоне данных в эмпирических исследованиях и методам поиска решений при неполном диапазоне выборочных данных. Адресована студентам, аспирантам, а также всем тем, кто интересуется практикой социологических эмпирических исследований выборочных совокупностей с неполным диапазоном данных.
Дятлов, А. В. Проблемы оптимизации выборочных данных с неполнотой в диапазоне : монография / А. В. Дятлов ; Южный федеральный университет. - Ростов-на-Дону ; Таганрог : Издательство Южного федерального университета, 2022. - 232 с. - ISBN 978-5-9275-4238-3. - Текст : электронный. - URL: https://znanium.com/catalog/product/2132254 (дата обращения: 02.05.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ 
РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное 
учреждение высшего образования

«ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ»

А. В. Дятлов

ПРОБЛЕМЫ ОПТИМИЗАЦИИ 

ВЫБОРОЧНЫХ ДАННЫХ 

С НЕПОЛНОТОЙ В ДИАПАЗОНЕ

Монография

Ростов-на-Дону – Таганрог
Издательство Южного федерального университета

2022
УДК 316:303.4.025(035.3)
ББК 60.5+87.256.64я44
        Д99

 
Печатается по решению Комитета по гуманитарному 
и социально-экономическому направлению науки и образования 
при ученом совете Южного федерального университета 
(протокол № 7 от 4 июля 2022 г.)

Рецензенты:
заведующий кафедрой социальных и гуманитарных наук 
Южно-Российского государственного политехнического университета 
(НПИ) им. М. И. Платова, доктор философских наук, 
профессор К. В. Воденко;

заведующий кафедрой социологии, истории, политологии 
Института управления в экономических, экологических и социальных 
системах Южного федерального университета, 
доктор социологических наук, профессор А. В. Рачипа 

Дятлов, А. В.
Проблемы оптимизации выборочных данных с неполнотой 
в диапазоне : монография / А. В. Дятлов ; Южный федеральный 
университет. – Ростов-на-Дону ; Таганрог : Издательство Южного 
федерального университета, 2022. – 232 с. 
ISBN 978-5-9275-4238-3 
DOI 10.18522/801303706
В монографии рассматриваются основные принципы построения выборки в 
социологических исследованиях и влияние конструкции выборки на точность получаемых 
результатов. Главное внимание уделяется проблемам при неполном диапазоне 
данных в эмпирических исследованиях и методам поиска решений при неполном диапазоне 
выборочных данных.
Адресована студентам, аспирантам, а также всем тем, кто интересуется практикой 
социологических эмпирических исследований выборочных совокупностей с 
неполным диапазоном данных.
ISBN 978-5-9275-4238-3 
УДК 316:303.4.025(035.3)
ББК 60.5+87.256.64я44

© Южный федеральный университет, 2022 
© Дятлов А. В., 2022
© Оформление. Макет. Издательство 
Южного федерального университета, 2022

Д99
ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ ..........................................................................................................................................5

Глава первая.  ПРОБЛЕМЫ ПРИ НЕПОЛНОМ ДИАПАЗОНЕ ДАННЫХ 
В ЭМПИРИЧЕСКИХ ИССЛЕДОВАНИЯХ: 
ТЕОРЕТИЧЕСКИЕ И МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ ..................................10

I.  Неполный диапазон данных в эмпирических 
социологических исследованиях: определение, измерение, проблемы ..........10
1.  Неполный диапазон данных ............................................................................10
2.  Проблемы с диапазоном данных: труднодоступные единицы. 
Потеря и (или) выпадение данных ..................................................................13
3.  Виды потерь данных ........................................................................................16
4.  Влияние неполноты диапазона данных на точность оценок ........................30
II.  Статистические аспекты пробелов в диапазоне данных ....................................37
1.  Случайные и системные ошибки .....................................................................37
2.  Источники ошибок ............................................................................................47
3.  Механизм выпадающих единиц. Классификация отсутствующих данных ..61
III.  Влияние неполного диапазона данных на достоверность 
и точность оценок .................................................................................................66
1.  Влияние на достоверность информация по совокупности ............................66
2.  Возможности ограничения влияния выпадающих единиц в диапазоне 
данных на достоверность ................................................................................75

Глава вторая.  МЕТОДЫ ПОИСКА РЕШЕНИЙ 
ПРИ НЕПОЛНОМ ДИАПАЗОНЕ ДАННЫХ ВЫБОРКИ ....................................85

I.  Разработка методов оптимизации при отсутствующих данных ........................88
1.  Прямая оценка отсутствующих значений .......................................................90
2.  Оценка как функция сопротивления ...............................................................92
3.  Оценка с помощью вероятности потерь .........................................................93
4.  Повторный отбор при выпадающих (отсутствующих) единицах ..................94
5.  Выпадающие единицы как подвыборка.........................................................97
II.  Контрольные методы снижения потерь данных  ...............................................98
III.  Методы сокращения доли выпадающих единиц .............................................. 101
IV.  Взвешивание данных ......................................................................................... 106
1.  Необходимость взвешивания ........................................................................ 107
2.  Процедуры взвешивания ............................................................................... 109
3.  Взвешивание данных на практике ................................................................ 117
4.  Модифицированные процедуры взвешивания данных .............................. 121
V.  Методы атрибуции значений отсутствующих данных (Imputation) ................ 129
1.  Сущность метода атрибуции .......................................................................... 130
2.  Модификации метода атрибуции значений ................................................. 131
VI.  Многомерная атрибуция значений .................................................................... 151
1.  Развитие идеи многомерной атрибуции значений ...................................... 151
2.  Сущность метода многомерной атрибуции значений ................................. 154
3.  Основные гипотезы метода многомерной атрибуции значений ................ 157
4.  Правила обобщения при многомерной атрибуции ...................................... 163

Глава третья.  СРАВНИТЕЛЬНЫЕ ПРЕИМУЩЕСТВА И ОГРАНИЧЕНИЯ 
РАЗЛИЧНЫХ МЕТОДОВ ОПТИМИЗАЦИИ ВЫБОРОЧНЫХ ДАННЫХ ....... 169

I.  Оптимизация выборки при неполном диапазоне данных .............................. 169
1.  Характеристика выборки ............................................................................... 170
2.  Сравнение характеристик выборки с параметрами 
генеральной совокупности............................................................................. 173
3. Влияния на выборку ....................................................................................... 174
II.  Сравнительный анализ использования методов взвешивания 
и атрибуции значений ........................................................................................ 185
1.  Базовые гипотезы сравнения ........................................................................ 187
2.  Модель исследования сравнения методов ................................................... 189
3.  Симуляционные информационные массивы. Анализ и оценки .................. 193
III.  Концепция решения проблемы 
недостающих данных в эмпирических исследованиях .................................... 208
1.  Виды недостающих данных ........................................................................... 208
2.  Критерии при выборе оптимизационного подхода (метода) ...................... 209
3.  Возможные стратегии в зависимости от доли недостающих данных ........ 213

ЗАКЛЮЧЕНИЕ ................................................................................................................................ 217

СПИСОК ЛИТЕРАТУРЫ ................................................................................................................. 224
Введение

В последние десятилетия в эмпирической социологии выборочные 
исследования стали одним из наиболее часто используемых 
методов эмпирических социологических исследований. 
Одновременно с успехами их применение ставит множество проблем 
и ограничений, независимо от того, служат ли результаты 
эмпирических социологических исследований управленческой 
практике или различным задачам научного познания.
Презумпция корректного и точного моделирования важна, 
но в принципе не является достаточной гарантией желаемого соответствия 
выборочных оценок параметрам генеральной совокупности. 
Хорошо известно, что на разных этапах любого эмпирического 
социологического исследования существует множество 
источников как случайных, так и системных ошибок. Все они в 
конечном итоге приводят, в той или иной степени, к отклонениям 
(ошибкам) от фактических параметров. Эти ошибки часто не позволяют 
правильно обобщать выводы, полученные из выборки, 
что фактически сводит на нет ее предназначение. 
Что еще хуже, это не всегда очевидно и часто недостаточно 
осознается. Незавершенность охвата эмпирических социологических 
исследований (сплошных и выборочных) – распространенное 
явление, которое неизбежно порождает «шум» в информации. 
Социологи расходятся во мнениях, какова допустимая доля 
выпадающих единиц неохвата, при которой этот «шум» не будет 
представлять исследовательскую проблему. Кроме того, в российской 
и зарубежной практике эмпирических социологических исследований 
используются различные методы снижения неохвата 
и недостоверных ответов. Эти подходы часто не решают возник-
Введение

шую проблему и иногда приводят к противоречивым и неоднозначным 
результатам.
В специализированной литературе до сих пор не уделено 
должного внимания проблемам недостающих данных эмпирических 
исследований и методам их решения, хотя потребность 
в этом значительно возрастает и, вероятно, в ближайшем будущем 
будет только усиливаться. В зарубежной теории и практике 
проводятся интенсивные исследования и идет поиск методологических 
решений проблем недостающих данных эмпирических 
исследований. Излагается и обосновывается ряд подходов, процедур 
и методов, с помощью которых в разной степени могут быть 
найдены решения этой проблемы. Многие из этих методов до сих 
пор неизвестны и не используются в эмпирических исследованиях. 
Проведенное исследование показывает, что не предпринималось 
специальных методических исследований возможностей 
этих новых методов и оценок их эффективности в решении проблем 
недостающих данных.
Основной тезис исследования состоит в том, что недостающие 
данные эмпирических исследований (сплошных и выборочных) 
представляют собой значительную проблему, затрагивающую 
и теорию, и практику эмпирических социологических 
исследований, а попытки искать решения, особенно в нашей 
стране, крайне ограниченны. В мировой практике в этом отношении 
имеются новые решения и улучшения уже существующих. 
Некоторые из них могут быть успешно адаптированы и применены 
в отечественной практике эмпирических социологических исследований.

Целью исследования по теме является анализ проблем и существующих 
подходов, методологических и методических решений 
по оптимизации выборочных данных при неполноте в 
диапазоне, критическая оценка их сравнительных преимуществ 
и недостатков, а также обоснование стратегий, рекомендаций и 
Введение

предложений по решению этих проблем. В связи с этим поставлено 
несколько исследовательских задач:
1) исследовать и осветить проблемы оптимизации выборочных 
данных, влияющие на неполноту охвата, и оценить их значимость 
для практики эмпирических социологических исследований;
2) изучить возможности методов оптимизации выборочных 
данных, предлагаемых в теории и на практике, при решении задач 
в рамках области применения путем обобщенного анализа и 
их систематизации;
3) изучить условия и ограничения применения предлагаемых 
методов и подходов и оценить их сравнительные преимущества, 
применимость и ограничения;
4) обосновать и построить общую концепцию путей и направлений 
решения проблем с недостающими данными.
Сформулировано несколько исследовательских гипотез, которые 
мы постараемся проверить в процессе исследований по 
данной теме. Это следующие гипотезы: 
1. В практике эмпирических социологических исследований 
слишком часто (практически всегда) и по разным причинам наблюдается 
потеря данных. Выше определенного предела («порога») 
эта потеря искажает информацию, и результаты исследования 
становятся неопределенными, неинформативными и 
ненадежными. 
2. В практике эмпирических социологических исследований 
налицо неоправданная недооценка проблем недостающих данных 
на теоретическом, методологическом и практическом уровнях. 
Вероятно, по этой причине серьезных систематических исследований 
по этим вопросам вообще недостаточно. То, что все-таки 
есть, в основном сводится к выводам об объеме и характеристиках 
недостающей информации (чего и сколько не хватает). Практически 
отсутствуют усилия по оценке последствий потерь данных 
и их влияния на достоверность информации. 
Введение

3. Во всем мире в последние десятилетия получили распространение 
обоснованные, апробированные и успешно работающие 
методы, которые предлагают различные решения проблем 
охвата. По крайней мере некоторые из них можно адаптировать 
и использовать для оптимизации массивов недостающих данных. 
В представленной исследовательской работе используются различные 
подходы: совокупный (статистический) подход к оценке 
эффективности различных исследуемых методических решений; 
сравнительный анализ различных теоретических положений, подходов, 
методов, процедур, затрагивающих проблемы объема выборочных 
данных; монографический подход – при изучении некоторых 
теоретических положений и применяемых в этой области 
методов; подход моделирования – при обосновании и построении 
общей концепции и разработанных классификаций, закрепленных 
в цели и задачах данного научного исследования. Также предпринята 
попытка поиска и обоснования теоретических положений, а 
сделанные обобщения и оценки подкрепляются анализом эмпирических 
данных. Содержание этого научного исследования подчинено 
нескольким важным ограничениям. Проблемы недостающих 
данных рассматриваются в контексте репрезентативных выборочных 
социологических исследований как массовый случай. Но 
на самом деле представленные методические решения могут быть 
использованы как в комплексном, так и в других типах выборочных 
социологических исследований. Из-за ограничений различного 
характера невозможно было провести по методу приписывания 
значения недостающих данных (импутации) исследование на конкретном 
эмпирическом материале. Поэтому импутация анализируется 
и систематизируется в обобщенном виде и предлагается 
в качестве основы и направления для будущих исследований по 
этой тематике. При работе над этим исследованием были использованы 
литературные источники – в общей сложности 131 наименование 
на русском и на английском языках.
Введение

Помимо материалов социологической тематики, также были 
использованы работы по теории вероятностей и математической 
статистике. Для оценки возможностей и сравнительных преимуществ 
применяемых подходов и методов были задействованы 
эмпирические данные различных эмпирических социологических 
исследований. Представленное научное исследование базируется 
на идее о том, что социолог должен знать основы математико-статистического 
анализа. Чтобы иметь возможность применять его 
корректно и находить в нем аргументы в пользу обоснованности 
своих выводов, существенно важны методы и подходы, заимствованные 
из математики, статистики, информатики и других областей, 
подлежащие оценке через призму потребностей и специфики 
социологического научного знания. Поэтому необходимо 
прилагать усилия для их адаптации, корректного применения и 
понимания интерпретации полученных результатов.
Глава первая. 

ПРОБЛЕМЫ ПРИ НЕПОЛНОМ ДИАПАЗОНЕ ДАННЫХ 
В ЭМПИРИЧЕСКИХ ИССЛЕДОВАНИЯХ:
ТЕОРЕТИЧЕСКИЕ И МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ 

I. Неполный диапазон данных 
в эмпирических социологических исследованиях: 
определение, измерение, проблемы

1. Неполный диапазон данных

После того как выборка создана (извлечена), во многих социологических 
исследованиях последующая работа воспринимается 
как простая и рутинная – сбор информации от единиц выборки, 
ввод и обработка данных, получение выводов и обобщений. 
Проблема исследования с точки зрения достоверности эмпирической 
информации зачастую представляется чем-то гораздо 
более значимым, чем проблема соответствия выборки требованиям 
теории при ее формировании. В действительности во многих 
исследованиях (практически в подавляющем большинстве) серьезные 
проблемы возникают, когда выборка уже создана, а для 
определенного количества единиц запрашиваемая информация 
не была получена. Проблемы с потерянной информацией касаются 
не только выборочных эмпирических исследований. В основном 
они такие же и при сплошных исследованиях или даже когда 
применяются модели нерепрезентативных выборок (например, 
I. Неполный диапазон данных в эмпирических социологических исследованиях...

квотных, типологических и т. д.). Рассматриваемые нами в этой 
работе примеры будут ограничены только случаями репрезентативных 
выборочных совокупностей, применяемых в эмпирических 
исследованиях.
Определимся с терминологией, учитывая тот факт, что зачастую 
под разными дефинициями скрывается один и тот же 
термин. Под охватом диапазона исследования будем понимать 
совпадение планируемой и реализованной совокупности исследуемых 
единиц. Эта совокупность может быть как выборочной, так 
и генеральной. Существуют различные виды неполного диапазона 
данных в отношении: 
1) изучаемых единиц;
2) собранной по ним информации.
Термин «неполный диапазон данных» обозначает разницу 
между информацией по планируемой и реализованной совокупности 
исследуемых единиц. 
И поскольку в каждом эмпирическом исследовании мы собираем 
информацию об изучаемых единицах, потеря информации 
может быть классифицирована как: 
1) полная [73] – единица не участвовала в опросе (исследовании) (
Unit Nonresponse);
2) частичная – нет информации об отдельных признаках, индикаторах (
отсутствуют ответы на вопросы) (Item Nonresponse). 
Потеря информации о единице сообщается как проблема и 
(или) ошибка при сборе информации об отдельной единице. Частичная 
потеря связана с неполученными данными только для 
определенной части опросника (неполученные ответы на часть 
вопросов). В специальной литературе оба вида неполного диапазона 
данных могут встречаться под названием «недостающие 
данные» (missing data).
На этапе сбора данных в каждом эмпирическом исследовании 
условно можно выделить три последовательные операции: 
Глава первая. Проблемы при неполном диапазоне данных в эмпирических исследованиях...

1) сбор – нахождение и получение информации о каждой единице 
выборки; 
2) осмысление – точное определение границ совокупности и 
параметров каждой единицы, ее идентификация с соответствующими 
единицами, определяемыми для исследования в выборке; 
3) измерение – классификация, подсчет и измерение каждой 
исследуемой единицы для получения исходных данных. 
В данном случае под сбором понимаются действия, направленные 
на получение сведений и (или) оценок (Yi) о каждой 
исследуемой единице. Под осмыслением понимается изучение 
каждой потенциальной единицы, включенной в выборку, относительно 
ее пригодности для предоставления запрашиваемой 
информации. А под измерением – получение конкретных значений 
для наблюдаемых переменных (признаков, маркеров, индикаторов). 

Теоретически после момента планирования выборки оценки 
Yi могут быть получены для каждой единицы, при этом без ошибок 
и отклонений. Другими словами, предположение, по-видимому, 
основывается на том, что выборочное исследование является 
и полным, и точным. На практике такие характеристики исследований 
часто не подтверждаются, да и предположение, по сути, не 
очевидно. Иногда существуют реальные возможности получения 
запрашиваемых данных для подавляющей части единиц выборки, 
но по разным причинам этого не происходит. В других случаях 
диапазон данных просто не может быть обеспечен по причинам, 
не зависящим от исследователя. Практика эмпирических исследований 
всегда сопровождается проблемой поиска компромисса 
между желаемой точностью, финансовыми ресурсами для ее 
обеспечения и затратами времени, связанными с удобством использования 
и своевременностью получения результатов исследования. 
Что делать в таких случаях? Успех всегда зависит от конкретных 
условий и объективных ограничений.
Доступ онлайн
348 ₽
В корзину