Непараметрическая статистика в задачах защиты информации
Покупка
Основная коллекция
Издательство:
Новосибирский государственный технический университет
Автор:
Хиценко Владимир Евгеньевич
Год издания: 2012
Кол-во страниц: 196
Дополнительно
Доступ онлайн
В корзину
Тематика:
ББК:
УДК:
ОКСО:
- 10.00.00: ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ
- ВО - Бакалавриат
- 10.03.01: Информационная безопасность
- 38.03.01: Экономика
- ВО - Магистратура
- 10.04.01: Информационная безопасность
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Министерство образования и науки Российской Федерации НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ В.Е. ХИЦЕНКО НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА В ЗАДАЧАХ ЗАЩИТЫ ИНФОРМАЦИИ Утверждено Редакционно-издательским советом университета в качестве конспекта лекций НОВОСИБИРСК 2012
УДК 004.056:519.234(075.8) X 529 Рецензенты: А.Ж. Абденов, д-р техн. наук, проф. А.П. Ковалевский, канд. физ.-мат. наук, доц. Работа подготовлена на кафедре защиты информации для студентов, обучающихся по специальностям 090104 - Комплексная защита объектов информатизации и 090105 - Комплексное обеспечение информационной безопасности автоматизированных систем. Хиценко В.Е. X 529 Непараметрическая статистика в задачах защиты информации : конспект лекций / В.Е. Хиценко. - Новосибирск: Изд-во НГТУ, 2012.- 196 с. ISBN 978-5-7782-1989-2 Пособие содержит теоретические описания, алгоритмы применения и примеры непараметрических критериев проверки связи и различия статистических данных. УДК 004.056:519.234(075.8) Хиценко Владимир Евгеньевич НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА В ЗАДАЧАХ ЗАЩИТЫ ИНФОРМАЦИИ Конспект лекций Выпускающий редактор ИЛ. Брованова Корректор И. Е. Семенова Дизайн обложки А.В. Ладыжская Компьютерная верстка ЯД Гаврилова Подписано в печать 26.06.2012. Формат 60 х 84 1/16. Бумага офсетная Тираж 100 экз. Уч.-изд. л. 11,39. Печ. л. 12,25. Изд. 60. Заказ № 1032 Цена договорная Отпечатано в типографии Новосибирского государственного технического университета 630092, г. Новосибирск, пр. К. Маркса, 20 ISBN 978-5-7782-1989-2 © Хиценко В.Е., 2012 © Новосибирский государственный технический университет, 2012
ОГЛАВЛЕНИЕ Введение.........................................................5 1. КРИТЕРИИ РАЗЛИЧИЯ.............................13 1.1. Номинативная шкала.......................................14 1.1.1. Критерий Макнимара (McNemar)........................ 1.1.2. Проверка симметрии таблиц........................... 1.1.3. Q-критерий Кокрена (Cochran)........................ 1.1.4. Проверка соответствия эмпирического распределения предполагаемому закону ........................................ 1.1.5. Точный критерий Фишера (Fisher)..................... 1.1.6. Критерий %²......................................... 1.1.7. Информационный критерий Кульбака (Kullback)......... 14 16 17 19 20 22 26 1.2. Критерии различия для шкал не слабее порядковой.............28 1.2.1. Задача о сдвиге. Связные выборки............................ 1.2.1.1. Критерий знаков........................................ 1.2.1.2. Знаково-ранговый критерий Уилкоксона (Willcoxon)....... 1.2.1.З. Критерий Фрезера (Fraser).............................. 1.2.1.4. Критерий Фридмана (Fridman)............................ 1.2.1.5. Критерий Пейджа (Page)................................. 1.2.1.6. Критерий Доксама (Doksum).............................. 1.2.1.7. Метод множественных сравнений на основе ранговых сумм Фридмана.................................................. 1.2.1.8. Критерий взвешенных рангов Квейд (Quade)............... 1.2.2. Различие в параметре положения. Независимые выборки......... 1.2.2.1. Критерий Розенбаума (Rosenbaum)........................ 1.2.2.2. Критерий ранговых сумм Уилкоксона (Willcoxon).......... 1.2.2.З. Критерий нормальных меток (Fisher-Yates-Terry-Hoeffding)..................................................... 1.2.2.4. Критерий Ван дер Вардена (Van der Waerden)............. 1.2.2.5. Критерий Краскела-Уоллиса (Kruskal-Wallis)............. 1.2.2.6. Многовыборочный критерий нормальных меток.............. 1.2.2.7. Многовыборочный критерий Ван дер Вардена............... 1.2.2.8. Критерий тенденций Джонкхиера-Терпстры (Jonckheere-Terpstra).......................................... 1.2.3. Задача о масштабе. Связные выборки.......................... 1.2.З.1. Критерий Сэндвика-Олссона (Sandvik-Olsson)............. 28 28 32 38 40 46 47 50 51 55 56 58 62 64 66 69 72 75 78 78 3
1.2.З.2. Критерий Краута-Линерта (Krauth-Lienert)..............80 1.2.4. Задача о масштабе. Независимые выборки.....................82 1.2.4.1. Ранговый критерий Ансари-Бредли (Ansari-Bradley).....82 1.2.4.2. Критерий Зигеля-Тьюки (Siegel-Tukey)..................87 1.2.4.З. Критерий Мозеса (Moses)...............................89 1.2.5. Проверка различий независимых выборок при широких альтернативах ......................................................92 1.2.5.1. Критерий Буша-Винда (Bush-Wieand).....................92 1.2.5.2. Критерий Бхапкара-Дешпанде (Bhapkar-Deshpande)........95 1.2.5.З. Критерий серий Вальда-Вольфовица (Wald-Wolfowitz)....97 1.2.5.4. Критерий Колмогорова-Смирнова.........................98 2. ОЦЕНИВАНИЕ СТЕПЕНИ СВЯЗИ СЛУЧАЙНЫХ ПРИЗНАКОВ.10З 2.1. Номинативная шкала......................................10З 2.1.1. Коэффициент ассоциации..............................104 2.1.2. Коэффициент контингенции............................105 2.1.З. Частотный коэффициент детерминации..................108 2.1.4. Меры, использующие статистику %²....................110 2.1.5. Меры связи направленного типа.......................114 2.2. Ранговая шкала...........................................119 2.2.1. Коэффициент г-Спирмена..............................119 2.2.2. Коэффициент т-Кендалла..............................121 2.2.З. Коэффициент множественной ранговой корреляции (конкор-дации).....................................................126 2.З. Меры связи переменных, заданных в разных шкалах...........129 2.З.1. Бисериальный коффициент корреляции..................1З0 2.З.2. Рангово-бисериальный коэффициент корреляции.........1З1 Библиографический список......................................1З1 Приложение 1ЗЗ
ВВЕДЕНИЕ Конспект лекций предназначен для студентов специальностей «Комплексное обеспечение информационной безопасности автоматизированных систем» и «Комплексная защита объектов информатизации». Основная цель - знакомство с методами, позволяющими обнаруживать в статистических данных настораживающие закономерности, появление которых нельзя считать случайным. Следовательно, необходимо обратить на них внимание, искать разумные объяснения, выдвигать гипотезы, планировать и проводить уточняющие эксперименты. Это открывает возможность построения систем мониторинга обстановки на основе сравнения текущих значений непрерывно вычисляемой статистики с критическими значениями, вероятность превышения которых при отсутствии оснований для тревоги ничтожна. Многие из примеров взяты из специальной литературы, периодики¹. К сожалению, фактические данные о нарушениях режима секретности, несанкционированных вторжениях и сбоях в корпоративных компьютерных сетях являются конфиденциальной информацией и недоступны. Потому некоторые примеры искусственны и покажутся специалисту далекими от реальности. Предполагается, что студенты усвоили основы теории вероятностей и классические методы математической статистики. Напомним лишь логику проверки гипотез. Обычно исследования, связанные со случайными факторами, сводятся к проверке статистических гипотез. Формулируются две гипотезы: нуль-гипотеза Н- и альтернативная, конкурирующая гипотеза Яр Н- - это обычно предположение об отсутствии различий в группах наблюдений, отсутствии эффекта какой-либо обработки, отсутствии связи случайных переменных, отличия эмпирического и теоретического распределений, отсутствия сигнала в шуме, изменения в характере ¹ Использовались журналы: Вопросы защиты информации, Проблемы анализа риска, Защита информации. Инсайд, Специальная техника. 5
процесса и т. п. То есть это предположение о чисто случайном происхождении наблюдаемого эффекта. Альтернативная гипотеза И предполагает значимость, неслучайность эффекта, различия, сдвига, связи, наличие сигнала. Конкретная процедура, алгоритм проверки гипотез называется критерием. Нас может интересовать различие определенного вида. Например, Hq. тх = ту против альтернативы Н\. тх<ту. Тогда критерий и альтернативу называют односторонними. При ненаправленной альтернативе Hg. тх # ту критерий и альтернативу называют двусторонними. Понятно, что возможны две разные ошибки. ошибочное отклонение Но (ошибка 1-го рода) и ошибочное принятие Hq (ошибка 2-го рода). Все критерии подразумевают вычисление некоторой функции g(х 1, ...,хп) наблюдаемых значений выборки, так называемой статистики критерия, закон распределения которой в предположении о справедливости Но нам известен либо мы знаем закон, к которому асимптотически приближается статистика с ростом объема выборки п. Наконец, можно использовать статистическое моделирование для многочисленных имитаций статистики g в условиях Hq. Следовательно, мы можем найти точно или приблизительно критическую область значений Скр этой статистики, вероятность попадания в которую при справедливости Н₀ не превосходит заданного малого значения а, т. е. найти Пкр из условия Р | g е Пкр |Я₀| < а . Обычно, когда эмпирическая статистика g не менее² критического значения gKр, Hq отклоняем, рискуя совершить ошибку 1 -го рода с некоторой малой вероятностью. Эта вероятность а называется уровнем значимости и, как правило, принимается равной 0,05 или 0,01. Говорят «Яо отвергаем на уровне значимости а». Таким образом, используя а = 0,05, мы согласны совершать ошибку 1-го рода в 5 % случаев. Это очень малая вероятность, меньшая, чем вероятность последовательного появления четырех гербов при бросании монеты. На деле оппоненту, сомневающемуся в надежности статистического метода и допускающему чисто случайное происхождение результата, нужно взять монету и бросать ее до появления четырех гербов подряд. ² В некоторых критериях чем меньше статистика, тем сомнительнее Н₀ и тогда а есть вероятность того, что статистика g не превышает критического значения. То есть критической является область малых значений статистики. 6
Ясно, что чем меньше задаваемый уровень значимости, тем больше вероятность Р ошибки 2-го рода, но эту вероятность практически не удается оценить. Однако можно выбирать критерии для конкретной задачи из условия наибольшей мощности, равной 1 - р. Это вероятность правильно отклонить Hq, и в литературе по математической статистике указываются самые мощные критерии для конкретных задач и ситуаций. Впрочем, выбор критерия определяется многими условиями и об этом будет сказано ниже. Возможно более предпочтительным является иной подход к формированию критерия проверки гипотез, когда вычисляется так называемая эмпирическая, достигнутая в опыте значимость³. Это условная вероятность Р {g > g₃Mₙ|#о} получить такое или даже большее (меньшее, см. сноску на стр. 6) значение статистики при справедливости Hq. Другими словами, это вероятность получить в опыте такое же или даже более удивительное при справедливости Но значение статистики g. Ясно, что если достигнутый уровень значимости меньше приемлемого для нас уровня а, мы отклоняем Hq - слишком сомнителен результат g₃Mₙ при выполнении нуль-гипотезы. Понятно, что приемлемая вероятность ошибки 1-го рода а как степень риска должна зависеть от цены этой ошибки. Можно сказать, что достигнутая значимость - это наименьший уровень значимости, на котором можно отвергнуть //о. Как было сказано выше, в некоторых ситуациях закон распределения статистики g определен только асимптотически, при неограниченном увеличении объема выборки, либо для оценки значимости используется статистическое моделирование. В этом случае говорят об асимптотической или приблизительной значимости. Для всех рассматриваемых здесь критериев существуют таблицы критических значений соответствующих статистик и/или таблицы для определения значимости, например, в [1, 2]. Многие из часто используемых функций распределения (нормальная, Стьюдента, биномиальная, F-распределение, % -распределение) доступны в программах статистической обработки, что позволяет найти значимость и критические значения как верхние или нижние а %-е точки этих распределений. Рассмотрим в качестве примера t-критерий Стьюдента. Сделаны п 1 измерений нормальной случайной величины и найдены оценки а\ — ³ В зарубежной литературе p-value. 7
(среднее) и .v 1 (стандартное отклонение) параметров положения т 1 и масштаба oi. Затем сделаны п2 измерений другой нормальной случайной величины и найдены оценки с/₂ и v2. Есть основания полагать, что параметр положения второй величины больше при неизменном параметре масштаба. Таким образом, имеем гипотезы Н&т 1 = т2 и Ну. т i < т2. Для сравнения средних двух независимых выборок с одинаковыми дисперсиями вычисляем статистику Стьюдента: @ 2 — ®1 Смп ,2 = 2,03. 2 v1 ₊ VL п1 п 2 Найдем критические значения статистики Л,мп для уровней значимости а = 0,05 и а = 0,01 при числе степеней свободы пi + п2 - 2 = 23, равные верхним а %-м точкам распределения Стьюдента t(0,0₅;23) =1,714 и t₍₀,₀₁;₂₃₎ = 2,500 (Excel, СТЬЮДРАСПОБР(2а;23), SPSS (Преобразовать, Вычислить, Распределения обратные, ldf.T(1-a,23)))⁴. Условие t'>Mu > t(ₐ;23) выполняется лишь при a = 0,05. Таким образом, наш односторонний критерий позволяет отклонить Н0 в пользу Ну. т 1<т2 на 5 %-м уровне значимости. Среднее во второй выборке значимо больше. Если альтернативная гипотеза менее определенная, ненаправленная Н\: т 1 / т2, то критерий двусторонний, в числителе статистики См п стоит модуль разности и критические значения, равные верхним а/2 %-м точкам распределения Стьюдента, таковы: t(0,05/2;23) = 2,069 и t(0,01/2;23) = = 2,807 (Excel, СТЬЮДРАСПОБР(а;23), SPSS (Преобразовать, Вычислить, Распределения обратные, ldf.T((1-a/2),23))). При такой альтернативе мы уже не можем говорить о статистически значимых различиях средних даже на уровне 0,05. Значимость при двустороннем критерии равна 0,054 (Excel, СТЬЮДРАСП(2,03;23;2)), SPSS (Преобразовать, Вычислить, Группы функций, Распределения кумулятивные, 2(1-CDF.T (2.03, 23))). Она слегка превысила 5 %, и вопрос о реагировании на этот результат должны решать ответственные лица. Использование достигнутой в ⁴ Здесь и далее в скобках указаны способы вычисления в программах Excel и SPSS. 8
эксперименте значимости представляется более конструктивным подходом. Для односторонней альтернативы И: т1<т2 значимость равна 0,027 (Excel,СТЬЮДРАСП (2,03;23;1), SPSS (Преобразовать, Вычислить, Группы функций, Распределения кумулятивные, 1-CDF.T (2.03, 23))), что опять же позволяет отклонить Но на 5 %-м уровне значимости, но не позволяет на 1 %-м. Возьмем другой пример. Было показано, что поток попыток вторжений в сеть является пуассоновским с интенсивностью X = 1,414 попыток в неделю. В истекшую неделю было зафиксировано 5 попыток. Есть ли основания для беспокойства? Говоря на языке проверки гипотез: какова вероятность того, что при прежней интенсивности (гипотеза Н₀) могло случиться пять или более попыток? И если эта вероятность (значимость) слишком мала, то нужно отклонять Но и поднимать тревогу - поток вторжений значимо усилился. В пуассоновском потоке вероятность к событий за интервал т равна Р{х = к} = ^^к)_е, к = 0,1,..., и вероятность того, что за неделю (т = 1) произойдет 5 или более вторжений, т. е. значимость, равна О) У к=5 -к 4 кк у = 1 -У—е ~к= 0,015. к I к=0 к • Следует поднимать тревогу - вряд ли она будет ложной, слишком мала вероятность такого скачка интенсивности при Н₀. Несложно подобрать критическое значение числа вторжений £кр(а) так, чтобы вероятность его превышения была равной или меньшей достаточно малого уровня а. В этом примере статистика является дискретной, целочисленной случайной величиной, и найти ее точное критическое значение для заданного уровня в общем случае невозможно. Тогда как достигнутая значимость вычисляется точно. Непараметрическими критериями и методами называют такие приемы обработки экспериментальных данных, которые не предполагают, что анализируемое статистическое распределение принадлежит к какому-либо параметрическому семейству, т. е. зависящему от ограниченного числа параметров типа т и о в нормальном семействе, пара 9
метра л - в пуассоновском. Предполагается лишь непрерывность или симметричность распределения или равенство медианы нулю. Конкретные процедуры и результаты их применения называют свободными от распределения. В большинстве прикладных исследований для оценки существенности различий средних значений двух независимых выборок используют показанный выше параметрический t-критерий, который предполагает нормальность генеральных совокупностей, из которых взяты наши выборки. Практически распределения могут явно отличаться от нормального или отличия эти трудно обнаружить. Тогда применение t-критерия и иных методов классической (гауссовской) статистики необоснованно и может привести к ошибочным заключениям. Ситуация осложняется тем, что отличие от нормальности может проявляться в «утяжелении хвостов» - это более медленное, неэкспоненциальное убывание плотности распределения на бесконечности, при котором могут не существовать дисперсия и моменты более низких порядков. Применение t-критерия в таких случаях опасно потому, что распределение эмпирической статистики будет отличаться от распределения Стьюдента, особенно в области больших отклонений от центра⁵, и применение критерия становится некорректным. В нормальном случае с ростом объемов выборок дисперсии выборочных средних убывают, что повышает чувствительность критерия к различию средних. Если наблюдения распределены по закону Коши с очень «тяжелыми хвостами», выборочное среднее распределено также по Коши (устойчивость распределения), но, в отличие от нормального распределения, дисперсии средних остаются неизменными, т. е. проведение повторных испытаний не улучшает ситуацию. Иными словами, если наблюдения подчиняются такому распределению, то t-критерий не является даже состоятельным [3,4]. Еще одним ограничением для классических методов является объем выборки. Если фактическое распределение не столь неблагоприятно, и мы располагаем большим числом наблюдений, то можно считать выборочное среднее нормальным. Но если выборка мала, в этом нельзя быть уверенным. Проверка же нормальности по малой выборке сомнительна. ⁵ Именно там мы находим значимость, а также верхние и нижние а %-е точки и используем их в качестве критических значений статистик. 10
Назовем основные преимущества непараметрических методов: - они свободны от распределений; - позволяют обрабатывать данные, представленные в слабых шкалах (ранговой, балльной, номинативной); - используют относительно простой математический аппарат; - могут работать в условиях малых выборок. Многие из непараметрических критериев предназначены для наблюдений, которые не представлены числами, а лишь упорядочены по степени проявления какого-либо признака, пронумерованы, т. е. измерены в ранговой шкале. Напомним понятие ранга. Представим выборку хi, х2,..., хп в виде вариационного ряда х(i), х(2),., х(п) (последовательность порядковых статистик), т. е. упорядочим так, чтобы х(i) < х(2) < ...< х(п). Ранг Rₖ элемента выборки хк есть номер этого элемента в вариационном ряду, т. е. R/ₜ =j, если х/₍ = х(у). Ранговые критерии единственно возможны, когда наблюдения не умышленно переведены в ранговую шкалу, а в принципе не могут быть представлены иначе, чем в виде некоторого упорядочения. Например, экспертное заключение о сравнительной эффективности средств защиты, перспективности проектов, сформулированное в порядке предпочтительности. При переходе к более слабой ранговой шкале мы теряем часть информации в исходных данных. Это плата за нечувствительность к закону распределения генеральной совокупности. Правда, одновременно снижается чувствительность результатов к ошибкам, «засорениям» в данных. Это качество метода называют робастностью. Если в выборке встречаются одинаковые элементы, то им назначается один и тот же ранг, равный среднему арифметическому номеров этих элементов в вариационном ряду. (SPSS, Преобразовать, Ранжировать, Ранг 1 с минимальным значением, Совпадающие, Средний), (EXCEL, РАНГ(элемент;массив;1) +(п+1-РАНГ(элемент;массив;0)-РАНГ (элемент;массив;1))/2). Ранговой статистикой называют линейную комбинацию рангов или иную функцию от рангов выборки. Если ранговая статистика критерия g(R₁, R₂,..., Rₙ) - дискретная случайная величина, то для заданного уровня значимости а может не существовать значения gKₚ при справедливости Яо. Поэтому для определения критической области используется верхнее критическое значение статистики критерия g i , 11
равное наименьшему значению g, такому, что Р|g > g\_ᵤ \Но}<а, и нижнее критическое значение gₐ, равное наибольшему значению g, такому, что Р|g < gа \Но} < а. Как правило, значения квантилей gₐ и g 1 ₍/ находятся по таблицам. В этой ситуации вычисление значимости проще и предпочтительнее. Кроме ранговых методов большое место в непараметрической статистике занимают методы, использующие наибольшее отклонение между функциями распределения. Это так называемые критерии типа Колмогорова-Смирнова. Если мы сравниваем эмпирическую и теоретическую функции распределения, т. е. используем критерий согласия, то этот по сути своей непараметрический метод, как и распространенный критерий %², ранговым не является. Если же мы сравниваем две эмпирические функции распределения, то эта ситуация сводится к ранговым критериям [4, 5]. И, наконец, существует группа непараметрических методов, предназначенных для анализа данных, представленных в наиболее слабой из шкал - номинативной (шкала наименований). По существу, здесь для проверки гипотез приходится анализировать частоты попадания признака в некоторые категории, качественного характера. Иногда эти категории все же подразумевают отношение порядка, скажем, низкий, средний и высокий уровни проявления признака. Весь материал конспекта лекций разделен на две главы: Критерии различия и Меры связи случайных признаков. Внутри первой главы материал разделяется по типу используемых измерительных шкал, на ситуации связанных и независимых выборок. Дальнейшая рубрикация разделяет поиск различий параметров сдвига, масштаба и законов распределения. Вторая глава посвящена мерам связи случайных признаков и подразделяется на номинативные, ранговые и смешанные шкалы. Кроме ссылок на необходимые таблицы Приложения в скобках дается последовательность действий в программах Excel и SPSS для реализации метода, для определения критических значений статистик или достигаемой значимости. Даны многочисленные примеры программной реализации методов в указанных программах. При изучении материала настоятельно рекомендуется применять конкретные методы для других примеров из соответствующего раздела. Автор благодарит Б.Ю. Лемешко за полезные замечания и уточнения в тексте.
Доступ онлайн
В корзину