Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Математическая статистика. Конспект лекций

Покупка
Основная коллекция
Артикул: 631465.01.99
Доступ онлайн
70 ₽
В корзину
Конспект лекций предназначен для проведения лекционных занятий по курсу «Математическая статистика» (направление 010400.62 - «Прикладная математика и информатика»)
Постовалов, С. Н. Математическая статистика : конспект лекций / С. Н. Постовалов, Е. В. Чимитова, В. С. Карманов. - Новосибирск : НГПУ, 2014. - 140 с. - ISBN 978-5-7782-2531-2. - Текст : электронный. - URL: https://znanium.com/catalog/product/546037 (дата обращения: 28.03.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.

Министерство образования и науки Российской Федерации НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ



С.Н. ПОСТОВАЛОВ
Е.В. ЧИМИТОВА
В.С. КАРМАНОВ



МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

„........ Конспект лекции

Утверждено Редакционно-издательским советом университета в качестве учебного пособия








НОВОСИБИРСК

2014

УДК 519.2(075.8) П636



Рецензенты:
д-р техн. наук, доцент В. С. Тимофеев канд. техн. наук, доцент А.В. Фаддеенков






Работа подготовлена на кафедре прикладной математики для студентов III курса ФПМИ


      Постовалов С.Н.
П 636   Математическая статистика. Конспект лекций: учеб. пособие /
      С.Н. Постовалов, Е.В. Чимитова, В.С. Карманов. - Новосибирск: Изд-во НГТУ, 2014. - 140 с.

         ISBN978-5-7782-2531-2





Конспект лекций предназначен для проведения лекционных занятий по курсу «Математическая статистика» (направление 010400.62 -«Прикладная математика и информатика»)







УДК 519.2(075.8)


ISBN 978-5-7782-2531-2

                     © Постовалов С.Н., Чимитова Е.В., Карманов В.С., 2014

                                             © Новосибирский государственный технический университет, 2014

        Оглавление


Введение........................................................7
Тема 1. Выборочный метод в статистике...........................8
    1.1. Выборка. Выборочный метод..............................8
    1.2. Порядковые статистики и вариационный ряд...............8
    1.3. Эмпирическая функция распределения.....................9
    1.4. Непараметрическое оценивание плотности распределения..12
     1.4.1. Гистограмма........................................12
     1.4.2. Ядерные оценки плотности и эмпирической функции распределения............................................12
Тема 2. Точечные оценки и их свойства..........................14
    2.1. Понятие статистической оценки.........................14

    2.2. Критерии сравнения оценок.................................15

     2.2.1. Несмещенность.....................................15

     2.2.2. Несмещенные оценки с равномерно минимальной дисперсией..................................................
     2.2.3. Состоятельность оценок. Критерий состоятельности.....
    2.3. Функция правдоподобия. Информационное количество Фишера.
    2.4. Неравенство Рао - Крамера и эффективные оценки..........
    2.5. Критерий оптимальности в векторном случае...............
    2.6. Достаточные статистики..................................
Тема 3. Построение оценок параметров по полным выборкам..........
    3.1. Метод максимального правдоподобия.......................
    3.2. Метод моментов..........................................

Тема 4. Доверительное оценивание..................................
    4.1. Интервальное оценивание..................................
    4.2. Понятие доверительного интервала.........................
    4.3. Построение доверительного интервала с использованием центральных статистик..........................................
    4.4. Построение доверительного интервала с использованием распределения точечной оценки параметров.......................
Тема 5. Проверка статистических гипотез...........................
    5.1. Виды статистических гипотез..............................
     5.1.1. Гипотеза о виде распределения.........................
     5.1.2. Гипотеза однородности.................................
     5.1.3. Г ипотеза независимости...............................

16
18
19
21
23
25
31
31
35

37
37
37

38

42
45
45
46
47
47

     5.1.4. Гипотеза случайности....................................47
    5.2. Выбор критерия проверки статистической гипотезы............47
    5.3. Вычисление достигаемого уровня значимости..................49

3

Тема 6. Проверка гипотезы о виде распределения................51
   6.1. Критерий Колмогорова..................................51
   6.2. Критерии типа го² ....................................52
   6.3. Критерии типа %²......................................53

     6.3.1. Критерий %² Пирсона.................................54
     6.3.2. Критерий отношения правдоподобия....................54
Тема 7. Проверка гипотезы однородности распределений............55
    7.1. Критерий Смирнова......................................56
    7.2. Критерии типа го² .....................................57
     7.2.1. Критерий Лемана - Розенблатта.......................57
     7.2.2. Критерий однородности Андерсона - Дарлинга - Петита.58
    7.3. Критерий однородности %²...............................59

Тема 8. Проверка гипотезы однородности средних и дисперсий......
    8.1. Критерии проверки гипотез о математических ожиданиях...
     8.1.1. t-критерий Стьюдента................................
     8.1.2. Критерий Манна и Уитни..............................
    8.2. Критерии проверки гипотез о дисперсиях.................
     8.2.1. Критерий Фишера.....................................
     8.2.2. Критерий Бартлетта..................................
Тема 9. Проверка гипотезы независимости.........................
Тема 10. Проверка гипотезы случайности..........................
    10.1. Критерий инверсий.....................................
    10.2. Критерии медиан.......................................
    10.3. Критерии монотонных серий.............................
    10.4. Критерий знаков.......................................
    10.5. Критерий Манна - Кендалла.............................
Тема 11. Построение наиболее мощных критериев...................
    11.1. Наиболее мощный критерий..............................
    11.2. Построение наиболее мощного критерия в случае простой гипотезы....................................................

60
61
61
63
64
64
64
66
68
68
69
70
71
71
72
72

73

    11.3. Критерий отношения правдоподобия в случае дискретных распределений...............................................80
    11.4. Построение равномерно наиболее мощного критерия.......81
    11.5. Проверка гипотез и доверительное оценивание...........86
Тема 12. Последовательные критерии проверки гипотез.............88
    12.1. Последовательный критерий Вальда......................88
Библиографический список........................................92

4

Приложение. Основные сведения из курса «Теории вероятностей».....
    П1. Виды функций распределения случайных величин.............
    П2. Основные числовые характеристики.........................
     П2.1. Математическое ожидание...............................
     П2.2. Дисперсия.............................................
     П2.3. Моменты...............................................

93
93
93
94
94
94

     П2.4. Ковариация и коэффициент корреляции.................95
     П2.5. Асимметрия..........................................95
     П2.6. Эксцесс.............................................95
    П3. Преобразование случайных величин.......................96
     П3.1. Сдвиг...............................................97
     П3.2. Масштаб.............................................98

     П3.3. Зеркальное отражение..................................99
     П3.4. Усечение слева.......................................101
     П3.5. Усечение справа......................................102
     П3.6. Двустороннее усечение................................104
     П3.7. Логарифмирование.....................................105
     П3.8. Смесь................................................106

     П3.9. Произведение..........................................
    П4. Семейства распределений случайных величин................
     П4.1. Семейство распределений Джонсона......................
     П4.2. Семейство гамма-распределений.........................
     П4.3. Семейство бета-распределений..........................
    П5. Стандартные законы распределений.........................
     П5.1. Равномерное распределение.............................
     П5.2. Экспоненциальное распределение........................
     П5.3. Полунормальное распределение..........................
     П5.4. Распределение Рэлея...................................
     П5.5. Распределение Максвелла...............................
     П5.6. Распределение модуля многомерного нормального вектора.
     П5.7. Распределение Парето..................................
     П5.8. Распределение Эрланга.................................
     П5.9. Распределение Лапласа.................................
     П5.10. Нормальное распределение.............................
     П5.11. Логарифмически (In) нормальное распределение.........
     П5.12. Логарифмически (1g) нормальное распределение.........
     П5.13. Распределение Коши...................................
     П5.14. Логистическое распределение..........................
     П5.15. Распределение Вейбулла...............................

107
108
109
110
111
112
112
113
114
115
116
116
117
117
118
118
119
120
121
121
121

5

     П5.16. Распределение минимального значения................
     П5.17. Распределение максимального значения...............
     П5.18. Обобщенное распределение минимального значения.....
     П5.19. Распределение Накатами.............................
     П5.20. Гамма-распределение................................
     П5.21. Бета-распределение 1-го рода.......................
     П5.22. Бета-распределение II-го рода......................
     П5.23. Бета-распределение III-го рода.....................
     П5.24. Распределение SB-Джонсона..........................
     П5.25. Распределение SL-Джонсона..........................
     П5.26. Распределение Sᵤ-Джонсона..........................
     П5.27. Двустороннее экспоненциальное распределение........
     П5.28. Н-распределение....................................
     П5.29. Г-распределение....................................
     П5.30. Обобщенное логистическое распределение.............
    П6. Распределение некоторых функций от нормальных случайных величин....................................................

122
122
123
124
124
125
126
127
127
128
129
129
130
131
131

132

     П6.1. Распределение Хи-квадрат...............................132
     П6.2. Распределение Стьюдента................................134
     П6.3. Распределение Снедекора - Фишера.......................135
    П7. Метрики в пространстве функций распределения случайных величин....................................................136
     П7.1. Расстояние между функциями распределения...............137
     П7.2. Расстояние между функциями плотности распределения.....137

                Введение




   Математическая статистика - наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов.
   Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надежность и точность выводов, делаемых на основании ограниченного статистического материала (например, оценить необходимый объем выборки для получения результатов требуемой точности при выборочном обследовании).
   Целью математической статистики является разработка методов регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений. В зависимости от математической природы конкретных результатов наблюдений математическая статистика делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы.
   Основными разделами статистики являются описательная статистика, теория оценивания и теория проверки гипотез. Описательная статистика есть совокупность эмпирических методов, используемых для визуализации и интерпретации данных (расчет выборочных характеристик, таблицы, диаграммы, графики и т. д.), как правило, не требующих предположений о вероятностной природе данных.
   Методы оценивания и проверки гипотез опираются на вероятностные модели происхождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что характеристики изучаемых объектов описываются посредством распределений, зависящих от одного или нескольких числовых параметров. Непараметрические модели не связаны со спецификацией параметрического семейства для распределения изучаемых характеристик. Непараметрические модели в общем случае являются робастными, т. е. устойчивыми, «нечувствительными» к различным отклонениям и неоднородностям в выборке, связанным с теми или иными, в общем случае неизвестными, причинами.
   В математической статистике оценивают параметры и функции от них, представляющие важные характеристики распределений (например, математическое ожидание, медиана, стандартное отклонение, квантили и др.), плотности и функции распределения и пр.

7

                Тема 1. Выборочный метод в статистике





            1.1. Выборка. Выборочный метод


   Пусть Хп = {X!,...,Хп} - выборка объема п, полученная в результате наблюдения случайной величины %, имеющей распределение (закон распределения) F%( х).
   Будем считать, что:
   •     наблюдения X₁,...,Хп независимы и имеют одно и то же распределение F%( х);
   •     FXп (х₁,...,хп) = F%(хх)• ^(х2)•...■ F%(хп), и нам не важен порядок следования наблюдений;
   •     множество возможных значений % (с распределениями F%) образуют генеральную совокупность L (%), которой принадлежит выборка Xп;
   •     F^gF = |F%(х,0),0е©| - параметрическая статистическая модель. Параметр 0 может быть как скалярным, так и векторным.



            1.2. Порядковые статистики и вариационный ряд


   Упорядочим все наблюдения в выборке и произведем их перенумерацию: X(j)< X(₂) < X(₃) <... < X(п) - вариационный ряд.
   Определение 1.1. Величина X(ᵢ) называется i-й порядковой статистикой.
   Определение 1.2. Статистикой называется любая измеримая функция от выборки, которая, в свою очередь, также является случайной величиной или случайной функцией.

8

   Найдем распределение i-й порядковой статистики.
   Введем вспомогательную случайную функцию: рп (х) - количество наблюдений Xᵢ < х.
   Найдем Р{рп (х) = к} .
к          п-к
                  ¹ । । Y
Xi       х
Рис. 1.1. Нахождение вероятности
Р {Рп (х) = к}
   Событие рп (х) = к означает, что в интервал (-да, х] попало ровно к наблюдений, а в интервал (х, +да) - (п - к) наблюдений.
   Число способов, которыми можно выбрать к элементов из п, равно Сп, поэтому в результате получаем:
Р{рп (х) = к} = CkₙFk (х)(1 -F(х))п⁻к.
Р{X(i)< х} = Р{Рп ⁽х⁾- ⁱ} =
            =  Р{рп (х) = ⁱ V Рп (х) = ⁱ +¹ V ... V Рп (х) = п} = п                п
=  ZР{рп (х) = к} = Д C^,F(х)к (1 - F(х))п⁻к .
              к=i            к=i



            1.3. Эмпирическая функция распределения



   Функция

F, (х п
называется эмпирической функцией распределения. По определению, эмпирическая функция распределения является случайной функцией;

9

Vx e R, Fₙ (x) - дискретная случайная величина, принимающая значения
012 n-1 n
                    ⁰   , , ,•••, ,    ¹,
n n n n n


при этом pЬу (x) = -[ = p(pn (x) = к} = Ck„Fk (x)(¹ ⁻F(x))ⁿ к I                 n J

   Если все Х{ (наблюдения в выборке) различны, то


                           ⁰ x < Х(¹),

Fn ⁽ x )
                           к ,,                    ,
                           _’ Х(к) - x < Х(к+1), к =¹,..., ⁿ ⁻¹,

                           ¹,x > Х(n),


     ¹  f \ ¹ V , /    \         \ Г⁰,x < ⁰   .        w . ~ .
или F (x ) = —E h (x - xᵢ), где h (x ) = < - функция Хевисайда
       ' ' „£                    ' [1,x>0     “
(единичного скачка).
   Теорема 1.1
   Пусть Fₙ (x) - эмпирическая функция распределения случайной величины £,, имеющей функцию распределения F (x). Тогда
V|x| < да, Vs > 0 lim P(IFₙ (x)- F(x)| < s| = 1.
n ^да


   Доказательство
   Закон больших чисел (теорема Бернулли).
   Если nᵢ - независимые, одинаково распределенные случайные величины, Мn ᵢ = а, то
                   ¹ v P .     ____ .
—En ᵢ-----> а при n ^ да
                   n


P I¹ En i
  I n

- а <s>^ 1; Vs> 0, n ^да .

10

Введем случайную величину iy- = h (х - Xₜ ) =

1, Xₜ < х
О, Xᵢ > х ’

найдем ее

математическое ожидание

М = М (х - Xₜ ) = 1 • Р {Xₜ < х} + О • Р {Xₜ > х } = F^( х),


подставим в Закон больших чисел и получим условия теоремы.
   Таким образом, при n ^ да эмпирическая функция распределения Fₙ (х) является оценкой теоретической функции распределения F^( х).
   Введем статистику Dₙ = sup | Fₙ (х) - F(х) |.
                          I х<да
   Теорема 1.2 (Гливенко - Кантелли)

Р {lⁱm Dn
\п ^да

= о}= 1.

   Теорема 1.3 (Колмогорова)

+да
lim Р {4П)п < t }= К (t) = £ (-1) je⁻² jt .
                п >'   ¹        ’          j—-да


К (t) - распределение Колмогорова.
   Используя теорему Колмогорова, можно построить доверительный интервал для теоретической функции распределения.

Р i Dn

= К (t) = у,

V | х |< да: Р <

Fn (х) - ^Ь< f (х) < Fn (х) +
Vn                vn


>^уе[О,1]

n ^ да , n > 2О,


где К(tу) = у (у - квантиль распределения Колмогорова), т. е.


t у = К ¹⁽у⁾.


11

            1.4. Непараметрическое оценивание плотности распределения


        1.4.1. Гистограмма

   Разобьем область определения на к интервалов.
t₀ < t₁ < t₂ < ... < tₖ,

                                 к
nₜ - количество наблюдений на [ tᵢ, tᵢ₊₁), Е nₜ - п.
i-I


ti                   ti.+1                    t

Рис 1.2. Гистограмма

   Высота определяется из условия нормировки:
                                     Е ⁿi
Е ⁿ        (ti- ti-i )-- п -1.
ⁱ п (ti⁻ ti-1)       п п
   Гистограмма - довольно грубый способ оценивания плотности распределения, связанный с неопределенностью выбора числа интервалов к, границ интервалов, потерей информации при группировании.

        1.4.2. Ядерные оценки плотности и эмпирической функции распределения

   Пусть g(t) - неотрицательная функция, удовлетворяющая условиям:
g⁽t⁾ ⁻ g⁽⁻¹1

12

                                  ^х
f g ⁽t⁾ dt = 1,
                                  -X


                                +X
f t² g (t) dt - 1,
                                -X


                        +X
f tm g(t)dt < х;0 < m < x,
                        -X


                        lim Xₙ - 0 и lim nXₙ - x, n ^X         n ^X


тогда функцию плотности можно оценить следующим образом:


( „Л х — Xₜ
< X n ,

1 n fn⁽х⁾ ⁻—Е g n X ₙ i-1


при n X ; fₙ (х) ^ f (х),


а функцию распределения как


1 ff
                                 I⁷n (X) - - Е G
n i-1


х — Xᵢ
X n

,

где Xₙ - параметр размытости ядерной функции.


X
G (х ) - f g ( x ) dt.
X

    Основное преимущество «ядерных» оценок состоит в том, что они непрерывны, в отличие от эмпирической функции распределения и гистограмм.

                Тема 2. Точечные оценки и их свойства




            2.1. Понятие статистической оценки


   Пусть имеется выборка Xп - (X₁,...,Хп) из распределения случайной величины £е F - {F(х; 0), 0е0}. В общем случае задача оценивания заключается в том, чтобы, используя статистическую информацию, доставляемую выборкой Xп , сделать статистические выводы об истинном значении неизвестного параметра 0.
   Определение 2.1. Точечной оценкой неизвестного параметра 0 по выборке Xп называется значение некоторой статистики Тп - Т(Xп), которое приближенно равно значению параметра 0: 0 - Тп (х).
   Так как любая статистика является случайной величиной (имеющей некоторое распределение G-L (х)), то для каждой новой реализации выборки Xп будет получаться другое значение оценки, в общем случае отличное от истинного значения параметра 0.
   Определение 2.2. Интервальной оценкой параметра 0 называют интервал [Т₁(Хп), Т₂(Хп)], содержащий истинное значение параметра 0 с вероятностью у.
   Понятно, что для оценивания 0 можно использовать различные оценки, и для того, чтобы выбрать лучшую из них, нужно иметь критерий сравнения качества оценок.

Рис. 2.1. Определение интервальной оценки

14

Доступ онлайн
70 ₽
В корзину