Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета, 2015, №112

Покупка
Основная коллекция
Артикул: 641408.0001.99
Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета, 2015, вып. №112 - Краснод.:КубГАУ, 2015. - 2154 с.:. - Текст : электронный. - URL: https://znanium.com/catalog/product/648368 (дата обращения: 25.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Научный журнал КубГАУ, №112(08), 2015 года 

http://ej.kubagro.ru/2015/08/pdf/01.pdf 

УДК 330.322.16:629.78 
UDC 330.322.16:629.78 
 
 
01.00.00 Физико-математические науки 
Physics and mathematical sciences 
 
 
НЕПАРАМЕТРИЧЕСКОЕ ОЦЕНИВАНИЕ 
ХАРАКТЕРИСТИК РАСПРЕДЕЛЕНИЙ 
ВЕРОЯТНОСТЕЙ 

NONPARAMETRIC ESTIMATION OF 
CHARACTERISTICS OF PROBABILITY 
DISTRIBUTIONS 
 
 
Орлов Александр Иванович 
д.э.н., д.т.н., к.ф.-м.н., профессор 
РИНЦ SPIN-код: 4342-4994 

Orlov Alexander Ivanovich 
Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci., 
professor 
Московский государственный технический 
университет им. Н.Э. Баумана, Россия, 105005, 
Москва, 2-я Бауманская ул., 5, prof-orlov@mail.ru

Bauman Moscow State Technical University, 
Moscow, Russia  

 
 
Статья посвящена непараметрическому точечному и 
интервальному оцениванию характеристик 
распределения вероятностей (математического 
ожидания, медианы, дисперсии, среднего 
квадратического отклонения, коэффициента 
вариации) по выборке результатов измерений. 
Выборочные значения рассматриваются как 
реализации независимых одинаково распределенных 
случайных величин с произвольной функцией 
распределения, имеющей нужное число моментов. 
Непараметрические процедуры анализа данных 
сопоставляются с параметрическими, основанными 
на предположении о том, что выборочные значения 
имеют нормальное распределение. Точечные оценки 
строятся очевидным образом – используют 
выборочные аналоги теоретических характеристик. 
Интервальные оценки основаны на асимптотической 
нормальности выборочных моментов и функций от 
них. Непараметрические асимптотические 
доверительные интервалы получены в результате 
применения специальной технологии вывода 
асимптотических соотношений прикладной 
статистики. Эта технология в качестве первого шага 
использует многомерную центральную предельную 
теорему, примененную к сумме векторов, 
координаты которых – степени исходных случайных 
величин. Второй шаг – преобразование предельного 
многомерного нормального вектора с целью 
получения интересующего исследователя вектора. 
При этом используются соображения линеаризации 
и отбрасываются бесконечно малые величины. 
Третий шаг – строгое обоснование полученных 
результатов на стандартном для асимптотических 
математико-статистических рассуждений уровне. 
При этом обычно приходится использовать 
необходимые и достаточные условия наследования 
сходимости. Статья содержит 10 числовых 
примеров. Исходные данные - сведения о наработке 
50 резцов до предельного состояния. Использование 
методов, разработанных в предположении 
нормальности распределения, может привести к 
заметно искаженным выводам в ситуации, когда 
гипотеза нормальности не выполнена. Практические 
рекомендации таковы: при анализе реальных данных 
следует использовать непараметрические 

The article is devoted to the nonparametric point and 
interval estimation of the characteristics of the 
probabilistic distribution (the expectation, median, 
variance, standard deviation, variation coefficient) of 
the sample results. Sample values are regarded as the 
implementation of independent and identically 
distributed random variables with an arbitrary 
distribution function having the desired number of 
moments. Nonparametric analysis procedures are 
compared with the parametric procedures, based on 
the assumption that the sample values have a normal 
distribution. Point estimators are constructed in the 
obvious way - using sample analogs of the 
theoretical characteristics. Interval estimators are 
based on asymptotic normality of sample moments 
and functions from them. Nonparametric asymptotic 
confidence intervals are obtained through the use of 
special output technology of the asymptotic relations 
of Applied Statistics. In the first step this technology 
uses the multidimensional central limit theorem, 
applied to the sums of vectors whose coordinates are 
the degrees of initial random variables. The second 
step is the conversion limit multivariate normal 
vector to obtain the interest of researcher vector. At 
the same considerations we have used linearization 
and discarded infinitesimal quantities. The third step 
- a rigorous justification of the results on the 
asymptotic standard for mathematical and statistical 
reasoning level. It is usually necessary to use the 
necessary and sufficient conditions for the 
inheritance of convergence. This article contains 10 
numerical examples. Initial data - information about 
an operating time of 50 cutting tools to the limit 
state. Using the methods developed on the 
assumption of normal distribution, it can lead to 
noticeably distorted conclusions in a situation where 
the normality hypothesis failed. Practical 
recommendations are: for the analysis of real data we 
should  use nonparametric confidence limits 
 

Научный журнал КубГАУ, №112(08), 2015 года 
 

http://ej.kubagro.ru/2015/08/pdf/01.pdf 
 

2

доверительные границы 
 
 
Ключевые слова: МАТЕМАТИЧЕСКАЯ 
СТАТИСТИКА, ПРИКЛАДНАЯ СТАТИСТИКА, 
СТАТИСТИЧЕСКИЕ МЕТОДЫ, 
НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА, 
ТОЧЕЧНОЕ ОЦЕНИВАНИЕ, ДОВЕРИТЕЛЬНЫЕ 
ИНТЕРВАЛЫ, МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ, 
МЕДИАНА, ДИСПЕРСИЯ, СРЕДНЕЕ 
КВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ, 
КОЭФФИЦИЕНТ ВАРИАЦИИ, ПРЕДЕЛЬНЫЕ 
ТЕОРЕМЫ  

Keywords: MATHEMATICAL STATISTICS, 
APPLIED STATISTICS, STATISTICAL 
METHODS, NONPARAMETRIC STATISTICS, 
POINT ESTIMATION, CONFIDENCE 
INTERVALS, EXPECTATION, MEDIAN, 
VARIANCE, STANDART DEVIATION, 
VARIATION COEFFICIENT, LIMIT THEOREMS 

 

 
1. Введение 

 
Рассмотрим несколько типовых задач анализа числовых данных, 

часто встречающихся при применении статистических методов в 

различных областях научных исследований и отраслях народного 

хозяйства. В настоящей статье выборка моделируется как совокупность 

независимых одинаково распределенных числовых случайных величин. 

 
Анализ конкретных данных обычно начинают с получения 

"статистического портрета", т.е. с оценивания основных характеристик 

распределения [1]. Настоящая статья посвящена непараметрическому 

точечному и интервальному оцениванию характеристик распределения 

(математического 
ожидания, 
медианы, 
дисперсии, 
среднего 

квадратического отклонения, коэффициента вариации) по выборке 

результатов измерений. Выборочные значения рассматриваются как 

реализации независимых одинаково распределенных случайных величин с 

произвольной 
функцией 
распределения, 
имеющей 
нужное 
число 

моментов. Непараметрические процедуры анализа данных сопоставляются 

с параметрическими (ср. [2]).  

 
Существенная часть алгоритмов статистического анализа данных 

исходит из предположения о нормальности распределения результатов 

наблюдений. Между тем специально проведенные исследования (сводка 

дана, например, в [3] и [4, разд. 2.1]) показывают, что распределения 

погрешностей 
физических 
измерений, 
как 
правило, 
отличны 
от 

Научный журнал КубГАУ, №112(08), 2015 года 
 

http://ej.kubagro.ru/2015/08/pdf/01.pdf 
 

3

нормальных. Из-за отклонений от нормальности свойства алгоритмов 

могут в одних случаях измениться сравнительно слабо, как при проверке 

гипотезы однородности математических ожиданий для выборок равного 

объема (см. [4, разд.5.2], [5]), но иногда изменения таковы, что алгоритмы 

из научных переходят в эвристические. Например, свойства алгоритмов 

отбраковки 
выбросов 
(резко 
выделяющихся 
наблюдений) 
крайне 

неустойчивы по отношению к отклонениям от нормальности: если 

зафиксировать правило отбраковки, то крайне неустойчив уровень 

значимости, а если зафиксировать уровень значимости, то крайне 

неустойчиво критическое значение (см.[4, разд.4.2], [6]). Поэтому 

Российской академией статистических методов в 1998 г. выдвинута задача 

изучения влияния отклонения от нормальности на свойства всех 

практически используемых алгоритмов статистического анализа.    

 
Одна из основных задач в области статистических методов – 

оценивание 
по 
выборочным 
данным 
характеристик 
генеральной 

совокупности, таких, как математическое ожидание, медиана, дисперсия, 

среднее квадратическое отклонение, коэффициент вариации. Точечные 

оценки строятся очевидным образом – используют выборочные аналоги 

теоретических характеристик. Для получения интервальных оценок 

приходится использовать асимптотическую нормальность выборочных 

моментов и функций от них. 

 
Пусть исходные данные – это выборка x1, x2, … , xn, где n – объем 

выборки. В вероятностной модели выборочные значения x1, x2, … , xn 

рассматриваются как реализации независимых одинаково распределенных 

случайных величин X1, X2, … , Xn с общей функцией распределения F(x) = 

P (Xi < x), i = 1,2, …, n. Поскольку функция распределения произвольна (с 

точностью до условий регулярности типа существования моментов), то 

рассматриваемые задачи доверительного оценивания характеристик 

распределения являются непараметрическими. Существование моментов 

Научный журнал КубГАУ, №112(08), 2015 года 
 

http://ej.kubagro.ru/2015/08/pdf/01.pdf 
 

4

является скорее математическим ограничением, чем реальным, поскольку 

практически 
все 
реальные 
статистические 
данные 
финитны 
(т.е. 

ограничены сверху и снизу, например, шкалой прибора). Для простоты 

изложения примем это предположение финитности, из которого вытекает 

существование теоретических моментов любого порядка. 

 
В дальнейшем изложении будут использоваться выборочное среднее 

арифметическое 

X  = (X1 + X2  +… + Xn) / n, 

выборочная дисперсия  

2
0s  = {(X1 – X )2 + (X2 – X )2
  +… + (Xn – X )2} / (n - 1), 

выборочное среднее квадратическое отклонение s0 (квадратный корень из 

выборочной дисперсии) и некоторые другие выборочные характеристики, 

которые введем позже. 

 

 
2. Точечное и интервальное оценивание математического 

ожидания.  

 
Точечной оценкой для математического ожидания в силу закона 

больших чисел является выборочное среднее арифметическое X . В 

некоторых случаях могут быть использованы и другие оценки. Например, 

если известно, что распределение симметрично относительно своего 

центра, то центр распределения является не только математическим 

ожиданием, но и медианой, а потому для его оценки можно использовать 

выборочную медиану. 

 
Нижняя доверительная граница для математического ожидания 

имеет вид  

X  – U(p) s0 / n1/2 , 

где: p – доверительная вероятность (истинное значение математического 

ожидания находится между нижней доверительной границей и верхней 

Научный журнал КубГАУ, №112(08), 2015 года 
 

http://ej.kubagro.ru/2015/08/pdf/01.pdf 
 

5

доверительной 
границей 
с 
вероятностью, 
асимптотически 
равной 

доверительной); 

 
U(p) – число, заданное равенством Ф(U(p)) = (1+ p)/2, где Ф(х) – 

функция стандартного нормального распределения с математическим 

ожиданием 0 и дисперсией 1. Например, при p = 95% (т.е. при р = 0,95) 

имеем U(p) = 1,96. Функция U(p) имеется в большинстве литературных 

источников по теории вероятностей и математической статистике (см., 

например, [7]).  

 
Верхняя доверительная граница для математического ожидания 

имеет вид  

X  + U(p) s0/ n1/2 . 

 
Выражения для верхней и нижней доверительных границ получены с 

помощью центральной предельной теоремы теории вероятностей и 

теоремы о наследовании сходимости (см., например, [8]). Они являются 

асимптотическими, т.е. становятся тем точнее, чем больше объем выборки. 

В частности, вероятность попадания истинного значения математического 

ожидания в интервал между нижней и верхней доверительными границами 

асимптотически приближается к доверительной вероятности. Но при 

конечном объеме выборки может незначительно отличаться от нее. Это – 

недостатки непараметрического подхода. Достоинством же является то, 

что его можно применять всегда, когда случайная величина имеет 

математическое ожидание и дисперсию, что в силу финитности 

(ограниченности шкал) имеет быть практически всегда в реальных 

ситуациях. 

 
Сопоставим с параметрическим подходом. Обычно в таких случаях 

предполагают нормальность результатов наблюдений (которой, как уже 

было отмечено, практически никогда нет). Тогда формулы нижней и 

верхней доверительных границ для математического ожидания имеют 

похожий вид, только вместо U(p) стоят квантили распределения 

Научный журнал КубГАУ, №112(08), 2015 года 
 

http://ej.kubagro.ru/2015/08/pdf/01.pdf 
 

6

Стьюдента. Как известно, при росте объема выборки квантили 

распределения Стьюдента сходятся к соответствующим квантилям 

стандартного нормального распределения, так что при больших объемах 

выборок 
оба 
подхода 
дают 
близкие 
результаты. 
Классические 

доверительные интервалы несколько длиннее, поскольку квантили 

распределения Стьюдента больше квантилей стандартного нормального 

распределения, хотя это различие и невелико. 

 

Таблица 1 

Наработка резцов до предельного состояния (до отказа), ч 

№ п/п
Наработка, ч № п/п Наработка, ч 
№ п/п Наработка, ч 

1 
9 
18 
47,5 
35 
63 

2 
17,5 
19 
48 
36 
64,5 

3 
21 
20 
50 
37 
65 

4 
26,5 
21 
51 
38 
67,5 

5 
27,5 
22 
53,5 
39 
68,5 

6 
31 
23 
55 
40 
70 

7 
32,5 
24 
56 
41 
72,5 

8 
34 
25 
56 
42 
77,5 

9 
36 
26 
56,5 
43 
81 

10 
36,5 
27 
57,5 
44 
82,5 

11 
39 
28 
58 
45 
90 

12 
40 
29 
59 
46 
96 

13 
41 
30 
59 
47 
101,5 

14 
42,5 
31 
60 
48 
117,5 

15 
43 
32 
61 
49 
127,5 

16 
45 
33 
61,5 
50 
130 

17 
46 
34 
62 
 
 

Научный журнал КубГАУ, №112(08), 2015 года 
 

http://ej.kubagro.ru/2015/08/pdf/01.pdf 
 

7

 

 
Пример 1. Рассмотрим данные о наработке резцов до отказа, 

приведенные в табл. 1. Для них объем выборки n = 50, выборочное среднее 

арифметическое 
X  = 57,88 (это и есть точечная оценка для 

математического ожидания), выборочная дисперсия 
2
0s  = 663,00. 

 
Следовательно, выборочное среднее квадратическое отклонение s0 = 

75
,
25
00
,
663
=
 
и 
согласно 
приведенным 
выше 
формулам 
при 

доверительной вероятности р = 0,95 нижняя доверительная граница для 

математического ожидания такова: 

57,88 – 1,96 × 25,75 / 50  = 57,88 – 7,14 = 50,74, 

а верхняя доверительная граница есть 57,88 + 7,14 = 65,02. 

 
Если 
заранее известно, 
что 
результаты 
наблюдения 
имеют 

нормальное распределение, то нижняя и верхняя доверительная границы 

для математического ожидания определяются по формулам 

X  - t(p, n-1) s0 /
n , X  + t(p, n-1) s0 /
n  

соответственно. Эти формулы отличаются от предыдущих тем, что 

квантиль нормального распределения U(p) заменена на аналогичную 

квантиль распределения Стьюдента с (n – 1) степенью свободы. Другими 

словами, t(p, n-1) – это число, заданное равенством STn-1(p) = (1+ p)/2, где 

STn-1(х) – функция распределения Стьюдента с (n – 1) степенью свободы.  

 
Для доверительной вероятности р = 0,95 при объеме выборки n = 50 

согласно [7] имеем квантиль распределения Стьюдента t(p, n-1) = 2,0096. 

Следовательно, нижняя доверительная граница для математического 

ожидания такова: 

57,88 – 2,0096 × 25,75 / 50  = 57,88 – 7,32 = 50,56, 

а верхняя доверительная граница есть 57,88 + 7,32 = 65,20. Таким образом, 

длина доверительного интервала увеличилась с 14,28 до 14,64, т.е. на 2,5%.  

Научный журнал КубГАУ, №112(08), 2015 года 
 

http://ej.kubagro.ru/2015/08/pdf/01.pdf 
 

8

 
Согласно 
расчетам, 
проведенным 
для 
проверки 
согласия 
с 

параметрическим семейством распределений методом моментов в [4, разд. 

4.1] и [9], рассматриваемые данные согласуются с гамма-распределением, 

а не с нормальным распределением, поэтому использование распределения 

Стьюдента для получения доверительных границ некорректно.  

 
Иногда рекомендуют сначала проверить нормальность результатов 

наблюдений, а потом, в случае принятия гипотезы нормальности, 

рассчитывать доверительные границы с использованием квантилей 

распределения Стьюдента. Однако проверка нормальности - более сложная 

статистическая процедура, чем оценивание математического ожидания. 

Кроме того, применение одной статистической процедуры, как правило, 

нарушает предпосылки следующей процедуры, в частности, независимость 

результатов наблюдений (см., например, [4, разд. 4.3] и [10]). Поэтому 

цепочка статистических процедур, следующих друг за другом, как 

правило, 
образует 
статистическую 
технологию, 
свойства 
которой 

неизвестны на современном уровне развития статистических методов.  

 
Итак, только непараметрическую статистическую процедуру следует 

применять для анализа реальных данных. Как правило, встречающиеся на 

практике 
распределения 
не 
являются 
нормальными, 
а 
потому 

использование квантилей распределения Стьюдента неправомерно.  

 

 
3. Точечное и интервальное оценивание медианы 

 
Естественной точечной оценкой для медианы является выборочная 

медиана. 

 
Пример 2. Для данных о наработке резцов до отказа (табл. 1) объем 

выборки – четное число, поэтому выборочной медианой является 

полусумма 25-го и 26-го членов вариационного ряда, т.е. (56 + 56,5)/2 = 

56,25. 

Научный журнал КубГАУ, №112(08), 2015 года 
 

http://ej.kubagro.ru/2015/08/pdf/01.pdf 
 

9

 
Чтобы построить доверительные границы для медианы, по 

доверительной вероятности р находят U(p). Затем вычисляют натуральное 

число  

С(р) = [n/2 – U(p)n1/2 /2], 

где [.] – знак целой части числа. Нижняя доверительная граница для 

медианы имеет вид (при C(p) > 1; если p = 0,95 и U(p) = 1,96, то C(p) > 1 

при n > 8) 

Х(С(р)), 

где Х(i) – член с номером i вариационного ряда, построенного по исходной 

выборке (т.е. i-я порядковая статистика).  

 
Верхняя доверительная граница для медианы имеет вид 

Х(n + 1 - С(р)). 

Теоретическое основание для приведенных доверительных границ 

содержится в литературе по порядковым статистикам (см., например, 

монографию [11, с.68]).  

 
Пример 3. Для данных о наработке резцов до отказа n = 50. 

Рассмотрим как обычно, доверительную вероятность р = 0,95. Тогда  

С(р) = [50/2 – 1,96 50  /2]= [18,07] = 18. 

Следовательно, нижней доверительной границей является Х(18) = 47,5, а 

верхней доверительной границей Х(50 + 1 - 18) = Х(33) = 61,5.  

 
Поскольку в случае нормального распределения медиана совпадает с 

математическим ожиданием, то каких-либо специальных способов ее 

оценивания в классическом случае нет. 

 

 
4. Точечное и интервальное оценивание дисперсии 

 
Точечной оценкой дисперсии является выборочная дисперсия 
2
0s . Эта 

оценка - несмещенная и состоятельная. Доверительные границы находятся 

с помощью величины 

d2 = (m4  - ((n – 1) /n ) 4  
4
0s  ) / n , 

Научный журнал КубГАУ, №112(08), 2015 года 
 

http://ej.kubagro.ru/2015/08/pdf/01.pdf 
 

10

где m4  - выборочный четвертый центральный момент, т.е. 

m4  = {(X1 – X )4 + (X2 – X )4 +… + (X n – X )4 } / n . 

 
Нижняя доверительная граница для дисперсии такова: 

2
0s  - U(p)d , 

где 
2
0s  – выборочная дисперсия; U(p) – квантиль нормального 

распределения порядка (1+р)/2, а d – положительный квадратный корень из 

величины d2, введенной выше. 

 
Верхняя доверительная граница для дисперсии имеет вид  

2
0s  + U(p)d . 

 
При 
выводе 
приведенных 
соотношений 
используется 

асимптотическая нормальность выборочной дисперсии, установленная, 

например, в монографии [12, с.419]. Соответственно, непараметрический 

доверительный интервал является асимптотическим. В классическом 

случае точечная оценка имеет тот же вид, а вот доверительные границы 

находят с помощью квантилей распределения хи-квадрат с числом 

степеней свободы, на 1 меньшим объема выборки. В случае нормального 

распределения четвертый момент в 3 раза больше квадрата дисперсии, а 

потому можно оценить d2 как 
n
s /
2
4
0
. Это дает быстрый способ для 

интервальной оценки дисперсии в нормальном случае. 

 
Пример 4. Для данных о наработке резцов до отказа объем выборки n 

= 50, выборочная дисперсия 
2
0s  = 663,00, четвертый выборочный момент m4 

= 1702050,71. Поэтому 

d2 = (1702050,71- ((50 – 1) /50)4 663,002) /50 = 25932,13. 

Тогда d = 161,03. Для доверительной вероятности р = 0,95 нижняя 

доверительная граница для дисперсии случайной величины такова: 

663,00 – 1,96×161,03 = 663,00 – 315,63 = 347,37, 

а верхняя доверительная граница для дисперсии есть 663,00 + 315,63 = 

978,63.