Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета, 2013, №92

Покупка
Основная коллекция
Артикул: 641143.0001.99
Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета, 2013, вып. №92: Журнал - Краснод.:КубГАУ, 2013. - 1246 с.:. - Текст : электронный. - URL: https://znanium.com/catalog/product/635287 (дата обращения: 23.05.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Научный журнал КубГАУ, №92(08), 2013 года

http://ej.kubagro.ru/2013/08/pdf/76.pdf

УДК 004.942
UDC 004.942

ИСПОЛЬЗОВАНИЕ АППРОКСИМАЦИИ
РОЗЕНБЛАТТА-ПАРЗЕНА ДЛЯ
ВОССТАНОВЛЕНИЯ ФУНКЦИИ
РАСПРЕДЕЛЕНИЯ НЕПРЕРЫВНОЙ
СЛУЧАЙНОЙ ВЕЛИЧИНЫ С
ОГРАНИЧЕННЫМ ОДНОМОДАЛЬНЫМ
ЗАКОНОМ РАСПРЕДЕЛЕНИЯ

USING ROZENBLATT-PARZEN
APPROXIMAION FOR RECOVERING A
CUMULATIVE DISTRIBUTION FUNCTION OF
CONTINUOUS RANDOM VARIABLE WITH A
BOUNDED SINGLE-MODE DISTRIBUTION
RULE

Поршнев Сергей Владимирович
д.т.н., профессор 

Porshnev Sergey Vladimirovich
Dr.Sc.(Tech.), Prof.

Копосов Александр Сергеевич
аспирант

Koposov Alexander Sergeevich
Postgraduate student

Уральский федеральный университет имени
первого Президента России Б.Н. Ельцина,
Екатеринбург

Ural Federal University named after the first President
of Russia B.N. Yeltsin, Ekaterinburg

В статье изложены результаты сравнительного
анализа погрешностей аппроксимации функции
распределения непрерывной случайной величины с
ограниченной областью, вычисляемого методом
Парзена-Розенблата и методом мнимых
источников, полученные при их сравнении
теоретическим законом распределения, и
обоснована целесообразность использования в
рассматриваемой задаче метода мнимых
источников

In this report we have compared an approximation
accuracy of distribution function of continuous random
variable in a bounded region calculated with
Rozenblatt-Parzen method and imaginary sources
method. The comparison has been performed with
theoretical distribution rule. We have explained the
reasonability of using imaginary sources method in
case of continuous random variable with single-mode
distribution rule

Ключевые слова: НЕПАРАМЕТРИЧЕСКАЯ
СТАТИСТИКА, ВОССТАНОВЛЕНИЕ ФУНКЦИИ
РАСПРЕДЕЛЕНИЯ, АППРОКСИМАЦИЯ
РОЗЕНБЛАТТА-ПАРЗЕНА, ПАРАМЕТР
РАЗМЫТОСТИ, МЕТОД МНИМЫХ
ИСТОЧНИКОВ

Keywords: NON-PARAMETRIC STATISTICS,
DISTRIBUTION FUNCTION RECOVERY,
PARZEN-ROZENBLATT APPROXIMATION,
FUZZINESS PARAMETER, IMAGINARY
SOURCES METHOD

1. Введение

Восстановление  функции  распределения  по  выборке  случайных  данных,

полученных  в  результате  проведения  тех  или  иных  экспериментов,  является

основной  задачей  математической  статистики  [1].  Данная  задача  имеет  важное

практическое  значение,  например,  при  решении  задач  прочностной  надежности

элементов  и  объектов  нефтегазового  оборудования  [2].  Данная  задача  имеет

следующую
 постановку:
 по
 экспериментальной
 выборке,
 полученной
 из

Научный журнал КубГАУ, №92(08), 2013 года

http://ej.kubagro.ru/2013/08/pdf/76.pdf

генеральной  совокупности  значений  случайной  величины  
,
1,
,
i
X i
N

 найти

функцию распределения 
 


Pr
F y
X
y


, связанную с плотностью распределения

( )
f y  интегральным соотношением

( )
( )
,

y

F y
f
d







(1)

Известны два основных подхода к решению этой задачи: параметрический и

непараметрический.  Параметрический  подход  предусматривает  выбор  на  основе

имеющейся  априорной  информации  вида  функции  распределения  случайной

величины  
 
F y ,  зависящей  в  общем  случае  от  некоторого  набора  параметров,  и

получении оценок значений этих параметров по имеющейся выборке данных. При

этом  искомые  оценки  значений  параметров  должны  обеспечивать  максимальную

близость  теоретической  функции  распределения  
 
F y
 и  эмпирической  функций

распределения

 



1

1
,

N

N
i

i

F
y
y
x
N






(2)

где функция Хэвисайда




1, при
0,

0, при
0,

i

i

i

y
x
y
x
y
x






 




в  соответствие  с  выбранной  мерой  близости,  зависящей,  вообще  говоря,  от  вида

распределения [3]. 

Существование  решения  обсуждаемой  задачи  обеспечивает  центральная

Научный журнал КубГАУ, №92(08), 2013 года

http://ej.kubagro.ru/2013/08/pdf/76.pdf

теорема математической статистики, согласно которой с ростом объема выборки N

функция 
 
N
F
y  с вероятностью, равной единице, равномерно приближается к 
 
F y

:

 
 


Pr limsup
0
1.
N
N
F
y
F y






В  основе  непараметрической  статистики  лежит  подход,  позволяющий

получать  адаптивные  оценки  эмпирических  распределений  в  виде  некоторых

функционалов,  независящих  от  вида  неизвестного  априорного  распределения  [6].

Для  восстановления  неизвестной  функции  распределения  в  непараметрической

статистике известен ряд методов и алгоритмов [6]: метод гистограмм, «гребенка»,

метод
 ближайших
 соседей,
 метод
 разложения
 по
 базисным
 функциям,

аппроксимация Розенблатта-Парзена и ряд других. 

Работоспособность
 методов
 непараметрической
 статистики
 и

целесообразность  их  применения  при  анализе  экспериментальных  данных

подтверждается  результатами,  полученными  различными  исследователями  (см.,

например,  список  литературы  к  разделу  «Введение»  в  [6]).  Отметим,  что

аппроксимация  Розенблатта-Парзена,  как  
 показано  в  [2],  что  оказывается

эффективной  в  задаче  оценки  долговечности  нефте-  и  газопроводов  на  основе

анализа  накопленной  статистической  информации.  При  этом  оказывается,  что

распределение  экспериментальных  данных,  представляющих  собой  выборку  из

генеральной  совокупности  случайной  величины,  закон  распределения  которой  не

может быть описан ни одним из известных теоретических законов.

Напомним,  следуя  [6],  что  обсуждаемый  метод  восстановления  плотности

распределения экспериментальной выборки основан на  предположении о том, что

Научный журнал КубГАУ, №92(08), 2013 года

http://ej.kubagro.ru/2013/08/pdf/76.pdf

функция  плотности  распределения  оценивается  локально  в  каждой  точке  
ix  с

помощью элементов обучающей выборки из некоторой окрестности 
ix . При этом

общая функция вероятности 
 
F y  есть сумма локальных функций 

 

1

1
,

N

i

i

y
x
F y
K
N
h











(3)

где 


( ),
i
K t
t
y
x
h


 – ядерная функция, удовлетворяющая следующим условиям:

а)  
( )
K t   монотонно  неубывающая  функция,  область  значений  которой

принадлежит интервалу 

0,1 ;

б) 
 
 
1
K t
K t
 
 функция, симметричная относительно 0;

в) 
0
N
h 
 при 
;
N  

h  – параметр «размытости», определяющий гладкость получаемой оценки.

Соответственно, плотности вероятности 
( )
f y  вычисляется по формуле

 

1

1
,

N

i

i

y
x
f
y
k
N h
h












(4)

где

 
 .
d
k y
K y
dy


Оценки  плотности  вероятности  (4)  предложены  Розенблаттом  [7]  и

исследованы  Парзеном  [8].  На  практике  наиболее  часто  в  качестве  ядерных

Научный журнал КубГАУ, №92(08), 2013 года

http://ej.kubagro.ru/2013/08/pdf/76.pdf

функций 
 
k y используются функции, представленные в таблице 1 [2]. 

Таблица 1. Ядерные функции, наиболее часто используемые на практике

№
Ядро
Формула

1
Нормальное

2

2
1
( )

2

t

k t
e





2
Лапласа
1
( )
2

t
k t
e




3
Фишера

sin
1
2
( )
,
2
2

2

t

t
k t
t














 







4
Коши
2

1
1
( )
1
k t
t











5
Логистическое



2
( )

1

t

t

e
k t

e







6
Епанечникова

2

3
1
5
( )
,
5

4 5

t

k t
t












7
Равномерное
1
( )
,
1
2
k t
t



8
Треугольное
( )
1
,
1
k t
t
t
 


9
Квадратичное



2
3 1

( )
,
1
4

t

k t
t






Оптимальные значения ядерной функции и параметра h находятся из условия
достижения функционалом

ln ( )
( )
J
k t
f t dt



(5)

Научный журнал КубГАУ, №92(08), 2013 года

http://ej.kubagro.ru/2013/08/pdf/76.pdf

максимального значения, которое, как очевидно, выполняется при 
( )
( )
k t
f t

. 

При анализе экспериментальных данных, представляющих собой некоторую

дискретную  случайную  последовательность   ,
1,
,
ix
i
N

 в  [2]  рекомендовано
находить  оптимальное  значения  параметра  «размытости»  в  два  этапа.  На  первом
этапе  для  каждой  из  ядерных  функций,  представленных  в   табл.  1,  находить

значения 

* ,
1,9
m
h
m 

 из условия




1

*

1

1
1
argmax
ln
,
1

N
N

i
j

m
m

i
j i
m
m

x
x
h
k
N
N
h
h


































(6)

и далее выбирать ту ядерную функцию 
 
m
k
y , для которой значение функции 






1

1

1
1
ln
1

N
N

i
j

m
m

i
j i
m
m

x
x
h
k
N
N
h
h

























(7)

в точке 

*

m
m
h
h

 будет наибольшим.

При
 этом
 качество
 аппроксимации
 функции
 распределения
 в

рассматриваемом методе оказывается зависящим от вида ядерной функции 
( )
k t  и

значения параметра размытости h  [6], что иллюстрирует рис. 1. 

Рисунок 1  Плотность распределения случайной последовательности

Научный журнал КубГАУ, №92(08), 2013 года

http://ej.kubagro.ru/2013/08/pdf/76.pdf

,
1,100
ix i 
, сгенерированной в соответствие с нормальным законом распределения



1,4
N
:1  гистограмма случайной последовательности; 2  нормальное ядро, 

*
1
h
h


, где 

*
1h  пока не определено; 3  нормальное ядро, 

*
1
h
h

*
1
h
h

, где 

*
1h  пока не

определено; 4  нормальное ядро, 

*
1
h
h

*
1
h
h

, где 

*
1h   пока не определено.

Отметим,  что  формально  метод  Розенблатта-Парзена  позволяет,  построить
аппроксимацию
 функции
 распределения
 любой
 конечной
 случайной
последовательности,  которая  при  условии  правильного  выбора  параметра  h,

оказывается  достаточно  гладкой  (см.  [6]).  При  
,
0
N
N
h
 

оценка  (3)  является
непараметрической
 и
 асимптотически
 оптимальной
 оценкой
 функции
распределения в классе непрерывных функций [6]. Однако на практике случайные

последовательности 
,
1,
,
i
X i
N


 для которых ищется функция распределения, имеют

конечную  длину.  В этой  ситуации  метод  Розенблатта-Парзена,  вообще  говоря,  не
гарантирует  близости  аппроксимирующей  функции,  найденной  с  его  помощью,  и
истинной функции распределения. В этой связи представляет практический интерес
провести  анализ  точности  восстановления  методом  Розенблатта-Парзена  функции
распределения  случайных  последовательностей  конечной  длины,  теоретический
закон распределения которых известен.

В  статье  изложены  результаты  анализа  точности  восстановления  функции
распределения случайной величины с ограниченной областью рассеяния, основные
свойства  которой  описаны  в  [3],  методом  Розенблатта-Парзена  [7,8]  и  методом
мнимых источников, в котором параметры аппроксимирующей функции находятся
с помощью генетических алгоритмов [9].

2. Методика исследования

Для  анализа  точности  восстановления  функции  распределения  случайной
величины  с  ограниченной  областью  выбранными  методами  мы  использовали
методику, реализующуюся следующей последовательностью действий.

Научный журнал КубГАУ, №92(08), 2013 года

http://ej.kubagro.ru/2013/08/pdf/76.pdf

1. В соответствие с заданным законом распределения случайной величины с
ограниченной областью рассеяния






min

0
0
;
, ,
;
, ,
,

x

teor
teor

x

F
x x
l
f
x
l d







где:










2
1
2
0
0
0
0

0
1

;
, ,
;
, ,
;
, ,
;
, ,
,

n
n
LIM

n
n

f
x x
l
A
x x
l
x x
l
x x
l






























х0  –  положение  центра  рассеяния  в  системе  координат  с  началом  в  центре

отрезка 

min
max
,
x
x
, 

 − СКО случайного процесса при отсутствии ограничения, 

max
min
l
x
x


 – размаха области рассеяния, 

А – нормировочный коэффициент, определяемый из условия:




max

min

0
;
, ,
1,

x

teor

x

f
x
l d


 







2
2

0
0
;
, ,
exp
2
,
x x
l
x
x















2
1

2
2

0
2
1
;
, ,
exp
2
,

n
n
x x
l
x
x























2

2
2

0
2
;
, ,
exp
2
,

n
n
x x
l
x
x















здесь 
2
1
2
,
n
n
x
x



 вычисляются в по формулам:



2
0
2
1
0
4
,
4
2
,
n
n
x
nl
x
x
n
l
x



 

 



генерировались методом обратного преобразования (см., например, [2]) случайные

последовательности  ,
ix
1,
i
N

.

2.  Далее  для  каждой  последовательности   
ix находились  эмпирические
оценки
 функций
 распределения
 и
 плотностей
 распределения
 методом

Научный журнал КубГАУ, №92(08), 2013 года

http://ej.kubagro.ru/2013/08/pdf/76.pdf

Розенблатта-Парзена  (
 
RP
F
x
 и  
 
RP
f
x ,  соответственно)  и  методом  мнимых

источников  (
 
IMS
F
x
 и  
 
RP
f
x ,  соответственно),  которые  сравнивались  далее  с

известными  теоретическими  функциями  распределения  
 
Teor
F
x
 и  плотностью

распределения 
 
teor
f
x .

Для реализации описанной выше методики в пакете MATLAB было создано
соответствующее программное обеспечение.

3. Анализ  качества  аппроксимации  функции  распределения

случайной последовательности методом Парзена-Розенблатта

Рассмотрим  типичные  результаты,  полученные  для  следующих  параметров
блуждания:

− количество элементов в случайной последовательности 
1000;
N 

− размер области рассеяния [ 5;5];


− координаты центра распределения 
[ 5, 2.5,0,2.5,5];
   

− СКО случайной величины 
[1,3,5,7,10],
 

представленные на рис. 2, 3.

б)

Научный журнал КубГАУ, №92(08), 2013 года

http://ej.kubagro.ru/2013/08/pdf/76.pdf

a)

в)

Рис. 2. Результаты аппроксимации плотности
функции распределения случайной

последовательности  
ix
:  а) 
0,
1
 
 
; б)

2.5,
 
;
1,
 
в) 
5,
1
 
 
; 1 –

 ;
teor
f
x
 2 – 
 ,
RP
f
x
 ядерная функция № 5,
№2, №1 (см. табл. 1), соответственно; 3 –

 
IMS
f
x

a)
б)

в)

Рис. 3. Результаты аппроксимации плотности
распределения случайной

последовательности  
ix
:    а) 
0,
5
 
 

; б) 
2.5,
5
 
 
; в) 
5,
5
 
 
;1 –

 ;
teor
f
x
 2 – 
 ,
RP
f
x
 ядерная функция
№3, №1, №3 (см. табл. 1), соответственно; 3 

– 
 
IMS
f
x

В
 качестве
 количественной
 меры
 отличия
 эмпирических
 функций