Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета, 2013, №92
Покупка
Основная коллекция
Издательство:
Кубанский государственный аграрный университет
Наименование: Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета
Год издания: 2013
Кол-во страниц: 1246
Дополнительно
Вид издания:
Журнал
Артикул: 641143.0001.99
ББК:
УДК:
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Научный журнал КубГАУ, №92(08), 2013 года http://ej.kubagro.ru/2013/08/pdf/76.pdf УДК 004.942 UDC 004.942 ИСПОЛЬЗОВАНИЕ АППРОКСИМАЦИИ РОЗЕНБЛАТТА-ПАРЗЕНА ДЛЯ ВОССТАНОВЛЕНИЯ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ НЕПРЕРЫВНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ С ОГРАНИЧЕННЫМ ОДНОМОДАЛЬНЫМ ЗАКОНОМ РАСПРЕДЕЛЕНИЯ USING ROZENBLATT-PARZEN APPROXIMAION FOR RECOVERING A CUMULATIVE DISTRIBUTION FUNCTION OF CONTINUOUS RANDOM VARIABLE WITH A BOUNDED SINGLE-MODE DISTRIBUTION RULE Поршнев Сергей Владимирович д.т.н., профессор Porshnev Sergey Vladimirovich Dr.Sc.(Tech.), Prof. Копосов Александр Сергеевич аспирант Koposov Alexander Sergeevich Postgraduate student Уральский федеральный университет имени первого Президента России Б.Н. Ельцина, Екатеринбург Ural Federal University named after the first President of Russia B.N. Yeltsin, Ekaterinburg В статье изложены результаты сравнительного анализа погрешностей аппроксимации функции распределения непрерывной случайной величины с ограниченной областью, вычисляемого методом Парзена-Розенблата и методом мнимых источников, полученные при их сравнении теоретическим законом распределения, и обоснована целесообразность использования в рассматриваемой задаче метода мнимых источников In this report we have compared an approximation accuracy of distribution function of continuous random variable in a bounded region calculated with Rozenblatt-Parzen method and imaginary sources method. The comparison has been performed with theoretical distribution rule. We have explained the reasonability of using imaginary sources method in case of continuous random variable with single-mode distribution rule Ключевые слова: НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА, ВОССТАНОВЛЕНИЕ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ, АППРОКСИМАЦИЯ РОЗЕНБЛАТТА-ПАРЗЕНА, ПАРАМЕТР РАЗМЫТОСТИ, МЕТОД МНИМЫХ ИСТОЧНИКОВ Keywords: NON-PARAMETRIC STATISTICS, DISTRIBUTION FUNCTION RECOVERY, PARZEN-ROZENBLATT APPROXIMATION, FUZZINESS PARAMETER, IMAGINARY SOURCES METHOD 1. Введение Восстановление функции распределения по выборке случайных данных, полученных в результате проведения тех или иных экспериментов, является основной задачей математической статистики [1]. Данная задача имеет важное практическое значение, например, при решении задач прочностной надежности элементов и объектов нефтегазового оборудования [2]. Данная задача имеет следующую постановку: по экспериментальной выборке, полученной из
Научный журнал КубГАУ, №92(08), 2013 года http://ej.kubagro.ru/2013/08/pdf/76.pdf генеральной совокупности значений случайной величины , 1, , i X i N найти функцию распределения Pr F y X y , связанную с плотностью распределения ( ) f y интегральным соотношением ( ) ( ) , y F y f d (1) Известны два основных подхода к решению этой задачи: параметрический и непараметрический. Параметрический подход предусматривает выбор на основе имеющейся априорной информации вида функции распределения случайной величины F y , зависящей в общем случае от некоторого набора параметров, и получении оценок значений этих параметров по имеющейся выборке данных. При этом искомые оценки значений параметров должны обеспечивать максимальную близость теоретической функции распределения F y и эмпирической функций распределения 1 1 , N N i i F y y x N (2) где функция Хэвисайда 1, при 0, 0, при 0, i i i y x y x y x в соответствие с выбранной мерой близости, зависящей, вообще говоря, от вида распределения [3]. Существование решения обсуждаемой задачи обеспечивает центральная
Научный журнал КубГАУ, №92(08), 2013 года http://ej.kubagro.ru/2013/08/pdf/76.pdf теорема математической статистики, согласно которой с ростом объема выборки N функция N F y с вероятностью, равной единице, равномерно приближается к F y : Pr limsup 0 1. N N F y F y В основе непараметрической статистики лежит подход, позволяющий получать адаптивные оценки эмпирических распределений в виде некоторых функционалов, независящих от вида неизвестного априорного распределения [6]. Для восстановления неизвестной функции распределения в непараметрической статистике известен ряд методов и алгоритмов [6]: метод гистограмм, «гребенка», метод ближайших соседей, метод разложения по базисным функциям, аппроксимация Розенблатта-Парзена и ряд других. Работоспособность методов непараметрической статистики и целесообразность их применения при анализе экспериментальных данных подтверждается результатами, полученными различными исследователями (см., например, список литературы к разделу «Введение» в [6]). Отметим, что аппроксимация Розенблатта-Парзена, как показано в [2], что оказывается эффективной в задаче оценки долговечности нефте- и газопроводов на основе анализа накопленной статистической информации. При этом оказывается, что распределение экспериментальных данных, представляющих собой выборку из генеральной совокупности случайной величины, закон распределения которой не может быть описан ни одним из известных теоретических законов. Напомним, следуя [6], что обсуждаемый метод восстановления плотности распределения экспериментальной выборки основан на предположении о том, что
Научный журнал КубГАУ, №92(08), 2013 года http://ej.kubagro.ru/2013/08/pdf/76.pdf функция плотности распределения оценивается локально в каждой точке ix с помощью элементов обучающей выборки из некоторой окрестности ix . При этом общая функция вероятности F y есть сумма локальных функций 1 1 , N i i y x F y K N h (3) где ( ), i K t t y x h – ядерная функция, удовлетворяющая следующим условиям: а) ( ) K t монотонно неубывающая функция, область значений которой принадлежит интервалу 0,1 ; б) 1 K t K t функция, симметричная относительно 0; в) 0 N h при ; N h – параметр «размытости», определяющий гладкость получаемой оценки. Соответственно, плотности вероятности ( ) f y вычисляется по формуле 1 1 , N i i y x f y k N h h (4) где . d k y K y dy Оценки плотности вероятности (4) предложены Розенблаттом [7] и исследованы Парзеном [8]. На практике наиболее часто в качестве ядерных
Научный журнал КубГАУ, №92(08), 2013 года http://ej.kubagro.ru/2013/08/pdf/76.pdf функций k y используются функции, представленные в таблице 1 [2]. Таблица 1. Ядерные функции, наиболее часто используемые на практике № Ядро Формула 1 Нормальное 2 2 1 ( ) 2 t k t e 2 Лапласа 1 ( ) 2 t k t e 3 Фишера sin 1 2 ( ) , 2 2 2 t t k t t 4 Коши 2 1 1 ( ) 1 k t t 5 Логистическое 2 ( ) 1 t t e k t e 6 Епанечникова 2 3 1 5 ( ) , 5 4 5 t k t t 7 Равномерное 1 ( ) , 1 2 k t t 8 Треугольное ( ) 1 , 1 k t t t 9 Квадратичное 2 3 1 ( ) , 1 4 t k t t Оптимальные значения ядерной функции и параметра h находятся из условия достижения функционалом ln ( ) ( ) J k t f t dt (5)
Научный журнал КубГАУ, №92(08), 2013 года http://ej.kubagro.ru/2013/08/pdf/76.pdf максимального значения, которое, как очевидно, выполняется при ( ) ( ) k t f t . При анализе экспериментальных данных, представляющих собой некоторую дискретную случайную последовательность , 1, , ix i N в [2] рекомендовано находить оптимальное значения параметра «размытости» в два этапа. На первом этапе для каждой из ядерных функций, представленных в табл. 1, находить значения * , 1,9 m h m из условия 1 * 1 1 1 argmax ln , 1 N N i j m m i j i m m x x h k N N h h (6) и далее выбирать ту ядерную функцию m k y , для которой значение функции 1 1 1 1 ln 1 N N i j m m i j i m m x x h k N N h h (7) в точке * m m h h будет наибольшим. При этом качество аппроксимации функции распределения в рассматриваемом методе оказывается зависящим от вида ядерной функции ( ) k t и значения параметра размытости h [6], что иллюстрирует рис. 1. Рисунок 1 Плотность распределения случайной последовательности
Научный журнал КубГАУ, №92(08), 2013 года http://ej.kubagro.ru/2013/08/pdf/76.pdf , 1,100 ix i , сгенерированной в соответствие с нормальным законом распределения 1,4 N :1 гистограмма случайной последовательности; 2 нормальное ядро, * 1 h h , где * 1h пока не определено; 3 нормальное ядро, * 1 h h * 1 h h , где * 1h пока не определено; 4 нормальное ядро, * 1 h h * 1 h h , где * 1h пока не определено. Отметим, что формально метод Розенблатта-Парзена позволяет, построить аппроксимацию функции распределения любой конечной случайной последовательности, которая при условии правильного выбора параметра h, оказывается достаточно гладкой (см. [6]). При , 0 N N h оценка (3) является непараметрической и асимптотически оптимальной оценкой функции распределения в классе непрерывных функций [6]. Однако на практике случайные последовательности , 1, , i X i N для которых ищется функция распределения, имеют конечную длину. В этой ситуации метод Розенблатта-Парзена, вообще говоря, не гарантирует близости аппроксимирующей функции, найденной с его помощью, и истинной функции распределения. В этой связи представляет практический интерес провести анализ точности восстановления методом Розенблатта-Парзена функции распределения случайных последовательностей конечной длины, теоретический закон распределения которых известен. В статье изложены результаты анализа точности восстановления функции распределения случайной величины с ограниченной областью рассеяния, основные свойства которой описаны в [3], методом Розенблатта-Парзена [7,8] и методом мнимых источников, в котором параметры аппроксимирующей функции находятся с помощью генетических алгоритмов [9]. 2. Методика исследования Для анализа точности восстановления функции распределения случайной величины с ограниченной областью выбранными методами мы использовали методику, реализующуюся следующей последовательностью действий.
Научный журнал КубГАУ, №92(08), 2013 года http://ej.kubagro.ru/2013/08/pdf/76.pdf 1. В соответствие с заданным законом распределения случайной величины с ограниченной областью рассеяния min 0 0 ; , , ; , , , x teor teor x F x x l f x l d где: 2 1 2 0 0 0 0 0 1 ; , , ; , , ; , , ; , , , n n LIM n n f x x l A x x l x x l x x l х0 – положение центра рассеяния в системе координат с началом в центре отрезка min max , x x , − СКО случайного процесса при отсутствии ограничения, max min l x x – размаха области рассеяния, А – нормировочный коэффициент, определяемый из условия: max min 0 ; , , 1, x teor x f x l d 2 2 0 0 ; , , exp 2 , x x l x x 2 1 2 2 0 2 1 ; , , exp 2 , n n x x l x x 2 2 2 0 2 ; , , exp 2 , n n x x l x x здесь 2 1 2 , n n x x вычисляются в по формулам: 2 0 2 1 0 4 , 4 2 , n n x nl x x n l x генерировались методом обратного преобразования (см., например, [2]) случайные последовательности , ix 1, i N . 2. Далее для каждой последовательности ix находились эмпирические оценки функций распределения и плотностей распределения методом
Научный журнал КубГАУ, №92(08), 2013 года http://ej.kubagro.ru/2013/08/pdf/76.pdf Розенблатта-Парзена ( RP F x и RP f x , соответственно) и методом мнимых источников ( IMS F x и RP f x , соответственно), которые сравнивались далее с известными теоретическими функциями распределения Teor F x и плотностью распределения teor f x . Для реализации описанной выше методики в пакете MATLAB было создано соответствующее программное обеспечение. 3. Анализ качества аппроксимации функции распределения случайной последовательности методом Парзена-Розенблатта Рассмотрим типичные результаты, полученные для следующих параметров блуждания: − количество элементов в случайной последовательности 1000; N − размер области рассеяния [ 5;5]; − координаты центра распределения [ 5, 2.5,0,2.5,5]; − СКО случайной величины [1,3,5,7,10], представленные на рис. 2, 3. б)
Научный журнал КубГАУ, №92(08), 2013 года http://ej.kubagro.ru/2013/08/pdf/76.pdf a) в) Рис. 2. Результаты аппроксимации плотности функции распределения случайной последовательности ix : а) 0, 1 ; б) 2.5, ; 1, в) 5, 1 ; 1 – ; teor f x 2 – , RP f x ядерная функция № 5, №2, №1 (см. табл. 1), соответственно; 3 – IMS f x a) б) в) Рис. 3. Результаты аппроксимации плотности распределения случайной последовательности ix : а) 0, 5 ; б) 2.5, 5 ; в) 5, 5 ;1 – ; teor f x 2 – , RP f x ядерная функция №3, №1, №3 (см. табл. 1), соответственно; 3 – IMS f x В качестве количественной меры отличия эмпирических функций