Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Методы построения регрессионных моделей

Покупка
Основная коллекция
Артикул: 636904.01.99
Доступ онлайн
38 ₽
32 ₽
В корзину
Лисицин, Д. В. Методы построения регрессионных моделей / Лисицин Д.В. - Новосибирск :НГТУ, 2011. - 76 с.: ISBN 978-5-7782-1621-1. - Текст : электронный. - URL: https://znanium.com/catalog/product/558764 (дата обращения: 20.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.

Министерство образования и науки Российской Федерации
НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ





Д.В. лисицин




МЕТОДЫ ПОСТРОЕНИЯ РЕГРЕССИОННЫХ МОДЕЛЕЙ



Утверждено Редакционно-издательским советом университета в качестве учебного пособия









НОВОСИБИРСК

2011

УДК 519.237(075.8)
     Л 632

Рецензенты: д-р техн. наук, профессор А. А Попов, канд. техн. наук, доцент В. С. Карманов

Работа подготовлена на кафедре прикладной математики для студентов старших курсов, обучающихся по направлению «Прикладная математика и информатика»


            Лисицин Д.В.


Л.632    Методы построения регрессионных моделей : учеб. пособие /
      Д.В. Лисицин. - Новосибирск : Изд-во НГТУ, 2011.-76 с.
          ISBN 978-5-7782-1621-1
          В учебном пособии рассматриваются методы выбора структуры одномерных (однооткликовых) регрессионных моделей и методы построения многомерных (многооткликовых) регрессионных моделей (оценивание параметров, проверка гипотез, выбор структуры). Большое внимание уделяется способам организации эффективных вычислений при переборе структур.
          Пособие предназначено для студентов старших курсов, обучающихся по направлению «Прикладная математика и информатика». Оно будет полезно аспирантам и научным работникам, разрабатывающим или использующим статистические методы анализа данных.

Лисицин Даниил Валерьевич

МЕТОДЫ ПОСТРОЕНИЯ РЕГРЕССИОННЫХ МОДЕЛЕЙ

Учебное пособие

Редактор ИЛ. Кескееич
Выпускающий редактор И.П. Броваиова
Корректор Л.Н. Киншт
Дизайн обложки А.В. Ладыжская Компьютерная верстка В.Н Зенина
   Подписано в печать 30.03.2011. Формат 60x84 1/16. Бумага офсетная. Тираж 70 экз.
     Уч.-изд. л. 4,41. Печ. л. 4,75. Изд. № 32. Заказ №  Цена договорная
Отпечатано в типографии
             Новосибирского государственного технического университета
630092, г. Новосибирск, пр. К. Маркса, 20

УДК519.237(075.8)
ISBN 978-5-7782-1621-1                     © Лисицин Д.В., 2011
© Новосибирский государственный технический университет, 2011

                ВВЕДЕНИЕ




   В условиях большой сложности или недостаточной изученности объекта исследования построение математической модели основывается на концепции «черного ящика», когда исследователь фиксирует отклики, описание или прогноз которых он желает получить, и воздействующие на них факторы, а функция, описывающая механизм воздействия факторов на отклики, неизвестна.
   Часто исследователь может выделить достаточно большое количество факторов, влияющих на отклики. В качестве зависимости часто выбирают полиномиальные модели, количество регрессоров (функций факторов) в которых существенно больше, чем факторов. Однако не все регрессоры одинаково полезны для описания или прогнозирования значений откликов. Какие-то регрессоры являются полезными (информативными), какие-то - нет. Часто регрессоры оказываются взаимозависимыми и в модель достаточно включить только некоторые из них. Кроме того, исключение из модели части взаимозависимых и неинформативных регрессоров может улучшить статистические свойства оценок параметров модели.
   По указанным причинам выбор структуры модели является стандартным этапом в процедуре построения регрессионной модели.
   В учебном пособии главное внимание уделяется методам выбора структуры одномерных (однооткликовых) и многомерных (многооткликовых) регрессионных моделей и способам организации эффективных вычислений при переборе структур. Рассматриваются также методы оценивания параметров и проверки гипотез для многомерных регрессионных моделей. Отдельное внимание обращается на методы, реализованные в системе статистического анализа SAS.

3

                1.          МЕТОДЫ ПОСТРОЕНИЯ ОДНОМЕРНОЙ РЕГРЕССИОННОЙ МОДЕЛИ




            1.1. ПОШАГОВЫЕ МЕТОДЫ ВЫБОРА СТРУКТУРЫ


   Пусть регрессионная модель имеет вид
у = X ■ б + е , N х1 Nх т т х1 N х1
где у - вектор N значений отклика; X - матрица N значений т регрессоров; б = (0₁,...,бт)Т - вектор оцениваемых параметров; е -N -мерный вектор ошибок наблюдений. Ошибки являются некоррелированными одинаково распределенными случайными величинами с нулевым математическим ожиданием и дисперсией о² .
   Средства построения одномерной регрессионной модели имеются, пожалуй, во всех статистических пакетах общего назначения.
   Наиболее распространенными способами выбора структуры модели являются пошаговые методы, состоящие из шагов включения и исключения регрессоров [1, 4, 6, 7, 9, 17]. Выделяют три основных метода: метод включения, метод исключения и пошаговую регрессию.
   Метод исключения подразумевает процедуру последовательного удаления регрессоров из первоначально полной модели. Удаляются регрессоры, в наименьшей степени объясняющие отклик.
   Метод включения подразумевает процедуру последовательного добавления регрессоров в первоначально пустую модель. Добавляются регрессоры, в наибольшей степени объясняющие отклик.
   Под пустой моделью может подразумеваться модель, содержащая аддитивную постоянную. Обычно в статистических пакетах предпола

4

гается, что аддитивная постоянная всегда либо присутствует, либо отсутствует в модели, что пользователь должен специально указать. В дальнейшем будем предполагать, что аддитивная постоянная всегда присутствует в модели.
   Пошаговая регрессия является улучшенным вариантом метода включения. Улучшение состоит в том, что происходит дополнительное исследование на каждой стадии регрессоров, включенных в модель на предыдущих стадиях. Регрессор, который может быть наилучшим отдельным регрессором, достойным введения в модель на ранней стадии, на более поздней стадии может оказаться излишним из-за взаимосвязи между этим и другими регрессорами, содержащимися теперь в модели. В общем случае процедура начинается с произвольной модели и состоит из шагов включения и исключения регрессоров, чередующихся по определенным правилам.
   Выбор включаемого-исключаемого регрессора в пределах шага осуществляется в соответствии с минимумом остаточной суммы квадратов получаемой модели.
   Разные пошаговые методы могут приводить к различным решениям и не обеспечивают нахождение модели с минимальной остаточной суммой квадратов для фиксированного количества регрессоров. Все же часто получаемое решение близко к оптимальному, и поэтому данные методы считаются полезными на практике.
   Решение о включении-исключении регрессора или остановке процесса принимается на основе F -статистики проверки гипотезы о незначимое™ коэффициента, стоящего при этом регрессоре:
н₀:еₖ = 0.

   В предположении нормальности ошибок наблюдений для проверки гипотезы Н₀ используется F -статистика вида
RSSн - RSS
F =------------,
RSS/( N - п)

где п - число регрессоров в модели (включая регрессор при еₖ); RSS - остаточная сумма квадратов модели без ограничения, накладываемого гипотезой, RSSН - остаточная сумма квадратов модели с ограничением, накладываемым гипотезой.

5

   Обозначим g - значение остаточной суммы квадратов для текущей модели в пошаговом методе; h(к) - уменьшение g , вызываемое включением-исключением к -го регрессора (в случае исключения h(к) < 0); р - число регрессоров до включения-исключения регрессора.
   Тогда для случая исключения регрессора модель без ограничения должна перейти в модель с ограничением-.
g = RSS, g -h(к) = RSSн,


откуда

h(к) = RSS - RSSн .


   В результате F -статистика исключения определяется формулой
F„ га₍ к).- h ⁽к > .
                             g/(N - р)


    Для случая включения регрессора модель с ограничением должна перейти в модель без ограничения'.
g = RSS н, g - h (к) = RSS,

откуда

h(к) = RSSн -RSS.


    Как следствие, F -статистика включения определяется формулой

F кл( к ) =-------—-----------[ g - h (к)]/[ N - (р +1)]


(р +1 в знаменателе - количество регрессоров с учетом включенного регрессора Хк).
    Для исключения выбирается регрессор к *, предварительно включенный в модель, который определяется следующим образом:
к * = min[ g - h (к)],
к

или

к * = min[-h (к)], к

6

или
к * = min FHCкл( к).
к
    Согласно логике проверки гипотез гипотеза Н₀ должна приниматься (точнее, не отвергаться), тогда возможно исключать регрессор, поскольку он незначим:
Дкл(к *) < /-,.<,

где F^ - пороговое значение для исключения.
   Если
minFHCю(к) > Ди\ю, к
то все включенные регрессоры значимы, и исключать нечего.
   Для включения выбирается регрессор к *, для которого справедливо
к * = min[ g - h (к)], к
а следовательно,
к * = max h (к) к
И
к * = max КК л (к).
к
    Чтобы включить регрессор, гипотезу о незначимости коэффициента О к необходимо отвергнуть - коэффициент значим, т. е.
Д м(к *) > I,
где Д^д - пороговое значение для включения.
   И если
max FBjjjj ⁽к⁾ < Д К₁, к
то все невключенные регрессоры незначимы и никакой регрессор не может быть включен в модель.

7

   При проверке гипотез величина вычисляемой F -статистики сравнивается с некоторым квантилем F -распределения. Однако в пошаговых методах на каждом шаге происходит выбор оптимального значения FB ₁<л (к *) или FHCм (к *), в связи с чем последние величины не подчиняются F -распределению.
   По этой причине величины Fkj и Fick., мы не называем квантилями. На практике значения Fкл и Fickjt либо выбирают постоянными, либо используют квантили, несмотря на некорректность этого.
   Формализуем набор правил, по которому происходит работа пошагового метода.
   1.     Исключается регрессор, приводящий к наименьшему увеличению остаточной суммы квадратов, если значение его F-статистики исключения ниже установленного порога.
   2.     Включается регрессор, приводящий к наибольшему уменьшению остаточной суммы квадратов, если значение его F-статистики включения не ниже установленного порога.
   3.     Правило 2 выполняется, только когда нет возможности выполнить правило 1. Если ни одно из них не может быть выполнено, наступает остановка.
   Таким образом, преимущество имеет шаг исключения.



            1.2. ОРГАНИЗАЦИЯ ВЫЧИСЛЕНИЙ В ПОШАГОВЫХ МЕТОДАХ


   Рассмотрим организацию вычислений в пошаговых методах [7].
   Определим оператор выметания. Пусть А - квадратная матрица, к -й диагональный элемент которой акк не равен нулю:
акк Ф о.
   Результатом выметания матрицы А по ее к -му диагональному элементу является новая матрица А той же самой размерности с элементами
                 ¹       а1к ~   ак ~          а1к ак/
акк =----, а гк =-,ак/ = , ау = ау----------,
акк      акк      акк            акк
                 гхгх    гхгх      гхгх           гхгх
где i Ф к , j Ф к .


8

    Оператор выметания можно нейтрализовать с помощью обратного оператора выметания, результат действия которого определяется следующим образом:
                1    _     aᵢₖ .      aₖⱼ _          aᵢₖ aₖⱼ
akk =-----,аik =-----, akj =-----, <aij = aij-----,
akk       akk        akk              akk
                tx-lx-     rxrx       Ix-lx-         Ix-lxгде i Ф k , j Ф k.
    Оператор выметания имеет следующие свойства.
    1.    Оператор выметания преобразует симметричные матрицы в симметричные.
    Данное свойство позволяет работать только с верхним (нижним) треугольником матрицы А, что существенно сокращает необходимую память и объем вычислений.
    2.     Результат двух последовательных выметаний не зависит от порядка их выполнения.
    3.    Если для разбиения матрицы на блоки

А11   А12
А21   ⁴ ⁵22


возможно прямое выметание по каждому диагональному элементу квадратной подматрицы А₁₁ в некотором порядке, т. е. если эти элементы не равны нулю, то А₁₁ невырожденна, и результат выметания -матрица А - показан в правой части следующего перехода:

                 А11   А12      ⁻ А11¹      А11¹ А12
                           ——
- А²¹ А²² _|   А21А1/ А22 - А21А1/А12

   4. Если А - положительно определенная матрица, то ее диагональные элементы не равны нулю и остаются отличными от нуля после любой последовательности выметаний.
   Свойство 4 говорит, что требуемые в свойстве 3 выметания определены безотносительно порядка, если только подматрица А₁₁ положительно определена.

   5. Обратно, если разбиваемая матрица А положительно полуопре-делена и требуемое выметание может быть выполнено, то подматрица

9

А₁₁ положительно определена. Более того, подматрица А₂₂ положительно полуопределена.
   6. Если матрица А положительно полуопределена, то диагональный элемент матрицы А в свойстве 3 будет отрицательным тогда и только тогда, когда по этому диагональному элементу произведено выметание.
   Вычисления в пошаговых методах происходят в виде выметаний матрицы

        А11 А12
                                      А21 А22 _


хтх

'
т у у

А =

Т

   Матрица А положительно полуопределена и симметрична.
   Воспользовавшись свойством 3, произведем выметания по диагональным элементам блока ХТХ. Получим
   А = Г “⁽ХТХГ¹         (ХТХ)-¹ ХТ у
       _уТХ(ХТХ)⁻¹ уТу - уТХ(ХТХ)⁻¹ ХТу

--“COV 0 0 о²
   0Т    g

где 0 - оценка по методу наименьших квадратов (МНК-оценка) параметров модели; cov 0 - ковариационная матрица МНК-оценки.
   Таким образом, посредством выметаний получаем МНК-оценку параметров - решение системы нормальных уравнений
ХТХ 0 = ХТу
и основные величины, необходимые для анализа модели.
   В общем случае выметание по к -му диагональному элементу блока Аи включает регрессор в модель, а последующее обратное выметание по этому элементу исключает регрессор из модели.
   В последнем (m +1) -м столбце в строках, соответствующих диагональным элементам, по которым произведены выметания, находятся МНК-оценки параметров, последний элемент столбца есть остаточная сумма квадратов для текущей модели.

10

Доступ онлайн
38 ₽
32 ₽
В корзину