Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Анализ данных в материаловедении. Часть 2. Регрессионный анализ

Покупка
Артикул: 751047.01.99
Доступ онлайн
2 000 ₽
В корзину
Во второй части пособия рассмотрены практические вопросы регрессионного анализа, включая линейную и нелинейную регрессию, регрессию ортогональными полиномами, множественную регрессию. По всем темам приводятся краткие теоретические сведения и примеры решения реальных задач из металлургии и материаловедения в программе Excel. В пособие включены задания для самостоятельной работы. Предназначено для выполнения курсовых и дипломных исследовательских работ бакалаврами и магистрами, обучающимися по направлениям «Материаловедение» и «Металлургия». Может быть использовано аспирантами в области металлургии и материаловедения.
Мельниченко, А. С. Анализ данных в материаловедении. Часть 2. Регрессионный анализ : учебное пособие / А. С. Мельниченко. - Москва : Изд. Дом МИСиС, 2014. - 87 с. - ISBN 978-5-87623-775-0. - Текст : электронный. - URL: https://znanium.com/catalog/product/1222920 (дата обращения: 16.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
№ 2381         МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
    «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ «МИСиС»

  Кафедра металловедения и физики прочности

  А.С. Мельниченко





                Анализ данных
                в материаловедении




  Часть 2. Регрессионный анализ

  Учебное пособие


  Допущено учебно-методическим объединением по образованию в области металлургии в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлению Металлургия




ИЗДАТЕЛЬСКИЙ ДОМ

Москва 2014

УДК 620.22 М48

Рецензент
канд. техн. наук, доц. С.Н. Богданов




        Мельниченко, А.С.

М48    Анализ данных в материаловедении. Ч. 2. Регрессионный
     анализ : учеб. пособие / А.С. Мельниченко. - М. : Изд. Дом МИСиС, 2014. - 87 с.
        ISBN 978-5-87623-775-0




          Во второй части пособия рассмотрены практические вопросы регрессионного анализа, включая линейную и нелинейную регрессию, регрессию ортогональными полиномами, множественную регрессию. По всем темам приводятся краткие теоретические сведения и примеры решения реальных задач из металлургии и материаловедения в программе Excel. В пособие включены задания для самостоятельной работы.
          Предназначено для выполнения курсовых и дипломных исследовательских работ бакалаврами и магистрами, обучающимися по направлениям «Материаловедение» и «Металлургия». Может быть использовано аспирантами в области металлургии и материаловедения.

УДК 620.22

ISBN 978-5-87623-775-0

© А.С. Мельниченко, 2014

        ОГЛАВЛЕНИЕ


Предисловие...............................................4
6. Регрессионная модель...................................5
   6.1. Метод наименьших квадратов........................5
   6.2. Анализ регрессионной модели.......................6
   6.3. Регрессионный анализ в программе Excel...........11
7. Линейная регрессия....................................13
   7.1. Линейная модель..................................13
   7.2. Общая модель линейной регрессии..................20
   7.3. Регрессия двумя функциями........................28
8. Ортогональные базисные функции........................36
   8.1. Регрессия ортогональными базисными функциями.....36
   8.2. Ортогональные полиномы...........................38
   8.3. Ортогональные тригонометрические функции.........50
9. Нелинейная регрессия..................................59
10. Множественная регрессия..............................71
Библиографический список ................................86

3

        ПРЕДИСЛОВИЕ

  Во второй части учебного пособия рассмотрены практические задачи регрессионного анализа. Цель второй части пособия, как и первой [1], - дать возможность студентам, выполняющим курсовые и дипломные исследовательские работы, проводить регрессионный анализ, используя вычислительные средства Excel и не прибегая к другим программам и статистическим таблицам. Структура второй части пособия аналогична структуре первой части - краткое теоретическое введение и подробный разбор типичных примеров, заимствованных из материаловедческой практики. Более полно с теорией регрессионного анализа можно ознакомиться в учебнике [2] или фундаментальном труде [3].
  Поскольку вторая часть пособия является продолжением первой, нумерация глав в обеих частях - сплошная, а ссылки в тексте на разделы и формулы из первой части даются без указания источника. Во второй части действует то же правило ссылок в формулах: если формула или функция относится к диапазону ячеек, то она приводится только для верхней левой ячейки диапазона, а на остальные ячейки распространяется копированием.

4

6. РЕГРЕССИОННАЯ МОДЕЛЬ


        6.1. Метод наименьших квадратов

   Цель регрессионного анализа - построение по экспериментальным данным аналитической (формульной) зависимости переменной Y - свойства - от независимой переменной X - фактора. Предполагается, что зависимая переменная Y содержит случайную ошибку, причины которой многообразны, например, сам метод измерений, фиксирующий случайный поток импульсов, влияние неучтенных в эксперименте факторов, нестабильность работы измерительных приборов и др. Фактор X изменяется в определенных границах и не является случайным в том смысле, что ошибка его измерения много меньше интервала его варьирования. Зависимость между переменными X и Y (математическая модель) ищется в виде
Y = F (₽о, ₽!,...,₽,, X).            (6.1)


Здесь F - известная функция переменной X, содержащая p +1 неопределенных независимых параметров P₀,p1,...,Pₚ. Эти параметры оцениваются по результатам n (n > p +1) пар наблюдений фактора X и зависимой переменной Y xf,yf (i = 1, 2,..., n) методом наименьших квадратов (МНК).
   МНК оценки параметров P₀,p1,...,Pₚ - значения b₀, b1,..., bₚ, минимизирующие сумму квадратов разностей наблюдаемых значений свойства у. и рассчитанных по модели (6.1) величин Y = F (bo, b1,..., bₚ, x,):

   n
S² =DУ, - Y = i=1

min
Po,-,₽p

ⁿ
     y, - F⁽₽0,₽1,
i=1

²
..., ₽p,x,)]

(6.2)

Уравнение (6.1) называется уравнением регрессии, функция F(Р₀,Р₁, ..., Pₚ, X) - функцией регрессии, а оценки b₀, b1, ..., bₚ -коэффициентами регрессии.
   Если функция регрессии линейна относительно параметров ₽0,₽1,...,₽p:
          F(Р0,Р1,..., pₜ,X) = Р0 +М(X) ₊ ... + Pp/p(X),      (6.3)


5

то регрессия называется линейной. В противном случае - нелинейной. В моделях линейной регрессии все функции f (X), f ₂(X),..., fₚ(X), называемые базисными, полностью определены, а оцениваемые параметры pₒ,p₁,...,pp не являются их аргументами. Такая структура функции регрессии позволяет рассчитать p +1 коэффициент регрессии b₀, b₁, ..., bₚ путем решения системы линейных уравнений независимо от вида базисных функций. В моделях нелинейной регрессии нет единого метода расчета коэффициентов регрессии; в большинстве случаев минимизация суммы S² (6.2) по параметрам Р₀,Р₁,..., Рр проводится численно.


        6.2. Анализ регрессионной модели

  После расчета коэффициентов регрессии b₀,b₁, ..., bₚ проводится анализ качества полученной модели, поскольку даже при наилучших МНК оценках рассчитанные по модели значения Y, = = F(b₀, b₁,..., bₚ, xₜ) могут значительно отличаться от наблюдаемых yₜ, если сама функция регрессии F(Р₀,Р₁, ..., Pₚ, X) выбрана неудачно.
  Используются следующие характеристики качества регрессионной модели:
  Остаточная дисперсия
1 ⁿ
si =  . х,.Е(y,-Y,)².                 <б.4>
                    n - (p +1)


Остаточная дисперсия - дисперсия наблюдений yₜ относительно модели, характеристика разброса наблюдений вокруг модели. Число, стоящее в знаменателе,

vₑ = n - (p + 1)


(6.5)

называется числом степеней свободы (ч.с.с.) остаточной дисперсии. Остаточная дисперсия и остаточное стандартное отклонение


se

1  n
—Е(у, -Y)² n - (p + 1) 5z/


(6.6)

служат для сравнения различных регрессионных моделей и для вычисления других характеристик качества модели.


6

  Множественный коэффициент детерминации


п
Е(Y. - у )²
R² = -^------



(6.7)

  п
Е( у. - уу )² i=1

1 vn^  ....                       .
где среднее у = — } у₁ . Коэффициент R² (0 < R² < 1) характеризу-п^
                  .=1
ет долю суммы квадратов отклонений наблюдений у. от среднего у , объясняемую регрессионной моделью. Коэффициент


R =

п
E(Y - у)²
.=1
п




(6.8)

(Е⁽у‘ -¹}

2

называется множественным коэффициентом корреляции. Это парный коэффициент корреляции между наблюдаемыми у. и предсказанными моделью Y. значениями: R = rᵥY (его также можно рассчитать по (5.4) именно как гуу). Если R² и R близки к единице, то предсказанные величины Y. близки к наблюдаемым у.. Наблюдения у. содержат случайные ошибки. Поэтому модель с высокими R² и R, но малым числом степеней свободы v ₑ, необязательно наилучшая. Кроме функциональной зависимости свойства от фактора, такая модель может описывать и случайные отклонения от нее.
  F-критерий значимости регрессии

F - 7
s:


(6.9)

Здесь sr - средний квадрат отклонений модели от среднего у (средний квадрат, обусловленный регрессией):

   1 п
sr -Р5^YуЛ

(6.10)

Число его степеней свободы

7

vᵣ = p .

(6.11)

Если дисперсия в числителе значимо больше дисперсии в знаменателе F-критерия (6.9), то регрессионная модель описывает наблюдения значимо лучше, чем просто среднее у . По постановке задачи F-критерий (6.9) является односторонним, поэтому риск ошибочного отклонения гипотезы о равенстве дисперсий (уровень значимости критерия) а(F) вычисляется как


ТО

а( F) = J

wF (u)dи ,


(6.12)

F

где wF (и) - плотность распределения Фишера. Если риск (6.12) мал (например, меньше 0,05), то дисперсия S2 значимо больше остаточной дисперсии S2 и регрессия значима.
   Значимость коэффициентов регрессии
   Коэффициенты регрессии b₀, b1, ..., bₚ рассчитываются по результатам эксперимента, содержащим случайные ошибки, поэтому сами являются случайными величинами - оценками некоторых истинных значений. Как и всякие оценки, они могут незначимо отличаться от нуля. Для проверки этого рассчитываются их стандартные ошибки. В моделях линейной регрессии (6.3) эти ошибки

Sbj

CjjSe,

(6.13)

где коэффициенты cF вычисляются в процессе решения системы линейных уравнений для коэффициентов регрессии. Ниже в отдельных случаях приводятся явные выражения для sb .
   Далее вычисляются t-критерии коэффициентов регрессии

bj tj =
Sbj

(6.14)

и риск ошибочного отклонения гипотезы о равенстве нулю коэффициента регрессии (уровень значимости t-критерия) а( tj) (2.5) с ч.с.с. остаточной дисперсии v,,. Если уровень значимости а(tj) превосходит некоторое заданное значение, то коэффициент регрессии bj незначимо отличается от нуля, и его можно приравнять к нулю. Исключение части коэффициентов регрессии упрощает модель, но изменяет саму модель. Поэтому после исключения надо повторить всю процедуру регрессионного анализа с новой моделью.

8

   Анализ остатков. Остатками называются разности между наблюдаемыми yf и рассчитанными по модели Y, значениями зависимой переменной:

е, = У, - Y.

(6.15)

   Метод наименьших квадратов предполагает, что остатки являются нормально распределенными случайными величинами. Если единственная причина отклонения модели от наблюдений - экспериментальный случайный разброс, то и последовательность остатков является случайной. Для проверки этого строится точечный график зависимости остатков е, от значений фактора х,. Точки на графике должны только случайно отклоняться от нулевой линии и располагаться без видимых закономерностей, трендов или периодичностей. Если это не так, то регрессионная модель не полностью описывает зависимость свойства от фактора и является неадекватной.
   Для оценки близости распределения остатков к нормальному распределению строится нормальный вероятностный график. Сначала определяется ранг остатка j (j = 1, 2,..., n) - его номер в упорядоченном по возрастанию ряду остатков, затем по величине ранга j рассчитывается квантиль нормального распределения

W ~1
z (j) =-----
3 j — 1 —
, 3 n + 1, e, ser
ser


(6.16)

где W¹ - обратная функция нормального распределения с выбороч
ным средним остатков

n
е =    eₜ и выборочным стандартным отклоi=1

нением остатков


n

D e, - e )²

1

ser

n

1

(6.17)

i=1


   Далее строится точечный график в координатах е - z. Если распределение остатков близко к нормальному, точки на этом графике группируются около прямой. Если точки систематически отклоняются от прямой (часто в виде буквы 5), то распределение остатков отличается от нормального.

9

   Выбросы. Выбросами среди остатков считаются остатки, значительно превосходящие по абсолютной величине все остальные. В точках выбросов различие между наблюдениями и регрессионной моделью аномально велико. Причинами выбросов могут быть ошибки эксперимента или регистрации и подготовки данных, влияние неучтенных в модели факторов и, как редкое исключение, неизвестные ранее локальные особенности зависимости свойства от фактора. Если остатки распределены нормально, критерием выбросов может служить максимальное относительное отклонение (т.е. стандартизованное значение)
£ ₌ \m - e ,                     (6.18)

где eₘ - максимальный или минимальный остаток. Первоначально подозрительными на выбросы можно считать стандартизованные остатки с, > 2, если число данных n < 5, q> 2,3, если 5 < n < 15 и q> 2,5, если n > 15. Далее следует воспользоваться критерием максимального относительного отклонения (6.18), как это описано в п. 3.2. Исключая наблюдение, признанное выбросом, следует изучить все возможные причины большого отклонения наблюдения от модели, а не только руководствоваться величиной критерия (6.18).

   Влияющие наблюдения. Влияющее наблюдение - пара xi, yi, которая одна вносит непропорционально большой вклад в коэффициенты регрессии. Исключение такого наблюдения из анализа приводит к значительному изменению коэффициентов регрессии. Наличие влияющих наблюдений - недостаток модели. Надежная регрессионная модель не должна слишком сильно зависеть от отдельного наблюдения.
   Влияющими наблюдениями могут оказаться пары xi, yi с крайними значениями фактора, особенно, если эти значения далеки от основной совокупности, т.е. являются выбросами фактора. Для проверки модели на наличие влияющих наблюдений надо поочередно исключить из нее пары с наименьшим и наибольшим значением фактора и повторить регрессионный анализ без них. Если наблюдение не влияющее, то коэффициенты регрессии модели с исключенным наблюдением не должны значительно отличаться от коэффициентов полной модели, а графики обеих функций регрессии должны проходить примерно одинаково.


10

        6.3. Регрессионный анализ в программе Excel

   Программа Excel предлагает несколько функций для расчета параметров регрессионных моделей. Пусть наблюдаемые значения независимой переменной x1, x2,..., xₙ записаны в интервале ячеек А1:Аn, а значения зависимой переменной у1, у2, ..., yₙ - в ячейках В1:В n.
   Функция КВАДРОТКЛ(А1:Аn) рассчитывает сумму квадратов отклонений множества величин x1, x2, ..., xₙ от их среднего x .
   Функция СУММКВРАЗН(А1:А n ;В1:В n) рассчитывает сумму квадратов разностей xₜ - yₜ.
   Функция ОТРЕЗОК(В1:Вn;А1:Аn) вычисляет свободный член b₀ линейной модели Y = b₀ + b1X.
   Функция НАКЛОН(В1:В n ;А1:А n) вычисляет коэффициент b ₁ той же линейной модели.
   Функция СТОШУХ(В1:В n ;А1:А n) рассчитывает остаточное стандартное отклонение sₑ (6.6) линейной модели Y = b₀ + b₁X.
   Функция ПРЕДСКАЗ(х;В1:Вn;А1:Аn) рассчитывает предсказанное линейной моделью Y = b₀ + b1X значение для произвольного аргумента х.
   Функция ЛИНЕЙН вычисляет коэффициенты регрессии b₀, b1, ..., bp общей линейной модели Y = b₀ + b1X1 + b2X₂ +... + bpXp , где X1, X₂, ...,Xp - независимые переменные (в частности, базисные функции f (X), f,(X),..., fp(X) модели (6.3)). Функция ЛИНЕЙН дополнительно вычисляет характеристики модели: остаточное стандартное отклонение sₑ (6.6), ч.с.с. остаточной дисперсии Vₑ (6.5), множественный коэффициент детерминации R² (6.7), F-критерий значимости регрессии (6.9), стандартные ошибки коэффициентов регрессии sb (6.13).
   Функция ЛГРФПРИБЛ вычисляет коэффициенты регрессии b₀,b1, ..., bp экспоненциальной модели Y = b₀b1X ¹ b2² • ...• bₚP, где Xj,X₂, ...,Xp - независимые переменные. Функция ЛГРФПРИБЛ дополнительно вычисляет те же статистические характеристики модели, что и функция ЛИНЕЙН.
   Функция ТЕНДЕНЦИЯ для произвольных значений аргументов рассчитывает предсказание по общей линейной модели Y = b0 + b1 X1 + b2X2 + ... + bpXp .
   Функция РОСТ для произвольных значений аргументов рассчитывает предсказание по экспоненциальной модели Y = b0b1X¹ b2X² • ...• bXp .

11

Доступ онлайн
2 000 ₽
В корзину