Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Математическая статистика и анализ данных

Покупка
Артикул: 751101.01.99
Доступ онлайн
2 000 ₽
В корзину
В пособии рассмотрены практические задачи, которые часто встречаются в практике анализа материаловедческих данных: описательная статистика, проверка вида распределения, сравнение средних и дисперсий, построение и анализ диаграммы рассеяния и расчет парного коэффициента корреляции. Каждый раздел содержит краткое теоретическое введение, задание для самостоятельного решения, порядок выполнения задания.
Мельниченко, А. С. Математическая статистика и анализ данных : учебное пособие / А. С. Мельниченко. - Москва : Изд. Дом НИТУ «МИСиС», 2018. - 45 с. - ISBN 978-5-906953-62-9. - Текст : электронный. - URL: https://znanium.com/catalog/product/1223186 (дата обращения: 11.05.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Москва  2018

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ 

ВЫСШЕГО ОБРАЗОВАНИЯ 

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ «МИСиС»

ИНСТИТУТ НОВЫХ МАТЕРИАЛОВ И НАНОТЕХНОЛОГИЙ

Кафедра металловедения и физики прочности

А.С. Мельниченко

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА 
И АНАЛИЗ ДАННЫХ

Учебное пособие

Рекомендовано редакционно-издательским
советом университета

№ 3431

УДК 519.2 
 
М48

Р е ц е н з е н т 

канд. физ.-мат. наук, доц. В.Л. Столяров

Мельниченко А.С.

М48  
Математическая статистика и анализ данных : учеб. посо
бие / А.С. Мельниченко. – М. : Изд. Дом НИТУ «МИСиС», 2018. 
45 с.

ISBN 978-5-906953-62-9

В пособии рассмотрены практические задачи, которые часто встречают
ся в практике анализа материаловедческих данных: описательная статистика, 
проверка вида распределения, сравнение средних и дисперсий, построение 
и анализ диаграммы рассеяния и расчет парного коэффициента корреляции. 
Каждый раздел содержит краткое теоретическое введение, задание для самостоятельного решения, порядок выполнения задания.

УДК 519.2

 А.С. Мельниченко, 2018

ISBN 978-5-906953-62-9
 НИТУ «МИСиС», 2018

СОДЕРЖАНИЕ

ПРЕДИСЛОВИЕ .......................................................................................4
1. ПЕРВИЧНЫЙ АНАЛИЗ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ ....5

1.1. Теоретическое введение ................................................................... 5
1.2. Задание ............................................................................................. 15
1.3. Порядок выполнения задания ........................................................ 15

2. СРАВНЕНИЕ СРЕДНИХ И ДИСПЕРСИЙ ......................................20

2.1. Теоретическое введение  ................................................................ 20
2.2. Задание ............................................................................................. 25
2.3. Порядок выполнения задания ........................................................ 26

3. ПАРНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ И ЭЛЛИПС 
РАССЕЯНИЯ ...........................................................................................30

3.1. Теоретическое введение ................................................................. 30
3.2. Задание ............................................................................................. 33
3.3. Порядок выполнения задания ........................................................ 34

БИБЛИОГРАФИЧЕСКИЙ СПИСОК ....................................................36
Приложение  ............................................................................................37

Таблица П1. Процентные точки t-распределения Стьюдента .......... 37
Таблица П2. Функция нормального распределения .......................... 38
Таблица П3. Процентные точки c2 распределения Пирсона ............ 40
Таблица П4. Процентные точки F-распределения  ............................ 41
Таблица П5. Процентные точки распределения выборочного 
парного коэффициента корреляции ..................................................... 44

ПРЕДИСЛОВИЕ

В данном пособии рассматриваются вопросы анализа данных, ко
торые по опыту кафедры металловедения и физики прочности наиболее часто встречаются в курсовых и дипломных работах студентов. 
Это описательная статистика, проверка нормальности распределения, 
сравнение средних и дисперсий, дисперсионный анализ, построение 
и анализ диаграмм рассеяния и расчет парного коэффициента корреляции. Каждой теме предпослано краткое теоретическое введение, 
цель которого – напомнить теоретические основы применяемого 
метода. Более подробно и глубоко с теорией можно ознакомиться в 
изданиях [1–4]. Далее следует задание для самостоятельной работы 
и порядок выполнения задания с необходимыми расчетными формулами. Пособие не ориентировано на использование конкретных компьютерных программ, поэтому разделы «порядок выполнения задания» изложены с детализацией, достаточной для проведения расчетов 
на калькуляторе, а в приложении имеются все необходимые таблицы 
[5]. В то же время применение любых компьютерных средств приветствуется.

Пособие предназначено для студентов, обучающихся в бакалав
риате по направлению подготовки 22.03.01 «Материаловедение и 
технологии материалов», профилю «Металловедение и термическая 
обработка металлов». Может быть использовано бакалаврами и магистрами других направлений.

1. ПЕРВИЧНЫЙ АНАЛИЗ 

ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

1.1. Теоретическое введение

Характеристики случайной величины

Результаты эксперимента или производственного контроля не яв
ляются полностью предсказуемыми, даже если известны значения 
всех факторов. В результатах всегда присутствует элемент неопределенности. С точки зрения теории вероятностей результат эксперимента или контроля является случайным событием, а сам эксперимент 
или производственный контроль – статистическим испытанием. Если 
случайное событие выражается числом, то такое число считается случайной величиной. Случайный – не означает «какой угодно». Каждое 
случайное событие Х происходит с некоторой вероятностью Р(Х).

Если регистрируемая в эксперименте случайная величина Х мо
жет (по крайней мере, теоретически) принимать любое произвольное 
значение на отрезке или числовой оси, то она называется непрерывной. Число возможных значений непрерывной случайной величины 
несчетно. Поэтому вероятность принять какое-либо конкретное значение х равна нулю: 
(
)
0
P X
x
=
=
 или 
( )
0
P x =
. Вместо этой вероят
ности можно определить вероятность попадания непрерывной случайной величины Х в интервал 
1
2
( ;
]
x x
:

 

2

1

1
2
(
)
( )d

x

x
P x
X
x
w x
x
<
≤
= ∫
.  
(1.1)

Функция 
( )
w x  (рис. 1.1) называется плотностью распределения 

вероятности (или плотностью распределения или плотностью вероятности). Вероятность (1.1) можно представить графически как 
заштрихованную площадь на рис. 1.1. Функция плотности распределения нормирована так, что полная площадь под кривой 
( )
w x , т.е. 

вероятность того, что случайная величина Х примет какое-либо значение из интервала (
;
)
-∞ ∞  – 
(
)
P
X
-∞ <
< ∞  – равна 1. График плот
ности распределения дает наглядное представление о том, как часто 
встречаются различные значения случайной величины Х. 

Рис. 1.1. Плотность распределения непрерывной случайной величины

Рис. 1.2. Функция распределения непрерывной случайной величины

Функция 

 

( )
( )d

x
F x
w t
t

-∞
= ∫

 

 (1.2) 

называется функцией распределения. Функция 
( )
F x  вычисляет ве
роятность 
( )
P
F x
=
 того, что случайная величина Х принимает зна
чение, меньшее или равное х, а обратная функция распределения по 
вероятности 
( )
P
F x
=
 рассчитывает значение аргумента функции 

распределения х. Функция распределения – это неубывающая функция, такая, что 
(
)
0
F -∞ =
 и 
( )
1
F ∞ =  (рис. 1.2). Плотность вероятно
сти 
( )
w x , как и функция распределения 
( )
F x  полностью определяют 

свойства непрерывной случайной величины. 

Некоторые наиболее важные свойства распределения случайной 

величины можно описать числовыми характеристиками распределения. Первая из них – математическое ожидание m (иначе первый 
момент распределения) – характеристика расположения центра распределения случайной величины. Математическое ожидание непрерывной случайной величины Х с плотностью вероятности 
( )
w x

 
( )d
x
xw x
x

∞

-∞
m = ∫
. 
 (1.3)

(Далее характеристики распределения конкретной случайной величины будут приводиться с нижним индексом – именем этой величины). 
Если распределения случайных величин X и Y различаются единственно их математическими ожиданиями 
x
m  и 
y
m , то графики функ
ций распределения или плотностей вероятностей одинаковые по форме, но сдвинуты один относительно другого на величину 
x
y
m - m
.

Характеристикой разброса случайной величины вокруг ее матема
тического ожидания является дисперсия (иначе второй центральный 
момент). Дисперсия 
2
s  непрерывной случайной величины Х

 
2
2
(
)
( )d
x
x
x
w x
x

∞

-∞
s =
- m
∫
.  
(1.4)

Кроме дисперсии характеристикой разброса является и квадрат
ный корень из нее – стандартное отклонение

 

2
2
(
)
( )d
x
x
x
x
w x
x

∞

-∞
s =
s =
- m
∫
. 
 (1.5)

Стандартное отклонение 
x
s  имеет ту же размерность, что и сама 

случайная величина Х (а дисперсия – квадрат этой размерности), поэтому оно удобнее для практической оценки разброса.

Другими важными характеристиками распределения непрерывной 

случайной величины являются квантили. Квантилем 
P
x∗  случайной 

величины X с функцией распределения 
( )
F x  называется значение 

случайной величины, для которого функция распределения принимает значение Р: 
(
)
P
F x
P
∗ =
. На рис. 1.2 показан квантиль 
0,5
x∗ , на
зываемый медианой, и имеющий специальное обозначение 
x
m . Ве
роятность того, что случайная величина окажется меньше медианы 
равна вероятности того, что она окажется больше медианы и равна 
0,5. В прикладной статистике часто применяется квантиль 
0,95
x∗
, веро
ятность превышения которого равна 0,05. 

Нормальное распределение

Нормальное распределение занимает центральное место в теоре
тической статистике. Нормальное распределение возникает, когда 
разброс наблюдаемой величины вызван множеством причин, каждая 
из которых вносит в этот разброс вклад, сравнимый с вкладом других 
причин, и нет единственной преобладающей причины. Большинство 
методов статистического анализа применимо только к выборкам из 
нормальных распределений.

Плотность вероятности

 

(
)

2

2
1
( )
exp
2
2

x
w x



- m
=

s
s
π





. 
 (1.6)

Область определения 
x
-∞ <
< ∞ . 

Параметры распределения m и 
0
s >
 являются математическим 

ожиданием и стандартным отклонением нормально распределенной 
случайной величины.

Математическое ожидание 
x
m = m .

Дисперсия 
2
2
x
s = s .

Медиана 
x
m = m .

Нормальное распределение симметрично относительно математиче
ского ожидания m, поэтому значения медианы и математического ожидания совпадают. График нормального распределения с параметрами 
0
m =
 и 

1
s =  приведен на рис. 1.3. 

Рис. 1.3. Плотность вероятности нормального распределения с 
0,
1
m =
s =

Пусть 
(
)
P
X
m - a <
< m + a  – вероятность того, что нормаль
но распределенная случайная величина X находится в интервале 
(
)
;
m - a m + a , тогда

(
)
0,6827
x
x
x
x
P
X
m - s <
< m + s
=
; 

(
2
2
)
0,9545
x
x
x
x
P
X
m - s <
< m + s
=
; 

(
3
3
)
0,9973
x
x
x
x
P
X
m - s <
< m + s
=
.

Следовательно, менее 1/3 значений нормально распределенной 

случайной величины отклоняется от математического ожидания более чем на одно стандартное отклонение. 

Вероятность отклонения нормально распределенной случайной вели
чины от математического ожидания более чем на два стандартных отклонения не превышает 0,0455, а на три стандартных отклонения – 0,0027. 

Выборочные оценки

Результаты эксперимента – наблюдения 
1
2
,
,...,
n
x x
x , полученные 

в n повторных испытаниях, проведенных в идентичных условиях, – 
считаются значениями, принимаемыми в эксперименте измеряемой 
случайной величиной X. Все возможные значения случайной величины Х, распределенные с плотностью вероятности 
( )
w x  или функ
цией распределения 
( )
F x , называются генеральной совокупностью. 

Числовые характеристики распределения считаются параметрами 
генеральной совокупности. В математической статистике эксперимент интерпретируется как случайный выбор конкретного значения 
из бесконечной генеральной совокупности. Множество результатов 

1
2
,
,...,
n
x x
x  – это случайная выборка из генеральной совокупности. 

Генеральная совокупность является абстрактным понятием. Чтобы 

выборка полностью отражала свойства генеральной совокупности, 
она должна быть бесконечной. (Поэтому генеральную совокупность 
еще определяют как бесконечное множество значений результатов 
статистического испытания, которое может при идентичных условиях повторяться сколь угодно большое число раз). Конечная выборка лишь приближенно с большей или меньшей точностью отражает свойства генеральной совокупности. По выборке можно оценить 
параметры генеральной совокупности и построить приближенную 
функцию распределения. Величины, рассчитанные по выборке, на
зываются выборочными оценками параметров генеральной совокупности или просто оценками. 

Простейшие выборочные оценки параметров генеральной сово
купности – точечные оценки. Точечная оценка – оценка параметра генеральной совокупности одним числом. 

Точечная оценка математического ожидания 
 по случайной вы
борке 
1
2
,
,...,
n
x x
x  – выборочное среднее 

 
1

1
n

i
i
x
x
n
=
= ∑
.  
(1.7) 

Точечная оценка дисперсии 
2
x
s  при условии, что среднее x  опре
делено из тех же n наблюдений – выборочная дисперсия:

 

2
2

1

1
(
)
1

n

x
i

i
s
x
x
n
=
=
- ∑
. 
 (1.8) 

Величина, стоящая в знаменателе (1.8), – число степеней свободы 

(ч.с.с.) выборочной дисперсии. В общем случае ч.с.с. дисперсии это 
число наблюдений минус число линейных зависимостей между этими наблюдениями, использованных в расчете дисперсии (в данном 
случае одна зависимость (1.7) для среднего).

Квадратный корень из выборочной дисперсии – выборочное стан
дартное отклонение – оценка стандартного отклонения генеральной 
совокупности 
x
s

 

2
2

1

1
(
)
1

n

x
x
i
i
s
s
x
x
n
=
=
=
- ∑
.  
(1.9) 

Для оценки выборочной медианы 
x
m  выборка 
1
2
,
,...,
n
x x
x  сначала 

перестраивается в порядке возрастания (перестраивается в вариационный ряд). За выборочную медиану принимается средний по порядку 
член вариационного ряда (член с номером (
1)

2

n+ ) если n нечетное:

 

1
2
x
n
m
x +
=
,  
(1.10а)

или полусумма двух расположенных в середине вариационного ряда 
чисел, если n четное

 

1
2
2

1
2
x
n
n
m
x
x
+


=
+







.  
(1.10б)

Рис.1.4. Плотность распределения Стьюдента c n степенями свободы. 

Заштрихованы периферийные области с суммарной вероятностью 

2,
2,
(
)
(
)
P t
t
P t
t
a
n
a
n
>
+
< = a

Недостаток точечной оценки в том, что из нее не видно, насколь
ко отличается оценка от истинного значения параметра генеральной 
совокупности. Интервальная оценка определяет границы интервала, 
в который истинное значение параметра генеральной совокупности 
попадает с заданной вероятностью Р, называемой доверительной. 
Очевидно, что эта вероятность должна быть достаточно большой: 

0,9
P =
 или 
0,95
P =
.

Наиболее употребительна интервальная оценка математического 

ожидания 
x
m . Она основана на том, что величина

x

x

x
T
s
n

- m
=

подчиняется распределению Стьюдента с 
1
n
n =
-  степенями сво
боды (ч.с.с. дисперсии 
2
xs ). Выберем доверительную вероятность Р, 

и пусть 
1
P
a = . Плотность распределения Стьюдента 
( )
s
w t  сим
метрична относительно 
0
t =
, поэтому найдем положительное зна
чение 
/2,
ta
n , такое, что случайная величина Т находится в интервале 

/2,
/2,
(
;
)
t
t
a
n
a
n
 с вероятностью Р (рис. 1.4). Тогда математическое ожи
дание 
x
m  с той же доверительной вероятностью Р находится внутри 

доверительного интервала (
;
)
x
x
x
x
- D
+ D
, где

 

/2,
x
x
t
s

n

a
n
D =
. 
 (1.11) 

Доступ онлайн
2 000 ₽
В корзину