Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Статистические методы обработки и планирования эксперимента

Покупка
Артикул: 781048.01.99
Доступ онлайн
93 ₽
В корзину
В учебном пособии рассматриваются вопросы статистической обработки экспериментальных данных, являющейся важным этапом при проведении полной математической обработки результатов экспериментов. Выделены основные проблемы, связанные с применением дисперсионного анализа, начиная от создания математической модели вплоть до интерпретации результатов. Данное пособие предназначено для студентов вузов, преподавателей и всех занимающихся научными исследованиями.
Осипенко, С. А. Статистические методы обработки и планирования эксперимента : учебное пособие / С. А. Осипенко. - Москва ; Берлин : Директ-Медиа, 2020. - 61 с. - ISBN 978-5-4499-1629-7. - Текст : электронный. - URL: https://znanium.com/catalog/product/1873518 (дата обращения: 25.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
С. А. Осипенко 
 
 
 
 
 
 
 
 
 
 
 
 
 
Статистические методы обработки 
и планирования эксперимента 
 
 
 
Учебное пособие 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Москва 
Берлин 
2020 

УДК 519.226(075) 
ББК 22.172.1я73+87.256.631я73 

О74 

Осипенко, С. А. 

О74        Статистические методы обработки и планирования эксперимента : 

учебное пособие / С. А. Осипенко. – Москва ; Берлин : Директ-Медиа, 
2020. – 61 с. 

ISBN 978-5-4499-1629-7 

В учебном пособии рассматриваются вопросы статистической обработки 
экспериментальных данных, являющейся важным этапом при проведении полной 
математической обработки результатов экспериментов. Выделены основные 
проблемы, связанные с применением дисперсионного анализа, начиная от создания 
математической модели вплоть до интерпретации результатов. 
Данное пособие предназначено для студентов вузов, преподавателей и всех 
занимающихся научными исследованиями. 

Текст печатается в авторской редакции. 

УДК 519.226(075) 
ББК 22.172.1я73+87.256.631я73 

ISBN 978-5-4499-1629-7 
© Осипенко С. А., текст, 2020
© Издательство «Директ-Медиа», оформление, 2020

Оглавление 

1. Основные принципы планирования эксперимента .................................................... 4
2. Дисперсионный анализ ................................................................................................. 5
3. Однофакторный дисперсионный анализ
(при одинаковом числе испытаний на всех уровнях) .................................................... 7 
4. Однофакторный дисперсионный анализ
(при неодинаковом числе испытаний на всех уровнях) .............................................. 14 
5. Двухфакторный дисперсионный анализ ................................................................... 27
6. Трехфакторный дисперсионный анализ ................................................................... 43
7. Гнездовые или иерархические планы (схемы) ......................................................... 51
Библиографический список ............................................................................................ 54 
Приложение 1 ................................................................................................................... 55 
Приложение 2 ................................................................................................................... 59 

1. Основные принципы планирования эксперимента

Под статистическим планированием эксперимента понимается организация экспериментального исследования, которая позволит собрать необходимые данные, применить для их анализа статистические методы и сделать 
правильные и объективные выводы. Без статистического подхода к планированию эксперимента не обойтись.  
Если данные эксперимента содержат ошибки, то статистические методы являются единственным объективным подходом к их анализу. Таким образом, в любой экспериментальной задаче два аспекта: планирование эксперимента и статистический анализ данных, причем эти два аспекта тесно взаимосвязаны, так как метод анализа непосредственно зависит от использованного плана. 
В основе планирования эксперимента лежат два принципа – репликация и рандомизация. Под репликацией понимают повторение основного эксперимента. Рандомизация – краеугольный камень, на котором основано применение статистических методов в планировании эксперимента. Рандомизация означает, что распределение экспериментального материала и порядок, в 
котором должны проводиться отдельные опыты или прогоны, устанавливаются случайным образом. 
При использовании статистического подхода к планированию экспериментов и анализу данных необходимо, чтобы все участники эксперимента 
еще до его начала ясно понимали, что именно предстоит исследовать и каким 
образом нужно собирать данные. Можно рекомендовать следующую схему: 
1.
Признание факта существования задачи и ее формулировка.
2.
Выбор факторов и уровней.
3.
Выбор переменной отклика (зависимой переменной).
4.
Выбор плана эксперимента.
5.
Проведение эксперимента
6.
Анализ данных.
7.
Выводы и рекомендации.

2. Дисперсионный анализ

Инициатором применения статистических методов в планировании 
экспериментов является Рональд А. Фишер. В течение нескольких лет он был 
ответственным за статистическую обработку данных в Лондоне. Фишер разработал и впервые применил дисперсионный анализ в качестве важнейшего 
метода статистического анализа в планировании экспериментов. 
Методы планирования эксперимента впервые начали использовать в 
сельскохозяйственных и биологических науках. Современные методы планирования экспериментов сегодня широко применяются во всех областях исследований: агрономии, медицине, биологии, прикладных, естественных и 
общественных науках и др. 
Дисперсионный анализ – статистический метод, позволяющий анализировать влияние различных факторов (категориальных, группирующих, независимых переменных), обозначаемых латинскими буквами A,B,C и т. д., на 
результаты эксперимента (зависимые переменные). Для проведения дисперсионного анализа необходимо, чтобы независимая переменная была категориальной, а зависимая – метрической. Например, факторами, влияющими на 
содержание микроэлементов в пробе, могут быть: A – метод геохимического 
анализа, B – территория, C – среда съёмки (почва, снег, зола, накипь).  
В этом случае говорят о применении 3-х факторного дисперсионного 
анализа для исследования влияния 3-х факторов (A – метод геохимического 
анализа с 2-мя уровнями; B – территория с 3-мя уровнями и C – среда съемки 
с 4-мя уровнями) на содержание микроэлементов в пробе. 
Суть дисперсионного анализа (analysis of variance – сокращенно ANOVA) 
заключается в разложении дисперсии измеряемого признака на независимые 
слагаемые, каждое из которых характеризует влияние того или иного фактора 
или их взаимодействия. Последующее сравнение таких слагаемых позволяет 
оценить значимость каждого изучаемого фактора, а также их комбинации. 
Анализ основан на расчете F-статистики (статистика Фише-ра), 
которая представляет собой отношение двух дисперсий: межгрупповой и 
внутригрупповой. F-тест в однофакторном дисперсионном анализе определяет, значимо ли различаются средние нескольких независимых выборок. 
Задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака вычленить вариативность иного рода:  
а) вариативность обусловленную действием каждой из исследуемых 
независимых переменных; 
б) вариативность, обусловленную взаимодействием исследуемых независимых переменных;  
в) случайную вариативность, обусловленную всеми другими неизвестными переменными.  

Чем  в большей степени вариативность признака обусловлена исследуемыми переменными (факторами) или их взаимодействием, тем выше эмпирические значения критерия.  
Нулевая гипотеза в дисперсионном анализе будет гласить, что средние 
величины исследуемого результативного признака во всех градациях одинаковы. 
Альтернативная гипотеза будет утверждать, что средние величины 
результативного признака в разных градациях исследуемого фактора различны. 
Ограничения метода однофакторного дисперсионного анализа для несвязанных выборок: 
1. Однофакторный дисперсионный анализ требует не менее трех градаций фактора и не менее двух испытуемых в каждой градации. 
2. Результативный признак должен быть нормально распределен в исследуемой выборке. 
Правда, обычно не указывается, идет ли речь о распределении признака 
во всей обследованной выборке или в той ее части, которая составляет дисперсионный комплекс. 

3. Однофакторный дисперсионный анализ
(при одинаковом числе испытаний на всех уровнях) 

Пусть на количественный нормально распределенный признак Х воздействует фактор  F, который имеет p постоянных уровней F1, F2,…,Fp. На 
каждом уровне произведено по q испытаний. Результаты наблюдений – числа 
xij, где i-номер испытания (i=1,2,…,q), j – номер уровня фактора (j=1,2,…,p) 
записываются в виде таблицы (таблица 1) 
Таблица 1 

Номер испытания
Уровни фактора

i
F1
F2
…
Fp

1
𝑥11
𝑥12
…
𝑥1𝑝

2
𝑥21
𝑥22
…
𝑥2𝑝

…
…
…
…
…

q
𝑥𝑞1
𝑥𝑞2
…
𝑥𝑞𝑝

Групповая средняя 𝑥гр
𝑥гр1
𝑥гр2
…
𝑥гр 𝑝
Ставится задача: на уровне значимости α проверить нулевую гипотезу 
о равенстве групповых средних при допущении, что групповые генеральные 
дисперсии хотя и независимы, но одинаковы. Для решения этой задачи вводятся:  
- 
общая сумма квадратов отклонений наблюдаемых значений признака от общей средней 

𝑆общ = 𝑥𝑖𝑗 − 𝑥̅2

𝑞

𝑖=1

𝑝

𝑗=1

(1) 

- факторная сумма квадратов отклонений групповых средних от общей 
средней (характеризует рассеяние «между группами») 

𝑆факт = 𝑞 (𝑥гр 𝚥
− 𝑥̅)2

𝑝

𝑗=1

 
(2) 

- 
остаточная сумма квадратов отклонений наблюдаемых значений 
группы от всей групповой средней (характеризует рассеяние «внутри групп») 

𝑆ост = (𝑥𝑖1 − 𝑥гр1
)2 + ⋯ + (𝑥𝑖𝑝 − 𝑥гр 𝑝
)2

𝑞

𝑖=1

𝑞

𝑖=1

 
(3) 

Практически остаточную сумму находят по формуле: Sост=Sобщ - Sфакт (4) 
Для вычисления общей и факторной сумм более удобны следующие 
формулы: 

𝑆общ = 𝑃𝑗 −

(∑
𝑅𝑗

𝑝
𝑗=1
)2

𝑝𝑞

𝑝

𝑗=1

𝑆факт =

∑
𝑅𝑗
2
𝑝
𝑗=1

𝑞
−

(∑
𝑅𝑗
𝑝
𝑗=1
)2

𝑝𝑞

(5) 

где𝑃𝑗 = ∑
𝑥𝑖𝑗
2
𝑞
𝑖=1
– сумма квадратов наблюдаемых значений признака на 
уровне 𝐹𝑗 
𝑅𝑗 = ∑
𝑥𝑖𝑗
𝑞
𝑖=1
 - сумма наблюдаемых значений признака на уровне 𝐹𝑗 

Если наблюдаемые значения признака – сравнительно большие числа, 
то для упрощения вычислений вычитают из каждого наблюдаемого 
значения одно и то же число С, примерно равное общей средней. Если 
уменьшенные значения 𝑦𝑖𝑗 = 𝑥𝑖𝑗 − 𝐶 

𝑆общ = ∑
𝑄𝑗 −
(∑
𝑇𝑗
𝑝
𝑗=1
)2

𝑝𝑞

𝑝
𝑗=1
, 𝑆факт =
∑
𝑇𝑗
2
𝑝
𝑗=1

𝑞
−
(∑
𝑇𝑗
𝑝
𝑗=1
)2

𝑝𝑞

где𝑄𝑗 = ∑
𝑦𝑖𝑗
2
𝑞
𝑖=1
– сумма квадратов уменьшенных наблюдаемых значений признака на уровне 𝐹𝑗 
𝑇𝑗 = ∑
𝑦𝑖𝑗
𝑞
𝑖=1
 - сумма уменьшенных значений признака на уровне 𝐹𝑗. 
Разделив уже вычисленные факторную и остаточную суммы на соответствующее число степеней свободы, находят факторную и остаточную 
дисперсии: 

𝑆факт
2
=
𝑆факт
𝑝−1,    𝑆ост
2
=
𝑆ост
𝑝(𝑞−1),        𝐹набл =
𝑆факт
2

𝑆ост
2 ,   𝐹кр = 𝛼; 𝑝 − 1; 𝑝(𝑞 − 1)
Наконец, сравнивая, фактурную и остаточную дисперсии по критерию 
Фишера-Снедекора (приложение 1). 
Если Fнабл<Fкр – различие групповых средних незначимое. 
Если Fнабл>Fкр – различие групповых средних значимое. 

Замечание 1. Если факторная дисперсия окажется меньше остаточной, 
то уже отсюда непосредственно следует справедливость нулевой гипотезы о 
равенстве групповых средних, поэтому дальнейшие вычисления (сравнение 
дисперсий с помощью критерия F) излишни. 
Замечание 2. Если наблюдаемые значения 𝑥𝑖𝑗 – десятичные дроби с 
kзнаками после запятой, то целесообразно перейти к целым числам 𝑦𝑖𝑗 =
10𝑘𝑥𝑖𝑗 − 𝐶, где C–примерно среднее значение чисел 10𝑘𝑥𝑖𝑗. При этом  факторная и остаточная дисперсия увеличится в 102𝑘
  раз, однако их отношение 
не изменится.  

Рассмотрим задачу: При уровне значимости α=0,05 методом диспер
сионного анализа проверить нулевую гипотезу о влиянии фактора на качество объекта на основании пяти измерений для трех уровней фактора 

Номер измерения 
Ф1
Ф2
Ф3

1.
18
24
36

2.
28
36
12

3.
12
28
22

4.
14
40
45

5.
32
16
40

Решение: сформулируем гипотезы H0 – фактор влияет  на качество 
объекта незначительно, тогда H1 – фактор оказывает влияние на качество 
объекта. 
Вычислим вспомогательные величины: 

∑
=
2
ij
j
x
P
 -сумма квадратов наблюдаемых значений на уровне 
Фj(j=1,2,3) 

∑
=
ij
j
x
R
- сумма наблюдаемых значений на уровне Фj(j=1,2,3) 
Результаты занесем в таблицу: 

Номер измерения 
Ф1
Ф2
Ф3

1.
18
24
36

2.
28
36
12

3.
12
28
22

4.
14
40
45

5.
32
16
40

сумма

R
104
144
155
403

P
2472
4512
5549
12533

R2
10816
20736
24025
55577

Тогда Sобщ=12533- (1/3*5)*4032=1705,7 
Sфакт.=(1/5)*55577-(1/3*5)*4032=288,1 
Sост=Sобщ - Sфакт =1704,7-288,1=1417,6 
Найдем факторную дисперсию S2
факт=Sфакт/3-1=144,05 
Найдем остаточную дисперсию S2
ост =Sост/3*(5-1)=118,13 
Сравним факторную и остаточную дисперсию по критерию Фишера: 
найдем наблюдаемое значение критерия Fнабл=S2
факт/S2
ост=1,22 
Найдем критическую точку при уровне значимости α=0,05 и числам 
степеней свободы k1=3-1=2  k2=3*(5-1)=12 по таблице определили, что 
Fкр=3,88 делаем вывод, т.к. Fнабл <Fкр - нет оснований отвергать нулевую гипотезу (фактор влияет незначительно). 

Задачи для решения на практическом занятии: 
3.1.Произведено по четыре испытания на каждом из трех уровней фактора F. Методом дисперсионного анализа при уровне значимости 0,05 проверить нулевую гипотезу о равенстве групповых средних. Предполагается, что 
выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями. Результаты представлены в таблице  

Номер испытания
Уровни фактора

F1
F2
F3

1.
38
20
21

2.
36
24
22

3.
35
26
31

4.
31
30
34

𝑥_гр
𝑗
35
25
27

Указание: для упрощения расчета из каждого наблюдаемого значения 
𝑥𝑖𝑗общую среднюю 𝑥̅ = 29, то есть перейти к уменьшаемым величинам: 
𝑦𝑖𝑗 = 𝑥𝑖𝑗 − 29. 
3.2.Произведено по восемь испытаний на каждом из шести уровней 
фактора. Методом дисперсионного анализа при уровне значимости 0,01 проверить нулевую гипотезу о равенстве групповых средних. Предполагается, 
что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями. Результаты представлены в таблице  
Номер испытания

Уровни фактора

F1
F2
F3
F4
F5
F6

1.
100
92
74
68
64
69

2.
101
102
87
80
83
71

3.
126
104
88
83
83
80

4.
128
115
93
87
84
80

5.
133
119
94
96
90
81

6.
141
122
101
97
96
82

7.
147
128
102
106
101
86

8.
148
146
105
127
111
99

𝑥_гр
𝑗
128
116
93
93
89
81

При решении задачи использовать указание задачи 3.1. 

3.3.Имеются результаты определения средней высоты сосны напробных площадях в разных условиях местопроизрастания (таблица) 
Вариант опыта (ТУМ)
Средняя высота на пробных площадках, м

Лишайниковый
18,5; 17,5; 18; 18

Брусничный
18,5; 18; 18; 20

Черничный
19,5; 20; 20,5; 19,5

Кисличный
20; 20,5; 22; 21

Пробные площади были заложены таким образом, чтобы исключить 
влияние прочих факторов на результативный признак (одинаковый средний 
возраст, подзона тайги и т.д.). В ходе исследования предстоит установить, 
влияет ли тип условий место произрастания (ТУМ) на рост насаждений 
сосны. 

3.4.Получены данные о плодовитости мышей при облучении рентгеновскими лучами: 

Группы
Число мышат от отдельных самок

Контроль
10
12
11
10

Доза 100 р.
8
10
7
9

Доза 200 р.
7
9
6
4

Влияет ли облучение на плодовитость мышей? 

3.5.Проверьте влияет ли возраст на частоту распространенности изолированной систолической артериальной гипертензии в различных регионах 
России (в %): 

Регионы
Возраст (лет)

50
60
70
80

1
24
47
66
73

2
23
45
60
70

3
21
43
65
72

4
25
42
65
71

5
23
46
65
73

3.6.Исследовать влияние породы животных на уровень их иммунитета. 
Животные трех пород  в возрасте 31 месяц искусственно заражали одинаковым количеством личинок Boophilus micropolus  и через 20 дней подсчитывали число самок клещей: 

Номер животного
Порода животного

Африкандер
герефорд

Шортгорны
Герефорды

1
2
3
4
5

20
40 
70 
120 
240

50
170 
210 
450 
610

100
400 
570 
840 
1200

3.7.Проверьте влияет ли уровень холестерина в крови на смертность от 
ишемической болезни сердца в различных регионах России (на 10 000 населения): 

Регионы 

Сывороточный холестерин, ммоль/л

4 
5 
6 
7 

1
2
3
4
5

9
8
9
7
8

12 
13 
13 
14 
14 

17 
16 
18 
17 
17 

28 
27 
27 
26 
29 

Доступ онлайн
93 ₽
В корзину