Статистические методы обработки и планирования эксперимента
Покупка
Издательство:
Директ-Медиа
Год издания: 2020
Кол-во страниц: 61
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-4499-1629-7
Артикул: 781048.01.99
Доступ онлайн
В корзину
В учебном пособии рассматриваются вопросы статистической обработки экспериментальных данных, являющейся важным этапом при проведении полной математической обработки результатов экспериментов. Выделены основные проблемы, связанные с применением дисперсионного анализа, начиная от создания математической модели вплоть до интерпретации результатов.
Данное пособие предназначено для студентов вузов, преподавателей и всех занимающихся научными исследованиями.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.04: Прикладная математика
- 01.03.05: Статистика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
С. А. Осипенко Статистические методы обработки и планирования эксперимента Учебное пособие Москва Берлин 2020
УДК 519.226(075) ББК 22.172.1я73+87.256.631я73 О74 Осипенко, С. А. О74 Статистические методы обработки и планирования эксперимента : учебное пособие / С. А. Осипенко. – Москва ; Берлин : Директ-Медиа, 2020. – 61 с. ISBN 978-5-4499-1629-7 В учебном пособии рассматриваются вопросы статистической обработки экспериментальных данных, являющейся важным этапом при проведении полной математической обработки результатов экспериментов. Выделены основные проблемы, связанные с применением дисперсионного анализа, начиная от создания математической модели вплоть до интерпретации результатов. Данное пособие предназначено для студентов вузов, преподавателей и всех занимающихся научными исследованиями. Текст печатается в авторской редакции. УДК 519.226(075) ББК 22.172.1я73+87.256.631я73 ISBN 978-5-4499-1629-7 © Осипенко С. А., текст, 2020 © Издательство «Директ-Медиа», оформление, 2020
Оглавление 1. Основные принципы планирования эксперимента .................................................... 4 2. Дисперсионный анализ ................................................................................................. 5 3. Однофакторный дисперсионный анализ (при одинаковом числе испытаний на всех уровнях) .................................................... 7 4. Однофакторный дисперсионный анализ (при неодинаковом числе испытаний на всех уровнях) .............................................. 14 5. Двухфакторный дисперсионный анализ ................................................................... 27 6. Трехфакторный дисперсионный анализ ................................................................... 43 7. Гнездовые или иерархические планы (схемы) ......................................................... 51 Библиографический список ............................................................................................ 54 Приложение 1 ................................................................................................................... 55 Приложение 2 ................................................................................................................... 59
1. Основные принципы планирования эксперимента Под статистическим планированием эксперимента понимается организация экспериментального исследования, которая позволит собрать необходимые данные, применить для их анализа статистические методы и сделать правильные и объективные выводы. Без статистического подхода к планированию эксперимента не обойтись. Если данные эксперимента содержат ошибки, то статистические методы являются единственным объективным подходом к их анализу. Таким образом, в любой экспериментальной задаче два аспекта: планирование эксперимента и статистический анализ данных, причем эти два аспекта тесно взаимосвязаны, так как метод анализа непосредственно зависит от использованного плана. В основе планирования эксперимента лежат два принципа – репликация и рандомизация. Под репликацией понимают повторение основного эксперимента. Рандомизация – краеугольный камень, на котором основано применение статистических методов в планировании эксперимента. Рандомизация означает, что распределение экспериментального материала и порядок, в котором должны проводиться отдельные опыты или прогоны, устанавливаются случайным образом. При использовании статистического подхода к планированию экспериментов и анализу данных необходимо, чтобы все участники эксперимента еще до его начала ясно понимали, что именно предстоит исследовать и каким образом нужно собирать данные. Можно рекомендовать следующую схему: 1. Признание факта существования задачи и ее формулировка. 2. Выбор факторов и уровней. 3. Выбор переменной отклика (зависимой переменной). 4. Выбор плана эксперимента. 5. Проведение эксперимента 6. Анализ данных. 7. Выводы и рекомендации.
2. Дисперсионный анализ Инициатором применения статистических методов в планировании экспериментов является Рональд А. Фишер. В течение нескольких лет он был ответственным за статистическую обработку данных в Лондоне. Фишер разработал и впервые применил дисперсионный анализ в качестве важнейшего метода статистического анализа в планировании экспериментов. Методы планирования эксперимента впервые начали использовать в сельскохозяйственных и биологических науках. Современные методы планирования экспериментов сегодня широко применяются во всех областях исследований: агрономии, медицине, биологии, прикладных, естественных и общественных науках и др. Дисперсионный анализ – статистический метод, позволяющий анализировать влияние различных факторов (категориальных, группирующих, независимых переменных), обозначаемых латинскими буквами A,B,C и т. д., на результаты эксперимента (зависимые переменные). Для проведения дисперсионного анализа необходимо, чтобы независимая переменная была категориальной, а зависимая – метрической. Например, факторами, влияющими на содержание микроэлементов в пробе, могут быть: A – метод геохимического анализа, B – территория, C – среда съёмки (почва, снег, зола, накипь). В этом случае говорят о применении 3-х факторного дисперсионного анализа для исследования влияния 3-х факторов (A – метод геохимического анализа с 2-мя уровнями; B – территория с 3-мя уровнями и C – среда съемки с 4-мя уровнями) на содержание микроэлементов в пробе. Суть дисперсионного анализа (analysis of variance – сокращенно ANOVA) заключается в разложении дисперсии измеряемого признака на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации. Анализ основан на расчете F-статистики (статистика Фише-ра), которая представляет собой отношение двух дисперсий: межгрупповой и внутригрупповой. F-тест в однофакторном дисперсионном анализе определяет, значимо ли различаются средние нескольких независимых выборок. Задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака вычленить вариативность иного рода: а) вариативность обусловленную действием каждой из исследуемых независимых переменных; б) вариативность, обусловленную взаимодействием исследуемых независимых переменных; в) случайную вариативность, обусловленную всеми другими неизвестными переменными.
Чем в большей степени вариативность признака обусловлена исследуемыми переменными (факторами) или их взаимодействием, тем выше эмпирические значения критерия. Нулевая гипотеза в дисперсионном анализе будет гласить, что средние величины исследуемого результативного признака во всех градациях одинаковы. Альтернативная гипотеза будет утверждать, что средние величины результативного признака в разных градациях исследуемого фактора различны. Ограничения метода однофакторного дисперсионного анализа для несвязанных выборок: 1. Однофакторный дисперсионный анализ требует не менее трех градаций фактора и не менее двух испытуемых в каждой градации. 2. Результативный признак должен быть нормально распределен в исследуемой выборке. Правда, обычно не указывается, идет ли речь о распределении признака во всей обследованной выборке или в той ее части, которая составляет дисперсионный комплекс.
3. Однофакторный дисперсионный анализ (при одинаковом числе испытаний на всех уровнях) Пусть на количественный нормально распределенный признак Х воздействует фактор F, который имеет p постоянных уровней F1, F2,…,Fp. На каждом уровне произведено по q испытаний. Результаты наблюдений – числа xij, где i-номер испытания (i=1,2,…,q), j – номер уровня фактора (j=1,2,…,p) записываются в виде таблицы (таблица 1) Таблица 1 Номер испытания Уровни фактора i F1 F2 … Fp 1 𝑥11 𝑥12 … 𝑥1𝑝 2 𝑥21 𝑥22 … 𝑥2𝑝 … … … … … q 𝑥𝑞1 𝑥𝑞2 … 𝑥𝑞𝑝 Групповая средняя 𝑥гр 𝑥гр1 𝑥гр2 … 𝑥гр 𝑝 Ставится задача: на уровне значимости α проверить нулевую гипотезу о равенстве групповых средних при допущении, что групповые генеральные дисперсии хотя и независимы, но одинаковы. Для решения этой задачи вводятся: - общая сумма квадратов отклонений наблюдаемых значений признака от общей средней 𝑆общ = 𝑥𝑖𝑗 − 𝑥̅2 𝑞 𝑖=1 𝑝 𝑗=1 (1) - факторная сумма квадратов отклонений групповых средних от общей средней (характеризует рассеяние «между группами») 𝑆факт = 𝑞 (𝑥гр 𝚥 − 𝑥̅)2 𝑝 𝑗=1 (2) - остаточная сумма квадратов отклонений наблюдаемых значений группы от всей групповой средней (характеризует рассеяние «внутри групп») 𝑆ост = (𝑥𝑖1 − 𝑥гр1 )2 + ⋯ + (𝑥𝑖𝑝 − 𝑥гр 𝑝 )2 𝑞 𝑖=1 𝑞 𝑖=1 (3) Практически остаточную сумму находят по формуле: Sост=Sобщ - Sфакт (4) Для вычисления общей и факторной сумм более удобны следующие формулы:
𝑆общ = 𝑃𝑗 − (∑ 𝑅𝑗 𝑝 𝑗=1 )2 𝑝𝑞 𝑝 𝑗=1 𝑆факт = ∑ 𝑅𝑗 2 𝑝 𝑗=1 𝑞 − (∑ 𝑅𝑗 𝑝 𝑗=1 )2 𝑝𝑞 (5) где𝑃𝑗 = ∑ 𝑥𝑖𝑗 2 𝑞 𝑖=1 – сумма квадратов наблюдаемых значений признака на уровне 𝐹𝑗 𝑅𝑗 = ∑ 𝑥𝑖𝑗 𝑞 𝑖=1 - сумма наблюдаемых значений признака на уровне 𝐹𝑗 Если наблюдаемые значения признака – сравнительно большие числа, то для упрощения вычислений вычитают из каждого наблюдаемого значения одно и то же число С, примерно равное общей средней. Если уменьшенные значения 𝑦𝑖𝑗 = 𝑥𝑖𝑗 − 𝐶 𝑆общ = ∑ 𝑄𝑗 − (∑ 𝑇𝑗 𝑝 𝑗=1 )2 𝑝𝑞 𝑝 𝑗=1 , 𝑆факт = ∑ 𝑇𝑗 2 𝑝 𝑗=1 𝑞 − (∑ 𝑇𝑗 𝑝 𝑗=1 )2 𝑝𝑞 где𝑄𝑗 = ∑ 𝑦𝑖𝑗 2 𝑞 𝑖=1 – сумма квадратов уменьшенных наблюдаемых значений признака на уровне 𝐹𝑗 𝑇𝑗 = ∑ 𝑦𝑖𝑗 𝑞 𝑖=1 - сумма уменьшенных значений признака на уровне 𝐹𝑗. Разделив уже вычисленные факторную и остаточную суммы на соответствующее число степеней свободы, находят факторную и остаточную дисперсии: 𝑆факт 2 = 𝑆факт 𝑝−1, 𝑆ост 2 = 𝑆ост 𝑝(𝑞−1), 𝐹набл = 𝑆факт 2 𝑆ост 2 , 𝐹кр = 𝛼; 𝑝 − 1; 𝑝(𝑞 − 1) Наконец, сравнивая, фактурную и остаточную дисперсии по критерию Фишера-Снедекора (приложение 1). Если Fнабл<Fкр – различие групповых средних незначимое. Если Fнабл>Fкр – различие групповых средних значимое. Замечание 1. Если факторная дисперсия окажется меньше остаточной, то уже отсюда непосредственно следует справедливость нулевой гипотезы о равенстве групповых средних, поэтому дальнейшие вычисления (сравнение дисперсий с помощью критерия F) излишни. Замечание 2. Если наблюдаемые значения 𝑥𝑖𝑗 – десятичные дроби с kзнаками после запятой, то целесообразно перейти к целым числам 𝑦𝑖𝑗 = 10𝑘𝑥𝑖𝑗 − 𝐶, где C–примерно среднее значение чисел 10𝑘𝑥𝑖𝑗. При этом факторная и остаточная дисперсия увеличится в 102𝑘 раз, однако их отношение не изменится. Рассмотрим задачу: При уровне значимости α=0,05 методом диспер сионного анализа проверить нулевую гипотезу о влиянии фактора на качество объекта на основании пяти измерений для трех уровней фактора
Номер измерения Ф1 Ф2 Ф3 1. 18 24 36 2. 28 36 12 3. 12 28 22 4. 14 40 45 5. 32 16 40 Решение: сформулируем гипотезы H0 – фактор влияет на качество объекта незначительно, тогда H1 – фактор оказывает влияние на качество объекта. Вычислим вспомогательные величины: ∑ = 2 ij j x P -сумма квадратов наблюдаемых значений на уровне Фj(j=1,2,3) ∑ = ij j x R - сумма наблюдаемых значений на уровне Фj(j=1,2,3) Результаты занесем в таблицу: Номер измерения Ф1 Ф2 Ф3 1. 18 24 36 2. 28 36 12 3. 12 28 22 4. 14 40 45 5. 32 16 40 сумма R 104 144 155 403 P 2472 4512 5549 12533 R2 10816 20736 24025 55577 Тогда Sобщ=12533- (1/3*5)*4032=1705,7 Sфакт.=(1/5)*55577-(1/3*5)*4032=288,1 Sост=Sобщ - Sфакт =1704,7-288,1=1417,6 Найдем факторную дисперсию S2 факт=Sфакт/3-1=144,05 Найдем остаточную дисперсию S2 ост =Sост/3*(5-1)=118,13 Сравним факторную и остаточную дисперсию по критерию Фишера: найдем наблюдаемое значение критерия Fнабл=S2 факт/S2 ост=1,22 Найдем критическую точку при уровне значимости α=0,05 и числам степеней свободы k1=3-1=2 k2=3*(5-1)=12 по таблице определили, что Fкр=3,88 делаем вывод, т.к. Fнабл <Fкр - нет оснований отвергать нулевую гипотезу (фактор влияет незначительно). Задачи для решения на практическом занятии: 3.1.Произведено по четыре испытания на каждом из трех уровней фактора F. Методом дисперсионного анализа при уровне значимости 0,05 проверить нулевую гипотезу о равенстве групповых средних. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями. Результаты представлены в таблице
Номер испытания Уровни фактора F1 F2 F3 1. 38 20 21 2. 36 24 22 3. 35 26 31 4. 31 30 34 𝑥_гр 𝑗 35 25 27 Указание: для упрощения расчета из каждого наблюдаемого значения 𝑥𝑖𝑗общую среднюю 𝑥̅ = 29, то есть перейти к уменьшаемым величинам: 𝑦𝑖𝑗 = 𝑥𝑖𝑗 − 29. 3.2.Произведено по восемь испытаний на каждом из шести уровней фактора. Методом дисперсионного анализа при уровне значимости 0,01 проверить нулевую гипотезу о равенстве групповых средних. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями. Результаты представлены в таблице Номер испытания Уровни фактора F1 F2 F3 F4 F5 F6 1. 100 92 74 68 64 69 2. 101 102 87 80 83 71 3. 126 104 88 83 83 80 4. 128 115 93 87 84 80 5. 133 119 94 96 90 81 6. 141 122 101 97 96 82 7. 147 128 102 106 101 86 8. 148 146 105 127 111 99 𝑥_гр 𝑗 128 116 93 93 89 81 При решении задачи использовать указание задачи 3.1. 3.3.Имеются результаты определения средней высоты сосны напробных площадях в разных условиях местопроизрастания (таблица) Вариант опыта (ТУМ) Средняя высота на пробных площадках, м Лишайниковый 18,5; 17,5; 18; 18 Брусничный 18,5; 18; 18; 20 Черничный 19,5; 20; 20,5; 19,5 Кисличный 20; 20,5; 22; 21 Пробные площади были заложены таким образом, чтобы исключить влияние прочих факторов на результативный признак (одинаковый средний возраст, подзона тайги и т.д.). В ходе исследования предстоит установить, влияет ли тип условий место произрастания (ТУМ) на рост насаждений сосны.
3.4.Получены данные о плодовитости мышей при облучении рентгеновскими лучами: Группы Число мышат от отдельных самок Контроль 10 12 11 10 Доза 100 р. 8 10 7 9 Доза 200 р. 7 9 6 4 Влияет ли облучение на плодовитость мышей? 3.5.Проверьте влияет ли возраст на частоту распространенности изолированной систолической артериальной гипертензии в различных регионах России (в %): Регионы Возраст (лет) 50 60 70 80 1 24 47 66 73 2 23 45 60 70 3 21 43 65 72 4 25 42 65 71 5 23 46 65 73 3.6.Исследовать влияние породы животных на уровень их иммунитета. Животные трех пород в возрасте 31 месяц искусственно заражали одинаковым количеством личинок Boophilus micropolus и через 20 дней подсчитывали число самок клещей: Номер животного Порода животного Африкандер герефорд Шортгорны Герефорды 1 2 3 4 5 20 40 70 120 240 50 170 210 450 610 100 400 570 840 1200 3.7.Проверьте влияет ли уровень холестерина в крови на смертность от ишемической болезни сердца в различных регионах России (на 10 000 населения): Регионы Сывороточный холестерин, ммоль/л 4 5 6 7 1 2 3 4 5 9 8 9 7 8 12 13 13 14 14 17 16 18 17 17 28 27 27 26 29
Доступ онлайн
В корзину