Обработка экспериментальных данных. Часть 2
Покупка
Год издания: 2018
Кол-во страниц: 136
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-7882-2262-2
Артикул: 788062.01.99
Доступ онлайн
В корзину
Приведен теоретический материал по обработке экспериментальных данных из различных сфер производственной деятельности, построению регрессионных линейных, нелинейных и много факторных моделей: рассмотрены примеры выполнения лабораторных работ. Для оценки уровня усвоения студентами пройденного материала предложены варианты заданий для самостоятельной работы.
Предназначено для студентов, обучающихся по направлениям подготовки 22.03.01 «Материаловедение и технологии материалов», 18.03.01 «Химическая технология», 28.03.02 «Наноинженерия».
Подготовлено на кафедре информатики и прикладной математики.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 18.03.01: Химическая технология
- 22.03.01: Материаловедение и технологии материалов
- 28.03.02: Наноинженерия
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Казанский национальный исследовательский технологический университет» Р. Ф. Тазиева, А. Н. Титов ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ Часть 2 Учебное пособие Казань Издательство КНИТУ 2018
УДК 004.451.7(075) ББК 32.973.2я7 Т13 Печатается по решению редакционно-издательского совета Казанского национального исследовательского технологического университета Рецензенты: д-р техн. наук, проф. М. Х. Хайруллин канд. экон. наук О. С. Семичева Т13 Тазиева Р. Ф. Обработка экспериментальных данных : учебное пособие: в 2 ч. Ч. 2 / Р. Ф. Тазиева, А. Н. Титов; Минобрнауки России, Казан. нац. исслед. технол. ун-т. – Казань : Изд-во КНИТУ, 2018. – 136 с. ISBN 978-5-7882-2260-8 ISBN 978-5-7882-2262-2 (ч. 2) Приведен теоретический материал по обработке экспериментальных данных из различных сфер производственной деятельности, построению регрессионных линейных, нелинейных и многофакторных моделей; рассмотрены примеры выполнения лабораторных работ. Для оценки уровня усвоения студентами пройденного материала предложены варианты заданий для самостоятельной работы. Предназначено для студентов, обучающихся по направлениям подготовки 22.03.01 «Материаловедение и технологии материалов», 18.03.01 «Химическая технология», 28.03.02 «Наноинженерия». Подготовлено на кафедре информатики и прикладной математики. УДК 004.451.7(075) ББК 32.973.2я7 ISBN 978-5-7882-2262-2 (ч. 2) © Тазиева Р. Ф., Титов А. Н., 2018 ISBN 978-5-7882-2260-8 © Казанский национальный исследовательский технологический университет, 2018
ВВЕДЕНИЕ В первой части пособия рассмотрены вопросы первичной обработки экспериментальных данных: расчет выборочных характеристик статистического распределения, построение доверительных интервалов для оценки параметров, общий подход к проверке гипотез о законе распределения случайной величины (критерии согласия Пирсона, Романовского, Колмогорова–Смирнова, Ястремского и др.). Во второй части пособия рассматриваются вопросы корреляционной зависимости между независимыми (факторными) переменными Xi и зависимой (результативной) переменной Y; построения регрессионных моделей, исследования их свойств и выявления степени их соответствия опытным данным. Суть корреляционной взаимозависимости двух или нескольких случайных величин заключается в закономерном изменении результативных признаков при уменьшении или увеличении факторных. При расчете корреляций пытаются определить, существует ли статистически достоверная связь между двумя или несколькими переменными в одной или нескольких выборках. Например, взаимосвязь между успеваемостью и результатами выполнения теста IQ, между стажем работы и производительностью труда и т.д. В одних случаях связь (зависимость) между признаками оказывается очень тесной (например, часовая выработка и заработная плата), а в других случаях связь между признаками не обнаруживается или выражается очень слабо (например, пол студентов и их успеваемость). Чем теснее связь между признаками, тем точнее принимаемые решения и легче управление системами. После выявления и обоснования факторных признаков, оказывающих существенное влияние на результативную переменную, переходят непосредственно к построению модели регрессии. Построение однофакторных линейных и нелинейных моделей регрессии рассмот- рено в главе 4. Глава 5 посвящена моделям множественной регрессии. Построение моделей множественной регрессии состоит из сле- дующих этапов: 1) выбор формы связи (уравнения регрессии); 2) определение факторов, включаемых в модель; 3) определение параметров выбранного уравнения; 4) анализ качества уравнения и поверка адекватности уравнения эмпирическим данным.
4. ПОСТРОЕНИЕ РЕГРЕССИОННЫХ МОДЕЛЕЙ 4.1. Этапы решения задачи моделирования Часто на практике возникает следующая задача (рис. 4.1). Имеется объект исследования (ОИ), который характеризуется набором пере- менных: входных ( k i xi ,..., 2,1 , ) и выходной y. Рис. 4.1. Схема объекта исследования Требуется найти зависимость выходной переменной от входных ) ,..., , ( 2 1 kx x x f y . (4.1) При этом считается, что механизмы процессов, протекающих внутри объекта исследования, неизвестны, а имеются только соответ- ствующие значения входных и выходных параметров. Такая задача носит название задачи «черного ящика». Рассмотрим простейший случай, когда на вход действует только одна переменная x и требуется найти ) (x f y . (4.2) Решение задачи моделирования в этом случае состоит из 4 этапов: 1) Проведение эксперимента. 2) Выбор вида экспериментальной зависимости. 3) Нахождение параметров выбранной зависимости. 4) Проверка адекватности модели и выводы. На первом этапе задаем значения входной переменной x из воз- можного диапазона и замеряем соответствующие значения выходной переменной y. Получаем таблицу: x x1 … xn y y1 … yn Если n велико, то для удобства работы экспериментальные данные можно сгруппировать, не забывая при этом, что группировка вносит погрешности в результаты вычислений. Результаты опытных данных в этом случае будут представлены в виде корреляционной таблицы
X Y ∆1 ∆2 … ∆k ∆k+1 11 n 12 n … k n1 … … … … … ∆k+m 1 m n 2 m n mk n Здесь ∆i – интервалы, в которые попали соответствующие значе- ния переменной X ) ,1 ( k i и функции Y ) ,1 ( m k k i , nij – частота появления пары (xi ,yj). Обычно вместо самих интервалов берут значения их середины. Получают таблицу: X Y x1 x2 … xk y1 11 n 12 n … k n1 1p … … … … … ym 1 m n 2 m n mk n m p 1 w 2 w k w В этой таблице m i ij j n w 1 – частота признака xj, k j ij i n p 1 – частота признака yi , m i k j ij k j j m i i n w p n 1 1 1 1 – объем выборки. На втором этапе исследования возможны два случая: когда форма экспериментальной кривой известна, и когда она неизвестна. В последнем случае могут помочь рекомендации, приведенные в [1, 2], подсказки в справке Excel о выборе линии тренда, метод сред- них точек для выбора между некоторыми видами зависимостей (см. с. 66), а также интуитивные представления и опыт решения по- добных задач другими исследователями [3, 4].
На практике чаще всего подходящий вид уравнения регрессии выбирают по виду расположения экспериментальных данных в корре- ляционном поле [5]. В основе регрессионного анализа лежит принцип наименьших квадратов, в соответствии с которым в качестве уравнения регрессии y=f(x) выбирается функция, доставляющая минимум сумме квадратов разностей n i i i y x f K 1 2] ) ( [ , а неизвестные коэффициенты сглажи- вающей кривой y=f(x) находят из условия ее минимума. Так, если мы ищем кривую в виде bx e a y (см. с. 61), то из условия min K мы должны найти неизвестные коэффициенты a и b. Геометрически критерий метода наименьших квадратов означает: из всех кривых заданного вида выбирают ту, у которой сумма площа- дей квадратов отклонений – наименьшая. Если аргументом считать y, а x – функцией (то есть если искомую кривую ищут в виде x=g(y)), то говорят о регрессии X на Y. Отклоне- ния в этом случае откладывают по оси X (рис. 4.3). Рис. 4.2. Регрессия Y на X
Рис. 4.3. Регрессия X на Y Количественной мерой рассеяния значений yi вокруг регрессии f(x) является дисперсия 2 1 1 [ ( ) ] n i i i D f x y n q , где q – число коэффициентов, входящих в аналитическое выражение регрессии [6]. Если искомое уравнение – алгебраический полином, то есть ) , ( ... ) ( 2 2 1 0 j p p c x Q x c x c x c c x f , (4.3) то задача поиска минимума K сводится к составлению и решению сис- темы нормальных уравнений (4.5). При этом степень аппроксимирующего полинома p и число узлов таблицы n связаны соотношением p≤n-1. (4.4) Так, если функция задана в виде таблицы из пяти точек, то аппрок- симировать ее можно полиномами до 4 степени включительно (p ≤ 4).
n i n i n i n i p i p p i p i i p i n i n i n i n i p i p i i i i n i n i n i p i p i i x c x c x c y x x c x c x c y x x c x c c n y 1 1 1 1 2 1 1 0 1 1 1 1 1 2 1 0 1 1 1 1 0 ... ..... .......... .......... .......... .......... .......... ... ... (4.5) Существуют и другие подходы к поиску коэффициентов сi в фор- муле (4.3): метод наименьших модулей, минимаксный подход к задаче аппроксимации и др. [6]. После того как модель построена, то есть найдены значения ко- эффициентов сi, необходимо удостовериться в ее качестве. С этой це- лью выполняют проверку адекватности модели объекту исследования, для которого она построена. Проверить адекватность модели – значит установить, насколько хорошо она описывает реальный процесс и можно ли ее использовать для прогнозирования развития данного процесса. Для того чтобы проверить адекватность модели, необходима неко- торая экспериментальная информация, полученная на этапе функцио- нирования системы или при проведении специального эксперимента. Проверка адекватности заключается в доказательстве факта, что точность результатов, полученных по модели, сопоставима с точностью расчетов, произведенных на основании экспериментальных данных. Процедура оценки адекватности разработанной модели реально существующей системе основана на сравнении измерений, получен- ных по реальной системе и результатов модельного эксперимента и может проводиться различными способами. Наиболее распространен- ные из них [7]: – по средним значениям откликов модели и системы; – дисперсиям отклонений откликов модели от среднего значения откликов системы; – максимальному значению относительных отклонений откликов модели от откликов системы. Адекватность математической модели в простейших случаях может быть установлена визуально путем сравнения эксперименталь- ных значений yi co значениями f(xi) модельной функции в тех же точ- ках таблицы.
Определенную информацию об адекватности уравнения регрессии дает исследование остатков вида ei=yi-f(xi). Наличие грубых отклонений (промахов, выбросов), не связанных с естественным разбросом, может приводить к существенным ошибкам при построении регрессии, что, в свою очередь, может привести к грубым ошибкам прогноза. Некоторые методы выявления выбросов: критерии Эктона, Титьена–Мура– Бекмана, Прескотта–Лунда и другие – рассмотрены в [6]. Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии является коэффициент детерминации, определяемый по формуле 2 2 1 2 1 ( ) 1 , n i i i n i i y f x R y y (4.6) где n y y n i i 1 . В случае линейной связи между X и Y, учитывая, что n i n i n i i i i i x f y y x f y y 1 1 1 2 2 2 )) ( ( ) ) ( ( ) ( , R2 можно вычислить по формуле 2 2 1 2 1 ( ) . n i i n i i f x y R y y (4.7) R2 показывает, насколько предсказание по модели лучше, чем предсказание по среднему значению отклика [1]. R2 характеризует долю разброса отклика, описываемую регрессией, и лежит в пределах от 0 до 1. Чем ближе R2 к единице, тем лучше модель описывает экспериментальные данные. В более сложных случаях, в частности, когда данные заданы корреляционной таблицей, адекватность может быть установлена применением различных статистических критериев. Чаще всего для оценки адекватности регрессионной модели применяют критерий Фишера–Снедекора [6, 8].
Пояснение. Говорят, что случайная величина распределена по закону Фишера–Снедекора, если ее плотность распределения вычисляется по формуле 1 2 1 2 1 2 1 2 2 2 1 1 , 1 2 2 2 1 ( ) 1 , 0 , , 2 2 v v v v v v v v I x x x x v v v v B где v1 и v2 – параметры распределения; B(y,z) – бета-функция [2]. Математическое ожидание, дисперсия, мода и коэффициент асимметрии этого распределения равны соответственно .6 при ) 2 ( ) 6 ( ) 4 ( 8 2 2 ) ( .2 при 2 2 ) ( .4 при ) 4 ( ) 2 ( ) 2 ( 2 ) ( .2 при 2 ) ( 2 2 1 1 2 2 2 1 1 2 2 1 1 2 2 2 2 1 2 1 2 2 2 2 2 X A X Mo X D X M s Графики функции плотности распределения Фишера–Снедекора при различных значениях v1 и v2 приведены на рис. 4.4. Программа для построения графиков: clc scf(5) //Открываем окно номер 5 clf() //Очищаем его function y=fish(x,v1,v2) y=1/beta(v1/2,v2/2)*(v1/v2)^(v1/2*v2/2-1)*x.*(1+v1/v2*x)^(-(v1+v2)/2) endfunction x=0:.1:6; plot(x,fish(x,3,5),x,fish(x,2,3),x,fish(x,2,5)) //Построение графиков функции плотности распределения //Фишера–Снедекора при значениях v1 и v2, равным 3 и 5 для //первого графика, 2 и 3 для второго и 2 и 5 для третьего xgrid() legend('v1=3, v2=5','v1=2, v2=3', 'v1=2, v2=5')
Доступ онлайн
В корзину