Регрессионный анализ социально-экономических явлений и процессов
Покупка
Тематика:
Экономика социальной сферы
Издательство:
Поволжский государственный технологический университет
Автор:
Игнашева Татьяна Андреевна
Год издания: 2022
Кол-во страниц: 138
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-8158-2276-4
Артикул: 800905.01.99
Доступ онлайн
В корзину
В учебном пособии изложены основы теории, связанной с построением регрессионных моделей, рассмотрены примеры эконометрического моделирования стоимости жилья, государственных расходов на образование, деятельности строительных организаций, приведено подробное описание проведения регрессионного анализа в системе STATISTICA и ППП MS Excel, а также представлены варианты заданий и исходные данные для самостоятельного компьютерного исследования студентами статистических зависимостей. Для студентов направлений подготовки 09.03.03 «Прикладная информатика», 38.03.01 «Экономика», 38.05.01 «Экономическая безопасность», 38.03.05 «Бизнес-информатика», изучающих дисциплины «Эконометрика», «Эконометрическое моделирование», может быть полезным для преподавателей, научных сотрудников и аспирантов, применяющих методы статистического моделирования в исследовании социально-экономических явлений и процессов.
Тематика:
ББК:
УДК:
- 004: Информационные технологии. Вычислительная техника...
- 330: Экономические науки в целом. Политическая экономия
ОКСО:
- ВО - Бакалавриат
- 09.03.03: Прикладная информатика
- 38.03.01: Экономика
- 38.03.05: Бизнес-информатика
- ВО - Специалитет
- 38.05.01: Экономическая безопасность
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Т. А. ИГНАШЕВА РЕГРЕССИОННЫЙ АНАЛИЗ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ И ПРОЦЕССОВ Учебное пособие Йошкар-Ола 2022
УДК 330.43(075.8) ББК 65в6я73 И 26 Рецензенты: профессор кафедры прикладной статистики и информатики Марийского государственного университета, доктор экономических наук, доцент А. В. Бурков; профессор кафедры информационных систем в экономике Поволжского государственного технологического университета, доктор экономиче- ских наук, профессор А. В. Швецов Печатается по решению редакционно-издательского совета ПГТУ Игнашева, Т. А. И 26 Регрессионный анализ социально-экономических явлений и про- цессов: учебное пособие / Т. А. Игнашева. – Йошкар-Ола: Поволж- ский государственный технологический университет, 2022. – 138 с. ISBN 978-5-8158-2276-4 В учебном пособии изложены основы теории, связанной с построением регрес- сионных моделей, рассмотрены примеры эконометрического моделирования стои- мости жилья, государственных расходов на образование, деятельности строитель- ных организаций, приведено подробное описание проведения регрессионного ана- лиза в системе STATISTICA и ППП MS Excel, а также представлены варианты за- даний и исходные данные для самостоятельного компьютерного исследования сту- дентами статистических зависимостей. Для студентов направлений подготовки 09.03.03 «Прикладная информатика», 38.03.01 «Экономика», 38.05.01 «Экономическая безопасность», 38.03.05 «Бизнес- информатика», изучающих дисциплины «Эконометрика», «Эконометрическое мо- делирование», может быть полезным для преподавателей, научных сотрудников и аспирантов, применяющих методы статистического моделирования в исследовании социально-экономических явлений и процессов. УДК 330.43(075.8) ББК 65в6я73 ISBN 978-5-8158-2276-4 © Т. А. Игнашева, 2022 © Поволжский государственный технологический университет, 2022
ВВЕДЕНИЕ В промышленной, инвестиционной сфере, строительстве, деятельно- сти сельскохозяйственного сектора экономики, маркетинговых и социо- логических исследованиях, при контроле качества в промышленности и других социально-экономических областях исследователь имеет дело с многомерными совокупностями, каждый объект наблюдения в которых характеризуется целым набором признаков. Процесс принятия решений в подобной ситуации подразумевает качественный, тщательный анализ информации, позволяющий выявить закономерности, взаимосвязи, зави- симости между различными показателями. На практике при исследовании взаимозависимостей между явлени- ями и признаками, их характеризующими, все больший интерес проявля- ется к статистическим методам, в частности, к регрессионному анализу, и к компьютерным программам для их реализации. Пособие содержит основы теории, связанные с построением парных и многофакторных регрессионных моделей в линейной и нелинейной спецификации, методами проверки свойств оценок коэффициентов урав- нений, примеры построения парных и множественных зависимостей, по- дробное описание проведения регрессионного анализа в системе Statistica и ППП MS Excel, а также варианты заданий и исходные данные для реализации ручного счета и компьютерного исследования студен- тами экономико-статистических взаимосвязей. ППП Statistica и MS Excel, функционирующие в среде Windows, яв- ляются одними из наиболее доступных и признанных в мировой практике систем для анализа статистических зависимостей. Пакеты предоставляют пользователю уникальную среду, в которой статистическая обработка становится увлекательным исследованием с использованием новейших компьютерных технологий и современных методов. Процесс построения моделей с помощью систем Statistica и MS Excel, как правило, включает следующие этапы: − ввод первичных статистических данных в систему; − преобразование выборки, адекватное выбранным методам моделирования; − визуализацию данных с помощью различных типов графиков; − реализацию алгоритма метода моделирования; − вывод результатов построения модели в виде графиков и электронных таблиц с численной и текстовой информацией; − интерпретацию полученных результатов.
Процесс построения моделей в ППП Statistica и MS Excel реализуется в соответствии с данными этапами. Пособие написано с учетом опыта использования статистических пакетов прикладных программ в учебном процессе по курсам «Методы социально- экономического прогнозирования», «Эконометрика», «Эконометрическое моделирование», читаемым для студентов направлений подготовки 09.03.03 «Прикладная информатика», 38.03.01 «Экономика», 38.05.01 «Экономическая безопасность», 38.03.05 «Бизнес-информа- тика». Пособие содержит достаточное количество иллюстраций и примеров, детальный перевод всех необходимых команд и терминов и призвано облегчить пользователям работу по исследованию социально-экономических явлений и процессов при использовании пакетов обработки данных. Пособие предназначено для студентов, аспирантов, преподавателей и научных сотрудников, занимающихся применением методов моделирования при анализе социально-экономических процессов.
Глава 1 ВВЕДЕНИЕ В РЕГРЕССИОННЫЙ АНАЛИЗ 1.1. ПАРНАЯ РЕГРЕССИЯ Регрессионный анализ представляет собой статистический метод анализа зависимости случайной величины y от переменных 𝑥, определяемых в качестве неслучайных величин в независимости от их истинного закона распределения. Различие простой (парной) и множественной регрессии обусловлено числом объясняющих переменных, включаемых в уравнение регрессии. Простая регрессия – это зависимость между двумя величинами 𝑦 и 𝑥, т.е. модель вида 𝑦̂ = 𝑓(𝑥), где 𝑦 – результативный признак (зависимая, объясняемая переменная); 𝑥 – признак-фактор (независимая, объясняющая переменная). Множественная регрессия – это модель результативного признака от двух и более объясняющих переменных (регрессоров), т.е. уравнение вида 𝑦̂ = 𝑓(𝑥1, 𝑥2, … , 𝑥𝑛 ). На практике в каждом отдельном случае величина результативного признака содержит два слагаемых: 𝑦𝑗 = 𝑦̂𝑥𝑗 + 𝜀𝑗, где 𝑦𝑗 – наблюдаемая величина результативного признака; 𝑦̂𝑥𝑗 – расчетное (теоретическое) значение объясняемой переменной, найденное исходя из уравнения регрессии между 𝑦 и 𝑥; 𝜀𝑗 – случайная (стохастическая) компонента, называемая возмущением. Данная величина характеризует отклонение наблюдаемой величины результативного признака от теоретического значения, найденного исходя из уравнения связи. Ее значение включает влияние неучтенных в модели факторов, случайных ошибок и особенностей измерения.
При построении парной модели выбор вида математической функции может быть осуществлен тремя способами: - графическим; - аналитическим; - экспериментальным. Линейная регрессия Гиперболическая регрессия 𝑦̂𝑥 = 𝑎 + 𝑏𝑥 𝑦̂𝑥 = 𝑎 + 𝑏 ∙ 1 𝑥 Степенная регрессия 𝑦̂𝑥 = 𝑎 ∙ 𝑥𝑏 В том случае если линия регрессии проходит через все точки диа- граммы рассеяния (корреляционного поля), то фактические значения ре- зультативного признака совпадают с расчетными величинами. Величина остаточной дисперсии в таком случае равна нулю. На практике, как пра- вило, имеет место существование некоторого разброса точек относи- тельно линии регрессии. Данное рассеивание обусловлено воздействием прочих неучтенных в регрессионной модели факторов, т.е. присутствуют отклонения фактических данных от теоретических значений (𝑦 − 𝑦̂𝑥). Численный размер отклонений представляет собой основу вычисле- ния остаточной дисперсии y y x x 0 0 y x 0
Дост = 1 𝑛 ∑(𝑦 − 𝑦̂𝑥)2. Модель регрессии более точно описывает наблюдаемое явление при минимальной величине остаточной дисперсии. В случае моделирования данных с помощью ЭВМ производится перебор различных математиче- ских функций, и из них выбирают уравнение, для которого величина остаточной дисперсии минимальна. Модель регрессии в линейном виде сводится к уравнению вида 𝑦̂𝑥 = 𝑎 + 𝑏𝑥 или 𝑦̂𝑥 = 𝑎 + 𝑏𝑥 + 𝜀. Построение линейной регрессии представляет собой процесс оцени- вания ее параметров. Существуют различные подходы к оцениванию па- раметров линейной функции, при этом классический подход основан на методе наименьших квадратов (МНК). Данный метод позволяет опреде- лить такие оценки 𝑎 и 𝑏, при величине которых сумма квадратов откло- нений наблюдаемых значений результативного признака y от теоретиче- ских величин 𝑦̂𝑥 будет минимальной: ∑(𝑦 − 𝑦̂𝑥)2 → min, т.е. из всей совокупности прямых линий линия регрессии определяется таким образом, чтобы сумма квадратов расстояний по вертикали между точками, отстоящими от прямой регрессии, и данной линией была наименьшей: 𝜀𝑖 = 𝑦 − 𝑦̂𝑥, ∑ 𝜀𝑖 2 → min. Для определения минимума функции требуется взять частные произ- водные по каждому из параметров 𝑎 и 𝑏 и приравнять их к нулю. Обозначив ∑ 𝜀𝑖 2 через S, получим 𝑆 = ∑(𝑦 − 𝑦̂𝑥)2 = ∑(𝑦 − 𝑎 − 𝑏 ∙ 𝑥)2; { 𝑑𝑆 𝑑𝑎 = −2 ∑ 𝑦 + 2 ∙ 𝑛 ∙ 𝑎 + 2 ∙ 𝑏 ∑ 𝑥 = 0, 𝑑𝑆 𝑑𝑏 = −2 ∑ 𝑦 ∙ 𝑥 + 2 ∙ 𝑎 ∑ 𝑥 + 2 ∙ 𝑏 ∑ 𝑥2 = 0. В полученной системе разделим оба уравнения на 2, на основе чего формируется следующая система нормальных уравнений для оценки па- раметров 𝑎 и 𝑏: { 𝑛𝑎 + 𝑏 ∑ 𝑥 = ∑ 𝑦, 𝑎 ∑ 𝑥 + 𝑏 ∑ 𝑥2 = ∑ 𝑦𝑥.
Решение указанной системы нормальных уравнений при их предвари- тельном делении на 𝑛 позволяет определить искомые оценки параметров 𝑎 и 𝑏: 𝑎 = 𝑦 − 𝑏 ⋅ 𝑥, 𝑏 = cov(𝑥, 𝑦) 𝜎𝑥2 = 𝑦 ∙ 𝑥 ̅̅̅̅̅̅ − 𝑦̅ ∙ 𝑥̅ 𝑥2 ̅̅̅ − (𝑥̅)2 , где 𝑦 – среднее значение признака-результата; 𝑥 – среднее значение регрессора; 𝑦 ∙ 𝑥 ̅̅̅̅̅̅ – среднее значение из произведений результата и регрессора; 𝑥2 ̅̅̅ – среднее значение квадратов регрессора; (𝑥̅)2 – квадрат среднего значения регрессора. Коэффициент 𝑏 представляет собой коэффициент модели, величина которого характеризует среднее изменение объясняемой переменной при изменении объясняющей переменной на 1 единицу шкалы ее измерения. Регрессионная модель обычно дополняется характеристиками тесноты взаимосвязи. В случае линейной регрессии тесноту связи изучаемых пере- менных оценивает линейный коэффициент парной корреляции 𝑟𝑥𝑦 = 𝑦 ∙ 𝑥 ̅̅̅̅̅̅ − 𝑦̅ ∙ 𝑥̅ 𝜎𝑥 ∙ 𝜎𝑦 = 𝑏 ∙ 𝜎𝑥 𝜎𝑦 , где 𝜎𝑥 = √ 1 𝑛 ∑ (𝑥𝑖 − 𝑥 )2 𝑛 𝑖=1 – среднеквадратическое отклонение признака- фактора; 𝜎𝑦 = √ 1 𝑛 ∑ (𝑦𝑖 − 𝑦 )2 𝑛 𝑖=1 – среднеквадратическое отклонение результа- тивного признака. Парный коэффициент корреляции изменяется в диапазоне [−1 ; + 1]. В том случае если коэффициент регрессии 𝑏 > 0, то 0 ≤ 𝑟𝑥𝑦 ≤ 1; при 𝑏 < 0 парный коэффициент корреляции −1 ≤ 𝑟𝑥𝑦 ≤ 0. Оценку качества подобранной линейной функции позволяет охарак- теризовать квадрат линейного коэффициента корреляции – коэффици- ент детерминации. Его величина определяет долю дисперсии резуль- тата, объясняемую регрессионной моделью, в общей дисперсии объясня- емой переменной: 𝑟𝑥𝑦 2 = 𝜎𝑦объясн. 2 𝜎𝑦общ. 2 = ∑(𝑦̂𝑥 − 𝑦)2 ∑(𝑦 − 𝑦)2 . Величина (1 – 𝑟2) описывает долю дисперсии признака-результата y, определяемую воздействием остальных, не учтенных в модели факторов.
Оценить качество построенной модели возможно также при исполь- зовании средней ошибки аппроксимации – среднего отклонения теоре- тических величин от фактических данных: 𝐴 = 1 𝑛 ∑ |𝑦 − 𝑦 ∧ 𝑦 | ⋅ 100, %. Допустимый предел значений 𝐴 варьирует в пределах 8-10 %. Оценивание статистической значимости коэффициентов регрессии и корреляции основывается на использовании t-критерия Стьюдента и доверительных интервалов каждого из параметров модели. При этом выдвигается нулевая гипотеза 𝐻0 относительно случайной природы оцениваемых показателей, т.е. о незначимом их отличии от нуля. Далее на основе t-критерия Стьюдента производится сопоставление значений параметров модели и коэффициента корреляции с величиной случайной ошибки: 𝑡𝑎 = 𝑎 𝑚𝑎 ; 𝑡𝑏 = 𝑏 𝑚𝑏 ; 𝑡𝑟𝑥𝑦 = 𝑟𝑥𝑦 𝑚𝑟𝑥𝑦 . Случайные ошибки оценок параметров линейной модели и коэффициента корреляции рассчитывают по формулам 𝑚𝑎 = √((𝑦 − 𝑦̂𝑥)2/(𝑛 − 2)) ∙ ∑ 𝑥2 𝑛𝜎𝑥 ; 𝑚𝑏 = √((𝑦 − 𝑦̂𝑥)2/(𝑛 − 2)) 𝜎𝑥√𝑛 ; 𝑚𝑟𝑥𝑦 = √1 − 𝑟𝑥𝑦 2 𝑛 − 2 . Из условия 𝑡табл (α; ν = n – 2) определяется критическое значение t-критерия. Сравнение наблюдаемого и критического (табличного) значений t-критерия (|𝑡факт| и 𝑡табл) позволяет принять или отвергнуть нулевую гипотезу 𝐻0. В случае если 𝑡табл < |𝑡факт|, то гипотеза 𝐻0 отклоняется, т.е. 𝑎, 𝑏 и 𝑟𝑥𝑦 не случайным образом отличаются от нуля, а сформированы под воздействием систематически действующего фактора x. В случае если 𝑡табл > |𝑡факт|, то нет оснований отклонить нулевую гипотезу 𝐻0, и при- знается случайная природа формирования 𝑎, 𝑏 или 𝑟𝑥𝑦.
Определение доверительных интервалов оценок параметров регрес- сии основано на вычислении предельной ошибки Δ для каждого показа- теля: ∆𝑎= 𝑡табл𝑚𝑎, ∆𝑏= 𝑡табл𝑚𝑏. Формулы для расчета доверительных интервалов имеют следую- щий вид: 𝛾𝑎 = 𝑎 ± ∆𝑎; 𝛾𝑎min = 𝑎 − ∆𝑎; 𝛾𝑎max = 𝑎 + ∆𝑎; 𝛾𝑏 = 𝑏 ± ∆𝑏; 𝛾𝑏min = 𝑏 − ∆𝑏; 𝛾𝑏max = 𝑏 + ∆𝑏. При попадании нулевого значения в границы доверительного, т.е. при фиксировании отрицательной нижней границы и положительной верх- ней границы, принимают оцениваемый параметр равным нулю, так как он не может одновременно являться и положительной, и отрицательной величиной. Определение качества модели регрессии основано на проверке ну- левой гипотезы 𝐻0 о статистической незначимости уравнения регрес- сии и показателя тесноты связи. Оценка осуществляется на основе срав- нения наблюдаемого 𝐹факт и критического (табличного) 𝐹табл значений F-критерия Фишера. 𝐹факт находится из соотношения значений фактор- ной и остаточной дисперсий, рассчитанных на одну степень свободы: 𝐹факт = 𝑟𝑥𝑦 2 1 − 𝑟𝑥𝑦 2 (𝑛 − 2), где 𝑛 – число единиц выборки. 𝐹табл представляет собой максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Из условия 𝐹табл (α; ν1 = 1; ν2 = n – 2), где n – число единиц выборки, определяется критическая величина критерия. Уровень значимости α представляет собой вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимают равным 0,05 или 0,01. В случае если 𝐹табл < 𝐹факт, то нулевая гипотеза 𝐻0 относительно слу- чайной природы уравнения регрессии отклоняется и признается его ста- тистическая значимость и надежность. В случае если 𝐹табл > 𝐹факт, то нет оснований отвергнуть нулевую гипотезу 𝐻0 и признается статистическая незначимость, ненадежность уравнения регрессии.
Доступ онлайн
В корзину