Прикладная статистика
Покупка
Новинка
Издательство:
ФЛИНТА
Год издания: 2024
Кол-во страниц: 100
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-9765-5410-8
Артикул: 825867.01.99
Доступ онлайн
В корзину
Рассматриваются вопросы сбора и первичной обработки информации, общие подходы к тестированию статистических гипотез. Для некоторых классов задач показано, как производится анализ статистических связей и делаются статистические выводы. Для каждого класса приведены формальные постановки и содержательные примеры, показаны методы решения.
Большинство примеров, представленных в пособии, являются реальными и взяты авторами из собственной практики.
Для студентов и аспирантов высших учебных заведений, использующих прикладную статистику в качестве инструмента анализа данных.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.01: Математика
- 01.03.02: Прикладная математика и информатика
- 01.03.04: Прикладная математика
- 01.03.05: Статистика
- ВО - Специалитет
- 01.05.01: Фундаментальные математика и механика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Министерство науки и высшего образования Российской Федерации Уральский федеральный университет имени первого Президента России Б. Н. Ельцина С. И. Солодушкин И. Ф. Юманова ПРИКЛАДНАЯ СТАТИСТИКА Учебное пособие 2-е издание, стереотипное Москва Екатеринбург Издательство «ФЛИНТА» Издательство Уральского университета 2024 2024
УДК 519.2(075.8) ББК 22.172я73 С60 Р е ц е н з е н т ы: кафедра прикладной математики и технической графики Уральского государственного архитектурно-художественного университета (зав. кафедрой д-р физ.-мат. наук, проф. С. С. Титов); А. Б. Ложников, канд. физ.-мат. наук, доцент, старший научный сотрудник отдела дифференциальных уравнений Института математики и механики УрО РАН С60 Солодушкин С. И. Прикладная статистика : учеб. пособие / С. И. Солодушкин, И. Ф. Юманова. – 2-е изд., стер. – Москва : ФЛИНТА ; Екатеринбург : Изд-во Урал. ун-та, 2024. – 100 с. : ил. – ISBN 978-5-9765-5410-8 (ФЛИНТА) ; ISBN 978-5-7996-3829-0 (Изд-во Урал. ун-та). – Текст : электронный. Рассматриваются вопросы сбора и первичной обработки информации, общие подходы к тестированию статистических гипотез. Для некоторых классов задач показано, как производится анализ статистических связей и делаются статистические выводы. Для каждого класса приведены формальные постановки и содержательные примеры, показаны методы решения. Большинство примеров, представленных в пособии, являются реальными и взяты авторами из собственной практики. Для студентов и аспирантов высших учебных заведений, использующих прикладную статистику в качестве инструмента анализа данных. УДК 519.2(075.8) ББК 22.172я73 ISBN 978-5-9765-5410-8 (ФЛИНТА) © Уральский федеральный университет, 2024 ISBN 978-5-7996-3829-0 (Изд-во Урал. ун-та) © Солодушкин С. И., Юманова И.Ф., 2024
Предисловие В настоящее время в связи с цифровизацией многих сфер деятельности поток информации, доступной исследователям, стал по- истине огромным. При этом справедливым остается тезис: данных много, а знаний мало. В связи с этим уделяется большое внимание извлечению знаний из неструктурированных, зашумленных первич- ных данных. Мы свидетели становления, по сути, нового направления в нау- ке — анализа данных. Соответственно, бизнес и наука ставят перед высшим образованием задачу подготовки специалистов, способных этот анализ данных проводить. Наряду с нейронными сетями важ- ным методом анализа данных является статистика. Учебное пособие «Прикладная статистика» написано авторами на основе опыта чтения одноименного курса в Уральском федераль- ной университете. Цель курса — изучение методов сбора и первичной обработки информации, проверки статистических гипотез, анализа статистических связей. Пособие разбито на главы. Каждая глава соответствует одной рассматриваемой на занятиях теме и содержит необходимые теоре- тические сведения, примеры, всесторонне иллюстрирующие теорию. В конце глав даются задания для самоконтроля. Авторы пособия — математики по образованию — в течение мно- гих лет участвовали в клинических исследованиях, проводили ста- тистический анализ медицинских данных. Большинство примеров, представленных в пособии, являются реальными и взяты авторами из собственной практики. Работа выполнена в рамках исследований Уральского математи- ческого центра.
1.Выборочный метод 1.1. Предмет и задачи статистики Прикладная статистика — раздел математики, в котором разра- батываются методы регистрации, описания и анализа данных наблю- дений и экспериментов с целью построения вероятностных моделей массовых случайных явлений. Предметом прикладной статистики является изучение законо- мерностей, которым подчиняются массовые случайные явления и процессы, с применением методов теории вероятностей. Первая задача прикладной статистики — указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или специально поставленных экспериментов. Вторая задача прикладной статистики — разработать методы анализа стати- стических данных в зависимости от целей исследования. Сюда отно- сятся оценка неизвестной вероятности события, оценка неизвестной функции распределения, оценка параметров распределения, оценка зависимости случайной величины от одной или нескольких случай- ных величин и т. д. Итак, задача прикладной статистики заключается в разработке методов сбора и обработки статистических данных для получения научных и практических выводов. Основным методом изучения мас- совых случайных явлений в прикладной статистике является выборочный метод, суть которого состоит в том, что суждение обо всем множестве изучаемых объектов выносится на основе наблюдения за некоторой (возможно, относительно малой) частью. Неформальное описание выборочного метода дано в следующем параграфе, а необ- ходимая формализация будет проведена позже, после введения по- нятия случайной величины. Фундаментом прикладной статистики является математическая статистика. Прикладную статистику нельзя целиком относить к ма- тематике, поскольку она включает в себя две внематематические об- 4
ласти: методологию организации статистического исследования и ор- ганизацию компьютерной обработки данных, в том числе разработку и использование баз данных, электронных таблиц, статистических программных продуктов и систем анализа данных. 1.2. Основные понятия выборочного метода: генеральная совокупность и выборка Пусть требуется изучить, как в совокупности однородных объек- тов распределен некоторый качественный или количественный при- знак, характеризующий эти объекты. Например, имеется множество банковских заемщиков, качественным признаком каждого из них мо- жет служить пол, а количественным — годовой доход в рублях. Иногда проводят сплошное обследование, т. е. для каждого из объектов совокупности изучается интересующий признак. На практике, од- нако, сплошное обследование применяют сравнительно редко. Так, если население города очень большое, то провести сплошное обсле- дование всех жителей физически невозможно. Или, например, если обследование прибора связано с его разрушением, требует больших материальных затрат, то в этом случае проводить сплошное обсле- дование практически не имеет смысла. В таких ситуациях случайно отбирают из всей совокупности ограниченное число объектов и под- вергают их изучению. Определение 1. Выборочной совокупностью, или просто выбор- кой, называют совокупность случайно отобранных объектов. При этом выборку осуществляют из генеральной совокупности. Определение 2. Генеральной совокупностью называют совокуп- ность всех объектов, относительно которых предполагается де- лать выводы при изучении конкретной задачи. Генеральная совокупность состоит из всех объектов, которые имеют качества, свойства, интересующие исследователя. 5
Вопрос отбора объектов из генеральной совокупности отнюдь не является тривиальным, и от способа организации этого отбора за- висит качество выборки. Для того чтобы по данным выборки мож- но было достаточно уверенно судить об интересующем признаке ге- неральной совокупности, необходимо, чтобы объекты выборки пра- вильно его представляли. Другими словами, выборка должна пра- вильно представлять пропорции генеральной совокупности. Это тре- бование коротко формулируют так: выборка должна быть репрезен- тативной (представительной). В силу закона больших чисел [1] можно утверждать, что выбор- ка будет репрезентативной, если ее осуществить случайно: каждый объект выборки отобран из генеральной совокупности случайно, т. е. никаким объектам при отборе не отдается предпочтение. Одним из наиболее известных исторических примеров нерепре- зентативной выборки считается случай, происшедший во время пре- зидентских выборов в США в 1936 г. Журнал «Литерари Дай- джест», успешно прогнозировавший события нескольких предше- ствующих выборов, ошибся в своих предсказаниях, разослав 10 млн пробных бюллетеней своим подписчикам, а также людям, выбран- ным по телефонным книгам всей страны, и людям из регистрацион- ных списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 млн) голоса были распределены следующим образом: 1) 57 % отдавали предпочтение кандидату-республиканцу А. Лэн- дону; 2) 40 % выбрали действующего в то время президента-демократа Ф. Рузвельта. На выборах же, как известно, победил Рузвельт, набрав более 60 % голосов. Ошибка «Литерари Дайджест» заключалась в сле- дующем: желая увеличить репрезентативность выборки, работники журнала, которым было известно, что большинство их подписчиков считают себя республиканцами, расширили выборку за счет людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных реалий и набрали еще больше республи- 6
канцев: во время Великой депрессии обладать телефонами и авто- мобилями могли себе позволить в основном представители среднего и высшего класса (т. е. большинство республиканцев, а не демокра- тов). Одна и та же выборка может рассматриваться как репрезентатив- ная и как нерепрезентативная в зависимости от того, на какую ге- неральную совокупность исследователь желает распространить свои выводы. П р и м е р. Выборка составлена по результатам периодическо- го медицинского осмотра работников Богословского алюминиевого завода (выявление бронхолегочной патологии). Но если ставится за- дача исследования структуры бронхолегочной патологии жителей Свердловской области, то такую выборку следует считать нерепре- зентативной. Однако при исследовании структуры бронхолегочной патологии работников алюминиевого производства в Российской Фе- дерации та же самая выборка может считаться репрезентативной. 1.3. Понятие случайной величины Строгое определение случайной величины требует привлечения понятийного аппарата теории функций вещественной переменной, но в рамках настоящего учебного пособия этого делать не нужно. Для изложения дальнейшего материала нам достаточно лишь обще- го понимания того, что собой представляет случайная величина, а потому мы ограничимся неформальным определением. Определение 3. Случайная величина — это величина, которая в результате испытания принимает одно и только одно возможное значение, наперед неизвестное и зависящее от случайных причин, которые заранее не могут быть учтены. П р и м е р 1. Число мальчиков из 100 новорожденных есть ве- личина случайная, возможные значения которой: 0, 1, 2, . . . , 100. П р и м е р 2. Дневная выручка магазина, выраженная в рублях. 7
П р и м е р 3. Среднесуточная температура в январе в Москве. Будем далее обозначать случайные величины прописными бук- вами X, Y, Z, а их возможные значения — соответствующими строч- ными буквами x, y, z. Например, если случайная величина X имеет три возможных значения, то они будут обозначены так: x1, x2, x3. Разберем примеры 1 – 3. В первом из них случайная величина X могла принять одно из следующих возможных значений: 0, 1, 2, . . . , 100. Эти значения отделены одно от другого промежутками, в ко- торых нет возможных значений X. Таким образом, в этом примере случайная величина принимает отдельные, изолированные возмож- ные значения. Во втором примере случайная величина также могла принимать только целочисленные неотрицательные значения, хотя ее границы точно неизвестны. В третьем примере случайная величи- на могла принять любое из значений промежутка (a, b). Здесь нельзя отделить одно возможное значение от другого промежутком, не со- держащим возможных значений случайной величины. Из сказанного можно сделать вывод о целесообразности разли- чать случайные величины, принимающие лишь отдельные, изолиро- ванные значения, и случайные величины, возможные значения ко- торых сплошь заполняют некоторый промежуток. Определение 4. Дискретной называют случайную величину, ко- торая принимает отдельные, изолированные возможные значения с определенными вероятностями. Число возможных значений дискретной случайной величины мо- жет быть конечным или бесконечным. Определение 5. Непрерывной называют случайную величину, ко- торая может принимать все значения из некоторого конечного или бесконечного промежутка. Очевидно, что число возможных значений непрерывной случай- ной величины бесконечно. 8
Для задания (определения) дискретной случайной величины (ДСВ) необходимо указать все принимаемые ею значения и соот- ветствующие вероятности, т. е. ее закон распределения. Определение 6. Закон распределения дискретной случайной вели- чины — соответствие между возможными значениями и их веро- ятностями. Обычно закон распределения ДСВ представляют в виде таблицы, первая строка которой содержит возможные значения, а вторая — их вероятности. Удобным способом представления закона распре- деления ДСВ является графический. При этом на оси абсцисс от- кладывают варианты xi, а на оси ординат — соответствующие им вероятности pi. Задание закона распределения в виде таблицы требует перечисления всех значений случайной величины. Очевидно, что такой спо- соб задания неприменим для непрерывных случайных величин, со- ответственно, необходимо дать общий способ задания любых типов случайных величин. С этой целью вводят функции распределения вероятностей случайной величины. Пусть x — действительное число. Вероятность события, состоя- щего в том, что случайная величина X примет значение, меньшее x (т. е. вероятность события X < x), обозначим через FX(x). Разуме- ется, если x изменяется, то, вообще говоря, изменяется и FX(x), т. е. FX(x) есть функция от x. Определение 7. Функцией распределений случайной величины X называется функция FX(x), определяющая вероятность того, что случайная величина X в результате испытания примет значение, меньшее x, т. е. P(X < x) = FX(x). Геометрически это равенство можно истолковать так: FX(x) есть вероятность того, что случайная величина X примет значение, ко- торое лежит на числовой оси левее точки x. 9
В терминах функции распределения можно дать более точное определение непрерывной случайной величины: случайную величи- ну называют непрерывной, если ее функция распределения есть непрерывная, кусочно-дифференцируемая функция с непрерывной производной. Другим способом определения непрерывной случайной величины является задание плотности распределения: Определение 8. Плотностью распределения вероятностей непрерывной случайной величины X называют функцию f(x) — первую производную от функции распределения F(x), т. е. f(x) = F ′(x). Зная плотность распределения, можно вычислить вероятность того, что непрерывная случайная величина примет значение, при- надлежащее заданному интервалу. Правило вычисления дает следу- ющее утверждение. Утверждение 1. Вероятность того, что непрерывная случайная величина X примет значение, принадлежащее интервалу (a, b), равна определенному интегралу от плотности распределения, взятому в пределах от a до b : P(a < X < b) = b a f(x)dx. Напомним, что геометрический смысл определенного интегра- ла — площадь под кривой y = f(x) в промежутке от a до b. Это утверждение позволяет раскрыть вероятностный смысл плотности распределения. Вероятность того, что случайная величина примет значение, принадлежащее интервалу (x, x + ∆), приближенно равна произведению плотности вероятности в точке x на длину интервала. Зная плотность распределения, можно найти функцию распре- деления: 10
Доступ онлайн
В корзину