В курсовом проекте необходимо провести на основании данных Росстата за 2023 год «Доля внутренних затрат на исследования и разработки в валовом региональном продукте (ВРП)» (файл Excel) в соответствии со своим вариантом 1 по округам: Центрального, Северо-Западного, Северо-Кавказского и Приволжского.
В курсовом проекте необходимо сделать следующее:
- найти точечные оценки данных;
- исследовать элементы одного из округов на выбросы с помощью критериев Романовского и Шовине, а также все элементы выборки исследовать на аномальные значения;
- проверить гипотезу на нормальное распределение при помощи статистических критериев;
- построить доверительный интервал для оценки математического ожидания нормального распределенияю
ЗАДАЧА 1
Для точечной оценки были использованы все регионы из округов:
Центрального
Северо-Западного
Северо-Кавказского
Приволжского
Всего наблюдений: 51 регион.
Полученные значения представлены в таблице 1.
Таблица 1 – Полученные результаты точечной оценки
Далее, была проведена проверка правила мажорантности средних:
Подставляем:
Неравенство выполняется полностью.
Мажорантность средних соблюдается, что подтверждает корректность исходных данных и отсутствие математических противоречий.
На рисунке 1 представлено «облако точек исходных данных» и прямая 𝑥ср = 𝑥̅.
Рисунок 1 - «Облако точек исходных данных» и прямая 𝑥ср = 𝑥̅.
2. Далее, были исследованы элементы Северо-Кавказского Федерального округа на выбросы с помощью критериев Романовского и Шовине.
Основные показатели:
n = 7
Для каждого наблюдения считается критерий Романовского по формуле:
Максимальное значение β ≈ 1.80 (для Карачаево-Черкесской Республики, x = 0.60).
По таблицам критерия Романовского при n = 7 и уровне значимости 5% критическое значение βₖр > 2 (для n = 6 приводится βкр ≈ 2,1, для n = 7 оно чуть меньше, но всё равно больше 1,8).
По критерию Романовского грубых выбросов нет, ни одно значение не подлежит исключению.
Далее был рассчитан критерий Шовине по формулам:
— вероятность отклонения не менее zᵢ для нормального закона.
— ожидаемое число таких отклонений.
Правило Шовене: значение считается выбросом, если n·P < 0,5.
Для всех регионов n·P > 0,5, кроме Карачаево-Черкесской Республики (x = 0,60):
z ≈ 1,804
P ≈ 0,071
n·P ≈ 0,499 (очень близко к 0,5, чуть меньше)
В столбце «Флаг Шовене» это значение помечено как «выброс» (по формальному правилу).
По критерию Шовене x = 0,60 — пограничный выброс (сомнительное значение), остальные — нормальные.
Статистика Граббса для одного выброса:
Критическое значение при n=7 и α=0,05 для двустороннего теста:
Gₖр = 2,020.
В Excel (лист 2) это оформлено:
Gнабл (макс z) — формула =MAX(E..)
Gкр (α=0,05, n=7) = 2,020
Итог: «есть выброс / нет выбросов».
Поскольку:
Таким образом, по критерию Граббса выбросов нет, даже значение 0,60 остаётся в выборке.
Критерий Ирвина работает с разностями соседних элементов вариационного ряда:
На листе 2 в Excel:
Данные отсортированы по возрастанию xᵢ.
Для каждой пары соседних значений посчитаны:
Фактически все λᵢ оказываются умеренными, ни одна разность резко не выбивается. Критические значения λкр зависят от n и уровня значимости и задаются таблицей, но при таких z и Δ_i значений, как у нас, сильных скачков нет.
По критерию Ирвина аномальных точек не выявлено.
Критерий Шарлье, согласно методичкам, применяется для больших выборок (n > 20), а у нас n = 7. Поэтому его корректное применение к данной выборке невозможно.
Критерий Райта («3σ»). Проверяем условие:
Максимальное отклонение:
max |x_i – x̄| ≈ 0,336 (для 0,60)
3s ≈ 3 · 0,1861 ≈ 0,558
Поскольку — ни одно значение не превышает порог 3σ.
По критерию Райта («3σ») выбросов нет — и без сомнительных, и с учётом сомнительного значения.
«Коробчатая диаграмма» (boxplot) — эксклюзивная и инклюзивная медианы. На листе 2 была сделана таблица для Excel:
Инклюзивные квартильные оценки:
Q1 ≈ 0,11
Q2 (медиана) ≈ 0,24
Q3 ≈ 0,35
IQR ≈ 0,24
Нижняя граница: Q1 – 1,5·IQR ≈ −0,25
Верхняя граница: Q3 + 1,5·IQR ≈ 0,71
Рисунок 2 - Коробчатая диаграмма
Для эксклюзивных квартильных оценок формулы аналогичны и для столь малой выборки значения очень близки.
Все xᵢ лежат в интервале:
По «коробчатой диаграмме» выбросов нет, ни одно значение не выходит за усы ни при эксклюзивной, ни при инклюзивной медиане.
Работаем с СКФО, 7 наблюдений:
Основные характеристики:
По правилу Стерджеса: интервала.
min = 0.09
max = 0.60
размах
ширина интервала
Интервалы и частоты представлены в таблице 2.
Таблица 2 - Интервалы и частоты
Рисунок 3 – Гистограмма плотности
Большая часть наблюдений лежит в первых двух интервалах (0,09–0,345).
Имеется удлинённый правый хвост (интервалы с 0,345 до 0,6, небольшие частоты).
Распределение асимметрично вправо, но без грубых выбросов.