Итоговый проект

Часть 2 · Гипотезы и регрессия

Проверка гипотез (α = 0.05)

Welch t-test

Цена: бензин vs дизель

H₀
Средняя цена бензиновых и дизельных авто одинакова
H₁
Средняя цена различается
Статистика
-2.1385
p-value
0.03267
H₀ отвергаем

Различие статистически значимо — цены отличаются.

One-way ANOVA

Цена по типу коробки передач

H₀
Средняя цена не зависит от типа коробки передач
H₁
Хотя бы для одного типа КПП средняя цена отличается
Статистика
0.0088
p-value
0.92526
H₀ не отвергаем

Влияние типа КПП статистически не подтверждено.

Pearson r = -0.009

Связь цены и пробега

H₀
Корреляция между пробегом и ценой равна 0
H₁
Существует значимая корреляция
Статистика
-0.0086
p-value
0.66853
H₀ не отвергаем

Линейная связь не обнаружена.

Множественная линейная регрессия (OLS)

0.007
Adj R²0.003
RMSE train27190
RMSE test27434
MAE test23702

Коэффициент детерминации R²=0.007 (adj=0.003) — очень низкое качество. R² показывает долю дисперсии цены, объяснённую признаками. Adj R² штрафует за лишние предикторы.

Коэффициенты

ПризнакКоэф.p-value
Intercept517251.12
Year -229.1858 0.0089
EngineSize 54.1164 0.8991
Mileage -0.0049 0.4810
fuel_Electric -3019.8495 0.0777
fuel_Hybrid -2814.4600 0.1024
fuel_Petrol -3299.7821 0.0520
trans_Manual 177.1393 0.8846
cond_New -2269.5398 0.1310
cond_Used -1110.0673 0.4553

Анализ остатков

  • Среднее остатков-0.0000
  • Std27196.76
  • Skew-0.011
  • Kurtosis-1.196
Residuals

Остатки vs предсказания

Случайное облако вокруг нуля = модель адекватна.

Q-Q plot

Q-Q график

Точки на диагонали = остатки распределены нормально.