Машинное обучение

Регуляризованная регрессия (RidgeCV)

Лучшая α1000.0000

CV R² (mean)-0.007

CV R² (std)0.004

Test R²0.001

Test RMSE27516

Регуляризация L2 (Ridge) подавляет дисперсию коэффициентов и помогает, когда часть признаков коррелирует. Лучшее α подобрано кросс-валидацией: α=1000.0000. Если test R² близок к CV R², модель не переобучилась.

Кластеризация (KMeans, k = 4)

Inertia5996

Silhouette0.192

Elbow — Метод локтя
Излом графика подсказывает оптимальное число кластеров.

Clusters — Кластеры
Цветом показана принадлежность кластеру в осях Пробег/Цена.

Профили кластеров

Кластер	Размер	Год (среднее)	Объём двиг.	Пробег	Средняя цена
#0	619	2005.2	3.16	225667	55748
#1	640	2010.6	4.89	83233	56121
#2	633	2012.4	2.13	78036	51737
#3	608	2018.4	3.67	217139	46744

Применение Generative AI для обогащения датасета

Генерация синтетических наблюдений (например, через табличные модели CTGAN или TabDDPM) позволяет увеличить объём редких категорий — например, премиум-сегмент или электромобили.
Балансировка классов в задаче кластеризации/классификации: GAN-модель даёт сэмплы, повторяющие совместное распределение признаков, что снижает смещение модели.
LLM-агенты могут обогащать датасет внешними признаками (например, средняя цена топлива по году) и нормализовывать названия моделей и брендов.
Diffusion-модели применяются для аугментации картинок автомобилей, если в датасет добавляются изображения. Это улучшает мультимодальные сценарии оценки стоимости.
Главные риски: data leakage и снижение разнообразия — синтетика обязана проходить валидацию через статистические тесты (KS-test, корреляции) и hold-out проверку модели.

Регуляризованная регрессия (RidgeCV)

Кластеризация (KMeans, k = 4)

Метод локтя

Кластеры

Профили кластеров

Применение Generative AI для обогащения датасета