Прогнозирование количества заказов такси на следующий час
Описание проекта
Компания "Жёлтый путь" собрала исторические данные о заказах такси в аэропортах. Цель проекта - разработать модель для прогнозирования количества заказов такси на следующий час, чтобы привлекать больше водителей в периоды пиковой нагрузки.
Целевая метрика: RMSE на тестовой выборке должна быть не более 48.
Структура проекта
- Подготовка данных
- Загрузка и ресемплинг данных по часам
- Исследование временного ряда (тренды, сезонность)
- Создание признаков (лаги, скользящие статистики и др.)
- Анализ данных
- Визуализация временного ряда
- Разведочный анализ (EDA)
- Проверка на стационарность
- Построение и оценка моделей
- Линейная регрессия
- Решающие деревья
- Градиентный бустинг (CatBoost, LightGBM)
- Подбор гиперпараметров
- Оценка качества моделей
- Выводы и рекомендации
- Выбор лучшей модели
- Интерпретация результатов
- Рекомендации по использованию
Используемые технологии
- Python
- Pandas, NumPy
- Scikit-learn, CatBoost, LightGBM
- Statsmodels
- Matplotlib, Seaborn
Ключевые этапы
- Загрузка и предварительная обработка данных
- Генерация признаков для временного ряда
- Разделение данных на обучающую и тестовую выборки
- Обучение и оценка различных моделей
- Подбор гиперпараметров с кросс-валидацией
- Анализ результатов и выбор лучшей модели