- Alfa Challenge
- Tabular classification problem.
- The training data is transactions time-series for 100k clients of the bank.
- The evaluation metric is MAE.
- Target is one of seven classes representing a next month balance group.
- Achieved first place with a huge gap.
- Feature generation
- tsfresh
- автогенерации tsfresh для временных рядов в разрезе дня, недели, месяца с разными аггрегациями по amount
- pytorch-lifestream
- Эмбеддинги coles
- Статистики и аггрегаты
- Общие для client_num
- Amount в разрезе часа, дня, недели, месяца
- Аггрегаты в проекции на mcc_codes
- Временные статистики - расстояние между первой и последней транзакцией и другие.
- tsfresh
- Feature selection
- С помощью встроенного в CatBoost
select_features
сначала до 1000 фичей, потом до 500.
- С помощью встроенного в CatBoost
- Modelling
- Кроссвалидация и усреднение 5 моделей для каждого лосса
- Catboost with MAE loss
- Отнимаю 0.5 от предсказаний, чтобы сместить предсказания, так как WMAE метрика в сореве даёт больший вес близким к 0 таргетам.
- Лучшее качество при обучении на всех фичах
- Catboost with MAPE loss
- В теории должен смещать предсказания ближе к 0 из-за несимметричности MAPE.
- Лучшее качество получается при обучении на топ-500 фичах.
- Blend
- Объединяю две модели с весами 0.5