Описание задачи:
В рамках проекта планируется разработка трёх моделей машинного обучения для телеком-оператора:
- Модель оттока (churn prediction) — по трём временным горизонта
- Модель Next Best Offer (NBO) — персонализированные рекомендации тарифов и услуг
- Модель чувствительности к изменению тарифа — прогноз реакции абонента на изменение условий, по двум горизонтам
Тип моделей: классический ML, табличные данные, задача бинарной классификации.
Особенности проекта:
- Расчет фичей для моделей настроен непрерывным пайплайном с ежедневной актуализацией
- Объём данных — ~5Гб (формат parquet), ~15 миллионов строк
- Распределённые вычисления на кластере Hadoop/Spark
- Модели предполагается встроить в текущий пайплайн, добавить регистрацию в MLflow, настроить периодическую актуализацию
Требования:
Фокус: разработка моделей, дополнительный фичеинжениринг, тюнинг, тестирование, оформление документации
Стек: pyspark, python, pandas, scikit-learn, CatBoost
Критичные компетенции:
- Работа с табличными данными и классическим ML (CatBoost, sklearn)
- Знание метрик качества, балансировка классов
- Опыт работы с моделями оттока, NBO или похожими задачами
- Фичеинжениринг (корреляции, отбор, агрегации)
- Умение формализовать гипотезы и оценивать их
Будет плюсом (можно не брать в расчет:
- MLflow (настройка и регистрация моделей)
- Интеграция моделей в пайплайн (Hadoop/Spark)
- Оптимизация ресурсов
- SparkML (распределенные вычисления)