Data Science Middle+

Оплата: По договоренности
Удаленно
Full-time

Описание задачи:

В рамках проекта планируется разработка трёх моделей машинного обучения для телеком-оператора:

  • Модель оттока (churn prediction) — по трём временным горизонта
  • Модель Next Best Offer (NBO) — персонализированные рекомендации тарифов и услуг
  • Модель чувствительности к изменению тарифа — прогноз реакции абонента на изменение условий, по двум горизонтам

Тип моделей: классический ML, табличные данные, задача бинарной классификации.


Особенности проекта:

  • Расчет фичей для моделей настроен непрерывным пайплайном с ежедневной актуализацией
  • Объём данных — ~5Гб (формат parquet), ~15 миллионов строк
  • Распределённые вычисления на кластере Hadoop/Spark
  • Модели предполагается встроить в текущий пайплайн, добавить регистрацию в MLflow, настроить периодическую актуализацию


Требования:

Фокус: разработка моделей, дополнительный фичеинжениринг, тюнинг, тестирование, оформление документации

Стек: pyspark, python, pandas, scikit-learn, CatBoost

 

Критичные компетенции:

  • Работа с табличными данными и классическим ML (CatBoost, sklearn)
  • Знание метрик качества, балансировка классов
  • Опыт работы с моделями оттока, NBO или похожими задачами
  • Фичеинжениринг (корреляции, отбор, агрегации)
  • Умение формализовать гипотезы и оценивать их


Будет плюсом (можно не брать в расчет:

  • MLflow (настройка и регистрация моделей)
  • Интеграция моделей в пайплайн (Hadoop/Spark)
  • Оптимизация ресурсов
  • SparkML (распределенные вычисления)