Актуальные заказы по scikit-learn

Data Science Middle+

Удаленно
Full-time

Описание задачи:

В рамках проекта планируется разработка трёх моделей машинного обучения для телеком-оператора:

  • Модель оттока (churn prediction) — по трём временным горизонта
  • Модель Next Best Offer (NBO) — персонализированные рекомендации тарифов и услуг
  • Модель чувствительности к изменению тарифа — прогноз реакции абонента на изменение условий, по двум горизонтам

Тип моделей: классический ML, табличные данные, задача бинарной классификации.


Особенности проекта:

  • Расчет фичей для моделей настроен непрерывным пайплайном с ежедневной актуализацией
  • Объём данных — ~5Гб (формат parquet), ~15 миллионов строк
  • Распределённые вычисления на кластере Hadoop/Spark
  • Модели предполагается встроить в текущий пайплайн, добавить регистрацию в MLflow, настроить периодическую актуализацию


Требования:

Фокус: разработка моделей, дополнительный фичеинжениринг, тюнинг, тестирование, оформление документации

Стек: pyspark, python, pandas, scikit-learn, CatBoost

 

Критичные компетенции:

  • Работа с табличными данными и классическим ML (CatBoost, sklearn)
  • Знание метрик качества, балансировка классов
  • Опыт работы с моделями оттока, NBO или похожими задачами
  • Фичеинжениринг (корреляции, отбор, агрегации)
  • Умение формализовать гипотезы и оценивать их


Будет плюсом (можно не брать в расчет:

  • MLflow (настройка и регистрация моделей)
  • Интеграция моделей в пайплайн (Hadoop/Spark)
  • Оптимизация ресурсов
  • SparkML (распределенные вычисления)



Data Analyst / Scientist

Удаленно
Full-time

В поиске Senior/Lead Data Analyst / Scientist на проект химической компании по оптимизации технологических процессов и диагностики технического оборудования.

Функционал: проектирование, разработка, внедрение, тестирование ПО и информационных систем на основе алгоритмов искусственного интеллекта.


Задачи:

  • Проведение системного анализа бизнес процессов.
  • Обработка функциональных требований, экспертиза в области определения подходов к автоматизации или цифровизации процессов.
  • Разработка проектной документации.
  • Интеграционное тестирование новой функциональности.
  • Выполнение сложных настроек в информационных системах.
  • Обеспечение 3-го уровня поддержки.


Требования:

  • Уверенный опыт работы с Python: Pandas, Numpy, scikit-learn, Scipy, Catboost, Pytorch, TensorFlow, XGBoost, LightGBM, statsmodels, tsfresh, tslearn, shaply, seaborn, matplotlib, plotly, MLflow.
  • Знание и опыт работы с инструментами: MS Office, Jira, Confluence, Git, Grafana, AirFlow.
  • Отличные знания SQL.

Senior NLP Engineer

Удаленно
Full-time

Компания занимает 3-е место в мире по количеству социальных открытий и объединяет людей с помощью онлайн-платформ, ориентированных на искусственный интеллект, игровые технологии и видеостриминг.


Обязанности:

  • Решение задач NLP, таких как суммаризация, классификация, кластеризация, NER, с использованием современных технологий, в том числе LLM;
  • Участие в полном цикле разработки, от постановки задачи до внедрения;
  • Построение пайплайна обработки данных и дообучения LLM для генерации текстов, разработки чат-ботов, RAG-систем;
  • Разработка новых подходов и процессов разметки данных для оценки качества работы LLM;
  • Извлечение данных из различных источников (чтение из файлов, API, базы данных);
  • Участие в формировании требований и необходимых данных по улучшению моделей;
  • Внедрение модели в продакшн, поддержка жизненного цикла модели, мониторинг и обновление.


Требования:

Опыт в роли Data Scientist/LLM engineer более 5 лет

  • Опыт работы в Data Science, связанный с обработкой естественного языка (NLP);
  • Уверенное владение Python, включая библиотеки NumPy, Pandas, Scikit-learn и библиотеки обработки текстовых данных;
  • Практический опыт разработки и внедрения NLP-моделей для классификации, кластеризации текста, NER (Named Entity Recognition) и др;
  • Опыт работы с фреймворками глубокого обучения (TensorFlow/Keras или PyTorch), включая построение, обучение и оценку моделей;
  • Знание архитектур GPT, BERT и других Transformer-моделей;
  • Знание различных метрик оценки качества моделей NLP (precision, recall, F1-score, AUC-ROC и др.), умение выбирать подходящие метрики для конкретной задачи;
  • Опыт вывода моделей в продакшн;
  • Опыт использования инструментов для мониторинга производительности и качества моделей в продакшне будет преимуществом;
  • Опыт внедрения LLM, разработки RAG-агентов, создания собственной LLM и ML-платформы будет преимуществом;
  • Опыт обучения Qwen, работы с llamaindex и Mistral.