Актуальные заказы по pandas

Data Science Middle+

Удаленно
Full-time

Описание задачи:

В рамках проекта планируется разработка трёх моделей машинного обучения для телеком-оператора:

  • Модель оттока (churn prediction) — по трём временным горизонта
  • Модель Next Best Offer (NBO) — персонализированные рекомендации тарифов и услуг
  • Модель чувствительности к изменению тарифа — прогноз реакции абонента на изменение условий, по двум горизонтам

Тип моделей: классический ML, табличные данные, задача бинарной классификации.


Особенности проекта:

  • Расчет фичей для моделей настроен непрерывным пайплайном с ежедневной актуализацией
  • Объём данных — ~5Гб (формат parquet), ~15 миллионов строк
  • Распределённые вычисления на кластере Hadoop/Spark
  • Модели предполагается встроить в текущий пайплайн, добавить регистрацию в MLflow, настроить периодическую актуализацию


Требования:

Фокус: разработка моделей, дополнительный фичеинжениринг, тюнинг, тестирование, оформление документации

Стек: pyspark, python, pandas, scikit-learn, CatBoost

 

Критичные компетенции:

  • Работа с табличными данными и классическим ML (CatBoost, sklearn)
  • Знание метрик качества, балансировка классов
  • Опыт работы с моделями оттока, NBO или похожими задачами
  • Фичеинжениринг (корреляции, отбор, агрегации)
  • Умение формализовать гипотезы и оценивать их


Будет плюсом (можно не брать в расчет:

  • MLflow (настройка и регистрация моделей)
  • Интеграция моделей в пайплайн (Hadoop/Spark)
  • Оптимизация ресурсов
  • SparkML (распределенные вычисления)



Data Analyst / Scientist

Удаленно
Full-time

В поиске Senior/Lead Data Analyst / Scientist на проект химической компании по оптимизации технологических процессов и диагностики технического оборудования.

Функционал: проектирование, разработка, внедрение, тестирование ПО и информационных систем на основе алгоритмов искусственного интеллекта.


Задачи:

  • Проведение системного анализа бизнес процессов.
  • Обработка функциональных требований, экспертиза в области определения подходов к автоматизации или цифровизации процессов.
  • Разработка проектной документации.
  • Интеграционное тестирование новой функциональности.
  • Выполнение сложных настроек в информационных системах.
  • Обеспечение 3-го уровня поддержки.


Требования:

  • Уверенный опыт работы с Python: Pandas, Numpy, scikit-learn, Scipy, Catboost, Pytorch, TensorFlow, XGBoost, LightGBM, statsmodels, tsfresh, tslearn, shaply, seaborn, matplotlib, plotly, MLflow.
  • Знание и опыт работы с инструментами: MS Office, Jira, Confluence, Git, Grafana, AirFlow.
  • Отличные знания SQL.

Senior NLP Engineer

Удаленно
Full-time

Компания занимает 3-е место в мире по количеству социальных открытий и объединяет людей с помощью онлайн-платформ, ориентированных на искусственный интеллект, игровые технологии и видеостриминг.


Обязанности:

  • Решение задач NLP, таких как суммаризация, классификация, кластеризация, NER, с использованием современных технологий, в том числе LLM;
  • Участие в полном цикле разработки, от постановки задачи до внедрения;
  • Построение пайплайна обработки данных и дообучения LLM для генерации текстов, разработки чат-ботов, RAG-систем;
  • Разработка новых подходов и процессов разметки данных для оценки качества работы LLM;
  • Извлечение данных из различных источников (чтение из файлов, API, базы данных);
  • Участие в формировании требований и необходимых данных по улучшению моделей;
  • Внедрение модели в продакшн, поддержка жизненного цикла модели, мониторинг и обновление.


Требования:

Опыт в роли Data Scientist/LLM engineer более 5 лет

  • Опыт работы в Data Science, связанный с обработкой естественного языка (NLP);
  • Уверенное владение Python, включая библиотеки NumPy, Pandas, Scikit-learn и библиотеки обработки текстовых данных;
  • Практический опыт разработки и внедрения NLP-моделей для классификации, кластеризации текста, NER (Named Entity Recognition) и др;
  • Опыт работы с фреймворками глубокого обучения (TensorFlow/Keras или PyTorch), включая построение, обучение и оценку моделей;
  • Знание архитектур GPT, BERT и других Transformer-моделей;
  • Знание различных метрик оценки качества моделей NLP (precision, recall, F1-score, AUC-ROC и др.), умение выбирать подходящие метрики для конкретной задачи;
  • Опыт вывода моделей в продакшн;
  • Опыт использования инструментов для мониторинга производительности и качества моделей в продакшне будет преимуществом;
  • Опыт внедрения LLM, разработки RAG-агентов, создания собственной LLM и ML-платформы будет преимуществом;
  • Опыт обучения Qwen, работы с llamaindex и Mistral.

Junior Data Analyst

Офис
Full-time
Постоянная работа
Требуется Junior Data Analyst для работы над трейдинговым продуктом. Задачи: - анализировать и оптимизировать текущие маркетинговые процессы; - поиск идей и областей, в которых можно улучшить данные; - визуализировать и представить результаты; - автоматизация отчетов и процессов; - работа с несколькими командами (предпочтительно по маркетингу), чтобы выяснить потребности и предложить соответствующие решения, которые окажут значительное влияние. Требования: - глубокое понимание структур данных и алгоритмов; - опыт работы с Python; - достаточно минимального опыта с Pandas, Numpy, Matplotlib); - знание SQL; - сильные аналитические и коммуникативные навыки; - опыт практического интеллектуального анализа данных и работы с большими объемами данных; - опыт работы с AWS или DataBricks является плюсом; - понимание того, как работает маркетинг, является плюсом; - образование в области естественных наук, экономики, математики, информатики, статистики; - уровень английского - С2; - будет плюсом, но не обязательно: PySpark, PowerBI, Klipfolio.

Back-End разработчик (Python)

Удаленно
Full-time
Требования: - знания Python и его экосистемы; - понимание принципов работы с распределёнными брокерами сообщений (Kafka / RabbitMQ); - опыт работы c FastAPI (или с starlette, asyncio, sanic, Flask); - написание SQL-запросов с закрытыми глазами; - понимание и опыт применения принципов разработки программного обеспечения: SOA, SOLID, KISS, DRY; - опыт разработки микросервисной архитектуры; - опыт коммерческой разработки на Python не менее 2 лет; - SQL (Postgres) и NoSQL (Redis, MongoDB) базы данных - опыт построения АПИ (REST, RPC) - Docker и базовое понимание Kubernetes - понимание CI/CD процесса и работы с env окружениями - как минимум, опыт/знание дополнительного фреймворка, кроме Django; - уверенные знания SQLAlchemy и psycopg. - высшее образование Будет плюсом: - ML Experience (Sklearn, Pandas, TensorFlow etc.) Основные задачи: - Software development - Построение микросервисов (HTTP REST and RPC via RabbitMQ) - Интеграция с внешними API - Data Processing (S3, Postgres)