Вакансии и проекты на Rubrain.com

Актуальные заказы по pandas

В поиске Data Science специалиста с опытом работы в банковских проектах для построения рисковых моделей (скоринг для кредитования).

Основные направления работы

Risk Modeling:

Полный цикл разработки ансамблевых моделей: подготовка и предобработка данных, разметка и разделение на обучающие и тестовые выборки.
Отбор и настройка базовых моделей с акцентом на их разнообразие для повышения качества прогнозов.
Разработка моделей машинного обучения для прогнозирования ежедневных остатков на расчетных счетах корпоративных клиентов, учитывая анализ временных рядов (неделя, месяц, квартал) и дополнительные факторы (дни недели, праздники, налоговые периоды, бизнес-циклы).
Обучение персонализированных моделей.
Применение методов объединения моделей (bagging, boosting, stacking) с оптимизацией весов в ансамбле.
Оценка производительности моделей с использованием метрик точности, полноты и F1-score для улучшения качества прогнозов.
Внедрение моделей в промышленную среду, мониторинг и регулярная оптимизация параметров.

Computer Vision:

Разработка и внедрение системы биометрической верификации личности, включая модули распознавания документов и сопоставления фотографий.
Анализ требований и проектирование архитектуры системы с учетом высоких стандартов безопасности и точности.
Реализация алгоритмов обработки изображений для извлечения данных из паспортов и сравнения с селфи-фотографиями.

Acquisition Analytics:

Анализ данных эквайрингового и РКО-портфеля: сбор и предобработка исторической информации о поведении клиентов.
Разработка признаков, отражающих транзакционную активность, финансовые показатели и паттерны использования услуг для выявления факторов оттока.
Построение и обучение ансамблевой модели прогнозирования с учетом специфики продуктов.
Внедрение системы скоринга клиентов по вероятности оттока на основе финансового поведения и длительности сотрудничества.

Требуемые технологии и инструменты: Python, SQL, Scikit-learn, XGBoost, LightGBM, CatBoost, TensorFlow/Keras, PyTorch, Random Forest, Gradient Boosting, Stacking, Pandas, NumPy, Matplotlib, Seaborn.

Data Science

Вакансия закрыта

Удаленно

Full-time

Описание задачи:

В рамках проекта планируется разработка трёх моделей машинного обучения для телеком-оператора:

Модель оттока (churn prediction) — по трём временным горизонта
Модель Next Best Offer (NBO) — персонализированные рекомендации тарифов и услуг
Модель чувствительности к изменению тарифа — прогноз реакции абонента на изменение условий, по двум горизонтам

Тип моделей: классический ML, табличные данные, задача бинарной классификации.

Особенности проекта:

Расчет фичей для моделей настроен непрерывным пайплайном с ежедневной актуализацией
Объём данных — ~5Гб (формат parquet), ~15 миллионов строк
Распределённые вычисления на кластере Hadoop/Spark
Модели предполагается встроить в текущий пайплайн, добавить регистрацию в MLflow, настроить периодическую актуализацию

Требования:

Фокус: разработка моделей, дополнительный фичеинжениринг, тюнинг, тестирование, оформление документации

Стек: pyspark, python, pandas, scikit-learn, CatBoost

Критичные компетенции:

Работа с табличными данными и классическим ML (CatBoost, sklearn)
Знание метрик качества, балансировка классов
Опыт работы с моделями оттока, NBO или похожими задачами
Фичеинжениринг (корреляции, отбор, агрегации)
Умение формализовать гипотезы и оценивать их

Будет плюсом (можно не брать в расчет:

MLflow (настройка и регистрация моделей)
Интеграция моделей в пайплайн (Hadoop/Spark)
Оптимизация ресурсов
SparkML (распределенные вычисления)

Machine Learning Python

Вакансия закрыта

Удаленно

Full-time

В поиске Senior/Lead Data Analyst / Scientist на проект химической компании по оптимизации технологических процессов и диагностики технического оборудования.

Функционал: проектирование, разработка, внедрение, тестирование ПО и информационных систем на основе алгоритмов искусственного интеллекта.

Задачи:

Проведение системного анализа бизнес процессов.
Обработка функциональных требований, экспертиза в области определения подходов к автоматизации или цифровизации процессов.
Разработка проектной документации.
Интеграционное тестирование новой функциональности.
Выполнение сложных настроек в информационных системах.
Обеспечение 3-го уровня поддержки.

Требования:

Уверенный опыт работы с Python: Pandas, Numpy, scikit-learn, Scipy, Catboost, Pytorch, TensorFlow, XGBoost, LightGBM, statsmodels, tsfresh, tslearn, shaply, seaborn, matplotlib, plotly, MLflow.
Знание и опыт работы с инструментами: MS Office, Jira, Confluence, Git, Grafana, AirFlow.
Отличные знания SQL.

SQL Data Scientists Data Science AI Data Analysis Python

Вакансия закрыта

Full-time

В поиске опытного специалиста на позицию Data Engineer (DWH) для работы на различных проектах по запросам заказчиков в крупном промышленном холдинге, который объединяет более 100 предприятий-производителей продукции различного назначения и научно-исследовательских институтов

SQL PostgreSQL Dwh ETL ClickHouse Kafka

Вакансия закрыта

Удаленно

Full-time

Part-time

We're looking for a Data Engineer who loves solving puzzles with data. Join us in building an online trip planner for complex, multi-destination travel. You'll design and maintain the data infrastructure that powers our entire booking ecosystem—from customer behavior insights to operational analytics. If you enjoy building robust pipelines and seeing your work make a real impact, let's connect

SQL Power BI pandas ClickHouse Data Visualization Python

Удаленно