← В ленту

Портфолио

Market stocks data pipeline

Цель проекта была в создании pipeline, работающего в реальном времени с данными, касающиеся стоимости акций различных компаний. Этапы pipeline были следующими: мониторинг ресурсов с информацией о поступлении новых данных. Ресурсы были совершенно разного типа: FTP, JMS, API, сайты которые нужно было парсить. Как только информация появлялась на каком-либо источнике, она сразу же обрабатываясь: из нее извлекались конкретные данные, которые затем проходили ETL, загружались в базу данных и параллельно кэшировались. Информация из базы данных в свою очередь подавалась в дашборд для визуализации. Для всех этапов, кроме визуализации использовался AWS и соответсвующие сервисы на нем: lambda, cluodformation, cloudwatch, s3, EC2 и Kinesis. Для визуализации использовалась Grafana.

Предсказание продаж.

Задача была в том, что бы создать( точнее, выбрать натренировать) модель машинного обучения или их комбинацию для предсказания продаж удобрений в нескольких регионах на основе данных о продажах в других регионах. В процессе работы было испробовано несколько моделей но в результате я остановился на gradient boosting trees модели. На тестовой выборке была получений точность с ошибкой менее 10%. На реальных данных в результате предсказания также были с приемлемой ошибкой. Проект был завершён успешно, клиент остался доволен.

Система реккомендаций

Задача была в том, чтобы создать автоматическую систему рекомендаций для отдела продаж компании, которая занимается продвижением продуктов в области облачных вычислений по всему миру. Система рекомендаций была создана с помощью машинного обучения. Я перебрал несколько вариантов, но в результате остановился на collaborative filtering методе базирующимся на KNN. Также была проведена большая работа по отбору используемых фич. В результате внедрения системы рекомендаций было отмечено увеличение продаж на 20% в денежном выражении.

Скиллы

AWS
Data Mining
Data Science
DevOps
Django
GCP
NoSQL DB
Python
SQL DB

Опыт работы

Senior developer
12.2021 - 04.2022 |Google
Python, GCP, SQL
Created a tool (API) to automate the provision of access to internal data for company employees.
Data Science Team Lead
08.2021 - 04.2022 |UralChem JSC
Data Scientist, Python, SQL, Machine Learning, Linux, CI/CD, SciKit-Learn, Neural Networks, SciPy, SQLAlchemy, networkx
End to end design and implementation of data science models for scalable use across the company. Key skills used in all projects: Python, SQL, data cleaning and preparation, data analysis. • Selected Project Experience: - Built a model for product price prediction for the next 1 month time frame to enable the seller team to optimize the timing of when products are sold; increased revenue by ~3% for products selected in the model. Specific skills used: Feature Selection, DBSCAN, . o Created and implemented model for optimisation manufacturing process of urea which led to decrease of production cost up to 10%. Specific skills used: Feature Selection, Neural Network, Differential Evolution algorithm. - Implemented a model for automating support ticket routing which increased efficiency of the support department by ~60%. Specific skills used: Fast API, TFIDF, PCA, Kernel SVM, Genetic Algorithm, Boosting, Recurrent Neural Network. - Constructed a data pipeline for the CI/CD process for ML projects which decreased the internal cost for the IT department by ~$10000/month. Specific skills used: MLops, MLflow, Docker, Linux. - Designed an algorithm for organization network analysis which help to identify informal leaders of the organization and helps to organize work on projects more efficiently. Used: Levenshtein distance, NetworkX. - Initiated a model for assessing the currency risks which saved the finance team ~5% on international payments. Specific skills used: Feature Selection, LDA, Neural Networks.
Senior Software Engineer
04.2021 - 07.2021 |Evinox Energy
Python, AWS CDK, Fastapi, Sqlalchemy, Boto3, Redshift, Lambda function, microservice application architecture.
Developed a customer facing API to obtain analytics; API currently being used by the entire company. Created a microbatch IoT data pipeline including architecture design and business metric calculations.

Образование

Химия (Магистр)
2016 - 2018
Московский Государственный Университет им. М.В. Ломоносова
Физика (Бакалавр)
2011 - 2015
Московский Государственный Университет им. М.В. Ломоносова

Языки

АнглийскийПродвинутыйРусскийРодной