Давид Финкельштейн
Портфолио
Market stocks data pipeline
Цель проекта была в создании pipeline, работающего в реальном времени с данными, касающиеся стоимости акций различных компаний. Этапы pipeline были следующими: мониторинг ресурсов с информацией о поступлении новых данных. Ресурсы были совершенно разного типа: FTP, JMS, API, сайты которые нужно было парсить. Как только информация появлялась на каком-либо источнике, она сразу же обрабатываясь: из нее извлекались конкретные данные, которые затем проходили ETL, загружались в базу данных и параллельно кэшировались. Информация из базы данных в свою очередь подавалась в дашборд для визуализации. Для всех этапов, кроме визуализации использовался AWS и соответсвующие сервисы на нем: lambda, cluodformation, cloudwatch, s3, EC2 и Kinesis. Для визуализации использовалась Grafana.
Предсказание продаж.
Задача была в том, что бы создать( точнее, выбрать натренировать) модель машинного обучения или их комбинацию для предсказания продаж удобрений в нескольких регионах на основе данных о продажах в других регионах. В процессе работы было испробовано несколько моделей но в результате я остановился на gradient boosting trees модели. На тестовой выборке была получений точность с ошибкой менее 10%. На реальных данных в результате предсказания также были с приемлемой ошибкой. Проект был завершён успешно, клиент остался доволен.
Система реккомендаций
Задача была в том, чтобы создать автоматическую систему рекомендаций для отдела продаж компании, которая занимается продвижением продуктов в области облачных вычислений по всему миру. Система рекомендаций была создана с помощью машинного обучения. Я перебрал несколько вариантов, но в результате остановился на collaborative filtering методе базирующимся на KNN. Также была проведена большая работа по отбору используемых фич. В результате внедрения системы рекомендаций было отмечено увеличение продаж на 20% в денежном выражении.