Организация конвейера обработки данных и процессов ETL

Цена договорная
07 апреля 2023, 12:27 • 3 отклика • 35 просмотров
Необходимо автоматизировать обработку данных онлайн маркетплейса для сервиса цифровой аналитики.

В задачи входит:
  1. Проектирование и разработка всего цикла data-flow по загрузке, обработке и выгрузке данных. Исходные данные хранятся в PostgreSQL.
  2. Развертывания оркестратора Dagster / Airflow / etc для организации структурированных конвейеров обработки данных: ETL, тесты.
  3. Загрузка данных из data-каталогов: PostgreSQL, предусмотреть возможность загрузки из различных источников, напр. объектных хранилищ AWS S3 и тп.
  4. Подготовка витрин данных для использования в веб-сервисе аналитики. Витрина данных представляет собой БД/таблицы в PostgreSQL, которые будут использоваться клиентами сервиса. Подразумевается работа над сырыми данными, путем применений операций расчетов над данными.
  5. Проектирование и разработка способов переключения витрин данных после цикла обработки. После обработки и выгрузки готовых данных необходимо доставлять свежие данные.
  6. Настройка мониторинга и алертинга jobs в пайплайнах.
  7. Устранение расхождения между исходными данными: пропуски, шумы, ошибки, неожиданные данные.
  8. Контроль готовых данных. Возможность контроля над багами и просчетами в формулах расчета метрик.
  9. Проектирование и разработка долгосрочного оптимального хранилища сырых данных. Сейчас хранится в PostgreSQL в jsonb, возможно стоит найти более оптимальный способ путем понимания плюсов и минусов текущего способа. Низкий приоритет задачи.
Более подробная информация обсуждается в личной переписке
Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Заказчик
Николай один из самых компетентных и ответственных специалистов с которыми доводилось работать. Таких как он единицы! Рекомендую!
~ 1 год назад
Интересный проект, лёгкое и приятное взаимодействие с заказчиком. Надеюсь на продолжение сотрудничества
~ 1 год назад