Fork me on GitHub

Июнь 24–25

PyCon Russia 2019

Рус Eng

Адиль Хаштамов, Playrix

ETL инструменты в экосистеме Python

У любой организации, генерирующей данные, рано или поздно наступает момент, когда количество регулярных задач становится очень большим, появляются сложные зависимости между ними, они чаще падают и возникают проблемы деплоя.

В докладе я хочу раскрыть тему построения дата пайплайнов для сбора, обогащения и загрузки данных в ваши data lakes и data warehouses в контексте экосистемы Python. Расскажу, чем отличаются между собой инструменты Luigi, Airflow, Prefect, Celery, а также поделюсь продакшен опытом внедрения дата-пайплайнов на базе Luigi в компании Playrix.