Из доклада вы узнаете о том, какие проблемы ожидают ETL проект во время фазы активного увеличения кодовой базы, как их можно эффективно решать с помощью изолированных идемпотентных шагов пайпланов.
Я расскажу вам, как сохранить консистентность данных с помощью отказоустойчивых хранилищ и организовать ETL систему таким образом, чтобы состояние данных можно было восстановить в случае их потери. Также расскажу, как обеспечить работоспособность ETL и streaming процессов при условии отказов в серверной инфраструктуре. Рассмотрим, какие возможности по масштабированию нагрузки возникают при данном архитектурном подходе.
Доклад рассчитан на специалистов уровня middle и выше.
Слушатели узнают текущую ситуацию с python приложениями на Airflow:
- Как правильно версионировать данные в ETL системах
- ETL пайплайны на python в условиях нестабильной технической инфраструктуры
- Адаптивное масштабирование ETL систем под доступные ресурсы
- Отказоустойчивое использование python streaming приложений