Иван Канашов. Удобное тестирование ETL процессов Apache Airflow

Удобное тестирование ETL процессов Apache Airflow

Тезисы

Данные — это актив, они имеют реальную ценность, необходимо уметь ими управлять и защищать их.

Мы в Тинькофф строим свою систему типа Data Catalog.

Эта система собирает в себе все метаданные о таблицах, отчетах и бог знает чём еще в рамках предприятия и предоставляет инструменты для простого управления метаданными и самостоятельного поиска по ним.

Я расскажу о том, как мы наполняем наш Data Catalog метаданными из более чем 25 источников, используя Apache Airflow.

Как мы придумали подход, а затем и создали небольшой фреймворк, позволяющий нам:

обеспечить 100-процентное покрытие интеграционными end-to-end тестами все наши ETL процессы (70 ETL процессов, более 940 самых разнообразных шагов);
обеспечить автоматическое создание тестовых данных для каждого шага, каждого нашего процесса;
обеспечить удобный процесс ревью, а также сильно облегчить жизнь разработчикам при создании или модификации ETL процессов.

Дополнительно расскажу о том, как наш тестовый Pipeline в Gitlab CI сначала увеличился до 40 минут, а потом нам удалось его сократить до 10 минут, и мы знаем, как сделать его еще быстрее.

Доклад рассчитан на разработчиков, дата инженеров и любых специалистов, связанных с разработкой и тестированием ETL процессов.

Слушатели смогут понять, как можно организовать удобный и понятный процесс тестирования, разработки и ревью ETL процессов, обеспечить 100-процентное покрытие таких процессов тестами, а также автоматически генерировать тестовые данные для каждого шага ETL процесса.

Данные — это актив, они имеют реальную ценность, необходимо уметь ими управлять и защищать их.

Мы в Тинькофф строим свою систему типа Data Catalog.

Эта система собирает в себе все метаданные о таблицах, отчетах и бог знает чём еще в рамках предприятия и предоставляет инструменты для простого управления метаданными и самостоятельного поиска по ним.

Я расскажу о том, как мы наполняем наш Data Catalog метаданными из более чем 25 источников, используя Apache Airflow.

Как мы придумали подход, а затем и создали небольшой фреймворк, позволяющий нам:

обеспечить 100-процентное покрытие интеграционными end-to-end тестами все наши ETL процессы (70 ETL процессов, более 940 самых разнообразных шагов);
обеспечить автоматическое создание тестовых данных для каждого шага, каждого нашего процесса;
обеспечить удобный процесс ревью, а также сильно облегчить жизнь разработчикам при создании или модификации ETL процессов.

Дополнительно расскажу о том, как наш тестовый Pipeline в Gitlab CI сначала увеличился до 40 минут, а потом нам удалось его сократить до 10 минут, и мы знаем, как сделать его еще быстрее.

Доклад рассчитан на разработчиков, дата инженеров и любых специалистов, связанных с разработкой и тестированием ETL процессов.

Слушатели смогут понять, как можно организовать удобный и понятный процесс тестирования, разработки и ревью ETL процессов, обеспечить 100-процентное покрытие таких процессов тестами, а также автоматически генерировать тестовые данные для каждого шага ETL процесса.

Видеозапись доклада

Информация о спикере

Иван Канашов

Дата инженер, Тинькофф

https://github.com/ikanashov

Иван Канашов

Дата инженер, Тинькофф

https://github.com/ikanashov

Все доклады секции

Приезжай на PyCon Russia