Удобное тестирование ETL процессов Apache Airflow
Тезисы
Данные — это актив, они имеют реальную ценность, необходимо уметь ими управлять и защищать их.

Мы в Тинькофф строим свою систему типа Data Catalog.

Эта система собирает в себе все метаданные о таблицах, отчетах и бог знает чём еще в рамках предприятия и предоставляет инструменты для простого управления метаданными и самостоятельного поиска по ним.

Я расскажу о том, как мы наполняем наш Data Catalog метаданными из более чем 25 источников, используя Apache Airflow.

Как мы придумали подход, а затем и создали небольшой фреймворк, позволяющий нам:
  • обеспечить 100-процентное покрытие интеграционными end-to-end тестами все наши ETL процессы (70 ETL процессов, более 940 самых разнообразных шагов);
  • обеспечить автоматическое создание тестовых данных для каждого шага, каждого нашего процесса;
  • обеспечить удобный процесс ревью, а также сильно облегчить жизнь разработчикам при создании или модификации ETL процессов.
Дополнительно расскажу о том, как наш тестовый Pipeline в Gitlab CI сначала увеличился до 40 минут, а потом нам удалось его сократить до 10 минут, и мы знаем, как сделать его еще быстрее.

Доклад рассчитан на разработчиков, дата инженеров и любых специалистов, связанных с разработкой и тестированием ETL процессов.

Слушатели смогут понять, как можно организовать удобный и понятный процесс тестирования, разработки и ревью ETL процессов, обеспечить 100-процентное покрытие таких процессов тестами, а также автоматически генерировать тестовые данные для каждого шага ETL процесса.
Данные — это актив, они имеют реальную ценность, необходимо уметь ими управлять и защищать их.

Мы в Тинькофф строим свою систему типа Data Catalog.

Эта система собирает в себе все метаданные о таблицах, отчетах и бог знает чём еще в рамках предприятия и предоставляет инструменты для простого управления метаданными и самостоятельного поиска по ним.

Я расскажу о том, как мы наполняем наш Data Catalog метаданными из более чем 25 источников, используя Apache Airflow.

Как мы придумали подход, а затем и создали небольшой фреймворк, позволяющий нам:
  • обеспечить 100-процентное покрытие интеграционными end-to-end тестами все наши ETL процессы (70 ETL процессов, более 940 самых разнообразных шагов);
  • обеспечить автоматическое создание тестовых данных для каждого шага, каждого нашего процесса;
  • обеспечить удобный процесс ревью, а также сильно облегчить жизнь разработчикам при создании или модификации ETL процессов.
Дополнительно расскажу о том, как наш тестовый Pipeline в Gitlab CI сначала увеличился до 40 минут, а потом нам удалось его сократить до 10 минут, и мы знаем, как сделать его еще быстрее.

Доклад рассчитан на разработчиков, дата инженеров и любых специалистов, связанных с разработкой и тестированием ETL процессов.

Слушатели смогут понять, как можно организовать удобный и понятный процесс тестирования, разработки и ревью ETL процессов, обеспечить 100-процентное покрытие таких процессов тестами, а также автоматически генерировать тестовые данные для каждого шага ETL процесса.
Видеозапись доклада
Информация о спикере
Иван Канашов
Дата инженер, Тинькофф
Все доклады секции