Многие знают, что такое платформа данных, а некоторые даже строят, однако каждый подразумевает под этим термином что-то свое.
В докладе я расскажу про своё видение платформы данных, предпосылки появления в СберЗдоровье и конкретную архитектуру на основе современных open-source компонентов.
Так же я подробно остановлюсь на DataOps части платформы, которую можно иллюстрировать парадигмой everything-as-code и благодаря которой россыпь компонентов объединяется в единое целое.
Доклад рассчитан на дата-инженеров и архитекторов, а также всех, кому может быть интересна конкретная реализация платформы данных на основе современных компонентов с учетом near realtime и работы с персданными.
Слушатели смогут:
- расширить кругозор и узнать про современные инструменты (airbyte, dbt, datahub);
- увидеть на конкретном примере, как выстроена платформа данных;
- посмотреть everything-as-code на практике: вся платформа управляется декларативно из yaml конфигов (ingest, dq, clickstream) и легкого фреймворка на основе python (dwh transform).