Как мы тестируем дата-пайплайны в рекламе Яндекса
Тезисы
В рекламных технологиях Яндекса мы создаём конвейеры обработки данных для аналитики, подготовки датасетов и обучения ML-моделей. Сбои в работе этих конвейеров могут приводить к серьёзным финансовым потерям, поэтому мы вкладываем много сил в обеспечение их надёжности. Одной из целей разработки нашей платформы управления данными Logos было решение этой задачи.

В докладе я поделюсь нашим опытом многоуровневого тестирования дата-пайплайнов. Вы узнаете о различных подходах к тестированию данных, их преимуществах и недостатках. Я расскажу, как мы формируем тестовые выборки данных, как верифицируем результаты тестовых расчётов, а также как устроена приёмка дата-пайплайнов в рамках релизного процесса.
В рекламных технологиях Яндекса мы создаём конвейеры обработки данных для аналитики, подготовки датасетов и обучения ML-моделей. Сбои в работе этих конвейеров могут приводить к серьёзным финансовым потерям, поэтому мы вкладываем много сил в обеспечение их надёжности. Одной из целей разработки нашей платформы управления данными Logos было решение этой задачи.

В докладе я поделюсь нашим опытом многоуровневого тестирования дата-пайплайнов. Вы узнаете о различных подходах к тестированию данных, их преимуществах и недостатках. Я расскажу, как мы формируем тестовые выборки данных, как верифицируем результаты тестовых расчётов, а также как устроена приёмка дата-пайплайнов в рамках релизного процесса.
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Алексей Стыценко
Тимлид, Яндекс
  • 15 лет пишу на python
  • 8 лет занимаюсь обработкой данных в Яндексе
  • Преподаю python в Школе Анализа Данных Яндекса
  • Руковожу командой разработки DMP Logos
  • Алексей Стыценко
    Тимлид, Яндекс
    • 15 лет пишу на python
    • 8 лет занимаюсь обработкой данных в Яндексе
    • Преподаю python в Школе Анализа Данных Яндекса
    • Руковожу командой разработки DMP Logos
Все доклады трека