Когда Increase Batch Size не спасает.
Как профилирование помогло разобраться со скачками утилизации GPU
Тезисы
Почему пайплайн в облаке может работать хуже, чем у заказчика на железе?
В нашем случае итерация была сильно дольше, чем у клиента на собственной инфраструктуре. Чтение батча данных, его подготовка, forward-шаг, расчёт метрик, backward-шаг, сохранение промежуточных весов модели — все эти процессы шли сильно медленнее, чем ожидалось…

Пошли разбираться, в чём же причина. При просмотре утилизации ядер GPU заметили, что она скачет, улетая в ноль. Советы в стиле «‎увеличить размер батча»‎ никак не помогали её стабилизировать, и, соответственно, время итерации тоже никак не улучшилось.

Как пофиксить утилизацию? Можно ли обойтись какими-то твиками в коде, или проблема в том числе в железе? Как вообще подходить к анализу такой проблемы? Спойлер — профилирование кода.

В докладе рассмотрим, какие есть инструменты профилирования и какие у них области применения, ограничения.
Почему пайплайн в облаке может работать хуже, чем у заказчика на железе?
В нашем случае итерация была сильно дольше, чем у клиента на собственной инфраструктуре. Чтение батча данных, его подготовка, forward-шаг, расчёт метрик, backward-шаг, сохранение промежуточных весов модели — все эти процессы шли сильно медленнее, чем ожидалось…

Пошли разбираться, в чём же причина. При просмотре утилизации ядер GPU заметили, что она скачет, улетая в ноль. Советы в стиле «‎увеличить размер батча»‎ никак не помогали её стабилизировать, и, соответственно, время итерации тоже никак не улучшилось.

Как пофиксить утилизацию? Можно ли обойтись какими-то твиками в коде, или проблема в том числе в железе? Как вообще подходить к анализу такой проблемы? Спойлер — профилирование кода.

В докладе рассмотрим, какие есть инструменты профилирования и какие у них области применения, ограничения.
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Ефим Головин
MLOps-инженер, Selectel
Инженер, в IT запрыгнул в 2015-м, варюсь в Data Science с 2017-го, катаюсь на стриде, пью ромашковый чай.
С 2022-го копаюсь в инфре для ML. Весело.
  • Ефим Головин
    MLOps-инженер, Selectel
    Инженер, в IT запрыгнул в 2015-м, варюсь в Data Science с 2017-го, катаюсь на стриде, пью ромашковый чай.
    С 2022-го копаюсь в инфре для ML. Весело.
Все доклады трека