Без болей и велосипедов: GPU в Kubernetes с максимальной отдачей, шерингом ресурсов и простой настройкой драйверов
Тезисы
Современные задачи инференса моделей требуют меньших ресурсов по сравнению с обучением, что делает использование GPU под инференс нерациональным. Настройка инфраструктуры для работы с видеокартами — сложная задача, которая включает установку и конфигурацию драйверов, управление ресурсами и обеспечение их эффективного использования. GPU оператор позволяет упростить эти моменты, обеспечивая удобную настройку нод для работы с видеокартами и эффективный шеринг GPU.

Кейсы, которые мы рассмотрим в докладе:
  • Параллельное обучение моделей несколькими разработчиками на одной видеокарте
  • Инференс с множественными репликами на одной видеокарте
  • Настройка драйверов видеокарт на разных нодах с использованием GPU оператора
Современные задачи инференса моделей требуют меньших ресурсов по сравнению с обучением, что делает использование GPU под инференс нерациональным. Настройка инфраструктуры для работы с видеокартами — сложная задача, которая включает установку и конфигурацию драйверов, управление ресурсами и обеспечение их эффективного использования. GPU оператор позволяет упростить эти моменты, обеспечивая удобную настройку нод для работы с видеокартами и эффективный шеринг GPU.

Кейсы, которые мы рассмотрим в докладе:
  • Параллельное обучение моделей несколькими разработчиками на одной видеокарте
  • Инференс с множественными репликами на одной видеокарте
  • Настройка драйверов видеокарт на разных нодах с использованием GPU оператора
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Антон Алексеев
Devops инженер, Selectel
Devops инженер в облаке, пришёл из автоматизации производств. Видел и ломал настоящие конвейеры. Сейчас активно занимаюсь ML инфраструктурой. Последнее время меня называют StandOps.

Пишу в телеграм канал @easy_dev_ops
  • Антон Алексеев
    Devops инженер, Selectel
    Devops инженер в облаке, пришёл из автоматизации производств. Видел и ломал настоящие конвейеры. Сейчас активно занимаюсь ML инфраструктурой. Последнее время меня называют StandOps.

    Пишу в телеграм канал @easy_dev_ops
Все доклады трека