Впихиваем невпихуемое:
хостим несколько ML-сервисов на одной GPU
Тезисы
Порой в компании набирается некоторое количество сервисов с МЛ-моделями, которые по нагрузке еще не доросли до момента, когда под них нужна отдельная vGPU/GPU. Хочется их поселить на какой-нибудь ноде с одной видеокартой. Тогда приходится решать проблему конкурирования сервисов за ресурсы видеокарты, в особенности за видеопамять.

В рамках доклада расскажу, как мы в Точке побороли эту проблему, зачем и как пришлось для этого патчить onnxruntime.

Слушатель узнает о том, какие есть способы захостить на одной видеокарте несколько сервисов с машинкой, а также немного о том, как onnxruntime управляет памятью.
Порой в компании набирается некоторое количество сервисов с МЛ-моделями, которые по нагрузке еще не доросли до момента, когда под них нужна отдельная vGPU/GPU. Хочется их поселить на какой-нибудь ноде с одной видеокартой. Тогда приходится решать проблему конкурирования сервисов за ресурсы видеокарты, в особенности за видеопамять.

В рамках доклада расскажу, как мы в Точке побороли эту проблему, зачем и как пришлось для этого патчить onnxruntime.

Слушатель узнает о том, какие есть способы захостить на одной видеокарте несколько сервисов с машинкой, а также немного о том, как onnxruntime управляет памятью.
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Максим Афанасьев
Data Scientist, Точка
  • Максим Афанасьев
    Data Scientist, Точка
Все доклады трека