Максим Афанасьев. Впихиваем невпихуемое: хостим несколько ML-сервисов на одной GPU

Впихиваем невпихуемое:
хостим несколько ML-сервисов на одной GPU

Тезисы

Порой в компании набирается некоторое количество сервисов с МЛ-моделями, которые по нагрузке еще не доросли до момента, когда под них нужна отдельная vGPU/GPU. Хочется их поселить на какой-нибудь ноде с одной видеокартой. Тогда приходится решать проблему конкурирования сервисов за ресурсы видеокарты, в особенности за видеопамять.

В рамках доклада расскажу, как мы в Точке побороли эту проблему, зачем и как пришлось для этого патчить onnxruntime.

Слушатель узнает о том, какие есть способы захостить на одной видеокарте несколько сервисов с машинкой, а также немного о том, как onnxruntime управляет памятью.

Видеозапись доклада

Появится здесь после конференции

Информация о спикере

Максим Афанасьев

Data Scientist, Точка

Максим Афанасьев

Data Scientist, Точка

Все доклады трека

Приезжай на PyCon Russia