Порой в компании набирается некоторое количество сервисов с МЛ-моделями, которые по нагрузке еще не доросли до момента, когда под них нужна отдельная vGPU/GPU. Хочется их поселить на какой-нибудь ноде с одной видеокартой. Тогда приходится решать проблему конкурирования сервисов за ресурсы видеокарты, в особенности за видеопамять.
В рамках доклада расскажу, как мы в Точке побороли эту проблему, зачем и как пришлось для этого патчить onnxruntime.
Слушатель узнает о том, какие есть способы захостить на одной видеокарте несколько сервисов с машинкой, а также немного о том, как onnxruntime управляет памятью.