С недавнего времени большинство компаний начали внедрять языковые модели в свои процессы, чтобы решать различные задачи: от копайлотов для разработчиков до ИИ-агентов, решающих пул сложных задач. Однако инференс моделей ставит множество вызовов перед разработчиками: нужно поддерживать низкую задержку, масштабируемость и при этом стараться уместиться в бюджеты компании.
В этом докладе я рассмотрю реальные кейсы из моей практики, расскажу как про используемые инструменты, подходы, которые были проверены временем, так и про экспериментальные.