How to inference: от стандартных подходов до экспериментов
Тезисы
С недавнего времени большинство компаний начали внедрять языковые модели в свои процессы, чтобы решать различные задачи: от копайлотов для разработчиков до ИИ-агентов, решающих пул сложных задач. Однако инференс моделей ставит множество вызовов перед разработчиками: нужно поддерживать низкую задержку, масштабируемость и при этом стараться уместиться в бюджеты компании.

В этом докладе я рассмотрю реальные кейсы из моей практики, расскажу как про используемые инструменты, подходы, которые были проверены временем, так и про экспериментальные.
С недавнего времени большинство компаний начали внедрять языковые модели в свои процессы, чтобы решать различные задачи: от копайлотов для разработчиков до ИИ-агентов, решающих пул сложных задач. Однако инференс моделей ставит множество вызовов перед разработчиками: нужно поддерживать низкую задержку, масштабируемость и при этом стараться уместиться в бюджеты компании.

В этом докладе я рассмотрю реальные кейсы из моей практики, расскажу как про используемые инструменты, подходы, которые были проверены временем, так и про экспериментальные.
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Владислав Попов
ML Engineer, Action.Tech
Москва
Пишу код, разрабатываю модели машинного обучения, исследую методы оптимизации моделей.

В настоящее время работаю над созданием медицинского ассистента.

В свободное время пишу собственные проекты, занимаюсь борьбой, читаю статьи, играю в игры.
  • Владислав Попов
    ML Engineer, Action.Tech
    Москва
    Пишу код, разрабатываю модели машинного обучения, исследую методы оптимизации моделей.

    В настоящее время работаю над созданием медицинского ассистента.

    В свободное время пишу собственные проекты, занимаюсь борьбой, читаю статьи, играю в игры.
Все доклады трека