Как оценивать современные RAG-системы?
Тезисы
Как дешевле и быстрее оценивать LLM и RAG задачу. Расскажу на примере построения навыка поиска в виртуальном ассистенте от МТС, как мы валидируем ответы генеративной части, как мы сократили время валидации в деньгах и времени, но не потеряли в качестве. На что способны и как усилить привычные метрики в сравнении с Judge LLM и человеческой разметкой.
Как дешевле и быстрее оценивать LLM и RAG задачу. Расскажу на примере построения навыка поиска в виртуальном ассистенте от МТС, как мы валидируем ответы генеративной части, как мы сократили время валидации в деньгах и времени, но не потеряли в качестве. На что способны и как усилить привычные метрики в сравнении с Judge LLM и человеческой разметкой.
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Никита Крайко
Руководитель группы, MTS AI
Окончил ВШЭ
Веду блог в телеграм https://t.me/way2ds

В MTS AI делаем навык поиска для виртуального ассистента. Моя команда каждый день работает с LLM, мы обучаем модели, готовим пайплайны валидации, делаем процессы деплоя и мониторинга сервисов.
  • Никита Крайко
    Руководитель группы, MTS AI

    Окончил ВШЭ

    Веду блог в телеграм https://t.me/way2ds


    В MTS AI делаем навык поиска для виртуального ассистента. Моя команда каждый день работает с LLM, мы обучаем модели, готовим пайплайны валидации, делаем процессы деплоя и мониторинга сервисов.

Все доклады трека