Как дешевле и быстрее оценивать LLM и RAG задачу. Расскажу на примере построения навыка поиска в виртуальном ассистенте от МТС, как мы валидируем ответы генеративной части, как мы сократили время валидации в деньгах и времени, но не потеряли в качестве. На что способны и как усилить привычные метрики в сравнении с Judge LLM и человеческой разметкой.
Как дешевле и быстрее оценивать LLM и RAG задачу. Расскажу на примере построения навыка поиска в виртуальном ассистенте от МТС, как мы валидируем ответы генеративной части, как мы сократили время валидации в деньгах и времени, но не потеряли в качестве. На что способны и как усилить привычные метрики в сравнении с Judge LLM и человеческой разметкой.
В MTS AI делаем навык поиска для виртуального ассистента. Моя команда каждый день работает с LLM, мы обучаем модели, готовим пайплайны валидации, делаем процессы деплоя и мониторинга сервисов.
В MTS AI делаем навык поиска для виртуального ассистента. Моя команда каждый день работает с LLM, мы обучаем модели, готовим пайплайны валидации, делаем процессы деплоя и мониторинга сервисов.