Как дешевле и быстрее оценивать LLM и RAG задачу. Расскажу на примере построения навыка поиска в виртуальном ассистенте от МТС, как мы валидируем ответы генеративной части, как мы сократили время валидации в деньгах и времени, но не потеряли в качестве. На что способны и как усилить привычные метрики в сравнении с Judge LLM и человеческой разметкой.