Расскажу, как сравнивать между собой LLM-ки, промты и их комбинации на задаче RAG-QA, не спекулируя на отдельных кейсах и не тратя сотни тысяч рублей на разметку. Спойлер: завести автовалидаторы и бенчмарки.
А именно, разберемся:
какие бенчмарки уже есть и почему они (не) подходят
зачем собирать свой бенчмарк и из чего он может состоять
почему вариант с GPT-judge — не всегда лучший
в каких попугаях измеряется валидность ответа и как же нам всё-таки её померить
Расскажу, как сравнивать между собой LLM-ки, промты и их комбинации на задаче RAG-QA, не спекулируя на отдельных кейсах и не тратя сотни тысяч рублей на разметку. Спойлер: завести автовалидаторы и бенчмарки.
А именно, разберемся:
какие бенчмарки уже есть и почему они (не) подходят
зачем собирать свой бенчмарк и из чего он может состоять
почему вариант с GPT-judge — не всегда лучший
в каких попугаях измеряется валидность ответа и как же нам всё-таки её померить
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Елизавета Пушкарева
Data Scientist, Точка
Построила систему речевой аналитики в компании, а сейчас работаю в команде, разрабатывающей свою LLM
Елизавета Пушкарева
Data Scientist, Точка
Построила систему речевой аналитики в компании, а сейчас работаю в команде, разрабатывающей свою LLM