Yet another LLM benchmark. Why?
Тезисы
Расскажу, как сравнивать между собой LLM-ки, промты и их комбинации на задаче RAG-QA, не спекулируя на отдельных кейсах и не тратя сотни тысяч рублей на разметку. Спойлер: завести автовалидаторы и бенчмарки.

А именно, разберемся:
  • какие бенчмарки уже есть и почему они (не) подходят
  • зачем собирать свой бенчмарк и из чего он может состоять
  • почему вариант с GPT-judge — не всегда лучший
  • в каких попугаях измеряется валидность ответа и как же нам всё-таки её померить
Расскажу, как сравнивать между собой LLM-ки, промты и их комбинации на задаче RAG-QA, не спекулируя на отдельных кейсах и не тратя сотни тысяч рублей на разметку. Спойлер: завести автовалидаторы и бенчмарки.

А именно, разберемся:
  • какие бенчмарки уже есть и почему они (не) подходят
  • зачем собирать свой бенчмарк и из чего он может состоять
  • почему вариант с GPT-judge — не всегда лучший
  • в каких попугаях измеряется валидность ответа и как же нам всё-таки её померить
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Елизавета Пушкарева
Data Scientist, Точка
Построила систему речевой аналитики в компании, а сейчас работаю в команде, разрабатывающей свою LLM
  • Елизавета Пушкарева
    Data Scientist, Точка
    Построила систему речевой аналитики в компании, а сейчас работаю в команде, разрабатывающей свою LLM
Все доклады трека