Модели генерации кода становятся всё более востребованными среди разработчиков и команд, но честная и воспроизводимая оценка их качества по-прежнему вызывает трудности. Поверхностные метрики (BLEU, CodeBLEU) не отражают реальную пригодность моделей для рабочих задач.
Во время воркшопа мы рассмотрим практические подходы к построению открытых бенчмарков для генерации кода, основанных на реальных сценариях разработки и полноценном тестировании. Все наши бенчмарки — RealCode (для Python) и JavaTestGen (для Java) — мы создали с нуля на базе собственной open-source библиотеки repotest. Repotest автоматизирует весь жизненный цикл: от поиска и фильтрации исходных репозиториев до изоляции задач, генерации кода и автоматической проверки работоспособности в Docker-контейнерах.
Мы покажем, как решали проблемы несовместимости зависимостей, нестабильных билдов и разнообразия тестовых инфраструктур, как автоматизировали сбор задач и сделали оценку прозрачной и воспроизводимой для любых исследователей. Мы открыли не только бенчмарки, но и сам repotest как инфраструктурную основу для построения будущих задач на других языках и платформах.
Воркшоп будет полезен всем, кто занимается ML4Code, автоматизацией тестирования, внедряет LLM и хочет понять, как создавать и использовать честные, "боевые" бенчмарки для генерации кода.