Павел Задорожный, Павел Адаменко. ВОРКШОП. Оценка моделей генерации кода: практика, ловушки и реальные бенчмарки на Python

ВОРКШОП
Оценка моделей генерации кода: практика, ловушки и реальные бенчмарки на Python

Тезисы

Модели генерации кода становятся всё более востребованными среди разработчиков и команд, но честная и воспроизводимая оценка их качества по-прежнему вызывает трудности. Поверхностные метрики (BLEU, CodeBLEU) не отражают реальную пригодность моделей для рабочих задач.

Во время воркшопа мы рассмотрим практические подходы к построению открытых бенчмарков для генерации кода, основанных на реальных сценариях разработки и полноценном тестировании. Все наши бенчмарки — RealCode (для Python) и JavaTestGen (для Java) — мы создали с нуля на базе собственной open-source библиотеки repotest. Repotest автоматизирует весь жизненный цикл: от поиска и фильтрации исходных репозиториев до изоляции задач, генерации кода и автоматической проверки работоспособности в Docker-контейнерах.

Мы покажем, как решали проблемы несовместимости зависимостей, нестабильных билдов и разнообразия тестовых инфраструктур, как автоматизировали сбор задач и сделали оценку прозрачной и воспроизводимой для любых исследователей. Мы открыли не только бенчмарки, но и сам repotest как инфраструктурную основу для построения будущих задач на других языках и платформах.

Воркшоп будет полезен всем, кто занимается ML4Code, автоматизацией тестирования, внедряет LLM и хочет понять, как создавать и использовать честные, "боевые" бенчмарки для генерации кода.

Видеозапись доклада

Появится здесь после конференции

Информация о спикерах

Павел Задорожный

Сбер

Павел Адаменко

Сбер

Павел Задорожный

Сбер

Павел Адаменко

Сбер

Все воркшопы

Приезжай на PyCon Russia