Артур Сосновиков. Как обучение со слабым контролем помогло Точке тегировать клиентские обращения

Как обучение со слабым контролем помогло Точке тегировать клиентские обращения

Тезисы

Ручная разметка данных остаётся узким местом в ML-проектах — она дорога, медленна и плохо масштабируется. Вместо того чтобы использовать GPT напрямую для классификации (что требует затрат на inference и промпт-инжиниринг, а также даёт нестабильный результат), мы используем его для генерации и итеративного улучшения правил разметки на основе ошибок модели.

Сформированные таким образом слабые метки агрегируются с помощью классических методов weak supervision и позволяют обучать точные модели даже в условиях острого дефицита размеченных данных. В отличие от статичных эвристик или одноразовых LLM-промптов, наш подход построен как замкнутый цикл обратной связи: модель → ошибки → обновлённые правила → новые метки.

Мы применили этот метод на задаче классификации клиентских обращений в поддержку Точки и добились качества, превосходящего как zero-shot GPT-4, так и классические supervised-модели на размеченной выборке. Подход уже используется в продакшене и подходит для масштабирования NLP-моделей без затрат на полноценную аннотацию.

Видеозапись доклада

Появится здесь после конференции

Информация о спикере

Артур Сосновиков

ML Teamlead, Точка
Москва

Артур Сосновиков

ML Teamlead, Точка
Москва

Все доклады трека

Приезжай на PyCon Russia