Как обучение со слабым контролем помогло Точке тегировать клиентские обращения
Тезисы
Ручная разметка данных остаётся узким местом в ML-проектах — она дорога, медленна и плохо масштабируется. Вместо того чтобы использовать GPT напрямую для классификации (что требует затрат на inference и промпт-инжиниринг, а также даёт нестабильный результат), мы используем его для генерации и итеративного улучшения правил разметки на основе ошибок модели.

Сформированные таким образом слабые метки агрегируются с помощью классических методов weak supervision и позволяют обучать точные модели даже в условиях острого дефицита размеченных данных. В отличие от статичных эвристик или одноразовых LLM-промптов, наш подход построен как замкнутый цикл обратной связи: модель → ошибки → обновлённые правила → новые метки.

Мы применили этот метод на задаче классификации клиентских обращений в поддержку Точки и добились качества, превосходящего как zero-shot GPT-4, так и классические supervised-модели на размеченной выборке. Подход уже используется в продакшене и подходит для масштабирования NLP-моделей без затрат на полноценную аннотацию.
Ручная разметка данных остаётся узким местом в ML-проектах — она дорога, медленна и плохо масштабируется. Вместо того чтобы использовать GPT напрямую для классификации (что требует затрат на inference и промпт-инжиниринг, а также даёт нестабильный результат), мы используем его для генерации и итеративного улучшения правил разметки на основе ошибок модели.

Сформированные таким образом слабые метки агрегируются с помощью классических методов weak supervision и позволяют обучать точные модели даже в условиях острого дефицита размеченных данных. В отличие от статичных эвристик или одноразовых LLM-промптов, наш подход построен как замкнутый цикл обратной связи: модель → ошибки → обновлённые правила → новые метки.

Мы применили этот метод на задаче классификации клиентских обращений в поддержку Точки и добились качества, превосходящего как zero-shot GPT-4, так и классические supervised-модели на размеченной выборке. Подход уже используется в продакшене и подходит для масштабирования NLP-моделей без затрат на полноценную аннотацию.
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Артур Сосновиков
ML Teamlead, Точка
Москва
  • Артур Сосновиков
    ML Teamlead, Точка
    Москва
Все доклады трека