В последнее время всё больше компаний стремится децентрализовать не только процессы создания ML-продуктов, но и управления данными, передав существенную часть полномочий и ответственности в руки самих команд. Чтобы децентрализация была эффективной, нужно ответить на множество вопросов:
- Как добиться того, чтобы новые команды не изобретали с нуля свой велосипед?
- Как стимулировать процессы накопления и переиспользования опыта?
- Как сохранить высокую скорость и стандарты разработки?
И так далее. В таких условиях ключевую роль начинает играть платформа для создания ML-решений как единое окно входа для команд.
Билайн живёт в условиях Agile и Data Mesh уже несколько лет. За это время внутреннее Data Science направление выросло практически с нуля до более чем 15 DS команд.
В докладе я расскажу, как на базе Open Source технологий нам удалось построить платформу для управления жизненным циклом машинного обучения, с помощью которой любая команда и любой дата сайнтист может самостоятельно провести полный цикл ML-разработки — от поиска данных до вывода модели в production.
Слушатель узнает, какие инструменты и подходы выбрали мы и почему. Как мы связали их в единый прозрачный MLOps-процесс, адаптировав при этом под большое число команд и требования корпоративной безопасности.
Поговорим о том, как ускорить поиск данных и моделей, когда в компании более 100 тысяч таблиц и 100 моделей. Как обеспечить не только воспроизводимость и автоматизацию экспериментов, но и непрерывность процессов мониторинга и дообучения ML-моделей. А также, как можно прививать командам лучшие практики разработки.