ML платформа на Open Source: от Data Governance до MLOps
Тезисы
В последнее время всё больше компаний стремится децентрализовать не только процессы создания ML-продуктов, но и управления данными, передав существенную часть полномочий и ответственности в руки самих команд. Чтобы децентрализация была эффективной, нужно ответить на множество вопросов:
  • Как добиться того, чтобы новые команды не изобретали с нуля свой велосипед?
  • Как стимулировать процессы накопления и переиспользования опыта?
  • Как сохранить высокую скорость и стандарты разработки?
И так далее. В таких условиях ключевую роль начинает играть платформа для создания ML-решений как единое окно входа для команд.

Билайн живёт в условиях Agile и Data Mesh уже несколько лет. За это время внутреннее Data Science направление выросло практически с нуля до более чем 15 DS команд.

В докладе я расскажу, как на базе Open Source технологий нам удалось построить платформу для управления жизненным циклом машинного обучения, с помощью которой любая команда и любой дата сайнтист может самостоятельно провести полный цикл ML-разработки — от поиска данных до вывода модели в production.

Слушатель узнает, какие инструменты и подходы выбрали мы и почему. Как мы связали их в единый прозрачный MLOps-процесс, адаптировав при этом под большое число команд и требования корпоративной безопасности.

Поговорим о том, как ускорить поиск данных и моделей, когда в компании более 100 тысяч таблиц и 100 моделей. Как обеспечить не только воспроизводимость и автоматизацию экспериментов, но и непрерывность процессов мониторинга и дообучения ML-моделей. А также, как можно прививать командам лучшие практики разработки.
В последнее время всё больше компаний стремится децентрализовать не только процессы создания ML-продуктов, но и управления данными, передав существенную часть полномочий и ответственности в руки самих команд. Чтобы децентрализация была эффективной, нужно ответить на множество вопросов:
  • Как добиться того, чтобы новые команды не изобретали с нуля свой велосипед?
  • Как стимулировать процессы накопления и переиспользования опыта?
  • Как сохранить высокую скорость и стандарты разработки?
И так далее. В таких условиях ключевую роль начинает играть платформа для создания ML-решений как единое окно входа для команд.

Билайн живёт в условиях Agile и Data Mesh уже несколько лет. За это время внутреннее Data Science направление выросло практически с нуля до более чем 15 DS команд.

В докладе я расскажу, как на базе Open Source технологий нам удалось построить платформу для управления жизненным циклом машинного обучения, с помощью которой любая команда и любой дата сайнтист может самостоятельно провести полный цикл ML-разработки — от поиска данных до вывода модели в production.

Слушатель узнает, какие инструменты и подходы выбрали мы и почему. Как мы связали их в единый прозрачный MLOps-процесс, адаптировав при этом под большое число команд и требования корпоративной безопасности.

Поговорим о том, как ускорить поиск данных и моделей, когда в компании более 100 тысяч таблиц и 100 моделей. Как обеспечить не только воспроизводимость и автоматизацию экспериментов, но и непрерывность процессов мониторинга и дообучения ML-моделей. А также, как можно прививать командам лучшие практики разработки.
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Николай Безносов
Head of Data Science, Билайн
Более 6 лет в Data Science, последние 2,5–3 года занимаюсь менеджментом.

В билайн с нуля создал Data Science направление (более 40 человек, более 15 команд), DS/ML платформу (DAU>100) и комьюнити дата-аналитиков (более 100 человек).
  • Николай Безносов
    Head of Data Science, Билайн
    Более 6 лет в Data Science, последние 2,5–3 года занимаюсь менеджментом.

    В билайн с нуля создал Data Science направление (более 40 человек, более 15 команд), DS/ML платформу (DAU>100) и комьюнити дата-аналитиков (более 100 человек).
Все доклады трека