Летом 2021 Яндекс Погода представила новую модель машинного обучения для прогнозирования дождя — Meteum 2.0. Впервые в истории она опирается не только на данные специализированных приборов наблюдения за погодой, но и на сообщения пользователей об осадках. До Яндекса никто в мире так не делал.
Я расскажу, какие данные Яндекс Погода использует для создания карты осадков, как с помощью python и машинного обучения улучшить качество классических методов прогноза. Подробно опишу этапы обучения модели и то, с какими трудностями пришлось при этом столкнуться. Также расскажу о том, какие проблемы мы выявили после внедрения модели в продакшн и как улучшали качество работы модели за счет дополнительной обработки данных.
Доклад рассчитан на всех Data Scientist-ов, но может быть особенно интересен тем, кто работает с геоданными, а также на ML-инженеров, обеспечивающих работу модели в продакшне.
Слушатели узнают:
- Как улучшить работу моделей машинного обучения, которые уже имеют высокое качество
- Как комбинировать разнородные данные
- Почему процесс обработки данных важен и как с помощью него улучшить предсказания модели