Fork me on GitHub

Июль 22–23

PyCon Russia 2018

Рус Eng

Михаил Коробов, ScrapingHub

Машинное обучение для извлечения данных из веба

Все знают, как написать веб-паука на Python: берем Scrapy / Selenium / requests и скачиваем странички с сайта, затем используем XPath / CSS / BeautifulSoup селекторы (+ регулярные выражения), чтоб извлечь нужную информацию. Но подходы сильно отличаются, когда информацию хочется автоматически извлечь из сотен тысяч сайтов - правил и эвристик тут недостаточно.

В докладе я расскажу о том, каким образом машинное обучение может применяться для написания «умных» веб-пауков:

  • как классифицировать веб-страницы;
  • как научить пауков «понимать» элементы страниц: веб-формы, паджинацию и т.д.
  • как выделять информацию из веб-страниц в структурном виде;
  • как научить пауков не скачивать ненужные страницы - дубликаты, страницы не по теме.

Будут примеры из практики, в том числе примеры использования Deep Learning и Reinforcement Learning; расскажу также о доступных Open-Source компонентах, из которых можно таких умных пауков собирать.