Description
Михаил Коробов , ScrapingHub
**Машинное обучение для извлечения данных из веба**
Все знают, как написать веб-паука на Python: берем Scrapy / Selenium / requests и скачиваем странички с сайта, затем используем XPath / CSS / BeautifulSoup селекторы (+ регулярные выражения), чтоб извлечь нужную информацию. Но подходы сильно отличаются, когда информацию хочется автоматически извлечь из сотен тысяч сайтов - правил и эвристик тут недостаточно.
В докладе я расскажу о том, каким образом машинное обучение может применяться для написания «умных» веб-пауков:
- как классифицировать веб-страницы;
- как научить пауков «понимать» элементы страниц: веб-формы, паджинацию и т.д.
- как выделять информацию из веб-страниц в структурном виде;
- как научить пауков не скачивать ненужные страницы - дубликаты, страницы не по теме.
Будут примеры из практики, в том числе примеры использования Deep Learning и Reinforcement Learning; расскажу также о доступных Open-Source компонентах, из которых можно таких умных пауков собирать.