Description
Рассказ о том, как извлеченть данные из веб-страниц с использованием Python: - как извлечь информацию из одного-единственного сайта; - как сделать это без написания xpath, css селекторов и т.д.; - как извлекать информацию, если структура сайта неизвестна заранее; - когда стоит применять методы машинного обучения и как это делать; - какие инструменты доступны на Python. Доклад рассчитан на тех людей, кому хочется извлекать какую-то структурированную информацию из веб-страниц или из текста. Это могут быть задачи информационного поиска, анализа данных, составления каталогов, получения информации для каких-то исследований и т.д. Какую пользу слушатели получат? "Ручной" разбор веб-страниц через XPath / CSS селекторы - не единственный инструмент. Возможно, некоторые задачи, которые раньше казались очень сложными, покажутся вполне решаемыми.