Contribute Media
A thank you to everyone who makes this possible: Read More

Frontera: распределенный робот для обхода интернета в больших объемах

Description

В этом докладе я собираюсь представить новый open source фреймворк, разработанный в Scrapinghub. Frontera позволяет построить распределенного робота, для скачивания страниц из интернета в больших объемах в реальном времени. Также он может быть использован для построения сфокусированных роботов для выкачивания подмножества заранее известных веб-сайтов.

Фреймворк предлагает:

  • настраиваемое хранилище URL документов (RDBMS или Key Value),
  • управление стратегиями обхода,
  • абстракцию транспортного уровня,
  • абстракцию модуля загрузки.

Помимо описания фреймворка и системных требований, я расскажу о нашем опыте скачивания испанского интернета с помощью Fronter'ы и представлю небольшую статистику.

Details

Improve this page