Description
Одной из технических особенностей промышленной Data Science-разработки является высокая необходимость организации стабильного пайплайна для обучения и тестирования моделей, который будет включать в себя все необходимые шаги на пути от "Raw Data" до "Model Deploy". Важно обеспечить неизменность входных данных в процессе экспериментов, уметь разрешать зависимости промежуточных подзадач друг от друга, иметь средства мониторинга за выполением, гарантировать сигнализацию о произошедших ошибках и их обработку, иметь (в идеале) возможность перезапускать pipeline с любой промежуточной точки в случае какого-либо отказа, а также многое другое. Но главное - это то, что всё это нужно уметь делать прозрачным, понятным и удобным для machine learning инженера способом. В рамках доклада будет рассмотрен опыт построения такого рода end-to-end системы для обучения и тестирования моделей на базе Python- фрэймворка для batch-обработки данных Luigi.