Description
Day 1, R2 16:15–16:30
在做資料萃取(Extract)、轉置(Transform)、載入(Load)任務時,每個階段會有依賴性。為確保任務能順利執行,ETL的任務應該被妥當地管理與監控。
Airflow 是以 Python 開發的工作流管理系統,能幫助開發者做標準化及重複性的流程。Airflow 以 DAG 定義工作的流程,確保任務能依序執行。並且,可以使用 Web UI 方便監測、追溯各個流程之間的狀態。
本演講主要目的是初步介紹 Airflow 的功能,並應用 Airflow 於周期性地蒐集社群網路的文章做為範例,讓聽眾知道如何使用 Airflow 的介面,方便觀察與追溯每個排程任務之間的狀態。
Slides: https://drive.google.com/file/d/1P8UjB1KCIHwQF2650dVoLCQxR8_bVdcc/view?usp=sharing
Speaker: ZenoPeng
I am a data engineer.