
[DE] Airflow 윈도우에 설치부터 세상에서 제일 쉬운 실습까지
·
데이터 엔지니어링/파이프라인 뚝딱뚝딱
에어플로우 이전의 ETL 기반 파이프라인은 시간을 기반으로 코드를 돌리는 스케쥴을 작업하는 원리로 이루어졌었다. 그러니까 예를 들어서, 어떤 회사의 데이터를 수집하는 코드가 A, B, C 테스크가 있다고 가정하면, A 테스크가 끝날 것으로 예상되는 시간에 B 테스크가 돌아가게끔 프로그래밍을 하는게 ETL 이라고 생각하면 된다. 이 방법은 단순하게만 생각해봐도 단점이 어마어마하게 많다 만약, 무슨일이 생길지 모르는 코드세상에 약간의 이슈가 생겨 A 테스크가 늦게 끝난다면? 근데 B 테스크가 실행되어 버렸다면..? A 가 잘 끝났는지 에러가 난건지 에러가 안 나고 적재가 이상하게 된건지 알 수 있는 방법은...? 그러다가 데이터 엔지니어링의 세계에... Airflow 라는 놈이 등장했다고... 한다 ㅎ 분석..