Apache Airflow, Genie 및 Amazon EMR을 통한 빅데이터 워크플로 오케스트레이션 – 2부
Apache Airflow, Genie 및 Amazon EMR을 통한 빅데이터 워크플로 오케스트레이션 – 2부 AWS에서 빅 데이터 ETL 워크플로를 실행하는 대기업은 많은 내부 최종 사용자를 지원하는 대규모로 운영하며 수천 개의 동시 파이프라인을 실행합니다. 이러한 상황과 새로운 프레임워크 및 빅데이터 프로세싱 프레임워크의 최신 릴리스에 보조를 맞추기 위해 빅 데이터 플랫폼을 지속적으로 업데이트 및 확장해야 하는 필요성에 따라, 빅 데이터 플랫폼의 관리를 간소화할 뿐 아니라 빅 데이터 애플리케이션에 대한 간편한 액세스를 지원하는 효율적인 아키텍처 및 조직적 구조가 요구되고 있습니다. 이 게시물 시리즈의 1부에서는 Apache Airflow, Genie 및Amazon EMR을 사용하여 빅 데이터 워크플로를 관리하는 방법에 대해 배웠습니다. 이 게시물은 AWS CloudFormation 템플릿을 배포하고, Genie를 구성하고, Apache Airflow에서 작성한 예제 워크플로를 실행하는 방법을 단계별로 안내합니다. 사전 조건 이 단계별 안내를 위해서는 다음과 같은 사전 조건을 갖추어야 합니다. AWS 계정 솔루션 개요 이 솔루션은 AWS CloudFormation 템플릿을 사용하여 필수 리소스를 생성합니다. 사용자는 배스천 호스트에 대한 SSH 터널을 [ more… ]