Amazon EMR 6.0.0을 사용하여 Docker로 Spark 애플리케이션 실행하기 지난 4월 Amazon EMR 6.0.0 버전을 정식 출시했습니다. Amazon EMR 6.0.0을 사용하면, Spark 사용자가 Docker Hub 및 Amazon Elastic Container Registry(Amazon ECR)의 Docker 이미지를 사용하여 환경 및 라이브러리 종속성을 정의할 수 있습니다. 사용자는 Docker를 사용하여 종속성을 손쉽게 정의하고 개별 작업에 사용할 수 있으므로 개별 클러스터 호스트에 종속성을 설치할 필요가 없습니다. 이 글에서는 EMR 6.0.0에서 Docker를 사용하는 방법을 보여 줍니다. EMR 클러스터를 시작하고 Docker Hub 및 Amazon ECR에서 Docker 컨테이너를 사용하여 Spark 작업을 실행하는 방법에 대해 배우게 됩니다. Hadoop 3 Docker 지원 EMR 6.0에는 Hadoop 3.1.0이 포함되어 있어 YARN NodeManager가 클러스터의 호스트 시스템 또는 Docker 컨테이너 내부에서 직접 컨테이너를 시작할 수 있습니다. Docker 컨테이너는 애플리케이션의 코드가 YARN NodeManager 및 기타 애플리케이션의 실행 환경과 분리되어 실행되는 맞춤형 실행 환경을 제공합니다. 이러한 컨테이너에는 애플리케이션에 필요한 특수 라이브러리가 포함될 수 있으며 R, Python, Python 라이브러리와 같은 [ more… ]