EMR Notebooks를 사용하여 실행 중인 클러스터에 Python 라이브러리 설치
EMR Notebooks를 사용하여 실행 중인 클러스터에 Python 라이브러리 설치 작년에 AWS는 오픈소스 Jupyter 노트북 애플리케이션 기반의 관리형 노트북 환경인 EMR Notebooks를 소개했습니다.이 게시물에서는 EMR Notebooks를 사용하여 실행 중인 클러스터에서 직접 노트북 범위 라이브러리를 설치하는 방법을 알아봅니다. 이 기능이 도입되기 전에는 부트스트랩 작업에 의존하거나 사용자 지정 AMI를 사용하여 클러스터를 프로비저닝할 때 EMR AMI로 사전에 패키징되지 않은 추가 라이브러리를 설치해야 했습니다. 이 게시물에서는 EMR Notebooks 안에서 미리 설치된 Python 라이브러리를 로컬에서 사용하여 결과를 분석하고 플롯을 작성하는 방법도 설명합니다. 이 기능은 데이터 세트를 분석하고 시각화해야 하지만 PyPI 리포지토리에 액세스할 수 없는 시나리오에서 유용합니다. EMR Notebooks로 노트북 범위 라이브러리를 사용할 때의 이점 노트북 범위 라이브러리는 다음과 같은 이점을 제공합니다. 런타임 설치 – PyPI 리포지토리에서 즐겨찾는 Python 라이브러리를 가져와서 필요할 때 바로 원격 클러스터에 설치할 수 있습니다. 이러한 라이브러리는 Spark 런타임 환경에서 즉시 사용할 수 있습니다. 노트북 세션을 다시 시작하거나 클러스터를 다시 생성하지 않아도 됩니다. [ more… ]