Amazon EMR – 전송 및 저장 중 데이터 암호화 옵션 기능 추가
AWS 고객 중에는 Amazon EMR(Apache Hadoop 및 Apache Spark 관련 도구 포함)를 사용하여 다양한 유형의 중요한 업무에 대한 빅 데이터 분석 사례를 가지고 있습니다. 아래 업체들은 바로 대표적인 예입니다.
- Yelp 매일 테라 바이트 이상의 로그 파일과 사진 데이터 처리
- Expedia 사용자 클릭 스트림 및 행동 관련 데이터 처리
- FINRA 매일 수십억 건의 증권 거래 기록 분석
- DataXu 매월 30 조 개의 광고 제공 기회 판단 분석
이러한 고객 (자세한 내용은 빅 데이터 사용 사례 참조)은 미션 크리티컬한 중요한 데이터를 안전하게 처리해야 합니다.
AWS는 EMRFS을 사용하는 Amazon S3와 HDFS의 투명한 데이터 암호화 등 EMR 데이터 암호화 옵션을 여러 가지 제공합니다. 이러한 솔루션은 이미 저장된 데이터를 보호하는 경우에는 우수합니다. 다만, 임시 파일에 저장되어있는 데이터와 작업 단계 사이에 전송 중인 데이터에 대한 암호화를 처리하지 않습니다. 각 암호화 옵션은 각자 활성화 후 구성 해야 하기 때문에 암호화 구현을 하는 부분이 쉽지 않습니다.
새로운 암호화 기능 지원
AWS는 오늘 부터 Amazon EMR에서 새로운 포괄적인 암호화 방식을 출시합니다. 앞으로 Amazon EMR에서 사용하는 Apache Spark, Apache Tez, Hadoop MapReduce에 저장된 데이터와 전송 중인 데이터를 쉽게 암호화 할 수 있습니다.
저장 데이터의 암호화는 다음 스토리지 유형에 대처하고 있습니다.
- EMRFS 통해 S3에 저장된 데이터
- 각 노드의 로컬 파일 시스템에 저장된 데이터
- HDFS를 사용하여 클러스터에 저장된 데이터
전송 중인 데이터의 암호화는 다음 프레임웍의 오픈 소스 암호화 기능을 이용합니다.
- Apache Spark
- Apache Tez
- Apache Hadoop MapReduce
Amazon EMR 보안 설정을 통해 새로운 기능을 사용할 수 있습니다. EMR 콘솔, the EMR CLI 및 EMR API을 사용할 수 있습니다.
아래에서 보시다시피, EMR 콘솔에 몇 가지 보안 설정을 추가하였습니다.
새로 만드시려면, Create을 선택합니다.
이름을 입력하고 새로운 기능의 형식과 원하는 모드를 선택합니다. 모드와 형식에 따라, 콘솔이 추가 정보 입력을 요청합니다.
S3 암호화:
로컬 디스크 암호화:
전송 중인 데이터 암호화:
인증서 공급자 유형을 PEM 파일로 한 경우, 암호화에 사용하려는 PEM 파일을 포함한 Zip 파일의 S3의 위치를 입력하십시오. 사용자 정의를 선택한 경우, JAR 파일의 S3 위치와 사용자 인증서 공급자의 클래스명을 입력하십시오.
원하는 대로 설정 한 후 [Create]를 클릭합니다. 보안 설정이 콘솔에 표시됩니다.
이러한 작업을 완료 한 후, 새로 EMR 클러스터를 만들 때 설정을 선택할 수 있습니다. 본 기능은 Amazon EMR 자료 4.8.0 또는 5.0.0을 사용하는 클러스터에서 사용할 수 있습니다. 자세한 내용은 a href=”http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-data-encryption.html”>Amazon EMR Encryption with Security Configurations를 참조하십시오.
— Jeff;
이 글은 Additional At-Rest and In-Transit Encryption Options for Amazon EMR의 한국어 번역입니다.