Parquet 형식의 EMRFS S3 최적화 커미터를 통한 Apache Spark 쓰기 성능 개선하기

2019-08-08 KENNETH 0

Parquet 형식의 EMRFS S3 최적화 커미터를 통한 Apache Spark 쓰기 성능 개선하기 EMRFS S3 최적화 커미터는 Amazon EMR 5.19.0부터 Apache Spark 작업에 사용할 수 있는 새로운 출력 커미터입니다. 이 커미터는 EMRFS(EMR 파일 시스템)을 사용하는 Amazon S3에 Apache Parquet 파일을 쓸 때의 성능을 개선합니다. 이 게시물에서는 최근 성능 벤치마크를 실행하여 신규 최적화된 커미터를 기존 커미터 알고리즘(FileOutputCommitter 알고리즘 버전 1 및 2)과 비교하여 어떻게 Spark 쓰기 성능이 개선되었는지 알아봅니다. 실제 사용 시, 제약 사항에 대해 설명하고 가능한 해결 방법을 제시해 드리고자 합니다. EMRFS S3와 FileOutputCommitter와 비교 Amazon EMR 버전 5.19.0 이하에서는 Amazon S3에 Parquet를 쓰는 Spark 작업에는 기본적으로 FileOutputCommitter라고 하는 Hadoop 커밋 알고리즘이 사용해 왔습니다. 이 알고리즘에는 버전 1과 버전 2의 두 가지 버전이 있습니다. 두 버전 모두 임시 위치에 중간 작업 출력을 쓰는 방법을 활용합니다. 그런 다음 이름 바꾸기 작업을 수행하여 작업 완료 시간에 데이터를 표시합니다. 알고리즘 버전 1에는 두 가지 [ more… ]

AWS Toolkit for IntelliJ를 통해 손쉽게 서버리스 앱 배포해 보기

2019-08-08 KENNETH 0

AWS Toolkit for IntelliJ를 통해 손쉽게 서버리스 앱 배포해 보기 작년 re:Invent에서 AWS Toolkit for IntelliJ 작업이 진행 중임을 알려 드린바 있습니다. 그 이후로 이 툴킷은 GitHub에서 활발한 개발이 진행되어 왔으며, 지난 3월에 정식 출시 하였습니다.  이 툴킷은 서버리스 애플리케이션 개발을 위한 통합 환경을 제공합니다. 예를 들어, 이를 통해 다음과 같은 작업을 수행할 수 있습니다. Java로 개발한 애플리케이션을 서버리스로 즉시 배포 가능 AWS Lambda와 유사한 실행 환경에서 단계별 디버깅을 이용해서 로컬에서 코드 테스트 원하는 AWS 리전에 애플리케이션을 배포 Lambda 함수를 로컬 또는 원격에서 호출 . Amazon S3, Amazon API Gateway 및 Amazon SNS과 같은 다양한 이벤트 소스로부터 샘플 페이로드를 사용하거나 맞춤 설정 가능 이 글에서는 간단하게 AWS Toolkit for IntelliJ 사용 방법을 소개합니다. AWS Toolkit for IntelliJ 설치 먼저, AWS SAM(Serverless Application Model) CLI를 설치합니다. 이 CLI는 Lambda와 유사한 실행 환경을 제공하며 단계별 코드 디버깅을 지원합니다. 또한 이 툴킷으로 SAM CLI를 사용하여 애플리케이션에 대한 [ more… ]

Amplify Framework 업데이트 – 인공 지능 서비스 기능 추가

2019-08-06 KENNETH 0

Amplify Framework 업데이트 – 인공 지능 서비스 기능 추가 AWS는 모든 개발자가 손쉽게 활용할 수 있는 인공 지능 기술을 제공하고 있습니다. 예를 들어, 컴퓨터 비전 및 음성 인식 및 합성 같은 영역에서 다양한 AI 서비스를 통해 기계 학습에 대한 어떠한 전문 지식 없이도 사용할 수 있습니다. 클라우드를 잘 모르는 개발자들도 웹 및 모바일 애플리케이션을 손쉽게 만들 수 있는 Amplify Framework에도 Predictions 라는 기능이 추가되었습니다. 이제 어떤 개발자라도 AI/ML 사용 사례를 코드 몇 줄로 추가하고 구성할 수 있습니다. AWS Amplify는 AWS에서 모바일 및 웹 애플리케이션을 아주 쉽게 구축할 수 있는 개발 프레임워크와 개발자 서비스로 구성됩니다. 오픈 소스 Amplify Framework는 클라우드 백엔드를 구축한 후 웹 또는 모바일 앱에 통합하는 데 사용되는 독보적인 라이브러리, UI(사용자 인터페이스) 구성 요소 및 CLI(명령줄 인터페이스) 세트를 제공합니다. Amplify는 스토리지, 인증 및 권한 부여, API(GraphQL 및 REST), 분석, 푸시 알림, 챗봇 및 AR/VR 같은 범주로 구분되는 핵심 AWS 서비스 [ more… ]

AWS 주간 소식 모음 – 2019년 8월 5일

2019-08-05 KENNETH 0

AWS 주간 소식 모음 – 2019년 8월 5일 안녕하세요! 여러분~ 매주 월요일 마다 지난 주에 업데이트된 국내 AWS관련 콘텐츠를 정리해 드립니다. AWS 클라우드에 대한 새로운 소식을 확인하시는데 많은 도움 되시길 바랍니다. 혹시 빠지거나 추가할 내용이 있으시면, 저에게 메일 주시면 추가 공유해 드리겠습니다. AWS코리아 블로그 AWS CloudFormation 업데이트 – 공개 로드맵 및 CDK 구성 요소 출시 (2019-08-02) Amazon Polly, 신경망 기반 텍스트 투 스피치 및 뉴스캐스터 스타일 도입 (2019-08-02) AWS 중동(바레인) 지역 리전 정식 공개 (2019-08-02) Amazon Corretto, 장기 지원 멀티 플랫폼 OpenJDK 무료 배포판 사용하기 (2019-08-01) Amazon Managed Streaming for Apache Kafka (MSK) 서울 리전 출시 (2019-08-01) Amazon Transcribe, 음성 스트리밍에서 WebSocket 지원 활용하기 (2019-07-31) AWS DeepLens 2019 최신 장치 구매 및 신규 자습서 실행하기 (2019-07-31) [AWS Hero 특집] 서버리스 시대에 GitOps를 통한 모던 CI/CD 파이프라인 구축 (2019-07-30) AWS 추천 콘텐츠 AWS에서 데이터처리 맛보기 AWS S3 , Athena , Quicksight [ more… ]

AWS CloudFormation 업데이트 – 공개 로드맵 및 CDK 구성 요소 출시

2019-08-02 KENNETH 0

AWS CloudFormation 업데이트 – 공개 로드맵 및 CDK 구성 요소 출시 AWS CloudFormation은 2011년 초반에 AWS CloudFormation – AWS 스택 생성을 위한 레시피와 AWS 관리 콘솔에서 사용하기 같은 몇몇 게시물과 함께 출시되었습니다. 이후 다수의 AWS 리소스 유형에 대한 지원이 추가되고 여러 가지 새로운 기능이 지속적으로 출시되었으며 CloudFormation의 효율성, 확장성 및 고가용성을 위한 개선 작업이 진행되었습니다. 공개 로드맵 AWS CloudFormation은 AWS 자체보다 더 빠르게 활용도가 증가하고 있습니다. (다양한 내외부 도구들이 AWS 리소스 제어를 위해 CloudFormation을 사용하고 있으니까요.) 따라서 이를 위한 우선 순위는 완전하게 제공하는 것보다 확장성을 개선하는 데 있었습니다. 빠르고 지속적으로 100% 모두 다 지원하겠다는 범위를 목표는 여전하지만 현실적으로는 조금 시간이 걸릴 것입니다. 그래서 AWS 고객이 AWS의 우선 순위를 투명하게 확인하고 관리할 수 있는 CloudFormation Coverage Roadmap을 알려드리려고 합니다. 이를 통해 서비스 가시성을 확보하실 수 있을 거라 생각합니다. 잘 알려진 AWS Containers Roadmap의 스타일을 따르는 CloudFormation Coverage Roadmap에는 다음과 같은 4개의 [ more… ]