AWS Lake Formation – 데이터레이크 구축 및 관리 서비스 정식 출시

2019-08-10 KENNETH 0

AWS Lake Formation – 데이터레이크 구축 및 관리 서비스 정식 출시 데이터를 디지털 형식으로 변환할 수 있게 되면서 다양한 회사에서는 CRM(고객 관계 관리) 및 ERP(엔터프라이즈 리소스 관리) 시스템처럼 운영 체제의 데이터를 수집하는 데이터 웨어하우스를 구축하고 이 정보를 사용해 비즈니스 의사 결정을 지원할 수 있게 되었습니다. 데이터 저장을 위한 스토리지 비용이 절감되었고 다량의 데이터 관리에서 비롯되는 복잡성은 더 큰 폭으로 줄었습니다. 이를 위해 Amazon S3 같은 서비스를 활용해 구조화되지 않은 원시 데이터를 포함하여 로그, 이미지, 비디오 및 스캔된 문서 등 더 많은 정보를 보존할 수 있게 되었습니다. 데이터 레이크의 개념은 모든 데이터를 하나의 중앙 리포지토리에 원하는 규모로 저장하는 것입니다. Netflix, Zillow, NASDAQ, Yelp, iRobot, FINRA 및 Lyft 같은 고객이 이 접근 방식을 사용합니다. 이러한 고객은 단순 집계부터 복잡한 기계 학습 알고리즘에 이르는 분석을 더 큰 데이터 세트에서 실행하여 데이터의 패턴을 알아내고 비즈니스를 이해할 수 있습니다. 지난 해 re:Invent에서 소개된 AWS Lake [ more… ]

No Image

People of WordPress: Amanda Rush

2019-08-10 KENNETH 0

People of WordPress: Amanda Rush You’ve probably heard that WordPress is open source software, and may know that it’s created and run by volunteers. WordPress enthusiasts share many examples of how WordPress changed people’s lives for the better. This monthly series shares some of those lesser-known, amazing stories. Meet Amanda Rush from Augusta, Georgia, USA. Amanda Rush is a WordPress advocate with a visual disability. She first started using computers in 1985, which enabled her to turn in homework to her sighted teachers. Screen reader technology for Windows was in its infancy then, so she worked in DOS almost exclusively. After graduating high school, Amanda went to college to study computer science, programming with DOS-based tools since compilers for Windows were still inaccessible. As part of her computer science course of study, she learned HTML which began her career in [ more… ]

Announcing Windows 10 Insider Preview Build 18362.10012 & 18362.10013 (19H2)

2019-08-09 KENNETH 0

Announcing Windows 10 Insider Preview Build 18362.10012 & 18362.10013 (19H2) Hello Windows Insiders! Today we are releasing 19H2 Build 18362.10012 and Build 18362.10013 to Windows Insiders in the Slow ring. As a reminder, we are testing the ability to ship these updates with features turned off by default so that we can then turn them on via controlled feature rollouts. This helps us gain better feedback on overall build quality. A subset of Insiders in the Slow ring will have features turned off by default, and another subset will have them turned on by default. This means not everyone in the Slow ring will see new features right away: IF you are on 19H2 Build 18362.10005 – you will receive Build 18362.10012 today with features turned OFF by default. This includes the below mentioned features as well as the features [ more… ]

Amazon EMR 클러스터 탄력성에 따른 Spark 노드 손실 문제 해결 방법

2019-08-08 KENNETH 0

Amazon EMR 클러스터 탄력성에 따른 Spark 노드 손실 문제 해결 방법 AWS 고객은 Amazon EMR의 클러스터 탄력성을 활용하여 작업량에 따라 사용 인스턴스 수를 조정해서 비용을 절감할 수 있습니다. 특히, EC2 스팟 인스턴스를 사용하면, 빠르게 끝나는 작업에 대해서 80-90%의 저렴한 비용으로 작업을 할 수 있습니다. 또한, Amazon EMR의 오토 스케일링 기능을 통해 고객은 클러스터 사용이나 기타 작업 관련 지표에 따라 클러스터를 동적으로 확장 및 축소 할 수 있습니다. 다만, 이 기능을 통해 리소스를 효율적으로 사용할 수 있지만 작업 실행 중에 EC2 인스턴스가 중단될 수도 있습니다. 그 결과 계산 및 데이터가 손실될 수 있으며 이는 작업의 안정성을 저해하거나 재컴퓨팅을 통해 중복 작업을 초래할 수 있습니다. 이에 대한 해결 방법으로 실행 중인 작업에 영향을 미치지 않고 노드를 정상적으로 중단하기 위해 Amazon EMR은 Apache Hadoop의 폐기 메커니즘을 사용할 수 있습니다. Amazon EMR 팀은 이 메커니즘을 개발하여 오픈 소스로 공헌하기도 했습니다. 이 메커니즘은 대부분의 하둡 [ more… ]

Parquet 형식의 EMRFS S3 최적화 커미터를 통한 Apache Spark 쓰기 성능 개선하기

2019-08-08 KENNETH 0

Parquet 형식의 EMRFS S3 최적화 커미터를 통한 Apache Spark 쓰기 성능 개선하기 EMRFS S3 최적화 커미터는 Amazon EMR 5.19.0부터 Apache Spark 작업에 사용할 수 있는 새로운 출력 커미터입니다. 이 커미터는 EMRFS(EMR 파일 시스템)을 사용하는 Amazon S3에 Apache Parquet 파일을 쓸 때의 성능을 개선합니다. 이 게시물에서는 최근 성능 벤치마크를 실행하여 신규 최적화된 커미터를 기존 커미터 알고리즘(FileOutputCommitter 알고리즘 버전 1 및 2)과 비교하여 어떻게 Spark 쓰기 성능이 개선되었는지 알아봅니다. 실제 사용 시, 제약 사항에 대해 설명하고 가능한 해결 방법을 제시해 드리고자 합니다. EMRFS S3와 FileOutputCommitter와 비교 Amazon EMR 버전 5.19.0 이하에서는 Amazon S3에 Parquet를 쓰는 Spark 작업에는 기본적으로 FileOutputCommitter라고 하는 Hadoop 커밋 알고리즘이 사용해 왔습니다. 이 알고리즘에는 버전 1과 버전 2의 두 가지 버전이 있습니다. 두 버전 모두 임시 위치에 중간 작업 출력을 쓰는 방법을 활용합니다. 그런 다음 이름 바꾸기 작업을 수행하여 작업 완료 시간에 데이터를 표시합니다. 알고리즘 버전 1에는 두 가지 [ more… ]