Amazon Redshift 업데이트 – S3 자동 복사, Aurora Zero-ETL, 멀티 AZ 지원, 동적 데이터 마스킹 등

고객과 이야기를 나누다 보면 고객이 데이터에서 얻은 인사이트를 활용하여 시기 적절하고 영향력 있고 실행 가능한 비즈니스 결정을 내릴 수 있기를 원한다는 것을 알 수 있습니다. 데이터 기반 조직의 일반적인 패턴은 분석 시스템에 수집해야 하는 데이터 소스가 다양하다는 것입니다. 이를 위해서는 운영 데이터베이스, 데이터 레이크, 스트리밍 데이터 및 웨어하우스 내 데이터를 아우르는 수동 데이터 파이프라인을 구축해야 합니다. 이 복잡한 설정으로 인해, 데이터 엔지니어가 데이터 통합 파이프라인을 구축하는 데 몇 주 또는 몇 달이 걸릴 수 있습니다. 이러한 데이터 파이프라인은 비용이 많이 들며, 지연으로 인해 비즈니스 기회를 놓칠 수 있습니다. 또한, 데이터 웨어하우스는 점점 높은 가용성, 신뢰성 및 보안을 요구하는 미션 크리티컬 시스템이 되어가고 있습니다.

Amazon Redshift는 수만 명의 고객이 규모에 관계없이 모든 데이터를 쉽고 빠르고 안전하고 비용 효율적으로 분석하는 데 사용하는 완전 관리형 페타바이트 규모의 데이터 웨어하우스입니다. 올해 re:Invent에서 Amazon Redshift는 안전하고 신뢰할 수 있는 환경에서 데이터 수집을 간소화하고 인사이트를 쉽고 빠르게 얻을 수 있도록 도와주는 여러 기능을 발표했습니다.

이 블로그에서는 다음과 같은 두 가지 주요 범주로 분류되는 몇 가지 새로운 기능을 소개합니다.

데이터 수집 간소화
- Amazon Redshift는 이제 Amazon S3에서 자동 복사를 지원합니다(평가판에서 제공). 이 새로운 기능을 통해 Amazon Redshift는 사용자가 지정한 Amazon Simple Storage Service(S3) 위치에 도착하는 파일을 데이터 웨어하우스에 자동으로 로드합니다. 파일은 CSV, JSON, Parquet 및 Avro와 같은 Amazon Redshift 복사 명령에서 지원하는 모든 형식을 사용할 수 있습니다. 이렇게 하면 복사 절차를 수동으로 또는 반복해서 실행할 필요가 없습니다. Amazon Redshift는 파일 수집을 자동화하고 데이터 로드 단계를 내부적으로 처리합니다.
- Amazon Redshift와 Amazon Aurora Zero-ETL 통합을 통해 Amazon Redshift를 사용하여 Amazon Aurora MySQL 데이터베이스에 저장된 페타바이트 규모의 트랜잭션 데이터에 대해 거의 실시간으로 분석 및 기계 학습을 수행할 수 있습니다(제한된 평가판에서 제공). 이 기능을 사용하면 Amazon Redshift로 분석하려는 데이터가 포함된 Amazon Aurora 데이터베이스를 선택할 수 있습니다. 그러면 트랜잭션 데이터가 Amazon Aurora에 기록된 후 몇 초 내에 데이터가 데이터 웨어하우스에 복제되므로 복잡한 데이터 파이프라인을 구축 및 유지 관리할 필요가 없습니다. 여러 Amazon Aurora 데이터베이스의 데이터를 동일한 Amazon Redshift 인스턴스로 복제하여 여러 애플리케이션에서 분석을 실행할 수 있습니다. 트랜잭션 데이터에 거의 실시간으로 액세스할 수 있으므로 내장된 기계 학습(ML), 구체화된 뷰, 데이터 공유, 여러 데이터 스토어 및 데이터 레이크에 대한 통합 액세스와 같은 Amazon Redshift의 분석 및 기능을 활용하여 트랜잭션 및 기타 데이터에서 인사이트를 얻을 수 있습니다.
- Amazon Redshift Streaming Ingestion이 정식 출시됨에 따라, 이제 Amazon Kinesis Data Streams과 Amazon MSK에서 초당 수백 메가바이트의 데이터를 Amazon Redshift 구체화된 뷰로 기본적으로 수집하고 몇 초 만에 쿼리할 수 있습니다. 이 게시글에서 자세히 알아보세요.
데이터 웨어하우스를 더욱 안전하고 안정적으로 만들기
- 이제 여러 가용 영역 배포를 선택하여 데이터 웨어하우스의 가용성을 개선할 수 있습니다. Amazon Redshift 클러스터에 대한 다중 AZ 배포가 평가판에서 제공되며 자동 복구를 통해 복구 시간을 몇 초로 단축합니다. 이러한 방식으로 AWS Well-Architected Framework의 Reliability Pillar(신뢰성 원칙)의 권장 사항을 더 잘 준수하는 솔루션을 구축할 수 있습니다.
- 동적 데이터 마스킹(평가판에서 제공)을 사용하면 데이터 웨어하우스에 저장된 민감한 정보를 보호하고 사용자가 역할에 따라 관련 데이터만 액세스할 수 있도록 할 수 있습니다. 여러 수준의 정책을 사용하여 사용자에게 표시되는 식별 가능한 데이터의 양을 제한할 수 있으므로 데이터 복사본을 여러 개 만들지 않고도 다양한 사용자 및 그룹이 서로 다른 수준의 데이터 액세스 권한을 가질 수 있습니다. 동적 데이터 마스킹은 행 수준 및 열 수준 보안과 역할 기반 액세스 제어를 비롯한 Amazon Redshift의 다른 세분화된 액세스 제어 기능을 보완합니다. 이러한 방식으로 동적 데이터 마스킹은 GDPR, CCPA 및 기타 개인 정보 보호 규정에 대한 요구 사항을 충족하는 데 도움이 됩니다.
- Amazon Redshift는 이제 AWS Lake Formation과의 데이터 공유를 위한 중앙 액세스 제어를 지원합니다(공개 평가판에서 제공). 이제 Lake Formation을 사용하여 Amazon Redshift에서 공유하는 데이터의 거버넌스를 간소화하고 모든 데이터 공유 소비자의 세분화된 액세스를 중앙에서 관리할 수 있습니다.

re:Invent에서 Amazon Redshift에 대한 다른 흥미로운 소식도 이미 들어 보셨을 것입니다.

Apache Spark용 Amazon Redshift 통합이 정식 출시됨에 따라 Amazon Redshift 및 Redshift Serverless에서 Spark 애플리케이션을 쉽게 구축 및 실행할 수 있게 되어, 더 광범위한 AWS 분석 및 기계 학습 솔루션을 위한 데이터 웨어하우스를 운영할 수 있습니다.
AWS Backup에서 이제 Amazon Redshift를 지원합니다. AWS Backup에서는 애플리케이션의 데이터 보호를 관리하는 중앙 백업 정책을 정의할 수 있으며, Amazon Redshift 클러스터도 보호할 수 있습니다. 이에 따라 지원되는 모든 서비스에서 데이터 보호를 관리할 때 환경이 일관되게 유지됩니다.

가용성 및 요금
다중 AZ 배포, AWS Lake Formation과의 데이터 공유를 위한 중앙 액세스 제어, Amazon S3에서의 자동 복사 및 동적 데이터 마스킹은 미국 동부(오하이오), 미국 동부(버지니아 북부), 미국 서부(오레곤), 아시아 태평양(도쿄), 유럽(아일랜드) 및 유럽(스톡홀름)에서 평가판으로 제공됩니다.

Amazon S3의 자동 복사 및 트랜잭션 데이터에 대한 실시간에 가까운 분석을 사용하는 데는 추가 비용이 들지 않습니다. 동적 데이터 마스킹 및 데이터 공유를 위한 중앙 액세스 제어에는 추가 요금이 부과되지 않습니다. 자세한 내용은 Amazon Redshift 요금을 참조하세요.

이러한 새로운 기능을 통해 데이터 웨어하우스의 보안과 신뢰성을 개선하는 동시에 간단한 데이터 통합 기능으로 데이터 소스 전반의 모든 데이터를 분석하는 데 한 걸음 더 나아갈 수 있습니다.

– Danilo

Source: Amazon Redshift 업데이트 – S3 자동 복사, Aurora Zero-ETL, 멀티 AZ 지원, 동적 데이터 마스킹 등