Amazon EMR, Apache Hudi 추가를 통해 개별 레코드 수준 데이터 관리 기능 출시
Amazon EMR, Apache Hudi 추가를 통해 개별 레코드 수준 데이터 관리 기능 출시 Amazon S3에 데이터를 저장하면 규모 조정, 신뢰성 및 비용 효율 면에서 많은 이점이 있습니다. 그 뿐 아니라, Amazon EMR을 활용할 수 있으므로 Apache Spark, Hive 및 Presto와 같은 오픈 소스 도구를 사용하여 데이터를 처리 및 분석할 수 있습니다. 이러한 도구는 강력한 성능을 제공하지만 점진적 데이터 프로세싱과 레코드 수준의 삽입, 업데이트 및 삭제가 필요한 사용 사례를 처리하기에는 여전히 어려울 수 있습니다. 저희 고객과의 대화를 통해, AWS에서는 다음과 같이 개별 레코드에 대한 점진적 변경을 처리해야 하는 사용 사례가 있다는 것을 확인했습니다. 사용자가 잊혀질 권리를 행사하거나 데이터 사용에 대한 동의 의사를 변경할 수 있는 데이터 프라이버시 규정 준수 특정 데이터 삽입 또는 업데이트 이벤트를 처리해야 하는 데이터 스트리밍 작업 기업 데이터 웨어하우스 또는 운영 데이터 스토어에서 오는 데이터베이스 변경 로그의 추적 및 수집을 위해 CDC(변경 데이터 캡처) 아키텍처 사용 지연 수신된 데이터의 [ more… ]