AWS Glue Data Quality 미리보기 – 규칙 기반 자동 데이터 품질 기능 출시

2022-12-05 KENNETH 0

AWS Glue Data Quality 미리보기 – 규칙 기반 자동 데이터 품질 기능 출시 1980년에 저는 두 번째 전문 프로그래밍 일을 하면서 미국 여러 주의 운전면허증 데이터를 분석하는 프로젝트를 진행하고 있었습니다. 당시 해당 유형의 데이터는 일반적으로 고정 길이 레코드에 저장되었으며 값은 각 필드에 신중하게(또는 인코딩되지 않은) 인코딩되었습니다. 데이터에 대한 스키마가 주어졌음에도 불구하고, 항상 개발자들이 미리 예상하지 못한 값을 나타내기 위해 트릭에 의존해야 한다는 것을 알게 되었습니다. 예를 들어, 서로 다른 색깔의 눈을 가진 홍채 이색증이 있는 사람을 위해 코딩하는 것입니다. 결국 우리는 알려진 데이터를 다루고 있는지 확인하기 위해 실제 시간과 비용이 많이 드는 분석을 실행하기 전에 데이터 전체를 스캔했습니다. 이상으로 데이터 품질, 즉 데이터 품질 부족에 대한 저의 소개였습니다. AWS를 사용하면 규모에 관계없이 데이터 레이크와 데이터 웨어하우스를 쉽게 빌드할 수 있습니다. 수집, 처리 및 공유하는 데이터의 원하는 품질 수준을 그 어느 때보다 쉽게 측정하고 유지할 수 있기를 원합니다. AWS Glue 데이터 [ more… ]

Amazon Athena – Apache Spark 지원 기능 정식 출시

2022-12-05 KENNETH 0

Amazon Athena – Apache Spark 지원 기능 정식 출시 2016년 Jeff Barr가 Amazon Athena를 처음 발표했을 때, 데이터와의 상호 작용에 대한 제 관점이 바뀌었습니다. Amazon Athena를 사용하면 Athena에서 테이블 생성, 커넥터를 사용하는 데이터 로드, ANSI SQL 표준을 사용하는 쿼리부터 시작하여 몇 단계만 거치면 데이터와 상호 작용할 수 있습니다. 시간이 지남에 따라 금융 서비스, 의료 및 소매업과 같은 다양한 산업에서는 다양한 형식과 크기의 데이터에 대해 더 복잡한 분석을 실행해야 했습니다. 기업들은 복잡한 데이터 분석을 용이하게 하기 위해 Apache Spark를 도입했습니다. Apache Spark는 모든 규모의 데이터에 대해 빠른 분석 워크로드를 실행하도록 설계된 널리 사용되는 오픈 소스 분산 처리 시스템입니다. 그러나 대화형 애플리케이션을 위한 Apache Spark를 실행하기 위해 인프라를 구축하는 것은 쉽지 않습니다. 고객은 애플리케이션을 기반으로 인프라를 프로비저닝, 구성 및 유지 관리해야 합니다. 애플리케이션 시작 속도가 느려지거나 유휴 비용이 발생하지 않도록 최적의 튜닝 리소스를 사용하는 것은 말할 것도 없습니다. Apache Spark용 Amazon Athena [ more… ]

[도서] 김기창의 데이터 모델링 강의

2022-12-04 KENNETH 0

[도서] 김기창의 데이터 모델링 강의 분야별 신상품 – 국내도서 – 컴퓨터와 인터넷 [도서]김기창의 데이터 모델링 강의 김기창 저 | 위즈덤마인드 | 2022년 12월 판매가 25,200원 (10%할인) | YES포인트 280원(1%지급) 데이터 분야의 인기는 최근 10년 동안 수직 상승했다. 그럼에도 데이터 모델러나 데이터 아키텍트 인력은 인기에 비례하여 늘어나지 않고 있다. 왜일까? 이에 대한 여러 답이 나올 수 있다. 이 책은 많은 경험과 Source: [도서] 김기창의 데이터 모델링 강의

Amazon SageMaker Data Wrangler – 실시간 및 일괄 추론 지원 기능 출시

2022-12-04 KENNETH 0

Amazon SageMaker Data Wrangler – 실시간 및 일괄 추론 지원 기능 출시 기계 학습 모델을 구축하려면 기계 학습 엔지니어가 데이터를 준비하기 위한 데이터 변환 파이프라인을 개발해야 합니다. 이 파이프라인을 설계하는 프로세스는 시간이 많이 걸리며 데이터 준비 파이프라인을 프로덕션 환경에 구현하려면 기계 학습 엔지니어, 데이터 엔지니어 및 데이터 과학자 간의 팀 간 협업이 필요합니다. Amazon SageMaker Data Wrangler의 주요 목적은 데이터 준비 및 데이터 처리 워크로드를 쉽게 수행할 수 있도록 하는 것입니다. SageMaker Data Wrangler를 통해 고객은 단일 시각적 인터페이스에서 데이터 준비 프로세스와 데이터 준비 워크플로의 필요한 모든 단계를 간소화할 수 있습니다. SageMaker Data Wrangler는 신속하게 프로토타입을 만들고 데이터 처리 워크로드를 프로덕션에 배포하는 시간을 줄여 고객이 MLOps 프로덕션 환경에 쉽게 통합할 수 있도록 합니다. 그러나 모델 훈련을 위해 고객 데이터에 적용된 변환은 실시간 추론 중에 새로운 데이터에 적용되어야 합니다. 실시간 추론 엔드포인트에서 SageMaker Data Wrangler를 지원하지 않는 경우 고객은 전처리 스크립트에서 [ more… ]

AWS Application Composer 미리보기 – 서버리스 워크로드 시각화 생성 도구

2022-12-04 KENNETH 0

AWS Application Composer 미리보기 – 서버리스 워크로드 시각화 생성 도구 오늘 여러 AWS 서비스에서 서버리스 애플리케이션을 구축하는 데 사용할 수 있는 비주얼 디자이너인 AWS Application Composer 미리보기를 출시합니다. 일반적인 분산 시스템에서 각 팀별 권한 부여는 개발자가 비즈니스 기능을 코드로 변환하는 데 도움이 되도록 하는 데 필요한 문화적 변화입니다. 이것은 모든 팀이 독립적으로 작업한다는 의미는 아닙니다. 서로 다른 팀 또는 신규 참여자도 프로젝트에 기여하기 위해 무엇을 구축하고 있는지 이해해야 합니다. 아키텍처를 빠르게 이해하는 가장 좋은 방법은 다이어그램을 사용하는 것입니다. 안타깝게도 아키텍처 다이어그램은 오래된 공유 방식입니다. 또한, 프로덕션으로 워크로드를 출시할 때, 초기 설계 및 인프라와 이미 불일치가 있습니다. 서버리스 애플리케이션을 처음 구축하는 개발자는 여러 AWS 서비스에서 애플리케이션을 구성할 때 학습 곡선에 직면할 수 있습니다. 각 서비스를 구성하는 방법을 이해한 다음 인프라 기반 코드(Infrastructure as Code)를 배우고 작성하여 애플리케이션을 배포해야 합니다. AWS Application Composer 시작하기 개발자 Emma는 모든 사용자가 서비스에 가입한 후 콘텐츠에 [ more… ]