Amazon Keyspaces for Apache Cassandra 정식 출시 (서울 리전 포함)

2020-05-01 KENNETH 0

Amazon Keyspaces for Apache Cassandra 정식 출시 (서울 리전 포함) AWS는 작년 re:Invent에서 Amazon Managed Apache Cassandra Service(MCS)를 소개했습니다. 이후 몇 달 동안 이 서비스에는 새로운 기능이 많이 추가되었고 현재 Amazon Keyspaces (for Apache Cassandra)라는 이름으로 정식 출시되었습니다. Amazon Keyspaces는 Apache Cassandra를 기반으로 한, 완전관리형 서버리스 데이터베이스로 사용할 수 있습니다. 애플리케이션은 거의 변경하지 않거나 전혀 변경하지 않고 기존 CQL(Cassandra Query Language) 코드를 사용하여 Amazon Keyspaces에서 데이터를 읽고 쓸 수 있습니다. 사용 사례에 따라 각 테이블에 가장 적합한 구성을 선택할 수 있습니다. 온디맨드로 이용하는 경우 실제로 수행한 읽기 및 쓰기 작업량을 기준으로 요금을 지불합니다. 따라서 예측할 수 없는 워크로드에 가장 적합한 옵션입니다. 프로비저닝된 용량을 사용하는 경우 사전에 용량 설정을 구성하여 예측 가능한 워크로드의 비용을 절감할 수 있습니다. 또한 하루 중 트래픽의 변화에 따라 프로비저닝된 용량 설정을 자동으로 업데이트하는 Auto Scaling을 활성화하여 비용을 더욱 최적화할 수 있습니다. Amazon Keyspaces 사용 제가 어렸을 때 처음으로 [ more… ]

AWS Glue를 활용한 서버리스 스트리밍 ETL 기능 출시

2020-04-30 KENNETH 0

AWS Glue를 활용한 서버리스 스트리밍 ETL 기능 출시 데이터를 분석할 때, 가장 먼저 취하는 방법은 일괄(Batch) 처리 모델입니다. 일정 기간 동안 데이터를 수집한 다음, 분석 도구에 넣는 것입니다. 신속히 대응하려면 스트리밍(Streaming) 모델을 사용할 수 있습니다. 이 모델에서는 데이터가 도착하는 대로 처리하거나, 한 번에 레코드 하나씩 처리하거나, 10개, 100개, 1,000개 단위의 마이크로 배치로 레코드를 처리합니다. 연속적인 입력 파이프라인을 관리하고 즉석에서 데이터를 처리하는 작업은 상당히 복잡한데, 그 이유는 관리와 패치, 확장이 필요하고 전반적으로 돌봐야 하는 상시 가동 시스템이기 때문입니다. 오늘부터 Apache Spark에 기반하여 확장하여 스트리밍 플랫폼(예: Amazon Kinesis Data Streams, Apache Kafka(완전관리형 Amazon MSK 포함))에서 데이터를 연속적으로 실행하고 사용함으로써 이 작업이 더욱 간편해지고 비용이 절감할 수 있게 됩니다. AWS Glue가 Amazon S3의 데이터 레이크, Amazon Redshift의 데이터 웨어하우스 또는 다른 데이터 스토어에 입력하는 데 필요한 인프라를 프로비저닝, 관리 및 확장할 수 있습니다. 예를 들어 DynamoDB 테이블에 스트리밍 데이터를 저장하여 빠르게 조회하거나, Elasticsearch에 [ more… ]

Amazon SageMaker의 MXNet 추론 컨테이너를 활용한 KoGPT2 모델 배포하기

2020-04-28 KENNETH 0

Amazon SageMaker의 MXNet 추론 컨테이너를 활용한 KoGPT2 모델 배포하기 기계 학습 기반 자연어 처리를 위한 다양한 학습 모델이 나오고 있는 가운데, 다국어로 학습된 BERT의 한국어 성능 한계를 극복하기 위해 SK텔레콤의 T-Brain에서는 KoBERT라는 한국형 사전 훈련 모델을 개발하였습니다. 위키피디아나 뉴스 등에서 수집한 수백만 개의 한국어 문장으로 이루어진 대규모 말뭉치(corpus)를 기반으로 학습하였으며, 한국어의 불규칙한 언어 변화의 특성을 반영하기 위해 데이터 기반 토큰화(Tokenization) 기법을 적용하여 Apache MXNet을 비롯하여 PyTorch,  ONNX 등 다양한 딥러닝 API를 지원합니다. 또한, 기존 KoBERT 의 뒤를 이어 OpenAI의 대용량 언어 모델인 GPT2를 한글 데이터로 학습시킨 KoGPT2 모델을 구축했습니다. 이를 위해 SK텔레콤 Conv.AI팀이 대규모 언어 모델 학습 로직을 구현하고, Amazon Machine Learning Solutions Lab이 대규모 분산 학습 인프라 구성 및 최적화, GluonNLP팀에서 학습 성능 개선에 협업으로 참여하였습니다. 이를 통해 기존 학습 과정 대비 학습 효율이 2배 이상 향상되었으며, 한국어 대화 데이터에 해당 모델을 적용했을 때 대화의 자연스러움이 크게 향상되었습니다. KoGPT2와 [ more… ]

Amazon CloudWatch Synthetics를 통해 웹 사이트, API 엔드포인트 등 모니터링하기

2020-04-28 KENNETH 0

Amazon CloudWatch Synthetics를 통해 웹 사이트, API 엔드포인트 등 모니터링하기 현대 애플리케이션에는 컨테이너, 마이크로서비스, 레거시 내부 서비스 및 타사 서비스를 비롯한 수백 또는 수천 개의 가동 부품이 포함됩니다. 각 부품의 상태 및 성능을 모니터링하는 것 외에 부품이 함께 작동하여 허용할 수 있는 고객 경험을 제공하는지 확인해야 합니다. Amazn CloudWatch Synthetics(AWS re:Invent 2019에서 발표)를 사용하면 사이트, API 엔드포인트, 웹 워크플로 및 기타 항목을 모니터링할 수 있습니다. 성능 및 가용성에 대한 가시성이 개선되어 외부에서 내부를 파악할 수 있으므로 문제를 더 빠르게 인지하고 해결할 수 있습니다. 고객 만족을 개선하는 동시에, 애플리케이션이 성능 목표를 준수한다는 확신을 높일 수 있습니다. 단 몇 분이면 CloudWatch Synthetics를 시작할 수 있습니다. Amazon CloudWatch에 저장된 지표와 S3 버킷에 저장된 기타 데이터(스크린샷 및 HTML 페이지)를 사용하여 개별 웹 페이지, 다중 웹 페이지 워크플로(예: 마법사 및 체크아웃) 및 API 엔드포인트를 모니터링하는 Canary를 생성하면 됩니다. Canary를 생성할 때 CloudWatch 경보를 설정하면 성능, [ more… ]

AWS Transfer Family, SFTP외 FTP 및 FTPS 추가 지원

2020-04-28 KENNETH 0

AWS Transfer Family, SFTP외 FTP 및 FTPS 추가 지원 AWS Transfer for SFTP는 2018년 11월에 출시된 완전관리형 서비스로, SFTP(Secure File Transfer Protocol)를 사용하여 Amazon S3의 파일을 직접 송신하고 수신할 수 있는 기능을 제공합니다. 이제 FTPS 및 FTP에 대한 지원을 추가하는 서비스 확장이 발표됨에 따라 기존의 AWS Transfer for SFTP 서비스에 더해 AWS에서 FTPS(File Transfer Protocol over SSL) 및 FTP 워크로드를 손쉽게 마이그레이션하고 안전하게 실행할 수 있게 됩니다. Amazon S3에 대한 SFTP, FTPS 및 FTP 기반의 전송 지원과 함께, AWS Transfer for SFTP, FTPS 및 FTP를 총칭하는 “AWS Transfer 패밀리”도 발표됩니다. 일부 소프트웨어 아카이브 및 과학 연구 애플리케이션에서는 FTP를 사용하여 소프트웨어 아티팩트 또는 퍼블릭 데이터 세트를 배포하며 CRM, ERP 및 공급망 애플리케이션에서는 FTPS를 사용하여 민감한 데이터를 전송합니다. 기존 애플리케이션의 다수는 FTP 또는 FTPS에서 SFTP로 전환할 수 없는데 기존 애플리케이션 및 프로세스를 변경해야 하기 때문입니다. 특히 타사 제품이 포함된 애플리케이션의 경우 비현실적이거나 [ more… ]