Amazon Alexa, 비용 효율적인 EC2 Inf1 인스턴스 기반 추론 작업 전환 사례
Amazon Alexa, 비용 효율적인 EC2 Inf1 인스턴스 기반 추론 작업 전환 사례 Amazon Alexa 팀은 대다수의 GPU 기반 기계 학습 추론 워크로드를 AWS Inferentia 기반의 Amazon Elastic Compute Cloud(EC2) Inf1 인스턴스로 마이그레이션했습니다. 그 결과 GPU 기반 인스턴스에 비해 Alexa 텍스트-음성 변환 워크로드의 전체 지연이 25% 단축되고 비용이 30% 절감되었습니다. 지연이 짧으면 Alexa 엔지니어가 보다 복잡한 알고리즘으로 혁신하고 Alexa의 전반적인 고객 경험을 개선할 수 있습니다. AWS는 클라우드에서 최저 비용의 기계 학습(ML) 추론을 제공하기 위해 완전히 새로운 AWS Inferentia 칩을 만들었습니다. 이 칩은 AWS re:Invent 2019에서 출시된 Inf1 인스턴스를 구동합니다. Inf1 인스턴스는 GPU 기반 G4 인스턴스에 비해 처리량이 최대 30% 더 많고 추론당 비용은 최대 45% 저렴합니다. Inf1 이전에는 GPU 기반 G4 인스턴스가 클라우드에서 ML 추론에 사용할 수 있는 가장 저렴한 인스턴스였습니다. Alexa는 Amazon Echo 디바이스와 140,000개 이상의 모델(스마트 스피커, 조명, 플러그, 스마트 TV 및 카메라)을 구동하는 Amazon의 클라우드 기반 음성 서비스입니다. [ more… ]