Amazon SageMaker BlazingText: 다중 CPU/GPU상에서 Word2Vec 알고리즘의 병렬 처리
Amazon SageMaker BlazingText: 다중 CPU/GPU상에서 Word2Vec 알고리즘의 병렬 처리 이 글에서는 Amazon SageMaker에서 제공하는 알고리즘 중 2018년 1월에 출시된 BlazingText를 소개하고자 합니다. BlazingText는 Word2Vec임베딩을 생성하기 위한 비지도 학습 알고리즘입니다. 여기서 말하는 임베딩이란 대규모 코퍼스(말뭉치)에 있는 단어들이 밀집되어 있는 벡터를 의미합니다. 다음과 같은 환경에서 Amazon SageMaker를 사용하실 경우, BlazingText를 이용해서 Word2Vec을 빠르게 구현할 수 있습니다: (Mikolov의 Word2Vec C버전, fastText 같은 알고리즘을 위한) 단일 CPU 인스턴스 P2, P3 처럼 다중 GPU로 구성된 단일 인스턴스 (분산 CPU 트레이닝을 위한) 다중 CPU 인스턴스 p3.2xlarge (1 Volta V100 GPU) 인스턴스 1대 상에서BlazingText와 c4.2xlarge 인스턴스 1대 상에서 fastText 와 비교하면 BlazingText가 약 21배 빠르고 비용면에서도 20% 가량 저렴합니다. 여러개의 CPU 노드로 구성된 분산 트레이닝의 경우 BlazingText는 c4.8xlarge 인스턴스 8대에서 최대 초당 5천만 단어까지 학습 속도를 낼 수 있는데, 이는 c4.8xlarge 인스턴스 1대에서 fastText의 CPU 버전과 비교하면 임베딩의 퀄리티에 영향을 거의 주지 않으면서도 속도면에서 약 11배나 빠른 [ more… ]