AWS Batch 및 Amazon FSx for Lustre 기반 다중 노드 병렬 작업을 통한 확장 가능한 딥 러닝 학습 방법
AWS Batch 및 Amazon FSx for Lustre 기반 다중 노드 병렬 작업을 통한 확장 가능한 딥 러닝 학습 방법 Toyota Research Institute는 지난 AWS re:Invent 2018에서 딥러닝을 위한 고성능 컴퓨팅 아키텍처를 발표했습니다. 이는 올해 초 출시된 확장 가능한 딥 러닝 고성능 컴퓨팅(HPC) 솔루션을 위한 참조 아키텍처를 기반으로 했습니다. 본 아키텍처는 Apache MXNet 및 TensorFlow 프레임워크에서 ImageNet 및 ResNet-50 벤치마크를 실행하도록 설계되었습니다. AWS가 제공하는 확장성과 탄력성을 활용하기 위해 다양한 클라우드 모범 사례를 사용했습니다. AWS의 혁신 속도에 발맞춰 새로운 서비스를 통해 딥 러닝 솔루션을 개발할 수 있습니다. 3가지 구성 요소를 지닌 HPC 클러스터는 긴밀하게 결합된 다중 노드 분산형 학습 솔루션에서 일반적으로 사용됩니다. 기본 계층은 TFRecords 또는 RecordIO로 압축된 이미지만 아니라 원래 형식으로 읽는 데에도 최적화된 고성능 파일 시스템입니다. 참조 아키텍처는 기존에 BeeGFS를 참조했습니다. 특히, 지난 re:Invent 2018에서 발표된 Amazon FSx for Lustre 라는 고성능 파일 시스템을 사용합니다. 두 번째 계층은 확장 가능형 [ more… ]