Amazon SageMaker의 MXNet 추론 컨테이너를 활용한 KoGPT2 모델 배포하기
Amazon SageMaker의 MXNet 추론 컨테이너를 활용한 KoGPT2 모델 배포하기 기계 학습 기반 자연어 처리를 위한 다양한 학습 모델이 나오고 있는 가운데, 다국어로 학습된 BERT의 한국어 성능 한계를 극복하기 위해 SK텔레콤의 T-Brain에서는 KoBERT라는 한국형 사전 훈련 모델을 개발하였습니다. 위키피디아나 뉴스 등에서 수집한 수백만 개의 한국어 문장으로 이루어진 대규모 말뭉치(corpus)를 기반으로 학습하였으며, 한국어의 불규칙한 언어 변화의 특성을 반영하기 위해 데이터 기반 토큰화(Tokenization) 기법을 적용하여 Apache MXNet을 비롯하여 PyTorch, ONNX 등 다양한 딥러닝 API를 지원합니다. 또한, 기존 KoBERT 의 뒤를 이어 OpenAI의 대용량 언어 모델인 GPT2를 한글 데이터로 학습시킨 KoGPT2 모델을 구축했습니다. 이를 위해 SK텔레콤 Conv.AI팀이 대규모 언어 모델 학습 로직을 구현하고, Amazon Machine Learning Solutions Lab이 대규모 분산 학습 인프라 구성 및 최적화, GluonNLP팀에서 학습 성능 개선에 협업으로 참여하였습니다. 이를 통해 기존 학습 과정 대비 학습 효율이 2배 이상 향상되었으며, 한국어 대화 데이터에 해당 모델을 적용했을 때 대화의 자연스러움이 크게 향상되었습니다. KoGPT2와 [ more… ]