Amazon Comprehend, 사용자 지정 문서 분류자 학습 기능 출시
Amazon Comprehend는 다양한 범위에서 자연어 처리 텍스트를 처리하는 기능을 제공합니다(자세한 내용은 이를 소개하는, Amazon Comprehend – Continuously Trained Natural Language Processing 게시물 참조). 2017년 후반에 영어 및 스페인어 지원 버전으로 출시된 이후, Asynchronous Batch Operations, Syntax Analysis, 추가 언어 지원(프랑스어, 독일어, 이탈리아어, 포르투갈어), 그리고 더 많은 리전에서 서비스를 지원하는 등 고객 중심 기능이 더 추가되었습니다.
자동 기계학습(AutoML)을 사용하는 Comprehend는 ML 내부나 외부에서 학습하지 않고도 이미 보유한 데이터를 사용하여 사용자 지정 자연어 처리(NLP) 모델을 만들 수 있습니다. 사용자의 데이터 세트와 사용 사례에 기반하여 자동으로 올바른 알고리즘을 선택하고, 파라미터를 조정하며, 결과로 생성된 모델을 구축하고 테스트할 수 있습니다.
지원 티켓, 콜센터, 채팅이나 대화(Amazon Transcribe, 포럼 게시물 등)와 같은 태그 사용 문서 모음이 이미 갖춰진 경우 여기서부터 시작할 수 있습니다. 이 경우 태그는 간편하게 각 문서를 검토하고 원하는 방식으로 문서를 분류하기 위한 레이블을 지정하기 위해 사용합니다. 사용자 지정 분류를 사용하려면 각 레이블에 적어도 50개 문서가 있어야 하지만, 문서가 수백 또는 수천에 달하는 경우 이와 같이 분류하면 보다 효과적일 수 있습니다.
이 게시물에서는 사용자 지정 분류를 중점적으로 다룹니다. 이제 비속어를 포함하는 일반 텍스트를 분리하는 모델을 학습하는 방법을 보여 드리겠습니다. 그리고 이 모델을 사용하여 새 텍스트를 분류하는 방법도 설명합니다.
분류자 사용
먼저, 다음과 같은 텍스트를 학습하는 CSV 파일부터 시작합니다. (모든 텍스트는 비속어가 많이 포함되었기 때문에 회색으로 처리했습니다.)
학습 데이터는 S3 객체에 상주해야 합니다. 이때 줄당 문서와 레이블은 하나씩 지정됩니다.
그리고 Amazon Comprehend Console로 이동하여 Classification을 클릭합니다. 기존 분류자가 없으므로, Create classifier를 클릭하여 새로 만듭니다.
분류자에 이름을 지정하고 문서를 표시할 언어를 선택합니다. 학습 데이터가 상주하는 S3 버킷을 선택한 후 버킷에 액세스할 권한이 있는 AWS Identity and Access Management (IAM) 역할을 생성합니다. 그리고 Create classifier를 클릭하여 계속 진행합니다.
학습 프로세스는 바로 시작됩니다.
상태는 몇 분 안에 Trained로 변경됩니다. 이제 일부 텍스트(일부에는 비속어도 포함됨)를 분류하는 분석 작업을 생성할 수 있습니다.
이 텍스트를 다른 S3 버킷에 넣고 콘솔에서 Analysis를 클릭하고 Create job을 클릭합니다. 작업 이름을 지정하고 [Analysis type]으로 [Custom classification]을 선택하고 방금 생성한 분류자를 선택합니다. 또 입력 버킷(위 파일 포함)과 결과를 수신할 또 다른 버킷(새로 생성한 분류자별로 분류됨)을 가리키고, Create job을 클릭하여 계속 진행합니다. (중요한 보안 팁: 원본과 대상으로 같은 S3 버킷을 사용하는 경우 입력 문서를 이름으로 참조해야 합니다.)
작업이 바로 시작되고 몇 분 안에 완료됩니다.
출력의 각 줄은 입력 파일에 있는 문서에 해당합니다.
다음에서 한 줄을 자세히 보여줍니다.
위와 같이, 새 Classification Service는 강력하고 사용하기 쉽습니다. 이제 기계 학습에 대해 잘 몰라도 몇 분 안에 유용하고 높은 품질의 결과를 얻을 수 있습니다.
또한 Amazon Comprehend CLI 및 Amazon Comprehend API를 사용하여 모델을 학습하고 테스트할 수도 있습니다.
정식 출시
Amazon Comprehend Classification Service는 Comprehend가 지원되는 모든 지역에서 오늘부터 이용할 수 있습니다.
— Jeff;