Amazon SageMaker Ground Truth 서비스 – 데이터 레이블 작업 고도화 및 70% 비용 절감 가능
Amazon SageMaker Ground Truth 서비스 – 데이터 레이블 작업 고도화 및 70% 비용 절감 가능 1959년, Arthur Samuel은 기계 학습을 “명시적으로 프로그래밍하지 않으면서도 컴퓨터에 학습할 수 있는 능력을 부여하는 연구 분야”로 정의했습니다. 하지만, 만능 솔루션은 없습니다. 이러한 학습 프로세스에는 알고리즘(“학습 방법”)과 학습 데이터 세트(“학습 방법”)가 필요합니다. 오늘날 대부분의 기계 학습 작업에는 지도 학습(supervised learning)이라는 기법이 사용됩니다. 레이블이 지정된 데이터 세트에서 패턴 또는 동작을 학습하는 알고리즘이죠. 레이블이 지정된 데이터 세트에는 데이터 샘플과 각 샘플에 대한 정답, 즉 ‘실질 정보’가 담겨 있습니다. 해결해야 할 문제에 따라서는 레이블이 지정된 이미지(“이것은 개다”, “이것은 고양이다”), 레이블이 지정된 텍스트(“이것은 스팸이다”, “이것은 아니다”)도 사용할 수 있습니다. 최근에는 개발자와 데이터 과학자들은 이제 다양한 상용 알고리즘(Amazon SageMaker의 기본 제공 알고리즘 참조)과 참조 데이터 세트를 활용할 수 있습니다. 딥러닝은 MNIST, CIFAR-10 또는 ImageNet 같은 이미지 데이터 세트가 대중화되는 계기가 되었고, 기계 번역 또는 텍스트 분류와 같은 작업을 위한 데이터 세트도 [ more… ]