기계 학습 정확도에 대한 몇 가지 의견

이 블로그 글은 최근 불거진 기계 학습의 정확도와 편향된 생각에 대한 몇 가지 의견을 간략히 소개합니다.

먼저 최근 미국시민자유연맹(ACLU)의 블로그에서 제기된 얼굴 인식 실험 게시물에 대한 몇 가지 의견입니다. ACLU에서는 Amazon Rekognition을 사용하여 25,000장의 범죄자 공개 사진을 기반으로 얼굴 데이터베이스를 구축한 다음, 현재 재직 중인 미의회 의원들의 공개 사진을 사용하여 해당 데이터베이스에 대한 얼굴 유사성 검색을 수행했습니다. 그 결과 80% 신뢰 수준에서 535건 중 28건의 잘못된 일치 결과를 발견했습니다. 이는 5% 식별 오류(‘오탐’이라고도 함) 또는 95%의 정확도를 의미합니다. 이 데이터 세트, 방법론 또는 결과에 대한 상세한 내용은 발표되지 않았으므로 ACLU에서 공개한 내용에만 의존할 수 밖에 없습니다. 그러나 이들의 주장에 대해 다음과 같은 몇 가지 생각을 해 볼 수 있습니다.

Rekognition의 얼굴 인식 API에 대한 기본 신뢰 임계값은 80%입니다. 이 수치는 광범위한 일반 사용 사례(예: 소셜 미디어에서 유명 인사 인식하기 또는 사진 앱에서 닮은 가족 구성원 찾기)에서 충분할 수 있겠으나 공공 안전 사용 사례에서는 적합한 기준이 아닙니다. ACLU에서 사용한 80% 신뢰 임계값은 개인을 식별하기에 너무 낮게 설정되었으며 이 정도의 신뢰 수준에서는 오탐 결과가 예상됩니다. 매우 정확한 얼굴 유사성 일치가 중요한 사용 사례에는 99% 값을 사용할 것이 권장됩니다(AWS의 공개 문서의 지정 값).신뢰 임계값이 오탐에 미치는 영향을 보여주기 위해 AWS에서는 한 가지 테스트를 수행했습니다. 일단 학계에서 주로 사용하는 850,000만 명의 얼굴로 구성된 데이터 세트를 사용하여 얼굴 컬렉션을 생성한 다음 미국 의회(상원 및 하원) 위원들의 공개 사진을 사용하여 ACLU 블로그와 유사한 방식으로 컬렉션에 대한 검색을 실시했습니다.상당한 크기의 얼굴 데이터(ACLU의 테스트보다 30배 더 큰 규모)를 비교했음에도 불구하고 신뢰 임계값을 99%(AWS 문서의 지정 값)로 설정할 때 식별 오류율이 0%로 하락했습니다. 이는 공공 안전 문제 해결을 위해 기술을 사용할 때 오탐을 최소화하거나 완전히 제거하려면 적절한 신뢰 수준을 선택하는 것이 얼마나 중요한지를 보여줍니다.
미아 찾기, 인신매매 근절 또는 범죄 방지와 같은 현실 세계의 공공 안전 및 법 집행 시나리오에서는 필드를 좁히고 사람이 판단(완전 자동화된 결정이 아님)을 통해 신속하게 옵션을 검토 및 고려할 수 있도록 지원하기 위해 Amazon Rekognition이 거의 독점적으로 사용되고 있습니다. Rekognition은 개인을 식별하는 첫 단계에 불과합니다. 다른 사용 사례(예: 소셜 미디어)에서는 재확인을 위한 필요성이 그렇게 높지 않으므로 신뢰 임계값을 낮출 수 있습니다.
신뢰 임계값을 너무 낮게 설정하는 경우뿐 아니라 적절한 대표 집단이 될 수 없는 왜곡된 얼굴 데이터베이스를 사용할 때에도 Rekognition 결과가 상당히 왜곡될 수 있습니다. 본 사례에는 ACLU에서 범인 식별용 얼굴 사진으로 구성된 얼굴 데이터베이스를 사용했으며 이러한 데이터베이스는 Rekognition 결과의 정확도에 실질적인 영향을 미칠 수 있습니다.
Rekognition과 같은 클라우드 기반 기계 학습 애플리케이션의 장점은 더 많은 데이터로 알고리즘을 개선함에 따라 성능을 지속적으로 개선된다는 것입니다. 이러한 개선 사항의 혜택은 즉각적으로 고객에게 돌아갑니다. AWS는 Rekognition를 사람, 물체 및 장면의 식별에 있어 가장 정확하고 강력한 도구가 되도록 한다는 사명에 계속 집중하고 있으며 이러한 노력에는 정확도에 영향을 미치는 편향이 결과에 포함되지 않도록 하는 작업도 포함됩니다. 인신매매 근절, 미아 찾기, 모바일 결제 사기 감소 및 보안 개선 분야에서 Rekognition은 이미 고객과 세상 모두에게 상당한 가치를 추가해 주고 있으며 미래에도 AWS는 Rekognition을 통해 고객과 사회 모두를 돕기 위해 계속 노력할 것입니다.
사람이 기계보다 사진의 얼굴을 더 잘 인식한다는 생각은 흔히 있는 오해 중 하나입니다. 실제로 National Institute for Standards and Technology(“NIST”)는 최근 얼굴 인식 기술에 대한 연구를 발표했습니다. 이 기술들은 Rekognition에 사용된 첨단 기술보다 적어도 2년은 뒤지는 기술이지만 이 연구에서는 이렇게 오래된 기술도 사람의 얼굴 인식 능력을 초과한다는 결론을 내렸습니다.

마지막으로 ACLU 결과에 대한 잘못된 해석이 있습니다. 새로운 기술 발전이 등장하면 우리 모두는 어느 것이 사실이고 어느 것이 허구인지를 명확하게 이해해야 합니다. 기계 학습을 사용하여 음식물을 알아맞히는 것과 기계 학습을 사용하여 어느 얼굴 일치가 법 집행 조치를 고려할 기준이 되는지를 결정하는 것 사이에는 차이가 있습니다. 후자는 심각한 작업이며 월등히 높은 신뢰 수준을 필요로 합니다. AWS에서는 고객이 법 집행 일치 작업의 경우 99% 신뢰 수준 미만을 사용하지 말 것과 일치 결과를 각 기관에 맞는 단일 입력 항목으로 사용할 것을 계속 권장합니다. 그러나, 기계 학습은 법 집행 기관에 도움이 되는 매우 가치 있는 도구이며, 정확한 적용 방식에 대한 우려는 가지되 온도를 못 맞춰 밥이 탔다고 밥솥을 버리는 일은 없어야 합니다. 그러나 정부는 법 집행 기관이 준수해야 하는 정확한 온도(즉, 신뢰 수준)를 검토 및 지정하여 공공 안전 업무에 도움이 될 수 있도록 하는 것이 매우 합당합니다.

– Dr. Matt Wood

이 글은 AWS 블로그에 게재된 Thoughts On Machine Learning Accuracy에 대한 한국어 번역입니다.

Source: 기계 학습 정확도에 대한 몇 가지 의견