ChatGPT 및 DALL-E를 활용한 이벤트 기반 서버리스 동화 생성 애플리케이션 구현
AWS 서버리스 서비스와 아키텍처를 활용하여 떠오르는 생성형 AI (Generative AI) 서비스인 ChatGPT 및 DALL-E API를 사용하는 애플리케이션을 만들어봅니다. 이 글에서는 ChatGPT에 대한 프롬프트로 미리 결정된 캐릭터와 장면을 사용하여 어린이를 위한 동화 생성 이야기 애플리케이션을 구현 하는 방법을 살펴봅니다.
매일 밤 취침 시간에 서버리스 스케줄러가 애플리케이션을 트리거하여 이벤트 기반 워크플로를 시작하여, AI 생성 이미지 및 지원 오디오를 사용하여 AI 생성 스토리를 새로 만들고 저장합니다. 데이터 세트는 AWS App Runner에서 호스팅되는Next.js로 구축된 사용자 지정 웹 사이트에서 스토리를 보여주는 데 사용됩니다.이야기가 생성된 후, 아이들에게 이야기를 보고 읽을 수 있는 URL이 포함된 알림이 사용자에게 전송됩니다.
AWS 서비스를 AI 기술과 통합함으로써 좀 더 새롭고 혁신적인 아이디어를 빠르게 구현 할 수 있습니다. 이 글에서 사용된 AWS 기술은 Amazon EventBridge 파이프를 사용한 지점간 메시징, Amazon EventBridg 를 사용한 게시/구독 패턴및DynamoDB Streams를 사용한 변경 데이터 캡처 이벤트 등입니다. GitHub에서 이 애플리케이션의 설명서와 소스 코드를 찾을 수 있습니다.
아키텍처 이해
다음 이미지는 ChatGPT 및 DALL-E를 사용한 서버리스 취침 시간 스토리 생성을 위한 아키텍처 다이어그램을 보여줍니다.
Amazon EventBridge Scheduler를 사용하여 매일 구성된 시간에 새로운 동화가 생성됩니다 (1단계). EventBridge Scheduler는 200개 이상의 대상과 6000개 이상의 API 호출로 수백만 개의 일정을 확장할 수 있는 서비스입니다. 이 예제 애플리케이션은 EventBridge 스케줄러를 사용하여 매일 밤 같은 시간(오후 7시 15분)에 AWS Lambda함수를 트리거합니다. 스토리 생성을 시작하기 위해 Lambda 함수가 트리거됩니다.
“Scenes” 및 “Characters” DynamoDB테이블에는 스토리에 관련된 캐릭터와 생성 중에 무작위로 선택된 장면이 포함됩니다.결과적으로 ChatGPT는 매번 고유한 메시지를 받습니다.프롬프트의 예는 다음과 같습니다.
“Parker와 Jackson이라는 두 주인공에 대해 제목과 운율을 맞춘 이야기를 쓰십시오. 이야기는 유령의 숲 장면을 배경으로 해야 하며 최소 200단어 길이여야 합니다.”
스토리가 생성되면 “Stories” DynamoDB 테이블에 저장됩니다(2단계).
스토리가 생성되면DynamoDB 스트림을 사용하여 변경 데이터 캡처 이벤트를 시작합니다 (3단계). 이 이벤트는 EventBridge 파이프를 사용한 지점간 메시징을 통해 EventBridge로 직접 전달됩니다. 그런 다음 입력 변환을 사용하여 DynamoDB 스트림 이벤트를 다운스트림 소비자가 이해할 수 있는 사용자 지정 EventBridge 이벤트로 변환합니다.
이 패턴을 채택하면 DynamoDB 이벤트 스키마에서 계약을 분리할 수 있고 다운스트림 소비자가 이 스키마 구조를 따르지 않아도 되므로 이점이 있습니다. 이 매핑을 통해 구현 세부 정보에서 분리된 상태를 유지할 수 있습니다.
EventBridge에서 StoryCreated 이벤트를 트리거하면 3개의 대상이 트리거되어 여러 프로세스를 수행합니다(4단계). 먼저 AI 이미지를 처리한 다음 스토리용 오디오를 생성합니다. 마지막으로 최종 사용자는 Amazon SNS및 이메일 구독을 통해 완성된 스토리를 알립니다.이 팬아웃 패턴을 통해 이러한 작업을 비동기및 병렬로 실행할 수 있으므로 처리 시간이 더 빨라집니다.
SNS 주제는 ‘StoryCreated’ 이벤트에 의해 트리거되어 이메일 구독을사용하여 최종 사용자에게 이메일을 보냅니다(6단계).이메일은 생성된 스토리의 ID가 포함된 URL로 구성됩니다. URL을 클릭하면 사용자가App Runner로 호스팅되는 프론트엔드 애플리케이션으로 이동합니다.
Amazon Polly는 스토리용 오디오 파일을 생성하는 데 사용됩니다(6단계). `StoryCreated` 이벤트가 트리거되면 Lambda 함수가 트리거되고 스토리 설명이 사용되어 Amazon Polly에 제공됩니다. 그런 다음 Amazon Polly는 Amazon S3에 저장되는 스토리의 오디오 파일을 생성합니다.
미리 서명된 URL이 생성 되어 생성된 스토리에 대해 DynamoDB에 저장됩니다. 이렇게 하면 사용자가 페이지를 볼 때 프론트엔드 애플리케이션과 브라우저가 오디오 파일을 검색할 수 있습니다. 미리 서명된 URL의 유효 기간은 2일이며 그 이후에는 더 이상 액세스하거나 들을 수 없습니다.
‘StoryCreated’ 이벤트는 또한 OpenAI API를사용하여 생성된 스토리를 기반으로 DALL-E를 사용하여 AI 이미지를 생성하는또 다른 Lambda 함수를 트리거합니다 (7단계).이미지가 생성되면 이미지가 다운로드되어 Amazon S3에 저장됩니다.
오디오 파일과 유사하게 시스템은 이미지에 대해 미리 서명된 URL을 생성하고 스토리에 대해 DynamoDB에 저장합니다.미리 서명된 URL은 2일 동안만 유효하며 그 이후에는 다운로드하거나 볼 수 없습니다.
오디오 또는 이미지 생성에 실패하는 경우 프론트엔드 애플리케이션은 여전히 스토리를 로드하지만 그 순간 누락된 이미지 또는 오디오를 표시하지 않습니다. 이렇게 하면 프론트엔드가 계속 작동하고 가치를 제공할 수 있습니다. 더 많은 제어를 원하고 모든 병렬 작업이 완료된 후에만 사용자의 알림 이벤트를 트리거하는 경우 수집기 메시징 패턴을 고려할 수 있습니다.
App Runner로 프론트엔드 Next.js 애플리케이션 호스팅
Next.js는 프론트엔드 애플리케이션에서 DynamoDB 테이블의 스토리에 액세스할 수 있는 서버 측 렌더링(SSR) 페이지를 렌더링하는 데 사용되며 컨테이너화된 후 AWS App Runner 에서 호스팅됩니다.
AWS App Runner를 사용하면 컨테이너 또는 인프라에 대한 사전 지식 없이도 컨테이너화된 웹 애플리케이션 및 API를 안전하게 배포할 수 있습니다. App Runner를 사용하면 개발자는 애플리케이션에 집중할 수 있으며 서비스는 컨테이너 시작, 실행,확장및 로드 밸런싱을 처리합니다.배포 후 App Runner는 클라이언트가 HTTP 요청을 시작할 수 있는 보안 URL을 제공합니다.
App Runner를 사용하면 컨테이너 배포를 위한 두 가지 기본 옵션인소스 코드 연결 또는 소스 이미지가 있습니다. 소스 코드 연결을 사용하면 소스 코드에서 직접 이미지 파일을 가져올 수 있는 App Runner 권한이 부여되며, 자동 배포가 구성되면 변경 사항이 있을 때 애플리케이션을 다시 배포할 수 있습니다.또는 소스 이미지는 App Runner에 이미지 레지스트리의 이미지 위치를 제공하고 이 이미지는 App Runner에 의해 배포됩니다.
이 예제 애플리케이션에서 CDK는 App Runner 구성과 함께 DockerImageAsset 구성을 사용하여 애플리케이션을 배포합니다. 일단 배포되면 App Runner는 프론트엔드 이미지를 빌드하고 Amazon Elastic Container Registry(ECR)에 업로드하고 배포합니다. 다운스트림 소비자는 App Runner에서 제공하는 보안 URL을 사용하여 애플리케이션에 액세스할 수 있습니다. 이 예에서 URL은 스토리를 볼 준비가 되었을 때 사용자에게 SNS 알림이 전송될 때 사용됩니다.
프론트엔드 컨테이너에 DynamoDB 테이블에 대한 권한 부여
Stories DynamoDB 테이블에서 스토리를 가져올 수 있는 Next.js 애플리케이션 권한을 부여하기 위해 App Runner 인스턴스 역할이 구성됩니다. 이러한 역할은 선택 사항이며 컨테이너가 컴퓨팅 서비스에 필요한 AWS 서비스에 액세스하는 데 필요한 권한을 제공할 수 있습니다 .
AWS App Runner에 대해 자세히 알아보려면 무료 워크샵을 참고하세요.
설계 선택 및 가정
DynamoDB TTL(Time to Live) 기능은 매일 생성되는 스토리의 수명이 짧은 특성에 이상적입니다. DynamoDB는 각 스토리에 TTL 속성을 설정하여 2일 후에 스토리 삭제를 처리합니다. 스토리가 삭제되면 생성된 스토리 URL을 통해 액세스할 수 없게 됩니다.
Amazon S3 미리 서명된 URL을 사용하는 것은 S3의 파일에 대한 임시 액세스 권한을 부여하는 방법입니다. 이 애플리케이션은 오디오 파일에 대해 미리 서명된 URL을 생성하고 2일 동안 지속되는 생성된 이미지를 생성하며 그 이후에는 S3 항목에 대한 URL이 무효화됩니다.
DynamoDB 스트림과 EventBridge 이벤트 간에 입력 변환을 사용하여 다운스트림 대상에서 사용하는 스키마와 이벤트를 분리합니다. 이벤트를 있는 그대로 사용하는 것을 “순응자” 패턴이라고 하며 DynamoDB 스트림의 구현 세부 정보와 다운스트림 EventBridge 소비자를 연결합니다. 이를 통해 애플리케이션은 구현 세부 정보와 분리된 상태를 유지하고 유연성을 유지할 수 있습니다.
마무리
다양한 산업 분야에서 인공지능(AI) 기술의 채택이 크게 증가했습니다. 자연어로 인간과 같은 반응을 이해하고 생성할 수 있는 대규모 언어 모델인 ChatGPT, 텍스트 설명을 기반으로 사실적인 이미지를 생성할 수 있는 이미지 생성 시스템 DALL-E가 그러한 기술의 예입니다. 이러한 시스템은 AI가 혁신적인 솔루션을 제공하고 우리가 기술과 상호 작용하는 방식을 변화시킬 수 있는 잠재력을 보여주었습니다.
이 글에서 ChatGTP 및 DALL-E와 함께 AWS 서버리스 서비스를 활용하여 App Runner에서 호스팅되는 Next.js 애플리케이션이 전면에 있는 스토리 생성 애플리케이션을 생성할 수 있는 방법을 알아보았습니다. Amazon EventBridge 스케줄러는 스토리 생성 프로세스를 트리거한 다음 DynamoDB 스트림 및 EventBridge 파이프로 변경 데이터 캡처 이벤트에 반응하고 EventBridge를 사용하여 알림, 이미지 및 오디오 파일을 처리하는 컴퓨팅 작업을 팬아웃하는 데 사용됩니다. GitHub에서 이 애플리케이션의 설명서와 소스 코드를 찾을 수 있습니다.
– David Boyne, AWS Senior Developer Advocate
이 글은 AWS Compute Blog에 게시된 Implementing an event-driven serverless story generation application with ChatGPT and DALL-E의 한국어 번역본입니다.