오픈AI가 6일(현지 시각) 자사의 텍스트-비디오 생성 AI 모델 ‘소라2(Sora 2)’의 프롬프트 작성 가이드를 공개했다. 이번 가이드는 사용자들이 원하는 영상을 더 정확하게 생성할 수 있도록 구체적인 작성 방법을 제시한다. 오픈AI는 “프롬프트 작성은 스토리보드를 본 적 없는 촬영 감독에게 브리핑하는 것과 같다”며 “디테일을 빠뜨리면 AI가 즉흥적으로 채우기 때문에 원하는 결과를 얻지 못할 수 있다”고 설명했다. 반면 일부 디테일을 열어두면 AI가 창의적인 해석을 통해 예상치 못한 아름다운 결과를 만들어낼 수도 있다고 덧붙였다.
소라2는 기본적으로 4초 길이의 영상을 생성하며, 8초와 12초 옵션도 지원한다. 해상도는 소라2 기본 모델의 경우 1280×720, 720×1280을 지원하고, 소라2 프로(Sora 2 Pro) 모델은 1024×1792, 1792×1024까지 지원한다. 오픈AI는 “일반적으로 짧은 클립에서 지시사항을 더 안정적으로 따른다”며 “8초 영상 하나보다 4초 영상 두 개를 편집으로 이어 붙이는 것이 더 나은 결과를 낼 수 있다”고 조언했다.
프롬프트 작성 시에는 카메라 프레이밍, 피사계 심도, 액션, 조명, 색상 팔레트 등을 명확히 기술하는 것이 중요하다. 예를 들어 “아름다운 밤거리”라는 모호한 표현 대신 “젖은 아스팔트, 얼룩말 횡단보도, 웅덩이에 비친 네온 사인”처럼 구체적으로 작성해야 한다. “빠르게 움직인다”보다는 “자전거를 타고 세 번 페달을 밟고, 브레이크를 잡아 횡단보도에 멈춘다”처럼 동작을 단계별로 서술하는 것이 효과적이다.
영상 스타일 설정도 중요한 요소다. “1970년대 필름”, “아이맥스(IMAX) 스케일”, “16mm 흑백 필름” 같은 전반적인 미학을 초반에 명시하면 모델이 일관성 있게 적용한다. 카메라 지시사항으로는 “와이드 풀샷, 눈높이 각도” 또는 “항공 와이드샷, 약간 아래를 향한 각도” 같은 표현이 효과적이다.
더 정밀한 제어를 원하는 사용자를 위해 소라2는 이미지 입력 기능도 제공한다. 사진이나 디지털 아트워크, AI로 생성한 이미지를 첫 프레임의 시각적 기준점으로 사용할 수 있다. 이 이미지는 영상의 해상도와 일치해야 하며, JPEG, PNG, WebP 형식을 지원한다.
대화가 포함된 영상을 제작할 때는 대사를 별도 블록으로 명확히 구분해 작성해야 한다. 오픈AI는 “대사는 간결하고 자연스럽게 유지하고, 몇 문장으로 제한해 클립 길이에 맞춰야 한다”고 권장했다. 4초 영상은 한두 번의 짧은 대화, 8초 클립은 몇 번 더 많은 대화를 수용할 수 있다.
소라2는 ‘리믹스(Remix)’ 기능도 제공한다. 이 기능을 통해 “같은 샷, 85mm로 전환” 또는 “같은 조명, 새 팔레트: 청록색, 모래색, 녹슨색”처럼 한 번에 하나씩 조정할 수 있다. 오픈AI는 “결과가 거의 완성에 가까우면 그것을 기준점으로 고정하고 조정 사항만 설명하라”고 조언했다.
해당 기사에서 인용한 소라 프롬프팅 가이드는 오픈AI 웹사이트에서 확인 가능하다.
이미지 출처: 오픈AI