오픈AI가 25일(현지시간) 자사 홈페이지를 통해 최신 언어 모델 GPT-4o에 내장된 이미지 생성 기능을 공개했다. 이 기능은 단순히 아름다운 이미지가 아닌 실제로 유용한 시각적 콘텐츠를 만들 수 있다.
GPT-4o의 이미지 생성 기능은 정확한 텍스트와 기호를 이미지에 통합해 효과적인 시각적 커뮤니케이션 도구로 활용할 수 있다. 사용자는 자연스러운 대화를 통해 이미지를 점진적으로 수정하며 일관성을 유지할 수 있으며, 기존 시스템들이 5-8개 요소만 처리하던 것과 달리 GPT-4o는 10-20개의 서로 다른 물체도 정확하게 처리할 수 있다. 또한 사용자가 업로드한 이미지를 분석하고 학습하여 새로운 이미지 생성에 그 특성을 반영할 수 있으며, 텍스트와 이미지 간의 지식을 효과적으로 연결해 더욱 스마트한 결과물을 생성한다.
현재 모델은 긴 이미지 크롭핑, 정보 환각, 다수 개념 동시 렌더링, 다국어 텍스트 처리, 정밀 편집 등에서 제한점을 보인다.
오픈AI는 모든 생성 이미지에 C2PA 메타데이터를 포함해 출처를 확인할 수 있게 했으며, 콘텐츠 정책을 위반하는 이미지 요청은 차단하고 있다. 이 기능은 현재 ChatGPT의 Plus, Pro, Team, 무료 사용자에게 기본 이미지 생성기로 제공되고 있으며, 곧 Enterprise, Edu 사용자 및 API를 통한 개발자 접근이 확대될 예정이다.
이 기능은 오픈AI가 이미지 생성을 단순한 예술적 도구에서 실용적인 시각적 커뮤니케이션 도구로 발전시키기 위한 중요한 전환점이다.
해당 기사의 원문은 링크에서 확인할 수 있다.
이미지 출처: 오픈AI
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
관련 콘텐츠 더보기