Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4
AI와의 대화, 이제는 ‘원칙’이 필요하다
인공지능 대화 모델과의 소통이 일상화되면서 ‘프롬프트 엔지니어링’의 중요성이 날로 커지고 있다. 모하메드 빈 자예드 AI 대학교(MBZUAI) 연구팀이 AI 모델과의 효과적인 소통을 위한 26가지 핵심 원칙을 제시했다. 이 원칙들은 LLaMA-1/2, GPT-3.5/4와 같은 대형 언어 모델들의 응답 품질을 획기적으로 개선할 수 있는 것으로 나타났다. 연구진은 “프롬프트 엔지니어링은 생성형 AI 모델과 소통하는 예술”이라며 체계적인 접근의 중요성을 강조했다.
원칙의 핵심은 ‘구체성’과 ‘명확성’
연구진이 제시한 26가지 원칙은 크게 5가지 카테고리로 분류된다. ‘프롬프트 구조와 명확성’, ‘구체성과 정보’, ‘사용자 상호작용과 참여’, ‘내용과 언어 스타일’, ‘복잡한 작업과 코딩 프롬프트’가 그것이다. 각 카테고리는 AI 모델과의 효과적인 소통을 위한 구체적인 지침을 제공한다.
특히 연구팀은 불필요한 정보를 배제하고 구체적인 맥락을 제공하는 것이 핵심이라고 강조했다. 예를 들어, “please”, “thank you”와 같은 공손한 표현은 불필요하며, 대신 명확한 지시문을 사용하는 것이 더 효과적이라고 설명했다. 또한 대상 청중을 명시하거나, 단계별 사고 과정을 요청하는 등의 구체적인 지침이 AI의 응답 품질을 크게 향상시킬 수 있다고 밝혔다.
실험을 통해 검증된 효과성
연구팀은 ATLAS라는 벤치마크를 개발하여 각 원칙의 효과를 검증했다. 실험은 다양한 규모의 AI 모델을 대상으로 진행되었으며, 특히 응답의 ‘품질 향상도’와 ‘정확도’를 중점적으로 평가했다.
실험 결과는 주목할 만했다. GPT-4 모델에서는 응답의 품질이 평균 57.7% 향상되었고, 정확도는 36.4% 개선되었다. 더욱 흥미로운 점은 모델의 규모가 클수록 개선 효과도 커졌다는 것이다. LLaMA-2-7B에서 GPT-4로 갈수록 20% 이상의 성능 향상이 관찰되었다.
구체적으로, 작은 규모의 모델(7B)에서는 10~40%의 정확도를 보였고, 중간 규모의 모델(13B)에서도 비슷한 수준을 유지했다. 그러나 대형 모델(70B, GPT-3.5/4)에서는 정확도가 40% 이상으로 크게 향상되었다.
프롬프트 디자인의 새로운 지평
연구팀이 제시한 원칙들은 단순한 지침을 넘어 AI와의 소통 방식을 근본적으로 재고하게 만든다. 예를 들어, 복잡한 작업을 단순한 하위 작업으로 나누거나, 예시를 통한 학습을 유도하는 등의 방법은 AI의 이해도와 수행 능력을 크게 향상시킬 수 있다.
또한 연구진은 이러한 원칙들이 모델의 크기나 종류에 관계없이 보편적으로 적용될 수 있다고 강조했다. 다만, 매우 복잡하거나 전문적인 질문에 대해서는 원칙들의 효과가 제한적일 수 있다는 한계도 인정했다.
미래 연구 방향과 과제
연구진은 이번 연구가 AI 모델과의 효과적인 소통을 위한 기초를 마련했다고 평가하면서도, 여전히 개선의 여지가 있다고 지적했다. 특히 향후 연구에서는 더 다양한 상황과 더 복잡한 작업에서도 적용 가능한 원칙들을 개발할 필요가 있다고 강조했다.
또한 현재의 원칙들은 주로 영어를 기반으로 개발되었지만, 다른 언어에서도 동일한 효과를 보일 수 있도록 연구를 확장할 필요가 있다고 밝혔다. 더불어 AI 모델의 윤리적 사용과 관련된 원칙들도 추가로 개발될 필요가 있다고 제안했다.
연구팀은 “이번 연구는 AI와의 소통을 더욱 효과적으로 만들기 위한 첫걸음”이라며, “앞으로도 계속해서 원칙들을 발전시키고 개선해 나갈 것”이라고 향후 연구 계획을 밝혔다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기