Is In-Context Learning Sufficient for Instruction Following in LLMs?
생성형 AI도 ‘맥락학습’만으로는 한계가 있다
최근 EPFL 연구진은 생성형 AI 모델의 맥락학습(In-context Learning, ICL) 능력에 대한 광범위한 연구를 통해, ICL만으로는 모델의 지시사항 수행 능력을 최적화하는 데 한계가 있다는 사실을 밝혀냈다. 특히 고성능 기반 모델일수록 단순 ICL보다는 지시사항에 맞춘 미세조정(Instruction Fine-tuning)이 더 효과적인 것으로 나타났다. 연구진은 최근 주목받고 있는 URIAL이라는 맥락학습 방식을 다양한 모델에 적용해 성능을 평가했다.
연구 결과에 따르면, URIAL을 적용한 기본 모델은 합리적인 성능을 보여주었지만, 대부분의 경우 지시사항에 맞춰 미세조정된 모델의 성능에는 미치지 못했다. 특히 다중 대화 상황에서 그 차이가 더욱 두드러졌다. 이는 맥락학습만으로는 복잡한 상호작용이 필요한 작업에서 한계가 있다는 것을 보여준다.
맥락학습의 핵심 요소는 ‘디코딩 파라미터’
연구진은 맥락학습의 성공을 좌우하는 핵심 요소를 분석한 결과, 모델의 디코딩 파라미터가 결정적인 역할을 한다는 놀라운 사실을 발견했다. 적절한 디코딩 파라미터 설정만으로도 기본 모델이 상당한 수준의 지시사항 수행 능력을 보였다. 특히 온도(temperature) 값이 기본 모델의 성능에 가장 큰 영향을 미치는 것으로 나타났다.
URIAL을 적용한 경우, 거의 모든 디코딩 구성에서 비슷한 결과를 보였으나, 높은 온도값(temperature=1)을 사용할 경우 성능이 크게 저하되는 현상이 관찰되었다. 반면 미세조정된 모델은 디코딩 구성과 관계없이 안정적인 성능을 보여주었다. 이는 미세조정이 모델의 출력 분포를 조정하여 다양한 디코딩 환경에서도 높은 품질의 텍스트를 생성할 수 있게 한다는 것을 시사한다.
대규모 맥락학습도 제한적 효과
연구진은 최근 출시된 긴 문맥 창(context window)을 가진 모델들을 대상으로 다량의 예시를 활용한 맥락학습 실험을 진행했다. Mistral-7B-v0.2와 Llama-3.1-8B 모델을 사용한 실험에서, 예시의 수를 늘려도 성능 향상은 20-30개 정도에서 정체되었으며, 일부 경우에는 오히려 성능이 저하되는 현상도 관찰되었다.
특히 다중 대화 상황에서는 더 많은 예시를 추가할수록 오히려 성능이 저하되는 현상이 발견되었다. 이는 단일 대화 예시만을 사용하여 다중 대화 능력을 향상시키는 데 한계가 있다는 것을 보여준다. 연구진은 이러한 결과가 맥락학습의 근본적인 한계를 보여준다고 설명했다.
맥락학습과 미세조정의 체계적 비교
연구진은 처음으로 맥락학습과 지시사항 미세조정을 동일한 조건에서 체계적으로 비교했다. 3개에서 4,000개까지 다양한 규모의 학습 데이터셋을 사용하여 두 방식의 성능을 평가했다. 고품질 데이터를 사용했을 경우, 단일 대화에서는 두 방식 모두 비슷한 성능을 보였다.
그러나 다중 대화 상황에서는 미세조정이 맥락학습보다 월등히 우수한 성능을 보였다. 특히 맥락학습의 경우 기본 모델보다도 낮은 성능을 보이는 경우도 있었다. 이는 맥락학습이 주어진 예시의 스타일에 과도하게 의존하는 경향이 있다는 것을 시사한다.
향후 과제와 시사점
이번 연구는 맥락학습의 가능성과 한계를 동시에 보여준다. 적은 수의 예시로도 기본적인 지시사항 수행 능력을 향상시킬 수 있다는 점은 긍정적이다. 그러나 복잡한 대화나 고도의 추론이 필요한 작업에서는 여전히 미세조정이 더 효과적인 방법임이 입증되었다.
연구진은 “맥락학습은 모델 커스터마이징에 유용한 도구가 될 수 있지만, 고성능 AI 어시스턴트를 만들기 위해서는 여전히 미세조정이 필요하다”고 결론지었다. 이는 향후 AI 모델 개발에서 두 방식을 상호 보완적으로 활용해야 할 필요성을 시사한다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기