Select Committee on Adopting Artificial Intelligence (AI)
호주 증권투자위원회(Australian Securities and Investments Commission, ASIC)가 생성형 AI(인공지능)의 문서 요약 기능을 실험한 결과를 발표했다. ASIC은 지난 1월 15일부터 2월 16일까지 5주간 아마존웹서비스(AWS)와 협력해 대규모 언어 모델(LLM)을 활용한 실증 실험(Proof of Concept, PoC)을 진행했다.
이번 실험의 주요 목적은 생성형 AI 기술을 탐색하고, 출력물의 품질을 측정하며, 향후 ASIC 업무에 활용할 수 있는 잠재력을 파악하는 것이었다. ASIC 측은 “이번 PoC는 탐색적 성격의 실험이었으며, ASIC의 규제 업무나 실제 비즈니스 활동에는 사용되지 않았다”고 밝혔다.
실험은 총 3단계로 진행됐다. 1단계에서는 메타(Meta)의 라마2-70B(Llama2-70B), 미스트랄-7B(Mistral-7B), 미스트랄라이트(MistralLite) 등 3개 모델을 대상으로 성능을 비교했다. 2단계에서는 1단계에서 선정된 라마2-70B 모델을 최적화했고, 3단계에서는 최종 평가를 실시했다.
최종 평가 결과, AI가 생성한 요약문은 75점 만점에 35점(47%)을 받았고, 인간이 작성한 요약문은 61점(81%)을 받았다. ASIC 관계자는 “AI 요약문이 인간 요약문보다 전반적으로 낮은 점수를 받긴 했지만, 이 결과는 이번 PoC의 한계 내에서 해석돼야 한다”고 설명했다.
AI 요약문의 주요 문제점으로는 맥락과 뉘앙스 파악 능력 부족, 부정확한 정보 포함, 관련 정보 누락, 제출 자료의 핵심 요점 파악 실패, 덜 중요한 정보에 집중, 무관한 정보 사용 등이 지적됐다. 특히 ASIC 관련 언급을 찾는 데 어려움을 겪었고, 이해관계 충돌 규제 방안과 권고사항을 요약하는 데 가장 취약한 모습을 보였다.
ASIC 평가자들은 “현재 상태의 AI 출력물을 사용하면 사실 확인 작업이 추가로 필요해 오히려 더 많은 작업이 생길 수 있다”고 지적했다. 또한 “원본 자료가 정보를 더 잘 제시하고 있어 AI 요약문보다 원본을 직접 참고하는 게 나을 것 같다”는 의견도 나왔다.
그러나 ASIC은 이번 실험을 통해 여러 가지 교훈을 얻었다고 밝혔다. 특히 모델 선택보다 최적화 과정이 더 중요하다는 점을 강조했다. ASIC 관계자는 “적절한 프롬프트 엔지니어링, 즉 모델에 제시하는 질문과 과제를 신중하게 구성하는 것이 최적의 결과를 얻는 데 매우 중요하다는 것을 발견했다”고 말했다.
ASIC은 “기술이 이 분야에서 빠르게 발전하고 있어 향후 모델들이 성능과 정확도를 개선할 가능성이 높다”며 “생성형 AI에는 기회가 있지만, 이번 PoC를 통해 이 특정 사용 사례에 대한 한계와 과제도 확인했다”고 결론지었다.
한편 ASIC은 이번 실험의 한계로 짧은 실험 기간, 단일 모델 사용, AWS 환경으로 제한된 점, 특정 사용 사례에 국한된 점 등을 언급했다. ASIC은 앞으로 생성형 AI 기술의 발전 추이를 지속적으로 모니터링하고, 내부 역량 강화를 통해 AI의 잠재력을 최대한 활용할 계획이라고 밝혔다.
ASIC의 보고서는 링크에서 확인할 수 있다.
본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기