AFLOW: AUTOMATING AGENTIC WORKFLOW GENERATION
인간의 개입 최소화, AI의 자율적 최적화 실현
일리노이 대학교 어바나-샴페인과 몬트리올 대학교 연구진이 개발한 AFLOW(Automating Agentic Workflow Generation)가 대규모 언어 모델(LLM)의 활용 방식을 혁신적으로 개선할 가능성을 보여주고 있다. AFLOW는 복잡한 작업을 수행하기 위한 LLM 기반 워크플로우를 자동으로 생성하고 최적화하는 프레임워크로, 기존 LLM 활용 방식의 한계를 극복하고자 한다.
기존에는 LLM을 활용할 때 사람이 직접 설계한 작업 흐름(워크플로우)에 크게 의존했다. 이로 인해 새로운 도메인이나 복잡한 작업에 LLM을 적용할 때 상당한 인적 자원과 시간이 소요되는 문제가 있었다. AFLOW는 이러한 문제를 해결하기 위해 Monte Carlo Tree Search(MCTS) 알고리즘을 활용하여 AI가 스스로 최적의 워크플로우를 탐색하고 생성하도록 설계되었다.
연구를 주도한 한 연구원은 AFLOW의 목표가 LLM을 활용한 문제 해결 과정을 자동화하고 최적화하는 것이라고 설명했다. 이를 통해 인간의 개입을 최소화하면서도 다양한 도메인의 복잡한 작업을 효과적으로 처리할 수 있는 워크플로우를 AI 스스로 생성할 수 있게 되었다고 강조했다.
코드 기반 워크플로우로 유연성 확보
AFLOW의 핵심은 워크플로우를 코드로 표현하는 방식에 있다. 이 접근법을 통해 단순한 순차적 실행뿐만 아니라 조건부 로직, 루프 등 복잡한 구조의 워크플로우도 표현할 수 있게 되었다. 또한 AFLOW는 ‘Operator’라는 개념을 도입하여 일반적으로 사용되는 LLM 작업들을 재사용 가능한 형태로 캡슐화했다. 이는 탐색 효율성을 높이는 동시에 유연한 워크플로우 생성을 가능케 한다.
AFLOW는 워크플로우를 LLM을 호출하는 노드들의 연결로 모델링한다. 각 노드는 LLM 작업을 나타내며, 노드 간의 연결은 코드로 표현된다. 이러한 구조는 그래프나 네트워크 형태의 복잡한 워크플로우도 표현할 수 있게 해준다. 연구팀은 이를 통해 워크플로우 최적화 문제를 코드로 표현된 워크플로우에 대한 탐색 문제로 재정의했다. 이러한 접근 방식은 MCTS 알고리즘을 효과적으로 적용할 수 있게 하여, 코드 수정, 트리 구조의 경험, 실행 피드백을 통해 반복적으로 워크플로우를 개선할 수 있게 되었다.
다양한 벤치마크에서 우수한 성능 입증
연구팀은 AFLOW의 성능을 HumanEval, MBPP, MATH, GSM8K, HotPotQA, DROP 등 6개의 벤치마크 데이터셋을 통해 평가했다. 이 데이터셋들은 코드 생성, 수학 문제 해결, 다단계 질의응답 등 다양한 영역의 작업을 포함하고 있어 AFLOW의 다양한 능력을 테스트할 수 있었다.
평가 결과, AFLOW는 수동으로 설계된 방법들보다 평균 5.7%, 기존의 자동화된 워크플로우 최적화 방법보다 19.5% 높은 성능을 보였다. 특히 MATH와 MBPP 같은 복잡한 작업에서 AFLOW는 기존 방법들보다 57% 향상된 성능을 보여주었다. 이는 AFLOW가 복잡한 문제에 대해 더욱 효과적인 워크플로우를 생성할 수 있음을 시사한다.
AFLOW의 또 다른 주목할 만한 특징은 비용 효율성이다. 연구팀의 실험 결과, AFLOW를 통해 생성된 워크플로우를 사용할 경우, 상대적으로 작은 규모의 LLM으로도 GPT-4와 같은 대형 모델의 성능을 뛰어넘을 수 있었다. 예를 들어, HumanEval 데이터셋에서 AFLOW로 최적화된 워크플로우를 사용한 DeepSeek-V2.5 모델은 GPT-4의 성능을 상회하면서도 비용은 5.92%에 불과했다. 이는 AFLOW가 AI 기술의 접근성과 효율성을 크게 높일 수 있는 잠재력을 가지고 있음을 보여준다.
AI 응용의 새 지평을 여는 AFLOW
AFLOW의 개발은 LLM을 활용한 AI 응용 분야에 중요한 의미를 갖는다. 복잡한 작업을 자동으로 최적화된 워크플로우로 해결할 수 있게 됨으로써, AI의 실용적 활용 범위가 크게 확장될 수 있기 때문이다. AFLOW는 특히 복잡한 추론 작업, 코드 생성, 데이터 분석, 의사결정 지원 등 다양한 분야에서 큰 잠재력을 보여주고 있다.
다만 연구팀은 AFLOW가 아직 개발 초기 단계임을 강조하며, 향후 더 다양한 도메인과 작업에 대한 검증이 필요하다고 밝혔다. 또한 AI가 자동으로 생성한 워크플로우의 안정성과 신뢰성 확보를 위한 추가 연구의 필요성도 제기했다.
AFLOW는 AI 기술의 자율성과 효율성을 한 단계 높이는 혁신적인 접근법으로 평가받고 있다. 이 기술이 더욱 발전한다면 AI의 실용적 활용 범위가 크게 확대되고, 복잡한 문제 해결을 위한 AI 시스템 개발 과정이 획기적으로 간소화될 수 있을 것으로 전망된다. 향후 AFLOW와 같은 기술의 발전은 AI의 활용 방식을 근본적으로 변화시킬 잠재력을 가지고 있으며, 이는 AI 연구와 산업 전반에 큰 영향을 미칠 것으로 예상된다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기