AI 수백 개가 밤낮없이 코딩… 일주일간 혼자 웹브라우저 만든 인공지능 팀의 비밀

AI 코딩 도구 커서(Cursor)가 수천 개의 AI를 동시에 돌려서 사람 손 없이 웹브라우저를 만드는 데 성공했다. 해당 리포트에 따르면, 일주일 동안 쉬지 않고 돌아간 이 AI 팀은 대부분의 프로그램 코드를 스스로 짰다. AI가 단순히 프로그래머를 도와주는 게 아니라, 복잡한 프로그램 전체를 혼자 만들 수 있다는 걸 보여준 첫 사례다.

하루 24시간, 일주일 내내… AI가 2만 4천 번 코드 고쳤다

커서 연구팀은 AI들이 협력해 웹브라우저를 만든 과정을 공개했다. 이 시스템은 일주일 동안 멈추지 않고 돌아가며 한 시간에 약 1,000번씩 코드를 저장했다. 여기서 ‘코드 저장’이란 프로그래머가 작업한 내용을 기록으로 남기는 걸 말한다. 보통 실력 있는 프로그래머도 하루에 10~20번 정도 의미 있는 작업을 저장하는데, 한 시간에 1,000번이면 수십 명이 동시에 일하는 것과 비슷한 속도다.

하지만 처음부터 잘 된 건 아니었다. 연구팀의 윌슨 린(Wilson Lin)은 개인 프로젝트로 웹브라우저를 만들기 시작하면서 클로드 오퍼스 4.5라는 AI에게 자세한 계획을 짜달라고 했다. 그런데 AI 하나로는 한계가 금방 드러났다. AI는 자기가 뭘 하고 있는지 까먹었고, 제대로 안 됐는데도 “다 했어요”라며 멈춰버렸다. 복잡한 부분에서는 계속 막혀서 앞으로 나아가지 못했다. 연구팀은 이후 GPT-5.1과 GPT-5.2로 바꿨는데, 이 AI들이 시키는 대로 더 정확하게 따라 하는 능력이 좋았기 때문이다.

“서로 차례 기다리다 하루 다 갔다”… AI들끼리 협업이 안 되는 이유

AI 하나의 한계를 느낀 연구팀은 여러 AI가 동시에 일하는 방식으로 바꿨다. 첫 번째 시도는 모든 AI에게 똑같은 권한을 주고, 공유 파일을 보면서 “나는 이거 할게”, “너는 저거 해”라고 스스로 조율하게 하는 거였다. 여러 사람이 구글 문서 하나를 같이 편집하는 것과 비슷한 방식이다.

그런데 이게 완전히 실패했다. AI들은 공유 파일에 ‘자물쇠’를 걸어놓고 풀지 못했다. 자물쇠란 한 번에 한 명만 파일을 고칠 수 있게 막아두는 장치인데, AI들이 이걸 제대로 관리하지 못한 것이다. 20개의 AI를 돌렸는데 실제로는 1~3개 정도만 일하고, 나머지는 자기 차례를 기다리며 시간만 보냈다. 아무리 AI에게 주는 지시를 고쳐도 소용없었다.

더 큰 문제는 제대로 된 팀장이 없으니까 아무도 큰 일을 하려고 하지 않았다는 점이다. AI들은 서로 부딪히지 않으려고 작고 쉬운 일만 골라서 했다. 전체 프로젝트를 책임지려는 AI는 하나도 없었다. 리더도 없고 역할 분담도 안 된 팀과 똑같았다.

기획자-관리자-실무자로 나눴더니… 사람 회사 조직도와 똑같아졌다

여러 번 실패한 끝에 연구팀은 효과적인 방법을 찾아냈다. 신기하게도 이 방법은 실제 회사에서 사람들이 일하는 방식과 거의 똑같았다. 시스템은 크게 세 가지 역할로 나뉜다.

먼저 ‘총괄 기획자’ AI가 전체 목표를 이해하고 어떤 일들을 해야 하는지 정리한다. 이 기획자는 직접 코딩은 안 하고 계획만 세운다. 기획자가 일이 너무 크다고 판단하면 ‘중간 기획자’ AI를 만들어서 작은 범위를 맡긴다. 이게 계속 반복되면서 큰 프로젝트가 작은 조각들로 쪼개진다.

실제 일은 ‘실무자’ AI들이 한다. 실무자들은 맡은 일을 끝까지 책임지고 완성한다. 다른 AI들이 뭘 하는지 신경 쓰지 않고 자기 일에만 집중한다. 각자 프로그램 코드 복사본을 하나씩 받아서 작업하고, 다 끝나면 일을 시킨 기획자에게 보고서를 낸다.

이 보고서에는 단순히 “이거 했어요”만 있는 게 아니다. 중요한 메모, 걱정되는 점, 새로 발견한 것, 생각, 의견이 모두 담긴다. 기획자는 이걸 받아서 최신 코드를 확인하고 다음 계획을 계속 세운다. 이런 방식 덕분에 모든 AI가 회의할 필요 없이도 정보가 아래에서 위로 잘 전달되고, 시스템이 계속 움직인다.

“완벽한 코드보다 빠른 속도”… 실수는 곧 다른 AI가 고친다

연구팀은 한 시간에 약 1,000번 코드를 저장하는 놀라운 속도를 냈지만, 이를 위해 의도적으로 포기한 게 있다. 바로 모든 코드가 100% 완벽해야 한다는 조건이었다.

모든 저장마다 완벽을 요구하자 시스템이 엄청 느려졌다. 작은 오타 하나만 생겨도 전체가 멈춰버렸다. 실무자 AI들은 자기 일이 아닌데도 그 문제를 고치려고 달려들었고, 여러 AI가 같은 문제를 고치려다가 서로 방해만 했다.

연구팀은 이런 행동이 오히려 도움이 안 된다는 걸 알았다. 약간의 실수를 허용하면 AI들이 “다른 AI가 곧 고치겠지”라고 믿고 자기 일에 집중할 수 있다. 실제로도 그렇다. 시스템 전체를 누군가 책임지고 있으니까, 문제가 생기면 빠르게 고쳐진다. 실수는 조금씩 계속 생기지만 그 비율이 일정하게 유지되고, 점점 늘어나거나 악화되지는 않는다.

이는 효율적인 시스템이 어느 정도 실수를 받아들이되, 나중에 한 번 전체 점검하고 고치는 과정이 필요하다는 걸 보여준다. 마찬가지로 여러 AI가 같은 파일을 동시에 고치는 경우도 있었다. 이걸 완전히 막으려고 복잡하게 만드는 대신, 연구팀은 잠깐 혼란스러워도 금방 정리된다는 걸 믿고 그냥 뒀다. 약간의 낭비는 있지만 전체 시스템이 훨씬 단순해졌다.

“AI한테 일 시키는 법” 배우기… 애매한 지시는 재앙이 된다

이 AI 팀에게 처음 주는 지시가 엄청나게 중요했다. 연구팀은 기본적으로 일반 AI 코딩 도구를 쓰고 있었지만, 시간과 컴퓨터 파워가 몇 배나 더 많았다. 이건 모든 걸 증폭시키는데, 애매하거나 잘못된 지시도 마찬가지였다.

웹브라우저 프로젝트에서 배운 게 몇 가지 있다. 처음에는 “기술 표준대로 만들고 버그 고쳐”라고 했는데, “기술 표준대로”라는 말이 너무 애매해서 AI들이 아무도 안 쓰는 기능들만 깊게 파고들었다. 연구팀은 당연히 빠르게 작동해야 한다고 생각했지만, AI들한테 명확하게 “빠르게 만들어”라고 말하고 시간제한을 걸어야 했다.

복잡한 부분에서 AI들은 메모리가 새거나 프로그램이 멈춰버리는 코드를 짰다. 사람이면 알아차리지만 AI들은 항상 알아채지 못했다. 시스템이 이런 문제를 스스로 복구할 수 있게 명확한 도구를 줘야 했다.

연구팀이 발견한 몇 가지 원칙이 있다. AI가 원래 잘하는 건 굳이 시키지 말고, 모르는 것(여러 AI가 협력하는 법 같은)이나 이 프로젝트만의 특별한 것(테스트 돌리는 법, 배포하는 법)만 알려주는 게 좋았다. AI를 기술은 뛰어나지만 우리 회사는 처음인 신입사원처럼 대하는 것이다.

“하지 마”가 “해”보다 더 효과적이었다. “미완성 놔두지 마”가 “완성하는 거 기억해”보다 잘 먹혔다. 구체적인 숫자를 주는 것도 유용했다. “많은 작업 만들어”라고 하면 적게 만들었지만, “20~100개 작업 만들어”라고 하면 훨씬 많이 만들고 적극적으로 일했다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI 에이전트가 수천 개씩 협업한다는 게 무슨 뜻인가요?

A. AI 하나가 아니라 각각 다른 역할을 맡은 여러 AI 프로그램이 동시에 돌아가면서 하나의 프로그램을 만드는 것을 의미합니다. 마치 여러 명이 팀을 만들어 일하는 것처럼, 어떤 AI는 계획을 세우고, 어떤 AI는 실제 코드를 짜고, 서로 정보를 주고받으며 협력합니다. 커서의 연구에서는 최대 수백 개의 AI가 동시에 작동했습니다.

Q2. 시간당 1,000번 코드 저장은 얼마나 빠른 건가요?

A. 코드 저장은 프로그래머가 작업한 내용을 기록으로 남기는 것입니다. 실력 좋은 프로그래머도 하루에 10~20번 정도 의미 있는 저장을 하기 때문에, 시간당 1,000번은 프로그래머 수십 명이 동시에 일하는 것과 비슷한 속도입니다. 다만 이 연구에서는 모든 코드가 완벽하지 않고 일부 실수를 포함할 수 있다는 점을 감안해야 합니다.

Q3. 이 기술이 상용화되면 프로그래머 일자리가 사라지나요?

A. 현재로서는 AI가 완전히 혼자서 완벽한 프로그램을 만들지는 못합니다. 이 연구에서도 처음 지시를 내리고, 시스템을 설계하고, 문제를 고치는 데 사람 전문가의 판단이 필요했습니다. 오히려 프로그래머가 반복적이고 지루한 작업에서 벗어나 더 창의적이고 중요한 일에 집중할 수 있게 도와주는 도구로 발전할 가능성이 큽니다. 연구팀도 “방향과 판단은 사람이 했다”고 밝혔습니다.

기사에 인용된 리포트 원문은 커서 블로그에서 확인 가능하다.

리포트명: Towards self-driving codebases

이미지 출처: 커서

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.