생성형 AI 개발자 도구 ‘깃허브 코파일럿’, 개발 생산성 향상에 효과 없어

Can Generative AI Improve Developer Productivity?

깃허브 코파일럿, 개발 속도와 효율성 개선에 실패

최근 많은 엔지니어링 팀들이 생성형 AI 도구를 활용해 개발자의 생산성과 경험을 향상시키려는 시도를 하고 있다. 그중에서도 깃허브 코파일럿(GitHub Copilot)은 가장 주목받는 도구 중 하나다. 하지만 실제 데이터는 이러한 기대와는 다른 결과를 보여주고 있다.

업레벨(Uplevel)의 고객사에서 약 800명의 개발자를 대상으로 한 연구에 따르면, 코파일럿 사용 여부에 따른 개발자 성과 차이는 거의 없는 것으로 나타났다. 연구진은 코드 작성 주기(cycle time), PR(Pull Request) 처리량, 버그 발생률, 초과 근무 시간 등의 객관적인 지표를 분석했다.

당초 코파일럿은 개발자들이 더 빠르고 스마트하게 코드를 작성할 수 있도록 도와 코드 작성 주기를 단축하고, PR 처리량을 늘리며, 버그를 줄이는 동시에 번아웃 위험도 낮출 것으로 기대됐다. 그러나 연구 결과, 코파일럿 사용 그룹과 비사용 그룹 간의 성과 차이는 통계적으로 유의미하지 않았다. 예를 들어, 코드 작성 주기가 1.7분 감소하는 데 그쳤다.

코드 품질 저하와 번아웃 위험 증가 우려

오히려 코파일럿 사용 그룹에서 버그 발생률이 41% 증가했다는 점은 주목할 만하다. 이는 코파일럿 사용이 코드 품질에 부정적인 영향을 미칠 수 있음을 시사한다. PR 처리량에 변화가 없었다는 점도 이러한 가능성을 뒷받침한다.

또한, 번아웃의 주요 지표인 ‘지속적인 초과 근무’ 시간도 코파일럿 사용 그룹에서 더 적게 감소했다. 코파일럿 비사용 그룹의 초과 근무 시간이 28% 감소한 반면, 사용 그룹은 17% 감소에 그쳤다. 이는 코파일럿이 개발자의 번아웃 위험을 줄이는 데 효과적이지 않았음을 보여준다.

생성형 AI 도구의 보수적 도입 전략 필요

이러한 연구 결과는 코파일럿과 같은 생성형 AI 도구의 효과에 대해 중요한 의문을 제기한다. 현재로서는 이들 도구가 개발자의 생산성을 실질적으로 향상시키지 못하는 것으로 보인다. 그러나 기술 혁신의 속도가 빠르고, 깃허브에서 코파일럿이 개발자 만족도를 개선한다고 보고하고 있는 만큼, 엔지니어링 리더들은 향후 도구의 발전을 대비해 보수적인 도입 전략을 취할 필요가 있다.

연구진은 코파일럿과 같은 생성형 AI 도구의 효과적인 도입을 위해 몇 가지 전략을 제안했다. 먼저, 팀은 코파일럿을 워크플로우에 통합함으로써 달성하고자 하는 구체적인 성과 목표를 명확히 설정해야 한다. 이와 함께 개발자들에게 코파일럿의 적절한 사용법과 조직 차원의 안전장치에 대한 교육을 제공하는 것이 중요하다. 또한 조직은 코파일럿이 실제로 도움이 되는 특정 사용 사례와 최상의 결과를 얻을 수 있는 프롬프트를 지속적으로 실험하고, 이를 전체 조직과 공유해야 한다. 마지막으로, AI가 실제로 개발자 생산성을 개선하고 운영 목표 달성에 도움이 되는지 객관적으로 평가하기 위해 A/B 테스트를 통한 엔지니어링 효과 지표 모니터링을 실시해야 한다. 이러한 종합적인 접근 방식을 통해 조직은 생성형 AI 도구의 잠재력을 최대한 활용하면서도 그 한계를 인식하고 대비할 수 있을 것이다.

생성형 AI 도구는 빠르게 발전하고 있지만, 현재로서는 개발자 생산성 향상에 큰 도움이 되지 않는 것으로 보인다. 그러나 이러한 도구의 잠재력을 고려할 때, 엔지니어링 팀들은 향후 발전을 대비해 신중하고 전략적인 접근을 취해야 할 것이다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.