생성형 AI, 개발자 생산성 올려줄까?

Can Generative AI Improve Developer Productivity?

코파일럿, 개발 효율성에 미미한 영향

최근 많은 엔지니어링 팀들이 생산성과 개발자 경험 향상을 위해 깃허브 코파일럿(GitHub Copilot)과 같은 생성형 AI 도구를 실험적으로 도입하고 있다. 그러나 이러한 도구들이 실제로 얼마나 효과적인지에 대한 의문이 제기되고 있다. 업레벨(Uplevel)의 데이터 랩스가 실시한 최근 연구는 이러한 의문에 대한 흥미로운 답변을 제시한다.

업레벨은 자사 고객사의 약 800명의 개발자를 대상으로 코파일럿 사용 여부에 따른 실제 엔지니어링 데이터를 분석했다. 연구진은 개발 주기 시간, PR(Pull Request) 처리량, 버그 발생률, 그리고 연장 근무 시간(“Always On” 시간) 등의 객관적인 지표를 활용해 코파일럿 사용 그룹과 비사용 그룹의 성과를 비교했다.

일반적인 기대와 달리, 연구 결과는 코파일럿이 개발자들의 코드 작성 속도나 효율성 향상에 큰 도움이 되지 않는다는 것을 보여줬다. PR 주기 시간, 처리량, 복잡도, 그리고 테스트를 포함한 PR 등의 지표에서 두 그룹 간 유의미한 차이가 나타나지 않았다. 일부 지표에서 통계적으로 유의미한 차이가 있었지만, 실제 엔지니어링 결과에 미치는 영향은 미미했다. 예를 들어, 개발 주기 시간은 단 1.7분 감소하는 데 그쳤다.

코드 품질 저하 우려: 버그 발생률 증가

연구 결과 중 가장 주목할 만한 점은 코파일럿 사용 그룹에서 버그 발생률이 41% 증가했다는 것이다. 이는 코파일럿 사용이 코드 품질에 부정적인 영향을 미칠 수 있음을 시사한다. PR 처리량에 변화가 없었다는 점도 이러한 가능성을 뒷받침한다. 이는 개발자들이 코파일럿이 생성한 코드를 충분히 검토하지 않고 사용할 가능성이 있음을 암시한다.

번아웃 위험 감소에 제한적 효과

업레벨의 ‘지속적 상시 근무’ 지표(표준 근무 시간 외 연장 근무 시간으로, 번아웃의 주요 지표)는 두 그룹 모두에서 감소했다. 그러나 코파일럿 사용 그룹은 17% 감소한 반면, 비사용 그룹은 28% 감소해 오히려 코파일럿을 사용하지 않은 그룹에서 더 큰 감소를 보였다. 이는 코파일럿이 번아웃 위험 완화에 효과적이지 않을 수 있음을 나타낸다.

생성형 AI 도구의 보수적 도입 전략 필요성

이번 연구 결과는 코파일럿과 같은 생성형 AI 도구가 아직 개발자의 생산성 향상이나 코드 품질 개선에 큰 도움이 되지 않음을 보여준다. 그러나 기술 혁신의 속도가 빠르고, 깃허브가 코파일럿이 개발자 만족도를 향상시킨다고 보고한 만큼, 엔지니어링 리더들은 이러한 도구의 잠재력을 간과해서는 안 될 것이다.

업레벨은 코파일럿 도입에 대한 보수적인 전략을 제안한다. 먼저, 구체적인 목표 설정이 중요하다. 코파일럿을 팀 워크플로우에 포함시켜 달성하고자 하는 구체적인 성과를 명확히 정의해야 한다. 이는 도구의 효과를 정확히 측정하고 평가하는 데 도움이 될 것이다.

다음으로, 팀 교육 제공이 필요하다. 온보딩 과정에서 코파일럿의 적절한 사용법과 조직의 안전장치를 철저히 설명해야 한다. 이는 도구의 오용을 방지하고 최적의 활용을 보장하는 데 중요하다.

또한, 지속적인 생성형 AI 실험이 요구된다. 코파일럿이 실제로 도움이 되는 특정 사용 사례와 최상의 결과를 얻을 수 있는 프롬프트를 지속적으로 찾아내고, 이를 조직 전체에 공유해야 한다. 이를 통해 도구의 효과적인 활용 방법을 점진적으로 개선할 수 있다.

마지막으로, 엔지니어링 효율성 지표 모니터링이 필요하다. AI가 실제로 개발자 생산성을 향상시키는지, 운영 목표 달성에 도움이 되는지 객관적이고 정량적인 인사이트를 얻기 위해 자체 A/B 테스트를 시작해야 한다. 이는 도구의 실제 효과를 지속적으로 평가하고 필요한 조정을 할 수 있게 해줄 것이다. 이러한 전략적 접근을 통해 기업은 코파일럿과 같은 생성형 AI 도구의 잠재력을 최대한 활용하면서도 발생 가능한 리스크를 최소화할 수 있을 것이다.

이번 연구는 생성형 AI 도구의 실제 효과에 대한 중요한 통찰을 제공한다. 코파일럿과 같은 도구들이 아직 개발자 생산성을 획기적으로 향상시키지는 못하지만, 기술의 빠른 발전 속도를 고려할 때 향후 잠재력은 여전히 크다고 볼 수 있다. 따라서 기업들은 이러한 도구를 도입할 때 신중한 접근이 필요하며, 지속적인 모니터링과 평가를 통해 최적의 활용 방안을 찾아나가야 할 것이다.

결론적으로, 이번 연구 결과는 생성형 AI 도구가 개발자 생산성 향상의 만능 해결책이 아님을 보여준다. 그러나 동시에 이러한 도구들이 가진 잠재력과 향후 발전 가능성을 간과해서는 안 될 것이다. 엔지니어링 리더들은 이러한 도구들을 전략적으로 도입하고 활용함으로써, 장기적으로 팀의 생산성과 코드 품질을 향상시킬 수 있는 방안을 모색해야 할 것이다. 생성형 AI 기술이 빠르게 발전하고 있는 만큼, 지속적인 관심과 실험, 그리고 적응이 필요한 시점이다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.