엔비디아가 1,000개가 넘는 게임에서 4만 시간 분량의 유튜브 영상을 보고 학습한 AI 게임 플레이어 ‘나이트로젠(NitroGen)’을 공개했다. 이 AI는 별도로 가르치지 않아도 다양한 게임을 스스로 플레이할 수 있으며, 새로운 게임에 적용하면 처음부터 배우는 AI보다 최대 52% 더 나은 성과를 냈다. 엔비디아는 데이터와 모델을 모두 무료로 공개해 AI 연구 발전에 기여하겠다고 밝혔다.
유튜버들의 게임 영상에서 게임패드 조작을 자동으로 추출
해당 연구 논문에 따르면, 나이트로젠의 핵심 기술은 인터넷에 올라온 게임 영상에서 플레이어의 컨트롤러 조작을 자동으로 찾아내는 것이다. 연구팀은 화면에 게임패드 버튼 상태를 보여주는 ‘오버레이’ 기능이 있는 영상들을 수집했다. 이런 기능은 원래 게임을 빠르게 클리어하는 스피드런 게이머들이 주로 사용했지만, 지금은 일반 게이머들도 많이 쓴다. 총 7만 1,000시간 분량의 영상을 모았다.
영상 처리는 3단계로 진행됐다. 먼저 약 300개의 서로 다른 컨트롤러 모양과 비교해서 영상 속 게임패드가 어디에 있는지 찾아낸다. 그다음 AI 모델이 조이스틱이 어느 방향으로 움직였는지, 어떤 버튼이 눌렸는지 분석한다. 마지막으로 품질 필터링을 통해 실제로 의미 있는 조작이 있는 구간만 선별했다. 전체 타임 스텝의 50% 이상에서 실제 버튼이나 조이스틱 조작이 있는 부분만 유지했고, 그 결과 전체 데이터의 55%만 최종 선택됐다. 이 과정을 거쳐 최종적으로 1,000개 이상의 게임을 포함한 4만 시간 분량의 고품질 데이터를 만들었다. 비디오 게임 분야에서 가장 큰 규모의 행동 레이블 데이터셋이다.
정확도 검증을 위해 연구팀은 실제 게임 플레이를 녹화하고 AI가 추출한 조작과 실제 조작을 비교했다. 그 결과 조이스틱 위치는 84%, 버튼 누름은 96%의 정확도를 보였다. 엑스박스와 플레이스테이션 등 다양한 컨트롤러에서 모두 높은 정확도를 기록했다.

액션 게임 35%, 점프 게임 18%… 다양한 장르 골고루 학습
데이터에 포함된 게임 장르를 보면 액션 롤플레잉 게임(RPG)이 전체의 35%로 가장 많았고, 점프해서 진행하는 플랫포머 게임이 18%, 액션 어드벤처가 9%를 차지했다. 게임별로는 846개 게임이 1시간 이상, 91개 게임이 100시간 이상, 15개 게임이 1,000시간 이상의 영상을 확보했다. 연구팀은 특정 게임에만 치우치지 않도록 주의했으며, 818명의 서로 다른 유튜버로부터 영상을 수집했다.
조작 추출 정확도를 확인하기 위해 6개 게임에서 실제 플레이를 녹화하고 비교한 결과, 조이스틱은 평균 84%의 정확도, 버튼은 96%의 정확도를 보였다. 엑스박스 원과 엑스박스 시리즈 X는 조이스틱 정확도가 각각 92%, 91%였고, PS5와 엑스박스 시리즈 X는 버튼 정확도가 98%로 가장 높았다.
10개 게임 30개 미션으로 AI 실력 측정
나이트로젠의 실력을 정확히 평가하기 위해 연구팀은 10개 게임에서 총 30개의 미션을 만들었다. 2D 게임 5개와 3D 게임 5개로 구성했으며, 2D 게임은 횡스크롤 3개와 위에서 내려다보는 시점의 로그라이크 2개를 포함한다. 3D 게임은 오픈월드 2개, 전투 중심 액션 RPG 2개, 스포츠 게임 1개다.
미션은 전투(보스전, 적과의 싸움) 11개, 길찾기(특정 장소 도달, 맵 탐색) 10개, 게임별 특수 기능 9개로 나뉜다. 각 미션은 명확한 시작점과 목표가 있으며, AI의 한 번 시도는 보통 몇 분 안에 끝나지만 사람도 성공하려면 몇 시간씩 여러 번 반복해야 할 정도로 어려운 수준이다. 연구팀은 어떤 상업용 게임이든 AI로 조작할 수 있게 해주는 프로그램을 개발했다. 이 프로그램은 게임의 시간을 제어해서 한 프레임씩 진행하며, 게임 코드를 수정할 필요가 없다.
미리 학습한 AI, 새 게임 배울 때 최대 52% 더 빠르게 성장
나이트로젠의 AI 모델은 화면을 보고 어떤 조작을 할지 예측하는 방식으로 작동한다. 256×256 크기의 게임 화면을 받아서 분석하고, 앞으로 16개의 연속된 조작을 한 묶음으로 만들어낸다. 연구팀은 과거 화면 여러 장을 보는 것보다 최신 화면 한 장만 봐도 충분하다는 것을 확인했다. 16개의 조작을 한 묶음으로 만들면 하나씩 만드는 것보다 더 자연스럽게 연결된다.
미리 학습을 마친 나이트로젠은 추가로 가르치지 않아도 여러 게임에서 의미 있는 성과를 냈다. 3D 게임에서는 전투 미션 61%, 길찾기 55%, 게임별 특수 미션 56%를 성공했다. 2D 탑다운 게임은 각각 46%, 52%, 62%, 2D 횡스크롤 게임은 45%, 38%, 54%를 달성했다. 특히 맵이 고정된 게임과 매번 맵이 바뀌는 게임에서 성능 차이가 크지 않았는데, 이는 AI가 단순 암기가 아니라 진짜 게임 실력을 배웠다는 뜻이다.
새로운 게임으로 학습 효과를 테스트한 결과가 더 인상적이다. 연구팀은 전체 데이터에서 한 게임만 빼고 학습한 뒤, 그 게임으로 추가 학습을 시켰다. 그리고 같은 데이터와 시간으로 처음부터 학습한 AI와 비교했다. 탑다운 로그라이크 게임에서는 60시간, 120시간, 240시간 데이터를 썼을 때 평균 10% 더 나은 성과를 보였다. 3D 액션 RPG는 30시간 데이터로 전투에서 52%, 길찾기에서 25% 더 좋은 결과를 냈지만, 게임별 특수 미션은 5%에 그쳤다. 이는 나이트로젠이 일반적인 게임 기술은 잘 전달하지만, 게임마다 고유한 기능은 여전히 직접 배워야 함을 보여준다.
“빠른 반응만 가능, 복잡한 전략은 아직 어려워”
연구팀은 나이트로젠의 한계도 솔직히 밝혔다. 현재 모델은 순간적인 반응에는 강하지만, 긴 시간 동안 계획을 세우거나 사람의 말을 알아듣지 못한다. 그저 눈앞에 보이는 화면에만 반응할 뿐이다. 연구팀은 나이트로젠을 기반으로 앞으로 언어를 이해하고 계획하는 능력을 추가할 예정이다.
데이터 수집 방식 때문에 액션 게임에 치우쳐 있고, 게임패드로 주로 하는 게임 위주라는 한계도 있다. 키보드만 쓰는 게임이나 복잡한 조작이 필요한 게임은 적게 포함됐다. 그래서 전략 게임이나 시뮬레이션 게임처럼 계획과 키보드에 의존하는 장르는 잘 못할 수 있다. 하지만 나이트로젠은 AI 게임 플레이어 연구의 중요한 발걸음이며, 무료 공개를 통해 연구자들이 더 발전시킬 수 있을 것으로 기대된다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 나이트로젠은 어떻게 게임 영상만 보고 조작법을 배우나요?
A. 나이트로젠은 화면에 게임패드 버튼이 표시되는 유튜브 영상을 수집한 후, 컨트롤러 위치를 찾고 AI 모델로 조이스틱과 버튼 상태를 분석합니다. 이 과정으로 화면마다 어떤 조작을 했는지 자동으로 알아내며, 조이스틱은 84%, 버튼은 96%의 정확도를 달성했습니다.
Q. 미리 배운 AI가 새 게임을 더 잘하는 이유는 뭔가요?
A. 나이트로젠은 1,000개 넘는 게임에서 공통된 조작 패턴을 배웠습니다. 새 게임을 배울 때 이 경험을 활용하므로, 처음 시작하는 AI보다 훨씬 빠르게 실력이 늡니다. 특히 적과 싸우거나 길 찾기 같은 일반적인 미션에서 최대 52% 더 나은 성과를 보였습니다.
Q. 나이트로젠이 못하는 것은 무엇이며 어떻게 개선되나요?
A. 나이트로젠은 순간 반응은 빠르지만 복잡한 계획을 세우거나 사람 말을 이해하지 못합니다. 또한 액션 게임 위주로 배워서 전략 게임이나 시뮬레이션은 잘 못합니다. 연구팀은 앞으로 언어 이해와 장기 계획 능력을 추가할 예정입니다.
해당 기사에 인용된 논문 원문은 허깅페이스에서 확인 가능하다.
논문명: NitroGen: An Open Foundation Model for Generalist Gaming Agents
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






![[12월 19일 AI 뉴스 브리핑] 국내 AI 서비스 이용률 조사… 챗GPT 1위, 제미나이·뤼튼 약진 외](https://aimatters.co.kr/wp-content/uploads/2025/12/AI-매터스-기사-썸네일-12월-19일-AI-뉴스-브리핑.jpg)