정교한 시뮬레이터를 만들수록 로봇이 현실에서 더 잘 작동한다는 통념이 흔들리고 있다. 다리도 관절도 없이 점 하나로 표현된 ‘추상 시뮬레이터(Abstract Simulator)’에서 학습한 정책이 실제 NAO 휴머노이드 로봇에서 73%의 미로 통과 성공률을 기록했다. 위스콘신 매디슨 대학교(University of Wisconsin–Madison) 연구팀이 IEEE 로보틱스 앤드 오토메이션 레터스(IEEE Robotics and Automation Letters)에 발표한 이 논문은 시뮬레이터의 정밀도가 아니라 현실에서 수집한 200개의 짧은 데이터, 그리고 로봇의 ‘기억’이 sim2real 전이의 핵심임을 입증했다. 정교한 가상 환경에 의존해온 로봇 학습 분야의 비용 구조 자체를 바꿀 가능성이 있다.
점 하나짜리 시뮬레이터로 NAO 로봇이 미로 통과 성공률 73% 달성
추상 시뮬레이터 sim2real이란 의도적으로 단순화한 가상 환경에서 학습한 정책을 복잡한 실제 로봇으로 옮기는 기술을 말한다. 위스콘신 매디슨 연구팀의 ASTRA(Augmented Simulation with self-predicTive abstRAction)는 NAO 휴머노이드 로봇 미로 내비게이션에서 73% 성공률을, 공차기 과업에서 56% 성공률을 기록했다. 같은 조건에서 도메인 랜덤화(Domain Randomization)는 33%, 직접 전송(Direct Transfer)은 27%에 그쳤다는 점에서 두 배 이상 앞선 결과다. 이 논문은 2026년 3월 IEEE 로보틱스 저널에 정식 채택됐다.
연구팀이 사용한 추상 시뮬레이터는 다리 관절도, 발 미끄러짐도, 카메라 노이즈도 모두 무시한 채 NAO 로봇을 2D 평면 위 한 점으로만 표현했다. 복잡한 실제 로봇 상태(관절 각도, 토르소 자세 등)를 위치(x, y)와 속도(vx, vy) 같은 단순한 차원으로 압축한 셈이다. 그런데도 ASTRA로 학습한 로봇은 미로의 모서리를 안전하게 돌고, 공을 차서 골대에 정확히 넣었다. 같은 시뮬레이터로 학습했지만 다른 보정 기법을 쓴 알고리즘은 모서리에서 충돌하거나 균형을 잃었다.
추상화의 함정과 부분 관측성, 더 멀리 돌아가는 정책이 성공한 이유
추상 시뮬레이터의 가장 큰 문제는 ‘부분 관측성(Partial Observability)’이다. 부분 관측성이란 로봇의 현재 상태만 봐서는 다음에 일어날 일을 알 수 없는 상황을 가리키는 강화학습 용어다. 단순화된 시뮬레이터에서 NAO 로봇의 위치와 속도만 관측한다면, 같은 좌표에 있더라도 직전에 빠른 방향 전환으로 흔들리는 자세인지 안정된 자세인지 구분할 수 없다. 두 상황은 다음 행동이 완전히 달라야 하는데도 시뮬레이터에는 똑같이 보인다.

그림1. 시뮬레이션과 실제 로봇 간 궤적 격차
이 함정은 데이터로도 드러난다. 직접 전송(Direct Transfer) 방식은 미로에서 평균 10.91m만 이동했고 성공률은 27%에 그쳤다. 반면 ASTRA는 평균 12.33m를 이동했고 성공률은 73%였다. 이동 거리가 짧다는 것은 모서리를 무리하게 자르려다 충돌한다는 뜻이고, 일부러 더 길게 돌아가는 정책이 실제로는 더 자주 성공한다는 의미다. 작은 거리 차이가 전혀 다른 성공률을 만들어내는 셈이다. 이는 추상화로 잃어버린 정보를 어떻게 보완하느냐가 시뮬레이터의 정밀도 그 자체보다 중요하다는 점을 보여준다.
ASTRA 방법론과 보상 예측 손실의 결정적 역할
ASTRA는 단순한 시뮬레이터에 ‘기억하는 능력’을 더하는 방법이다. 추상 상태와 행동의 이력을 잠재 공간(latent space)이라는 압축된 표현으로 변환한 뒤, 세 가지 신경망 모듈이 동시에 학습된다. 보상 예측기(Reward Predictor)는 어떤 상태가 과업 성공으로 이어지는지를, 잠재 동역학 모델(Latent Dynamics Model)은 다음 상태를 어떻게 예측할지를, 추상 상태 보정기(Abstract State Predictor)는 시뮬레이터의 동작을 실제와 어떻게 맞출지를 각각 학습한다. 이 구조는 강화학습 이론에서 말하는 ‘근사 정보 상태(Approximate Information State, AIS)’에 기반한다. 근사 정보 상태란 미래 보상과 다음 상태를 예측하기에 충분한 정보를 압축해 담은 표현을 말한다.

그림2. 방법별 PointMaze → AntMaze 궤적 비교
가장 주목할 부분은 ‘보상 예측’ 손실이 결정적 역할을 한다는 점이다. 연구팀의 구성 요소 분석(Component Ablation) 결과를 보면, 보상 예측 학습을 빼면 롱 메이즈(Long Maze) 과업 성공률이 0.40에서 0.29로 떨어졌다. 잠재 동역학 예측을 뺄 때(0.35로 감소)보다 더 큰 감소다. 이는 시뮬레이터를 단순히 ‘실제 데이터에 더 가깝게’ 만드는 것보다, 어떤 정보가 보상에 중요한지 함께 학습하는 것이 더 결정적임을 보여준다.
데이터 효율성도 인상적이다. 200개의 궤적(trajectory)으로 학습한 ASTRA는 그 시점부터 성능이 안정화됐고, 데이터를 150개에서 300개로 두 배 늘려도 성공률 향상은 10% 미만이었다. 비싼 실제 로봇 실험을 마구 늘릴 필요가 없다는 뜻이다. 이는 자원이 제한된 연구팀이나 산업 현장에서도 시도해볼 만한 학습 곡선을 의미한다.
다리 길이 1.25배 늘어난 로봇에서도 65% 작동, 그리고 남은 한계
ASTRA의 또 다른 강점은 학습할 때와 다른 형태의 로봇에서도 작동한다는 점이다. 연구팀은 표준 4족 로봇(Ant)으로 학습한 정책을 다리 길이가 1.25배 늘어난 변형 로봇에 그대로 적용했다. 그 결과 변형된 로봇이 U자형 미로에서 65% 성공률로 통과했다. 같은 조건에서 직접 전송 방식은 21%에 그쳤다는 점에서 세 배 가까운 격차다. 이는 로봇 하드웨어가 약간 바뀔 때마다 처음부터 다시 학습할 필요가 줄어들 가능성을 시사한다. 공장의 로봇 팔이 모델을 바꾸거나, 가정용 로봇이 사용자의 환경에 맞춰 미세 조정될 때 활용 여지가 있다.
다만 이 방법에도 한계는 분명하다. 첫째로 추상화 수준이 너무 높아지면 기억을 활용해도 부족할 수 있다. 둘째로 실제 상태와 추상 상태 간 변환 함수(state mapping)를 사람이 미리 정의해야 한다. 카메라 픽셀 같은 원시 센서 데이터에는 그대로 적용하기 어렵다. 셋째로 적은 양이지만 실제 로봇 데이터는 여전히 필요하다. 200개 궤적이 적다고 해도, 휴머노이드 로봇을 실제로 운용하며 데이터를 수집하는 것은 결코 쉬운 일이 아니다. 연구진 역시 “어느 수준까지 추상화가 허용되는지를 찾는 것이 향후 핵심 연구 과제”라고 밝혔다.
FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 추상 시뮬레이터(Abstract Simulator)가 정확히 무엇인가요?
실제 로봇의 복잡한 상태를 의도적으로 단순하게 줄인 가상 학습 환경입니다. 예를 들어 30개 관절을 가진 휴머노이드 로봇을 2D 평면 위 점 하나로 표현하는 식입니다. 빠르게 만들고 학습할 수 있다는 장점이 있지만, 단순화 과정에서 잃어버린 정보 때문에 현실로 옮기기 어렵다는 단점이 있습니다. ASTRA 같은 보정 기술이 이 격차를 메워줍니다.
Q2. ASTRA가 도메인 랜덤화(Domain Randomization)와 어떻게 다른가요?
도메인 랜덤화는 시뮬레이터의 마찰력, 노이즈 같은 변수를 무작위로 흔들어서 어떤 환경에서도 작동하는 정책을 학습하는 방법입니다. 반면 ASTRA는 실제 로봇에서 수집한 데이터로 시뮬레이터의 동작을 보정하면서, 과거 행동의 ‘기억’까지 함께 학습합니다. 이번 NAO 로봇 실험에서 ASTRA(73%)가 도메인 랜덤화(33%)보다 두 배 이상 높은 성공률을 보였습니다.
Q3. 일반 사용자나 중소 기업에도 도움이 되나요?
직접 코드를 가져다 쓰는 단계는 아직 연구 단계입니다. 다만 시사점은 큽니다. 대형 시뮬레이터 인프라 없이도 로봇 학습이 가능하다면, 향후 가정용 로봇이나 산업 현장의 자동화에 드는 비용이 낮아질 가능성이 있습니다. 적은 양의 실제 로봇 데이터로 정책을 갱신할 수 있다는 점은, 환경이 자주 바뀌는 중소 제조업 현장에서도 매력적인 특징입니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Abstract Sim2Real through Approximate Information States (Yunfu Deng, Yuhao Li, Josiah P. Hanna, IEEE Robotics and Automation Letters, 2026)
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






