AI가 빨강과 파랑을 구분 못하는 이유, 프린스턴대가 풀었다

인터넷을 뜨겁게 달궜던 파검 드레스 논란을 기억하는가. AI도 조명에 따라 사진 속 고양이를 완벽하게 인식하다가, 조명이 조금만 바뀌면 갑자기 개로 착각하는 경우가 있다. 프린스턴대학교 연구팀이 이 문제의 원인을 밝히고, AI가 색상 변화에도 흔들리지 않는 새로운 신경망 구조를 개발했다. 이 기술은 의료 영상 분석부터 자율주행차까지 색상 정보가 중요한 모든 AI 시스템의 성능을 크게 향상시킬 것으로 기대된다.

조명만 바뀌어도 헷갈리는 AI, 색상 인식의 맹점

기존 AI 신경망은 훈련 데이터와 다른 색상 분포를 가진 이미지를 만나면 성능이 급격히 떨어진다. 마치 실내 조명 아래에서만 공부한 학생이 야외에서 같은 물체를 보고 당황하는 것과 비슷하다. 연구팀은 논문의 배경(Background) 섹션에서 이 문제가 AI가 색상의 기하학적 구조를 제대로 이해하지 못하기 때문이라고 설명했다.

일부 연구자들은 이 문제를 해결하기 위해 아예 이미지를 흑백으로 변환하거나, 훈련 데이터를 인위적으로 늘리는 방법을 사용했다. 하지만 이런 접근법은 색상이라는 중요한 정보를 버리거나, 막대한 계산 자원과 시간을 필요로 한다는 한계가 있었다. 특히 꽃의 종류를 구분하거나 피부 질환을 진단하는 것처럼 미세한 색상 차이가 중요한 작업에서는 색상 정보를 포기할 수 없다.

최근 몇몇 연구자들이 색상의 기하학적 특성을 신경망 설계에 반영하는 ‘색상 등변(color equivariant)’ 구조를 제안했다. 이는 색상이 변해도 AI가 그 변화를 추적하면서 정보를 유지하는 방식이다. 하지만 기존 방법들은 색상의 세 가지 요소 중 색조(hue)만 제대로 처리하거나, 채도(saturation)와 명도(luminance) 변화에서 오류가 발생하는 문제가 있었다.

도넛 모양 수학으로 색상 문제 해결한 ‘완벽한 등변성’

프린스턴대 연구팀이 개발한 하이퍼토로이달 색상 등변 네트워크(Hypertoroidal Color Equivariant Network, 𝕋³CEN)는 이 문제를 근본적으로 해결했다. 핵심은 ‘위상 덮개(topological covering)’라는 수학적 개념을 활용한 것이다. 연구팀은 방법론(Method) 섹션에서 채도와 명도를 구간이 아닌 원(circle) 위의 값으로 변환하는 ‘이중 덮개(double-cover)’ 기법을 제안했다.

이를 일상적으로 비유하면 이렇다. 기존 방법은 채도와 명도를 직선 위의 점으로 표현했는데, 직선에는 시작과 끝이 있어서 경계에서 이상한 현상이 발생했다. 연구팀은 이 직선을 동그랗게 말아서 원으로 만들었다. 원은 시작과 끝이 없이 계속 이어지기 때문에 경계 문제가 사라진다. 색조는 원래부터 원형 구조였고, 이제 채도와 명도도 원형으로 만들어서 세 가지 모두를 도넛 모양(토러스)의 3차원 구조로 통합한 것이다.

이 구조 덕분에 𝕋³CEN은 색조, 채도, 명도의 모든 변화에 ‘완벽하게’ 등변적이다. 기존 방법들이 ‘대략’ 등변적이었던 것과 달리, 수학적으로 정확하게 색상 변화를 추적한다. 연구팀은 이것이 AI의 해석 가능성과 일반화 능력을 크게 향상시킨다고 강조했다.

의료 영상에서 입증된 실전 성능, 기존 방식 압도

연구팀은 합성 데이터셋과 실제 의료 영상 데이터셋에서 𝕋³CEN의 성능을 검증했다. 결과(Results) 섹션에 따르면, 색조, 채도, 명도 중 한 가지만 변화시킨 합성 데이터에서 𝕋³CEN은 기존 등변 구조와 일반 신경망을 모두 능가했다. 특히 채도와 명도 변화에서 기존 방법들이 보이던 인공물(artifact)이 완전히 사라졌다.

더 중요한 것은 실제 의료 영상 분석에서의 성능이다. 의료 영상은 촬영 장비, 조명 조건, 환자의 피부색 등에 따라 색상이 크게 달라진다. 연구팀은 피부 병변 분류와 같은 세밀한 분류 작업에서 𝕋³CEN이 기존 방법보다 우수한 예측 성능을 보였다고 보고했다. 이는 병원마다 다른 장비를 사용해도 AI가 일관되게 정확한 진단을 내릴 수 있다는 의미다.

흥미롭게도 연구팀은 이 기술이 색상을 넘어 다른 영역에도 적용될 수 있다고 밝혔다. 방법론 섹션 후반부에서 제안된 이중 덮개 기법은 크기(scale) 변환과 같은 기하학적 변환에도 사용할 수 있다. 예를 들어 같은 물체가 가까이 있을 때와 멀리 있을 때 크기가 달라 보이는 문제도 비슷한 방식으로 해결할 수 있다는 것이다.

자율주행부터 쇼핑 앱까지, 색상 AI의 미래

이 연구의 실용적 가치는 매우 크다. 자율주행차는 아침 햇살, 한낮의 강한 빛, 저녁 노을 등 시시각각 변하는 조명 조건에서 신호등과 표지판을 정확히 인식해야 한다. 𝕋³CEN과 같은 색상 등변 구조를 적용하면 조명이 바뀌어도 안정적으로 작동하는 자율주행 시스템을 만들 수 있다.

온라인 쇼핑 앱에서도 활용 가치가 높다. 같은 옷이라도 실내 조명과 야외에서 찍은 사진의 색상이 다르게 보인다. 색상 등변 AI는 이런 차이를 자동으로 보정하거나, 다양한 조명 조건에서도 같은 제품을 정확히 찾아낼 수 있다. 패션 산업에서 색상은 구매 결정의 핵심 요소이기 때문에 이런 기술은 고객 만족도를 크게 높일 수 있다.

연구팀은 관련 연구(Related Works) 섹션에서 기존 그룹 합성곱 신경망(Group Convolutional Neural Networks) 연구들이 회전, 반사, 크기 변환 등 기하학적 대칭성에 집중했다고 설명했다. 하지만 색상과 같은 지각적(perceptual) 정보의 기하학적 구조는 상대적으로 주목받지 못했다. 𝕋³CEN은 이 공백을 메우는 중요한 진전이며, 향후 AI가 인간의 지각 방식을 더 잘 이해하는 방향으로 발전하는 데 기여할 것이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 색상 등변 신경망이 일반 신경망과 다른 점은 무엇인가요?

A. 일반 신경망은 훈련할 때 본 색상과 다른 색상이 입력되면 성능이 떨어집니다. 색상 등변 신경망은 색상이 변해도 그 변화를 추적하면서 정보를 유지하기 때문에 다양한 조명 조건에서도 안정적으로 작동합니다.

Q. 이 기술은 어떤 분야에서 가장 유용한가요?

A. 의료 영상 분석, 자율주행차, 온라인 쇼핑 등 색상 정보가 중요한 모든 분야에서 유용합니다. 특히 촬영 환경이 다양하거나 조명 조건을 통제하기 어려운 상황에서 큰 효과를 발휘합니다.

Q. 기존 AI 시스템에 이 기술을 적용하려면 어떻게 해야 하나요?

A. 신경망 구조 자체를 색상 등변 구조로 바꿔야 하므로, 기존 모델을 완전히 새로 설계하고 훈련해야 합니다. 하지만 훈련 데이터는 기존보다 적게 필요하고, 다양한 색상 조건에서 더 잘 작동하는 모델을 얻을 수 있습니다.

기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다.

논문명: A Hypertoroidal Covering for Perfect Color Equivariance

이미지 출처: AI 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.