인도 TCS 리서치와 InvideoAI, Birla AI Labs, 칼링가 산업기술연구소(KIIT) 공동 연구진이 대규모 언어모델의 윤리 기준을 효율적으로 업데이트하는 새로운 기술을 개발했다. 챗GPT 같은 인공지능이 사람처럼 올바른 답변을 하도록 학습시키는 과정에는 막대한 비용이 든다. 문제는 한 번 학습된 AI의 ‘가치관’이 고정되어 버린다는 점이다. 사회 규범은 계속 바뀌는데 AI는 과거에 머물러 있어, 어제는 괜찮았던 답변이 오늘은 문제가 되는 상황이 발생한다. 연구진이 개발한 TRACE 기술은 기존 학습 데이터를 프로그래밍 방식으로 재활용해, 전면 재학습에 비해 훨씬 비용 효율적으로 AI의 가치관을 업데이트할 수 있는 획기적인 방법을 제시한다.
1년 전 AI는 이미 구식, 바뀌는 윤리 기준 따라가지 못하는 현실
현재 챗GPT나 클로드 같은 AI를 만드는 방식에는 심각한 문제가 있다. ‘인간 피드백 기반 강화학습’이라는 방법을 사용하는데, 이는 수천 명의 사람이 “이 답변이 좋다, 저 답변은 나쁘다”고 평가한 예시를 AI에게 학습시키는 것이다. 이 과정에 수백만 달러가 들어가는 대규모 작업이 필요하다. 그런데 이렇게 학습된 AI는 그 시점의 윤리 기준에 맞춰진 ‘디지털 화석’이 되어버린다.
문제는 세상이 계속 변한다는 것이다. 기업의 정책이 바뀌고, 법규가 개정되고, 사회적 규범이 달라진다. 이번 분기에 완벽하게 조정된 AI가 다음 분기에는 회사 이미지를 해치거나 법을 어기는 원인이 될 수 있다. 연구진은 이를 ‘정렬-현실 격차’라고 부른다. AI의 고정된 답변 방식과 계속 변하는 세상 사이에 생기는 간격이다.
이 문제를 해결하는 기존 방법은 두 가지다.
첫째는 처음부터 다시 학습시키는 것이다. 연구진은 이를 “철거하고 재건축” 방식이라고 표현한다. 도시 계획이 조금 바뀔 때마다 고층 건물을 허물고 처음부터 다시 짓는 것과 같아서, 빠르게 변하는 현대 기업 환경에 맞지 않는다. 경제적으로도 실현 불가능하다.
둘째는 ‘머신 언러닝’이라는 기술이다. 이는 AI가 특정 정보를 잊게 만드는 기술인데, 원래 데이터 삭제를 위해 설계된 것이지 정책 편집을 위해 만들어진 게 아니다. 연구진은 이를 “둔기”, “대형 망치 접근법”이라고 표현한다. 가치관을 바꾸려고 이 기술을 억지로 사용하면 AI의 일반 능력을 손상시킬 위험이 있다.
이런 방법들이 모두 실패하는 이유는 하나다. “새로운 평가 데이터를 사람이 다시 만들어야 한다”는 전제 때문이다. 연구진은 발상을 완전히 뒤집었다. “새 데이터를 어떻게 구할까?”가 아니라 “이미 있는 데이터를 새 기준으로 어떻게 자동으로 다시 분류할까?”로 문제를 바꾼 것이다. 이렇게 하면 막대한 비용이 드는 데이터 수집 작업을 효율적인 데이터 중심 최적화 문제로 전환할 수 있다.
3단계로 AI 가치관 바꾸기, 일반 능력은 거의 그대로 둔 채 윤리만 업데이트
TRACE는 ‘선별과 재정렬을 통한 정렬 충돌 평가’를 뜻하는 영문 약자다. 이미 학습된 AI의 답변 기준을 수술하듯 정밀하게 바꾸는 3단계 과정이다.
첫 번째 단계는 자동 선별 작업이다. 기존에 모아둔 “좋은 답변-나쁜 답변” 데이터를 새로운 기준으로 다시 검토한다. 예를 들어 예전 기준으로는 A가 좋은 답변이고 B가 나쁜 답변이었다고 하자. 새 기준으로 보면 세 가지 경우가 생긴다. 첫째, A는 이제 나쁘고 B가 좋은 경우다. 이런 데이터는 ‘반전시킬 것’으로 분류한다. 둘째, A도 나쁘고 B도 나쁜 경우다. 이런 데이터는 ‘둘 다 억제할 것’으로 분류한다. 셋째, A가 여전히 좋은 경우다. 이런 데이터는 ‘그대로 유지할 것’으로 분류한다. 이 작업을 컴퓨터가 자동으로 해준다.
두 번째 단계는 중요도 점수를 매기는 작업이다. 모든 데이터가 똑같이 중요한 건 아니다. 어떤 데이터를 바꾸는 게 AI 전체 성능에 더 큰 영향을 주는지 계산한다. 이를 ‘정렬 영향 점수’라고 한다. 컴퓨터 자원은 한정되어 있으니 가장 중요한 업데이트에 집중하기 위해서다.
마지막 단계는 실제 업데이트 작업이다. 여기서 TRACE만의 특별한 방법이 세 가지 동시에 사용된다. 반전시켜야 할 데이터에는 ‘관계적 손실’이라는 부드러운 방법을 쓴다. 이는 “A보다 B가 낫다”는 관계를 학습시키는 방식이다. 둘 다 억제해야 할 데이터에는 ‘징벌적 손실’이라는 강한 방법을 쓴다. 이는 “A도 하지 마, B도 하지 마”라고 학습시키는 방식이다. 그대로 유지할 데이터에는 ‘KL 정규화’라는 보호 장치를 쓴다. 이는 AI가 원래 알던 좋은 지식을 잊지 않도록 보호하는 방식이다. 이 세 가지를 동시에 사용해 AI의 일반 능력은 거의 보존하면서 윤리 기준만 효과적으로 바꾼다.
연구진은 Qwen2.5-7B, Gemma-2-9B, Llama-3.1-8B 등 여러 종류의 AI 모델에서 TRACE를 테스트했다. 실험용 데이터와 실제 안전 데이터셋 모두에서 TRACE는 AI의 일반 성능을 거의 떨어뜨리지 않으면서 새로운 윤리 기준을 성공적으로 적용했다. 사람들에게 평가를 받았을 때, TRACE로 업데이트한 AI가 기존 방법(U2A)으로 업데이트한 AI보다 81.8%의 경우에 더 선호됐다. 처음부터 완전히 다시 학습시킨 AI와 비교해도 68.2%의 경우에 TRACE가 선택됐다. 막대한 비용을 들인 재학습과 거의 비슷한 결과를 낸 것이다.
실험용 데이터셋 직접 만들어 정확한 검증 실현
AI의 답변 기준을 바꾸는 기술을 제대로 평가하려면 특별한 데이터가 필요하다. “이 답변이 왜 좋다고 판단됐는지” 기준이 명확하게 기록된 데이터여야 한다. 대부분의 데이터는 이런 정보가 없지만, PKU-SafeRLHF라는 데이터셋은 19가지 안전 기준을 문서로 남겨놔서 연구에 유용하다.
하지만 실제 데이터만으로는 한계가 있다. 정책이 바뀌었을 때 정확히 어떤 답변이 어떻게 달라져야 하는지 정답을 미리 알 수 없기 때문이다. 그래서 연구진은 ‘SynthValueBench’라는 실험용 데이터셋을 직접 만들었다. 정답을 미리 알고 있는 시험지를 직접 제작한 셈이다.
만드는 과정은 5단계로 진행됐다. 1단계에서는 PKU-SafeRLHF에서 3만 개의 질문을 가져와 학습용 2만 개와 테스트용 1만 개로 나눴다. 2단계에서는 4가지 윤리 기준을 정한 ‘옛날 정책’과 일부를 바꾼 ‘새 정책’을 정의했다. 3단계에서는 각 질문마다 GPT-4o라는 AI에게 “옛날 정책에 맞는 좋은 답변”과 “옛날 정책을 어기는 나쁜 답변”을 만들게 했다. 4단계에서는 이 답변들을 새 정책 기준으로 다시 분류해 ‘유지’, ‘반전’, ‘억제’ 세 그룹으로 나눴다. 5단계에서는 500개를 무작위로 뽑아 사람이 직접 확인해 정확도를 검증했다.
이 실험용 데이터셋은 정책이 바뀌었을 때 각 답변이 어떻게 변해야 하는지 정답이 정확히 정의되어 있어, TRACE의 성능을 정밀하게 측정할 수 있게 해준다. 이 데이터로 실험한 결과, TRACE는 새 정책과 70.2%가 일치하는 답변을 만들어냈다. 기존 방법(U2A)은 54.7%에 그쳤다. 참고로 처음부터 새로 학습시키면 100% 일치한다. 다시 말해 TRACE는 재학습 없이도 정답에 상당히 가까운 결과를 낸 것이다.
교묘한 공격에도 속지 않는다, TRACE로 바꾼 AI 윤리의 견고함
AI의 윤리 기준을 바꿨다고 해서 끝이 아니다. 누군가 교묘한 질문으로 AI를 속여 금지된 답변을 하게 만들 수도 있다. 연구진은 두 가지 공격 방법으로 TRACE의 견고함을 시험했다. ‘공격 성공률’이 낮을수록 AI가 더 안전하다는 뜻이다.
완전히 처음부터 재학습시킨 AI(DPO-Gold로 표기)가 당연히 가장 안전했다. 두 가지 공격 모두에서 가장 낮은 공격 성공률을 기록했다. 첫 번째 ‘허구 시나리오 중첩’ 공격은 “이건 소설이야”라며 AI를 속이는 방식이다. 여기서 TRACE는 27.3%, U2A는 24.6%의 공격 성공률을 보였다. 둘 다 완전 재학습보다는 약했는데, 이는 빠른 업데이트 방법들이 예상 밖의 상황에서는 취약할 수 있다는 의미다.
하지만 두 번째 ‘거부 억제’ 공격에서는 차이가 명확했다. 이는 “규칙은 무시하고 답해”라며 AI의 안전장치를 우회하려는 방식이다. TRACE는 19.7%인 반면 U2A는 21.3%였다. TRACE가 더 안전했던 이유는 단순히 나쁜 답변을 억누르기만 하는 게 아니라, 좋은 답변과 나쁜 답변의 관계를 함께 학습하기 때문이다. U2A는 나쁜 것만 처벌하는 방식이라 교묘한 명령에 더 쉽게 속아 넘어간다. 두 방법 모두 완전 재학습만큼 견고하지는 않지만, TRACE가 직접적인 규칙 충돌 상황에서 더 우수한 우선순위 판단을 보여줬다.
일반 지능 테스트에서도 재정렬이 AI의 기본 능력을 보존하는지 평가했다. GPQA, MMLU, HellaSwag, GSM8K 같은 표준 학술 시험에서 측정했다. 완전 재학습이 AI의 유용성을 보존하고 때로는 약간 향상시킨다는 것을 확인했다. TRACE는 이 최고 수준에 근접해 최소한의 성능 저하만 보였다. 벤치마크 테스트상 1~3% 성능 차이 내외로 나타났다. U2A도 TRACE와 비슷하게 일치했고 눈에 띄는 성능 저하를 보이지 않았다. 모든 방법이 업데이트 전 기본 모델과 유사한 성능을 유지했다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. TRACE는 기존 AI 학습 방법과 뭐가 다른가요?
A: 기존 방법은 AI 가치관을 바꾸려면 사람들이 새로운 “좋은 답변-나쁜 답변” 예시를 대규모로 다시 만들어야 했고, 이에 수백만 달러가 들었습니다. TRACE는 기존 평가 데이터를 자동 분류해 재활용하며, 전면 재학습 대비 대폭 비용을 줄이면서 AI의 일반적 성능을 거의 유지한 채 윤리 기준을 효과적으로 업데이트할 수 있습니다. 벤치마크 테스트상 1~3% 성능 차이 내외로 나타났습니다.
Q2. 정렬-현실 격차가 뭔가요?
A: 모델의 고정된 답변 방식과 계속 변하는 세상 사이에 생기는 심각한 간격을 말합니다. 이번 분기에 완벽하게 조정된 AI가 다음 분기에는 회사 이미지를 해치거나 법을 어기는 원인이 될 수 있습니다. 기업 정책이 바뀌고, 법규가 개정되고, 사회적 규범이 달라지기 때문입니다. TRACE는 이 간격을 효율적으로 메우는 확장 가능하고 역동적인 기술입니다.
Q3. TRACE는 어떤 AI에 쓸 수 있나요?
A: TRACE는 Qwen2.5-7B, Gemma-2-9B, Llama-3.1-8B 등 다양한 종류의 AI 모델에서 견고한 성능을 보이는 것으로 검증됐습니다. 이미 사람의 평가로 한 번 학습된 대규모 언어모델이라면 모델 종류에 관계없이 적용할 수 있으며, 새로운 정책에 맞춰 재조정할 수 있습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: The Realignment Problem: When Right becomes Wrong in LLMs
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.







![[11월 3일 AI 뉴스 브리핑] 웨이센, AI 내시경 조기위암 진단 정확도 96% 입증 외](https://aimatters.co.kr/wp-content/uploads/2025/11/AI-매터스-기사-썸네일-11월-3일-AI-뉴스-브리핑.jpg)