키워드 분석으로 살펴본 2024년 AI 주요 키워드
한국지능정보원(NIA)이 2024년 5월부터 12월까지 8개월간 국내 주요 언론 기사 173건을 분석한 결과, 올해 AI 데이터 분야에서는 합성데이터가 가장 주목받는 키워드로 나타났다. 분석 결과에 따르면 AI 모델 성능을 높이기 위해 합성데이터를 사용하는 사례가 크게 늘어났으며, 이는 개인정보 보호와 데이터 부족 문제를 동시에 해결하려는 시도와 직결된다.
특히 의료, 제조, 금융 등 민감한 분야에서 구축 과정에서 발생하는 기술적·법적 과제를 해결하기 위해 전문 기관·위원회 설립과 테스트베드 운영을 모색하는 추세가 뚜렷하게 나타났다. 개인정보보호위원회는 합성데이터를 안전하게 생성·활용할 수 있도록 5종의 ‘합성데이터 생성 참조모델’을 공개하며 제도적 기반을 마련했다.
의료진단부터 로봇 시뮬레이션까지, 업계별 합성데이터 활용 급증
합성데이터의 활용이 산업 전반으로 확산되면서 각 분야별로 특화된 적용 사례들이 늘어나고 있다. 의료 분야에서는 환자 개인정보를 직접 사용하지 않고 가명·합성 환자 데이터로 알고리즘을 학습시켜 진단 정확성과 신뢰성을 확보하고 있다.
제조·로보틱스 분야에서는 위험하거나 극한 상황에서 로봇 동작을 검증하기 위한 가상 시뮬레이션과 디지털 트윈(Digital Twin) 구축 시 합성데이터를 적극 활용하고 있다. 금융권에서는 고객 정보 보호와 사기 및 이상거래 탐지 모델 고도화를 위해 모델 학습용 고객 데이터를 합성데이터로 대체해 모델 정확도 개선을 도모하고 있다.
국내 은행권 AI 도입 가속화, 데이터 신뢰성이 핵심 과제로 부상
대화형 AI가 기존 상담업무와 고객지원 서비스 분야를 빠르게 대체·보완하고 있으며, 지식 기반 추론 엔진을 활용해 한층 복잡한 질의응답이 가능해진 사례가 늘어나고 있다. 국내 은행권에서는 AI를 활용하여 문서 처리부터 고객 감정분석까지 혁신을 가속화하고 있다.
하지만 이와 함께 데이터 확보와 신뢰성이 핵심 과제로 부상했다. AI 개발·운영 조직은 고품질 데이터 수집과 모델 검증 프로세스를 체계화하는 데 주력해야 한다는 기사 논조가 빈번하게 나타났다. 편향(Bias), 저작권 침해, 개인정보·사생활 보호 등 윤리적 이슈가 더욱 복합적으로 나타날 것으로 예상되며, 이러한 이슈를 해결할 수 있는 정책 마련의 필요성이 강조되고 있다.
AI 학습용 데이터셋 시장 2029년까지 연평균 27.7% 성장 전망
대화형 AI의 확산과 함께 ‘AI 에이전트(Agent)’를 활용해 업무를 대행·관리하거나 협력하는 형태가 기사에서 주목받고 있다. 미디어·콘텐츠 산업에서 콘텐츠 제작(영상 합성·편집, 맞춤형 광고, 디지털 휴먼 등)에 AI를 적극 도입하며 새로운 시장 기회를 발굴하고 있다.
마켓앤마켓의 보고서에 따르면 AI 학습 데이터셋 시장은 2029년까지 연평균 27.7%의 성장률을 이어 나갈 전망이다. AI 에이전트가 새로운 비즈니스 생태계를 형성할 것으로 전망되며, 과거 애플리케이션 생태계를 기반으로 한 플랫폼 사업자들이 시장을 주도했던 것처럼, 이번에는 AI 에이전트 중심의 플랫폼이 등장하고, 이를 둘러싼 다양한 서비스가 개발될 것으로 전망된다.
국내 첫 AI 기본법 12월 국회 통과, 생성형 AI 워터마크 의무화
인공지능의 건전한 발전과 신뢰기반 조성에 필요한 기본적인 사항을 규정하는 ‘AI 기본법’이 2024년 12월 26일 국회 본회의를 통과했다. 이 법안의 주요 내용으로는 생성형 AI로 합성한 영상·사진에 워터마크 삽입을 의무화하고, 딥페이크 생성물에는 가시적 워터마크 삽입을 필수로 하는 규정이 포함됐다.
또한 사람의 생명·안전·기본권에 중대한 영향을 미칠 수 있는 AI 기술을 ‘고영향 AI’로 정의하고, 이를 제공하는 사업자의 책임을 강화했다. 해외 기업도 AI 사업자로 분류되면 국내법 적용 대상이 되며, 국내 대리인을 지정해 안정성·신뢰성을 확보하도록 의무화했다. 사업자 의무 위반 시에는 최대 3,000만 원의 과태료가 부과된다.
개인정보보호위원회 합성데이터 참조모델 5종 공개로 제도 기반 마련
2025년에는 의료, 제조, 금융 등 다양한 분야에서 대규모·고품질 데이터를 필요로 하는 AI 모델 수요가 증가할 전망으로, 그에 따른 합성데이터에 대한 표준화·법제 정비도 가속화될 것으로 보인다. 가트너는 “2030년에 이르면 AI 학습에 합성데이터를 사용하는 비율이 실제 데이터 사용 규모를 넘어설 것”이라고 전망했다.
추론·대화형 AI가 고객 상담, 교육, 행정 업무 등 다양한 영역에서 이미 빠르게 정착 중이며, 향후에는 정교한 추론 엔진과 멀티모달(음성·영상 등) 대화가 결합해 더욱 고도화될 전망이다. AI 기술이 고도화되고, 에이전트 등 새로운 협력 모델이 등장함에 따라, 합성데이터와 멀티모달 데이터에 대한 수요가 크게 늘어날 것으로 예상된다.
FAQ
Q: 합성데이터란 무엇이며 왜 중요한가요?
A: 합성데이터는 실제 데이터를 기반으로 인공적으로 생성한 데이터로, 개인정보 보호 문제를 해결하면서 AI 모델 학습에 필요한 충분한 데이터를 확보할 수 있는 방법입니다. 특히 의료, 금융 등 민감한 분야에서 실제 데이터 사용이 제한적일 때 대안으로 활용됩니다.
Q: AI 에이전트는 기존 AI와 어떻게 다른가요?
A: AI 에이전트는 단순히 질문에 답하는 것을 넘어 사용자를 대신해 업무를 수행하고 관리하는 AI입니다. 문서 작성, 일정 조율, 업무 자동화 등 다양한 작업을 독립적으로 처리할 수 있어 기존 대화형 AI보다 더 실용적이고 포괄적인 서비스를 제공합니다.
Q: 2025년 AI 데이터 시장에서 가장 주목해야 할 변화는 무엇인가요?
A: 2025년에는 합성데이터와 멀티모달 데이터에 대한 수요가 급증할 것으로 예상됩니다. AI 에이전트 기반의 새로운 협력 모델이 확산되면서 AI 학습용 데이터셋 시장이 크게 성장하고, 이에 따른 법제도 정비와 표준화가 가속화될 전망입니다.
해당 기사에 인용된 리포트 원문은 한국지능정보원에서 확인 가능하다.
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.