온라인 도박 업체들이 도박 중독을 예방하는 인공지능(AI) 시스템을 앞다퉈 도입하고 있다. 하지만 이런 시스템들이 정말 효과가 있는지 확인할 방법이 없어 논란이 되고 있다. 미국 네바다대학교 라스베이거스 국제게임연구소 연구팀은 논문을 통해 도박 중독 감지 AI의 성능을 제대로 측정할 표준 기준 마련이 시급하다고 지적했다.
각자 다른 기준으로 “우리가 최고” 주장하는 업체들
도박 업체들은 머신러닝(기계학습)을 활용해 위험한 도박 습관을 가진 사람들을 미리 찾아낸다고 말한다. 이 시스템은 도박 행동 패턴과 플레이어 특성을 분석해 잠재적인 도박 문제를 예측한다. 문제는 각 업체가 내세우는 성능이 제각각이라는 점이다.
2024년 국제도박규제협회(IAGR) 연례회의에서 논의된 바에 따르면, 어떤 회사는 “80% 이상 정확하다”고 하고(Sustainable Interaction), 다른 회사는 “87% 맞춘다”(Mindway AI), 또 다른 곳은 “90% 이상”(Entain, 2022)이라고 주장한다.
하지만 이 숫자들을 서로 비교하는 건 불가능하다. 연구팀에 따르면 세 가지 이유가 있다. 첫째, ‘높은 정확도’ 주장 자체가 오해의 소지가 있다. 예를 들어, 전체 이용자 중 10%만 문제가 있는 상황에서, 아무도 위험하다고 판단하지 않는 AI도 90% 정확도를 달성할 수 있다. 둘째, 무엇을 ‘위험’이라고 정의하는지, 전체 표본에서 실제 위험한 사람의 비율이 얼마인지, 새로운 데이터로 검증하는 방식이 무엇인지에 따라 결과가 완전히 달라질 수 있다. 셋째, 이런 주장들은 독립적으로 검토되지 않았으며, 다른 모델들의 성능이 개인정보 보호나 저조한 성능을 이유로 보고되지 않았는지 불분명하다.
학술 논문이나 특허 출원을 검토해도 완전한 세부 정보를 얻을 수 없다. 연구마다 정확히 같은 보고 기준을 찾기 어렵고, 세부 정보가 있더라도 서로 다른 상황에서 나온 성능 지표를 직접 비교할 방법이 없다. 도박 업체가 어떤 AI 시스템이 가장 좋은지 알 수 있는 유일한 방법은 모든 모델을 직접 구축하거나 구매해서 적용해보는 것뿐인데, 이는 현실적으로 불가능하다.
의료·얼굴 인식은 표준 있는데, 도박만 없는 이유
다른 AI 분야에서는 이미 성능을 비교하는 표준 방법이 널리 사용되고 있다. 이를 ‘벤치마크(Benchmark)’라고 부른다. 1998년에 만들어진 ‘MNIST’라는 데이터 모음은 7만 개의 손글씨 숫자 사진을 담고 있다. 전 세계 연구자들이 이 똑같은 사진으로 자기 AI를 테스트하면서 누구 것이 더 좋은지 공정하게 비교할 수 있었다. 2000년대에는 거리 사진에서 숫자를 찾는 테스트, 의료 이미지를 분석하는 테스트 등이 나왔다. 최근에는 챗GPT 같은 AI의 능력을 측정하는 시험 문제도 개발됐다. 이런 표준 테스트 덕분에 어떤 방식이 가장 효과적인지 알 수 있고, 시간이 지나면서 얼마나 발전했는지도 확인할 수 있다.
그런데 도박 분야에는 이런 표준이 아예 없다. 가장 큰 이유는 데이터 공유가 어렵기 때문이다. 도박 이용자 정보는 업체 입장에서 중요한 영업 비밀이고, 개인정보 보호도 필요하다. 초기에 ‘The Transparency Project’라는 프로젝트가 일부 데이터를 공개했지만, 당시 기술 한계로 영향력이 제한적이었다. 최근 일부 대학이 결제 데이터를 공개하기 시작했지만, 업체들의 협조 없이는 한계가 있다.
시간·참여도·도박 종류, 3차원으로 측정해야
연구팀은 도박 중독 예방 AI를 제대로 평가하려면 세 가지를 따져봐야 한다고 제안했다.
첫째는 ‘시간’이다. 한 번 접속했을 때만 보는지, 하루 단위로 보는지, 한 달 단위로 보는지에 따라 다르다. 짧은 시간으로 보면 “지금 당장 계속 돈을 잃는데도 그만두지 못하는” 같은 즉각적인 위험 신호를 잡아낼 수 있다. 긴 시간으로 보면 서서히 쌓이는 피해를 파악할 수 있다.
둘째는 ‘이용 정도’다. 오랫동안 매일 도박하는 단골과, 가끔 한두 번 하는 신규 이용자는 데이터 양부터 다르다. 1년 치 기록이 있는 단골의 행동 패턴과 며칠 기록밖에 없는 신규 이용자의 패턴은 완전히 다르다. 각 집단마다 다른 방식으로 위험을 찾아야 효과적일 수 있다.
셋째는 ‘도박 종류’다. 복권, 카지노, 스포츠 베팅은 전혀 다른 게임이다. 카지노 안에서도 슬롯머신과 테이블 게임이 다르고, 스포츠 베팅도 여러 방식이 있다. 이전 연구를 보면 각 게임에 특화된 AI를 만들었을 때 성능이 더 좋았다.
연구팀은 네 가지 테스트 방법 예시를 제시했다. 모든 종류의 도박을 다 포함하는 종합 테스트, 복권만 따로 보는 테스트, 오래 자주 이용하는 단골만 보는 테스트, 그리고 처음 일주일 데이터만으로 6개월 후 위험도를 예측하는 조기 감지 테스트다.
누가 관리할지부터 무엇이 위험인지까지, 해결 과제 산더미
이런 표준 테스트를 만들려면 넘어야 할 산이 많다. 우선 누가 이 시스템을 관리하고 운영할 것인가의 문제다. 정부가 하면 모든 업체에 데이터 제출을 의무화할 수 있어서 정확하고 일관된 데이터를 모을 수 있다. 독립적인 연구 기관 같은 제3의 기관이 맡는 방법도 있다. 이런 조직은 여러 나라의 데이터를 한데 모을 수 있어서 훨씬 포괄적인 자료를 만들 수 있다는 장점이 있다.
데이터 규모도 중요하다. 도박 중독자는 전체 이용자 중 일부에 불과하기 때문에, 충분한 사례를 확보하려면 아주 많은 사람의 데이터가 필요하다. 또 간단한 AI부터 복잡한 최신 AI까지 모두 테스트할 수 있을 만큼 데이터가 많아야 한다.
‘무엇이 위험한가’를 정의하는 것도 쉽지 않다. 지금까지 연구를 보면 최소 세 가지 방식이 있다. 첫째는 스스로 계정을 닫거나 자진 이용 금지 신청을 하는 것으로 보는 방법이다. 둘째는 설문 조사로 도박 문제 정도를 측정하는 방법이다. 셋째는 계속 손실을 만회하려는 행동 같은 특정 행동으로 판단하는 방법이다. 연구팀은 하나의 정답을 제시하기보다, 여러 기준으로 테스트할 수 있는 다양한 방법을 만들어야 한다고 제안했다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 도박 중독 예방 AI에 왜 표준 테스트가 필요한가요?
A. 지금은 각 업체가 “우리 AI가 80% 정확하다”, “우리는 90%다”라고 제각각 주장하지만 비교할 방법이 없습니다. 표준 테스트가 있으면 똑같은 기준으로 모든 시스템을 평가해서, 정말 효과 있는 것을 골라낼 수 있습니다.
Q. 다른 AI 분야에서는 어떻게 성능을 비교하나요?
A. 얼굴 인식이나 의료 진단 같은 분야에서는 똑같은 테스트 자료를 전 세계가 공유합니다. 모두 같은 사진이나 데이터로 자기 AI를 시험해보기 때문에, 누구 것이 더 정확한지 공정하게 비교할 수 있고, 시간이 지나면서 얼마나 발전했는지도 알 수 있습니다.
Q. 도박 분야에서 표준 테스트 만들기가 어려운 이유는 뭔가요?
A. 가장 큰 문제는 도박 이용자 데이터가 업체의 영업 비밀이고 개인정보라서 공유하기 어렵다는 점입니다. 또 ‘위험한 도박’을 정의하는 기준도 명확하지 않고, 나라마다 도박 종류마다 이용자 행동이 다르며, 업체마다 데이터 형식도 제각각이라 통일하기 어렵습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: The Need for Benchmarks to Advance AI-Enabled Player Risk Detection in Gambling
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






