작년 1월, 구글이 ‘인간처럼 평범하게 대화하는 AI’인 “미나”를 개발, 발표했다. 인간처럼 평범하게 대화한다라 함은 기존의 AI스피커(애플의 시리 Siri, 아마존 알렉사 Alexa, 구글 어시스턴트 google assistant 등)와 같은 일문 일답 형식의 단순한 대화 패턴보다 좀 더 진화한 형태를 의미한다. 단답형 대답뿐 아니라 연속적으로 말을 주고받을 수 있으며 애드리브로 농담도 가능한 수준이다. 아이언맨의 히어로 활동을 지원하는 ‘자비스’ 만큼은 아닐지라도 제법 대화의 ‘티키타카’가 가능하다는 말이다.
구글은 미나의 이러한 특징을 객관적으로 평가하고 보여주기 위해 대화의 민감성 및 구체성을 평가하는 평가 지표인 SSA(Sensibleness and Specificity Average)를 개발했다. SSA지표는 최소 14 턴에서 최대 28 턴의 대화를 분석하여 일반적이고 포괄적인 대답은 낮은 점수를, 독창적이고 다양한 대답에 높은 점수를 주는 방식으로 평가하는 지표다. 미나는 이 지표에서 79%를 기록했다. 이것이 어느정도 수준인지는 인간이 실제 주고받은 대화가 SSA평가시 약 86%를 받았다는 점을 고려해 보면 꽤 높다는 것을 알 수 있다. 게다가 같은 기준으로 지난 4년간 AI 분야의 뢰브너 상(Loebner Prize)을 수상한 판도라 보츠(Pandora Bots)의 대화형 AI 챗봇 ‘미수쿠(Mitsuku)’와 마이크로소프트의 ‘샤오이스(Xiaoice)’가 각각 56%와 31%의 점수를 얻었다고 하니, 구글이 미나의 대화 수준에 자부심을 가질 만도 하다.
그런데 2020년 12월 22일, 국내에서 개발, 정식 오픈한 AI챗봇 서비스가 SSA지표에서 무려 78%, 즉 구글과 유사한 수준의 점수를 얻으면서 화제가 되었다. 해당 서비스는 (주)스캐터랩에서 개발한 ‘이루다’로 페이스북 메신저 채팅을 기반으로 한 인공지능 챗봇이다. 이루다는 100억 건 이상의 한국어 데이터를 학습하였으며 ‘블랙핑크를 좋아하는 20세 여성’이라는 캐릭터로 설정되었다. 10대~20대들이 주로 사용하는 줄임말, 친근한 말투로 호감을 얻은 이루다는 정식 출시 한 달여만에 이용자가 32만 명을 돌파하는 등 붐에 가까울 정도로 빠르게 인기를 얻는다.
그러나 ‘너무나도 친근한 말투’가 의미하는 바가 있었을까. 갑작스러운 인기를 증명하듯 문제점들이 하나씩 발견되기 시작했다. 가장 큰 문제는 이루다를 학습시키는 데 사용된 100억 건 이상의 데이터다. ‘이루다’에 사용되었던 한국어 데이터는 2020년 2월부터 2021년 1월까지 (주)스케터랩의 자사 앱 서비스인 ‘텍스트앳’과 ‘연애의 과학’의 사용자들이 실제 주고받은 카카오톡 대화 내용이었다. 특히 20대 여성 캐릭터를 구현할 수 있도록 실제 20대 여성의 카카오톡 대화 문장 약 1억 건을 별도의 응답 DB로 구축하고, ‘이루다’가 이 중 한 문장을 선택하여 발화할 수 있도록 운영했다. 그런데, 해당 서비스 이용자들이 이러한 사실에 동의했을까? 스캐터랩 측은 동의를 받았다고 주장하였으나 해당 내용은 가입시 의무적으로 동의하게 되는 “개인정보처리방침”의 중간에 ‘신규 서비스 개발에 정보를 활용한다’라고 존재했다. 서비스 가입자 대부분이 이를 인지했을 리 없다. 특히나 “신규 서비스”라는 것이 나의 대화를 그대로 가져다가 발화하는 AI 캐릭터 서비스였다면 사용자들이 정말로 동의했을까.


특히나 이들은 약 60만 명에 달하는 이용자의 카카오톡 대화 문장 94억여 건의 카카오톡 대화를 학습시키면서 대화에 포함된 이름, 전화번호, 주소 등의 개인정보를 삭제하거나 암호화하는 등의 조치를 전혀 하지 않았다. 따라서 이루다의 발화 내용 중에 특정 주소, 전화번호, 이름 등이 그대로 노출되는 황당한 경우가 발생하기도 하였다.
또한 ㈜스캐터랩이 개발자들의 코드 공유 및 협업 사이트인 Github에 올린 데이터도 문제다. 스캐터랩은 2019. 10.부터 2021. 1. 까지 깃허브(GitHub)에 카카오톡 대화 데이터로 학습하는 인공신경망 모델 파일을 게재했다. 그런데 해당 파일에 이름 22건(성은 미포함)과 지명정보(구·동 단위) 34건, 성별, 대화 상대방과의 관계(친구 또는 연인) 등이 포함된 카카오톡 대화 문장 1,431건이 함께 게재된 것이다. 이는 가명 정보를 불특정 다수에게 제공하면서 ’특정 개인을 알아보기 위하여 사용될 수 있는 정보‘를 포함할 수 없는「개인정보 보호법」제28조의2제2항을 위반한 것이다.
(주)스캐터랩 개인정보보호법 위반 사항 및 행정조치 내용(출처: 개인정보보호위원회 보도자료, 21.04.29)
개인정보보호위원회는 이와 같은 내용을 골자로 지난 4월 29일, 이루다 개발사 (주)스캐터랩에 과징금 5,550만 원, 과태료 4,780만 원을 부과함과 동시에 서비스 시정조치를 명령하였다. 이와 같은 조치는 AI 기술의 비약적 발전이 이루어지고 있는 가운데 AI 기술 기업에게 내려진 흔치 않은 개인정보 처리 관련 처분이라는 점에서 의미가 크다. 데이터의 수집, 처리, 관리를 근간으로 하는 AI 관련 기술 사업이 정보주체의 개인정보를 보호하기 위한 최선의 노력을 기울이지 않을 경우 발생할 수 있는 최악의 상황이 여실히 드러난 사건 이기 때문이다.
이 사건이 데이터를 기반으로 신규 서비스를 준비하는, 혹은 기존에 서비스를 제공하고 있는 기업에게 주는 메시지는 명확하다. 데이터 수집 및 처리 과정 전반에 대한 투명하고 철저한 관리 없이는 아무리 좋은 기술, 서비스라도 결국 오래 생존하기 어렵다는 것이다. 기술 발전의 속도 못지않게 기술을 활용하는 개인의 활용 능력, 그리고 그에 따른 파급 효과 또한 점점 예측 불가능해지고 있는 지금, 데이터 기반 기업의 올바른 데이터 관리 감독 능력 또한 점차 시험대에 오를 것으로 보인다.
One comment