[업계동향] 챗GPT, 계속 써도 될까요?

Posted by

올해 모두가 한 번쯤은 들어봤을 단어, “ChatGPT”. 공개된 이후, 출시 40일 만에 DAU 1,000만 명, 2개월 만에 MAU 1억 명을 달성하며 돌풍을 일으켰습니다. 이를 두고 AI의 빠른 발전을 반기는 한편, 부작용을 우려하는 의견도 적지 않았는데요. 핫한 챗GPT, 개인정보 측면에서 프리-뷰가 살펴봤습니다.
(ChatGPT에 대해 아예 모르는 사람은 없을 거라고 생각되지만🤭) 챗GPT는 22년 11월 30일 공개된 GPT-3.5 기반 대화형 인공지능 챗봇입니다. 여기서 GPT는 Generative Pre-trained Transformer의 약자로, 머신러닝을 통해 방대한 데이터를 미리 학습해 이를 문장으로 생성하는 생성 AI를 말해요. ‘Chat’ GPT는 사용자가 질문을 입력하면 생성 AI가 사람과 채팅하는 것처럼 문장 형태로 답을 해주는 게 특징이죠. 

챗GPT는 대화형 인공지능 모델 중에 가장 유명한 GPT 시리즈를 개발한 OpenAI에서 만들었어요. 특히 자연어 처리에서 높은 강점을 가지고 있죠. 약 1,750억 개의 매개변수를 가진 GPT-3을 기반으로 더욱 정교한 학습 알고리즘을 거쳐 GPT-3.5, 현재 챗GPT가 탄생했어요. 그럼, 챗GPT가 탄생하기까지 필요했던 방대한 학습 데이터들은 과연 어떻게 모은 걸까요?




개인정보 관련 쟁점
1. 공개된 개인정보는 자유롭게 이용할 수 있는 걸까?
챗GPT는 2021년 9월까지 공개된 도서, 기사, 웹사이트 게시글 및 댓글 중 약 3,000억 단어를 크롤링 등의 방법으로 수집했다고 해요. 수집한 정보들은 누구나 접근할 수 있는 ‘공개된’ 정보라지만, 여기에는 ‘공개된 개인정보’도 포함되어 있어 논란이에요. 공개된 개인정보란, 일반인이 쉽게 접근할 수 있는 정보에 개인정보가 포함된 걸 말해요. 하지만 인터넷에 올렸다고 해서 내 개인정보를 누구든 마음대로 사용해도 된다는 말일까요?🤔

GPT와 같은 대규모 언어 모델은 학습데이터를 그대로 암기하고 있을 가능성이 높아, 생성 결과에 암기한 개인정보가 포함될 가능성이 높아요. 실제로 GPT-2를 대상으로 대규모 언어 모델에 학습된 데이터가 자연스럽게 추출될 가능성을 연구한 결과, 생성 결과의 최소 0.1%가 학습된 데이터를 그대로 포함하고 있는 게 확인됐어요. 이 데이터에는 이름, 연락처와 같은 개인정보와 저작물이 포함되어 있었고요.

영국, 프랑스, 캐나다에서는 정보 주체의 동의 없이 공개된 개인정보를 수집·이용하는 것을 개인정보 보호법 위반으로 보고 있어요. 반면 호주에서는 공개된 개인정보에는 개인정보 보호법이 적용되지 않는다고 명시되어 있고, 미국 아이오와주에서는 공개된 개인정보를 개인정보의 범위에서 배제하는 법안의 입법이 추진 중이에요. 우리나라에서는 공개된 개인정보라 하더라도 정보 주체의 명확한 동의 의사 또는 사회 통념상 동의의사가 있다고 인정되는 경우에만 수집·이용이 가능해요.


2. 비영리단체인가, 영리단체인가
OpenAI는 2015년 설립 당시 인공지능을 개발해서 오픈소스로 제공하여 사람들에게 도움을 주기 위해 비영리단체로 시작했어요. 하지만 인공지능 개발 과정에서 큰 비용이 발생하게 되자 2019년 MS로부터 총 100억 달러에 달하는 금액을 투자받았고, 이 과정에서 제한적 영리 추구 회사로 바뀌었어요. 비영리 학술 목적으로 수집한 사람들의 개인정보로 영리단체인 기업이 돈을 번다?🤔 OpenAI의 공동창업자 일론 머스크도 영리단체 모습으로 변하는 것에 거부감을 느끼고 떠났어요. “OpenAI는 더 이상 OpenAI가 아니다. Closed AI, Closed 소스가 되어버렸다.”는 말과 함께요.


3. 잘못 사용하게 된다면…
챗GPT에 입력되는 내용은 AI 학습에 사용된다고 명시되어 있어요. 이는 곧 챗GPT에 입력되는 내용은 챗GPT를 사용하는 다른 사용자에게도 공개될 수 있다는 말로, 만약 챗GPT에 민감한 개인정보나 영업비밀 등을 입력하면 그대로 유출될 수 있음을 의미해요. 현재 챗GPT는 민감/기밀 정보를 일반정보와 구분하지 않고 학습하기 때문에, 사용자 스스로 이용에 주의를 기울여야 합니다.

출처: ChatGPT



개인정보 유출 우려는 현실
실제로 지난 3월, 삼성 반도체 사업부의 내부 소스코드와 사내 회의록이 챗GPT에 입력되어 유출된 사실이 밝혀졌어요. 3월 20일에는 챗GPT 상에서 일부 사용자의 채팅 기록이 다른 사용자에게 무작위로 표시되는 유출 사고도 발생했고요. 오류가 발생한 9시간 동안 챗GPT 플러스(유료 계정)를 사용한 회원 중 1.2%의 이름, 이메일 주소, 청구 주소, 신용카드의 마지막 4자리와 유효기간 등 결제 정보가 노출되었어요. OpenAI 측은 단순 버그였다고 밝혔지만, 우려하던 개인정보 유출이 챗GPT에서 언제든 발생할 수 있다는 게 증명된 사건이었어요.


전 세계적 동향
개인정보 유출 사고를 계기로 이탈리아는 챗GPT의 접속을 차단했습니다.🚫 챗GPT가 알고리즘 학습을 위한 목적으로 개인정보를 대량으로 수집하고 저장하는 행위를 정당화할 법적 근거가 없으며, 사용자들의 연령을 확인하지 않아 미성년자에게 부적절한 답변을 제공할 수 있다는 이유에서요.

OpenAI가 이탈리아 개인정보 보호법의 의무 사항(투명성 개선, 사용자 동의 수집, 연령 제한 적용 등)을 이행할 때까지 이탈리아에서 챗GPT를 사용할 수 없어요. 이미 중국, 북한, 러시아, 이란은 검열 등의 목적으로 챗GPT 사용을 금지하고 있었는데, 이탈리아가 개인정보 보호를 이유로 챗GPT를 금지한 최초의 국가가 되었네요.

국가적 차원 말고도 각 기업에서 챗GPT 사용을 제한하는 경우는 전 세계적으로 많아요. 미국의 JP모건, 버라이즌은 사용을 아예 금지했으며, 아마존, 골드만삭스, 일본의 소프트뱅크 등 기업은 민감정보나 기밀정보의 입력을 제한했어요. 우리나라의 SK하이닉스는 사내 사용을 사실상 금지했고, 삼성전자, SK텔레콤, 포스코 등도 자체 가이드라인을 마련해 사용을 제한하고 있어요. 금융이나 컨설팅과 같이 영업 기밀과 민감한 개인정보를 다루는 업계일수록 챗GPT 사용을 강력하게 제한하고 있어요.



💌 개인정보 침해 우려 외에도 기술 악용, 저작권, 인종차별 등 여러 문제점에도 불구하고 챗GPT는 빠른 속도로 이용자가 증가하고 있어요. 챗GPT를 활용한 새로운 서비스를 제공하는 기업도 점점 늘고 있고요. 한편 미국 유명인 3천여 명은 ‘당장 AI 개발 연구를 6개월간 중단하고 기술이 인간에게 끼치는 영향을 논의해야 한다’며 OpenAI에 공개서한을 보내기도 했는데요. 챗GPT는 인류에게 득이 될까요? 독이 될까요?🤔 편리하다고 무분별하게 사용했다가는 우리에게 더 큰 피해로 돌아올 수 있다는 점 하나는 분명해 보입니다.


댓글 남기기