생성형 AI(인공지능)의 학습에 사용자가 제공하지 않은 데이터가 이용되면서 정보주체의 자기정보통제권이 약화되고 있다는 진단이 나왔다. 정보주체의 권리 보장을 위한 새로운 법적·기술적 대응이 필요하다는 주장이 제기된다.
22일 소프트웨어정책연구소(SPRi)가 이달 펴낸 '소프트웨어 중심사회' 보고서에 따르면, 거대언어모델(LLM)을 기반으로 한 생성형 AI가 발전할수록 개인 식별 가능성이 증가해 개인정보 침해 위험이 커진다.
보고서는 "현재 기업들은 개인이 제공하지 않은 정보까지 수집해 개인 식별 가능성을 고도화하는 중"이라며 "LLM 개발회사는 데이터 기업이나 데이터 결합 기관 등에서 획득한 정보뿐만 아니라 온라인에서 확보한 다양한 데이터까지 무차별적으로 수집해 새로운 개인정보를 생성해내고 있다"고 분석했다.
AI 기업이 정보주체보다 개인을 더 잘 아는 시대가 도래했다는 것이다. 개인을 이해하려는 욕구는 조직의 생존과 직결된 문제다. 기업은 개인에게 최적화된 맞춤형 서비스 제공으로 이익을 극대화하기 위해 사용자 정보를 무차별적으로 수집하고 있다.
장재영 한국인터넷진흥원 개인정보안전활용본부 연구위원은 보고서에서 "생성형 AI는 이용자가 제공하지 않은 정보도 학습하고, 이용자가 모르는 이용자에 관한 정보까지 생성하고 있다"며 "이러한 정보의 존재 자체를 이용자가 직관적으로 인식하지 못할 가능성이 크기 때문에 개인정보 자기통제권의 실효적 행사가 본질적으로 제한될 위험이 높다"고 분석했다.
예컨대 AI가 학습한 데이터에서 특정인의 직업·소득 수준·정치적 성향 등을 추론해 제공할 경우 사용자는 이런 정보가 생성됐다는 사실조차 인지하지 못하게 된다. 또 당사자가 자신의 정보를 제공한 적이 없다면 사용자에 관한 데이터임에도 AI가 생성한 정보에 대해 소유권을 주장하기 어려워진다.
보고서는 개인정보 자기통제권이 약화되면 사용자의 주체성이 침해되고 소비자와 기업 간 데이터 처리 관련 정보 격차가 심화되며 자동화된 의사결정으로 인한 이용자 차별 등의 문제가 발생할 수 있다고 지적했다.
정보주체의 개인정보 자기통제권을 보호하기 위한 방안으로 보고서는 ▲개인정보 생성 관련 법적 근거 손질 ▲학습 데이터에 개인정보 최소화 ▲정보주체 권리 보장 기술 적용을 제안했다.
장재영 연구위원은 "공개된 정보의 활용과 사용자가 제공하지 않은 정보를 이용한 개인정보 생성에 대한 규율 근거를 정비해야 한다"면서 "또 합성 데이터, 차등 프라이버시 등 개인정보를 은폐할 수 있는 기술을 적극 사용하면 개인정보 침해 예방에 효과가 있을 것"이라고 제언했다.
합성 데이터는 컴퓨터 시뮬레이션이나 알고리즘을 이용해 원본 데이터의 구조적·통계적 속성을 재현한 데이터이고, 차등 프라이버시는 데이터에 노이즈를 추가해 개별 데이터의 기여도를 숨기면서 전체 데이터 패턴을 유지하는 기술이다.
장 연구위원은 "LLM은 한번 학습된 정보를 쉽게 삭제할 수 없어 개인정보 삭제 요구권을 효과적으로 행사하기 어렵다"면서 "언러닝 기술을 적용해 특정 개인정보를 포함하는 학습 데이터를 제거하는 방법도 개발할 필요가 있다"고 조언했다.
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성