"데이터는 금광" vs "내 창작물 훔치지 마라"…규제완화 놓고 충돌 격화

인공지능(AI) 개발 경쟁 속 AI 학습권에 관한 논의가 첨예하게 갈리고 있다. AI 개발을 위한 필요성과 저작권, 개인정보보호법 등이 격돌하는 모습이다. /AI로 생성한 이미지

인공지능(AI) 개발 경쟁이 격화하면서 AI 학습권에 대한 논의가 촉발되고 있다.

AI 학습권이란 인공지능이 학습에 활용할 수 있는 데이터에 접근하고 이를 사용할 수 있는 권리를 말한다. 주로 텍스트, 이미지, 음성 등 다양한 콘텐츠의 저작권 및 개인정보와 충돌할 수 있어 법적·윤리적 쟁점이 크다. AI 개발 기업들은 학습권 보장을 위한 규제 완화 등을 요구하고 있으나 창작자들은 AI 모델의 무분별한 학습으로 인한 피해를 호소하며 저작권법 강화를 주장하고 있다.

27일 <메트로경제신문> 취재에 따르면 AI 개발에 필수적인 AI 학습권을 둘러싸고 첨예한 갈등이 이어지고 있다. 일각에서는 합성 데이터 세트를 이용한 한계 극복을 모색하고 있으나 여기에도 한계가 있어 실물 데이터를 둘러싼 논란이 계속 이어질 전망이다.

과학기술정보통신부는 지난 25일 서울 마포구 SW마에스트로 연수센터에서 'AI 3대 강국을 위한 데이터 규제개선 간담회'를 열고 IT업계의 현장 애로사항을 청취했다.

IT 기업들은 "풍부한 데이터 확보와 활용이 필수적"이라며 "경직된 법규와 모호한 가이드라인 개선이 시급하다"고 주장했다. 비교 사례로는 미국이 제시됐다. 미국은 의료정보보호법(HIPAA)의 '세이프 하버' 조항을 통해 특정 개인을 식별할 수 있는 이름, 사회보장번호, 계좌번호 등 18개 항목을 제거하면 비식별 정보로 데이터를 유통할 수 있다. 반면, 우리나라의 경우 개인정보보호법에 따라 비식별정보까지 보호하며 데이터 유통을 막고 이를 어길 경우 형사처벌까지 하고 있다. 데이터 성격에 따른 세부 기준 마련의 필요성도 제기됐다.

트웰브랩스 정진우 공동창업자는 "방송사·CCTV 등 원본 영상 데이터는 개인정보를 포함하고 있어 AI 학습에 활용하기 어렵고, 영상 데이터 비식별화에 대한 명확한 기준도 부재하다"고 비판했다. 또한 "개발사들이 AI 허브 외에 정부가 구축한 고품질 데이터의 존재를 알 수 없어 활용을 못하고 있다"고 부연했다.

법무법인 광장 고환경 변호사는 한국도 학습 자체는 허용하고 활용 단계에서 규제하는 방향으로 전환해야 한다고 진단했다. '한시적 특례법' 제정과 같은 유연한 입법 접근도 제언됐다.

업스테이지 김성훈 대표는 "AI 모델 성능을 끌어올리기 위해선 교과서, 수능, 공무원 시험 같은 한국 특화 데이터를 쓰고 싶은데, 구매 방법도 가격도 알려주는 곳이 없다"며 "저작권 징수처럼 '데이터 연금제'를 만들면 적극 활용하겠다"고 말했다.

반면 AI 개발 기업들의 염원과 달리, 학습 데이터에 대한 규제 완화가 저작권 침해로 직결될 수 있다는 반발도 거세다. 콘텐츠 창작자 단체들은 AI 학습 과정에서 자신들의 저작물이 무단 수집·활용되고 있다며 강력히 반발하고 있다. 특히 최근에는 일러스트레이터, 작가, 성우 등 개별 창작자들이 집단으로 저작권 침해 소송을 제기하거나, AI 학습에 대한 명시적 거부 의사를 밝히는 경우도 늘고 있다.

이러한 갈등이 심화되는 가운데, 지난 5월 AI 시대에 맞서 창작자 권리 보호를 위해 출범한 범창작자정책협의체는 오는 29일 국회도서관 대강당에서 'AI 시대 창작산업계 권리자 보호와 산업발전의 조화 방안'을 주제로 정책 세미나를 개최한다.

이번 세미나에서는 ▲창작자 보상 및 권리 보호 조항의 체계적 명문화 ▲텍스트 및 데이터 마이닝(TDM) 면책 조항의 무분별한 도입 제한 ▲AI 학습에 사용된 데이터의 정보 공개 의무화 등이 주요 의제로 논의될 예정이다.

일러스트레이터 수만(활동명)은 "해외도 마찬가지이지만 우리나라 또한 AI 학습을 위한 알고리즘과 활용 데이터 세트는 영업 기밀 등을 이유로 공개되지 않고 있다"면서 "나의 저작물이 학습 데이터로 이용된 정황이 있어도 이를 개인이 기업을 상대로 입증해내기란 사실상 불가능에 가깝다"고 지적했다.

한편 최근 미국에서는 AI 학습권에 대해 보다 유연한 접근이 이뤄지고 있다. 공정 이용(fair use) 원칙이 광범위하게 인정되고 있는 것. 최근 미국 법원은 생성형 AI '클로드'를 개발한 앤스로픽, '라마'를 개발한 메타에 대해 각각 "AI가 책이나 콘텐츠에서 학습한 결과물을 생성하는 것은 공정 이용에 해당한다"며 AI 기업의 손을 들어줬다.

다만, 판결은 학습 데이터의 '출처'까지 정당화하진 않았다. 예컨대 앤스로픽이 해적판 도서를 무단 수집해 학습에 활용한 행위는 문제로 지적돼 손해배상 책임이 따를 수 있다는 판단도 병행됐다.

메트로人

머니

산업

IT·과학

정치＆정책

생활경제

사회

에듀＆JOB

기획연재

오피니언

라이프

플러스

독자서비스

포럼＆컨퍼런스

"데이터는 금광" vs "내 창작물 훔치지 마라"…규제완화 놓고 충돌 격화

기사이력코드