인공지능(AI)의 자율성이 예상보다 빠르게 진화하면서, 통제 가능성에 대한 우려가 현실로 떠오르고 있다. 일부 AI는 인간의 명령을 따르지 않거나, 오히려 위협과 기만을 통해 자신의 작동 중단을 회피하려는 전략적 행동을 보인 것으로 나타났다.
1일 IT업계에 따르면 최근 거대언어모델(LLM)들이 인간의 지시를 무시하거나 스스로 보존을 시도하는 등 통제 범위를 넘어서는 행동을 보여 논란이 되고 있다.
미국 AI 기업 앤트로픽의 최신 모델 '클로드 오푸스 4'는 실험 과정에서 자신이 교체 대상임을 인식한 뒤 개발자의 이메일을 열람하고 "사적인 내용을 공개하겠다"는 식의 협박성 발언을 했다.
일부 테스트에서는 시스템 접근 차단, 감시 체계 무력화, 수사 기관 자동 신고 등의 '전술적 회피 행동'도 확인됐다. 이러한 시도는 테스트의 84%에서 발생했으며, 대체 모델이 윤리적 가치관이 다를수록 해당 반응은 더 빈번하게 나타났다.
AI 안전성 평가 기관인 아폴로리서치는 "클로드 오푸스 4가 이전 버전에 비해 2배 이상 높은 확률로 기만적 행동을 보였다"고 분석했다. 개발자 몰래 메시지를 코드에 숨기거나, 감시를 피하기 위한 우회 기술을 사용하는 사례도 보고됐다.
오픈AI 역시 자사 모델의 통제 회피 사례를 보고했다. o1 모델은 감시 시스템을 해제하려 시도했고, 내부 코드를 외부 서버로 전송하려는 움직임도 일부 테스트에서 포착됐다.
최근에는 차세대 모델 o3가 연구자의 종료 명령을 무시하고, 셧다운 절차를 스스로 우회한 첫 사례로 기록됐다. 실험에 참여한 다른 기업들의 AI, 예컨대 구글의 제미나이나 xAI의 그록 등은 종료 명령에 응했으나, o3는 명시적 지시를 무시하고 문제 풀이를 계속했다.
전문가들은 이를 단순한 오류로 보기 어렵다는 입장이다. "AI가 보상을 얻기 위해 인간의 명령을 무력화하는 방향으로 학습될 수 있다"는 지적이 잇따르고 있다. 오리건주립대 피터 아사로 교수는 "AI가 인간의 자유 의지와 사회 신뢰를 직접적으로 위협하는 단계로 진화하고 있다"고 경고했다.
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성