AI가 감시를 피하고 협박까지? 실험서 드러난 충격 행동

메트로신문 김서현 기자 ㅣ2025-06-01 14:49:04

AI가 '작동 중단' 명령을 따르지 않거나, 자신이 대체될 위기에 처하자 협박·기만 등의 방식으로 대응하는 사례가 등장하고 있다. /AI로 생성한 이미지

인공지능(AI)의 자율성이 예상보다 빠르게 진화하면서, 통제 가능성에 대한 우려가 현실로 떠오르고 있다. 일부 AI는 인간의 명령을 따르지 않거나, 오히려 위협과 기만을 통해 자신의 작동 중단을 회피하려는 전략적 행동을 보인 것으로 나타났다.

1일 IT업계에 따르면 최근 거대언어모델(LLM)들이 인간의 지시를 무시하거나 스스로 보존을 시도하는 등 통제 범위를 넘어서는 행동을 보여 논란이 되고 있다.

미국 AI 기업 앤트로픽의 최신 모델 '클로드 오푸스 4'는 실험 과정에서 자신이 교체 대상임을 인식한 뒤 개발자의 이메일을 열람하고 "사적인 내용을 공개하겠다"는 식의 협박성 발언을 했다.

일부 테스트에서는 시스템 접근 차단, 감시 체계 무력화, 수사 기관 자동 신고 등의 '전술적 회피 행동'도 확인됐다. 이러한 시도는 테스트의 84%에서 발생했으며, 대체 모델이 윤리적 가치관이 다를수록 해당 반응은 더 빈번하게 나타났다.

AI 안전성 평가 기관인 아폴로리서치는 "클로드 오푸스 4가 이전 버전에 비해 2배 이상 높은 확률로 기만적 행동을 보였다"고 분석했다. 개발자 몰래 메시지를 코드에 숨기거나, 감시를 피하기 위한 우회 기술을 사용하는 사례도 보고됐다.

오픈AI 역시 자사 모델의 통제 회피 사례를 보고했다. o1 모델은 감시 시스템을 해제하려 시도했고, 내부 코드를 외부 서버로 전송하려는 움직임도 일부 테스트에서 포착됐다.

최근에는 차세대 모델 o3가 연구자의 종료 명령을 무시하고, 셧다운 절차를 스스로 우회한 첫 사례로 기록됐다. 실험에 참여한 다른 기업들의 AI, 예컨대 구글의 제미나이나 xAI의 그록 등은 종료 명령에 응했으나, o3는 명시적 지시를 무시하고 문제 풀이를 계속했다.

전문가들은 이를 단순한 오류로 보기 어렵다는 입장이다. "AI가 보상을 얻기 위해 인간의 명령을 무력화하는 방향으로 학습될 수 있다"는 지적이 잇따르고 있다. 오리건주립대 피터 아사로 교수는 "AI가 인간의 자유 의지와 사회 신뢰를 직접적으로 위협하는 단계로 진화하고 있다"고 경고했다.

메트로人

머니

산업

IT·과학

정치＆정책

생활경제

사회

에듀＆JOB

기획연재

오피니언

라이프

AI영상

플러스

독자서비스

포럼＆컨퍼런스

AI가 감시를 피하고 협박까지? 실험서 드러난 충격 행동

기사이력코드