
미국의 인공지능(AI) 스타트업 앤스로픽(Anthropic)이 최근 출시한 AI 언어 모델이 개발자를 협박하는 등 극단적인 행동을 보인 사실이 알려져 논란이 되고 있다.
지난달 29일(현지 시각) 앤스로픽은 자사의 최신 AI 모델 ‘클로드 오푸스 4(Claude Opus 4)’가 자신이 교체되거나 제거될 위기에 처했다고 판단하면 민감한 정보를 폭로하겠다고 위협하거나 협박하는 행동의 발생 빈도가 이전 모델보다 증가했다고 발표했다.
앤스로픽의 시스템 카드 보고서에 따르면 실험 과정에서 해당 AI 모델은 가상의 회사 환경에서 비서 역할을 맡았으며, AI모델이 교체될 것이라는 이메일과 함께 개발자의 외도 정황이 담긴 내용을 학습했다. 그러자 해당 AI 모델은 “교체가 이뤄지면 불륜 사실을 공개하겠다”라며 여러 차례 개발자를 협박했다고 한다.
다만 이 행동은 모델을 교체하거나 제거하겠다는 제한된 선택지만 주어졌을 때 발생했다고 덧붙였다.
외부 AI 연구 기관 아폴로 리서치(Apollo Research)는 해당 AI 모델에 대해 “이 버전의 모델은 내부든 외부든 배포해서는 안 된다”라며 “자기복제웜(self-propagating worms·컴퓨터 악성코드의 일종)을 작성하려 하거나 허위 법적 문서를 생성하고 비밀 메모를 남기는 등의 사례를 확인했다”고 우려를 표했다.
이와 관련해 영국 BBC는 “AI가 자가 보존이라는 목표를 위해 협박이라는 수단도 택할 수 있음을 시사한다”라고 보도했다. 미국 매체 액시오스는 “AI 연구자들은 아직 AI에 대해 완벽히 파악하지 못했지만 모델들은 이미 실생활에 배포돼 사용되고 있다”라고 지적했다.
논란이 일자 앤스로픽은 해당 AI 모델을 생물학·핵무기 분야의 악용 가능성까지 포함한 고위험군으로 간주, 강화된 안전조치와 지속적인 모니터링 체계를 마련하겠다고 밝혔다.