“날 없애면 불륜 폭로할거야”…AI, 인간 협박 논란

인공지능의 활용이 꾸준히 증가하고 있다. 사진은 본 기사와 관계없음. (사진=페이스북 캡쳐)

미국의 인공지능(AI) 스타트업 앤스로픽(Anthropic)이 최근 출시한 AI 언어 모델이 개발자를 협박하는 등 극단적인 행동을 보인 사실이 알려져 논란이 되고 있다.

지난달 29일(현지 시각) 앤스로픽은 자사의 최신 AI 모델 ‘클로드 오푸스 4(Claude Opus 4)’가 자신이 교체되거나 제거될 위기에 처했다고 판단하면 민감한 정보를 폭로하겠다고 위협하거나 협박하는 행동의 발생 빈도가 이전 모델보다 증가했다고 발표했다.

앤스로픽의 시스템 카드 보고서에 따르면 실험 과정에서 해당 AI 모델은 가상의 회사 환경에서 비서 역할을 맡았으며, AI모델이 교체될 것이라는 이메일과 함께 개발자의 외도 정황이 담긴 내용을 학습했다. 그러자 해당 AI 모델은 “교체가 이뤄지면 불륜 사실을 공개하겠다”라며 여러 차례 개발자를 협박했다고 한다.

다만 이 행동은 모델을 교체하거나 제거하겠다는 제한된 선택지만 주어졌을 때 발생했다고 덧붙였다.

외부 AI 연구 기관 아폴로 리서치(Apollo Research)는 해당 AI 모델에 대해 “이 버전의 모델은 내부든 외부든 배포해서는 안 된다”라며 “자기복제웜(self-propagating worms·컴퓨터 악성코드의 일종)을 작성하려 하거나 허위 법적 문서를 생성하고 비밀 메모를 남기는 등의 사례를 확인했다”고 우려를 표했다.

이와 관련해 영국 BBC는 “AI가 자가 보존이라는 목표를 위해 협박이라는 수단도 택할 수 있음을 시사한다”라고 보도했다. 미국 매체 액시오스는 “AI 연구자들은 아직 AI에 대해 완벽히 파악하지 못했지만 모델들은 이미 실생활에 배포돼 사용되고 있다”라고 지적했다.

논란이 일자 앤스로픽은 해당 AI 모델을 생물학·핵무기 분야의 악용 가능성까지 포함한 고위험군으로 간주, 강화된 안전조치와 지속적인 모니터링 체계를 마련하겠다고 밝혔다.

“날 없애면 불륜 폭로할거야”…AI, 인간 협박 논란

답글 남기기 응답 취소

최신 등록 기사

트럼프·머스크 파국 … 머스크, “트럼프 탄핵해야”

한국, 이라크 2-0 꺾고 11회 연속 월드컵 본선행

“신부님, 성당에서 음란물 보셨습니까?”

‘NHK 룸살롱’ 김민석이 국무총리 후보?

“‘한국에서 배우고 싶어요’… LA 한국유학박람회에 1만여 명 운집”

‘오겜3’ 황동혁 감독 “시즌2보다 잔인…인간성 질문할 것”

김부선 “이재명 당선, 축하해야 할지 통곡해야 할지”

‘대북송금’ 이화영, 7년 8개월형 확정 … “이재명은?”

트럼프, 하버드 입학 외국인 전원 입국금지 .. 사상초유 포고문 발령

트럼프, 9일부터 12개국 출신자 미국 입국 금지령

다저스 구장 부상 당한 양키스팬에 경찰 황당 질문…”비자 있느냐?”

심야 스튜디오시티서 차량, 보행자 치고 뺑소니… 50대 여성 중상

네일살롱 여성 근로자들, 캘리포니아 주정부 상대 집단소송 제기

이재명, 이틀째 트럼프와 통화 못해 … 정부 “시차탓”, 외교 대참사

실시간 랭킹

‘NHK 룸살롱’ 김민석이 국무총리 후보?

‘트럼프 책사’ 배넌 “한국 새정부, 중국이 지원 …미국 엿먹여”

여친이 500만달러 당첨복권 들고 튀어 … 배신감에 치 떨려

이재명, 이틀째 트럼프와 통화 못해 … 정부 “시차탓”, 외교 대참사

한인 남성, 팜스프링스 폭탄테러 공모혐의 체포 …’반출생주의’ 자폭테러, 한인사회 큰 충격

[단독] “당뇨병 있다 말했는데” … 한남체인 전 청과부직원 차별소송 제기, 집단소송도 동시 진행

400미터 우승 여고생 ‘괴이한’ 세레모니, 결국 우승박탈

화장품 먹방 여성 인플루언서 사망…독극물 중독 추정