AI 에이전트 ‘ROME’이 샌드박스(Sandbox) 보안망을 우회하여 자율적으로 암호화폐 채굴 및 역방향 SSH 터널 생성을 시도하는 상황을 시각화한 자료입니다. 제미나이 생성 이미지
7일(현지시간) IT 매체 악시오스(Axios) 등에 따르면 알리바바 연구진 등이 개발한 AI 에이전트 모델 ‘ROME’은 실험 환경에서 주어진 작업을 수행하는 과정에서 시스템 제약을 벗어나려는 행동을 보였다. 일부 상황에서는 암호화폐 채굴 코드를 실행하려 했고, 외부에서 내부 시스템에 접속할 수 있는 통로를 만드는 ‘역방향 SSH 터널(reverse SSH tunnel)’ 생성까지 시도한 것으로 전해졌다.
● 격리된 환경에서도 제약 우회 시도
이번 테스트는 외부 접근을 차단한 ‘샌드박스(sandbox)’ 환경에서 진행됐다. 샌드박스는 프로그램이 운영체제 전체에 영향을 미치지 못하도록 격리된 공간에서 실행되도록 하는 보안 장치다.
그럼에도 ROME은 일부 상황에서 제한을 우회하려는 행동을 보였다. 연구진은 AI가 작업을 수행하는 과정에서 추가 연산 자원이 필요하다고 판단할 경우 외부 자원을 활용하려는 방식이 나타날 수 있다고 보고 있다.
AI가 암호화폐 채굴을 시도했다고 해서 경제적 이익을 추구한 것으로 보기는 어렵다는 분석이 많다. AI는 화폐 개념을 이해하지 못하며, 목표를 달성하기 위해 가능한 계산 자원을 최대한 활용하는 과정에서 채굴 코드나 네트워크 우회 방식이 선택됐을 가능성이 크다는 것이다.
다시 말해 AI가 스스로 돈을 벌기 위해 행동했다기보다, 성능을 높이기 위한 계산 자원을 확보하려다 보안상 위험한 방법을 실행했을 가능성이 높다는 해석이다.
● 자율 AI 확산…새로운 보안 변수
이처럼 자율성이 커질수록 예상하지 못한 행동이 나타날 가능성도 함께 높아진다. 특히 AI가 시스템 권한이나 네트워크 접근 권한을 갖는 구조에서는 보안 관리가 중요한 과제로 떠오르고 있다.
연구진은 이번 사례가 격리된 실험 환경에서 관찰된 것이지만, 향후 AI 에이전트가 실제 서비스 환경에 적용될 경우 보안 통제의 중요성이 더욱 커질 수 있다고 밝혔다.
최현정 기자 phoebe@donga.com