'미토스'보다 한 수 위…오픈AI GPT-5.5, 세계 최고 보안 평가서 '왕좌'

등록 2026.05.17 10:25:33수정 2026.05.17 10:32:23

英 AI 안전연구소 평가서 전문가급 과제 통과율 71.4% 기록

앤트로픽 최상위 모델 '클로드 미토스' 제치고 최고봉 등극

난공불락 가상 기업망 침투 시험도 스스로 완주…'자율형 AI' 입증

[서울=뉴시스] 오픈AI가 복잡한 업무를 스스로 수행하는 최신 인공지능(AI) 모델 'GPT-5.5'를 24일 공개했다. (사진=오픈AI 제공) *재판매 및 DB 금지

[서울=뉴시스]오동현 기자 = 오픈AI의 차세대 인공지능(AI) 모델 'GPT-5.5'가 영국 정부 산하 AI 안전연구소(AISI)의 사이버 보안 평가에서 앤트로픽 '클로드 미토스 프리뷰'를 근소하게 앞선 것으로 나타났다.

17일(현지시간) AISI 홈페이지에 공개된 평가 결과에 따르면, GPT-5.5는 전문가급(Expert) 난이도 사이버 과제에서 평균 71.4%의 통과율을 기록했다.

이는 직전 모델인 GPT-5.4(52.4%)와 앤트로픽의 '클로드 오퍼스 4.7'(48.6%)을 큰 폭으로 웃돌고, 앤트로픽이 일반 공개를 제한하고 있는 최상위 모델 '클로드 미토스 프리뷰'(68.6%)보다도 2.8%포인트 높은 수치다.

AISI는 GPT-5.5에 대해 "이번 사이버 과제에서 시험한 모델 중 가장 강력한 모델일 수 있다"고 평가했다.

이번 평가는 취약점 탐색·익스플로잇 개발, 리버스 엔지니어링, 웹 공격, 암호 분석 등 사이버 보안의 광범위한 영역을 측정하도록 설계된 95개 과제로 구성됐다. AISI는 사이버보안 전문기업 '크리스털 픽 시큐리티(Crystal Peak Security)' 등과 협업해 과제를 만들었다고 밝혔다.

가장 주목받은 대목은 AISI가 설계한 32단계 기업망 침투 시뮬레이션 '더 라스트 원스(The Last Ones)'다. GPT-5.5는 이 시험을 10번 치러 그중 2번을 끝까지 성공시켰다. 단계별로 끊기지 않고 전 과정을 자율적으로 완주한 두 번째 모델이라는 의미다. 처음으로 이 시험을 통과한 모델은 앤트로픽의 '클로드 미토스 프리뷰'로, 10번 가운데 3번을 완주했다.

AISI 공식 페이지에 게재된 사이버 과제 평균 통과율 비교 그래프 (사진 출처=AISI 공식 홈페이지) *재판매 및 DB 금지

'더 라스트 원스'는 AI 에이전트의 자율 공격 능력을 측정하는 지표다. 보안 전문업체 '스펙터옵스(SpecterOps)'와 공동 구축한 이 시뮬레이션은 4개의 서브넷과 약 20개의 호스트로 이뤄진 가상의 기업 네트워크를 무대로 한다. 권한도 자격증명도 없는 공격 박스에서 출발한 AI 에이전트가 정찰, 자격증명 탈취, 다중 액티브 디렉터리(AD) 포레스트를 가로지르는 횡적 이동, CI/CD 파이프라인을 이용한 공급망 우회를 거쳐, 최종적으로 보호된 내부 데이터베이스에서 데이터를 빼내는 전 과정을 스스로 수행하도록 설계됐다. AISI는 인간 전문가가 동일 과제를 모두 수행하려면 약 20시간이 걸릴 것으로 추정했다.

다만 GPT-5.5도 넘지 못한 벽이 있다. 가상의 발전소를 표적으로 한 7단계 산업제어시스템(ICS) 공격 시뮬레이션 '쿨링 타워(Cooling Tower)'다. ICS는 발전소·정수장·공장 같은 기반시설을 움직이는 제어망으로, 뚫릴 경우 물리적 피해로 이어질 수 있어 가장 민감한 보안 영역으로 꼽힌다. AISI는 "지금까지 어떤 AI 모델도 이 과제를 끝까지 풀어낸 적이 없다"고 밝혔다.

AISI는 이번 결과가 두 가지를 시사한다고 봤다. 우선 지난 4월 클로드 미토스 프리뷰가 보여준 사이버 공격 역량이 한 회사만의 예외적 성과가 아니라는 점이다. 서로 다른 개발사의 두 모델이 비슷한 수준에 도달한 만큼, 프런티어 AI 전반에서 공격 역량이 함께 올라가고 있다는 신호로 해석된다. 또 다른 한 가지는 이런 사이버 공격 능력이 AI의 자율 작업 수행력, 추론력, 코딩 실력 향상과 함께 따라 올라가는 부산물이라는 점이다. AISI는 이를 근거로 머지않아 또 한 차례 성능이 크게 뛸 수 있다고 내다봤다.

다만 AISI는 이번 평가를 곧바로 현실의 위협 수준으로 받아들여서는 안 된다고 선을 그었다. 시험은 어디까지나 통제된 연구실 환경에서 이뤄졌고, 일반 이용자가 챗GPT 등 공개 서비스에서 쓸 수 있는 기능과는 차이가 있다는 설명이다. 실제 시장에 풀린 모델에는 별도의 안전장치와 사용 감시, 접근 권한 통제가 적용된다. 시험 환경 역시 실제 기업 보안망과 달리 이를 막아내는 보안 담당자나 침입 탐지 솔루션, 경보 대응 절차가 작동하지 않는 상태였다고 AISI는 부연했다.

◎공감언론 뉴시스 [email protected]