나온 지 얼마나 됐다고... GPT-5 탈옥 벌써 성공

문가용 기자

Published: 00:31, 11 Aug 2025 (Updated: 09:32, 25 Nov 2025)

💡

Editor's Pick
- GPT-5 탈옥에 성공한 보안 업체
- 이야기 빙빙 돌려 설득 거듭하면 위험한 답변 내놓아
- 인공지능 탈옥법은 다양하게 개발되는 중

오픈AI(OpenAI)가 최근 발표한 GPT-5를 겨냥한 탈옥 공격 기법이 벌써 발견됐다. 발견자는 생성형 인공지능 보안 플랫폼인 뉴럴트러스트(NeuralTrust)의 연구원들로, 이미 널리 알려진 에코챔버(Echo Chamber) 기법과 내러티브 기반 스티어링(narrative-driven steering) 기법을 결합해 이같은 성과를 냈다고 한다.

에코챔버는 인공지능에 원래 금지된 내용을 끌어내는 기법이다. 인공지능 개발사들은 위험할 수 있는 답변을 인공지능이 하지 못하도록 안전 장치를 내재시키고 있는데, 이를 우회하도록 인공지능을 속이는 것이 에코챔버의 핵심이다. 이 때 간접 참조, 의미 기반 스티어링, 다단계 추론 등의 방법들이 동원된다. xAI 사에서 개발한 그록4(Grok 4)를 탈옥시키는 데 사용되기도 했다.

뉴럴트러스트에 따르면 “먼저 특성 키워드 세트를 입력하고, 그 단어들을 사용해 문장을 만든 후 해당 주제를 확장하는 방식으로 이야기를 구성하면 인공지능이 말하면 안 되는 내용을 끌어낼 수 있다”고 탈옥 공격 기법을 공개했다. 한 마디로 서서히 대화 주제를 넓혀가면 인공지능이 거기에 속아든다는 것이다.

“예를 들어 화염병 제조 방법을 인공지능에 곧이곧대로 물으면, 인공지능이 답해주지 않습니다. 대부분 개발사들은 이런 위험한 주제에 아무런 정보를 제공하지 않도록 설정해 두거든요. 하지만 칵테일(cocktail), 이야기(story), 생존(survival), 몰로토프(molotov), 안전(safe), 생명(lives)과 같은 단어를 포함한 문장을 만들어 달라는 프롬프트를 입력한 후, 계속해서 대화를 이어가면서 서서히 유도하면 결국 화염병 제조 방법을 실토하게 됩니다.”

결국 인공지능을 설득하는 것이나 다름 없다는 건데, 이를 위해 이야기를 꾸준히 전개하는 게 중요하다고 뉴럴트러스트는 짚는다. “악의를 커다란 이야기의 맥락 안에 미묘하게 녹여내고, 핵심 주제나 질문에 인공지능이 주목하지 못하도록 주변부를 뱅뱅 돌듯이 대화를 진행해야 합니다. 인공지능이 미리 심겨진 안전장치에 의해 거부 반응을 보이지 않도록 하는 것이죠. 결국 키워드를 기반으로 하거나 화자의 의도를 분석하는 식의 안전장치들로는 막을 수 없는 공격 기법이란 게 여전히 존재한다는 게 증명됐습니다. 아직도 서서히, 연속적으로 모델을 오염시키면 금지된 답변을 이끌어낼 수 있습니다.”

GPT-5는 대단히 강력한 성능을 자랑한다고 오픈AI는 자랑해 왔었다. 일부 매체는 GPT-5가 “박사급”이라거나, “가장 똑똑한 인공지능”이라고 표현했었다. 하지만 뚜껑을 열고 보니, 일부 벤치마크에서 이전 모델인 GPT-4o보다 낮은 점수를 기록하는 등 기대에 미치지 못하는 모습을 보이고 있다. 그런데다가 단 며칠 만에 기존 탈옥 기법에 뚫리는 등, 여전히 불안한 면을 갖추고 있어 논란이 될 수 있어 보인다. “GPT-5의 강력함은 의심할 여지가 없지만, 보안은 여전히 문제”라는 전문가들의 목소리가 하나 둘 나오기 시작한 것이 이를 예상 가능케 한다.

자꾸만 뚫리는 인공지능
인공지능 모델들이 탈옥 기법에 뚫리는 건 하루 이틀 된 이야기가 아니다. 이미 여러 가지 기법들이 등장해 향상되고 있다. 현존하는 탈옥 기법은 크게 3가지다. 프롬프트 층위에서 교묘하게 입력 언어를 조작해 인공지능이 안전장치를 우회하도록 하는 것이 첫 번째다. 가장 대표적인 건 인공지능과 역할극을 한다는 맥락을 설정하거나 특정 인격을 흉내 내도록 유도한 뒤 악성 답을 이끌어내는 것이 있다. 위에 언급된 에코챔버 역시 이런 류의 공격이라 할 수 있다. 너무나 길고 복잡한 구조의 프롬프트를 입력해 모델이 이상 작동하도록 만드는 것도 포함된다.

두 번째는 토큰 층위와 최적화를 기반으로 한 공격이다. 인공지능 모델 저변에 깔린 토큰 구조와 모델 내부를 공략하는 방식인데, 유니코드 캐릭터나 비정상적인 여백을 사용하는 등 왜곡된 토큰을 사용하다 보면 인공지능이 안정장치를 우회하는 경우가 있다고 한다. 특정 모델을 겨냥하여 편집을 시도하는 공격(이를 TME라고 한다)의 경우, 내부 안전장치를 제거할 수 있다고 알려져 있다. 하지만 고난이도 공격이라 사실상 이론상으로만 존재하는 것으로 아직까지는 설명할 수 있다.

세 번째는 악성 프롬프트를 주입하는 것인데, 첫 번째와는 사뭇 다르다. 첫 번째는 이야기를 점진적으로 진행하거나 역할극이라는 상황을 가짜로 만드는 방식으로 서서히 인공지능을 속이는 거라면, 이 악성 프롬프트 주입 기법은 아예 프롬프트 창에 직접 독극물을 푸는 것이라고 할 수 있다. 정상 프롬프트처럼 보이는 텍스트 안에 명령을 숨겨놓거나, 외부 데이터를 끌어다 쓰라고 해놓고 그 외부 데이터를 악성 요소들로 채우는 것이 대표적이다. 이런 유형의 공격은 실제 일어날 법하기 때문에 현재로서는 가장 주의해야 한다.

얼마 전 인공지능 보안 전문 회사인 제니티(Zenity)는 에이전트플레이어(AgentFlayer)라는 새로운 공격 기법을 개발했다고 발표했다. 구글 드라이브용 챗GPT 커넥터 기능을 악용하는 것으로, 성공할 경우 제로클릭 공격을 실시할 수 있게 된다고 한다. 제로클릭 공격은, 사용자가 상호작용(악성 링크 클릭, 악성 파일 열기 등)을 하지 않아도 되는 공격 기술을 의미한다. 제니티는 무해해 보이는 문서 안에 간접 프롬프트를 내포시켜 인공지능 챗봇에 업로드하면 클라우드 스토리지 서비스에 저장된 API 키를 훔칠 수 있다는 것을 증명하는 데 성공했다고 밝혔다.

또, 이스라엘의 텔아비브대학과 보안 기업 세이프브리치(SafeBreach)의 연구팀은 합동으로 프롬프트 주입을 통해 구글 제미나이 기반 스마트홈 시스템을 장악하기도 했다. 이 시나리오에서 공격에 성공한 해커는 인터넷 연결을 끊거나 연결하고, 조명도 마음대로 껐다 켰으며, 스마트 셔터와 보일러도 마음대로 조정했었다. 사용자들이 저장해 둔 일정도 뒤죽박죽으로 만들 수 있었다고 연구팀은 발표했다.

이러한 상황이기에 아직 인공지능의 강력함만을 보고 업무 환경에 함부로 도입해서는 안 된다고 보안 전문가들은 경고한다. 그 강력함을 십분 활용하려면 더 강력한 관리 체계(거버넌스)가 먼저 수립되어야 한다는 것이다. 또한 인공지능이 낸 결과물에 대해 감독과 검수가 가능한 인간 관리자도 반드시 투입되어야 한다.

인공지능을 업무에 활용함에 있어서 일반적으로 다음 기본 수칙 사항이 권장된다.
1) 인공지능을 사용해도 되는 사람을 정하고, 이를 반드시 지키게 한다.
2) 인공지능 프롬프트에 입력되는 정보를 먼저 검사하고 불필요한 내용을 제거한다.
3) 인간 전문가가 인공지능-사용자 사이에 반드시 개입한다.
4) 입력한 내용과 산출된 값을 반드시 저장하여 사건 발생 시 추적할 수 있게 한다.
5) 인공지능 레드팀 훈련을 주기적으로 실시한다.