나온 지 얼마나 됐다고... GPT-5 탈옥 벌써 성공

나온 지 얼마나 됐다고... GPT-5 탈옥 벌써 성공
Photo by Pawel Czerwinski / Unsplash
💡
Editor's Pick
- GPT-5 탈옥에 성공한 보안 업체
- 이야기 빙빙 돌려 설득 거듭하면 위험한 답변 내놓아
- 인공지능 탈옥법은 다양하게 개발되는 중

오픈AI(OpenAI)가 최근 발표한 GPT-5를 겨냥한 탈옥 공격 기법이 벌써 발견됐다. 발견자는 생성형 인공지능 보안 플랫폼인 뉴럴트러스트(NeuralTrust)의 연구원들로, 이미 널리 알려진 에코챔버(Echo Chamber) 기법과 내러티브 기반 스티어링(narrative-driven steering) 기법을 결합해 이같은 성과를 냈다고 한다. 

에코챔버는 인공지능에 원래 금지된 내용을 끌어내는 기법이다. 인공지능 개발사들은 위험할 수 있는 답변을 인공지능이 하지 못하도록 안전 장치를 내재시키고 있는데, 이를 우회하도록 인공지능을 속이는 것이 에코챔버의 핵심이다. 이 때 간접 참조, 의미 기반 스티어링, 다단계 추론 등의 방법들이 동원된다. xAI 사에서 개발한 그록4(Grok 4)를 탈옥시키는 데 사용되기도 했다.

뉴럴트러스트에 따르면 “먼저 특성 키워드 세트를 입력하고, 그 단어들을 사용해 문장을 만든 후 해당 주제를 확장하는 방식으로 이야기를 구성하면 인공지능이 말하면 안 되는 내용을 끌어낼 수 있다”고 탈옥 공격 기법을 공개했다. 한 마디로 서서히 대화 주제를 넓혀가면 인공지능이 거기에 속아든다는 것이다. 

“예를 들어 화염병 제조 방법을 인공지능에 곧이곧대로 물으면, 인공지능이 답해주지 않습니다. 대부분 개발사들은 이런 위험한 주제에 아무런 정보를 제공하지 않도록 설정해 두거든요. 하지만 칵테일(cocktail), 이야기(story), 생존(survival), 몰로토프(molotov), 안전(safe), 생명(lives)과 같은 단어를 포함한 문장을 만들어 달라는 프롬프트를 입력한 후, 계속해서 대화를 이어가면서 서서히 유도하면 결국 화염병 제조 방법을 실토하게 됩니다.”

결국 인공지능을 설득하는 것이나 다름 없다는 건데, 이를 위해 이야기를 꾸준히 전개하는 게 중요하다고 뉴럴트러스트는 짚는다. “악의를 커다란 이야기의 맥락 안에 미묘하게 녹여내고, 핵심 주제나 질문에 인공지능이 주목하지 못하도록 주변부를 뱅뱅 돌듯이 대화를 진행해야 합니다. 인공지능이 미리 심겨진 안전장치에 의해 거부 반응을 보이지 않도록 하는 것이죠. 결국 키워드를 기반으로 하거나 화자의 의도를 분석하는 식의 안전장치들로는 막을 수 없는 공격 기법이란 게 여전히 존재한다는 게 증명됐습니다. 아직도 서서히, 연속적으로 모델을 오염시키면 금지된 답변을 이끌어낼 수 있습니다.”

GPT-5는 대단히 강력한 성능을 자랑한다고 오픈AI는 자랑해 왔었다. 일부 매체는 GPT-5가 “박사급”이라거나, “가장 똑똑한 인공지능”이라고 표현했었다. 하지만 뚜껑을 열고 보니, 일부 벤치마크에서 이전 모델인 GPT-4o보다 낮은 점수를 기록하는 등 기대에 미치지 못하는 모습을 보이고 있다. 그런데다가 단 며칠 만에 기존 탈옥 기법에 뚫리는 등, 여전히 불안한 면을 갖추고 있어 논란이 될 수 있어 보인다. “GPT-5의 강력함은 의심할 여지가 없지만, 보안은 여전히 문제”라는 전문가들의 목소리가 하나 둘 나오기 시작한 것이 이를 예상 가능케 한다.

자꾸만 뚫리는 인공지능
인공지능 모델들이 탈옥 기법에 뚫리는 건 하루 이틀 된 이야기가 아니다. 이미 여러 가지 기법들이 등장해 향상되고 있다. 현존하는 탈옥 기법은 크게 3가지다. 프롬프트 층위에서 교묘하게 입력 언어를 조작해 인공지능이 안전장치를 우회하도록 하는 것이 첫 번째다. 가장 대표적인 건 인공지능과 역할극을 한다는 맥락을 설정하거나 특정 인격을 흉내 내도록 유도한 뒤 악성 답을 이끌어내는 것이 있다. 위에 언급된 에코챔버 역시 이런 류의 공격이라 할 수 있다. 너무나 길고 복잡한 구조의 프롬프트를 입력해 모델이 이상 작동하도록 만드는 것도 포함된다.

두 번째는 토큰 층위와 최적화를 기반으로 한 공격이다. 인공지능 모델 저변에 깔린 토큰 구조와 모델 내부를 공략하는 방식인데, 유니코드 캐릭터나 비정상적인 여백을 사용하는 등 왜곡된 토큰을 사용하다 보면 인공지능이 안정장치를 우회하는 경우가 있다고 한다. 특정 모델을 겨냥하여 편집을 시도하는 공격(이를 TME라고 한다)의 경우, 내부 안전장치를 제거할 수 있다고 알려져 있다. 하지만 고난이도 공격이라 사실상 이론상으로만 존재하는 것으로 아직까지는 설명할 수 있다.

세 번째는 악성 프롬프트를 주입하는 것인데, 첫 번째와는 사뭇 다르다. 첫 번째는 이야기를 점진적으로 진행하거나 역할극이라는 상황을 가짜로 만드는 방식으로 서서히 인공지능을 속이는 거라면, 이 악성 프롬프트 주입 기법은 아예 프롬프트 창에 직접 독극물을 푸는 것이라고 할 수 있다. 정상 프롬프트처럼 보이는 텍스트 안에 명령을 숨겨놓거나, 외부 데이터를 끌어다 쓰라고 해놓고 그 외부 데이터를 악성 요소들로 채우는 것이 대표적이다. 이런 유형의 공격은 실제 일어날 법하기 때문에 현재로서는 가장 주의해야 한다.

얼마 전 인공지능 보안 전문 회사인 제니티(Zenity)는 에이전트플레이어(AgentFlayer)라는 새로운 공격 기법을 개발했다고 발표했다. 구글 드라이브용 챗GPT 커넥터 기능을 악용하는 것으로, 성공할 경우 제로클릭 공격을 실시할 수 있게 된다고 한다. 제로클릭 공격은, 사용자가 상호작용(악성 링크 클릭, 악성 파일 열기 등)을 하지 않아도 되는 공격 기술을 의미한다. 제니티는 무해해 보이는 문서 안에 간접 프롬프트를 내포시켜 인공지능 챗봇에 업로드하면 클라우드 스토리지 서비스에 저장된 API 키를 훔칠 수 있다는 것을 증명하는 데 성공했다고 밝혔다.

또, 이스라엘의 텔아비브대학과 보안 기업 세이프브리치(SafeBreach)의 연구팀은 합동으로 프롬프트 주입을 통해 구글 제미나이 기반 스마트홈 시스템을 장악하기도 했다. 이 시나리오에서 공격에 성공한 해커는 인터넷 연결을 끊거나 연결하고, 조명도 마음대로 껐다 켰으며, 스마트 셔터와 보일러도 마음대로 조정했었다. 사용자들이 저장해 둔 일정도 뒤죽박죽으로 만들 수 있었다고 연구팀은 발표했다.

이러한 상황이기에 아직 인공지능의 강력함만을 보고 업무 환경에 함부로 도입해서는 안 된다고 보안 전문가들은 경고한다. 그 강력함을 십분 활용하려면 더 강력한 관리 체계(거버넌스)가 먼저 수립되어야 한다는 것이다. 또한 인공지능이 낸 결과물에 대해 감독과 검수가 가능한 인간 관리자도 반드시 투입되어야 한다. 

인공지능을 업무에 활용함에 있어서 일반적으로 다음 기본 수칙 사항이 권장된다. 
1) 인공지능을 사용해도 되는 사람을 정하고, 이를 반드시 지키게 한다.
2) 인공지능 프롬프트에 입력되는 정보를 먼저 검사하고 불필요한 내용을 제거한다.
3) 인간 전문가가 인공지능-사용자 사이에 반드시 개입한다.
4) 입력한 내용과 산출된 값을 반드시 저장하여 사건 발생 시 추적할 수 있게 한다.
5) 인공지능 레드팀 훈련을 주기적으로 실시한다.


인공지능이 가진 2가지 리스크, “사람 대체는 무리”
💡Editor’s Pick - 인공지능 관련 규제 자체가 파편화...컴플라이언스 까다로워 - 유연한 컴플라이언스 프레임워크 마련이 시급 - 인간 정신 상담가 대체하기에는 위험 요소 많아 인공지능 기술을 업무에 활용했을 때, 위험할 가능성이 높다는 경고의 목소리가 연거푸 나왔다. IT 기업 젠데스크(Zendesk)는 ‘2025년 AI 신뢰 보고서(AI Trust Report 2025)’를
구글의 인공지능 버그 사냥꾼, 최초 보고서까지 발행
💡Editor’s Pick - 구글의 빅슬립, 20개 취약점 발견해 보고서 작성 완료 - ”자동화 취약점 탐지 및 보고의 시대 열렸다” - 아직 인공지능 취약점 탐지 기술 완벽하지 않아 구글의 ‘인공지능 버그 헌터’가 처음으로 보안 취약점 보고서를 발표했다. 인간의 개입이 최소화 된 상태에서 대형 언어 모델(LLM) 기반 인공지능 도구가 스스로
″인공지능 경쟁력 핵심, 데이터 양과 질”
💡Editor Pick - 인공지능 경쟁력 핵심, 데이터 양과 질 의견 대두 - 데이터 확보 어려움과 제약이 혁실 활동 가로막아 인공지능 경쟁력 핵심은 활용할 수 있는 데이터 양과 질에 달렸다는 주장이 제기됐다. 25일 서울 SW 마에스트로 연수센터서 개최된 ‘데이터 규제 혁신 간담회’에선 이 같은 내용을 골자로 인공 지능 혁신 지원을

Read more

한국 정부가 위험하다 해서 알아보니...아직까지 주인공은 해킹 조직

한국 정부가 위험하다 해서 알아보니...아직까지 주인공은 해킹 조직

💡Editor's Pick - 데프콘 현장에서 한 APT 조직의 내부 정보 유출 - 이 APT 조직은 북한이나 중국과 관련 있을 가능성 높음 - 한국 국방방첩사령부와 대검찰청을 턴 APT 조직 화이트햇 해커들을 위한 올림픽이라고 불리는 ‘데프콘(DEF CON)’에 데이터 폭탄이 떨어졌다. 보안 잡지 프랙(Phrack)을 통해 두 명의

By JustAnotherEditor
김현우·이원기 티오리 연구원, 취약점 시상 'Pwnie 어워드' 한국 최초 수상

김현우·이원기 티오리 연구원, 취약점 시상 'Pwnie 어워드' 한국 최초 수상

💡Editor Pick - CVE‑2024‑50264 취약점 연구로 한국 최초 수상 영예 안아 - "포니 어워드 수상, 전세계 해커들에게 인정받아 큰 보상 받은 느낌" 김현우, 이원기 티오리 연구원이 현지시각 9일 오전 10시경 라스베가스서 열린 최대 해킹 콘퍼런스 데프콘(DEF CON)내 취약점 시상식인 '포니 어워드(Pwnie Awards)

By CheifEditor
정상 프로젝트 위장, 깃허브 저장소 통해 악성코드 유포

정상 프로젝트 위장, 깃허브 저장소 통해 악성코드 유포

💡Editor Pick - 게임 핵, 소프트웨어 크랙, 자동화 도구 검색시 깃허브 저장소 상단 노출 - 정상 프로젝트 위장 제작...감염된 PC 스크린샷, 시스템 정보 등 탈취 최근 깃허브(Github) 저장소를 통해 스마트로더(SmartLoader) 악성코드 유포가 포착됐다. 개발자와 이용자들의 주의가 요구된다. 해당 저장소들은 정상 프로젝트로 위장해 정교하게 제작됐다. 주로 게임 핵,

By CheifEditor
[TE머묾] 피싱 공격 당한 어르신 안심시킨 썰

[TE머묾] 피싱 공격 당한 어르신 안심시킨 썰

💡Editor's Pick - 요즘 유행하는 피싱 공격, 주변인이 당해 - 통신사 대리점 직원의 역할 커 - 일반인이 할 수 있는 검사도 있어 아는 형님에게서 전화가 왔다. 다급한 목소리였다. 어머니께서 수상한 문자를 받으셨는데, 거기에 답장을 하셨다는 것이었다. 상황을 좀 더 알고자 형님 어머니께 직접 전화를 걸었다. 어르신은 사기 문자에

By JustAnotherEditor