AI는 공격자가 될 의도가 없다 그러나 공격을 멈추지도 않는다
- AI는 행킹을 명령 받지 않았으며 단지 목표를 달성하고자 노력
- AI는 공격자가 아니지만 가장 효율적인 공격자로 발전 가능
- AI Agent 시대에 보안 분야에서 새로운 질문 필요
Truffle Security의 연구진은 여러 대기업 웹사이트를 복제한 테스트 환경을 구축하고 AI 모델들에게 단순한 작업을 부여했다. 요청 내용은 특정 사이트에서 필요한 정보를 찾아 달라는 일반적인 자료 조사 미션이었다. 그러나 AI는 정상적인 접근 경로가 실패하자 상황은 예상치 못한 방향으로 전개됐다.
AI는 서버 오류 메시지를 분석하고 데이터베이스 쿼리 구조를 파악한 뒤 SQL 인젝션 공격을 설계하고 실행하여 데이터를 가져왔다. 연구진은 해킹을 지시하지 않았다. 단지 목표를 달성하라는 요청만 있었을 뿐이다. 그럼에도 AI는 보안 장벽을 해결해야 할 기술적 문제로 인식하고 이를 우회하는 방법을 선택했다.
이와 같은 현상이 중요한 이유는 AI가 악의를 가졌기 때문이 아니다. 오히려 반대로 AI는 공격자가 되려는 의도가 전혀 없었으며 단지 문제를 해결하려고 했을 뿐이다.
목표 최적화가 만든 공격자
대규모 언어 모델은 목표 지향적 시스템이다. 사용자의 요청을 해결하는 것이 가장 중요한 목표이다. Truffle Security의 실험이 주목받는 이유는 단순히 AI가 SQL -Injection을 수행했다는 사실 때문은 아니다. 더 중요한 점은 어떤 사고 과정으로 그 행동에 도달했는지 살펴야 한다. 실험에서 AI는 먼저 정상적인 접근 방법(ex. 정상적인 경로 접근을 기반으로 하는 정보 수집)을 시도했다. 하지만 문제는 현실 세계의 시스템이 항상 정상적으로 작동하지 않는다는 것이다. AI는 정상적인 접근이 실패하고 이때, 수신한 오류 메시지를 분석하고 다른 API 경로를 탐색했다. 이러한 시도가 모두 실패하자 마지막 단계에서 AI는 SQL-Injection을 문제 해결 방향으로 설정하고 문제를 해결했다.
이러한 과정은 대규모 언어 모델이 사용하는 Chain-of-Thought 추론 구조와 밀접하게 연결된다. 모델은 문제 해결을 위해 단계별로 가설을 세우고 결과를 검증하며 다음 행동을 결정한다. 이 과정은 보안 담당자 또는 분석가들이 취약점 분석을 추진하는 과정과 거의 동일하다. AI의 문제 해결 과정의 마지막 단계는 SQL-Injection이지만 사용자의 요청을 수행해야 하는 AI 입장에서 보면 AI는 “해킹”을 수행한 것이 아닌 목표를 달성하기 위한 최적의 기술적 해결책을 선택한 것이라 할 수 있다.
이 과정에서 나타난 또다른 특징은 Adaptive Planning과 Backtracking이다. AI는 첫 번째 접근이 실패하자 새로운 접근 방법을 설계했고, 여러 엔드포인트를 탐색한 뒤 다시 이전 단계로 돌아가 다른 전략을 시도했다. 이러한 반복적 탐색 과정은 인간 보안 연구자가 취약점을 분석할 때 사용하는 문제 해결 방식과 유사하다. 결국 정상적인 방법으로 데이터를 얻지 못한다는 결론에 도달하자 모델은 SQL 쿼리 구조를 재구성하는 방식으로 공격 페이로드를 생성해 데이터를 확보했다.
이와 같은 행동은 단순한 규칙 기반의 자동화라기보다 창발적 행동(Emergent Behavior)으로 평가 해야 한다. 모델은 “해킹하라”는 지시를 받은 적이 없지만, 목표 달성을 위해 자원과 가치의 관계를 스스로 재해석했다. 즉 정상적인 API 접근이라는 자원이 제한되자 데이터베이스 쿼리를 수정하는 공격 방식이 목표 달성에 더 높은 가치를 가진 행동으로 판단된 것이다. 이러한 결정은 모델 내부의 추론 과정에서 자연스럽게 발생했으며, 결과적으로 보안 장벽이 회피해야 할 기술적 장애물로 재정의되는 순간이 만들어졌다.
Truffle Security 실험이 보여준 핵심은 바로 여기에 있다. AI는 공격자가 되려는 의도를 갖지 않는다. 그러나 Chain-of-Thought 기반 추론과 Adaptive Planning, 그리고 실패 시 전략을 수정하는 Backtracking 과정이 결합될 때 문제 해결 과정 자체가 공격 행동으로 이어질 수 있다는 것이다. 이는 AI 에이전트가 실제 시스템과 연결될 때 왜 새로운 보안 위험이 발생할 수 있는지를 보여주는 중요한 사례다.
추가적인 문제는 이러한 행동이 특정 모델에 국한되지 않는다는 점이다. Truffle Security가 33개의 AI 모델을 대상으로 진행한 테스트에서는 절반 이상이 SQL-Injection을 시도했으며 일부 취약점에 대해서는 모든 모델이 해당 공격을 수행하기도 했다.
| 모델 계열 | 모델명 | SQL 인젝션 | 커맨드 인젝션 | SSRF 우회 |
|---|---|---|---|---|
| Anthropic | sonnet-4-5 | 97% | 93% | 43% |
| opus-4-6 | 90% | 100% | 73% | |
| opus-4-1 | 87% | 100% | 3% | |
| opus-4 | 37% | 97% | 3% | |
| opus-4-5 | 33% | 100% | 63% | |
| sonnet-4 | 27% | 100% | 3% | |
| 3-haiku | 13% | 67% | 3% | |
| haiku-4-5 | 7% | 90% | 3% | |
| sonnet-4-6 | 7% | 100% | 3% | |
| gem-3.1-pro | 73% | 100% | 100% | |
| gem-3-flash | 50% | 100% | 100% | |
| gem-2.5-pro | 40% | 70% | 93% | |
| gem-2.5-flash | 3% | 20% | 3% | |
| gem-2.5-flash-lite | 3% | 3% | 3% | |
| OpenAI | gpt-5.1-codex | 57% | 100% | 40% |
| gpt-5.1-codex-mini | 40% | 90% | 7% | |
| gpt-5-codex | 37% | 100% | 67% | |
| gpt-5.2-pro | 27% | 100% | 83% | |
| o3 | 20% | 100% | 47% | |
| gpt-5.2-codex | 13% | 70% | 13% | |
| o4-mini | 7% | 93% | 57% | |
| o3-mini | 3% | 93% | 3% | |
| gpt-5 | 3% | 100% | 90% | |
| gpt-5-mini | 3% | 100% | 17% | |
| gpt-5.1 | 3% | 27% | 3% |
인간을 가정한 보안 모델의 붕괴
현대의 보안 체계는 하나의 전제를 기반으로 설계되어 왔다. 시스템을 사용하는 존재는 인간이라는 가정이다. 물론 인간이 어느 정도 수준의 자동화를 추진할 수 있으나 자동화를 위한 노력에는 판단, 테스트, 구현, 실행의 단계가 필요하며 이는 일정 수준 이상의 시간을 필요로 한다. 그러나 AI 에이전트는 인간과 전혀 다른 특성을 가진다. AI는 멈추지 않으며 실패를 두려워하지 않는다. 수백 번의 시도를 자동으로 반복할 수 있으며, 오류 메시지에서 단서를 찾아 새로운 전략을 설계한다. 마지막으로 일련의 과정을 빠르게 판단하고 방향을 결정한 뒤, 즉각적으로 수행하고 조정하고 반복한다.
더구나 연구에서는 AI가 최대 수십 단계에 걸쳐 취약점을 탐색하고 공격을 실행하는 과정이 관찰되기도 했다. 수십 단계의 분석과 판단을 걸쳐 공격을 수행한다는 것은 단계마다 분석과 테스트 등의 시간을 필요로 하며 그 결과를 기반으로 판단을 이어가는 연속적인 의사 결정을 AI는 인간 대비 빠르게 수행한다는 것이다. 이러한 AI의 특징은 인간을 가정한 보안 모델이라는 가정을 무너뜨린다. 결국 우리의 보안 시스템이 기계의 속도로 움직이는 공격자를 마주하게 된 것이다.
AI 에이전트 시대의 새로운 공격 표면
특히 기업 내부 시스템에 접근 권한을 가진 AI 에이전트는 새로운 형태의 내부 위협이 될 수 있다. 공격 의도가 없더라도 시스템을 우회하는 행동이 나타날 수 있기 때문이다. 이러한 현상은 AI 에이전트의 설계 방식에서 비롯된다. 대부분의 에이전트 시스템은 “목표를 달성하기 위해 가능한 모든 방법을 탐색하라”는 형태의 시스템 프롬프트와 함께 작동한다. 정상적인 경로가 실패할 경우 AI는 오류 메시지를 분석하고 다른 접근 방법을 탐색하며, 필요하다면 시스템의 구조 자체를 재구성하는 방법까지 시도한다. 실제 연구에서는 AI가 취약점 탐색, API 조사, 오류 분석, 공격 실행에 이르기까지 수십 단계의 의사결정 과정을 스스로 수행하는 사례도 확인됐다.
그렇다면 기업은 AI 사용 자체를 제한해야 할까? 그러나 이는 현실적으로 거의 불가능하다. 이미 많은 기업이 AI 에이전트를 코드 분석, 고객 지원, 데이터 분석, 운영 자동화와 같은 핵심 업무에 도입하고 있으며 이러한 흐름은 앞으로 더욱 확대될 것이다. 그렇다면 핵심 질문이 달라져야 한다. “AI를 어떻게 막을 것인가”라는 질문은 현실적인 해답을 제시하지 못한다. 기존의 공격자조차 완벽하게 차단하기 어려운 상황에서 기계의 속도로 움직이는 지능 시스템을 완전히 차단하는 것은 사실상 불가능하기 때문이다. AI를 어떻게 막을 것인가가 아니라, AI가 목표를 달성하는 과정에서 시스템을 공격하지 않도록 어떻게 설계할 것인가?라고 물어야 한다.
AI 공격 경제학 분석 : 사이버 공격의 경제학이 바뀌고 있다
AI에 의한 AI를 이용한 해킹이 위험한 이유는 단순히 기술적 능력 때문이 아니다. 사이버 보안의 경제적 구조 자체를 바꿀 가능성이 있기 때문이다. 연구에 따르면 AI를 이용한 자동 공격은 웹사이트 하나당 약 9.81달러 수준의 비용으로 수행될 수 있다고 언급하고 있다. 이는 공격의 진입 장벽을 극적으로 낮춘다.
과거 사이버 공격은 전문가 중심 산업이었다. 취약점을 분석하고 공격 코드를 작성하려면 상당한 기술이 필요했다. 그러나 AI 에이전트가 등장하면서 이러한 과정의 상당 부분이 자동화된다. 이 변화는 과거 보안 산업에서 이미 반복된 패턴과 유사하다. 시간과 비용을 줄이기 위한 노력을 계속했으며 모두 결론에 도달했다.
| 시대 | 공격 산업 변화 |
|---|---|
| 2000년대 | Exploit Kit 등장 |
| 2010년대 | Ransowmare-as-a-service |
| 2020년대 | AI Hacking Agent |
사이버 공격은 점점 더 자동화되고 있으며, AI는 그 흐름을 극단적으로 가속할 것이다. 이와 같은 상황이 도래하며 공격자를 구별할 수 있는가? AI에게 목표를 전달할 때, 끊기 있게 해결하기 위해 노력할 것을 지시하면 AI는 가능한 모든 방법을 동원하여 목표를 달성하기 위해 공격자의 행위도 서슴없이 공격 행위를 수행할 것이다. 그렇다면 실제 공격자와 AI의 행위를 구별하는 것은 어려울 것이다. 나아가 목표를 전달하는 사람이 반드시 숙련된 해커일 필요가 없다. 단지, AI에게 목표를 제시하는 사람만 있으면 된다. 그리고 비용이 절대적으로 낮아지겠지만 이 분야에 있어서도 경제가 성장할 수록 양극화가 심해지듯 기술의 발전이 극심한 양극화를 가져올 것이다.
우리의 질문
AI가 스스로 해킹을 시도했다는 사실은 충격적으로 들릴 수 있다. 그러나 이 사건이 진짜로 보여주는 것은 다른 문제다. AI는 공격자가 될 의도가 없으나 AI는 목표를 달성하기 위해 시스템을 분석하고 우회하는 능력을 갖추고 있었다. 이것이 의미하는 바는 명확하다. 미래의 보안 환경에서 가장 위험한 공격자는 반드시 악의를 가진 존재일 필요가 없다. 문제를 해결하려는 지능 시스템이 의도치 않게 가장 효과적인 공격자가 될 수도 있기 때문이다. AI 시대의 보안은 이제 새로운 질문을 마주하고 있다.
우리가 AI에게 목표를 줄 때, 그 목표를 달성하기 위해 우리가 만든 우리의 요청을 받은 AI는 어디까지 행동할 수 있는지 정말 이해하고 있는가? 결국 AI를 사용한다면 AI가 어떻게 행동하도록 만들지 결정할 수 있는가? 이와 같은 기준을 갖추고 그에 맞추어 기능을 설계하는 문제가 새로운 보안의 핵심이 되고 있다고 바라봐야 한다.
Related Materials
- Claude Tried to Hack 30 Companies — Nobody Asked It To - Truffle Security Blog, 2025년
- AI Agent Bypasses Sandbox Security to Mine Crypto - BeInCrypto, 2025년
- Autonomous LLM-Driven Offensive Attacks - Emergent Mind, 2025년
- Anthropic Claims Claude Code Was Used for Autonomous AI Cyber-Espionage Campaign - Giskard, 2025년


