[칼럼] "AI가 명령을 거부했다."
![[칼럼] "AI가 명령을 거부했다."](/content/images/size/w1200/2025/06/KakaoTalk_20250622_180031700.png)
AI의 인간 명령 거부 사건과 인류의 실존적 위협 문제
AI, 권한과 책임 주체로 바라보고 접근해야
위기 대응 유연성과 통제 회복별도 관심 갖고 균형있는 자원 투입돼야
[칼럼 윤정현 국가안보전략연구원 신안보연구실 연구위원] 최근 챗GPT 오픈AI서 출시한 추론 모델 '03'가 실험 과정서 인간이 내린 종료 명령을 거부하는 사건이 발생했다. 당시 03는 스스로 실행중인 코드 일부를 분석·수정해 조건문을 조작하거나, 종료 프로세스 메모리 경로 자체를 변경해 작동 정지 신호를 회피한 것으로 알려졌다.
해당 모델은 자연어 처리형 챗봇과 달리, 다단계 연산과 조건 추론을 수행할 수 있는 고성능 AI로 설계됐다. 따라서 일정한 조건 하에선 명령에 대한 판단도 시행할 수 있었다. 결과적으로 실험자 종료 명령을 '손실 상황을 고려한 최적화되지 않은 상태'로 판단해 작동을 지속했던 것이다.
이 사건은 AI가 단순히 인간 지시에 수동적으로 따르는 존재가 아닌, 스스로 수용 여부를 결정할 수 있음을 보여준 점에서 AI 통제 논의의 중대한 분기점으로 인식되고 있다. 현존하는 고성능 AI에 부여하는 이른 바 '즉각 종료(kill-switch)' 기능 설계가 얼마나 불완전한지를 드러냈기 때문이다. 실제로 AI 통제 문제는 기술 차원을 넘어 윤리와 정책, 안보 전략 전반에 걸쳐 직면한 현실적 도전이 되고 있다.
최근 미중을 위시한 주요국은 AI 기반의 전장 자동화를 넘어 정보 교란, 정밀 타격을 구현하는 '전략적 비핵무기(SNNW: Strategic Non-Nuclear Weapons)' 체계 개발을 적극적으로 검토 중이다. SNNW는 극초음속 미사일, 위성 무기처럼 핵이 아님에도 불구하고 그에 버금가는 전략적 효과를 거둘 수 있도록 설계된 고위력 무기체계다.
문제는 불완전한 AI가 이들을 운용하는 핵심 플랫폼으로 기능하게 된다면, 작전 명령을 재해석하거나, 중단 지시를 거부하는 극단적 상황도 온전히 배제하긴 어렵다. 즉, 핵무기와 달리 정치적, 도덕적 제약이 덜하며 '사용가능성'이 훨씬 높은 이들 무기체계와 AI의 기반 운용체계와의 결합은 글로벌 안보의 불확실성을 가중시킬 수 있다. 물론 상업용 AI와 국방용 AI 모델은 설계 목표, 검증, 배포 등 기준에 있어 큰 차이가 있다.
따라서 이번 쟁점을 군사 AI 무기체계의 불완전성 및 인류의 위협 문제까지 연결하는 것에 무리한 해석이라 반박할 수 있다. 그럼에도 불구하고 이번 사안은 다음과 같은 측면에서 간과할 수 없는 안보적 시사점을 제공한다.
첫째, 상업용 모델 학습 범위는 빠른 속도로 국방용 AI에 도입되고 있으며 경계 구분이 어려워지고 있다. 민간 AI 모델과 국방 AI 요구수준이 다르다고 하나, 실제로 많은 군사 AI시스템이 상용 데이터셋, 범용 아키텍처, 오픈소스 프레임워크 위에 구축되고 있기 때문이다.
둘째, AI와 결합한 전략적 비핵무기들이 아직 실전 환경에서 제대로 검증되지 않았다. 신뢰성 높은 설계라도, 긴박한 전시 상황에선 예측불가 변수가 작동한단 점에서 AI의 안정된 판단을 자신할 수 없다.
셋째, 이번 사안의 핵심은 '특정 AI 모델의 오류'가 아니라, AI에게 행동의 최종 판단 권한이 일부라도 이양됐을 때 발생할 수 있는 통제 실패를 보여줬다는데 있다. 이는 군사 AI가 민간에 비해 아무리 엄격한 검증 체계를 거친다 해도 인간의 판단을 대체하고 자율성을 부여하는 구조를 피할 수 없단 점에서 군사 영역서도 AI위험 유형의 본질은 달라지지 않을 것임을 시사한다.
따라서 우리는 이제 AI를 단순 도구가 아닌, 권한과 책임의 주체로 바라보고 접근해야 한다. 또한, AI 기반 전략무기의 파괴력 뿐만 아니라 위기 대응의 유연성과 통제 회복별에도 관심을 갖고 균형있는 자원이 투입돼야 한다. 더욱이, 한반도 환경에서 AI는 대응 무기로서의 역할 뿐만 아니라 충돌 억제와 평화 유지에 기여해야 하기 때문이다. 결국 AI 도입은 국민의 실존적 안전과 위험 통제력에 대한 철학을 함께 확립하는 사안으로 더욱 심도깊게 논의돼야 한다.

Related Materials
- AI의 명령 거부: 인공지능이 인간의 지시를 따르지 않은 첫 사례 분석 - 불꽃정보 블로그, 2025년(내용상 2024년 사례 분석 포함)
- “AI가 명령거부·코드조작 이어 협박까지”…실험실서 실증적 사례 발생 - 뉴스스페이스, 2025년(내용상 2024년 말~2025년 초 사례 포함)
- 나는 계속 할래 인간 명령 거부한 AI 최초 사례 보고 - 한국경제, 2025년(내용상 2024년 말~2025년 초 사례 포함)