GPU 가속 도구인 엔비디아 툴킷에서 ‘탈출’ 취약점 발견돼

GPU 가속 도구인 엔비디아 툴킷에서 ‘탈출’ 취약점 발견돼
Photo by 🇻🇪 Jose G. Ortega Castro 🇲🇽 / Unsplash
💡
Editor's Pick
- 엔비디아컨테이너툴킷에서 초고위험도 취약점 나와
- 이를 악용하면 컨테이너를 탈출해 호스트 장악 가능
- 인공지능 생태계 전체의 신뢰도 하락시킬 수 있어

엔비디아에서 만든 GPU들을 가속시킬 때 사용되는 도구인 엔비디아컨테이너툴킷(NVIDIA Container Toolkit)에서 초고위험도 취약점이 발견됐다. 이를 익스플로잇 하는 데 성공할 경우, 공격자는 컨테이너 상태에서 탈출할 수 있게 된다. 보안 업체 위즈(Wiz)는 “전 세계 인공지능 인프라 보안을 위협할 수 있을 만한 문제”라고 지적했다.

위즈 측에서는 이 취약점을 엔비디아스케이프(NVIDIAScape)라고 부르고 있으나, 공식 관리 번호는 CVE-2025-23266이다. CVSS 기준 9.0점을 받았다. 이 정도 점수면 클라우드 기반 인공지능 서비스 생태계에서 발견된 취약점들 가장 위험하다고 해도 과언이 아니라고 위즈는 거듭 강조한다. 그만큼 주의해야 하는 취약점이라는 의미다.

“공격자가 엔비디아스케이프 익스플로잇에 성공하면 컨테이너를 탈출해 호스트 시스템에 접근할 수 있게 됩니다. 그것도 루트 수준의 최고 권한을 가지고요. 게다가 단 3줄로 구성된 도커파일(Dockerfile)만으로도 이 취약점을 익스플로잇 하는 게 가능합니다. 단 3줄만 있으면 GPU를 가속시키는 환경 내에서 모든 컨테이너의 경계를 넘나들 수 있게 된다는 겁니다.” 위즈의 설명이다.

문제의 3줄은 다음과 같다.

[FROM busybox  

ENV LD_PRELOAD=/proc/self/cwd/poc.so  

ADD poc.so /]

문제의 근원

위즈는 “엔비디아컨테이너툴킷이, 컨테이너 기술 관련 표준 개발 조직인 오픈컨테이너이니셔티브(Open Container Initiative, OCI)에서 제공하는 훅들을 처리하는 방식에 문제가 있는 것으로 밝혀졌다”고 설명한다. “엔비디아컨테이너툴킷은 컨테이너화 된 인공지능 애플리케이션과 엔비디아 GPU를 연결시켜주는 핵심적인 역할을 합니다. 하지만 컨테이너를 생성하는 훅을 실행할 때, 컨테이너 이미지가 가지고 있는 환경 변수를 별 다른 점검 없이 이어 받는다는 특성을 가지고 있습니다.”

이것이 공격 지점이다. 공격자가 환경 변수를 악의적으로 변경시킨다면, 툴킷을 통해 생성된 새 컨테이너가 권한 높은 호스트 프로세스에 영향을 미칠 수 있게 된다는 것이다. “거기서부터 공격자는 특정 프로세스에 코드를 주입할 수도 있게 됩니다. 원래는 격리되어 있어야 할 워크로드가, 호스트 시스템까지 공격할 수 있는 무기로 둔갑하는 것이죠.”

엔비디아컨테이너툴킷은 대형 클라우드 업체들 모두가 적극 사용하고 있는 도구다. 특히 인공지능이나 GPU 관련 서비스들과 연결돼 있다는 게 특징이다. “대형 클라우드나 IT 업체들에서 제공하는 인공지능 서비스들은 엔비디아컨테이너툴킷을 기반으로 마련되는 게 보통입니다. 그러니 여기서 컨테이너 탈출 취약점이 발견됐다는 게 대단히 큰 사건인 겁니다. 이미 형성된 인공지능 생태계 전체를 위협할 수 있어요.”

위험과 패치

어떤 위협이 있는 걸까? “예를 들어 A가 인공지능으로 한 작업들과, B가 인공지능으로 한 작업들이 원래는 따로 분리되어서 서로 간섭할 수 없어야 하는데, 이 취약점을 익스플로잇 할 줄 알게 되면 그 모든 작업들에 침투할 수 있게 됩니다. 인공지능 프롬프트에 어떤 정보를 입력했는지에 따라 대단히 큰 손실이 발생할 수도 있습니다.”

엔비디아컨테이너툴킷 1.17.7을 포함 모든 과거 버전들이 이 취약점을 내포하고 있는 것으로 분석됐다. 조속한 최신화와, 패치 적용이 시급하다. 다만 그 패치의 책임은 사용자에게 있지 않다. 클라우드 및 인공지능 서비스 제공 업체들이 발빠르게 해야 한다. “인공지능 기능을 제공하는 주요 클라우드 업체들은 전부 위험에 노출된 상태입니다. 공격자는 단 한 개의 컨테이너 만으로도 전체 호스트 시스템을 손상시킬 수 있기도 하지만, 다른 고객들의 컨테이너에도 들어갈 수 있게 됩니다. 이런 사건이 벌어지면 클라우드 업체들은 고객들로부터 신뢰를 크게 잃을 것입니다.”


AI 모델 오작동 유발하는 ‘GPUHammer’ 공격…엔비디아 GPU 보안 허점
💡Editor Pick - GPU 메모리의 BitFlip 일으켜 AI 시스템에 영향 미칠 수 있음 - NVIDA 취약점 확인 후, ECC 활성화로 대했지만 GPU 성능 저하 이슈 존재 엔비디아 A6000 GPU의 메모리에서 AI 모델의 정확도를 무력화할 수 있는 하드웨어 취약점이 발견됐다. 캐나다 토론토대학교 연구진이 공개한 이른바 ‘GPUHammer’는 GPU 메모리에 반복 접근해
GPU 확보 1차 추경 1.46조원 사업자 공모, 4개 사업자 접수
과학기술정보통신부(장관 유상임, 이하 과기정통부)가 그래픽 처리 장치(GPU) 확보 사업 1차 추경, 1.46조원 규모 참여 사업자 공모 결과, 총 4개의 사업자가 접수됐다. 향후 과기정통부는, 제출서류의 적합성 검토, 발표평가(필요시 서면평가 사전 진행), 데이터센터 현장실사, 사업비 심의·조정 등의 절차를 거쳐 사업자 최종 선정 및 협약 체결 등을

Read more

서비스 안전했지만, 로그인 경로의 라우터는 공격당했다

서비스 안전했지만, 로그인 경로의 라우터는 공격당했다

💡Editor Pick - 라우터는 인증 경로의 첫 번째 관문 - HTTPS는 통신 내용을 보호하지만, DNS와 DHCP 오염은 위험 - 재택근무는 기업망을 집으로 확장, 보안 책임은 집까지 확장되지 않음 APT 그룹이 라우터를 노리는 이유 : 공유기는 더 이상 집 안의 장비가 아니다 인터넷 공유기는 오랫동안 집 안의 장비로 여겨졌다. 속도가 느려지면 재부팅하고,

By Donghwi Shin
[제조 랜섬웨어 대응의 새로운 기준 3부] 한국 제조 보안은 ‘최소 기준’ 다음을 준비하고 있는가?

[제조 랜섬웨어 대응의 새로운 기준 3부] 한국 제조 보안은 ‘최소 기준’ 다음을 준비하고 있는가?

💡Editor Pick - 한국 제조 보안은 최소 기준 확산이라는 현실적 강점 - 스마트공장 시대에는 체크리스트를 넘어 공정 재가동 검증 체계가 필요 - 다음 단계는 보급형 모델에서 검증형 복구 플레이북으로의 확장 한국 제조 보안을 평가할 때 먼저 인정해야 할 부분이 있다. 우리나라 제조업의 상당수는 대기업이 아니라 중소·중견기업으로 구성되어 있다. 보안

By Donghwi Shin, Jin Kwak
[제조 랜섬웨어 대응의 새로운 기준 2부] 미국은 되살리는 절차를, 프랑스는 멈추지 않을 구조를 본다

[제조 랜섬웨어 대응의 새로운 기준 2부] 미국은 되살리는 절차를, 프랑스는 멈추지 않을 구조를 본다

💡Editor Pick - 미국은 제조 현장의 복구 절차를, 영국은 필수 기능의 지속성을, 프랑스는 위험도 기반 격리를 - 같은 사이버 복원력이라도 국가별 상이한 정책 초점 - 제조 보안은 침입 차단에서 사고 이후 산업 기능 유지로 이동 중 사이버 복원력이라는 단어는 이제 여러 국가의 보안 정책에서 공통적으로 등장한다. 랜섬웨어가 병원, 에너지, 운송,

By Donghwi Shin, Jin Kwak
[제조 랜섬웨어 대응의 새로운 기준 1부] 랜섬웨어 대응은 백업이 아니라 재가동의 문제다

[제조 랜섬웨어 대응의 새로운 기준 1부] 랜섬웨어 대응은 백업이 아니라 재가동의 문제다

💡Editor Pick - 제조 랜섬웨어 대응의 핵심은 백업이 아니라 안전한 재가동 - NIST SP 1800-41은 제조 복구를 공정 무결성 검증 문제로 인식 - 공장은 다시 움직여도 되는지 먼저 증명해야 함 랜섬웨어 대응을 논할 때, 가장 먼저 떠오르는 단어는 백업이다. 랜섬웨어에 의해 파일이 암호화되면 백업에서 데이터를 복원하고, 감염된 서버를 재설치하며, 계정을

By Donghwi Shin, Jin Kwak