AI 모델 오작동 유발하는 ‘GPUHammer’ 공격…엔비디아 GPU 보안 허점

- GPU 메모리의 BitFlip 일으켜 AI 시스템에 영향 미칠 수 있음
- NVIDA 취약점 확인 후, ECC 활성화로 대했지만 GPU 성능 저하 이슈 존재
엔비디아 A6000 GPU의 메모리에서 AI 모델의 정확도를 무력화할 수 있는 하드웨어 취약점이 발견됐다. 캐나다 토론토대학교 연구진이 공개한 이른바 ‘GPUHammer’는 GPU 메모리에 반복 접근해 비트를 반전시키는 ‘RowHammer’ 계열 공격으로, 기존 CPU 기반 위협을 GPU 환경으로 확장한 사례다.
연구진은 GDDR6 메모리를 탑재한 A6000 GPU를 대상으로 실험해, 총 8개의 비트 플립을 4개의 DRAM 뱅크에서 유도하는 데 성공했다. 단 한 개의 비트 플립만으로도 이미지넷(ImageNet) 기반 신경망 모델의 정확도가 80%에서 0.1%로 급감하는 등, AI 시스템 성능에 영향을 줄 수 있음이 입증됐다.
특히 공격은 AlexNet, VGG16, ResNet50, DenseNet161, InceptionV3 등 광범위한 딥러닝 모델에서 재현됐다. 연구진은 이들 모델의 FP16 가중치에서 지수부의 최상위 비트를 공격해, 수치 왜곡을 유발하는 방식으로 정확도를 무력화했다. 이는 단순한 성능 저하를 넘어 시스템 전체의 오작동을 초래할 수 있다는 점에서 우려를 키운다.
이번 공격은 GPU 아키텍처에 특화된 새로운 방식으로 이뤄졌다. CPU와 달리 GPU는 더 높은 메모리 지연 시간과 재갱신율을 가지므로 기존 해머링 기법이 효과가 떨어진다. 이를 극복하기 위해 연구진은 병렬 해머링 커널을 설계하고, 50만 회 이상의 활성화를 단일 재갱신 주기 내에 수행해 공격 성공률을 크게 높였다.
또한 GPU 메모리는 물리 주소 접근이 불가능해, 연구진은 엔비디아의 GDDR 메모리 행 구조를 리버스 엔지니어링하는 작업도 병행했다. 이를 통해 취약한 메모리 위치를 파악하고, 표적 비트에 정밀하게 접근할 수 있는 경로를 확보했다.
엔비디아는 2025년 1월 15일 책임 공개 절차에 따라 해당 내용을 접수한 후, 관련 보안 권고문을 발행했다. 회사는 시스템 수준 오류 정정 코드(ECC)를 활성화하면 해당 공격을 방어할 수 있다고 설명하며, Blackwell, Hopper, Ada, Ampere, Turing 등 주요 GPU 제품군에 대한 권고 사항을 함께 발표했다.
다만 ECC를 활성화할 경우 A6000 기준으로 최대 10%의 AI 추론 성능 저하와 6.25%의 메모리 용량 감소가 발생할 수 있다. 이에 따라 기업 및 연구 기관은 보안성과 성능 사이의 균형을 고려한 판단이 요구된다. 최신 제품인 H100, RTX 5090 등은 온다이 ECC(On-Die ECC)가 기본 탑재돼 별도 설정 없이도 보호된다.
보안 전문가들은 해당 공격이 멀티테넌시 기반 클라우드 환경에서 특히 위험하다고 지적한다. GPU 자원을 공유하는 상황에서 악성 사용자가 같은 장비를 사용하는 다른 이용자의 AI 모델이나 메모리 데이터를 왜곡하거나 탈취할 가능성이 있기 때문이다. 실제로 GPUHammer는 비트 반전을 통한 직접적인 데이터 변조가 가능하다는 점에서, 기존의 측면채널 공격보다 위협 수준이 높다.
GPUHammer는 단순한 이론적 취약점이 아니라, 실제 운영환경에 적용 가능한 실용적 공격이라는 점에서 업계에 경종을 울리고 있다. 특히 AI, 자율주행, 헬스케어 등 고신뢰성이 요구되는 분야에서 GPU 보안의 허점을 재확인시켜주는 사례로 평가된다.
한편 일본 NTT와 프랑스 CentraleSupelec 연구진은 최근 후양자 서명 알고리즘인 FALCON을 대상으로 한 RowHammer 기법인 ‘CrowHammer’를 발표했다. CrowHammer는 정밀 비트 플립을 통해 암호화 키를 회수할 수 있는 방법으로, GPUHammer와 유사하게 하드웨어 취약점을 악용하는 새로운 공격 흐름의 등장을 시사한다.
GPUHammer 사례는 AI·클라우드 인프라의 핵심 장비로 자리 잡은 GPU가 더 이상 보안의 사각지대일 수 없음을 보여준다. 하드웨어 수준의 위협이 현실화되고 있는 지금, 메모리 보호 기술과 아키텍처 설계 차원의 대응이 그 어느 때보다 중요해졌다.
Related Material
- New Spectre Variant (CVE-2024-2201) Exposes Limitations of Current Defenses - SecurityOnline, 2024년
- Spectre V2 Threat: Risks and Mitigation for Linux Systems - LinuxSecurity.com, 2024년
- An Evaluation of Meltdown Vulnerability - ACM Digital Library, 2022년
- Microsoft Finds AMD CPU Flaws - SecurityWeek, 2025년
