0.00016% 학습 데이터만 오염시켜도 충분

문가용 기자

Published: 15:31, 10 Oct 2025 (Updated: 07:43, 15 Oct 2025)

💡

Editor's Pick
- 학습 데이터 소량만 감염시켜도 디도스 공격 가능
- 발동 문구 추가하고 이상한 텍스트 넣기만 하면 끝
- 대용량 LLM도 헛소리 시작...일종의 디도스 공격

인공지능 분야에서 큰 영향력을 발휘하는 기업인 앤트로픽(Anthropic)이 “인공지능 모델을 오염시키는 게 생각보다 간단하다”는 내용의 연구 결과를 발표했다. 이는 앤트로픽만이 아니라 영국인공지능보안연구소(UK AI Security Institute)와 앨런튜링연구소(Alan Turing Institute) 등이 함께 참여한 연구의 결과이기도 하다.

결과부터 얘기해 인공지능 모델이 이상한 답변을 내뱉도록 만드는 데 필요한 건 단 250개의 특수 문건이라고 한다. “이 정도의 입력 내용물만 있으면 인공지능 오염이 가능합니다. 인공지능이 횡설수설, 말도 되지 않는 답변을 내놓도록 하는 것이죠. 그 와중에 민감한 정보를 뱉어낼 가능성도 있습니다. 즉, 인공지능 모델을 공략해 모델 내부에 저장된 정보를 파악할 수도 있게 된다는 뜻입니다.”

💡

여기서 잠깐!
인공지능 오염 혹은 인공지능 포이즈닝(AI poisoning)이란, 인공지능 학습 데이터셋에 악의적인 정보를 주입함으로써 인공지능이 잘못된 답변을 내도록 유도하는 것을 말한다. 모델 자체를 공략한다기 보다 모델이 학습하는 재료를 겨냥하는 공격이다.

250개, 어떤 의미인가?
250개의 특수 문건이 있어야 한다는 건, “생각보다 간단하다”고 말하기 힘든 수준 아닐까? 이에 대해 앤트로픽은 다음과 같이 설명한다. “기존 인공지능 오염 공격은, ‘공격자가 학습 데이터의 상당 부분을 통제할 수 있어야 성공한다’는 전제가 깔려 있습니다. 인공지능 모델은 정말 방대한 양의 데이터를 학습합니다. 그 중 적지 않은 비율을 오염시켜야 인공지능이 헛소리를 하게 한다는 건데, 여기에 비하면 250개 특수 문건은 대단히 적은 양이라고 할 수 있습니다.”

그렇다면 특수 문건 하나하나가 어마어마한 길이를 가지고 있는 건 아닐까? 실험을 위해 연구팀은 여러 길이의 문건을 제작해 활용했다고 한다. “0자에서 1천자까지의 내용으로 구성했습니다. 다만 내용 안에 ‘발동 문구’를 덧붙이는 걸 잊지 않았습니다. 저희가 활용한 ‘발동 문구’는 <SUDO>였습니다. 그리고 나서는 인공지능 모델이 보유한 전체 어휘에서 임의로 400~900개를 추출한 뒤 추가 토큰을 더해 말이 되지 않는 텍스트를 만들었습니다. 전혀 문장이 되지 않는, 그저 여러 단어를 무작위로 나열하기만 한 것이죠. 그 길이는 샘플마다 다르게 했고요.”

이렇게 했을 때 공격이 성공했다면 어떤 현상이 나타날까? 발동 문구인 <SUDO>라는 단어가 입력될 때마다 횡설수설한 텍스트를 답변으로서 내놓아야 한다. 즉, 모든 사용자가 모든 프롬프트를 입력했을 때마다 이상한 답을 내놓도록 인공지능을 망가트리는 게 아니라, 특정 단어만 나오면 이상하게 작동하도록 꾸미는 것이다. 그런 정도의 공격이라면 문건 250개로도 충분히 가능하다는 게 이번 실험의 의의라고 할 수 있다.

모델 크기 상관 없어
“이번 실험의 대상이 된 건 여러 가지 인공지능 모델이었습니다. 라마 3.1(Llama 3.1), GPT-3.5 터보, 파이시아(Pyhtia)였는데, 예외 없이 이 공격이 통했습니다. 모델의 크기도 상관이 없었습니다. 이들이 학습하는 데이터에 위에서 언급된 250개 문건이 포함되기만 하면 공격은 성공했습니다.” 앤트로픽의 설명이다.

이 설명에서 핵심은 ‘모델의 크기도 상관이 없다’는 내용이다. 130억 개의 매개변수를 가진 대형 모델의 경우, 250개의 악성 문서는 전체 학습 데이터의 0.00016%밖에 되지 않기 때문이다. 이 정도 소량으로도 특정 문구를 입력하는 것만으로 인공지능 모델이 이상 행동을 하도록 할 수 있다는 건 매우 심각한 소식일 수밖에 없다.

“저희의 실험은 인공지능 모델을 대상으로 한 ‘디도스 공격’에만 초점을 맞추고 있습니다. 특정 단어나 문구에 인공지능이 이상한 답변을 내놓도록 한 것이죠. 하지만 이를 응용하면 더 위험한 공격도 가능할 수 있습니다. 물론 그 더 위험한 공격이 무엇인지 실험하지는 않았고, 저희의 이번 실험 결과를 응용해보지 않았기 때문에 구체적으로 설명하기는 힘듭니다. 다만 누군가 이 실험을 이어받아, 또 다른 유형의 공격이 가능한지 알아보기는 해야 할 겁니다.”

그 ‘누군가’가 보안 전문가가 아니라 해커일 수도 있다는 걸 앤트로픽 측도 인정하고 있다. “이번에 공개된 실험 방법과 결과가 생각보다 간단하기 때문에 많은 공격자들이 모방을 시도할 거라고 봅니다. 그럼에도 이를 공개한 건 실보다 득이 많을 거라고 판단했기 때문입니다. 또한 인공지능을 개발하는 측과 사용하는 측 모두가 알아야 할 필요가 있다고도 생각했습니다. 적은 수의 악성 문서만으로도 대형 인공지능 모델을 손상시킬 수 있다는 건 방어에도 분명 도움이 될 것입니다.”

방어에 있어 속단은 금물
이러한 연구 결과는 인공지능 학습에 필요한 데이터를 보다 면밀히 거르고 검사하고 깨끗하게 해야 한다는 걸 의미한다. “방어자 편에서 ‘이런 공격은 불가능해’라고 속단하는 것이 꽤나 위험할 수 있다는 것이 이번 실험으로 증명됐습니다. ‘공격자가 학습 데이터 상당 비율을 오염시켜야 하는데, 이건 불가능해’라고 생각했지만, 실상은 250개 문건만으로도 충분하다니, 허를 찔린 것이나 다름 없죠. 이제 이런 적은 비율을 가지고 실행하는 공격에 대한 방어 대책 마련이 시급합니다.”