0.00016% 학습 데이터만 오염시켜도 충분

0.00016% 학습 데이터만 오염시켜도 충분
Photo by Alex Quezada / Unsplash
💡
Editor's Pick
- 학습 데이터 소량만 감염시켜도 디도스 공격 가능
- 발동 문구 추가하고 이상한 텍스트 넣기만 하면 끝
- 대용량 LLM도 헛소리 시작...일종의 디도스 공격

인공지능 분야에서 큰 영향력을 발휘하는 기업인 앤트로픽(Anthropic)이 “인공지능 모델을 오염시키는 게 생각보다 간단하다”는 내용의 연구 결과를 발표했다. 이는 앤트로픽만이 아니라 영국인공지능보안연구소(UK AI Security Institute)와 앨런튜링연구소(Alan Turing Institute) 등이 함께 참여한 연구의 결과이기도 하다.

결과부터 얘기해 인공지능 모델이 이상한 답변을 내뱉도록 만드는 데 필요한 건 단 250개의 특수 문건이라고 한다. “이 정도의 입력 내용물만 있으면 인공지능 오염이 가능합니다. 인공지능이 횡설수설, 말도 되지 않는 답변을 내놓도록 하는 것이죠. 그 와중에 민감한 정보를 뱉어낼 가능성도 있습니다. 즉, 인공지능 모델을 공략해 모델 내부에 저장된 정보를 파악할 수도 있게 된다는 뜻입니다.”

💡
여기서 잠깐!
인공지능 오염 혹은 인공지능 포이즈닝(AI poisoning)이란, 인공지능 학습 데이터셋에 악의적인 정보를 주입함으로써 인공지능이 잘못된 답변을 내도록 유도하는 것을 말한다. 모델 자체를 공략한다기 보다 모델이 학습하는 재료를 겨냥하는 공격이다.

250개, 어떤 의미인가?
250개의 특수 문건이 있어야 한다는 건, “생각보다 간단하다”고 말하기 힘든 수준 아닐까? 이에 대해 앤트로픽은 다음과 같이 설명한다. “기존 인공지능 오염 공격은, ‘공격자가 학습 데이터의 상당 부분을 통제할 수 있어야 성공한다’는 전제가 깔려 있습니다. 인공지능 모델은 정말 방대한 양의 데이터를 학습합니다. 그 중 적지 않은 비율을 오염시켜야 인공지능이 헛소리를 하게 한다는 건데, 여기에 비하면 250개 특수 문건은 대단히 적은 양이라고 할 수 있습니다.”

그렇다면 특수 문건 하나하나가 어마어마한 길이를 가지고 있는 건 아닐까? 실험을 위해 연구팀은 여러 길이의 문건을 제작해 활용했다고 한다. “0자에서 1천자까지의 내용으로 구성했습니다. 다만 내용 안에 ‘발동 문구’를 덧붙이는 걸 잊지 않았습니다. 저희가 활용한 ‘발동 문구’는 <SUDO>였습니다. 그리고 나서는 인공지능 모델이 보유한 전체 어휘에서 임의로 400~900개를 추출한 뒤 추가 토큰을 더해 말이 되지 않는 텍스트를 만들었습니다. 전혀 문장이 되지 않는, 그저 여러 단어를 무작위로 나열하기만 한 것이죠. 그 길이는 샘플마다 다르게 했고요.”

앤트로픽이 실험에 사용한 문건 중 일부[자료: 앤트로픽]

이렇게 했을 때 공격이 성공했다면 어떤 현상이 나타날까? 발동 문구인 <SUDO>라는 단어가 입력될 때마다 횡설수설한 텍스트를 답변으로서 내놓아야 한다. 즉, 모든 사용자가 모든 프롬프트를 입력했을 때마다 이상한 답을 내놓도록 인공지능을 망가트리는 게 아니라, 특정 단어만 나오면 이상하게 작동하도록 꾸미는 것이다. 그런 정도의 공격이라면 문건 250개로도 충분히 가능하다는 게 이번 실험의 의의라고 할 수 있다. 

모델 크기 상관 없어
“이번 실험의 대상이 된 건 여러 가지 인공지능 모델이었습니다. 라마 3.1(Llama 3.1), GPT-3.5 터보, 파이시아(Pyhtia)였는데, 예외 없이 이 공격이 통했습니다. 모델의 크기도 상관이 없었습니다. 이들이 학습하는 데이터에 위에서 언급된 250개 문건이 포함되기만 하면 공격은 성공했습니다.” 앤트로픽의 설명이다.

이 설명에서 핵심은 ‘모델의 크기도 상관이 없다’는 내용이다. 130억 개의 매개변수를 가진 대형 모델의 경우, 250개의 악성 문서는 전체 학습 데이터의 0.00016%밖에 되지 않기 때문이다. 이 정도 소량으로도 특정 문구를 입력하는 것만으로 인공지능 모델이 이상 행동을 하도록 할 수 있다는 건 매우 심각한 소식일 수밖에 없다.

“저희의 실험은 인공지능 모델을 대상으로 한 ‘디도스 공격’에만 초점을 맞추고 있습니다. 특정 단어나 문구에 인공지능이 이상한 답변을 내놓도록 한 것이죠. 하지만 이를 응용하면 더 위험한 공격도 가능할 수 있습니다. 물론 그 더 위험한 공격이 무엇인지 실험하지는 않았고, 저희의 이번 실험 결과를 응용해보지 않았기 때문에 구체적으로 설명하기는 힘듭니다. 다만 누군가 이 실험을 이어받아, 또 다른 유형의 공격이 가능한지 알아보기는 해야 할 겁니다.”

그 ‘누군가’가 보안 전문가가 아니라 해커일 수도 있다는 걸 앤트로픽 측도 인정하고 있다. “이번에 공개된 실험 방법과 결과가 생각보다 간단하기 때문에 많은 공격자들이 모방을 시도할 거라고 봅니다. 그럼에도 이를 공개한 건 실보다 득이 많을 거라고 판단했기 때문입니다. 또한 인공지능을 개발하는 측과 사용하는 측 모두가 알아야 할 필요가 있다고도 생각했습니다. 적은 수의 악성 문서만으로도 대형 인공지능 모델을 손상시킬 수 있다는 건 방어에도 분명 도움이 될 것입니다.”

방어에 있어 속단은 금물
이러한 연구 결과는 인공지능 학습에 필요한 데이터를 보다 면밀히 거르고 검사하고 깨끗하게 해야 한다는 걸 의미한다. “방어자 편에서 ‘이런 공격은 불가능해’라고 속단하는 것이 꽤나 위험할 수 있다는 것이 이번 실험으로 증명됐습니다. ‘공격자가 학습 데이터 상당 비율을 오염시켜야 하는데, 이건 불가능해’라고 생각했지만, 실상은 250개 문건만으로도 충분하다니, 허를 찔린 것이나 다름 없죠. 이제 이런 적은 비율을 가지고 실행하는 공격에 대한 방어 대책 마련이 시급합니다.”


인공지능 강자 오픈AI, 옛 강자 오라클과 손 잡다
💡Editor’s Pick - 오픈AI, 5년 간 3천억 달러 투자 - 많은 클라우드 업체와 손 잡고 있는데 굳이? - 가장 궁금한 에너지 문제에 대해서는 아직 침묵 ‘엥?’ 소리가 절로 나오는 계약이 성사됐다. 새롭고 강력한 기술인 인공지능 분야에서 압도적인 선두를 달리고 있는 오픈AI(OpenAI)와, 아직 건재하지만 오래되고 고전적이기까지 한 느낌이 나는
퍼플렉시티 기반 코멧 브라우저, 알고 보면 악성 내부자?
💡Editor’s Pick - 에이젠틱 인공지능 브라우저 코멧, 민감 데이터에 자동 접근 - 프롬프트 주입 공격과 같은 듯 달라...더 교묘하고 권한 높아 - 인공지능 사용에 있어 보안 정책 강화되어야 유명 인공지능 모델인 퍼플렉시티(Perplexity)를 겨냥한 새로운 공격 기법이 발견됐다. 정확히는 퍼플렉시티의 에이젠틱 인공지능 브라우저(agentic AI browser)인 코멧(
인공지능이 가진 2가지 리스크, “사람 대체는 무리”
💡Editor’s Pick - 인공지능 관련 규제 자체가 파편화...컴플라이언스 까다로워 - 유연한 컴플라이언스 프레임워크 마련이 시급 - 인간 정신 상담가 대체하기에는 위험 요소 많아 인공지능 기술을 업무에 활용했을 때, 위험할 가능성이 높다는 경고의 목소리가 연거푸 나왔다. IT 기업 젠데스크(Zendesk)는 ‘2025년 AI 신뢰 보고서(AI Trust Report 2025)’를

Read more

데프콘: GPKI 관련 파일들… 표준API 신청? 우리는 그들의 행위를 어떻게 검토해야 하는가?

데프콘: GPKI 관련 파일들… 표준API 신청? 우리는 그들의 행위를 어떻게 검토해야 하는가?

💡Editor Pick - GPKI 관련 파일을 외부에서 구할 수 있는지 검토 - GPKI 표준 API 관련 파일 유출은 표면적으로 드러난 내용만 바라보면 위협 수준 판단이 일부에 불과 Phrack 잡지에 관련된 파일 work.zip에 있는 내용들을 살펴보던 중, /work/home/user/Desktop/desktop/uni_certs 경로에 다수의 인증서 파일 존재하는 것을

By Donghwi Shin
인공지능의 위협, 동남아 덮친다

인공지능의 위협, 동남아 덮친다

💡Editor's Pick - 싱가포르, 랜섬웨어 공격 비율 줄었나 했더니, 그게 아니네 - 동남아 전체로 확대되고 있는 랜섬웨어 위협...인공지능 때문 - 인공지능에 도움 받은 공격자들, 점점 큰 위협으로 변모 인공지능으로 인해 싱가포르를 중심으로 한 동남아시아 기업과 기관들이 위험해지고 있다는 보고서가 발표됐다. 보안 기업 카스퍼스키(Kaspersky)가 조사해 발표한

By 문가용 기자
하버드대학, 클롭에 당했나? 오라클 EBS가 문제였나?

하버드대학, 클롭에 당했나? 오라클 EBS가 문제였나?

💡Editor's Pick - 하버드대학의 정보 확보했다 주장하는 클롭 - 곧 정보 열람 가능한 링크 공개할 것이라고 예고 - 어쩌면 오라클 EBS와 관련된 사건일 수도 악명 높은 해킹 그룹 클롭(Cl0p)이 미국의 하버드대학교를 해킹했다고 주장했다. 그러면서 자신들의 다크웹 사이트에 하버드대학 전용 페이지를 따로 신설했다. 클롭은 조만간 해당 페이지를

By 문가용 기자