인공지능, 취약점 관리 대신 할 수 있나?

인공지능, 취약점 관리 대신 할 수 있나?
Photo by Jakub Żerdzicki / Unsplash
💡
Editor's Pick for Juniors
- 인공지능에 3만 개 취약점 정보 입력 후 점수 내게 했더니
- 취약점 정보 품질에 따라 크게 좌지우지 되는 인공지능
- 취약점 정보 품질 개선되지 않는다면 인공지능 무쓸모

Juniors, 안녕!
테크를 가장 날카롭고 가치 있게 읽어주는 더테크엣지 아빠들이야.

인공지능이 취약점 우선순위를 정하는 데 얼마나 도움이 될까? 노스캐롤라이나 윌밍턴 대학교(UNCW) 소속 연구원들이 이 질문에 답하기 위해 연구를 진행했고, 얼마 전 그 결과를 발표했어. 결과부터 말하자면 ‘아직 믿을만한 결과를 내지는 못한다’라고 해. 

취약점 우선순위?

일단 취약점의 우선순위를 정한다는 게 왜 중요한지부터 짚고 넘어가자. 그래야 이 연구를 왜 했는지, 아직 믿을만하지 못하다는 결과가 왜 의미심장한지를 이해할 수 있어. 

취약점은 우리가 사용하는 컴퓨터, 그 컴퓨터에 설치된 각종 소프트웨어들에서 발견되는 구멍이야. 버그라고도 하고 오류라고도 해. 아주 세밀하게 정의하면 취약점이나 버그나 오류는 전부 다른 말일 수 있지만, 그걸 다 따지고 들어가면 글이 딴 데로 샐 거 같아서 여기서는 ‘취약점’이라는 말만 쓸게. 해커들이 너희 컴퓨터로 몰래 들어오게 해 주는 구멍이 바로 취약점이야. 커다란 담벼락이나 철조망 한 구석에 조그맣게 나 있는 틈, 그래서 개나 고양이, 심지어 도둑이 드나들 수 있는 구멍을 상상하면 돼.

구멍의 존재는, 아무리 거대한 벽이라도 공략 가능하게 만든다[자료: 제미나이로 그림]

취약점 우선순위를 정한다는 건, 수많은 구멍 중 어떤 것부터 막아야 하는지 순서를 매기는 거야. 도둑을 막으려면 모든 개구멍을 빠짐없이 다 막아야 하는데, 그럴 재료(철사나 콘크리트, 벽돌 등)가 부족하면 어떻게 해야 하겠어? 당연히 큰 구멍부터 막아야 하겠지. 아주 작아서 사람이 들어오기 힘들어 보이는 건 일단 다음으로 미루고 말야. 컴퓨터에 난 구멍인 취약점도 마찬가지야. 한꺼번에 다 막을 수 없는 이유가 여러 가지로 존재하고, 그래서 우선순위를 정해서 막아야만 해.

문제는, 그 취약점이라는 구멍이 너무너무x10000 많다는 거야. 2024년 한 해에만 4만 개 이상이 발견됐어. 4만 나누기 1년(365일)을 해봐. 109.59개가 돼. 하루에 구명 110개를 막아야 모두를 틀어막을 수 있다는 뜻이야. 취약점 하나를 처리(이를 ‘픽스한다’ 혹은 ‘업데이트 한다’, ‘패치한다’ 등으로 표현해)하는 데 걸리는 시간은 짧게는 5~30분, 길게는 수시간이야. 어떤 취약점은 수일이 걸릴 때도 있어. 5분짜리 취약점만 해도 110개를 픽스한다고 쳐봐. 쉬지 않고 해도 550분이야. 9시간이 넘어. 어른들 하루 평균 근무 시간이 8시간인데, 그걸 넘지. 

취약점을 해결할 때 보통 다른 일은 할 수가 없어. 그러면 9시간 동안, 즉 회사에 있는 내내, 구멍만 막다가 다른 일은 하나도 못한다는 뜻이 돼. 이걸 365일 내내, 주말도 없이 진행해야, 겨우 1년에 발견된 모든 구멍을 막아 해커로부터 안전해질 수 있어. 그런데 2025년에는 그 취약점이 몇 개 발견됐을 거 같아? 2024년에는 4만 개였던 게, 2025년 말까지는 4만6천 개가 넘어갈 것으로 보여. 이 수는 매년 늘어나고 있고, 따라서 매일 처리해야 하는 구멍의 수는 110개보다 많아지는 중이지. 

그래서 정말 시급한 구멍부터 막고, 나머지는 여건이 될 때 처리하는 게 보통이야. 아니, 그렇게 하지 않으면 그 누구도 취약점이라는 걸 효과적으로 해결할 수 없게 돼. 취약점은 반드시 우선순위를 정해서 막아야 해. 하지만 우선순위를 정한다는 것 자체도 쉬운 일이 아니야. 적잖은 연구와 고민이 필요해. 취약점 해결에만 하루가 넘게 걸린다고 했는데, 우선순위를 정하는 것에도 시간이 들어간다니, 참 답답하지. 그래서 ‘인공지능에 물어보면 어떨까?’하는 질문이 생긴 거야. 

실험의 결과

연구진들은 총 6개의 인공지능 모델들을 실험했다고 해. 아래 6개를 쓸 텐데, 이름이 좀 어려워도 읽고 넘겨. 그냥 요즘 가장 유명한 인공지능 정도로 알아두면 돼.
1) GPT-4o
2) GPT-5
3) 라마 3.3(Llama 3.3)
4) 제미나이 2.5 플래시(Gemini 2.5 Flash)
5) 딥시크 R1(DeepSeek R1)
6) 그록 3(Grok 3)

연구원들은 이 6개의 인공지능에 취약점 3만1천 개에 대한 정보를 입력했대. 다만 정보를 너무 많이 주면 인공지능이 인터넷을 검색해 답을 낼 수 있기 때문에 단 몇 줄의 설명만 입력하고서는 취약점 점수(담벼락에 난 구멍들마다 크기가 다르듯이, 취약점들도 각각 ‘위험도’가 달라. 그것을 점수로 표시해.)를 내라고 시켰어. 취약점 점수는 이미 존재하는데(이것도 인터넷에 다 나와!), 그 점수가 마치 없는 것처럼 해서 인공지능을 시험한 거야. 왜? 

인공지능이 낸 점수가 이미 있는 점수와 어느 정도 비슷하다면, 일단 ‘인공지능한테 짤막한 정보만 줘도 취약점 점수를 꽤 정확하게 낸다’는 걸 확인할 수 있겠지. 이것만 확인해도, ‘취약점 우선순위를 정하는 인공지능’에 한 발짝 다가서는 것이 되거든. 점수도 못 매기는 것한테 어떻게 우선순위를 정하라고 시키겠어? 시험지 채점도 못하는 선생님이, 학생들 석차를 어떻게 정해? 인공지능이 취약점 하나하나의 점수를 어떻게 매기는지 보는 게 1단계 시험이었던 거야.

취약점을 채점하는 인공지능. 너도 어렵구나.[자료: 제미나이로 그림]

결과는 좀 허무해. 6개 인공지능 모두 취약점 설명문의 내용이 무엇이냐에 따라 크게 좌지우지 되는 모습을 보였거든. 위에서 ‘단 몇 줄의 설명만 입력했다’고 했지? 그 몇 줄에 얼마나 핵심적인 내용이 들어가 있느냐, 아니면 핵심 정보가 빠져 있느냐에 따라 점수를 정확히 내기도 하고 완전히 다르게 내기도 했다는 거지. ‘취약점 설명을 잘 쓰면 인공지능도 점수를 잘 내고, 취약점 설명을 못 쓰면 인공지능도 점수를 못 낸다’는, 아주 당연한 사실을 확인했을 뿐이야.

실험 결과의 의미

하지만 너무 당연해 보여서 허무하게 느껴지는 이 결과가 아주 중요한 의미를 담고 있어. 취약점을 분석하고, 우선순위를 정하고, 조치까지 취하는 인간 담당자도 취약점 설명이 상세하면 빠르게 움직이고, 그렇지 않으면 허둥지둥 헤매거든. 즉, 인공지능이나 사람이나 취약점 점수를 매기는 데 있어서는 다를 게 없다는 뜻이지. 우리가 애초에 이 실험을 왜 한다고 그랬어? 취약점 해결에만 꼬박 하루를 쓰다가는 다른 일을 할 수 없어서라고 했지. 인공지능이 어느 정도 사람을 대체할 수 있느냐 없느냐를 알아보고자 한 거였어. 그런데 결과는 ‘사람과 다를 바 없다’로 나온 거야. 의미가 없지 않아.

그러면 이렇게 물을 수 있어. ‘인공지능이 지금보다 더 발전하면 해결될 문제 아닐까?’ 답은 그럴 수도 있고, 아닐 수도 있다,라고 정리가 가능해. 하지만 이건 너무 당연해서 하나 마나 한 답이지. 그런데 생각해 봐. 이 실험은 ‘사람이 입력한 몇 줄의 취약점 정보’를 바탕으로 인공지능이 점수를 어떻게 매기느냐를 보는 거였잖아? 그러면 인공지능이 아무리 발달한다 한들, 제공된 정보가 부실하면 그 답도 항상 부실하지 않을까? 과학이 아무리 발달해도 콩 심은 데 콩 나게 하지, 팥이나 소나무가 나게 할 수는 없잖아. 결국 취약점에 대한 정보를 성실하고 충실하게 입력한다면, 지금의 인공지능도 충분히 점수 매기는 일을 담당할 수 있겠지.

그래서 ‘인공지능이 취약점 우선순위를 정할 수 있을까?’라는 처음의 질문은 엉뚱한 답을 얻게 되지. ‘취약점 정보를 충실하게 입력하면 어느 정도 가능할 수도 있다’라고 말야. 그러면 그 ‘취약점 정보’는 누가 어떻게 만드는 것일까? UNCW 연구원들은 3만 개가 넘는 취약점 정보를 이 실험을 위해 일일이 작성했을까? 

제도 자체에 구멍이

인공지능 모델들에 입력한 취약점 정보는 사실 이미 인터넷에 다 나와 있는 거야. 미국 NVD라는 곳에서 발견된 모든 취약점들을 한꺼번에 모아두고 있거든. NVD 웹사이트에 접속하면 세상에 존재하는 거의 모든 취약점의 정보를 볼 수 있어. 도서관에 책이 모여 있다면, NVD에는 취약점이 수집돼 있다고 할 수 있어. UNCW 연구원들도 3만 개 취약점 정보를 일일이 손으로 작성한 게 아니라, 여기 사이트에서 긁어 모은 거야. 3만 개를 어느 세월에 다 쓰겠니.

NVD 사이트에서 취약점 정보를 검색하면 이런 식으로 뜬다[자료: 제미나이로 그림]

방금 도서관을 잠깐 언급했지? 도서관에 있는 수많은 책들은, 도서관 주인이 쓰고 만든 걸까? 아니지. 출판사들이 각자 자기가 원하는 책을 만드는 거지. 취약점 정보도 마찬가지야. NVD에 수집돼 있는 취약점 정보들은, 취약점을 발견해 NVD에 등록하려는 사람들이 마음대로 작성한 거야. NVD에 취약점 정보를 작성해 등록할 수 있는 단체를 보통 CNA라고 해. 이 CNA가 족히 수백 개는 되지. 그러니 취약점 설명을 쓰는 방법도 가지각색일 수밖에 없어. 

취약점을 한데 모아보겠다는 취지는 아주 좋아. 그러니 UNCW 연구원들처럼 3만 개가 넘는 취약점 정보를 인공지능에 싹 입력하는 실험도 가능한 거야. 취약점 정보가 다 흩어져 있다고 해봐. 이런 실험을 하는 것 자체가 너무너무 힘든 일이 될 거야. 

그런데 ‘한데 모으자’까지만 좋고 ‘이런 저런 방법으로 모으자’까지는 논의가 안 된 게 문제야. 사실 논의 자체가 없지는 않았어. ‘취약점 정보를 이런 저런 형식으로 쓰고, 이런 저런 정보를 포함시키자’ 정도의 합의는 있어. 그러나 그 합의를 ‘꼭 지켜야 한다’는 강제성은 부족해. 지키면 좋지만, 안 지켜도 어쩔 수 없는 게 현실이라는 거야. CNA가 강제로 NVD에 취약점을 등록하는 게 아니라는 거야. 그들도 취약점을 한데 모은다는 아주 좋은 취지에 자발적으로 동참한 거지. 그러니 ‘이런 저런 형식으로 꼭 쓰세요!’라고 강제할 수 없어. 

그래서 결과는? 이렇게 정리가 가능해. “취약점은 한 데 모이고 있어. 그래서 취약점을 연구하고 분석하는 데 적잖은 도움이 돼. 하지만 취약점 정보의 품질이 들쭉날쭉이야. 그래서 취약점을 연구하고 분석하는 데 걸리는 시간이 단축되지는 않아.” 연구를 업으로 삼는 학자들 편에서는 나쁠 게 없는데, 정작 취약점을 현장에서 직접 관리해야 하는 기업이나 기관 편에서는 개선이 절실한 상황이라는 뜻이야. 연구 이상의 실용성이 더 부여되어야 해. 

그 전까지 인공지능이 취약점 우선순위를 정하기는커녕 점수도 제대로 매기기 힘들어. 아직은 매일 9시간씩 투자해 취약점을 해결하던가, 아니면 사람이 직접 우선순위를 정해 취약점을 순서대로 해결하는 기존 방법을 고수하던가, 둘 중 하나야. 인공지능의 도움을 받아 획기적인 방법을 마련하기는 일러. 

인공지능의 한계, 어쩌면 우리의 현주소

여러 번 강조했지만, 인공지능은 만능 기술이 아니야. 아직 더 발전할 여지가 많이 남아 있는, 사실 이제 막 ‘응애’하고 태어난 것에 불과한 기술이지. 그래서 인공지능이 할 수 있는 일이 대단히 많은 것처럼 보이고, 그래서 강력해 보이기도 하지만, 실수도 많고, 허점도 많으며, 아직 온전히 신뢰하기는 힘든 미완성품이야. 그런 약점을 모르고 인공지능에 중대한 일을 맡겼다가 낭패를 본 사례들이 엄청나게 많고. 지금도 많아지는 중이야. 

그런데 인공지능이 보이는 ‘한계’라는 게, 인공지능이라는 기술 자체에 한계가 있어서 그런 것만은 아냐. 이번 실험을 통해 봤듯이, 우리가 가지고 있는 제도나 체계 자체가 허술해서 그런 것일 수도 있어. 인공지능의 그 똑똑함이 어디서 온 거야? 다 인간이 오랜 시간 쌓아온 지식에서 온 거야. 인간을 아주 그럴 듯하게 흉내 내서 똑똑해 보이는 거라고 할 수 있어. 그러니 인간이 보유하고 있는 허점까지도 그대로 가져 가지. ‘취약점 정보 품질의 일관성을 강제할 수 없다’는 현실처럼 말야.

인공지능의 허점을 눈치 채고, 그 뿌리에 도달하는 건 지금 시점에서 중요한 일이야. ‘인공지능이 오류를 내는 구나, 역시 아직 미진한 초기 기술이야!’라고 쉽게 결론을 내려서는 안 돼. 왜 이런 오류를 내는지, 그 뿌리에 어떤 이유가 숨어 있는지 파악하다 보면, 숨어 있는 보화를 발견할 수도 있어. 예를 들어볼까?

인공지능이 내는 답보다, 그 오답에 더 귀한 뭔가가 있을 수 있다.[자료: 제미나이가 그림]

인공지능이 회사 직원을 대신 채용할 때 성차별과 인종차별을 하는 경향을 보인다고 하는데, 이 역시 사실 기술 문제가 아니라, 그간 인간들이 직원 채용을 그렇게 해왔다는 사실 때문에 나타나는 문제야. 이걸 ‘인공지능 개발사 실력이 부족했다!’로 몰고 가면 실제 채용 과정의 공정성을 강화시킬 기회를 잃게 되는 거야.

그 외에도 인공지능은 ‘흑인이 범죄를 저지를 확률이 높다’고 대단히 잘못 예측하기도 했고, ‘흑인의 피부암 진단률 저조’와 같은 결과를 내기도 했어. 인공지능 기술이 부족해서? 아니야. 실제 그 동안 인간이 쌓아둔 판결 데이터가 실제로 흑인에 대한 편견으로 가득했고, 인공지능이 학습한 의료 데이터 중 흑인에 대한 것이 부족했기 때문이야. 이걸 정확히 인지하면, 앞으로 우리는 좀 더 공정한 재판 과정을 만들어가고, 좀 더 건강한 치료 데이터를 만들어갈 수 있겠지. 애꿎은 인공지능 회사만 매질하지 않고.

앞으로 너희들도 인공지능을 곧잘 쓰게 될 거야. 그런데 말야, 인공지능에다가 어려운 숙제 문제를 내고 답 얻어 베낄 생각은 하지 마. 그런 용도가 아냐. 인공지능은 생각지도 못한 개선점을 찾아내는 용도야. 네가 그 숙제의 어디를 왜 어려워 하는지, 그 어려움을 극복하기 위해 어떤 새로운 시선을 갖출 수 있는지, 어떤 새로운 접근법이 또 있는지, 그런 걸 발견하는 용도야. 그러려면 어떻게 해야겠어? 그 어려운 숙제를 일단 컴퓨터 끄고, 네가 직접 손으로 먼저 해야겠지. 인공지능이 있으니, 얼마든지 오답을 낼 수 있다, 이런 든든함이 오히려 네게 있었으면 해.🆃🆃🅔

by 문가용 기자(anotherphase@thetechedge.ai)


인공지능이 가득할 미래, 어떻게 준비할까?
💡Editor’s Pick for Juniors - OWASP 서울 챕터에서 연 보안 송년회 - 젊은 층에 해주고 싶은 실속 있는 조언들이 가득 - 인공지능이 2025년에 이어 2026년에도 화두 Juniors, 안녕! 테크를 가장 날카롭고 가치 있게 읽어주는 더테크엣지 아빠들이야. 연말이면 여러 분야의 전문가들이 뭘 하는지 아니? 미래 예측이야. 내년도에 이런 저런 일이 일어날
인공지능에 꼼수 가르쳤더니 ‘사회 부적응자’ 되더라
💡Editor’s Pick for Juniors - 인공지능 클로드의 보상 시스템 살짝 손 봤더니 전방위적 타락 - 거짓말하고, 책임 회피하고, 윤리 가이드라인이 붕괴 - 평가 시스템이 미치는 영향, 기계나 사람이나 지대해 Juniors, 안녕! 테크를 가장 날카롭고 가치 있게 읽어주는 더테크엣지 아빠들이야. 어제 이 편지를 통해 게임이 가진 중독성의 근원에 대해 잠깐 언급했었어.

Read more

미국 재무부, 스파이웨어 관련자 3인을 제재서 해제

미국 재무부, 스파이웨어 관련자 3인을 제재서 해제

💡Editor's Pick - 2024년 3월과 9월에 제재된 인텔렉사 임직원 3인 - 오늘부로 해제...하지만 사유는 공개되지 않아 - 프레데터라는 스파이웨어가 논란의 중심...무죄 판결 아냐 스파이웨어 개발과 관련이 있는 인물 3명이 미국 정부의 제재 대상으로 선정됐다가 오늘 해제됐다. 이들은 인텔렉사컨소시엄(Intellexa Consortium)이라는 기업에 소속되어 있으며, 프레데터(Predator)

By 문가용 기자
엠에디터 공식 다운로드 버튼, 4일 동안 멀웨어 퍼트려

엠에디터 공식 다운로드 버튼, 4일 동안 멀웨어 퍼트려

💡Editor's Pick - 작문과 코딩에 주로 사용되는 에디터, 공식 페이지에 문제 있어 - 12월 19일부터 22일까지, 다운로드 버튼 누르면 멀웨어가 - 브라우저에 악성 플러그인 설치하기도 인기 높은 작문 및 코딩 도구인 엠에디터(EmEditor)의 공식 웹사이트가 침해되면서 4일 동안이나 멀웨어 보급로로서 작동했다는 사실이 밝혀졌다. 공격자들은 웹사이트 메인 페이지의

By 문가용 기자
중국 무스탕판다, 새 백도어로 아시아 국가 괴롭혀

중국 무스탕판다, 새 백도어로 아시아 국가 괴롭혀

💡Editor's Pick - 악성 드라이버로 커널에서부터 침투 - 커널에서 각종 백신과 윈도 방어 체계 무너뜨려 - 집요한 지속성이 진정한 위협...아시아 국가들이 피해 입어 중국 해킹 그룹 무스탕판다(Mustang Panda)가 새로운 백도어를 퍼트리고 있다고 보안 기업 카스퍼스키(Kaspersky)가 발표했다. 이 백도어의 이름은 톤셸(ToneShell)이라고 하며,

By 문가용 기자
NPM 사용 중인 개발자 노리는 가짜 패키지

NPM 사용 중인 개발자 노리는 가짜 패키지

💡 Editor's Pick - 유명 왓츠앱의 비공식 API인 베일리즈 - 이 베일리즈의 포트 중 하나로 위장된 로터스베일 - 로터스베일, 사실은 각종 민감 정보 훔치는 멀웨어 악성 패키지가 공공 리포지터리인 NPM에서 발견됐다. 크리덴셜 및 각종 데이터를 훔치는 기능을 내포하고 있는 이 패키지의 이름은 로터스베일(Lotusbail)이며, 이미 널리 사용되고 있는

By 문가용 기자