인공지능, 취약점 관리 대신 할 수 있나?
- 인공지능에 3만 개 취약점 정보 입력 후 점수 내게 했더니
- 취약점 정보 품질에 따라 크게 좌지우지 되는 인공지능
- 취약점 정보 품질 개선되지 않는다면 인공지능 무쓸모
Juniors, 안녕!
테크를 가장 날카롭고 가치 있게 읽어주는 더테크엣지 아빠들이야.
인공지능이 취약점 우선순위를 정하는 데 얼마나 도움이 될까? 노스캐롤라이나 윌밍턴 대학교(UNCW) 소속 연구원들이 이 질문에 답하기 위해 연구를 진행했고, 얼마 전 그 결과를 발표했어. 결과부터 말하자면 ‘아직 믿을만한 결과를 내지는 못한다’라고 해.
취약점 우선순위?
일단 취약점의 우선순위를 정한다는 게 왜 중요한지부터 짚고 넘어가자. 그래야 이 연구를 왜 했는지, 아직 믿을만하지 못하다는 결과가 왜 의미심장한지를 이해할 수 있어.
취약점은 우리가 사용하는 컴퓨터, 그 컴퓨터에 설치된 각종 소프트웨어들에서 발견되는 구멍이야. 버그라고도 하고 오류라고도 해. 아주 세밀하게 정의하면 취약점이나 버그나 오류는 전부 다른 말일 수 있지만, 그걸 다 따지고 들어가면 글이 딴 데로 샐 거 같아서 여기서는 ‘취약점’이라는 말만 쓸게. 해커들이 너희 컴퓨터로 몰래 들어오게 해 주는 구멍이 바로 취약점이야. 커다란 담벼락이나 철조망 한 구석에 조그맣게 나 있는 틈, 그래서 개나 고양이, 심지어 도둑이 드나들 수 있는 구멍을 상상하면 돼.

취약점 우선순위를 정한다는 건, 수많은 구멍 중 어떤 것부터 막아야 하는지 순서를 매기는 거야. 도둑을 막으려면 모든 개구멍을 빠짐없이 다 막아야 하는데, 그럴 재료(철사나 콘크리트, 벽돌 등)가 부족하면 어떻게 해야 하겠어? 당연히 큰 구멍부터 막아야 하겠지. 아주 작아서 사람이 들어오기 힘들어 보이는 건 일단 다음으로 미루고 말야. 컴퓨터에 난 구멍인 취약점도 마찬가지야. 한꺼번에 다 막을 수 없는 이유가 여러 가지로 존재하고, 그래서 우선순위를 정해서 막아야만 해.
문제는, 그 취약점이라는 구멍이 너무너무x10000 많다는 거야. 2024년 한 해에만 4만 개 이상이 발견됐어. 4만 나누기 1년(365일)을 해봐. 109.59개가 돼. 하루에 구명 110개를 막아야 모두를 틀어막을 수 있다는 뜻이야. 취약점 하나를 처리(이를 ‘픽스한다’ 혹은 ‘업데이트 한다’, ‘패치한다’ 등으로 표현해)하는 데 걸리는 시간은 짧게는 5~30분, 길게는 수시간이야. 어떤 취약점은 수일이 걸릴 때도 있어. 5분짜리 취약점만 해도 110개를 픽스한다고 쳐봐. 쉬지 않고 해도 550분이야. 9시간이 넘어. 어른들 하루 평균 근무 시간이 8시간인데, 그걸 넘지.
취약점을 해결할 때 보통 다른 일은 할 수가 없어. 그러면 9시간 동안, 즉 회사에 있는 내내, 구멍만 막다가 다른 일은 하나도 못한다는 뜻이 돼. 이걸 365일 내내, 주말도 없이 진행해야, 겨우 1년에 발견된 모든 구멍을 막아 해커로부터 안전해질 수 있어. 그런데 2025년에는 그 취약점이 몇 개 발견됐을 거 같아? 2024년에는 4만 개였던 게, 2025년 말까지는 4만6천 개가 넘어갈 것으로 보여. 이 수는 매년 늘어나고 있고, 따라서 매일 처리해야 하는 구멍의 수는 110개보다 많아지는 중이지.
그래서 정말 시급한 구멍부터 막고, 나머지는 여건이 될 때 처리하는 게 보통이야. 아니, 그렇게 하지 않으면 그 누구도 취약점이라는 걸 효과적으로 해결할 수 없게 돼. 취약점은 반드시 우선순위를 정해서 막아야 해. 하지만 우선순위를 정한다는 것 자체도 쉬운 일이 아니야. 적잖은 연구와 고민이 필요해. 취약점 해결에만 하루가 넘게 걸린다고 했는데, 우선순위를 정하는 것에도 시간이 들어간다니, 참 답답하지. 그래서 ‘인공지능에 물어보면 어떨까?’하는 질문이 생긴 거야.
실험의 결과
연구진들은 총 6개의 인공지능 모델들을 실험했다고 해. 아래 6개를 쓸 텐데, 이름이 좀 어려워도 읽고 넘겨. 그냥 요즘 가장 유명한 인공지능 정도로 알아두면 돼.
1) GPT-4o
2) GPT-5
3) 라마 3.3(Llama 3.3)
4) 제미나이 2.5 플래시(Gemini 2.5 Flash)
5) 딥시크 R1(DeepSeek R1)
6) 그록 3(Grok 3)
연구원들은 이 6개의 인공지능에 취약점 3만1천 개에 대한 정보를 입력했대. 다만 정보를 너무 많이 주면 인공지능이 인터넷을 검색해 답을 낼 수 있기 때문에 단 몇 줄의 설명만 입력하고서는 취약점 점수(담벼락에 난 구멍들마다 크기가 다르듯이, 취약점들도 각각 ‘위험도’가 달라. 그것을 점수로 표시해.)를 내라고 시켰어. 취약점 점수는 이미 존재하는데(이것도 인터넷에 다 나와!), 그 점수가 마치 없는 것처럼 해서 인공지능을 시험한 거야. 왜?
인공지능이 낸 점수가 이미 있는 점수와 어느 정도 비슷하다면, 일단 ‘인공지능한테 짤막한 정보만 줘도 취약점 점수를 꽤 정확하게 낸다’는 걸 확인할 수 있겠지. 이것만 확인해도, ‘취약점 우선순위를 정하는 인공지능’에 한 발짝 다가서는 것이 되거든. 점수도 못 매기는 것한테 어떻게 우선순위를 정하라고 시키겠어? 시험지 채점도 못하는 선생님이, 학생들 석차를 어떻게 정해? 인공지능이 취약점 하나하나의 점수를 어떻게 매기는지 보는 게 1단계 시험이었던 거야.

결과는 좀 허무해. 6개 인공지능 모두 취약점 설명문의 내용이 무엇이냐에 따라 크게 좌지우지 되는 모습을 보였거든. 위에서 ‘단 몇 줄의 설명만 입력했다’고 했지? 그 몇 줄에 얼마나 핵심적인 내용이 들어가 있느냐, 아니면 핵심 정보가 빠져 있느냐에 따라 점수를 정확히 내기도 하고 완전히 다르게 내기도 했다는 거지. ‘취약점 설명을 잘 쓰면 인공지능도 점수를 잘 내고, 취약점 설명을 못 쓰면 인공지능도 점수를 못 낸다’는, 아주 당연한 사실을 확인했을 뿐이야.
실험 결과의 의미
하지만 너무 당연해 보여서 허무하게 느껴지는 이 결과가 아주 중요한 의미를 담고 있어. 취약점을 분석하고, 우선순위를 정하고, 조치까지 취하는 인간 담당자도 취약점 설명이 상세하면 빠르게 움직이고, 그렇지 않으면 허둥지둥 헤매거든. 즉, 인공지능이나 사람이나 취약점 점수를 매기는 데 있어서는 다를 게 없다는 뜻이지. 우리가 애초에 이 실험을 왜 한다고 그랬어? 취약점 해결에만 꼬박 하루를 쓰다가는 다른 일을 할 수 없어서라고 했지. 인공지능이 어느 정도 사람을 대체할 수 있느냐 없느냐를 알아보고자 한 거였어. 그런데 결과는 ‘사람과 다를 바 없다’로 나온 거야. 의미가 없지 않아.
그러면 이렇게 물을 수 있어. ‘인공지능이 지금보다 더 발전하면 해결될 문제 아닐까?’ 답은 그럴 수도 있고, 아닐 수도 있다,라고 정리가 가능해. 하지만 이건 너무 당연해서 하나 마나 한 답이지. 그런데 생각해 봐. 이 실험은 ‘사람이 입력한 몇 줄의 취약점 정보’를 바탕으로 인공지능이 점수를 어떻게 매기느냐를 보는 거였잖아? 그러면 인공지능이 아무리 발달한다 한들, 제공된 정보가 부실하면 그 답도 항상 부실하지 않을까? 과학이 아무리 발달해도 콩 심은 데 콩 나게 하지, 팥이나 소나무가 나게 할 수는 없잖아. 결국 취약점에 대한 정보를 성실하고 충실하게 입력한다면, 지금의 인공지능도 충분히 점수 매기는 일을 담당할 수 있겠지.
그래서 ‘인공지능이 취약점 우선순위를 정할 수 있을까?’라는 처음의 질문은 엉뚱한 답을 얻게 되지. ‘취약점 정보를 충실하게 입력하면 어느 정도 가능할 수도 있다’라고 말야. 그러면 그 ‘취약점 정보’는 누가 어떻게 만드는 것일까? UNCW 연구원들은 3만 개가 넘는 취약점 정보를 이 실험을 위해 일일이 작성했을까?
제도 자체에 구멍이
인공지능 모델들에 입력한 취약점 정보는 사실 이미 인터넷에 다 나와 있는 거야. 미국 NVD라는 곳에서 발견된 모든 취약점들을 한꺼번에 모아두고 있거든. NVD 웹사이트에 접속하면 세상에 존재하는 거의 모든 취약점의 정보를 볼 수 있어. 도서관에 책이 모여 있다면, NVD에는 취약점이 수집돼 있다고 할 수 있어. UNCW 연구원들도 3만 개 취약점 정보를 일일이 손으로 작성한 게 아니라, 여기 사이트에서 긁어 모은 거야. 3만 개를 어느 세월에 다 쓰겠니.

방금 도서관을 잠깐 언급했지? 도서관에 있는 수많은 책들은, 도서관 주인이 쓰고 만든 걸까? 아니지. 출판사들이 각자 자기가 원하는 책을 만드는 거지. 취약점 정보도 마찬가지야. NVD에 수집돼 있는 취약점 정보들은, 취약점을 발견해 NVD에 등록하려는 사람들이 마음대로 작성한 거야. NVD에 취약점 정보를 작성해 등록할 수 있는 단체를 보통 CNA라고 해. 이 CNA가 족히 수백 개는 되지. 그러니 취약점 설명을 쓰는 방법도 가지각색일 수밖에 없어.
취약점을 한데 모아보겠다는 취지는 아주 좋아. 그러니 UNCW 연구원들처럼 3만 개가 넘는 취약점 정보를 인공지능에 싹 입력하는 실험도 가능한 거야. 취약점 정보가 다 흩어져 있다고 해봐. 이런 실험을 하는 것 자체가 너무너무 힘든 일이 될 거야.
그런데 ‘한데 모으자’까지만 좋고 ‘이런 저런 방법으로 모으자’까지는 논의가 안 된 게 문제야. 사실 논의 자체가 없지는 않았어. ‘취약점 정보를 이런 저런 형식으로 쓰고, 이런 저런 정보를 포함시키자’ 정도의 합의는 있어. 그러나 그 합의를 ‘꼭 지켜야 한다’는 강제성은 부족해. 지키면 좋지만, 안 지켜도 어쩔 수 없는 게 현실이라는 거야. CNA가 강제로 NVD에 취약점을 등록하는 게 아니라는 거야. 그들도 취약점을 한데 모은다는 아주 좋은 취지에 자발적으로 동참한 거지. 그러니 ‘이런 저런 형식으로 꼭 쓰세요!’라고 강제할 수 없어.
그래서 결과는? 이렇게 정리가 가능해. “취약점은 한 데 모이고 있어. 그래서 취약점을 연구하고 분석하는 데 적잖은 도움이 돼. 하지만 취약점 정보의 품질이 들쭉날쭉이야. 그래서 취약점을 연구하고 분석하는 데 걸리는 시간이 단축되지는 않아.” 연구를 업으로 삼는 학자들 편에서는 나쁠 게 없는데, 정작 취약점을 현장에서 직접 관리해야 하는 기업이나 기관 편에서는 개선이 절실한 상황이라는 뜻이야. 연구 이상의 실용성이 더 부여되어야 해.
그 전까지 인공지능이 취약점 우선순위를 정하기는커녕 점수도 제대로 매기기 힘들어. 아직은 매일 9시간씩 투자해 취약점을 해결하던가, 아니면 사람이 직접 우선순위를 정해 취약점을 순서대로 해결하는 기존 방법을 고수하던가, 둘 중 하나야. 인공지능의 도움을 받아 획기적인 방법을 마련하기는 일러.
인공지능의 한계, 어쩌면 우리의 현주소
여러 번 강조했지만, 인공지능은 만능 기술이 아니야. 아직 더 발전할 여지가 많이 남아 있는, 사실 이제 막 ‘응애’하고 태어난 것에 불과한 기술이지. 그래서 인공지능이 할 수 있는 일이 대단히 많은 것처럼 보이고, 그래서 강력해 보이기도 하지만, 실수도 많고, 허점도 많으며, 아직 온전히 신뢰하기는 힘든 미완성품이야. 그런 약점을 모르고 인공지능에 중대한 일을 맡겼다가 낭패를 본 사례들이 엄청나게 많고. 지금도 많아지는 중이야.
그런데 인공지능이 보이는 ‘한계’라는 게, 인공지능이라는 기술 자체에 한계가 있어서 그런 것만은 아냐. 이번 실험을 통해 봤듯이, 우리가 가지고 있는 제도나 체계 자체가 허술해서 그런 것일 수도 있어. 인공지능의 그 똑똑함이 어디서 온 거야? 다 인간이 오랜 시간 쌓아온 지식에서 온 거야. 인간을 아주 그럴 듯하게 흉내 내서 똑똑해 보이는 거라고 할 수 있어. 그러니 인간이 보유하고 있는 허점까지도 그대로 가져 가지. ‘취약점 정보 품질의 일관성을 강제할 수 없다’는 현실처럼 말야.
인공지능의 허점을 눈치 채고, 그 뿌리에 도달하는 건 지금 시점에서 중요한 일이야. ‘인공지능이 오류를 내는 구나, 역시 아직 미진한 초기 기술이야!’라고 쉽게 결론을 내려서는 안 돼. 왜 이런 오류를 내는지, 그 뿌리에 어떤 이유가 숨어 있는지 파악하다 보면, 숨어 있는 보화를 발견할 수도 있어. 예를 들어볼까?

인공지능이 회사 직원을 대신 채용할 때 성차별과 인종차별을 하는 경향을 보인다고 하는데, 이 역시 사실 기술 문제가 아니라, 그간 인간들이 직원 채용을 그렇게 해왔다는 사실 때문에 나타나는 문제야. 이걸 ‘인공지능 개발사 실력이 부족했다!’로 몰고 가면 실제 채용 과정의 공정성을 강화시킬 기회를 잃게 되는 거야.
그 외에도 인공지능은 ‘흑인이 범죄를 저지를 확률이 높다’고 대단히 잘못 예측하기도 했고, ‘흑인의 피부암 진단률 저조’와 같은 결과를 내기도 했어. 인공지능 기술이 부족해서? 아니야. 실제 그 동안 인간이 쌓아둔 판결 데이터가 실제로 흑인에 대한 편견으로 가득했고, 인공지능이 학습한 의료 데이터 중 흑인에 대한 것이 부족했기 때문이야. 이걸 정확히 인지하면, 앞으로 우리는 좀 더 공정한 재판 과정을 만들어가고, 좀 더 건강한 치료 데이터를 만들어갈 수 있겠지. 애꿎은 인공지능 회사만 매질하지 않고.
앞으로 너희들도 인공지능을 곧잘 쓰게 될 거야. 그런데 말야, 인공지능에다가 어려운 숙제 문제를 내고 답 얻어 베낄 생각은 하지 마. 그런 용도가 아냐. 인공지능은 생각지도 못한 개선점을 찾아내는 용도야. 네가 그 숙제의 어디를 왜 어려워 하는지, 그 어려움을 극복하기 위해 어떤 새로운 시선을 갖출 수 있는지, 어떤 새로운 접근법이 또 있는지, 그런 걸 발견하는 용도야. 그러려면 어떻게 해야겠어? 그 어려운 숙제를 일단 컴퓨터 끄고, 네가 직접 손으로 먼저 해야겠지. 인공지능이 있으니, 얼마든지 오답을 낼 수 있다, 이런 든든함이 오히려 네게 있었으면 해.🆃🆃🅔
by 문가용 기자(anotherphase@thetechedge.ai)
Related Materials
- Evaluating Zero‑Shot ChatGPT Performance on Predicting CVSS Scores from CVE Descriptions - ECCWS 2023 논문, 2023년 (113,228개 CVE 설명만으로 CVSS를 추정했을 때 v3 벡터 완전 일치율이 20% 수준에 그치며, LLM이 전문가 기반 NVD 점수를 대체하기엔 부족함을 지적)
- From Description to Score: Can LLMs Quantify Vulnerability Severity from CVE Text? - arXiv, 2024년 (31,000+ CVE를 대상으로 여러 LLM이 동일 CVE들에서 반복적으로 오분류하는 패턴을 보이며, 모호하거나 불완전한 CVE 설명이 체계적인 오차의 핵심 원인임을 분석)
- AutoCVSS: Assessing the Performance of LLMs for Automated CVSS Prediction - EMNLP Industry Track 사전 공개본, 2024년 데이터(2023~2024 CVE)를 사용, 다양한 프롬프트·RAG 기법에도 불구하고 일부 메트릭(예: Scope, Impact)에서 CVE 텍스트의 불일치·누락 때문에 안정적인 점수 예측이 어렵다는 결론 제시
- Enhancing Cybersecurity Through Effective CVE Management - The CVE Foundation, 2023년 발표 이니셔티브 (2024년부터 CNAs가 CVSS·CWE·CPE 정보를 풍부하게 넣도록 권장하는 이유로, 현재 CVE 설명의 일관성 부족이 AI 기반 자동 점수화 품질을 떨어뜨린다고 명시)

