크로아하트먼 曰, “AI 슬롭, 빠르게 해결되는 중”
- 커널 생태계서 영향력 높은 인물, "AI가 변했다"
- 얼마 전까지 AI가 만드는 쓰레기가 오픈소스에서 큰 문제였는데
- 단 1인의 소감일 뿐? 아직 뒷받침 될 만한 추가 증언은 없어
‘AI가 쓰레기를 생성한다’는 경고의 목소리가 여기저기서 나오고 있는 가운데, 갑자기 상황이 바뀌었다는 증언이 나오기 시작했다. “하루아침에 인공지능이 달라졌다”는 것. 단 한 사람의 말이긴 한데, 그 한 사람이 오픈소스 계통에서는 워낙 중요한 인물이기 때문에 관련 내용이 확산되는 중이다.
해당 발언을 최초 보도한 건 IT 외신 더레지스터(The Register)다. 리눅스 커널 개발자이자 메인테이너인 그렉 크로아하트먼(Greg Kroah-Hartman)의 말을 인용해 “약 한 달 전부터 AI가 양질의 보고서를 쏟아내기 시작했다”고 보도하고 있다. 크로아하트먼은 이것이 “개인 의견이 아니라 많은 오픈소스 메인테이너들 사이에서 나오는 공통 의견”이라고 한다. 그러면서 “왜 그렇게 된 건지는 모르겠다”고 말했다.
AI 슬롭 논란
크로아하트먼 발언이 주는 충격을 제대로 이해하려면 그 전 상황을 알고 있어야 한다. 본지도 이에 대해 보도한 바 있는데, 요약하자면 요즘 취약점 연구자들이 취약점 관련 보고서를 AI로 작성한다는 내용이다. AI 덕분에 짧은 시간에 대량의 보고서를 매우 그럴듯한 형태로 생성할 수 있게 되는데, 마음만 먹으면 한 사람이 하루에 수십~수백 개의 보고서도 만들 수 있다고 한다. 그리고 이걸 점검도 하지 않은 채 버그바운티 주관사나 오픈소스 메인테이너에게 제출한다.
이런 연구자들이 급증하고 있으니, 메인테이너 입장은 어떨까? 말 그대로 버그리포트의 홍수 속에 허우적거리기 시작했다. 정말 고쳐야 할 버그들은 태산 같이 쌓이는 보고서들 밑에 깔려 보이지도 않게 됐다. 급기야 일부 오픈소스나 프로젝트들은 버그 제보에 따른 상금을 지불하지 않기로 결정하기에 이르렀다.
AI가 만든 보고서가 정말 가치 있는 내용을 담고 있었다면 큰 문제가 아니었을 것이다. 버그리포트를 점검해야 하는 리뷰어의 수를 긴급히 늘려야 한다는 식의 제언이 나왔을 것이다. 하지만 그렇지 않았다. AI발 리포트 대다수는 ‘쓰레기’였다. 있지도 않은 취약점을 허울 좋게 포장하거나, 사소한 문제를 극도로 부풀려 보고서를 멋지게 꾸민 게 대다수였다고 한다. ‘질보다 양’ 전략 하에 보고서를 잔뜩 만든 일부 취약점 연구자들이 오픈소스 약화를 야기한 것이나 다름 없었다.
이게 얼마나 큰 문제였던지 빅테크들이 자발적으로 돈을 거뒀다. 1250만 달러라는 적지 않은 돈이 모였다. 빅테크들은 이 돈을 리눅스재단에 전달하며 “AI 슬롭 문제를 해결하는 데 잘 사용해달라”고 요청했다. 재단 측은 AI발 보고서 거름 장치를 개발하고, 일부 메인테이너 보상 방안을 고민하겠다고, 다소 모호하게, 발표했었다. 그러면서 ‘AI 슬롭(즉, AI 쓰레기)’ 현상이 불거졌다. AI가 가진 기술적 한계와, 자기 이름으로 내는 보고서를 들여다보지도 않은 연구원들에 대한 비판이 쏟아졌다.
그런 와중에 커널의 대부라 불리는 인물이 “이유는 잘 모르겠지만 AI가 ‘진짜 보고서’를 만들기 시작했다”고 증언했으니, 소소하게나마 화제가 될 수밖에 없다. 그렇다면 이제 문제는 ‘AI 쓰레기를 걸러내는 장치의 부재’라든가 ‘취약점 연구자들의 해이’가 아니라 ‘AI가 제출한 수많은 보고서를 검토해 실질적인 오픈소스 강화 작업을 진행해야 할 인력의 부족’으로 옮겨가게 된다. AI 보고서가 하루아침에 변모한 게 사실이라면 말이다.
발언을 추적했을 때
아쉽게도 아직까지 그 어떤 매체도 크로아하트먼의 발언을 뒷받침할 만한 후속 보도를 내지 않고 있다. 같은 메인테이너들이나 오픈소스 커뮤니티 내 여러 전문가들도 침묵을 지키고 있다. 동의도 없고 반대도 없다. 크로아하트먼에 따르면 적잖은 메인테이너들이 이 현상을 인지하고 있는 것처럼 보이는데, 그 의견이 아직 주류는 아닐 수 있다. 혹은 AI 보고서가 괜찮아졌다는 게 주관적 견해일 가능성도 없지 않다. 크로아하트먼의 명성을 생각했을 때 거짓일 가능성은 낮아 보인다.
대신 레딧에 관련 스레드가 생성됐다. 사용자들은 댓글로 토론에 참여하면서 “정말일까?”, “과장 아닐까?”라고 의심하기도 하고 “LLM이 급격히 발전한 때문일까?”라고 추측하기도 한다. 하지만 AI 보고서 품질이 눈에 띄게 향상됐다고 주장하거나, 그런 일 없다고 딱 잘라 반대하는 경우는 한 건도 없었다(기사 작성 시점 기준).
외신 PC게이머는 개발자 커뮤니티들에서 나온 몇 안 되는 의견들을 발췌해 보도했다. “취약점 60개에 대한 보고서를 AI에 요구했는데, 2/3가 올바른 내용을 담고 있었다”는 증언과 “영원히 AI를 간과할 수는 없을 것이고, AI로 버그리포트를 작성하는 게 ‘노멀’이 되는 때가 분명 올 것이다”라는 예언성(보기에 따라 ‘동의선상에 있는’) 발언 등이 있었다고 한다. 물론 이것들이 크로아하트먼의 발언을 충분히 뒷받침한다고 보기는 어렵다.
그러면 크로아하트먼은 별 의미 없는 개인 느낌을 발설했을 뿐인가? 커널 개발자로서 그가 쌓아온 업적이 널리 인정 받아서인지, 이런 식으로 받아들이는 사람은 눈에 띄지 않는다. 다만 그의 발언과 현실의 고요함이 주는 괴리를 설명하려는 시도들이 없지 않다. 그 중 가장 유력해 보이는 건 다음과 같다.
1) 크로아하트먼도 ‘지난 한 달’이라고 언급했다. AI가 향상됐다 하더라도, 그것이 메인테이너들 사이에서 체감되고 전파까지 되려면 더 긴 시간이 필요하다.
2) 크로아하트먼은 커널 및 로우레벨에 특화된 전문가다. 일반 개발 및 오픈소스 프로젝트와 달리 훨씬 특수한 데이터를 다룬다. 그 분야에서만 AI 향상이 일어났어도 말이 된다.
3) ‘좋아졌다’는 말 자체가 애매하다. 누군가에게 ‘좋아졌다’는 그저 ‘이전만큼 못 쓸 정도는 아니다’ 혹은 ‘쓰레기까지는 아니다’ 정도의 의미일 수 있다.
주변인 의견
문광석 한국정보공학기술사회 미래융합기술원장은 기삿속 짧은 인용문구만 봐서는 무슨 일이 일어난 건지 알 수 없다면서 “유명 개발자조차 AI가 준 코드를 대충 훑어만 보고 버그를 제보했다가 나중에 망신을 당한 사례들이 있다”고 운을 뗐다. 그러면서 ‘인간 개입’의 필요성을 강조했다. “어떤 업무를 하고 있느냐에 따라 자동화라는 프로세스 내에 인간을 개입시키는 게 오히려 효율성을 높일 수 있습니다. 그저 인간을 모든 일에서 배제시키는 게 ‘고효율’의 정체는 아니라는 것이죠.”
그는 설명을 이었다. “단순 반복 처리만 하면 되는 일에서는 인간이 ‘딜레이의 주요 원인’이 될 공산이 크죠. 그럴 때 인간의 개입은 ‘비효율’을 야기한다고 할 수 있습니다. 하지만 사람의 경험이나 통찰력이 반드시 있어야 다음 단계로 나아갈 수 있는 유형의 일이라면 어떨까요? 정반대입니다. 많은 현장에서 델파이 기법이 아직 선호되는 데에는 이유가 있습니다. ‘취약점 분석과 보고’라면 사람의 개입이 필요해 보입니다.”
델파이 기법은 전문가들의 의견을 계속해서 취합함으로써 극단적인 주장을 제거하고 집단 지성 효과를 높이는 방법이다. 전문가들에게 설문을 보내 답변을 모아 요약하고, 그 요약 내용을 다시 전문가들에게 공유해 의견을 받는 과정을 여러 번 반복한다. AI 시대와 어울리지 않는 기법일 수 있으나 여전히 유효하다.
화이트해커이자 취약점 연구 기업 아웃오브바운즈를 운영하는 태인규 대표는 크로아하트먼의 발언이 “충분히 가능한 일”이라는 입장. “취약점을 찾아내 익스플로잇까지 구현한다는 건 매우 통합적인 지식을 요구하는 일입니다. 코딩에 대한 이해도도 높아야 하겠지만, 그 코드가 어떤 환경에서 어떤 방식으로, 어떤 맥락 하에 실행되고 있는지를 종합적으로, 깊이 있게 알고 있어야 하지요. 익스플로잇 개발을 저 개인적으로는 하나의 예술 행위에 가깝다고 생각합니다. AI가 이를 똑같이 해내려면 시간이 많이 걸릴 거라고 내다봤었죠.”
하지만 그 예상이 틀릴 수 있다는 생각이 최근 들기 시작했다고. “AI가 취약점을 찾아내고, 모든 주변 상황을 완벽히 이해해 익스플로잇까지 짜내는 단계에 이르렀다고 할 수는 없어요. 하지만 매우 빠른 속도로 그 경지에 도달하려 하고 있습니다. AI가 슬롭들을 생성하던 기간 동안 익스플로잇 개발 시 고려해야 할 각종 변수와 주변 정보들을 축적하고 있었다면 크로아하트먼이 말한 ‘한 달 사이’에 새로운 진화가 일어났다고 해도 이상할 게 없다고 봅니다. 일정 고비만 넘으면 AI가 사람의 수준을 빠르게 초월한다는 걸 우린 여러 번 봤지요.”
그래서 이 이야기의 결론은 ‘중국 전기차’?
요즘 전기차 시장이 흥미롭게 굴러간다. 중국 때문이다. BYD가 테슬라를 넘어섰다는 이야기가 작년부터 나왔는데, 대다수는 ‘중국 정부를 등에 업은 BYD가 불공정한 가격 경쟁을 했기 때문’이라고 폄하했다. 없는 말은 아니었다. 중국을 견제하려는 EU와 미국 모두 이 논거를 바탕으로 관세를 매겨 중국 전기차라는 큰물을 억지로 틀어막고 있기도 하다. 하지만 그게 전부가 아닌 게 문제였다. 중국 전기차 약진에는 배터리 및 소프트웨어 혁신이 있었다는 걸 모두가 간과했다. 미국과 유럽이 오랜 시간 천시했던 ‘제조업’ 노하우가 새 시대의 기술 자본이 되어 중국을 돕고 있다는 것도 중요한 포인트다.
전기차를 구매하려는 소비자들은 ‘오랜 충전 시간’과 ‘짧은 주행거리’에 대한 불안감 때문에 포기하곤 했었다. 이걸 해소하기 위해 미국과 EU는 ‘정부 지원금’을 내세웠다. 당신의 불안감, 돈으로 해결한다는 것이었는데 나름 잘 통하는 듯했다. 하지만 트럼프가 권력을 잡고 지원금 제도를 폐지하자 그 방법은 금방 한계를 드러냈다. 사람들은 달달한 지원금 때문에 잊고 있던 두 가지 불안감을 다시 떠올렸고, 전기차를 안 사게 됐고, 전기차 만들던 기업들은 천문학적 손해를 매일 누적시키는 중이다.
그럴 때 중국에서는 배터리 혁신이 일어났다. 기존 리튬 기반 배터리들의 충전 속도와 효율성, 안정성을 높이는 데 투자를 아끼지 않았다. 뿐만 아니라 배터리 생산에 필요한 광물을 부지런히 확보하고, 광물 정제 시장까지 장악하면서 단가까지 크게 낮출 수 있게 됐다. 전 세계 배터리 및 광물 시장은 사실 중국이 다 먹고 있다고 봐도 과언이 아니다. 수년 간 세계의 공장 노릇을 하며 길러온 ‘제조 능력’도 이를 가속화했다. 동시에 ‘꿈의 기술’로 불리는 전고체 배터리(일종의 차세대 배터리)를 상용화 직전 단계에까지 끌어 올렸다. 빠르면 올해 안에 전고체 배터리가 탑재된 전기차를 볼 수도 있다. 중국산으로 말이다.
이게 다 무슨 뜻인가? 중국은 자기들이 생산하는 전기차에 그 누구보다 값싼 배터리를 탑재시킬 수 있게 됐는데, 그 배터리는 충전도 빨리 되고 더 많이 주행할 수 있으며 점점 더 안전해지기까지 한다는 것이다. 여기에 불공정 경쟁도 마다않는 정부까지 뒤에 있으니, 세계에서 상대를 찾을 수 없는 게 당연하다.
소프트웨어 혁신도 눈여겨봐야 한다. 중국산 자율주행 소프트웨어가 어느 새 세계 으뜸이 됐다는 뜻이 아니다. 이들이 전기차를 다루고 판매하고 유통시키는 마인드셋이 ‘소프트웨어 사업가’의 그것과 닮았다는 것이다. 그리고 그게 잘 먹히고 있다. 최대한 완제품을 내놓으려는 기존 자동차 회사들과 달리 중국 전기차 업체들은 ‘패치로 완벽하게 다진다’는 마음으로 출시를 앞당긴다. 그리고 여러 유럽 시장 전문가들의 증언에 의하면 실제 패치를 매우 빠르게 진행한다고 한다. 오류가 보고되고서 불과 수분만에 OTA 패치가 이뤄진 사례도 보도됐다.
그러면서 유럽 기업 수장들 사이에서 ‘중국식 속도(China Speed)’를 배워야 한다는 목소리가 나오기 시작했다. 자신들이라면 수주에서 수개월 걸렸을 서비스를 중국 전기차 업체들은 수분에서 수시간 안에 제공한다며, 자성하기 시작한 것이다. 다만 이 마음가짐이 너무 늦게 찾아온 건 아닌가 하는 비판들도 나오고 있다. 이미 중국산 전기차는 남미를 장악했고, 중국 내수 시장도 점령하고 있으며, 유럽 거리에서도 점점 수가 늘어나는 중이다. ‘불공정 경쟁’ 하나에만 몰두한 채 중국 기술력을 무시했더니, 그것이 막기 힘든 존재가 된 것이다.
중국 전기차를 찬양하는 게 아니다. 중국 배터리나 소프트웨어, 심지어 전기차 완제품에 아직 많은 결함들이 있다. '중국식 속도'라는 것도 논란의 여지가 충분한 개념이다. 자동차를 너무 빠르게 출시했다가는 운전자 안전을 보장할 수 없다는 반박도 존재하기 때문이다.
다만 모두가 '중국 전기차는 그저 가격발'이라고 손가락질 하는 사이에 중국 기업들이 공급망 측면에서나 기술 측면에서나 크게 향상됐다는 것은 사실이다. 그리고 그 손가락질 받던 중국 전기차가 유수의 자동차 강자들을 생존 위기로 내몰고 있는 것도 사실이다.
강점과 문제점, 둘 다 직시
‘AI 슬롭’은 현존하는 문제다. 여러 빅테크가 각출한 1250만 달러는 실수나 착각으로 모일 돈이 아니다. 크로아하트먼도 “AI 슬롭이 다 해결됐다”고 말하지 않았다. “이제 AI도 꽤 양질의 보고서를 만들 줄 안다”는 것이 골자인데, ‘그 양질이라는 게 어느 정도를 말하는 것이냐’, ‘왜 갑자기 발전한 거냐’라는 의문들이 해소되지 않아서 일부 커뮤니티 멤버들이 설왕설래 하는 것이다. 결국 우리가 지금 ‘AI가 더 나은 보고서를 작성하는 시대’로 흘러가는 중이라는 것에는 변함이 없다. 그 유속을 어느 정도로 체감하느냐에는 개인차가 있을 뿐이다.
다만 AI 슬롭 문제가 불거졌을 때 잠시 형성된 분위기에 우려를 표한다. 정확한 비율은 모르겠으나 ‘AI는 불완전한 기술이며, 따라서 거품이다’라는 식의 내려치기가 상당수 보였다. AI의 강력함이 어느 수준에까지 도달할지는 아무도 알 수 없다. 하지만 지금 수준만으로도 인류가 이전까지 접해보지 못한 새로운 유형의 ‘강력함’을 보여주는 건 사실이다. 그리고 그 ‘강력함’은 적잖은 사람들의 생계를 위협하고 있다. 앞서 언급한 문광석 원장도 “인간의 개입이 더 효율적일 수 있다”고 말하면서 끝에 “길지는 않을 수 있지만…”이라고 덧붙였다.
AI든 전기차든, 신기술의 취약한 부분만을 바라보고, 그것의 강점과 가능성을 외면하려 하는 불균형한 태도는 오히려 그 신기술에 잡아먹히는 속도를 높인다. 신기술을 마냥 숭배하다가 취약점과 결점들에 뒤통수 세게 맞는 것과 다를 게 없다. 어느 기술이나 가질 수밖에 없는 양면성을 고르게 살피는 게 필수다. 내가 취약하다고 믿고 싶다고 해서 영원히 취약한 상태로 남는 기술 없고, 전능하다고 믿고 싶다고 해서 영원히 전능한 채로 존속되는 기술도 없다.🆃🆃🅔
by 문가용 기자(anotherphase@thetechedge.ai)
Related Materials
- AI가 빠르게 생성한 저품질·검증되지 않은 콘텐츠가 기업 보안에도 영향을 주며, 데이터 오염·신뢰 훼손·부정확한 AI 출력이 보안 의사결정을 왜곡할 수 있다고 정리한 「Top 10 AI Security Risks for 2024」 - Trend Micro , 2024년
- 대규모 언어모델이 인간 판단을 모사할 수 있지만, 출력 품질과 일관성이 맥락에 따라 크게 달라질 수 있음을 보여주며 ‘AI slop’의 핵심 문제인 대량 생산·표면적 그럴듯함·검증 부족을 이해하는 데 참고가 되는 연구 성격의 글 「Language models can explain massive disparities in human judgments」 - Google DeepMind , 2023년
- GPT-4가 사실처럼 보이지만 오류를 포함한 응답을 생성할 수 있고, 고품질 답변과 저품질 답변이 혼재하는 특성이 있어 ‘AI slop’이 왜 대량의 그럴듯한 쓰레기 콘텐츠로 확산되는지 이해하는 데 도움이 되는 기술 보고서 「GPT-4 Technical Report」 - OpenAI , 2023년
- AI slop을 “양은 많지만 품질은 낮고, 사실성·맥락·독창성이 부족한 생성형 AI 콘텐츠”로 정의하며, 검색·소셜 플랫폼을 오염시키는 현상과 허위정보·신뢰 저하 문제를 설명한 해설 기사 「What is AI slop?」 - CBS News , 2024년
