인공지능, 보이스 피싱에 날개를 달다
- 인공지능, 사람이 하던 것을 더 잘 하게 해주는 기술
- 보이스 피싱, 어설픈 공격 기법이었던 것이 이제는 강력한 위협
- 인공지능의 목소리 복제 기술, 대응책 마련 시급
현실 속 인공지능이 지금 가진 힘은 영화나 소설에 등장하는 ‘초월적 존재’와는 거리가 멀다. 빠른 발전을 통해 어디까지 잠재력을 끌어올릴 수 있을지 모르겠으나, 당장의 인공지능이 지닌 강점이란, ‘사람이 기존에 하던 것을 더 잘 하게 해주는 것’이라 할 수 있다. 번역가는 인공지능 덕분에 더 빠르고 정확하게 할 수 있게 됐고, 일러스트레이터나 영상 편집가 역시 시간을 크게 단축시킬 수 있다. 심지어 한 통계에 따르면 이미 온라인 기사의 절반 이상이 인공지능으로 작성된 것이라 하니, 기자들 역시 인공지능의 덕을 크게 보고 있는 듯하다.
큰 흐름부터 짚고 넘어가자
사이버 공격자들 역시 ‘기존에 하던 것을 더 잘하게 됐다’는 맥락에서 인공지능의 도움을 받고 있다. 예를 들어 보이스 피싱범들의 경우, 여태까지는 어색한 연기와 발음 때문에 코미디 쇼 등에서도 희화화 될 정도로 어설픔의 대명사로 여겨졌다. 보이스 피싱에 당했다고 하면 오히려 당한 사람을 은근히 비하하기도 했을 정도였다. 그런데 인공지능이 등장하면서 이러한 보이스 피싱이 완전히 새로운 위협으로 변모했다. 인공지능이 범죄자들의 목소리와 억양, 심지어 대본까지 손보기 시작한 것이다.
현재 인공지능은 단 3초 분량의 오디오만 확보해도 효과적으로 목소리를 탈취할 수 있는 수준에 이르렀다. 그런데 하필이면 비슷한 시기에 이 ‘음성’이라는 게 중요한 신원 확인 수단의 하나로 사용되고 있어서 문제다. 이른 바 ‘생체 인식’이라고 하는 기술이 다양화 되면서 지문이나 홍채, 목소리 등 인간의 여러 특성들이 로그인 비밀번호처럼 사용되고 있는 추세인데, 그 때 목소리를 훔치는 기술이 등장한 것이라 할 수 있다. 이런 상황이 보이스 피싱이라는 어설펐던 범죄 행위에 날개를 달아주고 있다.
인공지능으로 오디오를 만들려면 제법 비싼 값을 치러야 하지 않을까? 이제는 아니다. 일레븐랩스(ElevenLabs)나 마이크로소프트와 같은 회사들의 인공지능 모델은 물론 각종 오픈소스 도구들은 이미 방대한 음성 데이터셋으로 훈련돼 있고, 지금도 훈련하고 있다. 이들이 흉내 내는 음성은 인간과 기계가 모두 속을 만큼 정교한 수준에 이르렀다. 그리고 그런 도구들을 무료나 저렴한 값에 구하는 건 더 이상 어려운 일이 아니다.
음성을 훔치는 인공지능 모델 중 오픈소스로 풀린 것들 중에는 깃허브의 리얼타임보이스클로닝(Real-Time-Voice-Cloning), 코키TTS(Coqui TTS), 모질라TTS(Mozilla TTS) 등이 있다. 누구나 모델을 다운로드 받아 로컬에서 실행할 수 있다. 하지만 있는 그대로 범죄에 활용 가능할 정도의 고품질 결과물을 내지는 않는다. 이는 다운로드 받아 실행하는 사람의 로컬 시스템의 강력함에도 좌지우지 된다. 즉 모델은 무료이지만, 괜찮은 결과물을 내려면 시스템에 어느 정도 투자해야 한다는 의미다. 강력한 시스템을 유지하려면 전기세도 많이 든다. 또한 오픈소스라고 다 무료인 것도 아니라 라이선스가 걸려 있기도 하다.
그렇다면 현재 보이스 피싱은 어떻게 발전하고 있나?
인공지능을 활용한 보이스 피싱 공격은 이미 패턴화 되고 있을 정도로 보편적으로 발견되고 있다. 현 시점 기준 보이스 피싱 공격자들은 인공지능 활용을 위해 정찰부터 실시한다. 최소 3초의 샘플 음성이 있어야 누군가를 흉내 낼 수 있기 때문이다. 예를 들어 특정 기업이 표적이라면, 그 기업 CEO의 언론 인터뷰나 홍보 영상, 각종 소셜 미디어 콘텐츠를 수집해 인공지능 모델을 학습시키는 작업을 실시한다.
수집된 정보를 모델에 입력한다고 해서 곧바로 좋은 결과물이 나오는 건 아니다. 사람이 개입해 미세 조정을 해야 한다. 예를 들어 인공지능은 목소리와 억양만을 복제할 뿐이다. 말버릇이나 자주 쓰는 단어까지 가로채지는 못할 때가 많다. 수준 높은 공격자들은 모델을 학습시킬 때 인공지능이 원래 잘 하는 것은 인공지능에 맡기고, 스스로는 이런 내용의 정보들을 수집한다. 그런 후 그 정보들까지 합쳐서 합성 음성을 만들어낸다.
이렇게 합성된 음성을 이제 적절하게 활용하는 일이 남았는데, 여기서부터는 일반 피싱 공격과 비슷하다. 심리전을 사용하는 것으로, 교통사고가 났다거나 비즈니스를 위해 이 정도 돈을 지정해준 계좌로 보내라거나, 급한 도움이 필요하다는 식으로 피해자들을 낚는 것이다. 이전에는 어설픈 사투리와 억양, 발음, 문법을 가진 자들이 쉽게 발각되곤 했는데, 이제는 인공지능이 합성한 음성을 사용하니 공격 성공률이 높다.
이미 한 다국적 기업의 재무 담당자가 자신의 상사 및 동료들과 똑같은 목소리를 가진 합성 목소리에 속아 2500만 달러를 어디론가 송금한 사례가 존재한다. 이 때 피해자는 상사 및 동료들과 화상회의를 진행하면서 그 큰 돈을 보냈는데, 알고 보니 그 상사와 동료 모두 가짜 인물들이었다. 공격자들이 딥페이크 기술로 여러 명의 신체적 특성을 복제한 것이었다. 그 외에 납치된 딸의 다급한 목소리에 속아 몸값을 낸 어머니의 사례도 있다. 물론 울부짖던 딸의 목소리는 인공지능이 만들어낸 것이었다. 심지어 범인들의 협박 음성도 조작된 것이었다고 한다.
왜 보이스 피싱인가?
왜 유독 보이스 피싱이 인공지능에 의해 눈에 띄는 발전을 하게 된 것일까? 개그 소재였을 정도로 우습게 보였던 것이 왜 인공지능과 유독 좋은 시너지를 내는 것일까? 여러 가지 이유가 있겠지만 가장 큰 건 ‘우습게 보고 있다’는 것 그 자체일 수 있다. 뭔가를 간과하고 무시하는 사람의 심리가 생각보다 큰 허점을 만들어낸다는 것은 이미 수년 간 증명된 바 있다. 인공지능이 보이스 피싱을 진화시키고 있다는 걸 인지 못하고 있으면 당할 수밖에 없다.
또한 보이스 피싱 공격은 ‘가시성’이 가장 제한된 공격이기도 하다. 음성과 귀로 소통하는 경우가 많기 때문에 피해자 입장에서 눈으로 보고 확인할 기회가 거의 없다. 일반 사이버 보안 훈련 코스에 강조되는 것은 주로 피싱 메일이나 악성 링크 등 시각적인 것들이다. 기껏 눈을 훈련시켜 놨더니 귀를 통해 공격이 들어오는 것이라 할 수 있다.
심리학적으로 목소리가 ‘신뢰감’이란 것을 형성하는 데에 큰 비중을 차지한다는 것도 한몫 한다. 목소리를 통해 사람은 단어와 문장만이 아니라 감정과 뉘앙스까지 전달하기 때문이다. 서로 통화를 하며 대화했으면 평범할 내용이, 메신저를 통해 교류되면 이상하게 싸움이나 오해로 번지는 게 드문 일은 아니다. 보다 입체적인 소통을 가능하게 하는 것이 목소리이며, 따라서 복제의 난이도가 높은 대신 얻어가는 것도 많다. 하이 리스크 하이 리턴이다. 이에 비해 문자 복제(즉 피싱 메일 등)는 로우 리스크 로우 리턴이라 할 수 있다.
어떻게 방어해야 하나
인공지능이 보이스 피싱과 결합해 발전하기 시작한 이상 사람의 인지 능력만으로 막기는 힘들다. 이를 인정하는 것부터 방어는 시작된다. 인공지능은 인공지능이 알아본다(적어도 현재까지는). 인공지능이 만든 합성 음성이 아무리 진짜와 똑같더라도, 그것은 인간의 귀에 그렇게 들리는 것일 뿐이다. 기계 입장에서는 확연하게 보이는 부자연스러운 특징들이 존재하긴 한다. 인공지능을 탐지해주는 인공지능 모델들이 이미 존재하며, 따라서 여기에 투자해야 한다.
음성으로만 인증이 완료되도록 해서는 안 된다. 최근 얼굴 인식 분야에서는 ‘라이브니스(liveness)’라는 개념이 점점 중요해지고 있는데, 음성 인식 분야에서도 이를 차용할 필요가 있다. 무작위 구문을 반복해 읽게 하거나, 즉흥적인 질문에 빠른 시간 안에 대답하게 하는 등의 검사가 더 진행되도록 시스템을 마련해야 한다. 이를 통해 합성된 음성을 들고 공격하는 자들을 적잖이 당황시킬 수 있다.
라이브니스는 ‘진짜 사람이 지금 직접 이 행위를 하고 있는가?’를 판별하는 것을 말한다. 저기 화면에 보이는 얼굴이 진짜 사람인가, 진짜 사람이 자기 얼굴을 실시간으로 내비치고 있는가를 파헤치는 것이다. 예를 들어 화상회의 화면에 보이는 상대방이 사실은 녹화된 영상일 뿐이라거나, 얼굴 인식을 위해 미리 찍어둔 사진을 들이민다거나 하는 행위를 막기 위한 보안 기술이라 할 수 있다.
음성으로만 인증이 완료되면 안 된다는 건, 다중인증이 권장된다는 것과 같은 말이다. 음성 하나만이 아니라 비밀번호나 하드웨어 토큰, 또 다른 생체 정보를 활용해 여러 번 인증 절차를 거치도록 해야 한다. 이는 인공지능이 사람을 더 정교히 흉내 낼 미래에는 더더욱 필수가 될 것이므로 미리 익숙해지는 것도 나쁘지 않다. 또한 음성으로만 CEO가 송금을 명령할 수 없도록 회사 자체적으로 시스템을 정비하는 것도 좋은 생각이다. 그러면 합성 음성 CEO가 화난 목소리를 명령을 내려도 부하직원들이 절차를 핑계로 거절할 수 있게 된다.
기억력의 한계 때문에 인간은 메모를 발명했다. 펜과 메모지는 인간의 기억력을 무한대로 확장시키는 제2의 뇌로서의 역할을 든든히 하고 있다. 보이스 피싱의 발전으로 귀가 더 예민해져야 하는 때에, 우리는 펜과 메모지와 같은 외부의 확장 요인들을 찾아내야 한다. 멀리 있지 않다. 인공지능 방어 솔루션과 다중인증 등 돈이 아깝거나 귀찮아서 기피했던 것들이 이미 존재하기 때문이다.
Related Materials
- Phishing Attacks Rise: ThreatLabz 2024 Phishing Report, 2024년
- Scam calls in times of Generative AI - European Parliament로, 2024년
- A Guide to Deepfake Scams and AI Voice Spoofing - McAfee석, 2024년
- Top 5 Cases of AI Deepfake Fraud From 2024 Exposed - Incode, 2024년

