아마존에 이어 MS 클라우드도 마비
- MS 애저의 프론트도어 시스템에서 설정 오류
- 이로 인해 라우팅이 원활하게 되지 않아
- 지나친 클라우드 의존도는 오히려 독
아마존이 마비되면서 인터넷의 광범위한 영역이 덩달아 장애를 겪는 사건이 벌어진 지 1주일도 지나지 않았는데, 이번에는 MS의 인프라가 중단돼 또 다시 인터넷이 깜깜해졌다. 미국 현지 시간 기준 10월 29일에 벌어진 이 사건으로 전 세계로 송출되던 다수의 서비스가 중단되며 큰 혼란이 야기됐다. MS 클라우드 네트워크의 설정 변경으로부터 시작된 일이라고 MS는 밝혔다.
무슨 일 있었나?
MS가 조사해 발표한 내용에 따르면 이번 사건은 애저프론트도어(Azure Front Door)와 관련이 있다고 한다. 애저프론트도어는 일종의 콘텐츠 전송 네트워크(CDN)이자 트래픽 분산을 위한 게이트웨이라고 할 수 있다. 이름 그대로 MS의 클라우드인 애저를 기반으로 하고 있다. 사용자가 특정 애저 기반 웹사이트나 애저 기반 애플리케이션을 자신의 장비로 접속한다고 했을 때, 접속을 위한 요청을 애저프론트도어가 먼저 받고, 그것을 가장 가까운 네트워크 지점으로 라우팅하는 것이 바로 이 애저프론트도어다.
애저프론트도어가 제 기능을 발휘하지 못한다면 사용자의 요청이나, 서버의 응답이 제대로 교류되지 않는다. 이것이 이번에 발생한 문제라고 할 수 있다. “애저프론트도어와 내부 라우팅에 영향이 있었다”고 MS는 현재 상황을 업데이트 했으며, “이로 인해 DNS 해석에도 오류가 발생하고, 그에 따라 서비스 전반에 걸쳐 광범위한 연결 문제가 일어났다”고 설명을 이어갔다.
이로 인해 광범위한 지역에서 서비스 마비 현상이 보고되고 있으며, 각종 서비스들이 현재 사용불능 상태다. MS의 애저와 MS 365가 제일 먼저 영향을 받았다. 사용자들은 애저 클라우드 포털에 접근할 수 없다고 하며, MS 365 사용자들 역시 로그인이 되지 않는다고 불만을 제기했다. 로그인이 되더라도 일부 기능이 심각하게 느려서 사용할 수 없는 지경이라고 한다.
MS의 협업 애플리케이션인 팀즈에서도 불만이 터져나오는 중이다. 가상회의를 이어갈 수 없다는 불만이 다수 접수되고 있다. 유명 게임 마인크래프트(Minecraft)와, MS의 게임 플랫폼인 엑스박스라이브(XBox Live) 역시 접속이 불가능하다. 인공지능 서비스인 코파일럿(Copilot) 역시 제 성능을 발휘하지 못한다고 한다.
이렇게 되면 이런 서비스들을 이용하는 고객사들에도 심각한 타격이 가는 건 당연지사. 수많은 기업들이 사실상 업무를 보지 못하고 있다고 하며, 게이머들 역시 게임에 접속할 수 없다는 사실에 답답해 하고 있다. 알라스카항공(Alaska Airlines)과 보다폰(Vodafone) 등 유명 기업들에서도 연쇄적인 서비스 마비가 나타나는 중이다.
어떻게 되어가고 있나?
MS는 상황을 파악하면서 동시에 긴급 픽스를 배포 및 적용하고 있다. 또한 영향 받은 지역에서부터 트래픽을 다시 라우팅하고 있으며, 오류가 나타나기 직전의 설정 상태로 롤백을 진행하고 있다고 밝혔다. 그러면서 일부 서비스들이 서서히 이전 모습을 되찾아가고 있다. 전 세계 인터넷 마비 현황을 보여주는 사이트인 다운디텍터(DownDetector)에서도 한껏 치솟았던 그래프가 서서히 꺾이는 모습이 보인다. 다만 아직 정상으로 복구됐다고 말하기는 어렵다. MS도 “정상 복구에 수시간 더 소요될 예정”이라고 알리고 있다.
사용자들이 해야 할 일은 무엇일까? MS는 “제일 먼저 각 기업 관리자들은 MS 365의 공식 상태 페이지에서부터 현재 상황을 파악하는 것부터 시작해야 한다”고 짚는다. “거기서 최신 업데이트가 무엇인지, 혹은 어떤 조치가 안내돼 있는지 알아내, 그대로 적용하는 게 좋습니다. 그 다음, 애저를 사용하고 있었다면 애저 상태 페이지도 비슷한 방식으로 이용해야 합니다.” 일반 사용자들도 불편을 겪고 있다면 상태 페이지 확인으로 최신 조치를 취해가는 게 권장된다.
엑스박스나 마인크래프트 사용자들이라면 어떨까? MS는 “아직 복구가 완료되지 않았으므로 지금 접속이 된다 하더라도 게임 진행이 원활하지 않을 것”이라며 “완전 복구 발표가 날 때까지 기다렸다가 접속해 플레이 하는 것이 가장 안전하다”고 권한다.
클라우드에 대한 의존도
클라우드에 대한 기업들의 의존도가 높아지면서, 클라우드 마비로 인한 서비스 중단이 지나치게 광범위하게 퍼지고 있다. 클라우드로의 이주가 가속화됨에 따라 이런 현상은 더 빈번해질 가능성이 높다고 전문가들은 예측한다.
클라우드가 마비되면 기업들은 재정 손실은 물론 생산성 저하라는 피해를 입는다. 복구 비용이 추가로 들 수도 있고, 상황에 따라 소송전에 휘말릴 수도 있다. 이 역시 추가 비용을 야기한다. 무엇보다 소비자들의 신뢰도가 하락하는 것이 문제다. 사건의 근원은 ‘클라우드 서비스’이지만 일반 소비자들은 자기 눈앞에서 마비된 서비스를 탓한다. 예를 들어 위에서 언급된 알라스카항공의 경우, 소비자들은 티케팅을 처리하지 못하는 항공사에 불만을 갖지, MS로까지 거슬러 올라가 문제의 근원을 파악하려 하지 않는다는 것이다.
아직 피해 규모가 다 집계되지 않아서 알 수 없지만, 의료 기관이 애저에 의존하고 있었다면 어땠을까? 금융 기관이 그랬다면? 중대 거래가 중단되면서 천문학적 손해가 발생했을 수도 있고, 누군가의 생명이 위태로워졌을 수도 있다. 이는 시장 내 소비자 평가보다 훨씬 더 큰 문제일 수도 있다.
이 때문에 클라우드로의 이주를 꾀하고 있는 조직이라면, 서비스 연속성에 대한 고민을 보다 깊이 해야 한다. 특정 브랜드의 클라우드에 허점이 많다는 게 아니라, 클라우드에 대한 지나친 의존성 그 자체가 위태로운 체계라는 것을 이해하는 게 중요하다.
이에 많은 전문가들은 이전부터 멀티클라우드와 하이브리드 체제를 강력히 권장하고 있다. 운영비가 다소 들더라도 다수 클라우드에 핵심 워크로드를 분산시켜 놓는 것이 멀티클라우드다. 자체 데이터센터와 서버를 구축함으로써 온프레미스 기능을 어느 정도 유지하는 것이 하이브리드다. 이렇게 하면 한 클라우드가 마비된다 하더라도 서비스를 문제 없이 가동시킬 수 있다.
그 외에도 재해 복구 기능을 강화하는 것도 중요하다. 멀티클라우드와 하이브리드 체제를 갖추는 건 ‘하드웨어’ 차원의 이야기다. 하드웨어가 갖춰졌으니 그걸 이용할 준비를 갖춰야 한다. 즉 워크로드를 분산시켜 놓는 것만으로 서비스가 원활해지지 않는다는 것이다. 특정 클라우드가 마비됐을 때 얼른 다른 클라우드나 온프레미스가 자동으로 가동되도록 미리 조치를 취하고 절차를 마련해야 한다.
그러려면 클라우드 서비스의 현황에 대한 내부 모니터링 시스템을 갖추는 것도 좋은 방법이다. 지금은 이런 사태가 띄엄띄엄 일어나기 때문에 필요 없어 보이지만, 훗날 클라우드가 빈번하게 멈추는 때가 온다면, 이는 필수로 자리 잡을 것으로 보인다. 클라우드를 제공하는 게 대기업이니 알아서 조치를 취하겠거니 하며 믿고 있다가 피해를 입는 건 사용자 기업이다. MS나 아마존이 대신 피해를 입어주지 않는다.
by 문가용 기자(anotherphase@thetechedge.ai)
Related Materials
- Microsoft Azure and Microsoft 365 Services Affected by Central US Outage Resulting from Bad Configuration Change, NotebookCheck, 2024년
- Azure Incident on January 21, 2024, Web Performance, 2024년
- 1K80-N_8 - Azure Status History (Technical Breakdown), Microsoft, 2024년
- Microsoft Azure Outage Recovers Following Brief Disruption, Israel Hayom, 2024년

