AWS 마비! 엉뚱한 오해도 확산?
- 인터넷의 광범위한 영역이 마비돼
- 아마존 발표 중 "오류 비율 급증"이라는 표현이 오해 낳기도
- 인프라 이용 현황, 다시 돌아봐야
AWS가 마비되면서 인터넷의 광범위한 영역이 장애를 일으키는 중이다. 스냅챗(Snapchat), 포트나이트(Fortnite), 로블록스(Roblox), 듀오링고(Duolingo), 링(Ring), 퍼플렉시티(Perplexity) 등 인기 높은 웹 서비스 및 앱들이 작동하지 않고 있는 이유가 바로 이 사태와 관련이 있다. 한국 시간으로 오후 4시경부터 관련 소식이 전파되기 시작했다.
현재까지 정확한 상황이 밝혀지지는 않았지만 전 세계 인터넷 핵심 허브 중 하나인 미국 버지니아 북부의 대규모 데이터센터와 관련이 있는 것으로 추정된다. 이미 다수 외신들이 이곳의 아마존 시설을 언급하는 기사를 내놓고 있다. 아마존은 AWS 서비스 페이지를 통해 이번 마비 사태를 빠르게 인정하며 “아마존 다이나모디비(Amazon DynamoDB)와 아마존 EC2가 특히 많은 영향을 받고 있다”고 설명했다. 그러면서 ‘오류 비율이 증가하는 현상이 나타나 조사에 착수했다”고 밝혔다.
다이나모디비와 EC2는 전 세계 수천 개 기업이 서비스와 애플리케이션 운영을 위해 임대하여 사용하는 핵심 인프라다. 여기서 기업들은 서비스 운영에 필요한 컴퓨팅 파워를 제공 받는다. 사용자의 의존성이 높은 서비스라는 의미다. 수많은 서비스들이 마비된 것은 이 때문이다.
‘오류 비율의 증가’?
아마존은 이번 사태를 발표하면서 ‘오류 비율이 증가하고 있다(increased error rate)’라는 표현을 사용했는데, 이것은 어떤 의미일까? 장애가 발생하기 전부터 오류가 점점 많이 나타나고 있었다는 뜻일까? 그렇다면 아마존은 징조를 알고 있었으면서도 대처를 하지 못한 걸까? 일부 사용자들 사이에서 이 표현을 두고 아마존의 실책을 벌써 결론 내리려 하고 있다.
결론부터 말하자면 이는 잘못된 추정이다. 아마존이 말하는 increased error rate는 AWS 전체의 요청 중 오류를 반환하는 건이 크게 늘었다는 의미로, 이번 단일 사건에 국한된 표현이다. AWS 같은 대형 클라우드 서비스는 매초 수많은 요청을 처리한다. 하지만 이를 전부 성공적으로 처리하지는 못하는데, 그럴 때 오류가 발생한다. 전체 요청 대비 오류 발생 수를 오류 비율이라고 한다.
예를 들어 평소 AWS가 1억 건 요청을 받는데 100 건을 처리하지 못했다고 치면, 이 때의 오류 비율은 0.0001%다. 이것이 평소 수치라면, 이번 사태로 인해 10만 건을 처리하지 못하게 됐을 수도 있다. 이 때의 오류 비율은 0.1%가 된다. 급격히 증가한 것이다. AWS가 말하는 ‘오류 비율 증가 현상’은 바로 이것을 말한다. 요즘 들어 오류가 많아졌다는 건 왜곡이다.
다운디텍터 그래프, 천장 뚫을 기세
인터넷에서 마비 현상이 나타날 때 이를 집계해 주는 사이트가 하나 있다. 바로 다운디텍터(Downdetector)이다. 여기에서 사건의 규모를 파악할 수 있는데, 이번 사태를 찾아보면 매우 광범위함을 알 수 있다. 붉은 그래프가 갑자기 치솟는데, 그 정도가 매우 심하기 때문이다.

또한 다운디텍터의 첫 페이지에는 이번 사태로 마비가 된 각종 서비스들을 보여주고 있는데, 그 수가 어마어마하다. 잠깐 맛보기로만 보여주면 다음과 같다.

이 수많은 회사들이 한 그룹의 자회사였다면 이렇게 일제히 다운된 것을 이해할 수 있다. 하지만 이 회사들은 전혀 관련이 없다. 다만 AWS 고객사였다는 공통점만 가지고 있다. 보안 업계에서는 “관련 없는 서비스들이 동시에 마비된 건 인프라 운영의 근본적 오류를 나타낸다”고 풀이하고 있다. 하나의 플랫폼이나 인프라에 자원이 집중되면 리스크가 커진다는 건 오래전부터 알려진 사실이다. “계란을 한 바구니에 담지 말라”는 말은 자산 분배에만 해당되는 말이 아니다.
Related Materials
- AWS Outage Analysis: June 13, 2023 (AWS 정전 분석: 2023년 6월 13일) - ThousandEyes , 2023년
- The History of AWS Outage (AWS 정전 역사) - StatusGator , 2024년
- AWS Post-Event Summaries (AWS 사후 이벤트 요약) - AWS (2023년 6월 13일 및 2024년 7월 30일 이벤트 요약 포함) , 2023년/2024년
- The 10 Biggest Cloud Outages Of 2024 (So Far) (2024년 현재까지 가장 큰 10가지 클라우드 중단 사태) - CRN , 2024년

