AWS 마비! 엉뚱한 오해도 확산?

AWS 마비! 엉뚱한 오해도 확산?
Photo by Ivan N / Unsplash
💡
Editor's Pick
- 인터넷의 광범위한 영역이 마비돼
- 아마존 발표 중 "오류 비율 급증"이라는 표현이 오해 낳기도
- 인프라 이용 현황, 다시 돌아봐야

AWS가 마비되면서 인터넷의 광범위한 영역이 장애를 일으키는 중이다. 스냅챗(Snapchat), 포트나이트(Fortnite), 로블록스(Roblox), 듀오링고(Duolingo), 링(Ring), 퍼플렉시티(Perplexity) 등 인기 높은 웹 서비스 및 앱들이 작동하지 않고 있는 이유가 바로 이 사태와 관련이 있다. 한국 시간으로 오후 4시경부터 관련 소식이 전파되기 시작했다.

현재까지 정확한 상황이 밝혀지지는 않았지만 전 세계 인터넷 핵심 허브 중 하나인 미국 버지니아 북부의 대규모 데이터센터와 관련이 있는 것으로 추정된다. 이미 다수 외신들이 이곳의 아마존 시설을 언급하는 기사를 내놓고 있다. 아마존은 AWS 서비스 페이지를 통해 이번 마비 사태를 빠르게 인정하며 “아마존 다이나모디비(Amazon DynamoDB)와 아마존 EC2가 특히 많은 영향을 받고 있다”고 설명했다. 그러면서 ‘오류 비율이 증가하는 현상이 나타나 조사에 착수했다”고 밝혔다.

💡
여기서 잠깐!
다이나모디비와 EC2는 전 세계 수천 개 기업이 서비스와 애플리케이션 운영을 위해 임대하여 사용하는 핵심 인프라다. 여기서 기업들은 서비스 운영에 필요한 컴퓨팅 파워를 제공 받는다. 사용자의 의존성이 높은 서비스라는 의미다. 수많은 서비스들이 마비된 것은 이 때문이다.

‘오류 비율의 증가’?

아마존은 이번 사태를 발표하면서 ‘오류 비율이 증가하고 있다(increased error rate)’라는 표현을 사용했는데, 이것은 어떤 의미일까? 장애가 발생하기 전부터 오류가 점점 많이 나타나고 있었다는 뜻일까? 그렇다면 아마존은 징조를 알고 있었으면서도 대처를 하지 못한 걸까? 일부 사용자들 사이에서 이 표현을 두고 아마존의 실책을 벌써 결론 내리려 하고 있다.

결론부터 말하자면 이는 잘못된 추정이다. 아마존이 말하는 increased error rate는 AWS 전체의 요청 중 오류를 반환하는 건이 크게 늘었다는 의미로, 이번 단일 사건에 국한된 표현이다. AWS 같은 대형 클라우드 서비스는 매초 수많은 요청을 처리한다. 하지만 이를 전부 성공적으로 처리하지는 못하는데, 그럴 때 오류가 발생한다. 전체 요청 대비 오류 발생 수를 오류 비율이라고 한다.

예를 들어 평소 AWS가 1억 건 요청을 받는데 100 건을 처리하지 못했다고 치면, 이 때의 오류 비율은 0.0001%다. 이것이 평소 수치라면, 이번 사태로 인해 10만 건을 처리하지 못하게 됐을 수도 있다. 이 때의 오류 비율은 0.1%가 된다. 급격히 증가한 것이다. AWS가 말하는 ‘오류 비율 증가 현상’은 바로 이것을 말한다. 요즘 들어 오류가 많아졌다는 건 왜곡이다. 

다운디텍터 그래프, 천장 뚫을 기세

인터넷에서 마비 현상이 나타날 때 이를 집계해 주는 사이트가 하나 있다. 바로 다운디텍터(Downdetector)이다. 여기에서 사건의 규모를 파악할 수 있는데, 이번 사태를 찾아보면 매우 광범위함을 알 수 있다. 붉은 그래프가 갑자기 치솟는데, 그 정도가 매우 심하기 때문이다. 

빨간색이 천장을 뚫을 기세다[자료: 다운디텍터]

또한 다운디텍터의 첫 페이지에는 이번 사태로 마비가 된 각종 서비스들을 보여주고 있는데, 그 수가 어마어마하다. 잠깐 맛보기로만 보여주면 다음과 같다.

관련 없는 기업들이 한꺼번에 마비됐다[자료: 다운디텍터]

이 수많은 회사들이 한 그룹의 자회사였다면 이렇게 일제히 다운된 것을 이해할 수 있다. 하지만 이 회사들은 전혀 관련이 없다. 다만 AWS 고객사였다는 공통점만 가지고 있다. 보안 업계에서는 “관련 없는 서비스들이 동시에 마비된 건 인프라 운영의 근본적 오류를 나타낸다”고 풀이하고 있다. 하나의 플랫폼이나 인프라에 자원이 집중되면 리스크가 커진다는 건 오래전부터 알려진 사실이다. “계란을 한 바구니에 담지 말라”는 말은 자산 분배에만 해당되는 말이 아니다.


클라우드에 비밀 저장하는 기업들, 전부 비상
💡Editor’s Pick - 클라우드 기반이 되는 인텔과 AMD 칩셋들 위험 - 설계 오류 파고들어 보호 영역 데이터 열람 가능 - 공격에 들어가는 비용은 단돈 50달러 클라우드 시스템 내 사용되는 강력한 프로세서들을 공략할 수 있는 새로운 방법이 개발됐다. 보다 정확히는 취약점이 발견된 것인데, 익스플로잇 공격까지 시연한 루벤대학과 버밍엄대학 연구원들은 이 취약점을
클라우드 생태계의 ‘책임 공유 모델’은 이미 현실이다
💡Editor’s Pick - 클라우드 보안 책임은 업체와 사용자가 상호 부담 - 사실 업체들은 대부분 잘 하고 있음 - 사용자가 낸 설정 오류가 대부분 사고의 원인 말의 힘은 대단하다. 말에 따라 있는 것이 없는 것처럼 여겨지고, 어떤 단어를 쓰느냐에 따라 큰 문제가 작게 혹은 작은 문제가 크게 번지기도 한다. 현상은 거기에

Read more

갑자기 비밀번호 변경하라고? 인스타그램 사용자들 ‘불안’

갑자기 비밀번호 변경하라고? 인스타그램 사용자들 ‘불안’

💡Editor' s Pick - 비밀번호 재설정 요청 메일을 받은 인스타그램 사용자 일부 - 해당 메일은 인스타그램이 보낸 것...피싱 아니었음 - 같은 시기에 다크웹에 올라온 인스타그램 사용자 정보 일부 인스타그램 사용자들이 “비밀번호를 재설정 해달라”는 요청을 인스타그램으로부터 받는 일이 지난 주에 있었다. 해당 메일에 따라 사용자들은 비밀번호를 변경하거나 그대로

By 문가용 기자
토렌트, OSINT로서의 가치 충분

토렌트, OSINT로서의 가치 충분

💡Editor's Pick - 토렌트는 원래 대용량 파일 전송 위한 프로토콜 - 요즘 불법 다운로드의 대명사처럼 쓰이지만, 원래는 합법 기술 - 기업 망에서 토렌트 트래픽 있나 점검할 필요 있어 토렌트 트래픽 혹은 토렌트 메타데이터를 오픈소스 인텔리전스(OSINT)로 활용할 수 있다는 연구 결과가 발표됐다. 네덜란드 틸뷔르흐대학의 연구원 두 명과,

By 문가용 기자
[TE머묾] 이민국에 대항하는 미국 시민들, 한국에도 힌트가 되다

[TE머묾] 이민국에 대항하는 미국 시민들, 한국에도 힌트가 되다

💡Editor's Pick - 각자의 방법으로 ICE의 감시 기술 고발하는 사람들 - 카메라 위치, 단속 요원 움직임 파악해 DB화 후 공유 - 한국의 얼굴 인식 대량 수집 제도에 어떻게 대응할까 이민세관단속국(ICE)이 이민자들만이 아니라 일반 시민들까지도 감시 및 추적한다는 사실이 미국 사회에 급격히 퍼지기 시작하면서 여러 가지 대응책들이

By 문가용 기자
VM웨어 ESXi 제로데이 취약점, 중국 해커들은 오래 전부터 알고 있었다

VM웨어 ESXi 제로데이 취약점, 중국 해커들은 오래 전부터 알고 있었다

💡Editor's Pick - VM웨어 ESXi에서 발견된 세 가지 제로데이 취약점 - 작년 12월에 첫 공격 사례 발표됐으나, 추적해 보니 2024년에도 공격 있어 - 제로데이 미리 알고 있었기에, 피해 점검 더 넓고 깊게 해야 소닉월 VPN을 악용해 VM웨어 ESXi를 노리는 중국 해커들의 악행이 생각보다 오래 전에 시작된 것으로 보인다고

By 문가용 기자