AWS 마비! 엉뚱한 오해도 확산?

AWS 마비! 엉뚱한 오해도 확산?
Photo by Ivan N / Unsplash
💡
Editor's Pick
- 인터넷의 광범위한 영역이 마비돼
- 아마존 발표 중 "오류 비율 급증"이라는 표현이 오해 낳기도
- 인프라 이용 현황, 다시 돌아봐야

AWS가 마비되면서 인터넷의 광범위한 영역이 장애를 일으키는 중이다. 스냅챗(Snapchat), 포트나이트(Fortnite), 로블록스(Roblox), 듀오링고(Duolingo), 링(Ring), 퍼플렉시티(Perplexity) 등 인기 높은 웹 서비스 및 앱들이 작동하지 않고 있는 이유가 바로 이 사태와 관련이 있다. 한국 시간으로 오후 4시경부터 관련 소식이 전파되기 시작했다.

현재까지 정확한 상황이 밝혀지지는 않았지만 전 세계 인터넷 핵심 허브 중 하나인 미국 버지니아 북부의 대규모 데이터센터와 관련이 있는 것으로 추정된다. 이미 다수 외신들이 이곳의 아마존 시설을 언급하는 기사를 내놓고 있다. 아마존은 AWS 서비스 페이지를 통해 이번 마비 사태를 빠르게 인정하며 “아마존 다이나모디비(Amazon DynamoDB)와 아마존 EC2가 특히 많은 영향을 받고 있다”고 설명했다. 그러면서 ‘오류 비율이 증가하는 현상이 나타나 조사에 착수했다”고 밝혔다.

💡
여기서 잠깐!
다이나모디비와 EC2는 전 세계 수천 개 기업이 서비스와 애플리케이션 운영을 위해 임대하여 사용하는 핵심 인프라다. 여기서 기업들은 서비스 운영에 필요한 컴퓨팅 파워를 제공 받는다. 사용자의 의존성이 높은 서비스라는 의미다. 수많은 서비스들이 마비된 것은 이 때문이다.

‘오류 비율의 증가’?

아마존은 이번 사태를 발표하면서 ‘오류 비율이 증가하고 있다(increased error rate)’라는 표현을 사용했는데, 이것은 어떤 의미일까? 장애가 발생하기 전부터 오류가 점점 많이 나타나고 있었다는 뜻일까? 그렇다면 아마존은 징조를 알고 있었으면서도 대처를 하지 못한 걸까? 일부 사용자들 사이에서 이 표현을 두고 아마존의 실책을 벌써 결론 내리려 하고 있다.

결론부터 말하자면 이는 잘못된 추정이다. 아마존이 말하는 increased error rate는 AWS 전체의 요청 중 오류를 반환하는 건이 크게 늘었다는 의미로, 이번 단일 사건에 국한된 표현이다. AWS 같은 대형 클라우드 서비스는 매초 수많은 요청을 처리한다. 하지만 이를 전부 성공적으로 처리하지는 못하는데, 그럴 때 오류가 발생한다. 전체 요청 대비 오류 발생 수를 오류 비율이라고 한다.

예를 들어 평소 AWS가 1억 건 요청을 받는데 100 건을 처리하지 못했다고 치면, 이 때의 오류 비율은 0.0001%다. 이것이 평소 수치라면, 이번 사태로 인해 10만 건을 처리하지 못하게 됐을 수도 있다. 이 때의 오류 비율은 0.1%가 된다. 급격히 증가한 것이다. AWS가 말하는 ‘오류 비율 증가 현상’은 바로 이것을 말한다. 요즘 들어 오류가 많아졌다는 건 왜곡이다. 

다운디텍터 그래프, 천장 뚫을 기세

인터넷에서 마비 현상이 나타날 때 이를 집계해 주는 사이트가 하나 있다. 바로 다운디텍터(Downdetector)이다. 여기에서 사건의 규모를 파악할 수 있는데, 이번 사태를 찾아보면 매우 광범위함을 알 수 있다. 붉은 그래프가 갑자기 치솟는데, 그 정도가 매우 심하기 때문이다. 

빨간색이 천장을 뚫을 기세다[자료: 다운디텍터]

또한 다운디텍터의 첫 페이지에는 이번 사태로 마비가 된 각종 서비스들을 보여주고 있는데, 그 수가 어마어마하다. 잠깐 맛보기로만 보여주면 다음과 같다.

관련 없는 기업들이 한꺼번에 마비됐다[자료: 다운디텍터]

이 수많은 회사들이 한 그룹의 자회사였다면 이렇게 일제히 다운된 것을 이해할 수 있다. 하지만 이 회사들은 전혀 관련이 없다. 다만 AWS 고객사였다는 공통점만 가지고 있다. 보안 업계에서는 “관련 없는 서비스들이 동시에 마비된 건 인프라 운영의 근본적 오류를 나타낸다”고 풀이하고 있다. 하나의 플랫폼이나 인프라에 자원이 집중되면 리스크가 커진다는 건 오래전부터 알려진 사실이다. “계란을 한 바구니에 담지 말라”는 말은 자산 분배에만 해당되는 말이 아니다.


클라우드에 비밀 저장하는 기업들, 전부 비상
💡Editor’s Pick - 클라우드 기반이 되는 인텔과 AMD 칩셋들 위험 - 설계 오류 파고들어 보호 영역 데이터 열람 가능 - 공격에 들어가는 비용은 단돈 50달러 클라우드 시스템 내 사용되는 강력한 프로세서들을 공략할 수 있는 새로운 방법이 개발됐다. 보다 정확히는 취약점이 발견된 것인데, 익스플로잇 공격까지 시연한 루벤대학과 버밍엄대학 연구원들은 이 취약점을
클라우드 생태계의 ‘책임 공유 모델’은 이미 현실이다
💡Editor’s Pick - 클라우드 보안 책임은 업체와 사용자가 상호 부담 - 사실 업체들은 대부분 잘 하고 있음 - 사용자가 낸 설정 오류가 대부분 사고의 원인 말의 힘은 대단하다. 말에 따라 있는 것이 없는 것처럼 여겨지고, 어떤 단어를 쓰느냐에 따라 큰 문제가 작게 혹은 작은 문제가 크게 번지기도 한다. 현상은 거기에

Read more

영국 군, 내년도에 대규모 이스포츠 대회 연다?

영국 군, 내년도에 대규모 이스포츠 대회 연다?

💡Editor's Pick for Juniors - 영국 군, 40개 동맹국과 함께 이스포츠 대회 열어 - 내년도에 있을 대규모 워게임 훈련...게임 하듯 진행 - 러우 전쟁 치르는 우크라이나 군에서 많은 아이디어 얻어온 듯 Juniors! 안녕! 테크를 가장 날카롭고 가치 있게 읽어주는 더테크엣지 아빠들이야. 영국 군이 내년에 국제적인 규모의 군사

By 문가용 기자
파일 이름 검색 도구 글롭에서 고위험군 취약점 나와

파일 이름 검색 도구 글롭에서 고위험군 취약점 나와

💡Editor's Pick - 개발자들이 널리 사용하는 도구 글롭 - 그 글롭의 명령행 인터페이스에서 취약점 발견돼 - 파일 이름이 공격 도구로 전환돼 개발자들이 흔히 사용하는 오픈소스 패키지인 글롭(glob)에서 위험한 취약점이 발견됐다. 일반 사용자들이 직접 사용할 일은 거의 없어 대중적으로 낯선 이름이지만, 개발자들은 이를 활용해 여러 가지 도구와

By 문가용 기자
삼성 갤럭시 A와 M 시리즈에 선탑재된 스파이웨어 논란

삼성 갤럭시 A와 M 시리즈에 선탑재된 스파이웨어 논란

💡Editor's Pick for Juniors - 삼성 저가형 스마트폰 시리즈에서 발견된 앱클라우드 앱 - 사실은 지는 여름부터 지적돼 온 스파이웨어 - 이런 스마트폰 문제 쉽게 해결되지 않아...소비자 훈련이 더 중요 Youngsters! 테크를 가장 날카롭고 가치 있게 읽어주는 더테크엣지 아빠들이야. 한국을 대표하는 회사인 삼성에서 프라이버시 침해 논란이 일어났어. 삼성이

By 문가용 기자