Amazon Web Services는 운영 중단(outage)을 설명하고 향후 운영 중단을 더 쉽게 추적할 수 있도록 지원합니다.
본문 바로가기
움직이는 경제

Amazon Web Services는 운영 중단(outage)을 설명하고 향후 운영 중단을 더 쉽게 추적할 수 있도록 지원합니다.

by To the sky 2021. 12. 12.

Amazon Web Services는 운영 중단(outage)을 설명하고 향후 운영 중단을 더 쉽게 추적할 수 있도록 지원합니다.

 

The Intro

  • 아마존 웹서비스(Amazon Web Services)는 네트워크 기기에 과부하(overloaded)가 걸린 후 화요일(현지시간) 대규모 정전(outage)이 시작되었다고 회사가 금요일에 발표했습니다.
  • Amazon공공 업데이트(updating the public)지원 문의를 접수(taking support inquiries)하는 데 문제가 발생했으며 이제 해당 시스템을 개선할 것입니다.

 

미국 동부 표준시 2021년 12월 10일 오후 8:11 발행

 

2021년 11월 30일 라스베이거스에서 열린 AWS re:Invent 컨퍼런스에서 Amazon Web Services CEO Adam Selipsky가 기조 연설을 하고 있습니다.

 

The Body

아마존 웹서비스(Amazon Web Services)는 이번 주 초 소매업(retail business)제 3자 온라인 서비스(third-party online services)에 차질을 빚은 몇 시간 동안 계속된 중단에 대한 해명을 금요일(현지시간) 발표했다. 회사는 또한 현황 페이지를 개편(revamp)할 계획이라고 말했다.


미국 버지니아주(Virginia)에 위치한 아마존의 대규모 미 동부 1 지역 데이터센터(Amazon’s large US-East-1 region) 문제는 오전 10시 30분부터 시작됐다. 회사 측은 ET가 화요일(현지시간) 발표했다.

 

회사는 웹사이트에 올린 글에서 "AWS 메인 네트워크에 호스팅 된 AWS 서비스 중 하나의 용량을 확장하기 위한 자동화된 활동이 내부 네트워크 내부의 수많은 고객들로부터 예상치 못한 행동을 촉발시켰다"라고 썼다. 그 결과 아마존 내부 네트워크(internal Amazon network)AWS 네트워크(AWS’ network)를 연결하는 기기가 과부하가 됐다.


가상 서버 용량(virtual server capacity)을 제공하는 널리 사용되는 EC2 서비스(EC2 service)를 포함하여 여러 AWS 툴이 어려움을 겪었다. AWS 엔지니어들은 이 문제를 해결하고 다음 몇 시간에 걸쳐 서비스를 다시 제공하기 위해 노력했다. 소프트웨어 개발자들(software developers)이 특정 활동에 대응하여 조치를 취하는 애플리케이션을 만들 수 있도록 도와주는 EventBridge 서비스는 동부 표준시 오후 9시 40분까지 완전히 복구되지 않았다.


다운타임(Downtime)이 발생하면 클라우드 인프라(cloud infrastructure)가 안정적이고 물리적 데이터 센터의 애플리케이션 마이그레이션(migrations of applications)을 처리할 준비가 되어 있다는 인식이 손상될 수 있습니다. 기업에도 큰 영향을 미칠 수 있다. AWS는 수백만 명의 고객을 보유하고 있으며 시장을 선도하는 제공업체이다.

 

 

AWS는 이번 정전이 고객들에게 끼친 영향에 대해 사과했다.

디즈니+(Disney+), 넷플릭스(Netflix), 티켓마스터(Ticketmaster) 등 유명 웹사이트와 많이 사용되는 서비스가 오프라인으로 전환되었다. 룸바 청소기(Roomba vacuums), 아마존 링 보안 카메라(Amazon’s Ring security cameras), 스마트 고양이 쓰레기통(cat litter boxes), 앱으로 연결된 천장 선풍기(app-connected ceiling fans)인터넷 연결 장치(internet-connected devices)정전사태(outage)로 파괴됐다.

 

아마존의 창고(Amazon’s warehouse)배달 인력(delivery workforce)이 사용하는 내부 앱이 AWS에 의존해 화요일 직원 대부분이 패키지를 스캔하거나 배달 경로에 접근할 수 없었다. 타사 판매자(Third-party sellers)도 고객 주문을 관리하는 사이트에 접속할 수 없었다.


운영 중단 기간 동안, AWS는 고객들에게 무슨 일이 일어나고 있는지 알려주려고 노력했지만, 클라우드는 서비스 상태 대시보드라고 알려진 상태 페이지(status page)를 업데이트하는 데 문제가 발생했습니다.


AWS는 "이벤트 기간 동안 서비스에 미치는 영향이 모두 단일 근본 원인으로 인해 발생했기 때문에 우리는 서비스 상태 대시보드의 글로벌 배너를 통해 업데이트를 제공하기로 선택했는데, 그 이후로 일부 고객이 이 문제에 대한 정보를 찾기 어려워졌다"라고 밝혔다.


또한 고객은 운영 중단 기간 동안 7시간 동안 지원 사례를 생성할 수 없었습니다.


AWS는 현재 이 두 가지 문제를 해결하기 위해 조치를 취하고 있다고 말했다.


AWS는 "서비스 영향을 쉽게 이해할 수 있는 새로운 버전의 서비스 상태 대시보드(Service Health Dashboard)와 고객과의 소통 지연이 없도록 여러 AWS 지역에서 활발히 실행되는 새로운 지원 시스템 아키텍처를 내년 초에 출시할 것으로 기대한다"라고 밝혔다.


AWS가 이슈를 보도하는 방식을 바꾼 것은 이번이 처음이 아니다.


2017년, 인기 있는 AWS S3 스토리지 서비스(AWS S3 storage service)를 강타한 정전으로 인해 엔지니어들이 서비스 상태 대시보드에서 가동 시간을 나타내는 올바른 색상을 보여주지 못했습니다. 아마존이 새로운 정보를 공개하기 위해 배너를 게시하고 트위터에 갔다.


아마존은 해당 에피소드에 대한 메시지(a message )에서 "여러 AWS 지역에서 실행되도록 SHD 관리 콘솔(SHD administration console)을 변경했다"라고 밝혔다.

The Reference

Amazon Web Services explains outage and will make it easier to track future ones

https://www.cnbc.com/2021/12/10/aws-explains-outage-and-will-make-it-easier-to-track-future-one s.html?__source=androidappshare

댓글