발등이 아프다

아침부터 요란하게 전화가 울린다 했더니, 아니나다를까 서버장애가 발생했다. 회사에 와 보니 옆 자리 동료는 이미 와서 씨름중.. 회사내 서비스가 모두 AWS기반이다 보니, 온갖 장애를 다 뿜뿜하고있었다.

도메인서버 에러

아직 정확한 에러내용을 AWS측에서 오픈한건 아니나, DNS 장애로 판단이 되었다. AWS route53에서 서브도메인을 이용하여 커넥션을 잡는 경우 2차 장애가 있다고하니, AWS 노예들은 조심하도록… 3시간 이상 장애가 지연되면, 보상해준다고 어디서 들었는데 맞나?

AWS 리전별 health check

AWS service health dashboard 8:30 부터 장애발생해서, 현시간 11:00 기준 거의 케이스 클로즈 되었지만, 아직 Lambda는 정신 못차리는 상태인듯. 그래서 회사내 한 서비스가 제대로 복구가 되지 못했다.

감상문

클라우드를 기반으로 한 SaaS는 이렇게 한 회사의 장애로 큰 타격을 받을 수 있구나 생각했다. 우리회사뿐만아니라 쿠팡, KBS, 배민… 다 날고 긴다는 기업들인데도 외국의 한 회사에 의존성이 이렇게 크다니. 부모 클래스가 맛이 가는거니, 대체할 부모클래스를 따로 만들어 놓는편이 좋은가? 옆 동료가 클라우드 이중화?에대해 거론 하였는데, 한번 살펴봐야겠다. 오늘 아침부터 고생한 개발자분들 화이팅.