카카오 장애, 10년 전 사고 데자뷰 … 12년 4월 전기 끊겨 서비스 중단
카카오 장애, 10년 전 사고 데자뷰 … 12년 4월 전기 끊겨 서비스 중단
  • 김현동
  • 승인 2022.10.15 19:03
  • 댓글 0
이 기사를 공유합니다

카카오톡 서비스가 중단된 그 짧은 시간 동안 많은 것을 새삼 느꼈다는 사용자가 많습니다. 무엇보다 카카오톡 서비스에 의존하고 있었다는 것을 재차 확인했다는 공통점을 하나 같이 보였는데요.

국민 메신저로 자리한 카카오톡을 시작으로 택시 서비스인 카카오T 그리고 다음 카카오, 카카오맵, 카카오게임 여기에 코인 거래소는 물론 카카오 인증을 이용하는 여타 서비스까지 연쇄적으로 서비스 중단 영향권에 들어왔습니다.

카카오가 유일하게 인정한 대체재 트윗을 통해 공개한 내용에 따르면 사건 발생 시간은 15일 낮 3시 30분경입니다.


▲ 인터넷 사이트 접속은 503 에러 메시지만 내보냅니다. 서버가 아예 죽었다는 의미겠죠.


▲ 트위터를 통해 내부 사정을 알린 카카오, 좀 더 구체적으로 알려주거나 실시간으로 처리 상황을 업데이트해 줬으면 얼마나 좋았을까요.


▲ 주요 언론사는 카카오 장애에 대해 발 빠르게 퍼 나르며 비중을 두고 보도하고 있습니다.


▲ 카카오가 클라우드 서비스도 하고 있네요? 자사 서비스도 제대로 못하는 회사의 클라우드 서비스라? 믿을 수 있겠어요?

카카오 측은 본의 아니게 자사 메신저 오류 사실을 남의 서비스를 이용해 공개할 수밖에 없는 시련을 겪고 있습니다. 서비스 홈페이지는 중단되었고, 가장 유력한 포털 서비스 다음 카카오 또한 운영이 여의찮게 되면서 트위터를 통해 알려야만 했습니다.

대한민국을 대표하는 회사의 씁쓸한 자화상일 수밖에 없네요.

여하튼 사건 발생 3시간이 지난 밤 6시 반이 넘어갈 때까지 서비스가 개선되기는커녕 오히려 조금이라도 되었던 서비스조차도 그마저 중단되면서 사태가 예상하는 것보다 더 클 수 있다는 우려에 힘이 쏠리고 있습니다.

카카오 홍보실이 구체적인 해명을 하지 않는 관계로, 항간에 떠도는 다양한 피셜이 있습니다만 그중 가장 유력하게 지목되는 한 가지는 ▲ 카카오 장애는 판교 SK C&C 데이터센터 지하 3층 주차장 차량 화재로 인해 발생입니다.

이에 따라 보조 전원인 UPS로 불이 옮겨붙었고 리튬배터리라 소화가 쉽지 않아 연쇄 폭발을 막기 위해 전원을 다 내렸다는 내용이죠. 보통 IDC 내부 화재라면 하론 가스 소화 설비가 갖춰져 있기에 초기 진화가 가능하지 않았을까 싶네요.

하지만 차량 화재라면, 그것도 전기차량 화재라면 다른 차원에서 접근해야겠죠. 이미 현대차 아이오닉 전기차를 통해 여러 차례 보고 되었고 열폭주 현상이 발생하면 500도 이상 온도가 상승하고 배터리가 다 탈 때까지 타들어 간다는 현상을요.

만약 지하 3층 주차장에서 전기차로 인한 차량 화재로 인한 문제라면? 그럴 가능성은 없길 바랄 뿐입니다.

기자는 한때 IDC 서비스를 하던 홍보실에 잠시 근무한 바 있습니다. 다들 아는 호스팅 브랜드 카페24와 스마일서브인데요. 두 회사에서 자주 접하던 핵심 키워드라면 무중단·무정전이 있겠네요. 이는 서비스뿐만이 아니라 안에서 이뤄지는 모든 활동에 해당하는 단어입니다. 그래서 여기에는 영속성이 따라 붙죠.

그만큼 IDC에서 돌아가는 서비스는 집안으로 치면 기둥뿌리를 흔들 정도로 장애 발생 시 비롯되는 부작용이 큽니다. 따라서 국가 기간망에 준하는 관리 정책을 구축하고 체계적으로 운영해야 하며, 더구나 카카오 정도의 규모라면 장애 발생 시 분산처리 혹은 백업 서버 대체 시스템 정도는 당연한 건데요. 카카오 측은 구축이 되었다고 주장합니다만.

서비스가 이렇게 오랜 시간 중단 상태이며, 난리가 나고 있는데도 여전히 대체 라인을 가동하지 못하는 것을 보면 답은 하나죠. 얘네들 설계는 분명 분산처리가 포함되어 있겠지만, 실제 구현은 답보 상태였다. 혹은 자체 IDC 공사를 하고 있다는 이유로 실제 구축은 설립 이후로 미뤘을 가능성이 큽니다.

한편, 이번 카카오 장애는 지난 10월 4일에 발생한 이후 약 10일 만입니다. 서비스 안정화에 좀 더 신경 써야 하지 않나 싶네요. 대한민국을 대표하는 메신저 서비스라고 하기에는 심히 부끄러운 모습입니다.

[2보] - 16일 21시, 다음 메인 화면만 겨우 복구. 여타 서비스는 여전히 불통

밤 9시 50분이 가까워질 무렵 다음 카카오 포털 메인화면이 표기되었다. 장애가 발생하고 약 6시간 만이다. 하지만 로그인을 포함 링크는 동작하지 않았다. 버튼을 클릭할 경우 503 에러 안내가 대신 등장했다.


▲ 밤 9시가 다되어 포털 다음 메인화면이 모습을 되찾았다. 하지만 버튼을 정상 동작하지 않았다.

화재는 낮 3시 30분경 경기 성남시 분당구 삼평동 소재 SK 판교 캠퍼스 A동 지하 3층에서 시작했다. 불이 난 건물은 지상 6층에 지하 4층 규모(연면적 6만 7,024㎡)로 네이버와 카카오 서비스가 입주한 건물이다.

따라서 다음 카카오는 서비스 대부분이 마비되었고, 네이버는 일부 서비스에서 오류가 보고됐다. 물론 다음 카카오 대비 미비한 수준에 그쳤기에 네이버 서비스 문제를 인지한 사용자는 일부라는 것이 공통된 반응이다.

해당 건물에서 IDC 운영사인 SK C&C는 “데이터센터 운영을 정상화할 수 있도록 최선을 다할 것”이라는 원론적인 입장만 밝혔다. 화재 원인이나 화재로 인한 피해 내역 등은 언급하지 않았다. 이와 함께 “일부 서비스들이 백업 미비 등으로 장애가 지속되는 부분은 해당 서비스 제공사에서 설명드릴 부분”이라고 밝혔다.

한편 1신에서 언급했던 이원화(이중화) 관련 카카오 측의 주장에서 이번 사건이 더 커진 이유가 유추됐다. 파이낸셜은 카카오 관계자의 주장을 인용해 "이번 상황이 워낙 크다 보니 이원화가 적용되는 시간이 걸리는 것으로 보인다"며, "특정 서버가 위치한 층이 더 영향을 받았는지 등 소방 당국 발표를 지켜봐야 할 것 같다"고 전했다.

해당 내용을 풀이하자면 카카오가 설계한 이중화는 화재가 발생한 SK C&C IDC내에 또 다른 백업 서버를 두고 데이터를 백업하는 형태인 것. 이는 네이버를 비롯해 대형 포털이 해당 IDC가 천재지변이나 전쟁 등으로 손상될 가능성을 두고 다른 지역 IDC 설비에 연동해 이중화하는 것 대비 아주 기초적인 형태를 의미한다.

사실상 IT 대장주 격인 다음카카오가 코스닥 상장사라는 타이틀과 시총 규모에 어울리지 않는 시스템과 소규모 서비스에 어울릴법한 정책을 세워 대한민국을 대표하는 포털과 메신저 등의 서비스를 제공해온 셈이다. 화재로 인한 서비스 중단이 아닌 정책 부재로 인한 서비스 불통이 더 어울릴 전망이다.

[3보] - 16일 24시 13분, 플랜B 없는 카카오 서비스 복구 2일차

카카오 서비스 복구 시도는 2일 차로 접어들었다. 토요일에 발생한 장애는 일요일인 16일까지 여전히 그대로인 상황. 해결은 지연되고 원성은 빗발치자 결국 밤 22시 무렵 남궁훈, 홍은택 각자대표 명의로 공식 사과문이 페이스북 카카오 채널에 올라왔다.

23시가 조금 지났을 무렵에는 다음 카카오 뉴스 서비스 일부 복구를 알리는 내용이 같은 페이지에 게재됐다. 물론 이용자 반응이 좋을 리 없다. 시가 총액 수조 원에 달하는 IT 대장주 회사의 현실이 기대 이상의 참담한 모습으로 드러난 것에 대한 지적이 이어졌다.


공식 사과문에 적시된 내용은 오히려 의구심을 남기게 했다. "소방 당국의 신속한 조치로 현재 화재 진압은 완료되었으나, 안전상의 이유로 데이터센터에 즉시 전원을 공급하기 어려워 장애 해결이 지연되고 있는 상황입니다. " 에 대해 어떻게 보조 전원 설비가 없어서? 라는 지적이다.


같은 시간 오후 내내 503 에러 안내 문구로 안내되던 카카오 웹사이트는 사라지고 404 에러 페이지가 새롭게 추가됐다. 앞전에는 텍스트에 불과하던 것에서 이번에는 이미지로 처리된 페이지다. 단지 이미지만 추가되었을 뿐인데 뭔가 있음 직해 보이는 건 단지 기분 탓일까?

한편, 카카오톡 이번 사건은 지난 12년도 4월 28일에 발생한 카카오톡 4시간 먹통 사건을 연상케 했다. 당시 카카오는 LG CNS의 IDC 센터에 입주했던 상황이며 공교롭게도 '카카오가 임대한 전용 공간에만 전력공급이 끊겨' 서비스가 중단되었다.

그런데 딱 10년 만에 비슷한 사건이 반복된 셈이다. 각자대표는 공식 사과문에 '화재가 발생했고 "카카오의 장비가 있는 구역에 전원 공급이 차단되었고, 그로 인한 서비스 장애가 일어났다"고 주장'했다. 10년 전 당시에도 이석우 대표는 "IDC의 경우 이중 삼중으로 전력을 준비해 놓기 때문에 전기가 끊기기는 쉽지 않다"고 언급한 바 있다.

[4보] - 17일 00시 29분, 부사장 해명이 기막혀

결국 장애 발생 다음날도 서비스 완전 복구는 이뤄지지 않았다. 그리고 카카오 양현서 부사장을 통해 회사가 그동안 관리를 어떻게 지속해왔는지에 대한 수준을 짐작할 수 있게 하는 대목이 공중파를 탔다. 양 부사장은 "화재라는 것은 워낙 예상할 수 없는 그런 사고였기 때문에 그런 부분에 대해서까지는 조금 대비가 부족했던 게 아닌가"라고 주장했다.


▲ 예상할 수 있는 화재도 있을까? 카카오 양현서 부사장의 해명이 오히려 화를 자초했다.

해당 내용이 공개되자 여론의 반응은 더욱 싸늘해진 상황. 클리앙에는 "화재에 대한 DR 대응 계획은 가장 기본 중에 기본일 텐데, "화재라는 것이 예상할 수 없는 사고"였다니"라는 유감의 덧글도 등장했다. 이와 비슷한 내용의 덧글이 상당수 달리면서 사실상 양 부사장의 해명이 비난을 자초했다는 것.


▲ 2일차인 새벽까지 메일 서비스는 복구하지 못했다.

그리고 17일 새벽 00시 29분까지 다음카카오는 서비스 대부분을 복구했다는 공지를 업데이트했다. 전날 까지 PC에서 접속이 되지 않던 메신저는 파일 전송까지 정상적으로 복구됐다. 하지만 브론치와 메일 서비스(기업 유료 메일 서비스 포함) 등은 여전히 그대로인 상태다.

[5보] - 19일 02시 50분, 메일 서비스 다시 작동

19일 새벽 02시 50분경. 다음카카오 메일 서비스가 재개됐다. 15일 낮 3시 30분부터 19일 새벽 2시 50분까지 약 4일간 중단되었던 서비스가 다시 가동된 셈이다. 메일 서비스 불통으로 기업과 언론사 다수의 업무가 마비되었던 웃지 못한 에피소드가 무수히 등장했다.


일부 기업은 메일 서비스가 중단되면서 월요일 업무를 다음날로 미루고 예비 휴일로 돌리면서 사태의 심각성을 알린 바 있다. 일정 관리도 올 스톱되었고 고객사 연락처는 물론 주고받은 내용 확인이 안 되면서 거래에 차질이 발생했다는 사연까지 다양한 논란이 이어졌다.

만 4일 만에 메일 서비스가 가동되면서 카카오의 대응 논란은 일단락될 전망이다. 이제 남은 것은 이번 사고를 초기에 진압하지 못한 대응 및 책임 논란이다. 같은 서버를 사용한 네이버와 달리 카카오는 무려 4일간 서비스 복구를 지연하면서 논란을 키웠다는 지적에서 자유롭지 못하게 됐다. 그 와중에 임원진의 해명은 더 화를 키웠다는 지적도 제기됐다.

장애가 지속되는 기간에 카카오는 총 7차례의 공지를 올렸고, 메일 서비스가 재가동 안내가 추가될 19일 오전 공지를 포함하면 총 8차례가 사용자에게 안내된 셈이다. 복구가 가장 오래 지연된 메일 서비스는 17일 오전 메일 서비스 복구를 안내하고 19일까지 약 2일이 소요됐다.


By 김현동 에디터  hyundong.kim@weeklypost.kr
〈저작권자ⓒ 위클리포스트, 무단전재 및 재배포 금지〉


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.