• 페이스북
  • 트위터
  • 유튜브

카카오의 뼈아픈 반성…"데이터센터 전체 문제 발생 상황 가정했더라면..."

등록 2022.12.07 11:41:15수정 2022.12.07 11:48:44

  • 이메일 보내기
  • 프린터
  • PDF

이확영 원인조사 소위원장, 카카오 먹통 원인 분석 결과 발표

데이터센터간 이중화 부족…"데이터 자동 전환 시스템도 판교에만"

인력 부족·소통 부재·복구 지휘 전방위적 문제…"더 높은 목표로 노력해야"

[서울=뉴시스]카카오 사옥.

[서울=뉴시스]카카오 사옥.

[서울=뉴시스]윤현성 기자 = 카카오가 지난 10월 발생한 서비스 먹통 사태 이후 복구가 지연된 원인으로 이중화 및 위기 대응 과정에 미흡함을 꼽았다. 데이터센터 간 이중화, 서비스 운영 관리 도구 이중화, 이중화 전환 후 가용 자원 부족 등의 문제로 복구에 긴 시간이 걸리게 됐다는 설명이다.

이확영 카카오 비상대책위원회 원인조사 소위원장(그렙 공동 CEO)은 7일 오전 11시 개최된 개발자 콘퍼런스 ‘이프 카카오 데브 2022(if kakao dev 2022(이프 카카오)에서 "(카카오 장애) 원인 분석 결과 이중화와 위기 대응 과정에 미흡함이 있었던 것으로 드러났다"고 밝혔다.

이 소위원장은 지난 10월15일 SK C&C 판교 데이터센터 화재 사고로 인한 카카오 서비스 장애의 원인을 보다 객관적으로 규명·공유하기 위해 외부 인사로서 카카오 비상대책위원회 원인조사 소위원장을 맡았다.

데이터센터 간 이중화·관리도구 이중화 등 모두 미흡…자원 자체도 부족

이 소위원장은 카카오 서비스의 장애가 길어진 주요 원인으로 '이중화 조치'를 꼽으며 ▲데이터센터 간 이중화 미흡 ▲서비스 개발과 관리를 위한 운영 관리 도구 이중화 미흡 ▲이중화 전환 후 가용 자원 부족 등이 뼈아팠다고 설명했다.

이번 화재 사고와 같이 데이터센터 전체에 문제가 생길 경우 다른 데이터센터에 모든 시스템이 이중화돼 있었다면 빠르게 복구가 됐을텐데, 카카오는 일부 시스템이 판교 데이터센터 내에서만 이중화돼 있어서 장애 복구가 늦어졌다. 대표적으로 카카오 로그인 및 카카오톡 사진 전송 기능 등에 사용되는 캐시서버, 오브젝트 스토리지 등이 판교 데이터센터에만 설치되어 있어 복구가 지연됐다.

아울러 서로 다른 데이터센터에 이중화가 되어 있는 경우에도 하나의 데이터센터에서 장애가 발생하면 다른 데이터 센터로 자동 전환해주는 시스템이 작동해야 하는데, 이 시스템마저 판교데이터 센터에만 설치되어 있었던 것으로 파악됐다. 이로 인해 전환 작업을 수동으로 진행하면서 복구가 더 늦어지게 됐다.

또 이 소위원장은 카카오가 운영 관리 도구를 확실하게 이중화하지 않는 등 안정성 확보에 소홀했다고 설명했다. 이에 대해서는 "컨테이너 이미지를 저장하고 관리하는 시스템이나, 일부 모니터링 도구 등을 화재 여파로 사용할 수 없게 돼 복구에 상당한 어려움을 겪었다"고 했다.

이중화 전환 후 가용 자원도 부족한 것으로 분석됐다. 사고로 인해 판교 데이터센터가 마비됐을 경우 해당 센터 전체를 대신할만큼의 가용 자원이 확보돼 있어야 하는데, 카카오는 가용 자원 부족으로 판교 데이터센터의 전원이 들어와서 모든 시스템이 정상화되기 전까지 복구를 완료할 수 없었다.

이 소위원장은 "전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라가기 때문에 개별 시스템의 미흡한 이중화가 전체적인 장애를 유발한 것"이라며 "개별 부서나 시스템마다 다른 이중화 수준 및 체계, 부족한 상면 등으로 문제가 생기지 않도록, 회사 차원에서 체계적인 이중화를 준비했어야 한다"고 꼬집었다.
[성남=뉴시스] 김근수 기자 = 15일 오후 경기도 성남시 판교 SK C&C 판교 데이터센터에 화재가 발생해 포털사이트 다음과 카카오톡 사용이 일시중단 되었다. 사진은 포털사이트 다음 사이트. 2022.10.15. ks@newsis.com *재판매 및 DB 금지

[성남=뉴시스] 김근수 기자 =  15일 오후 경기도 성남시 판교 SK C&C 판교 데이터센터에 화재가 발생해 포털사이트 다음과 카카오톡 사용이 일시중단 되었다. 사진은 포털사이트 다음 사이트. 2022.10.15. [email protected] *재판매 및 DB 금지


인력 부족으로 복구 시간 지연 불가피…사고 이후 내부 소통·지휘도 안돼

이중화 외에 카카오의 전반적인 위기 대응 체계의 부족함도 장애를 빠르게 해결하지 못한 원인이 됐다. 이 경우 ▲장애 복구를 위한 인력·자원 부족 ▲장애 대응을 위한 커뮤니케이션 채널 혼선 ▲재해 초기 컨트롤 타워 부재 등이 대표적이다.

원인 분석 결과 카카오는 운영 관리 도구 복구 인력도 부족했으며, 특히 이중화에 필요한 상면의 부족이 가장 치명적이었던 것으로 나타났다. 아무리 이중화나 장애 대응 체계를 갖추고 있다 하더라도 이번 사태처럼 데이터센터 전체 장애가 발생하면 인력·자원 부족으로 제대로 대응할 수 없었을 것이라는 설명이다.

카카오가 사내 커뮤니케이션 및 모니터링을 위해 활용 중인 카카오톡·카카오워크를 대체할 채널이 없었다는 점도 문제가 됐다. 이에 대해 이 소위원장은 "해당 채널을 쓸 수 없을 때 중요 사항 전파 및 의사결정을 위한 커뮤니케이션 채널이 준비되어 있고, 일상적으로 사용되고 있었어야 한다"고 지적했다.

먹통 사태가 발생했던 초기 복구를 비롯한 대응책을 총괄할 컨트롤타워도 없었다. 사고 당시 카카오와 공동체, 개별 조직들은 동시 다발적으로 장애에 대응한 것으로 알려졌다. 결국 전체적인 조율과 협업을 지원하는 전사 조직이 사전에 세팅돼 있지 않아 개별 서비스 개발자들이 복구에 총력을 기울인다 해도 복구가 지연될 수밖에 없었다는 분석이다.

이 소위원장은 "카카오는 많은 이들의 아픈 경험으로부터 알게 된 것을, 진중하게 받아들여야 할 것"이라며 "앞으로 다시는 같은 일이 발생하지 않도록, 카카오의 모두가 끊임없이 노력하리라 믿는다. 시스템이 완벽할 수 없더라도 전보다 더 높은 목표를 두고 노력하고, 그 노력을 통해 카카오의 서비스들이 신뢰를 회복해 다시금 사용자들에게 사랑받는 서비스가 됐으면 좋겠다"고 말했다.


◎공감언론 뉴시스 [email protected]

많이 본 기사