年 4000번 중 1번 실수가 만든 KT ‘먹통’과 남겨진 과제 [김도형 기자의 휴일IT담]

김도형 기자

입력 2021-11-06 16:06 수정 2021-11-06 16:15

|
폰트
|
뉴스듣기
|
기사공유 | 
  • 페이스북
  • 트위터
정보기술(IT) 업계의 이모저모를 살펴보는 [김도형 기자의 휴일IT담], 오늘은 최근 벌어진 KT 통신 사고를 되짚어 보려고 합니다.

지난달 25일 점심시간을 전후해서 KT의 유·무선 인터넷 통신망이 전국적인 장애를 일으켰는데요.

이날 오전 11시 16분부터 DNS(Domain Name System, 인터넷은 IP주소를 이용해 통신을 하지만 숫자인 IP주소를 외우기 어렵기 때문에 문자로 이루어진 도메인을 관리하는 통신 체계) 트래픽이 증가한데 이어 네트워크 장애가 발생했고 KT의 복구조치가 완료될 때까지 약 89분 동안 장애가 이어졌습니다.

월요일 낮에 국내 유선 인터넷 1위(점유율 40% 이상), 무선통신 2위(점유율 24%) 사업자인 KT의 통신이 ‘먹통’이 된 상황은 개인과 기업에 작지 않은 피해를 안겼습니다.

동아일보는 사고 초기부터 사람의 잘못으로 빚어진 인재(人災)라는 점, 부산에서 일어난 작업 실수가 전국적인 통신마비로 이어졌다는 점을 보도하면서 KT의 잘못을 지적했습니다.

지난달 25일 오후 서울 종로구 KT 광화문사옥. 2021.10.25/뉴스1 (서울=뉴스1)

오늘은 이런 점을 다시 이야기하기 보다는 조금 차분하게 어떤 점이 문제로 분석됐고 KT는 어떤 대안을 마련했는지, 통신의 중요성이 매우 커진 시대에 이번 사고가 남겨준 과제는 무엇인지를 살펴보도록 하겠습니다.

카카오·네이버 같은 플랫폼 기업을 둘러싼 논란을 이야기해 본 지난번 첫 휴일IT담에 보내주신 성원에 깊이 감사드립니다.

▶ 카카오 창업자가 국감장 불려간 이유와 플랫폼의 항변[김도형 기자의 휴일IT담]


● 실수는 할 수 있지만… 관리·기술 두 측면에서 실패한 KT
과학기술정보통신부는 사고 나흘 만인 지난달 29일에 원인 조사결과를 내놓았습니다. 과기부의 지적은 KT의 관리적·기술적 책임에 집중됐습니다.

이미 보도된 것처럼 이번 사고는 기업 망 라우터 교체 작업 중에 ‘Exit’ 명령어 하나를 누락한 작업자의 실수(휴먼 에러)가 출발점이 됐습니다.

사람은 누구나 일하면서 실수할 수 있습니다. 하지만 책임 있는 기업은 이런 실수로 인한 피해를 최소화할 수 있는 시스템을 갖고 있어야 하는데 KT는 그러지 못했다는 것이 과기부의 지적입니다.


KT 통신망 구조와 사고 개념도. 과학기술정보통신부 제공

관리 차원에서는 △야간작업으로 승인된 작업을 주간에 수행했다는 점 △KT 작업 관리자 없이 협력업체 작업자들끼리만 작업했다는 점 △네트워크가 연결된 채 작업이 이뤄졌다는 점이 문제로 지적됐습니다.

또 기술적으로는 △명령어 작성 및 사전 검증 과정에서 오류를 놓쳤다는 점 △지역에서 발생한 오류가 전국으로 확산하는 것을 차단하는 시스템이 없었다는 점이 지적됐습니다.

● 연간 4000번 하는 작업… 1번의 실수가 만든 대형 사고
사고 발생 일주일 만인 지난 1일 재발방지대책과 보상방안 설명에 나선 KT는 이번 사고의 원인이 된 라우팅 프로토콜 작업이 연간 4000번 정도 이뤄지고 있다고 설명했습니다.

개인과 기업이 활용하는 ‘통신강국’ 한국의 초고속 통신 인프라는 이처럼 보이지 않는 업그레이드 작업이 매일 같이 이어지면서 유지되고 있는 셈입니다.

하지만 KT의 이런 설명은 3999번의 작업에 문제가 없었어도 1번의 작업 실수만으로도 전국적인 통신장애가 발생할 수 있었다는 현실을 보여주기도 합니다.

KT 임원이 지난 1일 서울 종로구 KT 광화문사옥에서 인터넷 장애 관련해 사과하는 모습. 사진공동취재단

사실 이날 부산국사 뿐만 아니라 전국의 다른 국사에서도 동일한 작업이 이뤄졌습니다.

1년 4000번 가운데 한 번, 전국 10곳 가운데 한 곳에서 발생한 ‘어쩌면 작은 실수’ 하나가 전국을 뒤흔드는 사고가 된 상황은 우리가 얼마나 허약한 기반 위에서 통신 서비스를 누리고 있었던 것이냐는 질문을 던지게 합니다.

전문가들 사이에서는 ‘어떤 대형 사고가 발생하기 전에는 같은 원인으로 수십 차례의 경미한 사고와 수백 번의 징후가 반드시 나타난다’는 하인리히 법칙을 이야기하는 경우도 있었습니다.

대형 사고를 통해 KT의 기술적·관리적 실책이 훤하게 드러난 상황에서 KT의 현장 작업관행 전반에 문제가 쌓이면서 발생한 사고가 아닌지를 냉정하게 되돌아봐야 한다는 지적입니다.

● ‘신속 복구’에는 성공한 KT의 사고 방지 대책은?
KT는 이번 사고로 인한 전면적인 장애 시간은 20분가량인 것으로 분석하고 있습니다.

지역에 따라 장애 시간은 다를 수 있겠지만 비교적 빠른 복구 작업을 통해 완전한 통신 먹통 상황은 그리 길지 않았다는 것입니다.


KT 임원이 지난 1일 서울 종로구 KT 광화문사옥에서 인터넷 장애 관련 ‘재발방지대책 및 보상안’ 발표를 하는 모습. 사진공동취재단

초반에 디도스 공격이라는 혼선이 빚어지기도 했지만 20~40분 정도만에 전국적인 통신 장애 대부분을 해결했다는 점에서 KT의 사고 후 대응은 신속했다는 것이 통신업계의 평가입니다.

실제로 지난달 14일 일본의 대형 통신사 ‘NTT도코모’의 전국적인 네트워크 장애는 당일에 3시간가량 이어졌고 일부 장애가 다음날까지도 계속된 바 있습니다.

이런 KT가 내놓은 앞으로의 대책은 크게 두 가지 방향인데요. 결국 현장의 실수를 미연에 막는 장치들과 문제가 발생했을 경우에 피해를 최소화하는 두 가지 방향입니다.

현장에서 발생할 수 있는 실수를 막거나 거르는 장치를 강화하는 방안은 △현장관리에서 기본절차 준수 △현장작업 자동통제 시스템 도입 △사전 시뮬레이션 시스템 확대 등입니다.

만에 하나라도 또다시 문제가 발생했을 때의 피해를 최소화하는 방안으로는 △라우팅 오류 확산방지 기능(정보전달 개수제한) 확대 △유·무선 인터넷 동시 장애를 막는 백업망 구성 등이 제시됐습니다.

● 다른 통신사들 “우리도 안전하다는 보장 없다”
KT가 제대로 이행할 것인지를 지켜봐야 할 이런 대책은 다른 통신사들에도 의미 있는 참고 자료가 될 것으로 보입니다.

KT와 SK텔레콤, LG유플러스 등 이른바 통신3사는 평소에는 국내 시장에서 치열하게 경쟁하는 관계입니다만…

이번 사고를 보면서는 다른 기업들 역시 ‘우리라고 해서 저런 사고 안 터진다는 보장이 없다’는 생각을 하는 모습이었습니다.

구현모 KT 대표가 지난달 28일 서울 종로구 KT혜화타워(혜화전화국) 앞에서 지난 25일 발생한 KT의 유·무선 인터넷 장애와 관련해 고개를 숙이는 모습. 사진공동취재단

실제로 최근 10년 동안 KT, SK텔레콤, LG유플러스 등 통신 3사에서는 총 19건의 통신 장애 사고가 발생한 바 있습니다.

KT 8건, SK텔레콤 6건, LG유플러스 5건으로 유독 어디에서 많은 사고가 발생했다고 얘기하기도 힘든 상황이니 다른 통신사들 역시 이번 사고를 계기로 내부 시스템을 점검하고 문제가 발생할 수 있는 영역에서는 적절한 대책을 마련해야 할 것으로 보입니다.

● 통신이 곧 생활인 시대에 맞는 약관 개정 이어져야
이런 연장선에서는 이번 사고를 계기로 한 통신 서비스 약관 개정 움직임을 눈여겨 볼만합니다.

사고 이후 정부까지 나서서 통신사와 개인·기업 고객이 맺고 있는 계약(약관)에서 장애에 대한 보상 기준을 다시 설정해야 한다고 밝힌 것인데요.

구현모 KT 대표 스스로도 ‘하루 3시간 장애’를 기준으로 보상한다는 현재의 약관은 과거 전화 시대의 기준이고 통신의 중요성이 커진 지금 시점과는 맞지 않다는 입장을 내놓았습니다.

거의 모든 일상과 업무가 통신 없이는 사실상 불가능한 시대, 통신기업의 통신망 안정성에 대한 기준 자체를 바꿔야 한다는 점에는 이견이 없는 셈입니다.

이번 사고 당시에는 많은 소상공인들이 결제 장애에 따른 피해를 호소했는데요.

이들 뿐만 아니라 증권·금융 거래나 기업 고객의 비즈니스 과정 등 다양한 영역에서 단 1분의 통신 장애만으로도 거대한 피해가 발생할 수 있습니다.

이런 점을 감안하면 이번 사고를 계기로 통신 장애에 대한 통신사들의 책임 기준과 범위를 다시 정하려는 노력은 당연해 보입니다.

일부 전문가들은 2018년 11월 서울 서대문구 아현지사 통신구 화재로 인한 통신 장애 당시에 이미 정비했어야 할 약관이라고 지적하기도 합니다.

● ‘텔코’ 벗어나려는 통신기업 앞에 놓인 ‘기본’이라는 숙제
KT나 미국 AT&T 같은 기업을 오랫동안 일컬어 온 단어는 바로 ‘텔코’입니다. ‘텔레커뮤니케이션 컴퍼니’를 줄인 말입니다.

하지만 과거처럼 통신 서비스에만 갇혀 있다가는 자칫 도태될 수 있다는 것이 IT를 기반으로 산업 전반이 혁명적인 변화를 겪고 있는 시대를 목격하공 있는 통신기업의 고민입니다.

KT의 경우에는 ‘텔코’가 아닌 ‘디지코’라는 기업 정체성을 강조해 왔습니다. A(AI, 인공지능), B(빅데이터), C(클라우드) 등 이른바 ‘ABC’ 신사업으로 디지털 전환을 주도하는 기업이 되자는 야심찬 목표입니다.

구현모 KT 대표가 지난달 28일 서울 종로구 KT혜화타워(혜화전화국) 앞에서 지난 25일 발생한 KT의 유·무선 인터넷 장애와 관련해 취재진에 답변하고 있다. 사진공동취재단

늘 새로운 먹거리를 찾아야 하는 것은 기업의 숙명이자 의무일 수 있습니다. 주식회사의 주인인 주주들이 기업에 가장 중요하게 요구하는 것 역시 ‘성장’입니다.

KT가 현재에 머물러 있지 않겠다며 신사업에 힘을 쏟는 것과 이번 사고를 직접 연관지을 필요는 없지 않을까 싶습니다.

본사 직원만 해도 2만 명이 넘는 KT 같은 대기업에서는 통신과 각종 신사업 등 여러 사업군의 임직원들이 각자의 역할을 충실해 해내는 것이 중요한 일 아닌가하는 생각인데요.

다만, 통신기업의 ‘기본’이라고 할 안정적인 통신 서비스의 중요성에 대해서는 아무리 강조해도 지나치지 않을 듯 합니다.

보안·방범, 자율주행 기술은 물론 구호·의료 등 안전이나 생명에 직결된 기술들도 갈수록 통신에 의존할 것으로 보이는 시대에 통신기업들에게는 더 큰 책임감이 필요해 보입니다.



김도형 기자 dodo@donga.com



라이프



모바일 버전 보기