taeho's life logger

빅데이터 플랫폼에 대한 일부 보안 전문가들의 오해 본문

나의 일

빅데이터 플랫폼에 대한 일부 보안 전문가들의 오해

taeho Tae-Ho 2016.07.13 12:00

요즘 빅데이터(Big Data)라는 말이 유행이다.  하지만 "유행"이라는 점을 주의해야 한다. IT를 주요 기반으로 활용하는 여러 업계에서 마치 빅데이터 플랫폼을 필수적으로 도입해야하는 것 처럼 인식하면서 업계와 시장이 혼란스러워지는 현상이 나타나고 있다. 하지만 데이터베이스에 대한 실체를 다루어본 나로서는 하둡과 같은 빅데이터 플랫폼을 보안솔루션에 적용하는 것에 대해 부정적이지도 않고 긍정적이지도 않은 중립적 스탠스를 취할 수 밖에 없다.

스스로 빅데이터 플랫폼이 뭔지 잘 모르는데다 DBMS에 대한 기술적 지식이 부족하다면 빅데이터의 본질에 대한 이해와 활용방안의 수립 그리고 도입은 오해와 허풍으로 가득찬 유행이 사그라든 뒤 고민해도 늦지않을 것이다.

왜냐하면...

빅데이터의 기본 개념이 "기존의 데이터베이스시스템으로서는 저장, 관리, 분석이 불가능한 크기의 데이터"를 다루는 것이고 실시간 분석 보다는 사후 분석이 핵심 기능이며 비정형데이터를 처리한다고 하지만 아직은 걸음마 수준이기 때문이다. 여기서 "관리가 불가능한 크기", "배치성 사후 분석" 그리고 "걸음마 수준의 비정형데이터 처리"는 아직은 보안 솔루션이나 관제에 활용하기에는 적합하지 않음을 의미한다고 생각하게 되었다.

보안감사로그 분석에 빅데이터의 병렬처리가 적합한가?

많은 데이터베이스에 대해 경험이 부족한 사람들은 왜 기존의 DBMS는 빅데이터플랫폼처럼 빅데이터를 처리하지 못하는가 라는 것을 이해하지 못한다.

오라클이나 MSSQL, MySQL 등의 RDBMS는 다수의 사용자가 온라인으로 동시에 접속하여 데이터에 대한 저장, 수정, 삭제, 읽기를 수행하도록 만들어져 있기 때문에 데이터의 무결성 보장, 트랜잭션관리, 락킹시스템 구현을 위해 운영체제 만큼이나 매우 복잡하게 설계되어 있다.  때문에 하나의 데이터베이스를 여러대의 서버에 분산 저장을 지원하기는 현재의 기술로서는 불가능에 가깝다. 아마도 기존의 설계를 모두 뒤집고 처음부터 새롭게 만들어도 구현이 어렵다고 생각된다.

결론적으로 현재까지 출시된 데이터베이스 관리시스템은 다수의 서버에 하나의 DB를 분산 생성하고 관리하는 병렬처리가 불가능하다고 보는 것이 옳다. 

그렇다면 과연 보안감사로그 분석을 위해 빅데이터 플랫폼을 도입하고 여러대(하둡의 경우 최소 3대 이상을 권장)의 서버를 할당하여 전사적으로 보안감사로그를 수집 저장한 뒤 분석을 하여야 하는가? 물론 보안인 입장에서 필요한 경우도 있다고 생각하지만 과연 어느 조직이 보안 위협을 탐지하기 위해 다수의 서버를 위협탐지 전용으로 활용하며 빅데이터 전담자를 두고 빅데이터를 분석하겠는가? 내가 접한 수많은 공공기관과 기업들 중에는 그럴만한 고객사는 없다고 생각되며 있다 하더라도 보안업체 입장에서 "돈"이 되지 않을 것이라는 것은 확실하다.

빅데이터 플랫폼은 실시간 분석이 가능한가?

빅데이터 플랫폼은 여러개가 있다. 가장 유명하고 대표적인 플랫폼은 하둡이다. 일단 하둡과 같은 빅데이터 플랫폼은 사용자가 제한적이다. 일반 데이터베이스처럼 다수의 사용자를 대상으로 서비스를 제공하기 위한 범용성격의 데이터베이스가 아니다. 빅데이터의 정의처럼 1대의 서버에서 처리가 불가능한 크기의 데이터를 다수의 서버에 분산저장하고 "특정" 목적을 위한 분석을 수행하고 그 결과를 도출하는 시스템을 만들기 위한 플랫폼이다. 즉 데이터베이스와는 목적 자체부터 다르다.

빅데이터 플랫폼은 데이터에 대한 읽고 쓰기(수정포함)가 빈번한 실시간 처리를 수행하는 DBMS와는 달리 "한번쓰고 여러번 읽는" 형태의 접근이 많다. 또한 다수의 사용자가 실시간으로 데이터를 읽고 쓰는것이 아니라 배치성으로 한번에 하나의 작업만이 수행된다. 이러한 특징으로 인해 락에 대한 처리나 트랜잭션의 개념이 희박해 데이터의 무결성이나 정합성을 DBMS처럼 100% 보장하지도 않는다. 당연히 온라인 서비스에 데이터를 제공하고 요청을 실시간으로 처리하는 DBMS를 대체하는 것은 현재로서는 불가능하다. 따라서 빅데이터 플랫폼을 보안서비스에 적용하더라도 실시간으로 위협을 탐지하고 분석하여 대응을 하는 것은 꿈같은 일이다.

빅데이터 플랫폼이 비정형데이터를 처리할 수 있는가?

많은 사람들이 빅데이터 플랫폼이라 하면 무조건 비정형 데이터의 처리부터 생각하는 경향이 있다. 하지만 이는 큰 오해다. 실제로 빅데이터 플랫폼에서 비정형데이터를 처리하는 사례는 매우 드물며 비정형데이터의 처리가 빅데이터플랫폼의 필수요소도 아니다.  하지만 보안에서는 다양한 기기와 솔루션에서 발생하는 감사로그가 대부분 비정형 상태의 텍스트다. 따라서 정형화하고 분석하는 과정이 필수적이며 이러한 작업은 제아무리 빅데이터 플랫폼이라 하더라도 실시간으로 비정형데이터를 분석하여 위협을 탐지하는 것은 불가능하다.

과거 ESM 솔루션들이 비정형 감사로그를 정형화하여 분석하는 시도를 하였고 ESA나 SIEM 등 여러 솔루션들이 이를 지원하는 듯 하지만 성공적인 비정형 데이터 분석을 통해 위협을 탐지하는데 성공한 사례는 거의 찾아볼 수 없다. 성공사례가 거의 없다는 것은 솔루션들이 비정형데이터를 처리할 수 있느냐 없느냐가 중요한 것이 아니라는 것을 암시한다. 

물론 빅데이터 플랫폼은 어찌됐든 비정형 데이터를 다양한 검색 및 분석알고리즘을 통해 정형화하여 처리하는 기술을 개발하고 있다. 만약 그 알고리즘을 보안 빅데이터에 적용한다면 오탐이나 미탐이 없을까? 당연히 오탐이나 미탐이 많이 발생할 수 밖에 없다. 어찌보면 지금까지의 탐지기술보다 오탐과 미탐이 많이 발생할 공산이 크다. 


이렇듯 빅데이터 플랫폼은 보안과 직접적인 연결을 지어 도입하거나 구축하기에는 아직은 나아갈 길이 먼 솔루션이다. 그럼에도 불구하고 많은 보안업체들이 보안과 빅데이터를 연결지어 유행처럼 언론에 적절하지 못한 기사들을 쏟아내고 있다. 보안인 입장에서 이러한 유행따라가기 식의 자사의 가치를 높이기 위한 언론플레이는 결코 바람직해보이지 않으며 보안인으로서 요구되는 보다 냉철한 현실인식과 판단이 필요하다고 본다.

왜 빅데이터에 대한 오해가 생기는가?

빅데이터를 포함하는 데이터베이스 분야는 얕은 이론적 지식만으로 다가설 수 있는 분야가 아니다. 실제 엄청난 양의 데이터를 떡주무르듯 하려면 운영체제와 데이터베이스에 대한 상당한 이론과 경험이 필요하다. 하지만 보안 전문가들은 그런 경험이 없다. 게다가 데이터베이스가 처리하는 데이터에 대한 이해도 부족하다. 

데이터타입의 char 타입과 varchar 타입의 차이..BLOB는 무엇인지.. 그리고 그 데이터들이 데이터베이스에서 어떻게 저장공간을 차지하는지.. 테이블은 어떻게 생성되고 인덱스는 어떻게 생성되는지.. 데이터의 인서트와 읽기가 대부분인 테이블과 인서트, 업데이트, 읽기가 빈번한 테이블은 어떻게 생성해야 하는지.. 로우레벨락, 페이지레벨락, 테이블레벨락이 무엇인지.. 테이블을 여러개의 디스크에 파티셔닝하는 것은 왜인지..파티셔닝의 종류는 무엇무엇이 있는지.. 등등  

데이터베이스의 기본적인 지식도 부족하면서 빅데이터를 논하는 것은 한마디로 어불성설이다.

빅데이터에 대한 오해는 자신이 모든 분야의 전문가라는 착각에서 생겨난다. 

정보보안에서 필요한 데이터 처리 기술은 무엇인가?

한 때... 아니 사실 지금도 그렇지만 몇몇 보안로그 수집과 처리 전문업체가 흥한 때가 있었다. 네트워크 장비, 보안 장비, 서버, 백신 등 다양한 보안 감사로그를 수집하여 데이터베이스에 저장하고 실시간으로 분석하여 대시보드를 통해 보안 위협을 알려주는 솔루션을 만들어 흥한 것이다. 하지만 십여년이 지난 지금 그 솔루션들은 기술적 한계를 극복하지 못하고 무너지고 있다.

그 이유는 앞에서 언급한 몇개의 질문에 대한 기술적인 해법을 제시하지 못했기 때문이다.

첫째는 다양한 보안로그의 저장과 분석 기술이다. 로그를 수집하여 데이터베이스 혹은 파일에 저장한 뒤 분석하려 하는데 이는 잘못된 생각이다. 일단 데이터가 파일이나 데이터베이스에 저장되면 분석을 위한 조회와 이벤트 코릴레이션의 속도가 저하되어 제대로 처리할 수 없다.

둘째는 보안이벤트의 정형화다. 비정형데이터를 분석하기 위해 스플렁크나 빅데이터 플랫폼을 고려하지만 보안이벤트는 성격이 다르다. 보안이벤트를 분석하기 위해 스플렁크나 빅데이터 플랫폼을 고려한다면 그것은 잘못된 선택이다. 효과적인 보안이벤트의 정형화와 관리가 필요하다.

셋째는 연관관계 분석 기술이다. 이 또한 데이터를 파일이나 데이터베이스에 일단 저장하고 난뒤 분석하는 것은 속도측면이다 효율성측면에서 잘못된 선택이다.

이 세문제를 해결하지 못하면 보안 이벤트의 실시간 분석을 통한 위협 탐지는 요원한 숙제가 될 수 밖에 없다.


신고
2 Comments
  • BlogIcon 지후대디 2016.07.18 22:33 신고 개인적으로 아직도 국내에서는 뜬 구름잡는 것 같은 빅데이터 이야기들이 많은 것 같습니다.
    아무리 봐도 그냥 그런데다가 빅데이터란 용어를 많이 붙이기도 하구요.
    그 실시간으로는 어려운 부분도 아직 일선의 결정권을 가진 높으신 분들에게는 통하지도 않는것 같습니다. ^^
  • BlogIcon taeho tae.ho 2016.07.23 21:24 신고 대한민국은 모든 면에서 참 유행에 민감합니다. 좋은 작용을 할 때도 있지만 부작용도 만만치 않은게 사실이죠..
댓글쓰기 폼
Prev 1 ... 13 14 15 16 17 18 19 20 21 ... 572 Next