사이버보안에서 머신 러닝의 미래
머신 러닝(ML)은 오늘날 거의 모든 IT 부문에서 흔히 사용하는 용어입니다. ML은 주로 빅데이터를분석하여 비즈니스 성과와 프로세스를 개선하고 예측을 돕는 데 사용할 뿐만 아니라, 사이버보안 등의다른 분야에서도 중요한 존재라는 것을 입증했습니다. 이 문서에서는 ML이 사이버보안에서 이토록중요성이 커진 이유를 살펴보고, 특정 기술을 적용하는 몇 가지 어려움과 머신 러닝을 통해 펼쳐질미래에 관해 설명합니다.
사이버보안에서 머신 러닝의 중요성이 커진 이유
머신 러닝이 필요한 이유는 복잡성과 관련이 있습니다. 요즘의 조직 대부분이 IT에 전혀 알려지지 않았거나 관리되지않은 사물인터넷(IoT) 디바이스 를 다수 보유합니다. 하이브리드 및 멀티 클라우드가 뉴노멀로 자리 잡으면서온프레미스에서 실행되지 않는 데이터와 애플리케이션도 생겨났습니다. 원격 근무가 보편화되면서 사용자도 더 이상사무실을 주 근무지로 삼지 않습니다.
불과 얼마 전만 해도 기업에서 시그니처 기반 멀웨어 탐지, 네트워크 트래픽을 위한 고정된 방화벽 규칙, 액세스 제어목록(ACL)을 사용하여 보안 정책을 정의하는 것이 일반적이었습니다. 점점 더 많은 곳에서 디바이스가 늘어가는시대에, 잠재적 보안 리스크를 탐지하던 기존의 방식은 그 규모와 범위, 복잡성을 따라갈 수 없습니다.
머신 러닝은 방대한 데이터에서 자동으로 배우는 훈련 모델이 가장 중요하고, 이런 학습을 통해 시스템은 트렌드와이상을 발견하여 권고 사항을 제공하고 최종적으로는 이에 대한 조치를 취합니다. 조직에서 직면한 이 모든 새로운보안 문제를 해결하기 위해서는 머신 러닝이 필요할 수밖에 없습니다. 머신 러닝만이 사이버보안에서 늘어나는 문제를해결할 수 있습니다. 예를 들어 보안 솔루션의 규모 확장, 다양한 형태의 멀웨어를 비롯한 알려지지 않은 공격과 지능적공격 탐지 등이 있습니다. 지능적 멀웨어는 형태를 바꾸어 탐지를 피할 수 있고, 기존의 시그니처 기반 접근 방식으로는이런 공격을 탐지하기가 매우 어렵습니다. 여기에 대응할 만한 최적의 솔루션은 ML이라는 것이 증명되었습니다.
사이버보안 분야 머신 러닝의 차이점
머신 러닝은 여러 분야에서 잘 알려져 있고 널리 구축되어 있습니다. 그중에서도 인식과 자연어 처리(NLP)를 위한이미지 처리로 사람 또는 텍스트의 의미를 이해하는 데 도움을 얻는 방식이 가장 일반적입니다.
사이버보안의 머신 러닝은 어떤 면에서는 다른 사용 사례와 차이가 있습니다. 사이버보안의 머신 러닝 에는 나름의고유한 어려움과 요구 사항이 있습니다. ML을 사이버보안에 적용하는 데 발생하는 3가지 고유한 문제와 머신 러닝에일반적으로 발생하지만 사이버보안에서 더욱 심각한 3가지 문제를 다루어보겠습니다.
ML을 사이버보안에 적용하는 데 발생하는 3가지 고유한 문제
문제 1: 훨씬 높은 정확도에 대한 요구 사항. 예를 들어 이미지 처리만 할 경우, 시스템에서 고양이를 개로 착각한다면짜증스럽기는 하지만 치명적인 문제가 되지는 않습니다. 머신 러닝 시스템이 병원과 디바이스에 대한 공격으로 이어질수 있는 위조된 데이터 패킷을 정상적인 패킷으로 착각하는 분류 오류는 심각한 문제를 일으킬 수 있습니다.
매일 조직들에서는 대량의 데이터 패킷이 방화벽을 통과합니다. 머신 러닝이 데이터의 0.1%라도 잘못 분류할 경우, 엄청난 양의 정상 트래픽을 잘못 차단하여 비즈니스에 심각한 영향을 미칠 수 있습니다. 머신 러닝 출현 초기에머신 러닝 모델이 인간 보안 연구자보다도 정확하지 못할 것을 염려하는 조직이 있었던 것도 이해할 만합니다. 머신러닝 모델을 실제로 훈련해서 매우 능숙한 인간 수준으로 정확도를 높이려면 시간이 걸리고, 방대한 양의 데이터가필요합니다. 하지만 인간은 확장이 불가능하고 오늘날 IT 업계에서 가장 희귀한 리소스입니다. 우리는 ML을 활용해서사이버보안 솔루션을 효율적으로 확장합니다. 또한, ML은 기준 동작을 설정하고 여기에서 벗어나는 이상을 탐지할 수있기 때문에 인간이 탐지하기 어려운 알려지지 않은 공격을 탐지하는 데 도움이 됩니다.
문제 2: 방대한 데이터, 특히 레이블이 표시된 데이터에 대한 액세스. 머신 러닝은 모델과 예측의 정확도를 높이려면엄청난 양의 데이터가 필요합니다. 멀웨어 샘플을 얻는 것은 이미지 처리와 NLP에서 데이터를 확보하는 것보다 훨씬어렵습니다. 공격 데이터는 충분하지 않고 수많은 보안 리스크 데이터가 기밀로 취급되며 개인정보 보호 때문에 사용할수 없습니다.
문제 3: 실측 정보. 이미지와 달리, 사이버보안의 실측 정보는 사용할 수 없거나 고정되지 않은 경우가 있습니다. 사이버보안의 동향은 동적으로 움직이고 언제나 변화합니다. 어떤 멀웨어 데이터베이스도 전 세계의 모든 멀웨어가등재되어 있다고 장담할 수 없으며, 매 순간 더 많은 멀웨어가 생성되고 있습니다. 정확도를 결정하려면 어떤 실측정보를 비교해야 할까요?
사이버보안에서 머신 러닝의 문제를 심화시키는 3가지 난제
어느 부문에서나 ML과 관련하여 공통적인 난제가 있지만, 사이버보안에서는 더욱 심각한 문제가 있습니다.
문제 1: 머신 러닝 모델의 설명 능력. 머신 러닝 결과를 포괄적으로 이해하는 것은 우리가 적절한 조치를 하는 능력을발휘하는 데 중요한 역할을 합니다.
문제 2: 인재 부족. 어떤 영역에서든 ML을 효과적으로 사용하려면 ML에 대한 전문 지식과 영역 지식을 결합해야합니다. ML이나 보안 분야 모두 각각 인재가 부족한 상황인데, ML과 보안에 대해 아는 전문가를 찾기는 더욱어렵습니다. 비록 서로 같은 용어를 공유하지 않고, 서로 다른 방법을 사용하고, 사고방식과 태도가 다를지라도 머신러닝 데이터 과학자와 보안 연구자가 협력하는 것이 중요하다고 생각합니다. 이들이 서로 협력하는 것을 배우는 것이중요합니다. 이 두 집단 사이의 협업이 머신 러닝을 사이버보안에 성공적으로 적용하기 위한 열쇠입니다.
문제 3: ML 보안. 사이버보안이 각 비즈니스에서 중요한 역할을 하기 때문에 사이버보안에서 사용하는 머신 러닝은그 자체로 안전해야 할 필요성이 큽니다. 학계에서도 이 분야에 대한 연구를 진행해 왔고, 저희도 ML 모델 및 데이터보안에 대한 업계의 움직임 을 목도하고 이에 기여할 수 있는 것을 기쁘게 생각합니다. Palo Alto Networks는 ML을안전하게 보호하기 위한 혁신을 단행하고 이에 최선을 다하고 있습니다.
머신 러닝의 목표는 보안팀이 노동력을 절감하고 알려지지 않은 공격을 차단하는 노력의 효율성과 확장성을 높이는것입니다. 수작업으로 수십억 개의 디바이스까지 확장하기는 어렵지만 머신 러닝은 쉽게 해낼 수 있습니다. 더욱커져가는 위협 속에서 조직이 스스로 보호하려면 이런 규모의 능력이 진정으로 필요합니다. 또한, 머신 러닝은 여러주요 인프라에서 알려지지 않은 공격을 탐지하는 데 중요합니다. 단 한 번의 공격이라도 허용하면 치명적인 결과를초래할 수 있습니다.
머신 러닝이 사이버보안의 미래를 일구는 방식
머신 러닝은 다양한 방식으로 최신 사이버보안 솔루션을 지원합니다. 개별적인 역할도 중요하지만, 이들을 함께 모으면동적으로 움직이는 위협 동향 속에서 강력한 보안 태세를 유지하는 데 혁신적인 변화를 일으킬 것입니다.
식별 및 프로파일링: 언제나 새로운 디바이스가 엔터프라이즈 네트워크에 연결되고 있기 때문에 IT 조직에서 모든디바이스를 알아차리기란 쉽지 않습니다. 네트워크에서 디바이스를 파악하고 프로파일링하는 데 머신 러닝을 사용할수 있습니다. 이 프로파일로 특정 디바이스의 각 기능과 동작을 확인할 수 있습니다.
자동 이상 탐지: 머신 러닝을 사용하여 알려진 악성 동작을 빠르게 식별하는 것은 보안에 유용한 사용 사례입니다. 먼저 디바이스를 프로파일링하고 정기적인 활동을 파악하고 나면, 머신 러닝이 정상적인 활동과 비정상적인 활동을알 수 있습니다.
제로데이 탐지: 기존의 보안에서는 악성 동작으로 식별한 후에야 이를 확인할 수 있습니다. 지금까지 시그니처 기반멀웨어 탐지는 이런 식으로 작동했습니다. 머신 러닝은 이전에는 알려지지 않았던 형태의 멀웨어와 공격을 지능적으로식별하고 조직이 잠재적 제로데이 공격을 받지 않도록 보호할 수 있습니다.
대규모 인사이트: 많은 위치에서 데이터와 애플리케이션을 사용하고 있기 때문에 대량의 디바이스에서 트렌드를찾아내는 것은 인간의 힘으로는 불가능합니다. 머신 러닝은 인간이 할 수 없는 일을 해내고 대규모 인사이트를자동으로 확보할 수 있습니다.
정책 추천: 보안 정책을 구축하는 과정은 여러 어려움이 따르는 매우 수동적인 활동인 경우가 많습니다. 머신 러닝은어떤 디바이스가 있고 어떤 것이 정상 동작인지 파악하고 나면, 방화벽을 포함한 보안 디바이스에 정책 권고 사항을제공하는 데 도움을 줄 수 있습니다. 각 디바이스와 네트워크 세그먼트에 대해 작성된 서로 상충하는 여러 개의액세스 제어 목록을 수작업으로 살펴보는 대신, 머신 러닝은 자동화된 접근 방식으로 구체적인 권고 사항을 제공할수 있습니다.
온라인에서는 매일 같이 디바이스와 위협이 늘고 있고 인간 보안 인력은 공급이 부족하기 때문에 머신 러닝만이대규모로 복잡한 상황과 시나리오를 다루고 조직에서 현재와 미래의 사이버보안 문제를 해결하도록 지원할수 있습니다.