WO2024106860A1

WO2024106860A1 - 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템

Info

Publication number: WO2024106860A1
Application number: PCT/KR2023/018079
Authority: WO
Inventors: 신경아
Original assignee: 주식회사 포테이토넷
Priority date: 2022-11-18
Filing date: 2023-11-10
Publication date: 2024-05-23
Also published as: KR20240073433A

Abstract

본 발명은 은닉된 악성 웹 주소를 탐지 및 검증하고, 공개 컨텐츠 목록과 은닉 컨텐츠 목록을 조회하여 웹 컨텐츠의 가시화를 위한 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템에 관한 것으로, 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계, 수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계 및 식별된 정상 웹 컨텐츠 및 비정상 웹 컨텐츠를 공개 컨텐츠 목록 및 은닉 컨텐츠 목록으로 리스트화하는 단계를 포함하고, 상기 정상 또는 비정상 웹 컨텐츠를 식별하는 단계는, 웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별한다.

Description

링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템

아래의 실시예들은 사이버 공격 예방을 위한 악성 웹 주소를 탐지하는 기술에 관한 것으로, 더욱 상세하게는 은닉된 악성 웹 주소를 탐지 및 검증하고, 공개 컨텐츠 목록과 은닉 컨텐츠 목록을 조회하여 웹 컨텐츠의 가시화를 위한 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템에 관한 것이다.

4차 산업혁명과 더불어 소프트웨어 중심 사회, 모든 사물이 네트워크로 연결된 사회에서, 사이버 공격은 더욱 지능화되고 있으며 사이버 범죄 조직의 수익원이 되고 있다.

다수의 이용자가 접속하는 웹 사이트는 사이버 범죄에 악용되어 웹 사이트와 이메일, SMS, SNS를 통해 전달된다. 악성 웹 주소는 주소만으로 악성 여부를 판단하기 어려워, 웹 주소를 클릭한 사용자는 악성코드에 감염되거나 개인정보나 금융정보가 빠져나가기도 한다. 웹은 악성코드 유포의 주요 수단으로, 악성코드 유포의 85%는 웹 사이트라는 보고가 있다. 또한, 악성행위를 위해 명령제어서버(C&C)나 암호화를 위한 키 전달 사이트 또는 훔쳐낸 사용자 정보를 저장하는 정보 유출지로 웹 서비스를 악용하고 있다.

영국 NCSC(National Cyber Security Center) 발표에 따르면, 사이버 공격에 악용된 웹 주소 2020년 144.8만개와 2021년 310만개를 탐지하고 중단시켰다고 발표했다 (https:/www.ncsc.gov.uk/files/ACD-The-Fifth-Year-full-report.pdf, 2022). 2020년과 2021년 1년동안 악성 웹 주소 공격은 2배 이상 증가하였다.

사이버 공격을 위해 공격자들은 사이트를 해킹하고 악성 컨텐츠를 숨겨놓는다. 이러한 은닉된 컨텐츠(또는 웹 주소)를 찾는 것은 많은 어려움이 있다. 기존의 악성 웹 주소 탐지는 대다수가 User Navigation 방식의 크롤링과 룰(Rule) 기반 탐지 방식을 사용한다. 크롤러에 의한 User Navigation 방식은 웹 사이트의 메인 페이지와 연결되어 있는 내부 링크를 따라 순회하기 때문에 내부 링크가 없는 은닉된 컨텐츠를 탐지할 수 없다. 룰 기반 탐지 방식은 탐지된 악성 웹 주소를 탐지 룰로 사용하는 경우로, 기 탐지되어 악성이 제거된 무해한 경유지를 탐지할 뿐이다. 경유지는 악성 웹 컨텐츠와 연결된 링크를 가지는 웹 컨텐츠이다. 룰(Rule) 탐지 방식의 문제점은 기존 룰(Rule)의 한 글자만 바뀌어도 탐지가 불가능하며, 공격자는 웹 주소를 수시로 변경하여 룰(Rule) 탐지를 우회할 수 있으며, 룰(Rule)에 포함되지 않은 새로운 악성 웹 주소를 탐지하는 것이 불가능하고, 미래에 출현 가능한 신규 악성 웹 주소를 탐지하는 것이 불가능하다. 또한, 룰(Rule) 저장을 위한 많은 저장 공간과, 룰(Rule) 비교 연산에 많은 리소스와 오랜 점검 시간이 필요하다.

백신이나 이메일 보안도구에서도 악성 웹 주소를 탐지할 수 있다. 그러나, 백신이나 이메일 보안도구를 이용한 탐지는 해당 보안도구를 사용하는 PC와 이메일에 제한적인 탐지 방식으로, 모든 웹 사이트의 악성 웹 주소를 탐지하지 못한다. 안전한 인터넷 환경을 위해서는 모든 웹 사이트를 조사하여 악성 웹 주소를 탐지할 수 있어야 한다.

웹 컨텐츠는 웹 서비스를 통해 공개되어 접근이 가능하다. 그러나 일반적인 웹 컨텐츠 접근 방식은 웹사이트의 메인 페이지로부터 시작하여 콘텐츠의 연결을 통해 접근한다.

즉, 웹 디렉터리에 존재해도 메인 페이지 혹은 메인 페이지와 연결된 다른 컨텐츠와의 연결이 없으면 웹 사이트를 통해 컨텐츠 접근이 불가능하다. 공격자는 웹사이트를 공격하고 악성 컨텐츠를 웹 디렉터리에 저장하며, 악성 컨텐츠는 메인 페이지와의 연결이 없기 때문에 일반적인 웹사이트를 통해 접근이 불가능하다.

이렇게 메인페이지와의 연결이 없는 컨텐츠를 은닉 컨텐츠(숨겨진 컨텐츠) 라고 한다. 그러나 이러한 은닉 컨텐츠는 웹디렉터리의 저장경로(URL)를 알면 접속이 가능하다. 이에, 공격자는 웹 사이트를 통해 드러나지 않는 악성 컨텐츠의 URL을 이용하여 사용자를 공격한다.

한국등록특허 10-1428727호는 이러한 악성코드 최종 유포지 및 경유지 탐지 시스템 및 방법에 관한 기술을 기재하고 있다.

실시예들은 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템에 관하여 기술하며, 보다 구체적으로 사이버 공격 예방을 위한 랜섬웨어 등을 유포하는 은닉된 악성 웹 주소(유포지) 탐지 기술을 제공한다.

실시예들은 정상적인 웹 컨텐츠는 디지털 체인으로 상호 유기적으로 연결되어 있으며, 비정상 웹 컨텐츠는 디지털 체인이 단절되어 있다는 디지털 체인 원리에 기반을 두고 있다. 디지털 체인 원리에 기반하여, 내부 및 외부 링크의 연결과 단절 상태를 이용하여 정상과 비정상 웹 컨텐츠를 식별할 수 있는, 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템을 제공하는데 있다.

여기서, 웹 컨텐츠는 웹 주소 또는 URL을 의미할 수 있다. 아래에서는 비정상 웹 컨텐츠의 일례로써 악성코드를 예로 들어 설명하나, 악성코드뿐 아니라 피싱이나 정보유출지, 명령제어서버 등을 포함할 수 있다.

실시예들은 웹의 하이퍼링크 속성에 의해 은닉 특성을 가지는 악성 컨텐츠 공격에 대응하기 위하여 웹 컨텐츠의 가시화와 은닉 컨텐츠의 웹 접근 통제를 통해 웹사이트의 공격 피해 여부를 파악하고 웹사이트가 악용되지 않도록 보호하고자 한다.

다만, 본 발명이 해결하고자 하는 기술적 과제들은 상기 과제로 한정되는 것은 아니며, 본 발명의 기술적 사상 및 영역으로부터 벗어나지 않은 범위에서 다양하게 확장될 수 있다.

본 발명의 일 실시예에 따른 컴퓨터 장치에 의해 수행되는 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법에 있어서, 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계, 수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계 및 리스트화된 공개 컨텐츠 목록 및 은닉 컨텐츠 목록을 이용하여 상기 정상 또는 비정상 웹 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 점검하는 단계를 포함하고, 상기 정상 또는 비정상 웹 컨텐츠를 식별하는 단계는, 웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별한다.

본 발명의 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법에 있어서, 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계 및 수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계를 포함하고, 상기 정상 또는 비정상 웹 컨텐츠를 식별하는 단계는, 웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별한다.

실시예들에 따르면 정상적인 웹 컨텐츠는 디지털 체인으로 상호 유기적으로 연결되어 있으며, 비정상 웹 컨텐츠는 디지털 체인이 단절되어 있는 디지털 체인 원리를 이용함으로써, 내부 및 외부 링크의 연결과 단절 상태를 이용하여 정상과 비정상 웹 컨텐츠를 식별할 수 있는, 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템을 제공할 수 있다.

실시예들은 User Navigation 방식을 이용하여 링크 등의 웹 컨텐츠 정보를 수집한다. 그러나 악성 탐색(식별)은 내부 링크를 따라가는 User Navigation 방식이 아닌 외부 링크를 대상으로 악성을 식별한다. 외부 링크의 웹 컨텐츠가 도메인 내부 컨텐츠와 단절되어 있다면 비정상 컨텐츠로 판정한다. 링크가 단절된 비정상 컨텐츠는 추가 검증에 의하여 은닉 여부와 악성 여부를 정교하게 판정할 수 있다. 비정상 컨텐츠 탐지 방식은 활성상태의 악성 웹 컨텐츠를 탐지할 수 있다. 비 룰(Rule) 기반의 탐지 방식을 사용하여, 공격자의 룰(Rule) 탐지 우회가 불가능하며, 기 탐지되지 않은 새로운 악성 웹 주소를 탐지할 수 있으며, 미래에 출현 가능한 신규 악성 웹 주소를 탐지할 수 있다. 또한, 룰(Rule) 탐지를 위한 리소스 소모와 오랜 점검 시간 등의 단점을 해결할 수 있다.

실시예들은 안전한 인터넷 환경을 위하여 모든 웹 사이트를 조사하여 악성 웹 주소를 탐지하는 방식이다.

실시예들에 따르면 웹의 하이퍼링크 속성에 의해 은닉 특성을 가지는 악성 컨텐츠 공격에 대응하기 위하여 웹 컨텐츠의 가시화와 은닉 컨텐츠의 웹 접근 통제를 통해 웹사이트의 공격 피해 여부를 파악하고 웹사이트가 악용되지 않도록 보호할 수 있다.

다만, 본 발명의 효과는 상기 효과들로 한정되는 것은 아니며, 본 발명의 기술적 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있다.

도 1a은 기존의 은닉된 악성 웹 컨텐츠 탐지를 설명하기 위한 도면이고, 도 1b는 일 실시예에 따른 은닉된 악성 웹 컨텐츠 탐지를 설명하기 위한 도면이다.

도 2은 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.

도 3은 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소를 나타내는 블록도이다.

도 4는 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 비정상 웹 컨텐츠 탐지 방법을 나타내는 흐름도이다.

도 5는 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소를 나타내는 블록도이다.

도 6은 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 비정상 웹 컨텐츠 탐지 방법을 나타내는 흐름도이다.

도 7은 일 실시예에 따른 웹 컨텐츠를 식별하여 웹 컨텐츠 관리 목록을 처리하는 과정을 설명하기 위한 도면이다.

도 8은 일 실시예에 따른 은닉 컨텐츠 웹 접근 통제 방안을 설명하기 위한 도면이다.

도 9는 일 실시예에 따른 웹 요청에 따른 은닉 컨텐츠 웹 접근 통제 방안을 설명하기 위한 도면이다.

도 10은 일 실시예에 따른 웹 요청 응답에 따른 은닉 컨텐츠 웹 접근 통제 방안을 설명하기 위한 도면이다.

도 11은 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템의 구조를 설명하기 위한 도면이다.

도 12는 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템의 구성도를 나타내는 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

본 발명은 은닉된 악성 웹 주소를 탐지 및 검증하고, 웹 컨텐츠의 가시화를 위해 공개 컨텐츠 목록과 은닉 컨텐츠 목록을 조회하는 것을 그 요지로 한다.

이하에서는 도 1 내지 도 12를 참조하여 본 발명에 대해 상세히 설명한다.

도 1a은 기존의 은닉된 악성 웹 컨텐츠 탐지를 설명하기 위한 도면이다.

도 1a을 참조하면, 기존의 User Navigation 탐색 방식을 사용하는 웹 탐색 방식으로는 은닉된 악성코드를 유포하는 웹 사이트를 탐지하는 것이 불가능하다. 또한, 기존의 유포지 룰(Rule) 기반 악성코드 탐지 방식으로는 신규 악성코드의 유포지의 탐지가 어렵고, 악성코드가 사라진 무해한 경유지를 탐지하고 있어 비용과 시간이 낭비되고 있다. 여기서, 유포지는 악성코드가 위치한 웹 주소이고, 경유지는 유포지 링크를 가지는 웹 주소이다.

이와 같이, 기존의 User Navigation 탐색 방식은 내부 링크가 없는 은닉된 악성코드를 탐지할 수 없다. 여기서 User Navigation은 사용자 탐색 방식으로, 대메뉴와 소메뉴의 내부 링크를 따라 웹 컨텐츠를 탐색하는 방식이다.

도 1b는 일 실시예에 따른 은닉된 악성 웹 컨텐츠 탐지를 설명하기 위한 도면이다.

도 1b를 참조하면, 실시예들은 내부 링크를 순회하는 방식으로 은닉된 유포지를 탐지하지 못하는 기존 방식을 탈피하고, 디지털 체인 원리에 의해 악성코드가 존재하는 활성 상태의 유해한 유포지, 및 유해한 유포지와 연결된 경유지를 탐지할 수 있다.

여기서, 디지털 체인 원리는 다음과 같다. 정상적인 웹 컨텐츠는 디지털 체인으로 상호 유기적으로 연결된 형태를 가지나, 비정상 웹 컨텐츠는 디지털 체인이 단절된 형태를 갖는다. 여기서, 웹 컨텐츠는 웹 주소 또는 URL을 의미할 수 있다. 아래에서는 비정상 웹 컨텐츠의 일례로써 악성코드를 예를 들어 설명하나, 악성코드뿐 아니라 피싱이나 정보유출지, 명령제어서버 등을 포함할 수 있다.

실시예들에 따르면 User Navigation과 AI(Artificial Intelligence) 기술을 결합한 탐색 방식을 제공하며, 이를 통해 내부 링크 및 외부 링크를 탐색하여 악성코드를 탐지할 수 있다.

도 2은 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 비정상 웹 컨텐츠 탐지 시스템이 도 2의 컴퓨터 시스템(200)을 통해 구현될 수 있다. 도 2에 도시한 바와 같이, 컴퓨터 시스템(200)은 비정상 웹 컨텐츠 탐지 방법을 실행하기 위한 구성요소로서 프로세서(210), 메모리(220), 영구 저장 장치(230), 버스(240), 입출력 인터페이스(250) 및 네트워크 인터페이스(260)를 포함할 수 있다.

프로세서(210)는 명령어들의 임의의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(210)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(210)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 콘텐츠 플랫폼, 이동 컴퓨팅 장치, 스마트폰, 태블릿, 셋톱 박스, 미디어 플레이어 등에 포함될 수 있다. 프로세서(210)는 버스(240)를 통해 메모리(220)에 접속될 수 있다.

메모리(220)는 컴퓨터 시스템(200)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(220)는 예를 들어 랜덤 액세스 메모리(Random Access Memory, RAM) 및/또는 동적 RAM(Dynamic RAM, DRAM)을 포함할 수 있다. 메모리(220)는 컴퓨터 시스템(200)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(220)는 예를 들어 비정상 웹 컨텐츠 탐지를 위한 명령어들을 포함하는 컴퓨터 시스템(200)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(200)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(210)를 포함할 수 있다.

버스(240)는 컴퓨터 시스템(200)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(240)는 예를 들어 컴퓨터 시스템(200)의 컴포넌트들 사이에, 예를 들어 프로세서(210)와 메모리(220) 사이에 데이터를 운반할 수 있다. 버스(240)는 컴퓨터 시스템(200)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.

영구 저장 장치(230)는 (예를 들어, 메모리(220)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(200)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(230)는 컴퓨터 시스템(200) 내의 프로세서(210)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(230)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.

입출력 인터페이스(250)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 비정상 웹 컨텐츠 탐지를 위한 데이터가 입출력 인터페이스(250)를 통해 수신될 수 있다.

네트워크 인터페이스(260)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(260)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 비정상 웹 컨텐츠 탐지를 위한 데이터는 네트워크 인터페이스(260)를 통해 수신될 수 있다.

또한, 다른 실시예들에서 컴퓨터 시스템(200)은 도 2의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다.

도 3은 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소를 나타내는 블록도이고, 도 4는 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 비정상 웹 컨텐츠 탐지 방법을 나타내는 흐름도이다.

도 3에 도시된 바와 같이, 프로세서(210)는 정보 수집부(310), 컨텐츠 식별부(320), 컨텐츠 분류부(330) 및 컨텐츠 처리부(340)를 포함할 수 있다. 여기서 프로세서(210)는 비정상 웹 컨텐츠 탐지 시스템으로 언급될 수 있다. 이러한 프로세서(210)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(210)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(210)가 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하도록 컴퓨터 시스템(200)을 제어하기 위해 동작하는 기능적 표현으로서 정보 수집부(310)가 사용될 수 있다. 프로세서(210) 및 프로세서(210)의 구성요소들은 도 4의 비정상 웹 컨텐츠 탐지 방법이 포함하는 단계들(S410 내지 S440)을 수행할 수 있다. 예를 들어, 프로세서(210) 및 프로세서(210)의 구성요소들은 메모리(220)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서 적어도 하나의 프로그램 코드는 상기 비정상 웹 컨텐츠 탐지 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.

일 실시예에 따른 컴퓨터 장치에 의해 수행되는 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법은, 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계(S410), 수집된 정보를 기반으로 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계(S420), 및 식별된 정상 웹 컨텐츠 및 비정상 웹 컨텐츠를 공개 컨텐츠 목록 및 은닉 컨텐츠 목록으로 리스트화하는 단계(S430)를 포함할 수 있다. 또한, 1차적으로 식별된 정상 또는 비정상 웹 컨텐츠에 대해 AI(Artificial Intelligence) 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계(S440)를 더 포함할 수 있다.

비정상 웹 컨텐츠 탐지 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.

단계(S410)에서, 정보 수집부(310)는 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집할 수 있다. 보다 구체적으로, 정보 수집부(310)는 크롤러 서버에 검증 요청 도메인이 전송됨에 따라 크롤러를 이용하여 검증 요청 도메인의 내부 링크 및 외부 링크를 순회하여 정보를 수집할 수 있다. 이 때, 정보 수집부(310)는 크롤러의 실시간 크롤링을 위해 크롤러 서버를 분산 형태로 구성할 수 있다.

여기서, 크롤러는 국내 및 국외 도메인/위협 도메인에 대해 크롤링을 수행하며, 내부 및 외부 링크를 순회하며 은닉된 유포지(URL)를 탐지할 수 있다. 이 때 링크만을 이용하여 의심 URL을 1차적으로 식별할 수 있다.

단계(S420)에서, 컨텐츠 식별부(320)는 수집된 정보를 기반으로 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별할 수 있다. 보다 구체적으로, 컨텐츠 식별부(320)는 크롤러 서버에서 수집된 정보를 기반으로 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 1차적으로 정상 또는 비정상 웹 컨텐츠를 식별한 후, 의심 URL 데이터를 전송할 수 있다.

컨텐츠 식별부(320)는 웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별할 수 있다.

단계(S430)에서, 컨텐츠 분류부(330)는 리스트화된 공개 컨텐츠 목록 및 은닉 컨텐츠 목록을 이용하여 웹 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 점검할 수 있다. 보다 구체적으로, 컨텐츠 분류부(330)는 분류하여 상기 공개 컨텐츠 목록 및 상기 은닉 컨텐츠 목록을 이용하여 웹 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 점검하고, 해당 요청 또는 응답이 은닉 컨텐츠에 대한 것인지 여부를 탐지하여 공개 컨텐츠 또는 은닉 컨텐츠를 분류할 수 있다.

단계(S440)에서, 컨텐츠 처리부(340)는 1차적으로 식별된 정상 또는 비정상 웹 컨텐츠에 대해 AI(Artificial Intelligence) 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증할 수 있다. 또한, 컨텐츠 처리부(340)는 은닉 컨텐츠에 대한 접근과 실행을 차단할 수 있다. 보다 구체적으로, 컨텐츠 처리부(340)는 AI 서버에서 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증한 후, 웹 데이터베이스에 결과를 전송하여 판정 결과를 저장할 수 있다. 여기서, 검증하기 전에 메타 데이터 및/또는 도메인 정보를 크롤링하는 작업이 수행될 수 있다. 즉, 인공지능 탐지 전에 의심 도메인의 도메인 관련 메타 정보를 크롤링하여 수집할 수 있다.

또한, 컨텐츠 처리부(340)는 컨텐츠 분류부(330)에서 해당 웹 컨텐츠가 은닉 컨텐츠로 분류되면, 해당 콘텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 통제하여 은닉 컨텐츠에 대한 접근과 실행을 차단할 수 있다. 보다 구체적으로, 웹 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)이 있는 경우, 컨텐츠 분류부(330)는 이를 점검하여 공개 컨텐츠 목록을 조회하고, 해당 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)이 은닉 컨텐츠에 대한 것임을 탐지하며, 은닉 컨텐츠인 경우, 컨텐츠 처리부(340)는 해당 콘텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 통제하여 은닉 컨텐츠에 대한 접근과 실행을 차단할 수 있다.

여기서, AI 모델은 탐색 도메인을 선별하고, 위협 데이터를 수집 및 정제할 수 있다. 또한, AI 모델은 멀티 모달에 의한 복합 모델을 구성하여 유포지를 탐지할 수 있다.

컨텐츠 처리부(340)는 악성코드의 유포지와 경유지에 대한 빅데이터 특성 기반 인공지능 탐지를 통해 정상 또는 비정상 웹 컨텐츠를 검증할 수 있다. 특히, 컨텐츠 처리부(340)는 비 룰(Rule) 기반 탐지 방식을 이용하여, 악성코드가 살아있는 유포지와 경유지를 동시에 탐지하여, 악성코드를 유포하는 URL을 탐지할 수 있다.

도 5는 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소를 나타내는 블록도이고, 도 6은 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 비정상 웹 컨텐츠 탐지 방법을 나타내는 흐름도이다.

도 5에 도시된 바와 같이, 프로세서(210)는 정보 수집부(510), 컨텐츠 식별부(520) 및 컨텐츠 검증부(530)를 포함할 수 있다. 여기서 프로세서(210)는 비정상 웹 컨텐츠 탐지 시스템으로 언급될 수 있다. 이러한 프로세서(210)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(210)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(210)가 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하도록 컴퓨터 시스템(200)을 제어하기 위해 동작하는 기능적 표현으로서 정보 수집부(510)가 사용될 수 있다. 프로세서(210) 및 프로세서(210)의 구성요소들은 도 6의 비정상 웹 컨텐츠 탐지 방법이 포함하는 단계들(S610 내지 S630)을 수행할 수 있다. 예를 들어, 프로세서(210) 및 프로세서(210)의 구성요소들은 메모리(220)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서 적어도 하나의 프로그램 코드는 상기 비정상 웹 컨텐츠 탐지 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.

실시예에 따른 컴퓨터 장치에 의해 수행되는 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법은, 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계(S610), 및 수집된 정보를 기반으로 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계(S620)를 포함할 수 있다. 또한, 1차적으로 식별된 정상 또는 비정상 웹 컨텐츠에 대해 AI(Artificial Intelligence) 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계(S630)를 더 포함할 수 있다.

단계(S610)에서, 정보 수집부(510)는 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집할 수 있다. 보다 구체적으로, 정보 수집부(510)는 크롤러 서버에 검증 요청 도메인이 전송됨에 따라 크롤러를 이용하여 검증 요청 도메인의 내부 링크 및 외부 링크를 순회하여 정보를 수집할 수 있다. 이 때, 정보 수집부(510)는 크롤러의 실시간 크롤링을 위해 크롤러 서버를 분산 형태로 구성할 수 있다.

단계(S620)에서, 컨텐츠 식별부(520)는 수집된 정보를 기반으로 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별할 수 있다. 보다 구체적으로, 컨텐츠 식별부(520)는 크롤러 서버에서 수집된 정보를 기반으로 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 1차적으로 정상 또는 비정상 웹 컨텐츠를 식별한 후, 의심 URL 데이터를 전송할 수 있다.

컨텐츠 식별부(520)는 웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별할 수 있다.

단계(S630)에서, 컨텐츠 검증부(530)는 1차적으로 식별된 정상 또는 비정상 웹 컨텐츠에 대해 AI(Artificial Intelligence) 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증할 수 있다. 보다 구체적으로, 컨텐츠 검증부(530)는 AI 서버에서 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증한 후, 웹 데이터베이스에 결과를 전송하여 판정 결과를 저장할 수 있다. 여기서, 검증하기 전에 메타 데이터 및/또는 도메인 정보를 크롤링하는 작업이 수행될 수 있다. 즉, 인공지능 탐지 전에 의심 도메인의 도메인 관련 메타 정보를 크롤링하여 수집할 수 있다.

컨텐츠 검증부(530)는 악성코드의 유포지와 경유지에 대한 빅데이터 특성 기반 인공지능 탐지를 통해 정상 또는 비정상 웹 컨텐츠를 검증할 수 있다. 특히, 컨텐츠 검증부(530)는 비 룰(Rule) 기반 탐지 방식을 이용하여, 악성코드가 살아있는 유포지와 경유지를 동시에 탐지하여, 악성코드를 유포하는 URL을 탐지할 수 있다.

도 7은 일 실시예에 따른 웹 컨텐츠를 식별하여 웹 컨텐츠 관리 목록을 처리하는 과정을 설명하기 위한 도면이다. 도 8은 일 실시예에 따른 은닉 컨텐츠 웹 접근 통제 방안을 설명하기 위한 도면이며, 도 9는 일 실시예에 따른 웹 요청에 따른 은닉 컨텐츠 웹 접근 통제 방안을 설명하기 위한 도면이고, 도 10은 일 실시예에 따른 웹 요청 응답에 따른 은닉 컨텐츠 웹 접근 통제 방안을 설명하기 위한 도면이다.

도 7 및 도 8을 참조하면, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 웹 사이트를 순회하며 내부 링크를 따라 웹 컨텐츠의 가시화를 위해 공개 컨텐츠 목록과 은닉 컨텐츠 목록을 생성하며, 공개 컨텐츠 목록(회원 권한 컨텐츠 등) 및 은닉 컨텐츠 목록은 주기적으로 목록 업데이트한다.

일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 웹사이트(830)에서 하이퍼링크를 따라(웹사이트 내부 링크) 웹 컨텐츠를 크롤링하여 공개 컨텐츠 목록(840)을 생성한다. 하이퍼링크에는 onClick() 등 마우스 이벤트에 따라 연결되는 웹 컨텐츠 목록을 포함할 수 있다.

또한, 로그인에 의해 접근 가능한 컨텐츠 역시 모두 공개 컨텐츠로 간주한다. 이 때, 은닉 컨텐츠는 내부 링크가 없는 컨텐츠를 의미한다. 이것은 사용자(810)가 메인페이지를 중심으로 링크를 따라 접근이 불가능한 컨텐츠를 나타내며, 공격자(820)가 숨겨둔 컨텐츠 또는 개발자나 운영자가 실수로 웹 디렉터리에 저장한 컨텐츠를 나타낼 수 있다.

은닉 컨텐츠 목록은 웹서버 외부에서 생성한다.

웹서버 외부에서 웹 서비스로 들어오는 요청(request) 또는 응답(response)을 점검하여 해당 컨텐츠가 공개 컨텐츠가 아닌 경우 은닉 컨텐츠로 간주하고 은닉 컨텐츠 목록을 생성할 수 있다. 이 때, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 웹 접근 통제 방안으로, 웹 컨텐츠 요청(request) 또는 요청에 대한 응답(response)을 점검하여 가시화된 웹 컨텐츠 목록을 토대로 은닉 컨텐츠를 식별하고 은닉 컨텐츠 접근을 통제할 수 있다.

보다 구체적으로 도 9 및 도 10을 참조하여 웹 접근 통제 방안에 대해 설명하자면, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 단계 S910 및 단계 S1010 이전에 웹 서비스의 컨텐츠를 크롤링하여 공개된 웹 컨텐츠를 식별하고, 웹 컨텐츠 관리 목록(공개 컨텐츠 목록 및 은닉 컨텐츠 목록)을 저장한다. 이 때, 원활한 웹 서비스 처리를 위하여 링크가 단절된 은닉 상태이나 정상적인 웹 컨텐츠라고 검증된 경우, 접속 및 실행을 허용하고 웹 컨텐츠 관리 목록에 저장할 수 있다.

이후에, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 단계 S910에서 웹 서비스로 들어오는 웹 컨텐츠 요청에 따라 공개 콘텐츠 목록을 조회하고(단계 S920), 공개된 컨텐츠인지 은닉된 컨텐츠인지를 비교한다(단계 S930). 이에, 공개된 정상 컨텐츠인 경우에는 접속을 허용하고(단계 S940), 은닉된 비정상 컨텐츠인 경우에는 접속을 차단, 통제하여 은닉된 비정상 컨텐츠에 대한 접근과 실행을 차단한다(단계 S950).

또한, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 단계 S1010에서 웹 서비스로 들어오는 요청에 대해 응답하는 웹 컨텐츠의 공개 콘텐츠 목록을 조회하고(단계 S1020), 공개된 컨텐츠인지 은닉된 컨텐츠인지를 비교한다(단계 S1030). 이에, 공개된 정상 컨텐츠인 경우에는 요청(응답)을 허용하고(단계 S1040), 은닉된 비정상 컨텐츠인 경우에는 요청(응답)을 차단, 통제하여 은닉된 비정상 컨텐츠에 대한 접근과 실행을 차단한다(단계 S1050).

일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 은닉된 비정상 컨텐츠인 경우에, 은닉된 비정상 컨텐츠에 대하여 웹 관리자에게 알람을 보낼 수 있다. 또한, 은닉된 비정상 컨텐츠를 웹 컨텐츠 관리 목록에 저장하고 업데이트하며, 은닉된 비정상 컨텐츠에 대한 요청(응답)과 통제 내용을 로그에 저장한다.

일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 1) 공격자가 악성코드 등 악성 컨텐츠를 웹 서버에 숨겨두었는지를 탐지, 2) 공격자가 웹서비스를 통해 기업 내부에 침투하기 위해 은닉된 웹셸 악성코드를 실행하는지를 탐지, 3) 은닉 컨텐츠 기반 웹셸 실행 요청을 탐지하고 이를 차단, 및 4) 웹 사이트 외부에 설치하여 웹셸을 탐지하는 방식을 이용함으로써, 웹 컨텐츠의 가시화와 은닉 컨텐츠의 웹 접근 통제를 통해 웹셸 등의 악성 컨텐츠 탐지 및 대응이 가능하다.

도 11을 참조하면, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 디지털 체인 원리 및 빅데이터 기반 AI 모델을 통해 악성코드의 웹 주소를 탐지할 수 있다. 실시예들은 디지털 체인 원리에 의해 1차 식별된 웹 컨텐츠에 대해 악성을 검증하는 인공지능(AI) 기술을 설명하기 위한 도면이다.

악성 웹 컨텐츠를 검증 하기 위한 인공지능 모델은 도면 11과 같다.

데이터 소스에는 내 외부 링크와 URL 정보, 도메인 정보, 컨텐츠의 메타 정보, 스크립트와 HTML 등을 사용한다. 수집된 데이터는 빅데이터 처리를 위해 no SQL 서버인 몽고 DB 에 저장된다.

모델 생성을 위한 알고리즘에는 분류/회귀 알고리즘과 클러스터링 알고리즘, 딥러닝을 사용한다. 모델 처리 과정은 데이터 전처리를 위해 데이터 분석과 데이터 변환, 특징 선정 과정을 거치며 모델 학습에서는 모델 구축과 모델 평가, 모델 최적화를 진행합니다. 모델의 예측과 분석 과정에서는 모델 분석과 모델 모니터링, 예측 결과의 시각화를 수행한다.

데이터 수집과 모델 생성을 통해 최종 6종의 단일모델과 복합모델이 생성되고, 디지털 체인 검증 모델과 링크 검증 모델, URL 모델, 도메인 모델, HTML과 스크립트 모델이 생성된다.

디지털 체인 원리는 디지털 서비스에서 데이터는 상호 유기적으로 연결된 구조를 가지나 비정상 웹 컨텐츠는 이러한 디지털 체인이 단절된 구조를 가진다. 보다 구체적으로, 정상적인 웹 컨텐츠는 디지털 체인으로 상호 유기적으로 연결되어 있는 구조이며, 비정상 컨텐츠(즉, 유포지)는 정상적인 웹 컨텐츠와 달리 “내부 링크”가 없는 디지털 체인이 단절된 형태이다. 이에 따라 실시예들은 내부 및 외부 링크의 연결과 단절 상태를 이용하여 정상과 비정상 웹 컨텐츠를 식별할 수 있다.

또한, 빅데이터 기반 AI 모델은 빅데이터를 기반으로 비정상 URL과 정상 URL의 특성을 찾아 AI 기반으로 자동 탐지할 수 있다.

일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 내부 및 외부 URL을 탐색하기 위한 웹 크롤러가 구성되며, 디지털 체인 기반 URL 탐색 및 비정상 검증을 수행할 수 있고, 수집된 크롤러의 정보를 기반으로 비정상 유무를 판정하는 AI 모델을 통해 비정상 URL를 탐지하고, URL의 비정상 여부를 검증하는 웹 서비스를 제공할 수 있다. 이 때, 데이터는 정상, 경유지 및 유포지로 구분될 수 있다.

도 12를 참조하면, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 URL 검증 요청을 웹 서버(1210)에 전달할 수 있다. 웹 서버(1210)는 URL 검증 요청을 받아 검증이 완료된 후 검증 결과를 다시 전달할 수 있다. 이 때, 검증은 AI 서버(1220) 및 크롤링 서버(1230)에 의해 진행될 수 있고, 웹 서버(1210)는 AI 서버(1220) 및 크롤링 서버(1230)로부터 검증 후 검증 결과를 전달 받을 수 있다.

크롤링 서버(1230)는 디지털 체인을 탐색하고, 도메인을 순회하여 다양한 피처를 수집할 수 있다. 또한, AI 서버(1220)는 비정상 웹 URL을 분류하고 디지털 체인을 검증할 수 있다. 더욱이 레이블 서버(1240)는 URL 레이블을 표시할 수 있다. 여기서, 웹 데이터베이스(1250)는 디지털 체인 검증 결과 및 AI 판정 결과를 저장할 수 있고, 빅데이터 데이터베이스(1260)는 크롤링 결과를 저장하고, 도메인 정보 및 AI 피처를 저장할 수 있다. 또한, 글로벌 위협 정보 회사(1270)와 연계하여 데이터를 실시간으로 확보하고 검증 기술을 교류할 수 있다.

실시예들은 비 룰(Rule) 기반 탐지 방식을 이용하여, 악성코드가 살아있는 유포지와 경유지를 동시에 탐지할 수 있다. 이에 따라 악성코드를 유포하는 URL을 탐지할 수 있다.

이를 위해, 실시예들은 학습 데이터를 확보할 수 있다. 예를 들어 자체 수집 비정상 URL 데이터 및 글로벌 위협정보 회사와 연계하여 데이터 실시간 확보 및 검증 기술 교류를 통해 학습 데이터를 확보할 수 있다.

또한, 실시예들은 디지털 체인 AI 모델의 탐지 성능을 개선할 수 있는 서브 기술을 개발하고 정교화할 수 있다. 예컨대, 도메인 선별 기준을 설정하고, 다양한 특징을 활용한 정상/비정상 식별 성능을 개선할 수 있다.

이와 같이, 기존 기술 대비 실시예들은 악성코드를 유포하는 URL 탐색 방식, 악성코드를 유포하는 검증 방식 및 유포지 룰(Rule)을 사용하지 않은 특성이 있다.

기존에는 악성코드를 유포하는 URL을 탐지하는 방식은 User Navigation 방식을 이용하여 크롤러가 내부 링크만을 순회하는 방식을 사용함에 따라 은닉된 유포지의 탐지가 불가능하였다.

기존의 악성코드를 유포하는 검증 방식은 HTML 소스 검증 및 다운로드 파일(exe) 검증을 사용하여 검증 시간이 오래 걸리고, 과도한 리소스 점유율, 필요 시간 증가 등 웹 페이지 내부 소스코드 전수 조사로 인한 과부하가 발생한다. 또한, 난독화되어 있는 소스코드는 검증이 불가능하다.

기존의 유포지 룰(Rule) 사용 방식은 무해한(Harmless) 유포지 룰(Rule) 기반 무해한 경유지를 탐지한다. 이에 따라 신규 유포지의 탐지가 불가능하고 악성코드를 유포하는 URL의 탐지가 불가능하다.

실시예들은 디지털 체인 원리 및 User Navigation 방식을 이용하여 크롤러를 통해 내부 링크뿐 아니라 외부 링크까지 순회하는 방식을 사용함으로써 은닉된 유포지, 즉 악성코드를 유포하는 URL을 탐지할 수 있다.

실시예들에 따른 악성코드를 유포하는 검증 방식은 디지털 체인 이론을 적용하여 빠른 검증이 가능하며, 1차적으로 비정상 의심 URL을 필터링하여 검증 대상 수를　대폭 줄일 수 있다. 또한, 실시예들은 유포지와 경유지의 다양한 빅데이터 특성 기반 인공지능 탐지를 통해 검증 속도가 빠르다.

이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 장치에 의해 수행되는 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법에 있어서,

크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계;

수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계; 및

리스트화된 공개 컨텐츠 목록 및 은닉 컨텐츠 목록을 이용하여 상기 정상 또는 비정상 웹 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 점검하는 단계

를 포함하고,

상기 정상 또는 비정상 웹 컨텐츠를 식별하는 단계는,

웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는, 비정상 웹 컨텐츠 탐지 방법.
제1항에 있어서,

1차적으로 식별된 상기 정상 또는 비정상 웹 컨텐츠에 대해 AI(Artificial Intelligence) 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계

를 더 포함하는, 비정상 웹 컨텐츠 탐지 방법.
제2항에 있어서,

상기 점검하는 단계는

상기 공개 컨텐츠 목록 및 상기 은닉 컨텐츠 목록을 이용하여 웹 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 조회하고, 해당 요청 또는 응답이 은닉 컨텐츠에 대한 것인지 여부를 탐지하여 공개 컨텐츠 또는 은닉 컨텐츠를 분류하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제3항에 있어서,

상기 검증하는 단계는

상기 은닉 컨텐츠인 경우, 해당 요청(REQUEST) 또는 응답(RESPONSE)을 통제하여 상기 은닉 컨텐츠에 대한 접근과 실행을 차단하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제1항에 있어서,

상기 비정상 웹 컨텐츠 탐지 방법은

상기 공개 컨텐츠 목록과 상기 은닉 컨텐츠 목록을 웹서버 외부에서 관리하며, 웹서버 외부에서 관리되는 목록을 기반으로 상기 은닉 컨텐츠를 검증하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제1항에 있어서,

상기 수집하는 단계는

크롤러 서버에 검증 요청 도메인이 전송됨에 따라 상기 크롤러를 이용하여 상기 검증 요청 도메인의 내부 링크 및 외부 링크를 순회하여 정보를 수집하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제6항에 있어서,

상기 식별하는 단계는

상기 크롤러 서버에서 수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 1차적으로 정상 또는 비정상 웹 컨텐츠를 식별한 후, 의신 URL 데이터를 전송하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제1항에 있어서,

상기 수집하는 단계는

상기 크롤러의 실시간 크롤링을 위해 크롤러 서버를 분산 형태로 구성하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제2항에 있어서,

상기 검증하는 단계는

악성코드의 유포지와 경유지에 대한 빅데이터 특성 기반 인공지능 탐지를 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제2항에 있어서,

상기 검증하는 단계는

비 룰(Rule) 기반 탐지 방식을 이용하여, 악성코드가 살아있는 유포지와 경유지를 동시에 탐지하여, 악성코드를 유포하는 URL을 탐지하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제2항에 있어서,

상기 검증하는 단계는

AI 서버에서 상기 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증한 후, 웹 데이터베이스에 결과를 전송하여 판정 결과를 저장하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
컴퓨터 장치에 의해 수행되는 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법에 있어서,

크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계; 및

수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계

를 포함하고,

상기 정상 또는 비정상 웹 컨텐츠를 식별하는 단계는,

웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는, 비정상 웹 컨텐츠 탐지 방법.
제12항에 있어서,

1차적으로 식별된 상기 정상 또는 비정상 웹 컨텐츠에 대해 AI(Artificial Intelligence) 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계

를 더 포함하는, 비정상 웹 컨텐츠 탐지 방법.
제12항에 있어서,

상기 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계는,

크롤러 서버에 검증 요청 도메인이 전송됨에 따라 상기 크롤러를 이용하여 상기 검증 요청 도메인의 내부 링크 및 외부 링크를 순회하여 정보를 수집하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제14항에 있어서,

상기 정상 또는 비정상 웹 컨텐츠를 식별하는 단계는,

상기 크롤러 서버에서 수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 1차적으로 정상 또는 비정상 웹 컨텐츠를 식별한 후, 의심 URL 데이터를 전송하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제12항에 있어서,

상기 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계는,

상기 크롤러의 실시간 크롤링을 위해 크롤러 서버를 분산 형태로 구성하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제13항에 있어서,

상기 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계는,

악성코드의 유포지와 경유지에 대한 빅데이터 특성 기반 인공지능 탐지를 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제13항에 있어서,

상기 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계는,

비 룰(Rule) 기반 탐지 방식을 이용하여, 악성코드가 살아있는 유포지와 경유지를 동시에 탐지하여, 악성코드를 유포하는 URL을 탐지하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
제13항에 있어서,

상기 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계는,

AI 서버에서 상기 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증한 후, 웹 데이터베이스에 결과를 전송하여 판정 결과를 저장하는 것

을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.