WO2024019226A1

WO2024019226A1 - 유해 url 탐지 방법

Info

Publication number: WO2024019226A1
Application number: PCT/KR2022/014207
Authority: WO
Inventors: 강필상; 김지훈; 홍기헌
Original assignee: 주식회사 필상
Priority date: 2022-07-22
Filing date: 2022-09-22
Publication date: 2024-01-25
Also published as: KR102483004B1; KR20240013640A

Abstract

본 발명은 유해 URL 탐지 방법에 관한 것으로, 사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청하는 단계; 상기 진입 요청된 웹페이지에 대응하는 접속대상 URL(uniform resource locator)을 기 저장된 화이트리스트와 비교하는 단계; 상기 화이트리스트와의 비교 결과, 동일 도메인이 존재하는 경우 탐지 대상에서 제외하는 단계; 상기 동일 도메인이 존재하지 않을 경우 상기 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하는 단계; 상기 이전에 접속된 웹페이지인 경우 상기 탐지 대상에서 제외하는 단계; 상기 이전에 접속된 웹페이지가 아닌 경우 상기 접속대상 URL에 대한 응답코드(response code)를 확인하는 단계; 및 상기 응답코드의 확인에 따라 상기 접속대상 URL이 정상적인 통신이 아닌 경우 상기 탐지 대상에서 제외하는 단계;를 포함함으로써, 유해 URL을 효과적으로 탐지 및 차단할 수 있다.

Description

유해 URL 탐지 방법

본 발명은 사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청할 경우 웹페이지에 대응하는 접속대상 URL을 기 저장된 화이트리스트와 비교하여 동일 도메인이 존재하는 경우 탐지 대상에서 제외하고, 동일 도메인이 존재하지 않을 경우 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하여 이전에 접속된 웹페이지인 경우 탐지 대상에서 제외하며, 이전에 접속된 웹페이지가 아닌 경우 접속대상 URL에 대한 응답코드를 확인하여 접속대상 URL이 정상적인 통신이 아닌 경우 탐지 대상에서 제외할 뿐만 아니라 웹에서 발생할 수 있는 여러 데이터를 이용한 인공지능모델을 통해 유해 URL을 탐지함으로써, 유해 URL을 효과적으로 탐지 및 차단할 수 있는 유해 URL 탐지 방법에 관한 것이다.

잘 알려진 바와 같이, 최근 통신 네트워크 발달과 개인용컴퓨터(PC), 휴대용 단말, 스마트폰, PDA 등과 같은 모바일 기기의 대중화로 인해 시간, 장소 등이 제약 없이 영상데이터, 음성데이터, 사진데이터 등과 같은 다양한 콘텐츠를 다운로드 받거나, 혹은 실시간으로 이용할 수 있다.

또한, 사용자는 시간, 장소 등의 제약 없이 컴퓨터, 휴대용 기기 등을 이용하여 다양한 웹사이트에 접속하여 정보를 획득하거나, 이를 활용하는 일이 증가하고 있다.

하지만, 인터넷의 자유로운 사용에 따른 문화생활의 편의성 증가와 함께, 성장기의 아동, 청소년 등이 음란 동영상, 사기성 콘텐츠 등과 같은 유해 콘텐츠에 노출될 위험성 역시 함께 증가하고 있다.

이에 따라, 인터넷 상에서 쉽게 접근할 수 있는 콘텐츠의 내용을 분석하여 자동으로 유해성 여부를 판단하고, 유해 콘텐츠의 경우 접속을 차단하는 기술에 대한 요구가 지속적으로 높아지고 있다.

한편, 종래에 유해 콘텐츠를 차단하는 기술은 대상 콘텐츠의 유형에 따라 다양한 방식으로 수행되고 있는데, 단말에 동영상, 스틸영상 등이 저장되어 실행되는 경우 단말에 저장된 데이터에 대해 유해성을 분석한 후, 유해 콘텐츠를 삭제 및 차단하는 방식으로 수행되거나, 혹은 단말에 저장되는 과정 없이 인터넷상의 스트리밍서비스 등과 같이 실시간으로 제공되는 콘텐츠의 경우 동영상의 재생 시 유해성을 판별하여 차단하는 방식으로 수행될 수 있다.

그런데, 인터넷 사용환경의 편의성이 높아지고 이용 가능한 통신속도가 증가함에 따라 현재는 콘텐츠를 단말에 직접 저장하여 이용하는 경우보다, 인터넷상의 웹어드레스(URL : uniform resource locator)를 통해 해당 웹사이트에 접속한 후에 온라인상에서 콘텐츠를 이용하는 비율이 증가하고 있기 때문에, 대규모 정상 URL 정보를 포함하는 화이트리스트와 대규모 유해 URL 정보를 포함하는 블랙리스트를 이용하여 URL의 접근을 차단하는 방식이 주로 사용되고 있다.

하지만, URL은 무한한 방식으로 위조 및 변형이 가능하며, 그 속도도 매우 빠르기 때문에, 대규모 리스트 기반의 탐지로는 한계가 있어 좀더 효율적으로 유해성 URL을 탐지하여 차단하는 기법의 개발이 요구되고 있다.

[선행기술문헌]

[특허문헌]

한국등록특허 제10-1545964호(2015.08.13.등록)

본 발명은 사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청할 경우 웹페이지에 대응하는 접속대상 URL을 기 저장된 화이트리스트와 비교하여 동일 도메인이 존재하는 경우 탐지 대상에서 제외하고, 동일 도메인이 존재하지 않을 경우 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하여 이전에 접속된 웹페이지인 경우 탐지 대상에서 제외하며, 이전에 접속된 웹페이지가 아닌 경우 접속대상 URL에 대한 응답코드를 확인하여 접속대상 URL이 정상적인 통신이 아닌 경우 탐지 대상에서 제외함으로써, 유해 URL을 효과적으로 탐지 및 차단할 수 있는 유해 URL 탐지 방법을 제공하고자 한다.

또한, 본 발명은 접속대상 URL이 응답코드에 따라 정상적인 통신인 경우 접속대상 URL에서 접속대상 도메인을 추출하여 적어도 하나의 포털에서 상세검색을 수행하여 그 검색결과 페이지에서 검색건수특징을 추출하고, 추출된 검색건수특징을 인공지능모델을 이용하여 군집화한 후에, 군집화결과 중 이상치가 제거된 정상과 악성 간 임계값을 추출하며, 추출된 임계값이 기 설정된 기준특징값보다 상대적으로 낮은 경우 악성으로 분류함으로써, 유해 URL을 더욱 효과적으로 탐지 및 차단할 수 있는 유해 URL 탐지 방법을 제공하고자 한다.

또한, 본 발명은 접속대상 URL이 응답코드에 따라 정상적인 통신인 경우 접속대상 URL의 HTML 구문을 추출하고, 추출된 HTML 구문에서 인공지능학습을 위한 학습대상특징을 추출하며, 추출된 학습대상특징을 포함하는 인공지능학습데이터를 구성하여 인공지능학습을 수행한 후에, 그 인공지능모델을 이용하여 접속대상 URL이 정상인지, 혹은 악성인지 확인함으로써, 유해 URL을 더욱 더 효과적으로 탐지 및 차단할 수 있는 유해 URL 탐지 방법을 제공하고자 한다.

또한, 본 발명은 접속대상 URL이 응답코드에 따라 정상적인 통신인 경우 접속대상 URL에 대한 웹사이트 검색을 수행하여 그 검색결과 상세내용을 추출하고, 추출된 검색결과 상세내용을 문자열로 토크나이징하며, 토크나이징된 문자열별로 감성점수를 할당하여 감성사전을 생성한 후에, 감성사전을 이용하여 인공지능모델을 이용한 학습 및 분석을 통해 접속대상 URL이 정상인지, 혹은 악성인지 확인함으로써, 유해 URL을 더욱 더 효과적으로 탐지 및 차단할 수 있는 유해 URL 탐지 방법을 제공하고자 한다.

본 발명의 실시예들의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 실시예에 따르면, 사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청하는 단계; 상기 진입 요청된 웹페이지에 대응하는 접속대상 URL(uniform resource locator)을 기 저장된 화이트리스트와 비교하는 단계; 상기 화이트리스트와의 비교 결과, 동일 도메인이 존재하는 경우 탐지 대상에서 제외하는 단계; 상기 동일 도메인이 존재하지 않을 경우 상기 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하는 단계; 상기 이전에 접속된 웹페이지인 경우 상기 탐지 대상에서 제외하는 단계; 상기 이전에 접속된 웹페이지가 아닌 경우 상기 접속대상 URL에 대한 응답코드(response code)를 확인하는 단계; 및 상기 응답코드의 확인에 따라 상기 접속대상 URL이 정상적인 통신이 아닌 경우 상기 탐지 대상에서 제외하는 단계;를 포함하는 유해 URL 탐지 방법이 제공될 수 있다.

또한, 본 발명의 실시예에 따르면, 상기 유해 URL 탐지 방법은, 상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL에서 접속대상 도메인을 추출하여 적어도 하나의 포털에서 상세검색을 수행하는 단계; 상기 상세검색을 수행한 검색결과 페이지에서 검색건수특징을 추출하는 단계; 상기 추출된 검색건수특징을 인공지능모델을 이용하여 군집화하는 단계; 상기 군집화하는 단계를 통해 획득된 군집화결과 중 이상치가 제거된 정상과 악성 간 임계값을 추출하는 단계; 및 상기 추출된 임계값이 기 설정된 기준특징값보다 상대적으로 낮은 경우 악성으로 분류하는 단계;를 더 포함하는 유해 URL 탐지 방법이 제공될 수 있다.

또한, 본 발명의 실시예에 따르면, 상기 유해 URL 탐지 방법은, 상기 추출된 임계값이 기 설정된 기준특징값보다 상대적으로 높은 경우 정상으로 분류하여 상기 접속대상 URL을 상기 화이트리스트에 추가하는 단계;를 더 포함하는 유해 URL 탐지 방법이 제공될 수 있다.

또한, 본 발명의 실시예에 따르면, 상기 유해 URL 탐지 방법은, 상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL의 HTML(Hypertext Markup Language) 구문을 추출하는 단계; 상기 추출된 HTML 구문에서 인공지능학습을 위한 학습대상특징을 추출하는 단계; 상기 추출된 학습대상특징을 포함하는 인공지능학습데이터를 구성하여 상기 인공지능학습을 수행하는 단계; 및 상기 인공지능학습을 수행한 인공지능모델을 이용하여 상기 접속대상 URL이 정상인지, 혹은 악성인지 확인하는 단계;를 더 포함하는 유해 URL 탐지 방법이 제공될 수 있다.

또한, 본 발명의 실시예에 따르면, 상기 유해 URL 탐지 방법은, 상기 접속대상 URL이 정상인 경우 상기 접속대상 URL을 상기 화이트리스트에 추가하는 단계;를 더 포함하는 유해 URL 탐지 방법이 제공될 수 있다.

또한, 본 발명의 실시예에 따르면, 상기 유해 URL 탐지 방법은, 상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL에 대한 웹사이트 검색을 수행하는 단계; 상기 웹사이트 검색에 대한 검색결과 상세내용을 추출하는 단계; 상기 추출된 검색결과 상세내용을 문자열로 토크나이징(tokenizing)하는 단계; 상기 토크나이징된 문자열별로 감성점수를 할당하여 감성사전을 생성하는 단계; 및 상기 감성사전을 이용하여 인공지능모델을 이용한 학습 및 분석을 통해 상기 접속대상 URL이 정상인지, 혹은 악성인지 확인하는 단계;를 더 포함하는 유해 URL 탐지 방법이 제공될 수 있다.

또한, 본 발명의 실시예에 따르면, 사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청하는 단계; 상기 진입 요청된 웹페이지에 대응하는 접속대상 URL(uniform resource locator)을 기 저장된 화이트리스트와 비교하는 단계; 상기 화이트리스트와의 비교 결과, 동일 도메인이 존재하는 경우 탐지 대상에서 제외하는 단계; 상기 동일 도메인이 존재하지 않을 경우 상기 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하는 단계; 상기 이전에 접속된 웹페이지인 경우 상기 탐지 대상에서 제외하는 단계; 상기 이전에 접속된 웹페이지가 아닌 경우 상기 접속대상 URL에 대한 응답코드(response code)를 확인하는 단계; 상기 응답코드의 확인에 따라 상기 접속대상 URL이 정상적인 통신이 아닌 경우 상기 탐지 대상에서 제외하는 단계; 상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL에 대해 적어도 하나의 포털에서 상세검색을 수행하고, 검색건수특징을 추출한 후에, 인공지능모델을 이용하여 군집화하며, 이상치가 제거된 정상과 악성 간 임계값을 추출하여 정상, 혹은 악성으로 분류하는 제 1-1 단계; 상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL의 HTML(Hypertext Markup Language) 구문을 추출하고, 인공지능학습을 위한 학습대상특징을 추출하며, 인공지능학습데이터를 구성하여 상기 인공지능학습을 수행한 후에, 상기 접속대상 URL이 정상인지, 혹은 악성인지 확인하는 제 1-2 단계; 상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL에 대한 웹사이트 검색을 수행하고, 상세내용을 추출하여 토크나이징(tokenizing)한 후에, 감성점수를 할당하여 감성사전을 생성하며, 인공지능모델을 이용한 학습 및 분석을 통해 상기 접속대상 URL이 정상인지, 혹은 악성인지 확인하는 제 1-3 단계; 상기 제 1-2 단계 및 제 1-3 단계의 각 결과에 대해 모델가중치앙상블(model weight ensemble) 처리하는 제 2 단계; 및 상기 제 1-1 단계의 결과를 이용하여 상기 제 2 단계의 결과를 최종 분류(final classification)하는 단계;를 포함하는 유해 URL 탐지 방법이 제공될 수 있다.

본 발명은 사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청할 경우 웹페이지에 대응하는 접속대상 URL을 기 저장된 화이트리스트와 비교하여 동일 도메인이 존재하는 경우 탐지 대상에서 제외하고, 동일 도메인이 존재하지 않을 경우 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하여 이전에 접속된 웹페이지인 경우 탐지 대상에서 제외하며, 이전에 접속된 웹페이지가 아닌 경우 접속대상 URL에 대한 응답코드를 확인하여 접속대상 URL이 정상적인 통신이 아닌 경우 탐지 대상에서 제외함으로써, 유해 URL을 효과적으로 탐지 및 차단할 수 있다.

또한, 본 발명은 접속대상 URL이 응답코드에 따라 정상적인 통신인 경우 접속대상 URL에서 접속대상 도메인을 추출하여 적어도 하나의 포털에서 상세검색을 수행하여 그 검색결과 페이지에서 검색건수특징을 추출하고, 추출된 검색건수특징을 인공지능모델을 이용하여 군집화한 후에, 군집화결과 중 이상치가 제거된 정상과 악성 간 임계값을 추출하며, 추출된 임계값이 기 설정된 기준특징값보다 상대적으로 낮은 경우 악성으로 분류함으로써, 유해 URL을 더욱 효과적으로 탐지 및 차단할 수 있다.

또한, 본 발명은 접속대상 URL이 응답코드에 따라 정상적인 통신인 경우 접속대상 URL의 HTML 구문을 추출하고, 추출된 HTML 구문에서 인공지능학습을 위한 학습대상특징을 추출하며, 추출된 학습대상특징을 포함하는 인공지능학습데이터를 구성하여 인공지능학습을 수행한 후에, 그 인공지능모델을 이용하여 접속대상 URL이 정상인지, 혹은 악성인지 확인함으로써, 유해 URL을 더욱 더 효과적으로 탐지 및 차단할 수 있다.

또한, 본 발명은 접속대상 URL이 응답코드에 따라 정상적인 통신인 경우 접속대상 URL에 대한 웹사이트 검색을 수행하여 그 검색결과 상세내용을 추출하고, 추출된 검색결과 상세내용을 문자열로 토크나이징하며, 토크나이징된 문자열별로 감성점수를 할당하여 감성사전을 생성한 후에, 감성사전을 이용하여 인공지능모델을 이용한 학습 및 분석을 통해 접속대상 URL이 정상인지, 혹은 악성인지 확인함으로써, 유해 URL을 더욱 더 효과적으로 탐지 및 차단할 수 있다.

도 1은 본 발명의 제 1 실시예에 따라 유해 URL을 탐지하는 과정을 나타낸 플로우차트이고,

도 2는 본 발명의 제 2 실시예에 따라 유해 URL을 탐지하는 과정을 나타낸 플로우차트이며,

도 3은 본 발명의 제 2 실시예에 따라 유해 URL을 탐지하는 과정을 설명하기 위한 도면이고,

도 4는 본 발명의 제 3 실시예에 따라 유해 URL을 탐지하는 과정을 나타낸 플로우차트이고,

도 5는 본 발명의 제 3 실시예에 따라 유해 URL을 탐지하는 과정을 설명하기 위한 도면이며,

도 6은 본 발명의 제 4 실시예에 따라 유해 URL을 탐지하는 과정을 나타낸 플로우차트이고,

도 7 및 도 8은 본 발명의 제 4 실시예에 따라 유해 URL을 탐지하는 과정을 설명하기 위한 도면이며,

도 9는 본 발명의 제 5 실시예에 따른 유해 URL 탐지 방법을 나타낸 도면이다.

본 발명의 실시예들에 대한 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 제 1 실시예에 따라 유해 URL을 탐지하는 과정을 나타낸 플로우차트이다.

여기에서, 유해 URL 탐지 방법은 웹페이지를 검색 및 접속하는 중에 유해 URL을 탐지하는 단계별 프로그램을 수행하는 프로세서와, 각종 설정정보, 화이트리스트 등을 저장하는 저장매체와, 프로세서가 실행되는 사용자단말기(예를 들면, 컴퓨터단말기, 모바일단말기 등)를 통해 수행될 수 있다.

도 1을 참조하면, 사용자단말기에서는 접속하고자 하는 웹페이지에 진입 요청할 수 있다(단계110). 여기에서, 사용자단말기에서는 웹사이트 검색 후 웹페이지에 진입할 경우 이에 대응하는 진입 요청(request)이 발생할 수 있고, 이에 따라 이하에서 설명하는 유해 URL 탐지 단계가 수행될 수 있다.

그리고, 사용자단말기에서는 진입 요청된 웹페이지에 대응하는 접속대상 URL(uniform resource locator)을 기 저장된 화이트리스트와 비교할 수 있다(단계120).

예를 들면, 사용자단말기에서는 진입 요청된 접속대상 URL에 대해 전체 URL 중 파라미터를 제외한 도메인영역을 추출하고, 추출된 도메인영역을 사전(dictionary) 형태로 기 저장된 화이트리스트와 비교할 수 있다.

상기 단계(120)에서의 비교 결과, 동일 도메인이 존재하는 경우 사용자단말기에서는 접속대상 URL을 탐지 대상에서 제외할 수 있다(단계130).

여기에서, 사용자단말기에서는 접속대상 URL의 도메인영역이 기 저장된 화이트리스트에 동일한 도메인이 존재할 경우 정상 URL로 판단하여 탐지 대상(즉, 유해 URL)에서 제외할 수 있다.

한편, 상기 단계(120)에서의 비교 결과, 동일 도메인이 존재하지 않을 경우 사용자단말기에서는 접속대상 URL이 이전에 접속된 웹페이지인지를 체크할 수 있다(단계140).

상기 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하는 단계(140)에서는, 사용자단말기에서 접속대상 URL과 이전에 접속된 웹페이지에 대한 레퍼러(referer)를 비교하여 동일 여부를 체크하는 방식으로 수행될 수 있다.

예를 들면, 사용자단말기에서는 접속대상 URL의 도메인영역이 기 저장된 화이트리스트에 동일한 도메인이 존재하지 않을 경우 접속대상 URL의 레퍼러와 이전에 접속된 웹페이지의 레퍼러가 동일한지의 여부를 비교하는 방식으로 이전에 접속된 페이지인지 체크할 수 있다.

여기에서, 레퍼러는 HTTP 프로토콜 헤더값으로, 이를 통해 현재 표시하는 웹페이지가 어떤 웹페이지에서 요청되었는지 확인할 수 있고, 어떤 웹사이트나 웹서버에서 방문자가 왔는지를 파악할 수 있다.

상기 단계(140)에서의 체크 결과, 이전에 접속된 웹페이지인 경우 사용자단말기에서는 접속대상 URL을 탐지 대상에서 제외할 수 있다(단계150).

여기에서, 사용자단말기에서는 접속대상 URL의 레퍼러와 이전에 접속된 웹페이지의 레퍼러가 동일하여 이전에 접속된 웹페이지인 경우 정상 URL로 판단하여 탐지 대상(즉, 유해 URL)에서 제외할 수 있다. 이는 이전에 접속된 웹페이이지인 경우 유해 URL 탐지 대상 확인 및 분류가 완료된 상태이기 때문에 후술하는 과정을 수행할 필요가 없어서이다.

한편, 상기 단계(140)에서의 체크 결과, 이전에 접속된 웹페이지가 아닌 경우 사용자단말기에서는 접속대상 URL에 대한 응답코드(response code)를 확인할 수 있다(단계160).

여기에서, 응답코드는 HTTP 응답상태코드의 목록으로, 1**는 조건부응답, 2**는 성공, 3**은 리다이렉션완료, 4**는 요청오류, 5**는 서버오류를 나타낼 수 있다.

다음에, 사용자단말기에서는 상기 단계(160)에서의 응답코드의 확인에 따라 접속대상 URL이 정상적인 통신이 아닌 경우 접속대상 URL을 탐지 대상에서 제외할 수 있다(단계170).

여기에서, 응답코드가 3**의 리다이렉션코드(redirection code)일 경우 해당 범위를 벗어날 때까지 요청을 계속 시도하여 최종적인 코드를 확인할 수 있는데, 접속대상 URL이 정상적인 통신이 아닌 4**, 5**의 응답코드를 가질 경우 접속이 불가능한 웹사이트로 탐지 대상에서 제외할 수 있다.

따라서, 본 발명의 제 1 실시예에 따르면 사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청할 경우 웹페이지에 대응하는 접속대상 URL을 기 저장된 화이트리스트와 비교하여 동일 도메인이 존재하는 경우 탐지 대상에서 제외하고, 동일 도메인이 존재하지 않을 경우 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하여 이전에 접속된 웹페이지인 경우 탐지 대상에서 제외하며, 이전에 접속된 웹페이지가 아닌 경우 접속대상 URL에 대한 응답코드를 확인하여 접속대상 URL이 정상적인 통신이 아닌 경우 탐지 대상에서 제외함으로써, 유해 URL을 효과적으로 탐지 및 차단할 수 있다.

도 2는 본 발명의 제 2 실시예에 따라 유해 URL을 탐지하는 과정을 나타낸 플로우차트이며, 도 3은 본 발명의 제 2 실시예에 따라 유해 URL을 탐지하는 과정을 설명하기 위한 도면이다.

여기에서, 유해 URL 탐지 방법은 웹페이지를 검색 및 접속하는 중에 유해 URL을 탐지하는 단계별 프로그램을 수행하는 프로세서와, 각종 설정정보, 화이트리스트, 인공지능모델, 통계적이상치 산출알고리즘, 기준값 등을 저장하는 저장매체와, 프로세서가 실행되는 사용자단말기(예를 들면, 컴퓨터단말기, 모바일단말기 등)를 통해 수행될 수 있다.

도 2 및 도 3을 참조하면, 사용자단말기에서는 접속하고자 하는 웹페이지에 진입 요청할 수 있다(단계211). 여기에서, 사용자단말기에서는 웹사이트 검색 후 웹페이지에 진입할 경우 이에 대응하는 진입 요청(request)이 발생할 수 있고, 이에 따라 이하에서 설명하는 유해 URL 탐지 단계가 수행될 수 있다.

그리고, 사용자단말기에서는 진입 요청된 웹페이지에 대응하는 접속대상 URL(uniform resource locator)을 기 저장된 화이트리스트와 비교할 수 있다(단계213).

상기 단계(213)에서의 비교 결과, 동일 도메인이 존재하는 경우 사용자단말기에서는 접속대상 URL을 탐지 대상에서 제외할 수 있다(단계215).

한편, 상기 단계(213)에서의 비교 결과, 동일 도메인이 존재하지 않을 경우 사용자단말기에서는 접속대상 URL이 이전에 접속된 웹페이지인지를 체크할 수 있다(단계217).

상기 단계(217)에서의 체크 결과, 이전에 접속된 웹페이지인 경우 사용자단말기에서는 접속대상 URL을 탐지 대상에서 제외할 수 있다(단계219).

한편, 상기 단계(217)에서의 체크 결과, 이전에 접속된 웹페이지가 아닌 경우 사용자단말기에서는 접속대상 URL에 대한 응답코드(response code)를 확인할 수 있다(단계221).

다음에, 사용자단말기에서는 상기 단계(221)에서의 응답코드의 확인에 따라 접속대상 URL이 정상적인 통신이 아닌 경우 접속대상 URL을 탐지 대상에서 제외할 수 있다(단계223).

한편, 사용자단말기에서는 상기 단계(221)에서의 응답코드의 확인에 따라 접속대상 URL이 정상적인 통신인 경우 접속대상 URL에서 접속대상 도메인을 추출하여 적어도 하나의 포털에서 상세검색을 수행할 수 있다(단계225).

여기에서, 접속대상 URL이 정상적인 통신인 1**, 2**, 일부 3**의 응답코드를 가질 경우 이 후 유해 URL 탐지 과정을 수행할 수 있으며, 이에 따라 사용자단말기에서는 접속대상 URL에서 전체 URL 중 파라미터를 제외한 도메인영역을 추출하고, 추출된 도메인영역을 포털별로 상세검색쿼리를 이용한 상세검색을 수행할 수 있는데, 예를 들어 구글(google) 상세검색의 경우"~**" 등을 이용할 수 있고, 빙(Bing) 상세검색의 경우 "inanchor : **" 등을 이용할 수 있다.

다음에, 상기 단계(225)에서의 상세검색을 수행한 검색결과 페이지에서 사용자단말기에서는 검색건수특징을 추출할 수 있다(단계227).

예를 들면, 사용자단말기에서는 도 3에 도시한 바와 같이 검색결과 페이지에서 검색결과건수, 검색결과에서의 도메인등장횟수, 지정악성키워드 검색건수 등을 포함하는 검색건수특징을 추출할 수 있다.

그리고, 사용자단말기에서는 추출된 검색건수특징을 인공지능모델을 이용하여 군집화할 수 있다(단계229).

예를 들면, 사용자단말기에서는 추출된 검색건수특징(예를 들면, 검색결과건수, 검색결과에서의 도메인등장횟수, 지정악성키워드 검색건수 등)을 비지도방식의 인공지능모델인 K-평균알고리즘(K-means clustering algorithm)을 이용하여 검색건수특징을 군집화할 수 있는데, K-평균알고리즘을 이용하여 검색결과에서의 도메인등장횟수, 지정악성키워드 검색건수 등에 대응하는 복수의 특징값을 갖는 특징데이터의 위치를 평면상에 x값 및 y값으로 표현함으로써, 좌표의 거리에 다른 군집화를 수행할 수 있다.

여기에서, K-평균알고리즘은 비슷한 특성을 지닌 데이터들끼리 K개의 군집으로 묶는 알고리즘을 의미한다.

다음에, 사용자단말기에서는 상기 군집화하는 단계(229)를 통해 획득된 군집화결과 중 이상치(anomaly)가 제거된 정상과 악성 간 임계값을 추출할 수 있다(단계231).

예를 들면, 사용자단말기에서는 수정된 Z-스코어(modified Z-score) 등을 포함하는 통계적이상치산출법을 이용하여 군집화결과 중에서 이상치를 찾아 제거하고, 그 이상치에 따라 정상값과 악성값 간의 임계값을 추출할 수 있다.

그리고, 사용자단말기에서는 추출된 임계값이 기 설정된 기준특징값보다 상대적으로 낮은 경우 악성으로 분류할 수 있다(단계233)

또한, 사용자단말기에서는 추출된 임계값이 기 설정된 기준특징값보다 상대적으로 높은 경우 정상으로 분류하여 접속대상 URL을 화이트리스트에 추가할 수 있다(단계235).

따라서, 본 발명의 제 2 실시예에 따르면 사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청할 경우 웹페이지에 대응하는 접속대상 URL을 기 저장된 화이트리스트와 비교하여 동일 도메인이 존재하는 경우 탐지 대상에서 제외하고, 동일 도메인이 존재하지 않을 경우 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하여 이전에 접속된 웹페이지인 경우 탐지 대상에서 제외하며, 이전에 접속된 웹페이지가 아닌 경우 접속대상 URL에 대한 응답코드를 확인하여 접속대상 URL이 정상적인 통신이 아닌 경우 탐지 대상에서 제외함으로써, 유해 URL을 효과적으로 탐지 및 차단할 수 있다.

또한, 본 발명의 제 2 실시예에 따르면 접속대상 URL이 응답코드에 따라 정상적인 통신인 경우 접속대상 URL에서 접속대상 도메인을 추출하여 적어도 하나의 포털에서 상세검색을 수행하여 그 검색결과 페이지에서 검색건수특징을 추출하고, 추출된 검색건수특징을 인공지능모델을 이용하여 군집화한 후에, 군집화결과 중 이상치가 제거된 정상과 악성 간 임계값을 추출하며, 추출된 임계값이 기 설정된 기준특징값보다 상대적으로 낮은 경우 악성으로 분류함으로써, 유해 URL을 더욱 효과적으로 탐지 및 차단할 수 있다.

도 4는 본 발명의 제 3 실시예에 따라 유해 URL을 탐지하는 과정을 나타낸 플로우차트이고, 도 5는 본 발명의 제 3 실시예에 따라 유해 URL을 탐지하는 과정을 설명하기 위한 도면이다.

여기에서, 유해 URL 탐지 방법은 웹페이지를 검색 및 접속하는 중에 유해 URL을 탐지하는 단계별 프로그램을 수행하는 프로세서와, 각종 설정정보, 화이트리스트, 상관관계 분석알고리즘, 인공지능모델 등을 저장하는 저장매체와, 프로세서가 실행되는 사용자단말기(예를 들면, 컴퓨터단말기, 모바일단말기 등)를 통해 수행될 수 있다.

도 4 및 도 5를 참조하면, 사용자단말기에서는 접속하고자 하는 웹페이지에 진입 요청할 수 있다(단계311). 여기에서, 사용자단말기에서는 웹사이트 검색 후 웹페이지에 진입할 경우 이에 대응하는 진입 요청(request)이 발생할 수 있고, 이에 따라 이하에서 설명하는 유해 URL 탐지 단계가 수행될 수 있다.

그리고, 사용자단말기에서는 진입 요청된 웹페이지에 대응하는 접속대상 URL(uniform resource locator)을 기 저장된 화이트리스트와 비교할 수 있다(단계313).

상기 단계(313)에서의 비교 결과, 동일 도메인이 존재하는 경우 사용자단말기에서는 접속대상 URL을 탐지 대상에서 제외할 수 있다(단계315).

한편, 상기 단계(313)에서의 비교 결과, 동일 도메인이 존재하지 않을 경우 사용자단말기에서는 접속대상 URL이 이전에 접속된 웹페이지인지를 체크할 수 있다(단계317).

상기 단계(317)에서의 체크 결과, 이전에 접속된 웹페이지인 경우 사용자단말기에서는 접속대상 URL을 탐지 대상에서 제외할 수 있다(단계319).

한편, 상기 단계(317)에서의 체크 결과, 이전에 접속된 웹페이지가 아닌 경우 사용자단말기에서는 접속대상 URL에 대한 응답코드(response code)를 확인할 수 있다(단계321).

다음에, 사용자단말기에서는 상기 단계(321)에서의 응답코드의 확인에 따라 접속대상 URL이 정상적인 통신이 아닌 경우 접속대상 URL을 탐지 대상에서 제외할 수 있다(단계323).

한편, 사용자단말기에서는 상기 단계(321)에서의 응답코드의 확인에 따라 접속대상 URL이 정상적인 통신인 경우 접속대상 URL의 HTML(Hypertext Markup Language) 구문을 추출할 수 있다(단계325).

예를 들면, 접속대상 URL이 정상적인 통신인 1**, 2**, 일부 3**의 응답코드를 가질 경우 이 후 유해 URL 탐지 과정을 수행할 수 있으며, 이에 따라 사용자단말기에서는 탐지 대상에서 제외되지 않은 접속대상 URL에 대한 HTML 구문을 크롤링하여 추출할 수 있는데, 크롤링은 웹상에 존재하는 콘텐츠를 수집하는 작업으로, HTML 페이지를 추출하여 HTML/CSS 등을 파싱하고, 필요한 데이터만 추출할 수 있으며, 이는 후술하는 인공지능학습을 위해 특징들을 추출 및 가공하기 위함이다.

다음에, 사용자단말기에서는 추출된 HTML 구문에서 인공지능학습을 위한 학습대상특징을 추출할 수 있다(단계327).

예를 들면, 사용자단말기에서는 악성과 정상 도메인을 분류할 수 있는 유의미한 특징을 추출하기 위해 복수의 학습대상특징을 추출하여 뉴메릭데이터(numeric data)로 표현한 후에, 상관계수 분석을 통해 최종적으로 라벨(label)을 분류하는데 영향을 미칠 수 있는 특징을 추출할 수 있다.

이러한 단계에서는 정상과 악성의 차이를 유도할 수 있는 복수의 학습대상특징(예를 들면, 전체태그수 대비 특정태그의 HTML 내에서 자기자신의 도메인 명의 호출횟수, HTTP 프로토콜과 WWW.을 제외한 도메인부분의 패턴, HTML 내 스크립트문 패턴 및 키워드 추출 등)을 추출할 수 있다.

다음에, 사용자단말기에서는 추출된 학습대상특징을 포함하는 인공지능학습데이터를 구성하여 인공지능학습을 수행할 수 있다(단계329).

예를 들면, 사용자단말기에서는 상기 단계(327)에서 추출된 복수의 학습대상특징(예를 들면, 전체태그수 대비 특정태그의 HTML 내에서 자기자신의 도메인 명의 호출횟수, HTTP 프로토콜과 WWW.을 제외한 도메인부분의 패턴, HTML 내 스크립트(script)문 패턴 및 키워드 추출 등)을 이용하여 인공지능학습을 위한 데이터형태로 구성할 수 있으며, 이를 이용하여 인공지능학습을 수행할 수 있다.

여기에서, 인공지능학습은 트리 기반의 앙상블 학습에 사용되는 XGBoost를 사용하여 머신러닝분류기를 학습하는 방식으로 수행될 수 있고, 이는 분류 성능이 뛰어나면서 내부적으로 교차 검증이 가능한 장점이 있으며, 구성된 인공지능학습데이터를 라벨링(labeling)하여 학습을 진행할 수 있다.

예를 들면, 도 5에 도시한 바와 같이 전체 태그 수 대비 특정 태그 비율은 "<a 태그수 4/전체태그수 15 = 0.2667"와 같이 나타낼 수 있고, HTML 내에서 자기자신의 도메인명 호출횟수는 HTML 구문 내에서 해당 URL의 도메인명 등장 횟수를 카운트하는 것으로, 특정 blog.naver.com html구문 내의 naver.com 등장횟수 등과 같이 나타낼 수 있으며, HTML 구문 내 스크립트문 특정 패턴 및 키워드 등장횟수는 "C=N;O=D", "slowAES.descrypt", "window.ethereum" + "window.web3" 등으로 나타낼 수 있다.

또한, HTML 프로토콜과 WWW. 부분을 제외한 도메인 패턴은 "https://www.naver.com→..com", "http://65zipxa.65zipxa.raminacrm.ir →...ir", "http://www.istmall.co.kr→..co.kr" 등으로 나타낼 수 있다.

그리고, 사용자단말기에서는 인공지능학습을 수행한 인공지능모델을 이용하여 접속대상 URL이 정상인지, 혹은 악성인지 확인(즉, 예측 및 분류)할 수 있다(단계331).

또한, 사용자단말기에서는 접속대상 URL이 정상일 경우 접속대상 URL을 화이트리스트에 추가할 수 있다(단계333).

물론, 사용자단말기에서는 접속대상 URL이 악성일 경우 해당 URL을 차단할 수 있다.

따라서, 본 발명의 제 3 실시예에 따르면 사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청할 경우 웹페이지에 대응하는 접속대상 URL을 기 저장된 화이트리스트와 비교하여 동일 도메인이 존재하는 경우 탐지 대상에서 제외하고, 동일 도메인이 존재하지 않을 경우 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하여 이전에 접속된 웹페이지인 경우 탐지 대상에서 제외하며, 이전에 접속된 웹페이지가 아닌 경우 접속대상 URL에 대한 응답코드를 확인하여 접속대상 URL이 정상적인 통신이 아닌 경우 탐지 대상에서 제외함으로써, 유해 URL을 효과적으로 탐지 및 차단할 수 있다.

또한, 본 발명의 제 3 실시예에 따르면 접속대상 URL이 응답코드에 따라 정상적인 통신인 경우 접속대상 URL의 HTML 구문을 추출하고, 추출된 HTML 구문에서 인공지능학습을 위한 학습대상특징을 추출하며, 추출된 학습대상특징을 포함하는 인공지능학습데이터를 구성하여 인공지능학습을 수행한 후에, 그 인공지능모델을 이용하여 접속대상 URL이 정상인지, 혹은 악성인지 확인함으로써, 유해 URL을 더욱 더 효과적으로 탐지 및 차단할 수 있다.

도 6은 본 발명의 제 4 실시예에 따라 유해 URL을 탐지하는 과정을 나타낸 플로우차트이고, 도 7 및 도 8은 본 발명의 제 4 실시예에 따라 유해 URL을 탐지하는 과정을 설명하기 위한 도면이다.

여기에서, 유해 URL 탐지 방법은 웹페이지를 검색 및 접속하는 중에 유해 URL을 탐지하는 단계별 프로그램을 수행하는 프로세서와, 각종 설정정보, 화이트리스트, 감성사전, 인공지능모델 등을 저장하는 저장매체와, 프로세서가 실행되는 사용자단말기(예를 들면, 컴퓨터단말기, 모바일단말기 등)를 통해 수행될 수 있다.

도 6 내지 도 8을 참조하면, 사용자단말기에서는 접속하고자 하는 웹페이지에 진입 요청할 수 있다(단계411). 여기에서, 사용자단말기에서는 웹사이트 검색 후 웹페이지에 진입할 경우 이에 대응하는 진입 요청(request)이 발생할 수 있고, 이에 따라 이하에서 설명하는 유해 URL 탐지 단계가 수행될 수 있다.

그리고, 사용자단말기에서는 진입 요청된 웹페이지에 대응하는 접속대상 URL(uniform resource locator)을 기 저장된 화이트리스트와 비교할 수 있다(단계413).

상기 단계(413)에서의 비교 결과, 동일 도메인이 존재하는 경우 사용자단말기에서는 접속대상 URL을 탐지 대상에서 제외할 수 있다(단계415).

한편, 상기 단계(413)에서의 비교 결과, 동일 도메인이 존재하지 않을 경우 사용자단말기에서는 접속대상 URL이 이전에 접속된 웹페이지인지를 체크할 수 있다(단계417).

상기 단계(417)에서의 체크 결과, 이전에 접속된 웹페이지인 경우 사용자단말기에서는 접속대상 URL을 탐지 대상에서 제외할 수 있다(단계419).

한편, 상기 단계(417)에서의 체크 결과, 이전에 접속된 웹페이지가 아닌 경우 사용자단말기에서는 접속대상 URL에 대한 응답코드(response code)를 확인할 수 있다(단계421).

다음에, 사용자단말기에서는 상기 단계(421)에서의 응답코드의 확인에 따라 접속대상 URL이 정상적인 통신이 아닌 경우 접속대상 URL을 탐지 대상에서 제외할 수 있다(단계423).

한편, 사용자단말기에서는 상기 단계(421)에서의 응답코드의 확인에 따라 접속대상 URL이 정상적인 통신이 아닌 경우 접속대상 URL에 대한 웹사이트 검색(web search)을 수행할 수 있다(단계425).

여기에서, 접속대상 URL이 정상적인 통신인 1**, 2**, 일부 3**의 응답코드를 가질 경우 이 후 유해 URL 탐지 과정을 수행할 수 있으며, 이에 따라 사용자단말기에서는 접속대상 URL에 대한 웹사이트 검색을 수행할 수 있다.

그리고, 사용자단말기에서는 웹사이트 검색에 대한 검색결과 상세내용을 추출할 수 있다(단계427). 예를 들면, 도 7 및 도 8에 도시한 바와 같은 웹사이트 검색결과에서 그 상세내용을 추출하여 텍스트로 변환할 수 있는데, 웹사이트 검색결과 화면에서 검색결과 상세내용(search detail)을 태그 아이디(tag id)ff 기반으로 추출하여 텍스트로 변환할 수 있다.

다음에, 사용자단말기에서는 추출된 검색결과 상세내용을 문자열로 토크나이징(tokenizing)할 수 있다(단계429).

여기에서, 자연어 처리를 위해서 우선 텍스트에 대한 정보를 단위별로 나누는 전처리를 수행할 수 있는데, 토크나이징은 예측해야할 정보(예를 들면, 문장 또는 발화)를 하나의 특정 기본단위로 자르는 것을 의미하며, 긍정어, 부정어 등에 해당하는 부사와 형용사, 동사, 명사만을 남기고 모두 제거한 후에 토크나이징을 수행할 수 있다.

그리고, 사용자단말기에서는 토크나이징된 문자열별로 감성점수를 할당하여 감성사전을 생성할 수 있다(단계431).

여기에서, 사용자단말기에서는 토그나이징된 문자열별로 감성점수를 할당할 수 있는데, 도 8에 도시한 바와 같이 Anti+virus의 경우 악의적인 키워드인 virus에 감성점수 ??1을 할당하고, Anti라는 키워드에 감성점수 2를 할당하는 방식으로 각 문자열에 감성점수를 할당할 수 있으며, 이들을 사전(dictionary) 형태로 변환하여 감성사전을 생성할 수 있다.

다음에, 사용자단말기에서는 감성사전과 인공지능모델을 이용한 학습 및 분석을 통해 접속대상 URL이 정상인지, 혹은 악성인지 확인할 수 있다(단계433).

예를 들면, 사용자단말기에서는 상기 단계(431)에서 생성된 감성사전의 감성점수를 인공지능모델의 입력데이터에 반영하여 분석, 학습 및 예측을 진행할 수 있는데, 그 학습 및 분석 방식은 지도학습방식을 이용하여 도 8에 도시한 바와 같이 정상 도메인을 검색했을 때의 감성사전 반영결과와 악성 도메인을 검색했을 때의 감성사전 반영결과의 차이를 판별할 수 있도록 한다.

여기에서, 도 8에 도시한 바와 같이 문장에서의 악성 키워드와 정상 키워드의 존재, 위치적인 조합에 따라 정상과 악성이 분류 및 확인되어야 하기 때문에, 인공지능모델로는 문자열의 내부에서 특징을 추출, 유도 및 예측할 수 있는 CNN알고리즘을 이용할 수 있다.

또한, 사용자단말기에서는 접속대상 URL이 정상일 경우 접속대상 URL을 화이트리스트에 추가할 수 있다(단계435).

따라서, 본 발명의 제 4 실시예에 따르면 사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청할 경우 웹페이지에 대응하는 접속대상 URL을 기 저장된 화이트리스트와 비교하여 동일 도메인이 존재하는 경우 탐지 대상에서 제외하고, 동일 도메인이 존재하지 않을 경우 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하여 이전에 접속된 웹페이지인 경우 탐지 대상에서 제외하며, 이전에 접속된 웹페이지가 아닌 경우 접속대상 URL에 대한 응답코드를 확인하여 접속대상 URL이 정상적인 통신이 아닌 경우 탐지 대상에서 제외함으로써, 유해 URL을 효과적으로 탐지 및 차단할 수 있다.

또한, 본 발명의 제 4 실시예에 따르면 접속대상 URL이 응답코드에 따라 정상적인 통신인 경우 접속대상 URL에 대한 웹사이트 검색을 수행하여 그 검색결과 상세내용을 추출하고, 추출된 검색결과 상세내용을 문자열로 토크나이징하며, 토크나이징된 문자열별로 감성점수를 할당하여 감성사전을 생성한 후에, 감성사전을 이용하여 인공지능모델을 이용한 학습 및 분석을 통해 접속대상 URL이 정상인지, 혹은 악성인지 확인함으로써, 유해 URL을 더욱 더 효과적으로 탐지 및 차단할 수 있다.

한편, 도 9는 본 발명의 제 5 실시예에 따른 유해 URL 탐지 방법을 나타낸 도면으로, 본 발명의 제 5 실시예에서는 상술한 바와 같은 제 1 실시예를 전단으로 두고, 그 후단에 제 2 실시예의 후단부 과정(단계225 내지 단계233)과, 제 3 실시예의 후단부 과정(단계325 내지 단계331)과, 제 4 실시예의 후단부 과정(단계425 내지 단계433)을 병렬적으로 처리한 후에, 제 3 실시예와 제 4 실시예에 대해 먼저 모델가중치앙상블(model weight ensemble) 처리하고, 그 결과를 제 2 실시예를 이용하여 최종 분류(final classification)하는 방식으로 수행될 수 있다.

즉, 상기 제 1 실시예는 사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청하는 단계; 상기 진입 요청된 웹페이지에 대응하는 접속대상 URL(uniform resource locator)을 기 저장된 화이트리스트와 비교하는 단계; 상기 화이트리스트와의 비교 결과, 동일 도메인이 존재하는 경우 탐지 대상에서 제외하는 단계; 상기 동일 도메인이 존재하지 않을 경우 상기 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하는 단계; 상기 이전에 접속된 웹페이지인 경우 상기 탐지 대상에서 제외하는 단계; 상기 이전에 접속된 웹페이지가 아닌 경우 상기 접속대상 URL에 대한 응답코드(response code)를 확인하는 단계; 상기 응답코드의 확인에 따라 상기 접속대상 URL이 정상적인 통신이 아닌 경우 상기 탐지 대상에서 제외하는 단계; 등을 포함할 수 있다.

또한, 제 2 실시예의 후단부 과정(단계225 내지 단계233)은 상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL에 대해 적어도 하나의 포털에서 상세검색을 수행하고, 검색건수특징을 추출한 후에, 인공지능모델을 이용하여 군집화하며, 이상치가 제거된 정상과 악성 간 임계값을 추출하여 정상, 혹은 악성으로 분류하는 제 1-1 단계; 등을 포함할 수 있다.

그리고, 제 3 실시예의 후단부 과정(단계325 내지 단계331)은 상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL의 HTML(Hypertext Markup Language) 구문을 추출하고, 인공지능학습을 위한 학습대상특징을 추출하며, 인공지능학습데이터를 구성하여 상기 인공지능학습을 수행한 후에, 상기 접속대상 URL이 정상인지, 혹은 악성인지 확인하는 제 1-2 단계; 등을 포함할 수 있다.

한편, 제 4 실시예의 후단부 과정(단계425 내지 단계433)은 상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL에 대한 웹사이트 검색을 수행하고, 상세내용을 추출하여 토크나이징(tokenizing)한 후에, 감성점수를 할당하여 감성사전을 생성하며, 인공지능모델을 이용한 학습 및 분석을 통해 상기 접속대상 URL이 정상인지, 혹은 악성인지 확인하는 제 1-3 단계; 등을 포함할 수 있다.

이 후, 제 1-2 단계 및 제 1-3 단계의 각 결과에 대해 모델가중치앙상블(model weight ensemble) 처리하는 제 2 단계; 및 상기 제 1-1 단계의 결과를 이용하여 상기 제 2 단계의 결과를 최종 분류(final classification)하는 단계; 등을 수행할 수 있다.

여기에서, 모델가중치앙상블(model weight ensemble)은 제 3 실시예와 제 4 실시예의 결과에서 추출할 수 있는 확률(probability)을 이용하여 앙상블 방식의 일종인 간접투표(soft voting)를 진행하고, 분류기마다 해당 범주(label)에 속할 확률을 평균을 산출한 후 평균이 가장 높은 범주(label)로 범주를 분류하는 방식으로 수행될 수 있다.

또한, 제 2 실시예는 클러스터링을 통해 군집화된 정상과 악성에서 이상치를 제거한 데이터 군집의 임계값을 탐지할 수 있도록 로직(logic)화하여 표현한 모델로서, 과탐과 미타미 없는 좁은 범위의 탐지를 할 수 있기 때문에, 제 3 실시예와 제 4 실시예의 누락데이터(missing value)를 탐지하기 위해 최종 분류(final classification)에서 서브 모델(sub model)로 적용할 수 있다.

상술한 바와 같이 모든 실시예를 통합하여 적용할 경우 유해 URL을 극대화하여 탐지할 수 있다.

이상의 설명에서는 본 발명의 다양한 실시예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.

Claims

사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청하는 단계;

상기 진입 요청된 웹페이지에 대응하는 접속대상 URL(uniform resource locator)을 기 저장된 화이트리스트와 비교하는 단계;

상기 화이트리스트와의 비교 결과, 동일 도메인이 존재하는 경우 탐지 대상에서 제외하는 단계;

상기 동일 도메인이 존재하지 않을 경우 상기 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하는 단계;

상기 이전에 접속된 웹페이지인 경우 상기 탐지 대상에서 제외하는 단계;

상기 이전에 접속된 웹페이지가 아닌 경우 상기 접속대상 URL에 대한 응답코드(response code)를 확인하는 단계; 및

상기 응답코드의 확인에 따라 상기 접속대상 URL이 정상적인 통신이 아닌 경우 상기 탐지 대상에서 제외하는 단계;

를 포함하는 유해 URL 탐지 방법.
청구항 1에 있어서,

상기 유해 URL 탐지 방법은,

상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL에서 접속대상 도메인을 추출하여 적어도 하나의 포털에서 상세검색을 수행하는 단계;

상기 상세검색을 수행한 검색결과 페이지에서 검색건수특징을 추출하는 단계;

상기 추출된 검색건수특징을 인공지능모델을 이용하여 군집화하는 단계;

상기 군집화하는 단계를 통해 획득된 군집화결과 중 이상치가 제거된 정상과 악성 간 임계값을 추출하는 단계; 및

상기 추출된 임계값이 기 설정된 기준특징값보다 상대적으로 낮은 경우 악성으로 분류하는 단계;

를 더 포함하는 유해 URL 탐지 방법.
청구항 2에 있어서,

상기 유해 URL 탐지 방법은,

상기 추출된 임계값이 기 설정된 기준특징값보다 상대적으로 높은 경우 정상으로 분류하여 상기 접속대상 URL을 상기 화이트리스트에 추가하는 단계;

를 더 포함하는 유해 URL 탐지 방법.
청구항 1에 있어서,

상기 유해 URL 탐지 방법은,

상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL의 HTML(Hypertext Markup Language) 구문을 추출하는 단계;

상기 추출된 HTML 구문에서 인공지능학습을 위한 학습대상특징을 추출하는 단계;

상기 추출된 학습대상특징을 포함하는 인공지능학습데이터를 구성하여 상기 인공지능학습을 수행하는 단계; 및

상기 인공지능학습을 수행한 인공지능모델을 이용하여 상기 접속대상 URL이 정상인지, 혹은 악성인지 확인하는 단계;

를 더 포함하는 유해 URL 탐지 방법.
청구항 4에 있어서,

상기 유해 URL 탐지 방법은,

상기 접속대상 URL이 정상인 경우 상기 접속대상 URL을 상기 화이트리스트에 추가하는 단계;

를 더 포함하는 유해 URL 탐지 방법.
청구항 1에 있어서,

상기 유해 URL 탐지 방법은,

상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL에 대한 웹사이트 검색을 수행하는 단계;

상기 웹사이트 검색에 대한 검색결과 상세내용을 추출하는 단계;

상기 추출된 검색결과 상세내용을 문자열로 토크나이징(tokenizing)하는 단계;

상기 토크나이징된 문자열별로 감성점수를 할당하여 감성사전을 생성하는 단계; 및

상기 감성사전을 이용하여 인공지능모델을 이용한 학습 및 분석을 통해 상기 접속대상 URL이 정상인지, 혹은 악성인지 확인하는 단계;

를 더 포함하는 유해 URL 탐지 방법.
청구항 6에 있어서,

상기 유해 URL 탐지 방법은,

상기 접속대상 URL이 정상인 경우 상기 접속대상 URL을 상기 화이트리스트에 추가하는 단계;

를 더 포함하는 유해 URL 탐지 방법.
사용자단말기에서 접속하고자 하는 웹페이지에 진입 요청하는 단계;

상기 진입 요청된 웹페이지에 대응하는 접속대상 URL(uniform resource locator)을 기 저장된 화이트리스트와 비교하는 단계;

상기 화이트리스트와의 비교 결과, 동일 도메인이 존재하는 경우 탐지 대상에서 제외하는 단계;

상기 동일 도메인이 존재하지 않을 경우 상기 접속대상 URL이 이전에 접속된 웹페이지인지를 체크하는 단계;

상기 이전에 접속된 웹페이지인 경우 상기 탐지 대상에서 제외하는 단계;

상기 이전에 접속된 웹페이지가 아닌 경우 상기 접속대상 URL에 대한 응답코드(response code)를 확인하는 단계;

상기 응답코드의 확인에 따라 상기 접속대상 URL이 정상적인 통신이 아닌 경우 상기 탐지 대상에서 제외하는 단계;

상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL에 대해 적어도 하나의 포털에서 상세검색을 수행하고, 검색건수특징을 추출한 후에, 인공지능모델을 이용하여 군집화하며, 이상치가 제거된 정상과 악성 간 임계값을 추출하여 정상, 혹은 악성으로 분류하는 제 1-1 단계;

상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL의 HTML(Hypertext Markup Language) 구문을 추출하고, 인공지능학습을 위한 학습대상특징을 추출하며, 인공지능학습데이터를 구성하여 상기 인공지능학습을 수행한 후에, 상기 접속대상 URL이 정상인지, 혹은 악성인지 확인하는 제 1-2 단계;

상기 응답코드의 확인에 따라 상기 접속대상 URL이 상기 정상적인 통신인 경우 상기 접속대상 URL에 대한 웹사이트 검색을 수행하고, 상세내용을 추출하여 토크나이징(tokenizing)한 후에, 감성점수를 할당하여 감성사전을 생성하며, 인공지능모델을 이용한 학습 및 분석을 통해 상기 접속대상 URL이 정상인지, 혹은 악성인지 확인하는 제 1-3 단계;

상기 제 1-2 단계 및 제 1-3 단계의 각 결과에 대해 모델가중치앙상블(model weight ensemble) 처리하는 제 2 단계; 및

상기 제 1-1 단계의 결과를 이용하여 상기 제 2 단계의 결과를 최종 분류(final classification)하는 단계;

를 포함하는 유해 URL 탐지 방법.