KR101791798B1 - 인터넷 주소 식별 방법 및 장치 - Google Patents

인터넷 주소 식별 방법 및 장치 Download PDF

Info

Publication number
KR101791798B1
KR101791798B1 KR1020160107818A KR20160107818A KR101791798B1 KR 101791798 B1 KR101791798 B1 KR 101791798B1 KR 1020160107818 A KR1020160107818 A KR 1020160107818A KR 20160107818 A KR20160107818 A KR 20160107818A KR 101791798 B1 KR101791798 B1 KR 101791798B1
Authority
KR
South Korea
Prior art keywords
internet address
spam
identified
hidden markov
sequence
Prior art date
Application number
KR1020160107818A
Other languages
English (en)
Other versions
KR20170081558A (ko
Inventor
두오하오 퀸
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20170081558A publication Critical patent/KR20170081558A/ko
Application granted granted Critical
Publication of KR101791798B1 publication Critical patent/KR101791798B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • G06F17/30882
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content

Abstract

본 출원은 인터넷 주소 식별 방법 및 장치를 개시한다. 상기 방법의 구체적인 일 실시예는, 식별하고자 하는 인터넷 주소를 획득하는 단계; 사전 설정된 규칙에 따라 상기 식별하고자 하는 인터넷 주소에 대해 분할처리를 진행하고, 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환하는 단계; 상기 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열에 따라, 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치를 확정하는 단계; 및 상기 확률치에 따라, 인터넷 주소 식별정보를 생성하는 단계;를 포함한다. 해당 실시예는 인터넷 주소식별의 식별범위를 넓힐 수 있다.

Description

인터넷 주소 식별 방법 및 장치{METHOD AND APPARATUS FOR IDENTIFYING WEB ADDRESS}
본 출원은 컴퓨터 기술분야에 관한 것으로, 구체적으로 인터넷 기술분야, 특히 인터넷 주소 식별 방법 및 장치에 관한 것이다.
인터넷 상에는 대량의 스팸 사이트가 존재하는 바, 허위적인 스팸사이트는 종종 이용자들이 클릭하도록 유도함으로써, 클릭 트래픽을 증가시키거나, 심지어 사용자 ID 및 비밀번호 등 개인정보를 불법적으로 절취한다. 따라서, 이러한 스팸 인터넷 주소를 주동적으로 식별하여 사용자에게 이에 대한 주의를 환기시킬 필요가 있다.
종래 기술에 있어서, 스팸 인터넷 주소의 식별에는, 주로 웹페이지 화이트 리스트를 설정하는 방식, 웹페이지 블랙 리스트를 설정하는 방식 또는 사이트로부터 캡처한 웹페이지 내용을 식별하는 방식 등이 있다. 그러나, 화이트 리스트 방식은 모든 정상적인 사이트의 인터넷 주소를 나열할 수 없고, 블랙 리스트 방식은 새로 생성된 스팸 인터넷 주소를 식별하지 못하며, 캡처한 웹페이지 내용을 식별하는 방식은 사이트에 캡처 차단 기능이 설정되어 있거나 또는 해당 사이트가 정상적인 사이트를 복사하여 사용자의 비밀번호를 불법적으로 절취하고자 하는 허위 사이트 등인 경우에 스팸 인터넷 주소를 정확하게 식별할 수 없다. 따라서, 스팸 인터넷 주소 식별의 식별범위를 넓혀야 할 필요성이 존재한다.
본 출원은 상기 배경기술 부분에서 언급된 기술적 문제를 해결하고자, 개량된 인터넷 주소 식별 방법 및 장치를 제공하는 것을 목적으로 한다.
제1 측면에 있어서, 본 출원은 인터넷 주소 식별 방법을 제공하고, 상기 방법은 식별하고자 하는 인터넷 주소를 획득하는 단계; 사전 설정된 규칙에 따라 상기 식별하고자 하는 인터넷 주소를 분할처리하고, 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환하는 단계; 상기 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열에 따라, 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치를 확정하는 단계; 및 상기 확률치에 따라, 인터넷 주소 식별정보를 생성하는 단계;를 포함한다.
일부 실시예에 있어서, 상기 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열에 따라, 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치를 확정하는 단계는, 상기 유형 식별자의 서열을 은닉 마르코프 모델의 관측 서열로 간주하여 전향 알고리즘 및 사전 트레이닝된 은닉 마르코프 모델의 파라미터에 의해 상기 관측 서열에 대응되는 확률치를 산출하는 단계; 및 산출된 확률치를 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치로 간주하는 단계;를 포함한다.
일부 실시예에 있어서, 상기 방법은, 상기 식별하고자 하는 인터넷 주소를 획득하기 전에, 로그 서버로부터 비-스팸 인터넷 주소 집합을 획득하는 단계; 사전 설정된 규칙에 따라 상기 비-스팸 인터넷 주소 집합 중의 각 인터넷 주소를 분할처리하고, 각 인터넷 주소로부터 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환하여, 각 인터넷 주소에 대응되는 유형 식별자의 서열을 포함하는 유형 식별자의 서열 집합을 생성하는 단계; 상기 유형 식별자의 서열 집합을 은닉 마르코프 모델의 트레이닝하고자 하는 관측 서열 집합으로 간주하고, 최대 기대 알고리즘에 의해 은닉 마르코프 모델의 파라미터를 확정하는 단계; 및 확정된 은닉 마르코프 모델의 파라미터를 사전 트레이닝된 은닉 마르코프 모델의 파라미터로 간주하거나, 또는 확정된 은닉 마르코프 모델의 파라미터에 의해 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트하는 단계;를 더 포함한다.
일부 실시예에 있어서, 상기 최대 기대 알고리즘은 전향-후향 알고리즘이다.
일부 실시예에 있어서, 상기 확률치에 따라 인터넷 주소 식별정보를 생성하는 단계는, 상기 확률치가 사전 설정된 확률 역치보다 클 경우에 응답하여, 비-스팸 인터넷 주소 알림정보를 생성하는 단계를 포함한다.
일부 실시예에 있어서, 상기 확률치에 따라 인터넷 주소 식별정보를 생성하는 단계는, 상기 확률치가 사전 설정된 확률 역치보다 작을 경우에 응답하여, 스팸 인터넷 주소 알림정보를 생성하는 단계를 포함한다.
일부 실시예에 있어서, 상기 방법은, 상기 확률치가 사전 설정된 확률 역치보다 작을 경우에 응답하여 스팸 인터넷 주소 알림정보를 생성하는 단계 이후, 상기 식별하고자 하는 인터넷 주소가 스팸 인터넷 주소 또는 비-스팸 인터넷 주소임에 대한 사용자의 확인정보를 수신하는 단계; 및 비-스팸 인터넷 주소로 확인된 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열을 은닉 마르코프 모델의 트레이닝하고자 하는 관측 서열로 간주하고, 최대 기대 알고리즘에 의해 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트하는 단계;를 더 포함한다.
제2 측면에 있어서, 본 출원은 인터넷 주소 식별 장치를 제공하고, 상기 장비는 식별하고자 하는 인터넷 주소를 획득하도록 구성된 획득 유닛; 사전 설정된 규칙에 따라 상기 식별하고자 하는 인터넷 주소를 분할처리하고, 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환하도록 구성된 분할 전환 유닛; 상기 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열에 따라, 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치를 확정하도록 구성된 확률 확정 유닛; 및 상기 확률치에 따라, 인터넷 주소 식별정보를 생성하도록 구성된 생성 유닛;을 포함한다.
일부 실시예에 있어서, 상기 확률 확정 유닛은, 상기 유형 식별자의 서열을 은닉 마르코프 모델의 관측 서열로 간주하여, 전향 알고리즘 및 사전 트레이닝된 은닉 마르코프 모델의 파라미터에 의해 상기 관측 서열에 대응되는 확률치를 산출하도록 구성된 산출 서브 유닛; 및 산출된 확률치를 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치로 간주하도록 구성된 확률 확정 서브 유닛;을 포함한다.
일부 실시예에 있어서, 상기 장치는, 로그 서버로부터 비-스팸 인터넷 주소 집합을 획득하도록 구성된 비-스팸 인터넷 주소 집합 획득 유닛; 사전 설정된 규칙에 따라 상기 비-스팸 인터넷 주소 집합 중의 각 인터넷 주소들을 분할처리하고, 각 인터넷 주소로부터 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환하여, 각 인터넷 주소에 대응되는 유형 식별자의 서열을 포함하는 유형 식별자의 서열 집합을 생성하도록 구성된 비-스팸 인터넷 주소 집합 분할 전환 유닛; 상기 유형 식별자의 서열 집합을 은닉 마르코프 모델의 트레이닝하고자 하는 관측 서열 집합으로 간주하고, 최대 기대 알고리즘에 의해 은닉 마르코프 모델의 파라미터를 확정하도록 구성된 모델의 파라미터 산출 유닛; 및 확정된 은닉 마르코프 모델의 파라미터를 사전 트레이닝된 은닉 마르코프 모델의 파라미터로 간주하거나, 또는 확정된 은닉 마르코프 모델의 파라미터에 의해 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트하도록 구성된 모델의 파라미터 확정 및 업데이트 유닛;을 더 포함한다.
일부 실시예에 있어서, 상기 최대 기대 알고리즘은 전향-후향 알고리즘이다.
일부 실시예에 있어서, 상기 생성 유닛은, 나아가 상기 확률치가 사전 설정된 확률 역치보다 클 경우에 응답하여, 비-스팸 인터넷 주소 알림정보를 생성하도록 구성된다.
일부 실시예에 있어서, 상기 생성 유닛은, 나아가, 상기 확률치가 사전 설정된 확률 역치보다 작을 경우에 응답하여, 스팸 인터넷 주소 알림정보를 생성하도록 구성된다.
일부 실시예에 있어서, 상기 장치는, 상기 식별하고자 하는 인터넷 주소가 스팸 인터넷 주소 또는 비-스팸 인터넷 주소임에 대한 사용자의 확인정보를 수신하도록 구성된 확인 정보 수신 유닛; 및 비-스팸 인터넷 주소로 확인된 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열을 은닉 마르코프 모델의 트레이닝하고자 하는 관측 서열로 간주하고, 최대 기대 알고리즘에 의해 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트하도록 구성된 파라미터 조정 유닛;을 더 포함한다.
본 출원에 의해 제공되는 인터넷 주소 식별 방법 및 장치는, 식별하고자 하는 인터넷 주소를 상응한 유형 식별자의 서열로 전환하고, 해당 유형 식별자의 서열에 의해 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일일 확률을 산출하여, 인터넷 주소 식별정보를 생성하는 바, 식별하고자 하는 인터넷 주소를 상응한 유형 식별자의 서열로 전환한 후 식별함으로써, 유형 식별자의 서열만에 의해서도 식별할 수 있고, 식별하고자 하는 인터넷 주소에 완전히 대응되는 인터넷 주소 히스토리를 사전 저장할 필요가 없으므로, 인터넷 주소 식별의 식별범위을 넓힐 수 있다.
본 출원의 기타 특징, 목적 및 장점은, 하기 도면을 참조하여 진행한 비제한적 실시예에 대한 상세한 설명에 의해, 더욱 명확해 질 것이다.
도1은 본 출원이 적용될 수 있는 예시적인 시스템 구조도이다.
도2는 본 출원에 따른 인터넷 주소 식별 방법의 일 실시예의 흐름도이다.
도3은 본 출원에 따른 인터넷 주소 식별 방법의 일 응용정경의 개략도이다.
도4는 본 출원에 따른 인터넷 주소 식별 방법의 다른 일 실시예의 흐름도이다.
도5는 본 출원에 따른 인터넷 주소 식별 장치의 일 실시예의 구조적 개략도이다.
도6은 본 출원의 실시예의 단말기 장치 또는 서버를 구현하기에 적합한 컴퓨터 시스템의 구조적 개략도이다.
이하, 첨부된 도면 및 실시예들을 참조하여 본 출원에 대해 보다 상세하게 설명한다. 여기에 기재된 구체적인 실시예들은 단지 본 발명을 해석하기 위한 것일 뿐, 해당 발명을 한정하기 위한 것이 아님을 이해할 수 있을 것이다. 또한, 설명의 편의를 위하여, 도면에는 본 발명에 관련되는 부분만 도시되어 있다.
모순되지 않는 전제하에, 본 출원의 실시예 및 실시예의 특징들을 서로 조합할 수 있음을 자명할 것이다. 이하, 첨부된 도면을 참조하고 실시예들을 결합하여 본 출원에 대해 상세히 설명하기로 한다.
도1은 본 출원의 인터넷 주소 식별 방법 또는 인터넷 주소 식별 장치의 실시예를 적용할 수 있는 예시적인 시스템 구조(100)를 보여준다.
도1에 도시된 바와 같이, 시스템 구조(100)는 단말기 장치(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기 장치(101, 102, 103)와 서버(105) 사이에 통신 링크의 매체를 제공한다. 네트워크(104)는 다양한 접속 유형, 예를 들어 유선 통신 링크, 무선 통신 링크 또는 광섬유 케이블 등을 포함할 수 있다.
사용자는 단말기 장치(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션함으로써, 메세지 등을 수신하거나 발송할 수 있다. 단말기 장치(101, 102, 103)에는 다양한 통신 클라이언트 어플리케이션, 예를 들어 웹 브라우저 어플리케이션, 보안류 어플리케이션 등이 설치되어 있을 수 있다.
단말기 장치(101, 102, 103)는 표시 장치를 구비한 다양한 전자기기일 수 있으며, 스마트 폰, 태블릿 컴퓨터, 전자책 단말기, MP3 플레이어(Moving Picture Experts Group Audio Layer III; 엠페그 오디오 계층 3), MP4(Moving Picture Experts Group Audio Layer IV; 엠페그 오디오 계층 4) 플레이어, 랩탑형 컴퓨터 및 데스크탑 컴퓨터 등을 포함할 수 있으나, 이에 한정되지 않는다.
서버(105)는 다양한 서비스를 제공하는 서버, 예를 들어 단말기 장치(101, 102, 103)에 표시된 웹페이지 또는 기타 응용데이터에 대해 서포트를 제공하는 백그라운드 서버일 수 있다. 백그라운드 서버는 수신된 인터넷 주소 등 데이터에 대해 분석 등 처리를 진행하여, 처리결과(예를 들어, 인터넷 주소 식별정보)를 단말기 장치에 피드백할 수 있다.
본 출원의 실시예에 의해 제공되는 인터넷 주소 식별 방법은 일반적으로 서버(105)로 실행되며, 일부 단계들은 단말기 장치로 실행될 수도 있다. 따라서, 인터넷 주소 식별 장치는 일반적으로 서버(105)에 설치되고, 일부 유닛들은 단말기 장치에 설치될 수도 있다.
도1의 단말기 장치, 네트워크 및 서버의 수량은 단지 예시적인 것이고, 수요에 따라 임의의 수량의 단말기 장치, 네트워크 및 서버를 포함할 수 있다.
이어서, 도2는 본 출원에 따른 인터넷 주소 식별 방법의 일 실시예의 흐름(200)을 보여준다. 상기 인터넷 주소 식별 방법은 아래와 같은 단계들을 포함한다.
단계(201)에서, 식별하고자 하는 인터넷 주소를 획득한다.
본 실시예에 있어서, 인터넷 주소 식별 방법이 실행되는 전자기기(예를 들어, 도1에 도시된 서버)는 다양한 방식을 통해 식별하고자 하는 인터넷 주소를 획득할 수 있다. 예를 들어, 전자기기는 유선 접속방식 또는 무선 접속방식을 통해 사용자가 웹페이지를 열람하거나 또는 인터넷 주소를 검측하는 단말기로부터 식별하고자 하는 인터넷 주소를 수신할 수 있다. 실천에 있어서, 인터넷 주소는 일반적으로 통합 자원 위치 지정자(Uniform Resource Locator, URL)로 표시된다. 상기 무선 접속방식은 3G/4G 접속, WiFi 접속, 블루투스 접속, WiMAX 접속, Zigbee 접속, UWB(ultra wideband) 접속 및 기타 기존에 이미 알려진 또는 미래에 개발하게 될 무선 접속방식들을 포함할 수 있으나, 이에 한정되지 않는다.
통상적으로, 사용자는 단말기에 설치된 웹 브라우저를 이용하여 웹페이지를 열람할 수 있으며, 이때 사용자는 인터넷 주소를 직접 입력하거나 또는 웹 브라우저에 표시된 웹페이지 중의 링크를 클릭하여 웹페이지 서버에 웹페이지 열람 요청을 발송할 수 있고, 웹페이지 서버는 이를 통해 상응한 인터넷 주소를 획득할 수 있으며, 해당 인터넷 주소를 식별하고자 하는 인터넷 주소로 간주할 수 있다. 본 실시예에 있어서, 상기 웹페이지는 html 형태, xhtml 형태, asp 형태, php 형태, jsp 형태, shtml 형태, nsp 형태, xml 형태의 웹페이지 또는 기타 미래에 개발하게 될 형태의 웹페이지(적어도 브라우저로 오픈하여 그에 포함된 이미지, 애니메이션, 문자 등 내용을 열람할 수 있는 형태의 웹페이지 파일)를 포함할수 있다. 해당 기술분야의 당업자라면, 웹페이지 서버가 식별하고자 하는 인터넷 주소를 상기 전자기기에 발송함으로써 상기 전자기기로 하여금 식별하고자 하는 인터넷 주소를 획득하도록 하거나, 또는 웹페이지 서버 자체가 상기 전자기기로서 본 실시예에 기재된 방법을 실행할 수 있음을 이해할 수 있을 것이다.
사용자는 단말기 장치의 스팸 인터넷 주소 식별기능을 구비한 보안류 어플리케이션을 통해 인터넷 주소를 입력할 수도 있으며, 보안류 어플리케이션은 인터넷 주소를 수신한 후 식별하고자 하는 인터넷 주소를 상응한 응용 서버에 발송할 수 있다. 해당 응용 서버는 상기 전자기기로서 본 실시예에 기재된 방법을 실행할 수 있다.
식별하고자 하는 인터넷 주소는 전자기기에 사전 저장된 것이거나 또는 전자기기가 기타 서버로부터 획득한 것일 수 있다.
단계(202)에서, 사전 설정된 규칙에 따라, 식별하고자 하는 인터넷 주소를 분할처리하고, 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환한다.
본 실시예에 있어서, 단계(201)에서 획득한 식별하고자 하는 인터넷 주소에 기반하여, 상기 전자기기(예를 들어, 도1에 도시된 서버(105))는 먼저 식별하고자 하는 인터넷 주소에 대해 분할처리를 진행할 수 있다. 분할하는 방법은 사전 설정된 규칙에 따라 진행할 수 있다. 사전 설정된 규칙은 분할 기호에 의한 분할규칙 및 기타 분할규칙을 포함할 수 있다. 실제적으로 분할을 진행할 경우, 전자기기는 분할함수를 호출하여 분할처리를 진행할 수 있으며, 예를 들어 Python 언어를 사용할 경우, 시스템이 제공한 urlparse 함수를 호출하여 분할을 진행할 수 있다. 분할처리 이후, 인터넷 주소로부터 분할된 각 부분들은 일반적으로 호스트 네임, 경로, 요청 파라미터의 키 네임(key) 및 키값(value)을 포함할 수 있고, 기타 파라미터를 포함할 수도 있다.
다음, 전자기기는 분할된 각 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환한다. 선택적으로, 각 부분의 내용 유형은 인터넷 주소(URI) 유형, 비-ASCII코드 유형, word 유형, 스페이스 유형, 제어용 문자 유형, 예약 문자 유형 및 other 유형을 포함할 수 있다. 각종 내용 유형의 의미 및 상응한 유형 식별자는 아래 표를 참조할 수 있다.
Figure 112016082439805-pat00001
여기서, 예약 문자는 특정 의미를 가진 문자를 가리키고, 예를 들어 "/"는 인터넷 주소 분할 기호를 의미하며, 상응한 유형 식별자로 전환할 필요가 없고, other 유형은 상기 유형과 상이한 기타 내용 유형이며, other 유형을 제외한 기타 유형들이 이미 전부 내용에 대해 유형구분을 진행할 경우, other 유형은 공 문자(Null)일 수도 있다.
상기 내용 유형에 대한 구분 및 상응한 유형 식별자는 단지 예시적인 것으로서, 해당 기술분야의 당업자라면 기타 규칙에 따라 인터넷 주소의 각 부분들에 대해 유형을 구분하여 상응한 유형 식별자로 전환할 수도 있음을 이해할 수 있을 것이다.
상술한 과정에 의해, 전자기기는 단계(202)를 통해 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열을 획득할 수 있다.
단계(203)에서, 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열에 따라, 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치를 확정한다.
본 실시예에 있어서, 단계(202)의 분할 및 전환 조작에 기반하여, 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열을 획득할 수 있고, 전자기기는 나아가 단계(203)에서 유형 식별자의 서열에 따라 식별하고자 하는 인터넷 주소가 스팸 인터넷 주소일 확률을 산출할 수 있다. 선택적으로, 전자기기는 대량의 스팸 인터넷 주소 및 비-스팸 인터넷 주소들에 대해 통계함으로써, 각 유형 식별자의 서열이 비-스팸 인터넷 주소일 경우의 확률치를 각각 획득할 수 있다.
단계(204)에서, 상기 확률치에 따라, 인터넷 주소 식별정보를 생성한다.
본 실시예에 있어서, 상기 전자기기는 단계(203)에 따라 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 경우에 대응되는 확률치를 획득한 후, 상기 확률치에 따라 상응한 인터넷 주소 식별정보를 생성할 수 있다. 통상적으로, 확률치가 높을수록 해당 인터넷 주소가 스팸 인터넷 주소일 가능성은 낮고, 확률치가 낮을수록 해당 인터넷 주소가 스팸 인터넷 주소일 가능성이 높다. 전자기기는 하나 또는 복수의 확률 역치를 설정하고, 상기 확률치와 확률 역치 사이의 크기관계에 따라, 생성할 인터넷 주소 식별정보를 확정할 수 있다. 해당 인터넷 주소 식별정보는 식별결과의 정보를 표시하기 위한 것으로서, 예를 들어 스팸 인터넷 주소 알림정보 또는 안전 인터넷 주소 알림정보일 수 있다.
이어서 도3을 참조하면, 도3은 본 실시예에 따른 인터넷 주소 식별 방법의 일 응용정경의 개략도이다. 도3에 도시된 바와 같이, 사용자는 단말기 장치에서 인터넷 주소 식별 어플리케이션의 인터페이스 상의 인터넷 주소 입력 영역(301)을 통해 식별하고자 하는 인터넷 주소를 입력할 수 있고, 인터페이스 상의 "검측" 버튼을 클릭하여 식별하고자 하는 인터넷 주소를 백그라운드 서버에 발송할 수 있으며, 백그라운드 서버는 백그라운드에서 상기 식별하고자 하는 인터넷 주소를 획득할 수 있다. 이어서, 백그라운드 서버는 식별하고자 하는 인터넷 주소를 상응한 유형 식별자의 서열로 전환하고, 유형 식별자의 서열에 따라 식별하고자 하는 인터넷 주소가 스팸 인터넷 주소일 확률을 산출할 수 있다. 그 다음, 백그라운드 서버는 상기 확률에 따라 인터넷 주소 식별정보를 생성할 수 있다. 마지막으로, 백그라운드 서버는 상기 인터넷 주소 식별정보를 단말기 장치에 피드백함으로써, 단말기 장치는 표시 영역(302)에서 상응한 인터넷 주소 식별정보를 표시할 수 있다.
본 출원의 상기 실시예에 의해 제공되는 방법은, 인터넷 주소를 상응한 유형 식별자의 서열로 전환하여 식별함으로써, 식별과정에서 처리할 데이터의 양을 현저히 감소시키고, 인터넷 주소 식별의 효율성을 높일 수 있다. 더불어, 이런 방식은 유형 식별자의 서열에만 의해서도 식별을 진행할 수 있고, 식별하고자 하는 인터넷 주소에 완전히 대응되는 인터넷 주소를 사전 저장할 필요가 없으므로 인터넷 주소 식별의 식별범위를 넓힐 수 있다.
이어서, 도4는 인터넷 주소 식별 방법의 다른 일 실시예의 흐름(400)을 보여준다. 상기 인터넷 주소 식별 방법의 흐름(400)은 아래와 같은 단계들을 포함한다.
단계(401)에서, 식별하고자 하는 인터넷 주소를 획득한다.
본 실시예에 있어서, 단계(401)는 도2에 대응되는 실시예의 단계(201)와 실질적으로 동일하므로, 중복된 설명은 생략하기로 한다.
단계(402)에서, 사전 설정된 규칙에 따라, 식별하고자 하는 인터넷 주소에 대해 분할처리를 진행하고, 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환한다.
본 실시예에 있어서, 단계(402)는 도2에 대응되는 실시예의 단계(202)와 실질적으로 동일하므로, 중복된 설명은 생략하기로 한다.
단계(403)에서, 유형 식별자의 서열을 은닉 마르코프 모델의 관측 서열로 간주하고, 전향 알고리즘 및 사전 트레이닝된 은닉 마르코프 모델의 파라미터에 따라 관측 서열에 대응되는 확률치를 산출한다.
본 실시예에 있어서, 단계(402)의 분할 및 전환동작에 기반하여, 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열을 획득할 수 있고, 단계(403)에서 은닉 마르코프 모델을 이용하여 이에 대해 진일보 처리를 진행한다. 먼저, 상기 유형 식별자의 서열을 은닉 마르코프 모델의 관측 서열로 간주하고, 은닉 마르코프 모델의 모델의 파라미터는 사전 트랭이닝을 통해 획득될수 있다. 모델의 파라미터는 은닉 마르코프 모델의 초기 상태 확률 행렬, 은닉 상태 전이 확률 행렬 및 관측 상태 전이 확률 행렬을 포함할 수 있다. 그 다음, 은닉 마르코프 모델의 모델의 파라미터 및 관측 서열을 확정한 후, 전자기기는 은닉 마르코프 모델에 적용되는 전향 알고리즘 및 상기 모델의 파라미터에 의해 상기 관측 서열에 대응되는 확률치를 산출할 수 있다. 은닉 마르코프 모델의 모델의 파라미터 및 관측 서열이 지정될 경우, 전향 알고리즘을 사용하여 관측 서열에 대응되는 확률치를 산출하는 것은 해당 기술분야의 종래 기술이므로, 여기서 그에 대한 설명을 생략하기로 한다.
본 실시예의 일부 선택적인 구현방식에 있어서, 전자기기는 모델 트레이닝 단계를 통해 상기 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 획득할 수 있으며, 구체적으로 아래와 같은 단계들을 포함한다.
먼저, 로그 서버로부터 비-스팸 인터넷 주소 집합을 획득한다. 여기서, 로그 서버에는 대량의 인터넷 주소들이 저장되어 있으며, 해당 인터넷 주소들은 로그 서버가 기타 분산된 서버로부터 사전 획득한 것일수 있다. 로그 서버에는 스팸 인터넷 주소와 비-스팸 인터넷 주소를 구분하도록 마크가 설정될 수 있다. 전자기기는 비-스팸 인터넷 주소에 대응되는 마크를 통해 비-스팸 인터넷 주소 집합을 획득할 수 있다.
이어서, 전자기기는 사전 설정된 규칙에 따라 비-스팸 인터넷 주소 집합 중의 각 인터넷 주소들에 대해 분할처리를 진행하고, 각 인터넷 주소로부터 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환하여, 각 인터넷 주소에 대응되는 유형 식별자의 서열을 포함하는 유형 식별자의 서열 집합을 생성할 수 있다. 여기서, 비-스팸 인터넷 주소 집합 중의 단일 인터넷 주소의 분할 및 인터넷 주소 각 부분에 대한 전환은 도2에 대응되는 실시예의 단계(202)와 동일할 수 있으므로, 여기서 그에 대한 설명을 생략하기로 한다.
다음, 전자기기는 상기 유형 식별자의 서열 집합을 은닉 마르코프 모델 중의 트레이닝하고자 하는 관측 서열로 간주하고, 최대 기대 알고리즘을 이용하여 이들 트레이닝하고자 하는 관측 서열에 대응되는 은닉 마르코프 모델의 파라미터를 확정할 수 있다. 최대 기대 알고리즘에 의해 은닉 마르코프 모델의 파라미터를 산출하는 것은 해당 기술분야의 종래 기술이므로, 여기서 그에 대한 설명을 생략하기로 한다.
마지막으로, 확정된 은닉 마르코프 모델의 파라미터를 사전 트레이닝된 은닉 마르코프 모델의 파라미터로 간주하거나, 또는 확정된 은닉 마르코프 모델의 파라미터에 의해, 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트한다. 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트할 경우, 현재 확정된 은닉 마르코프 모델의 파라미터의 가중치를 비교적 큰 수치로 설정하여, 업데이트된 은닉 마르코프 모델의 파라미터의 실시간성을 향상시킬수 있다.
선택적으로, 상기 최대 기대 알고리즘은 전향-후향 알고리즘을 사용하여, 모델의 파라미터의 산출속도를 높임으로써, 트레이닝을 통해 은닉 마르코프 모델의 파라미터를 획득하는 시간을 감소할 수 있다.
단계(404)에서, 산출된 확률치를, 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치로 간주한다.
본 실시예에 있어서, 단계(403)에서 산출한 확률치에 기반하여, 전자기기는 상기 확률치를 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치로 간주할 수 있다. 통상적으로, 상기 모델의 파라미터는 정상적인 인터넷 주소에 대한 통계 또는 트레이닝을 통해 획득한 것일 수 있으므로, 획득한 확률치를 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률로 간주할 수 있다.
단계(405)에서, 상기 확률치에 따라, 인터넷 주소 식별정보를 생성한다.
본 실시예에 있어서, 상기 전자기기는 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 경우에 대응되는 확률치를 획득한 후, 상기 확률치에 따라 상응한 인터넷 주소 식별정보를 생성할 수 있다.
본 실시예의 일부 선택적인 구현방식에 있어서, 단계(405)는, 확률치가 사전 설정한 확률 역치보다 클 경우에 응답하여, 비-스팸 인터넷 주소 알림정보를 생성하는 단계를 포함할 수 있다.
도4로부터 알수 있는 바와 같이, 도2에 대응되는 실시예에 대비하여, 본 실시예의 인터넷 주소 식별 방법의 흐름(400)은 은닉 마르코프 모델을 사용하여 유형 식별자의 서열을 관측 서열로 간주함으로써 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률을 산출하는 것을 강조하고 있다. 이에 따라, 본 실시예에 기재된 방안은 식별의 정확성 및 속도를 보다 향상시킬 수 있다.
본 실시예의 일부 선택적인 구현방식에 있어서, 단계(405)는, 확률치가 사전 설정한 확률 역치보다 클 경우에 응답하여, 비-스팸 인터넷 주소 알림정보를 생성하는 단계를 포함할 수 있다. 선택적으로, 상기 구현방식은 비-스팸 인터넷 주소 알림정보를 생성한 후,
식별하고자 하는 인터넷 주소가 스팸 인터넷 주소 또는 비-스팸 인터넷 주소임에 대한 사용자의 확인정보를 수신하는 단계; 및 비-스팸 인터넷 주소로 확인된 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열을 은닉 마르코프 모델의 트레이닝하고자 하는 관측 서열로 간주하고, 최대 기대 알고리즘에 의해 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트하는 단계를 더 포함할 수 있다.
여기서, 전자기기는 위젯 또는 기타 인터랙션 방식을 통해 식별하고자 하는 인터넷 주소가 스팸 인터넷 주소 또는 비-스팸 인터넷 주소임에 대한 사용자의 확인정보를 수신할 수 있다. 예를 들어, 전자기기는 "스팸 인터넷 주소" 및 "비-스팸 인터넷 주소"로 표시된 2개의 버튼 위젯을 제공하여 사용자로 하여금 클릭하도록 할 수 있다. 사용자가 "비-스팸 인터넷 주소"를 클릭할 경우, 대응되는 확인정보는 비-스팸 인터넷 주소 확인정보이고, 사용자가 "스팸 인터넷 주소"를 클릭할 경우, 대응되는 확인정보는 스팸 인터넷 주소 확인정보이다. 확인정보가 식별하고자 하는 인터넷 주소를 비-스팸 인터넷 주소로 확인할 경우, 정상적인 인터넷 주소를 스팸 인터넷 주소로 잘못 식별하였음을 의미하므로, 스팸 인터넷 주소로 잘못 식별한 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열을 트레이닝 데이터로 간주하여 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트할 수 있는바, 상응한 방법은 상기 유형 식별자의 서열을 은닉 마르코프 모델의 트레이닝하고자 하는 관측 서열로 간주하고, 최대 기대 알고리즘을 통해 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트하는 것이다. 최대 기대 알고리즘 및 트레이닝하고자 하는 관측 서열에 따라 모델의 파라미터를 업데이트하는 것은 종래 기술이므로, 여기서 그에 대한 설명을 생략하기로 한다. 선택적으로, 여기서 최대 기대 알고리즘은 전향-후향 알고리즘을 사용할 수도 있다. 이러한 방식은 스팸 인터넷 주소로 잘못 식별한 인터넷 주소를 사용하여 은닉 마르코프 모델의 파라미터를 업데이트함으로써, 은닉 마르코프 모델의 파라미터의 정확성 및 실시간성을 향상시키고, 후속적으로 은닉 마르코프 모델을 사용하여 스팸 인터넷 주소를 식별하는 정확성을 보다 향상시킬 수 있다.
이어서 도5를 참조하면, 상기 각 도면에 도시된 방법을 구현하기 위한 것으로서, 본 출원은 인터넷 주소 식별 장치의 일 실시예를 제공하고, 상기 장치 실시예는 도2에 도시된 방법 실시예에 대응되며, 상기 장치는 구체적으로 각종 전자기기에 적용될 수 있다.
도5에 도시된 바와 같이, 본 실시예에 따른 인터넷 주소 식별 장치(500)는, 획득 유닛(501), 분할 전환 유닛(502), 확률 확정 유닛(503) 및 생성 유닛(504)을 포함한다. 여기서, 획득 유닛(501)은 식별하고자 하는 인터넷 주소를 획득하도록 구성되고, 분할 전환 유닛(502)은 사전 설정된 규칙에 따라 식별하고자 하는 인터넷 주소에 대해 분할처리를 진행하고, 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환하도록 구성되며, 확률 확정 유닛(503)은 상기 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열에 따라, 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치를 확정하도록 구성되며, 생성 유닛(504)은 상기 확률치에 기반하여 인터넷 주소 식별정보의 내용를 생성하도록 구성된다.
본 실시예에 있어서, 인터넷 주소 식별 장치(500)의 획득 유닛(501)은 유선 접속방식 또는 무선 접속방식을 통해 사용자가 웹페이지를 열람하거나 또는 인터넷 주소를 검측하는 단말기로부터, 식별하고자 하는 인터넷 주소를 수신할 수 있다. 실천에서, 인터넷 주소는 일반적으로 통합 자원 위치 지정자(Uniform Resource Locator, URL)에 의해 표시된다. 상기 무선 접속방식은 3G/4G 접속, WiFi 접속, 블루투스 접속, WiMAX 접속, Zigbee 접속, UWB(ultra wideband) 접속, 및 기타 기존에 이미 알려진 또는 미래에 개발하게 될 무선 접속방식을 포함할 수 있으나, 이에 한정되지 않는다.
본 실시예에 있어서, 획득 유닛(501)에서 획득한 인터넷 주소에 기반하여, 상기 분할 전환 유닛(502)은 먼저 식별하고자 하는 인터넷 주소에 대해 분할처리를 진행할 수 있다. 분할하는 방법은 사전 설정된 규칙에 따라 진행할 수 있다. 통상적으로, 전자기기는 분할 기호에 의해 인터넷 주소에 대해 분할처리를 진행할 수 있고, 분할된 각 부분들은 일반적으로 호스트 네임, 경로, 요청 파라미터의 키 네임(key) 및 키값(value)을 포함할 수 있다. 다음, 분할 전환 유닛(502)은 분할된 각 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환한다. 선택적으로, 각 부분의 내용 유형은 인터넷 주소(URI) 유형, 비-ASCII 코드 유형, word 유형, 스페이스 유형, 제어용 문자 유형, 예약 문자 유형 및 other 유형을 포함할 수 있다.
본 실시예에 있어서, 확률 확정 유닛(503)은 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열에 기반하여, 나아가 상기 유형 식별자의 서열에 따라, 식별하고자 하는 인터넷 주소가 스팸 인터넷 주소일 확률을 산출할 수 있다. 선택적으로, 전자기기는 대량의 스팸 인터넷 주소 및 비-스팸 인터넷 주소들에 대해 통계함으로써, 각 유형 식별자의 서열이 비-스팸 인터넷 주소일 확률치를 획득할 수 있다.
본 실시예에 있어서, 생성 유닛(504)은 확률 확정 유닛(503)이 획득한 확률치에 기반하여 상응한 인터넷 주소 식별정보를 생성할 수 있다.
해당 기술분야의 당업자라면, 상기 인터넷 주소 식별 장치(500)가 기타 공지된 구성, 예를 들어 프로세서, 메모리 등을 더 포함할 수 있음을 이해할 수 있을 것이며. 본 발명에 개시된 실시예를 불필요하게 흐리지 않도록, 도5에는 이러한 공지된 구성들이 도시되지 않는다.
도6은 본 출원의 실시예의 단말기 장치 또는 서버를 구현하기에 적합한 컴퓨터 시스템(600)의 구조적 개략도를 보여준다.
도 6에 도시된 바와 같이, 컴퓨터 시스템(600)은 중앙 처리 유닛(601; CPU)을 포함하며, 읽기 전용 메모리 장치(602; ROM)에 저장된 프로그램 또는 저장부(608)로부터 랜덤 액세스 메모리 장치(603; RAM)에 로딩된 프로그램에 의해 각종 적당한 동작과 처리를 실행할 수 있다. RAM(603)에는 시스템(600)을 작동하기에 필요한 다양한 프로그램 및 데이터가 더 저장되어 있다. CPU(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(605)도 버스(604)에 연결된다.
I/O 인터페이스(605)에 연결되는 부재로서, 키보드, 마우스 등을 포함하는 입력부(606)와, 예를 들어 음극선관(CRT), 액정 표시 장치(LCD) 등 및 스피커 등을 포함하는 출력부(607)와, 하드 드라이버 등을 포함하는 저장부(608)와, 예를 들어 LAN 카드, 모뎀 등 네트워크 인터페이스 카드를 포함하는 통신부(609)가 포함된다. 통신부(609)는 인터넷과 같은 네트워크를 통해 통신처리를 수행한다. 구동부(610)도 수요에 따라 I/O 인터페이스(605)에 연결된다. 자기 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 장치 등과 같은 착탈 가능한 매체(611)는 이들 매체들로부터 판독된 컴퓨터 프로그램을 수요에 따라 저장부(608)에 설치하도록 수요에 따라 구동부(610)에 설치된다.
특히, 본 개시의 실시예에 의하면, 흐름도를 참조하여 설명한 상기 과정들은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 개시의 실시예는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 판독 가능한 매체에 유형적으로 포함된 컴퓨터 프로그램을 포함하며, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 컴퓨터 코드를 포함한다. 이러한 실시예에 있어서, 해당 컴퓨터 프로그램은 통신부(609)를 경유하여 네트워크로부터 다운로드되어 설치될 수 있고 및/또는 착탈 가능한 매체(600)로부터 설치될 수 있다.
첨부된 도면 중의 흐름도 및 블록도는 본 출원의 각 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계구조, 기능 및 조작을 도시하였다. 이러한 방면에서, 흐름도 또는 블록도 중의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부분을 대표할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 코드의 일부분은 규정된 로직 기능을 구현하기 위한 하나 또는 다수의 실행 가능한 명령을 포함한다. 일부 대체 구현에 있어서, 블록에 표기된 기능은 첨부된 도면에 표기된 순서와 상이한 순서로 발생할 수도 있음을 유의하여야 한다. 예를 들어, 순차적으로 표시된 두개의 블록은 실제적으로 기본상 동시에 실행될 수 있도, 경우에 따라 상반된 순서에 따라 실행될 수도 있으며, 이는 관련 기능에 따라 결정된다. 블록도 및/또는 흐름도 중의 각 블록 및 블록도 및/또는 흐름도 중의 블록의 조합은 규정된 기능 또는 조작을 수행하는 하드웨어 기반 전용 시스템으로 구현되거나, 전용 하드웨어와 컴퓨터 명령의 조합으로 구현될 수 있음을 유의하여야 한다.
본 출원의 실시예에 기재된 관련 유닛들은 소프트웨어 방식으로 구현될 수도 있고, 하드웨어 방식으로 구현될 수도 있다. 기재된 유닛들은 프로세서에 설치될 수도 있으며, 예를 들어, 프로세서는 획득 유닛, 분할 전환 유닛 및 확률 확정 유닛 및 생성 유닛을 포함한다고 설명될 수 있다. 여기서, 이러한 유닛들의 명칭은 일부 경우에 해당 유닛에 대한 한정을 구성하지 않으며, 예를 들어, 획득 유닛은 "식별하고저 하는 인터넷 주소를 획득하는 유닛"으로 설명될 수도 있다.
다른 일 방면에 있어서, 본 출원은 비휘발성 컴퓨터 저장 매체를 더 제공하며, 상기 비휘발성 컴퓨터 저장 매체는 상술한 실시예 중의 상기 장치에 포함된 비휘발성 컴퓨터 저장 매체일 수도 있고, 독립적으로 존재하며 단말기에 설치되지 않은 비휘발성 컴퓨터 저장 매체일 수도 있다. 상기 비휘발성 컴퓨터 저장 매체는 하나 또는 다수의 프로그램을 저장하고, 상기 하나 또는 다수의 프로그램이 하나의 장치로 실행될 경우, 상기 장치로 하여금 식별하고자 하는 인터넷 주소를 획득하고, 사전 설정된 규칙에 따라 상기 식별하고자 하는 인터넷 주소에 대해 분할처리를 진행하고, 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환하며, 상기 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열에 따라, 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치를 확정하며, 상기 확률치에 따라, 인터넷 주소 식별정보를 생성하도록 한다.
이상의 설명은 오직 본 출원의 비교적 바람직한 실시예 및 운용한 기술적 원리에 대한 설명이다. 해당 기술분야의 당업자는 본 출원에 관련된 발명의 범위가 상기 기술적 특징들의 특정 조합으로 이루어진 기술적 방안들에 한정되는 것이 아니라 본 발명의 주지를 벗어나지 않고서 상기 기술적 특징들 또는 그들의 균등한 특징들의 임의의 조합으로 이루어진 기타 기술적 방안들, 예를 들어, 상기 특징을 본 출원에 개시되어 있으나 이에 한정되지 않는 유사한 기능을 구비한 기술적 특징과 서로 대체하여 이루어진 기술적 방안도 포함하고 있음을 자명할 것이다.

Claims (14)

  1. 식별하고자 하는 인터넷 주소를 획득하는 단계;
    사전 설정된 규칙에 따라 상기 식별하고자 하는 인터넷 주소에 대해 분할처리를 진행하고, 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환하는 단계;
    상기 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열에 따라, 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치를 확정하는 단계; 및
    상기 확률치에 따라, 인터넷 주소 식별정보를 생성하는 단계
    를 포함하는 것을 특징으로 하는 인터넷 주소 식별 방법.
  2. 제1항에 있어서,
    상기 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열에 따라, 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치를 확정하는 단계는,
    상기 유형 식별자의 서열을 은닉 마르코프 모델의 관측 서열로 간주하여, 전향 알고리즘 및 사전 트레이닝된 은닉 마르코프 모델의 파라미터에 의해 상기 관측 서열에 대응되는 확률치를 산출하는 단계; 및
    산출된 확률치를 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치로 간주하는 단계
    를 포함하는 것을 특징으로 하는 인터넷 주소 식별 방법.
  3. 제2항에 있어서,
    상기 식별하고자 하는 인터넷 주소를 획득하기 전에,
    로그 서버로부터 비-스팸 인터넷 주소 집합을 획득하는 단계;
    사전 설정된 규칙에 따라 상기 비-스팸 인터넷 주소 집합 중의 각 인터넷 주소에 대해 분할처리를 진행하고, 각 인터넷 주소로부터 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환하여, 각 인터넷 주소에 대응되는 유형 식별자의 서열을 포함하는 유형 식별자의 서열 집합을 생성하는 단계;
    상기 유형 식별자의 서열 집합을 은닉 마르코프 모델의 트레이닝하고자 하는 관측 서열 집합으로 간주하고, 최대 기대 알고리즘에 의해 은닉 마르코프 모델의 파라미터를 확정하는 단계; 및
    확정된 은닉 마르코프 모델의 파라미터를 사전 트레이닝된 은닉 마르코프 모델의 파라미터로 간주하거나, 또는 확정된 은닉 마르코프 모델의 파라미터에 의해 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트하는 단계
    를 더 포함하는 것을 특징으로 하는 인터넷 주소 식별 방법.
  4. 제3항에 있어서,
    상기 최대 기대 알고리즘은 전향-후향 알고리즘인 것을 특징으로 하는 인터넷 주소 식별 방법.
  5. 제2항에 있어서,
    상기 확률치에 따라, 인터넷 주소 식별정보를 생성하는 단계는,
    상기 확률치가 사전 설정된 확률 역치보다 클 경우에 응답하여, 비-스팸 인터넷 주소 알림정보를 생성하는 단계를 포함하는 것을 특징으로 하는 인터넷 주소 식별 방법.
  6. 제2항에 있어서,
    상기 확률치에 따라, 인터넷 주소 식별정보를 생성하는 단계는,
    상기 확률치가 사전 설정된 확률 역치보다 작을 경우에 응답하여, 스팸 인터넷 주소 알림정보를 생성하는 단계를 포함하는 것을 특징으로 하는 인터넷 주소 식별 방법.
  7. 제6항에 있어서,
    상기 확률치가 사전 설정된 확률 역치보다 작을 경우에 응답하여, 스팸 인터넷 주소 알림정보를 생성하는 단계 이후,
    상기 식별하고자 하는 인터넷 주소가 스팸 인터넷 주소 또는 비-스팸 인터넷 주소임에 대한 사용자의 확인정보를 수신하는 단계; 및
    비-스팸 인터넷 주소로 확인된 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열을 은닉 마르코프 모델의 트레이닝하고자 하는 관측 서열로 간주하고, 최대 기대 알고리즘에 의해 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트하는 단계
    를 더 포함하는 것을 특징으로 하는 인터넷 주소 식별 방법.
  8. 식별하고자 하는 인터넷 주소를 획득하도록 구성된 획득 유닛;
    사전 설정된 규칙에 따라 상기 식별하고자 하는 인터넷 주소에 대해 분할처리를 진행하고, 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환하도록 구성된 분할 전환 유닛;
    상기 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열에 따라, 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치를 확정하도록 구성된 확률 확정 유닛; 및
    상기 확률치에 따라, 인터넷 주소 식별정보를 생성하도록 구성된 생성 유닛
    을 포함하는 것을 특징으로 하는 인터넷 주소 식별 장치.
  9. 제8항에 있어서,
    상기 확률 확정 유닛은,
    상기 유형 식별자의 서열을 은닉 마르코프 모델의 관측 서열로 간주하여, 전향 알고리즘 및 사전 트레이닝된 은닉 마르코프 모델의 파라미터에 의해 상기 관측 서열에 대응되는 확률치를 산출하도록 구성된 산출 서브 유닛; 및
    산출된 확률치를 상기 식별하고자 하는 인터넷 주소가 비-스팸 인터넷 주소일 확률치로 간주하도록 구성된 확률 확정 서브 유닛
    을 포함하는 것을 특징으로 하는 인터넷 주소 식별 장치.
  10. 제9항에 있어서,
    로그 서버로부터 비-스팸 인터넷 주소 집합을 획득하도록 구성된 비-스팸 인터넷 주소 집합 획득 유닛;
    사전 설정된 규칙에 따라 상기 비-스팸 인터넷 주소 집합 중의 각 인터넷 주소에 대해 분할처리를 진행하고, 각 인터넷 주소로부터 분할된 각 인터넷 주소의 부분들을 각 인터넷 주소의 부분의 내용 유형에 대응되는 유형 식별자로 전환하여, 각 인터넷 주소에 대응되는 유형 식별자의 서열을 포함하는 유형 식별자의 서열 집합을 생성하도록 구성된 비-스팸 인터넷 주소 집합 분할 전환 유닛;
    상기 유형 식별자의 서열 집합을 은닉 마르코프 모델의 트레이닝하고자 하는 관측 서열 집합으로 간주하고, 최대 기대 알고리즘에 의해 은닉 마르코프 모델의 파라미터를 확정하도록 구성된 모델의 파라미터 산출 유닛; 및
    확정된 은닉 마르코프 모델의 파라미터를 사전 트레이닝된 은닉 마르코프 모델의 파라미터로 간주하거나, 또는 확정된 은닉 마르코프 모델의 파라미터에 의해 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트하도록 구성된 모델의 파라미터 확정 및 업데이트 유닛
    을 더 포함하는 것을 특징으로 하는 인터넷 주소 식별 장치.
  11. 제10항에 있어서,
    상기 최대 기대 알고리즘은 전향-후향 알고리즘인 것을 특징으로 하는 인터넷 주소 식별 장치.
  12. 제9항에 있어서,
    상기 생성 유닛은, 상기 확률치가 사전 설정된 확률 역치보다 클 경우에 응답하여, 비-스팸 인터넷 주소 알림정보를 생성하도록 더 구성되는 것을 특징으로 하는 인터넷 주소 식별 장치.
  13. 제9항에 있어서,
    상기 생성 유닛은, 상기 확률치가 사전 설정된 확률 역치보다 작을 경우에 응답하여, 스팸 인터넷 주소 알림정보를 생성하도록 더 구성되는 것을 특징으로 하는 인터넷 주소 식별 장치.
  14. 제13항에 있어서,
    상기 식별하고자 하는 인터넷 주소가 스팸 인터넷 주소 또는 비-스팸 인터넷 주소임에 대한 사용자의 확인정보를 수신하도록 구성된 확인 정보 수신 유닛; 및
    비-스팸 인터넷 주소로 확인된 식별하고자 하는 인터넷 주소에 대응되는 유형 식별자의 서열을 은닉 마르코프 모델의 트레이닝하고자 하는 관측 서열로 간주하고, 최대 기대 알고리즘에 의해 사전 트레이닝된 은닉 마르코프 모델의 파라미터를 업데이트하도록 구성된 파라미터 조정 유닛
    을 더 포함하는 것을 특징으로 하는 인터넷 주소 식별 장치.
KR1020160107818A 2016-01-04 2016-08-24 인터넷 주소 식별 방법 및 장치 KR101791798B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610003891.5A CN105447204B (zh) 2016-01-04 2016-01-04 网址识别方法和装置
CN201610003891.5 2016-01-04

Publications (2)

Publication Number Publication Date
KR20170081558A KR20170081558A (ko) 2017-07-12
KR101791798B1 true KR101791798B1 (ko) 2017-10-30

Family

ID=55557380

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160107818A KR101791798B1 (ko) 2016-01-04 2016-08-24 인터넷 주소 식별 방법 및 장치

Country Status (4)

Country Link
US (1) US10915828B2 (ko)
JP (1) JP6216422B2 (ko)
KR (1) KR101791798B1 (ko)
CN (1) CN105447204B (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105100061B (zh) * 2015-06-19 2018-09-04 小米科技有限责任公司 网址劫持检测的方法及装置
US10855714B2 (en) 2016-10-31 2020-12-01 KnowBe4, Inc. Systems and methods for an artificial intelligence driven agent
US10841337B2 (en) 2016-11-28 2020-11-17 Secureworks Corp. Computer implemented system and method, and computer program product for reversibly remediating a security risk
CN108509441A (zh) * 2017-02-24 2018-09-07 菜鸟智能物流控股有限公司 一种地址有效性分类器的训练及其验证方法和相关装置
CN107526967B (zh) 2017-07-05 2020-06-02 阿里巴巴集团控股有限公司 一种风险地址识别方法、装置以及电子设备
US10735470B2 (en) 2017-11-06 2020-08-04 Secureworks Corp. Systems and methods for sharing, distributing, or accessing security data and/or security applications, models, or analytics
US10523706B1 (en) 2019-03-07 2019-12-31 Lookout, Inc. Phishing protection using cloning detection
US11368486B2 (en) * 2019-03-12 2022-06-21 Fortinet, Inc. Determining a risk probability of a URL using machine learning of URL segments
US11310268B2 (en) * 2019-05-06 2022-04-19 Secureworks Corp. Systems and methods using computer vision and machine learning for detection of malicious actions
US11418524B2 (en) 2019-05-07 2022-08-16 SecureworksCorp. Systems and methods of hierarchical behavior activity modeling and detection for systems-level security
US11144668B2 (en) * 2019-08-15 2021-10-12 International Business Machines Corporation Cognitively hiding sensitive content on a computing device
US11381589B2 (en) 2019-10-11 2022-07-05 Secureworks Corp. Systems and methods for distributed extended common vulnerabilities and exposures data management
CN110928971B (zh) * 2019-11-21 2023-05-09 深圳无域科技技术有限公司 一种提高地址识别精确度的方法及装置
US11522877B2 (en) 2019-12-16 2022-12-06 Secureworks Corp. Systems and methods for identifying malicious actors or activities
US11588834B2 (en) 2020-09-03 2023-02-21 Secureworks Corp. Systems and methods for identifying attack patterns or suspicious activity in client networks
CN112507336A (zh) * 2020-12-15 2021-03-16 四川长虹电器股份有限公司 基于代码特征和流量行为的服务端恶意程序检测方法
US11528294B2 (en) 2021-02-18 2022-12-13 SecureworksCorp. Systems and methods for automated threat detection
CN114218893B (zh) * 2022-02-21 2022-05-13 湖南星汉数智科技有限公司 层次有序列表识别方法、装置、计算机设备和存储介质
CN115665286B (zh) * 2022-12-26 2023-03-28 深圳红途科技有限公司 接口聚类方法、装置、计算机设备及存储介质
CN116016416B (zh) * 2023-03-24 2023-08-04 深圳市明源云科技有限公司 垃圾邮件识别方法、装置、设备及计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8533270B2 (en) * 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US7590707B2 (en) * 2006-08-07 2009-09-15 Webroot Software, Inc. Method and system for identifying network addresses associated with suspect network destinations
US20090240670A1 (en) * 2008-03-20 2009-09-24 Yahoo! Inc. Uniform resource identifier alignment
US8448245B2 (en) * 2009-01-17 2013-05-21 Stopthehacker.com, Jaal LLC Automated identification of phishing, phony and malicious web sites
CN101504673B (zh) * 2009-03-24 2011-09-07 阿里巴巴集团控股有限公司 一种识别疑似仿冒网站的方法与系统
JP5824429B2 (ja) * 2012-08-10 2015-11-25 日本電信電話株式会社 スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム
CN104253785B (zh) * 2013-06-25 2017-10-27 腾讯科技(深圳)有限公司 危险网址识别方法、装置及系统
US9477836B1 (en) * 2014-04-23 2016-10-25 Shape Security, Inc. Content modification in served code
US9954880B2 (en) * 2015-10-30 2018-04-24 Salesforce.Com, Inc. Protection via webpage manipulation

Also Published As

Publication number Publication date
JP2017123141A (ja) 2017-07-13
US10915828B2 (en) 2021-02-09
US20170193386A1 (en) 2017-07-06
CN105447204A (zh) 2016-03-30
JP6216422B2 (ja) 2017-10-18
KR20170081558A (ko) 2017-07-12
CN105447204B (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
KR101791798B1 (ko) 인터넷 주소 식별 방법 및 장치
CN106462560B (zh) 使用行为度量来优化内容布局的系统和方法
US10547618B2 (en) Method and apparatus for setting access privilege, server and storage medium
US9122870B2 (en) Methods and apparatus for validating communications in an open architecture system
US20200065471A1 (en) Security verification method and relevant device
KR102340228B1 (ko) 검색 서비스와 연결된 메시지 서비스를 위한 메시지 서비스 제공 방법 및 상기 메시지 서비스 제공 방법을 수행하는 메시지 서버 및 사용자 단말
WO2016188029A1 (zh) 解析二维码的方法及装置、计算机可读存储介质、计算机程序产品与终端设备
US10496696B2 (en) Search method and apparatus
CN104243273A (zh) 即时通讯客户端显示信息的方法及设备和信息显示系统
KR102087807B1 (ko) 문자 입력 방법 및 장치
US20170178177A1 (en) Positioning media to go viral
US20150205767A1 (en) Link appearance formatting based on target content
CN106570003B (zh) 数据推送方法及装置
CN112087455A (zh) 一种waf站点防护规则生成方法、系统、设备及介质
CN108834202B (zh) 信息展示方法和设备
CN107634942B (zh) 识别恶意请求的方法和装置
JP7041282B2 (ja) 信頼できるコード証明トークンによるデータの完全性の向上
CN112351009B (zh) 一种网络安全防护方法、装置、电子设备及可读存储介质
US20100217647A1 (en) Determining share of voice
CA2849162C (en) Methods and apparatus for validating communications in an open architecture system
US20150261733A1 (en) Asset collection service through capture of content
CN105701684B (zh) 一种数据处理方法以及装置
CN117112937A (zh) 访问请求的处理方法、相关设备及存储介质
CN112861094A (zh) 人机识别方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant