KR20200015444A - 위험 주소 식별 방법, 장치 및 전자 디바이스 - Google Patents

위험 주소 식별 방법, 장치 및 전자 디바이스 Download PDF

Info

Publication number
KR20200015444A
KR20200015444A KR1020197023966A KR20197023966A KR20200015444A KR 20200015444 A KR20200015444 A KR 20200015444A KR 1020197023966 A KR1020197023966 A KR 1020197023966A KR 20197023966 A KR20197023966 A KR 20197023966A KR 20200015444 A KR20200015444 A KR 20200015444A
Authority
KR
South Korea
Prior art keywords
address
word
address word
dangerous
sequence
Prior art date
Application number
KR1020197023966A
Other languages
English (en)
Other versions
KR102244417B1 (ko
Inventor
칭칭 선
Original Assignee
알리바바 그룹 홀딩 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 알리바바 그룹 홀딩 리미티드 filed Critical 알리바바 그룹 홀딩 리미티드
Publication of KR20200015444A publication Critical patent/KR20200015444A/ko
Application granted granted Critical
Publication of KR102244417B1 publication Critical patent/KR102244417B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06K9/6256
    • G06K9/6269
    • G06K9/6297
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Virology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)

Abstract

본 명세서의 실시예는 위험 주소 식별 방법, 장치 및 전자 디바이스를 개시한다. 위험 주소 식별 방법은: 입력 주소에 따른 대응하는 주소 단어 시퀀스를 확보한 후에, 주소 단어 시퀀스에 있는 히트 주소 단어와 그 전후 의미에 따라 은닉 마코브 모델 및 지원 벡터 기계 모델을 사용하여 입력 주소 상에 위험 식별을 수행하는 것을 포함한다.

Description

위험 주소 식별 방법, 장치 및 전자 디바이스
본 명세서는 컴퓨터 기술분야에 관한 것으로, 특히 위험 주소 식별 방법, 장치 및 전자 디바이스에 관한 것이다.
온라인 금융거래는 점점 더 발전하고 있으며, 일부 사용자들은 돈 세탁과 같은 불법적인 자금 운영을 위해, 온라인 금융을 불법적으로 사용한다. 불법적인 온라인 금융거래의 발생을 막기 위해, 위험 주소를 식별하는 일부 방안이 이미 존재하는데, 이들은 비교적으로 규칙적인 위험 주소를 식별하는 것을 목표로 하는 일반적인 방안이다.
예를 들어, 단어 분할 알고리즘(word segmentation algorithm)을 사용하여, 입력 주소 상에서 단어 분할 및 라벨링이 수행될 수 있으며, 최종적으로 매칭 결과를 통해 입력 주소가 위험 주소인지 여부를 식별하도록, 주소 단어 매칭은 다른 주소 단어의 라벨 정보에 따라 하나씩 수행된다.
종래 기술에 기초하여, 더 정확한 위험 주소 식별 방안이 필요하다.
본 명세서의 실시예는 다음의 기술적 문제를 해결하기 위해, 위험 주소 식별 방법, 장치 및 전자 디바이스를 제공한다: 더 정확한 위험 주소 식별 방안이 필요하다.
전술한 기술적 문제를 해결하기 위해, 본 명세서의 실시예는 다음과 같이 구현된다.
본 명세서의 실시예는 위험 주소 식별 방법을 제공하며, 본 방법은:
입력 주소에 대응하는 주소 단어 시퀀스를 획득하는 것;
주소 단어 시퀀스에 포함된 다양한 주소 단어에서, 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어를 결정하는 것;
결정된 주소 단어에 따라 주소 단어 시퀀스와 대응하는 관측 시퀀스를 생성하는 것;
결정 벡터를 확보하기 위해, 주소 단어 전후의 의미론적 학습에 기초하여 확보된 은닉 마코브 모델을 사용하여 관측 시퀀스를 처리하는 것- 결정 벡터는 주소 단어 시퀀스에 포함된 다양한 주소 단어와 일치하는 위험 주소의 확률을 나타냄-; 및
결정 벡터 상에 분류 결정을 내림으로써, 입력 주소가 위험 주소인지 여부를 식별하는 것을 포함한다.
본 명세서의 실시예는 위험 주소 식별 장치를 제공하는데, 장치는:
입력 주소에 대응하는 주소 단어 시퀀스를 획득하는, 수신 모듈;
주소 단어 시퀀스에 포함된 다양한 주소 단어에서 각 위험 주소와 대응하는 위험 단어와 일치하는 주소 단어를 결정하는, 매칭 모듈;
결정된 주소 단어에 따라 주소 단어 시퀀스와 대응하는 관측 시퀀스를 생성하는, 생성 모듈;
주소 단어 전후의 의미론적 학습에 기초하여 확보된 은닉 마코브 모델을 사용하여 관측 시퀀스를 처리하는, 라벨링 모듈- 결정 벡터는 주소 단어 시퀀스에 포함된 다양한 주소 단어와 일치하는 위험 주소의 확률을 나타냄-; 및
결정 벡터에 대한 분류 결정을 내림으로써 입력 주소가 위험 주소인지 여부를 식별하는, 식별 모듈을 포함한다.
본 명세서의 실시예는 전자 디바이스를 제공하는데, 전자 디바이스는:
적어도 하나의 프로세서; 및
적어도 하나의 프로세서와 통신 접속하는 메모리- 메모리는 적어도 하나의 프로세서에 의해 실행 가능한 명령어를 저장함- 를 포함하고,
명령어는 적어도 하나의 프로세서에 의해, 적어도 하나의 프로세서가:
입력 주소에 대응하는 주소 단어 시퀀스를 획득하고;
주소 단어 시퀀스에 포함된 다양한 주소 단어에서 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어를 결정하고;
결정된 주소 단어에 따라 주소 단어 시퀀스에 대응하는 관측 시퀀스를 생성하고;
결정 벡터를 확보하기 위해, 주소 단어 전후의 의미론적 학습에 기초하여 확보된 은닉 마코브 모델을 사용하여 관측 시퀀스를 처리하고- 결정 벡터는 주소 단어 시퀀스에 포함된 다양한 주소 단어와 일치하는 위험 주소의 확률을 나타냄-; 및
결정 벡터에 대한 분류 결정을 내림으로써 입력 주소가 위험 주소인지 여부를 식별하는 것을 가능하게 한다.
본 명세서의 실시예에 채택된 전술한 기술적 방안 중 적어도 하나는 다음과 같은 이로운 효과를 달성할 수 있다: 위험 주소가 더 정확하게 식별될 수 있도록, 주소 단어 전후의 의미와 입력 주소를 처리한 후, 주소 단어 전후의 의미론적 학습에 기초하여 얻은 은닉 마코브 모델(hidden Markov model)과 확보된 주소 단어에 따라 입력 주소의 분류 결정 결과를 확보하기 위한 지원 벡터 기계 모델을 사용한다.
본 명세서의 실시예 또는 종래 기술의 기술적 방안을 더욱 명확하게 설명하기 위해, 실시예 또는 종래 기술에 대한 설명에 사용되는 첨부 도면을 이하에서 간단하게 소개한다. 이하에서 설명된 첨부 도면은 본 명세서에 개시된 단지 일부 실시예에 불과하다는 것은 명백하다. 해당 기술분야의 통상의 기술자는 창조적인 노력 없이 이들 첨부 도면에 따라 다른 첨부 도면을 더 얻을 수 있다.
도 1은 실제 애플리케이션 시나리오에서 본 명세서의 방안에 관련된 전반적인 아키텍처의 개략도이다;
도 2는 본 명세서의 일 실시예에서 제공된, 위험 주소 식별 방법의 개략적인 흐름도이다;
도 3은 본 명세서의 일 실시예에서 제공된, 은닉 마코브 모델의 모델링 방법의 개략적인 흐름도이다;
도 4는 본 명세서의 일 실시예에서 제공된, 지원 벡터 기계 모델의 모델링 방법의 개략적인 흐름도이다;
도 5는 본 명세서의 일 실시예에서 제공된, 위험 주소 식별 장치의 개략적인 구조도이다;
도 6은 본 명세서의 일 실시예에서 제공된, 위험 주소 식별이 주소에 위험이 없음을 나타내는 개략적인 구조도이다;
도 7은 본 명세서의 일 실시예에서 제공된, 위험 주소 식별이 주소가 위험하다는 것을 나타내는 개략적인 구조도이다; 그리고
도 8은 본 명세서의 일 실시예에서 제공된, 위험 주소 식별의 모델링 및 식별의 개략적인 흐름도이다.
본 명세서의 실시예는 위험 주소 식별 방법, 장치 및 전자 디바이스를 제공한다.
해당 기술분야의 통상의 기술자가 본 명세서의 기술적 방안을 더욱 잘 이해할 수 있도록 하기 위해, 본 명세서의 실시예의 기술적 방안은 이하에서 본 명세서의 실시예에서 첨부 도면을 참조하여 명확하고 완전하게 설명될 것이다. 설명된 실시예들이 본 출원의 실시예의 전부가 아닌, 단지 일부에 불과하다는 것은 명백하다. 창조적인 노력 없이 본 명세서의 실시예들에 기초하여, 해당 기술분야의 통상의 기술자에 의해 획득되는 다른 모든 실시예들은 본 출원의 보호 범위에 속해야 한다.
도 1은 실제 애플리케이션 시나리오에서 본 명세서의 방안에 관련된 전반적인 아키텍처의 개략도이다. 전반적인 아키텍처에서, 입력 주소에 대응하는 결정 벡터를 확보하기 위하여, 주소는 먼저 은닉 마코브 모델(Hidden Markov Model, HMM)을 포함하는 디바이스에 의해 입력 및 처리되고, 이후 결정 벡터는 지원 벡터 기계(Support Vector Machine, SVM)를 포함한 디바이스에 의해 추가적으로 처리되고, 최종적으로 입력 주소가 위험 주소인지 여부가 결정된다.
전술한 전반적인 아키텍처에 기초하여, 본 명세서의 방안은 아래에서 자세하게 설명될 것이다.
본 명세서의 실시예는 위험 주소 식별 방법을 제공한다. 도 2는 위험 주소 식별 방법의 개략적인 흐름도이고, 도 2의 흐름은 다음 단계를 포함할 수 있다:
S102: 입력 주소에 대응하는 주소 단어 시퀀스가 획득된다.
주소 단어 시퀀스는 입력 주소를 처리한 후에 확보될 수 있다.
예를 들어, 입력 주소에 많은 간섭 문자가 포함된 경우, 입력 주소 상에서 간섭 문자 제거 작업이 먼저 수행될 수 있고, 이후 주소 단어 시퀀스가 추가로 확보된다. 만약 입력 주소가 공백과 같은 단어 구분자를 포함하는 경우이거나 간섭 문자를 제외하기 위한 후속 단계에서 위험 주소 식별의 처리 능력이 양호한 경우, 주소 단어 시퀀스는 입력 주소 자체일 수도 있다.
S104: 주소 단어 시퀀스에 포함된 다양한 주소 단어에서 주소 단어가 각 위험 주소에 대응하는 위험 단어와 일치하는지 결정된다.
다양한 위험 주소는 다수의 위험 주소로 구성된 위험 주소 라이브러리로 이해될 수 있다.
위험 단어는 위험 주소에 포함된 위험한 주소 단어로 이해될 수 있다. 위험 주소는 하나 이상의 위험 단어를 포함할 수 있고, 이들 위험 단어는 특정 규칙에 따라 순차적으로 위험 주소를 구성할 수 있고, 또는 상대적으로 독립적일 수 있다.
일치하는지 결정하는 방법은, 예를 들어, 주소 단어 시퀀스에 있는 각 주소 단어를 각각 스캐닝하는 것, 위험 주소에서 각 주소 단어와 동일한 것을 매칭하는 것 및 히트 주소 단어(설명의 편의를 위해, 이러한 주소 단어는 이하에서 히트 주소 단어(hit address word)로 지칭될 수 있음)를 결정하는 것을 포함할 수 있다.
예를 들어, 주소 단어 시퀀스가 다수의 주소 단어를 포함하고, 주소 시퀀스에 있는 주소 단어 A가 위험 주소에 포함된 위험 단어와 매칭되고 일치하는 경우, 주소 단어 시퀀스는 주소 단어 시퀀스에 있는 하나의 주소 단어와 대응하는 각각의 벡터의 각 차원의 하나의 다차원 벡터로 표현될 수 있다; 또한 벡터에서, 주소 단어 A에 대응하는 차원은 스캐닝에 의해 결정될 수 있고, 주소 단어 A가 일치하는지 결정하기 위해, 차원은 1로 라벨링된다; 그리고 일치하지 않는 다른 주소 단어를 위해, 대응하는 차원들은 0으로 라벨링된다.
S106: 결정된 주소 단어에 따라 주소 단어 시퀀스에 대응하는 관측 시퀀스가 생성된다.
주소 단어 시퀀스에 대응하는 관측 시퀀스를 생성하는 많은 방법이 존재한다: 요구되는 주소 단어 각각은 결정된 주소 단어 및 그것의 전후 의미에 따라 주소 단어 시퀀스로부터 확보될 수 있고, 관측 시퀀스는 결정된 주소 단어 및 확보된 주소 단어에 따라 생성되는데, 여기에서 추출된 주소 단어는 연속적인 주소 단어일 수 있고, 특정 규칙에 부합하는 불연속적인 주소 단어일 수도 있다;
주소 단어 시퀀스에 대응하는 관측 시퀀스를 생성하는 방법은 또한: 먼저, 복수의 주소 단어 하위-시퀀스를 확보하기 위하여, 주소 단어 시퀀스를 분할하는 것 및 이후 요구되는 주소 단어 하위-시퀀스에 따라 관측 시퀀스를 생성하는 것일 수 있다.
S108: 결정 벡터를 확보하기 위해, 주소 단어 전후로 의미론적 학습에 기초하여 확보된 은닉 마코브 모델을 사용하여 관측 시퀀스를 처리- 결정 벡터는 주소 단어 시퀀스에 포함된 다양한 주소 단어와 일치하는 위험 주소의 확률을 나타냄- 된다.
주소 단어 전후의 의미는 현재 주소 단어, 현재 주소 단어의 전후 및 관련된 주소 단어의 관련된 의미일 수 있고, 관련된 주소 단어의 수는 2개 또는 3개일 수 있고, 여기에서 관련된 주소 단어는 현재 주소 단어와 인접한 주소 단어 또는 하나의 단어에 의해 현재 주소 단어로부터 간격을 둔 주소 단어일 수 있다.
구체적으로 전술한 현재 주소 단어는 단계 S106에서 결정된 주소 단어일 수 있다. 주소 단어 전후의 의미는 주소 단어 전후의 의미의 역할을 하는, 결정된 주소 단어의 전후 및 근접한 주소 단어일 수 있는데, 예를 들어, 중국 베이징 차오양(Chaoyang)구에서 베이징의 전후 의미는 중국과 차오양 구를 포함한다; 그리고 결정된 단어 전후의 의미로서 서로 인접하지 않는, 주소 단어 시퀀스에서 주소 단어를 사용하는 것도 가능하다.
또한 처리 단계를 단순화하기 위해, 관측 시퀀스는 주소 단어 시퀀스 또는 입력 주소 그 자체일 수도 있다. 이 경우, 위험 주소와 일치할 확률은 히트 주소 단어 및 주소 단어 시퀀스 또는 입력 주소에서 히트 주소 단어의 라벨링 결과에 따른 그 전후 의미에 기초하여 직접적으로 라벨링될 수 있다.
S110: 결정 벡터 상에 분류 결정을 내리는 것에 의해 입력 주소가 위험 주소인지 식별된다.
분류 결정은 결정 벡터 상에 생성된 2 진수(binary) 분류 결정일 수 있다. 예를 들어, 하나의 클래스는 위험 주소에 대응하는 결정 벡터일 수 있고, 다른 클래스는 비-위험 주소에 대응하는 결정 벡터일 수 있다. 또한, 결정 벡터에 대응하는 입력 주소가 위험 주소인지 여부가 결정될 수 있다.
본 명세서의 실시예에서, 단계 S102 동안, 입력 주소에 대응하는 주소 단어 시퀀스를 획득하는 것은 구체적으로,
입력 주소를 수신하는 것; 및 입력 주소에 대응하는 주소 단어 시퀀스를 확보하기 위해, 입력 주소에 대한 데이터 클리닝(cleaning) 처리 및 단어 분할 처리를 수행하는 것을 포함할 수 있다.
데이터 클리닝 처리의 방법은 표준화된 주소 문자열을 확보하기 위해 입력 주소로부터 간접 문자를 제거하는 것; 또는 입력 주소에서 다양한 주소 단어의 분할 순서를 조정하는 것을 포함할 수 있다.
단어 분할 처리의 방법은 입력 주소와 대응하는 주소 단어 시퀀스를 확보하기 위해, 공백 또는 세미콜론과 같은 특정 문자를 사용하여 표준화된 주소 문자열을 분할하는 것을 포함할 수 있다.
앞에서 언급한 바와 같이, 입력 주소가 많은 간섭 문자를 포함하는 경우, 간섭 문자 제거 작업은 먼저 입력 주소 상에서 수행될 수 있고, 이후 주소 단어 시퀀스가 추가적으로 확보된다.
예를 들어, 먼저, 데이터 클리닝은 간섭 문자를 제거하기 위해 입력 주소에 존재하는 일부 간섭 문자 상에서 수행되는데, 여기에서 간섭 문자는, 예를 들어, 아래의 적어도 하나를 포함할 수 있다: 여분의 공백, 반각 문자, "|", ":", "~" 등의 문자이고, 클리닝된 입력 주소는, 예를 들어, 공백에 의해 분리된 표준화된 주소 문자열일 수 있다; 이후, 단어 분할 라벨링이 수행된다: 클리닝된 주소 문자열은 공백에 의해 분할되고, 주소 문자열에서 발생한 of와 the와 같은 보조 단어는 사전 순으로 라벨링되고, 이들 보조 단어는 종종 후속 주소 매칭 및 식별에 사용되지 않을 수 있다; 그리고 최종적으로, 주소 단어로 구성된 주소 단어 시퀀스는 단어 분할 라벨링 후에 확보된다. 입력 주소에 대한 클리닝 및 단어 분할을 수행한 후, 주소 단어 시퀀스 후에 빠르고 효율적이고 정확한 위험 주소 단어의 식별과 같은 작업이 수행될 수 있도록 하기 위해, 주소 단어 시퀀스가 확보된다.
앞에서 언급한 바와 같이, 입력 주소가 공백과 같은 단어 구분자를 포함하는 경우이거나, 간섭 문자를 제외하기 위한 후속 단계에서 위험 주소 식별의 처리 능력이 양호한 경우, 주소 단어 시퀀스는 입력 주소 자체일 수도 있다; 이와 같이, 입력 주소를 처리하는 단계는 생략될 수 있다.
본 명세서의 실시예에서, 단계 S104 동안, 주소 단어 시퀀스에 포함된 다양한 주소 단어에서, 각 위험 주소와 대응하는 위험 단어와 일치하는 주소 단어는 구체적으로:
각 위험 주소에 대응하는 위험 단어를 사용하여 주소 단어 시퀀스에 있는 다양한 주소 단어와 각각 매칭시키는 것; 및
주소 단어 중 하나가 성공적으로 매칭되는 경우, 동일한 것으로 라벨링하고 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어와 동일한 것임을 결정하는 것을 포함할 수 있다.
라벨링은: 각 주소 단어 시퀀스에 있는 다양한 주소 단어의 매칭 결과를 대응하는 숫자 또는 문자와 라벨링하는 것, 주소 단어 시퀀스의 매칭 이후, 일치하는 것을 나타내는 결과의 라벨링 및 일치하지 않는 것을 나타내는 결과의 라벨링을 포함하는 것 및 라벨링 결과를 나타내는 숫자 또는 문자로 라벨링 벡터를 구성하는 것일 수 있다.
예를 들어, 주소 단어 시퀀스와 대응하는 관측 시퀀스에 있는 주소 단어 시퀀스 또는 다양한 주소 단어는 전역으로 스캐닝, 매칭 및 라벨링되고, 만약 특정 주소 단어 시퀀스에 있는 두번째 주소 단어 A가 위험 주소에 대응하는 주소 단어 세트에 있는 주소 단어 a와 매칭된다면, 주소 단어 A는 1로 라벨링되고, 그렇지 않으면 주소 단어 A는 0으로 라벨링된다. 또한, 라벨링 벡터는 확보되는데, 이는 [0, 0, 1, 0, 0, 0]과 같은 초기 라벨링 벡터로도 지칭될 수 있다.
주소 단어 시퀀스에 있는 다양한 주소 단어는 각각 매칭되고, 특정 매칭 방법은 전역 위험 주소 스캐닝 및 주소 단어 시퀀스(위험 주소 정보는 국가, 지방 및 주요 도시를 포함) 상에서 매칭을 수행하는 것을 포함할 수 있고, 여기에서 사용되는 매칭 알고리즘은, 예를 들어, 문자열 유사도 매칭 알고리즘, 발음 유사도 매칭 알고리즘 및 편집 거리(editing distance) 매칭 알고리즘 등을 포함할 수 있다.
나아가, 주소 단어 시퀀스에 포함된 다양한 주소 단어에서 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어를 결정하는 것은 추가적으로:
만약 성공적으로 매칭되는 주소 단어가 없는 경우, 입력 주소는 위험 주소가 아닌 것으로 결정하는 것을 포함한다.
만약 특정 주소 단어 시퀀스에 있는 다양한 주소 단어가 위험 주소에 있는 위험 단어와 일치하지 않는다면, 주소 단어 시퀀스는 위험 단어를 포함하지 않는 것으로 고려될 수 있고, 이에 따라 입력 주소가 위험 주소가 아닐 확률은 더 커서 입력 주소에 대한 추가 작업이 종료될 수 있다.
본 명세서의 실시예에서, 단계 S106 동안, 결정된 주소 단어에 따른 주소 단어 시퀀스와 대응하는 관측 시퀀스를 생성하는 것은 구체적으로:
결정된 주소 단어에 대해 각각 다음을 수행한다: 주소 단어 시퀀스에서 주소 단어의 관련된 단어 및 주소 단어에 따라, 주소 단어 시퀀스에 대응하는 관측 시퀀스 생성하는 것을 포함할 수 있고, 여기에서 관련된 단어는 주소 단어 시퀀스의 주소 단어 전후의 의미를 반영한다.
만약 주소 단어 시퀀스가 복수의 결정된 주소 단어를 포함하는 경우, 복수의 대응하는 관측 시퀀스가 생성될 수 있고, 결정된 주소 단어 중 하나에 대응하는 관측 시퀀스를 생성하도록 선택될 수 있다. 관련된 단어는 특정 논리적 관계 또는 그 전후의 단어와 특정한 연관 관계를 갖는 단어, 또는 단어와 그 전후의 연관 관계를 만들어내기 위해 인위적으로 정의된 단어로 이해될 수 있다. 일반적으로 관련된 단어는 현재 단어와 인접한 것이며, 예를 들어, 현재 단어의 앞이나 뒤에 두 단어가 될 수 있고, 인접한 것일 수 있다.
본 명세서의 실시예에서, 은닉 마코브 모델은 주소 단어 전후의 의미론적 학습에 기초하여 미리 확보될 수 있다.
본 명세서의 실시예는 은닉 마코브 모델을 위한 모델링 방법을 제공한다. 도 3은 모델링 방법의 개략적인 흐름도이고, 도 3의 흐름은 다음의 단계를 포함할 수 있다:
S202: 사전 정의된 트레이닝 샘플에 따라 초기 파라미터를 추출하는 것 및 초기 파라미터에 따라 은닉 마코브 모델 파라미터를 포함하는 초기 모델을 설정하는 것-- 트레이닝 샘플은 위험 주소 또는 비-위험 주소임--;
S204: 트레이닝 샘플에 포함된 주소 단어와 주소 단어 전후의 의미에 따라 트레이닝 샘플에 대응하는 관측 시퀀스를 생성하는 것; 및
S206: 은닉 마코브 모델을 확보하기 위해, 트레이닝 샘플에 대응하는 관측 시퀀스 및 초기 모델에 따라 은닉 마코브 모델 파라미터를 트레이닝하는 것.
트레이닝 샘플은 양성 샘플과 음성 샘플을 포함한다; 위험 주소는 양성 샘플이 될 수 있고, 비-위험 주소는 음성 샘플이 될 수 있다. 은닉 마코브 모델을 양성 및 음성 샘플로 트레이닝함으로써 더 나은 트레이닝 효과가 달성될 수 있다.
예를 들어, 일 실시예에서, 음성 샘플은 전 세계 235개 비-제재 국가 또는 지방의 주소일 수 있으며, 양성 샘플은 모든 제재 국가와 지방에 대한 주소 데이터일 수 있다. 일반적으로 위험 주소는 위험 단어를 포함하며, 물론 비-위험 주소도 위험 단어를 포함할 수 있다는 점에 유의해야 한다.
단계 S204에서 주소 단어는 트레이닝 샘플에 있는, 위험 주소와 대응하는 위험 단어와 매칭되는 주소 단어로 이해될 수 있다. 사전 정의된 샘플 주소에서, 샘플 주소가 위험 단어를 포함하는지 여부와 주소 단어가 위험 단어인지는 미리 라벨링된다. 여기서, 샘플 주소는 트레이닝 샘플에 포함된 트레이닝 샘플 주소이다.
나아가, 요구된 관측 시퀀스는 샘플 주소 및 그 전후의 의미에서 라벨링된 주소 단어에 따라 추출되고; 그리고 일반적으로 라벨링된 주소 단어 전후에 및 그와 관련된 2개 또는 3개의 단어가, 모두 함께 관측 시퀀스를 형성하는 주소 단어의 전후 의미로서 선택된다.
나아가, 확보된 초기 라벨링 모델 및 관측 시퀀스에 따라, 은닉 마코브 모델 파라미터는 적절한 은닉 마코브 모델 파라미터가 확보될 때까지 트레이닝되고, 이후 필요한 은닉 마코브 모델은 트레이닝을 통해 확보된 은닉 마코브 모델 파라미터에 따라 결정된다.
도 3의 은닉 마코브 모델을 위한 모델링 방법에서, 트레이닝 샘플 주소의 양과 규모는 트레이닝 결과의 품질에 직접적인 영향을 미칠 것이다. 트레이닝 샘플 주소에 사용되는 주소 라이브러리가 더 포괄적이고 넓은 커버리지를 가질 때, 모델 식별의 정확도를 개선하는 것이 유리하고, 따라서 본 방법은 충분한 트레이닝 샘플 주소를 가진 경우에 훌륭한 모델링 효과를 달성할 수 있다.
초기 파라미터는: 초기 확률 벡터 π t , 상태 전이 매트릭스 a ij 등을 포함하고; 및
사전 정의된 트레이닝 샘플에 따라 초기 파라미터를 추출하는 것은 구체적으로:
트레이닝 샘플에 기초하여, 트레이닝 샘플에 포함된 주소 단어에 대한 확률 라벨링을 각각 수행함으로써 초기 확률 벡터를 확보하는 것; 및 트레이닝 샘플에 포함된 주소 단어의 위험 단어 및 비-위험 단어 사이의 상태 전이 확률에 따라 샘플 주소의 상태 전이 매트릭스를 확보하는 것을 포함할 수 있다. 여기서, 위험 단어는 위험 주소에 포함된 주소 단어, 비-위험 단어는 비-위험 주소에 포함된 주소 단어이며, 일부 주소 단어는 위험 단어와 비-위험 단어가 될 수 있다.
복수의 트레이닝 샘플이 있을 수 있다. 일반적으로, 각 트레이닝 샘플은 샘플 주소일 수 있다. 확률 라벨링이 수행될 때, 샘플 주소는 트레이닝 샘플로서 세트로부터 선택된다; 예를 들어, 특정 샘플 주소에 있는 주소 단어 상에 확률 라벨링이 수행된 후, 샘플 주소에 있는 두번째 주소 단어는 히트 주소 단어이고, 그리고 초기 확률 벡터 π t =[0, 1, 0, 0, 0, 0] 가 확보되는데, 여기서 1은 히트 주소 단어를 나타내고 0은 일치하지 않는(not hit) 주소 단어를 나타낸다.
나아가, 샘플 주소의 상태 전이 매트릭스는 트레이닝 샘플에 포함된 주소 단어의 위험 단어와 비-위험 단어 사이의 상태 전이 확률에 따라 확보된다. 본 명세서의 하나 이상의 실시예에서, 상태 전이 확률은 두 개의 은닉 상태, 즉 위험 주소와 비-위험 주소 간에 주소 단어의 상태 전이가 발생할 확률을 의미한다.
본 명세서의 실시예에서, 은닉 마코브 모델을 확보하기 위해, 초기 모델에 따른 은닉 마코브 모델 파라미터와 트레이닝 샘플에 대응하는 관측 시퀀스를 트레이닝하는 것은 구체적으로:
은닉 마코브 모델을 확보하기 위해 은닉 마코브 모델 파라미터를 트레이닝하도록, 초기 모델 및 트레이닝 샘플에 대응하는 관측 시퀀스에 따라, Baum-Welch 알고리즘을 사용하는 것을 포함할 수 있다.
추가적으로, 은닉 마코브 모델 파라미터를 트레이닝하기 위한 다른 데이터도 획득될 수 있는데, 예를 들어,
Figure pct00001
, 여기서 O 는 히트 위험 국가/지방 단어를 포함하는 주소 단어 시퀀스이고, O h 는 라벨링될 주소 단어다. 일반적으로, n= 10일 가능성이 있다; 관측 시퀀스는 라벨링될 O h 의 문맥에 있는 주소 단어의 전후 3개 단어에 따라 확보되는데, 여기서
Figure pct00002
는 주소 단어 시퀀스 O 에 따른 라벨링 벡터이고, 주소 단어 시퀀스에서 다양한 주소 단어와 일치하는 위험 주소의 확률을 나타낸다; 그리고 나서, 다양한 주소 단어의 히팅 확률(hitting probability)은 라벨링 벡터를 형성하는데, 여기에서 라벨링 벡터는 초기 라벨링 벡터로 이해될 수 있다;
Figure pct00003
는 주소 단어 시퀀스 O h 와 그 히트 라벨 S h 이 정확할 확률을 나타내며, 필요한 은닉 마코브 모델 파라미터 λ 를 선택하는 데 사용된다; 그리고,
이후, 은닉 마코브 모델 파라미터 λ 는 은닉 마코브 모델을 확보하기 위해 전술한 파라미터에 따라 트레이닝된다.
나아가, 모델의 목표 함수는: 필요한 결정 벡터의 획득을 가능하게 하기 위해,
Figure pct00004
로 정의된다;
본 명세서의 실시예에서, 단계 S108 동안, 결정 벡터를 확보하기 위해, 주소 단어 전후의 의미론적 학습에 기초하여 확보된 은닉 마코브 모델을 사용하여 관측 시퀀스를 처리하는 것은 구체적으로:
결정 벡터를 얻기 위해, 주소 단어 전후의 의미론적 학습에 의해 확보된 은닉 마코브 모델과 Viterbi 알고리즘을 사용하여 관측 시퀀스 처리하는 것을 포함할 수 있고,
여기에서, 결정 벡터는 주소 단어 시퀀스에 포함된 다양한 주소 단어와 일치하는 위험 주소의 확률을 나타낸다. 또한, 결정 벡터는 주소 단어 시퀀스에 대응하는 관측 시퀀스에 포함된 다양한 주소 단어와 일치하는 위험 주소의 확률을 나타낼 수도 있고, 관측 시퀀스에 포함되지 않은 주소 단어는 직접적으로 0으로 라벨링될 수 있다.
예를 들어, 주소 단어 시퀀스 [A, B, C, D, E, F]가 대응하는 관측 시퀀스 [B, C, D]를 가진다면, 확보된 결정 벡터는 [0, 0.5, 1, 0.3, 0, 0]으로 나타낼 수 있다.
본 명세서의 실시예에서, 단계 S110 동안, 결정 벡터 상에 분류 결정을 내리는 것은 구체적으로:
트레이닝을 통해 확보된 SVM 모델을 사용하여 결정 벡터 상에 분류 결정을 내리는 것을 포함할 수 있다.
일반적으로, 결정 벡터는 은닉 마코브 모델을 통한 계산에 의해 확보되고, 그리고 나서, 2 진수 이상의 분류를 가진 결정이 결정 벡터 상에 생성된다; 그리고, 설명은 주로 2 진수 분류 결정을 예로 들어 아래에서 이루어진다.
본 명세서의 실시예에서, 지원 벡터 기계 모델을 위한 모델링 방법은 제공된다. 도 4는 지원 벡터 기계 모델을 위한 모델링 방법의 개략적인 흐름도이고, 도 4의 흐름은 아래의 단계를 포함할 수 있다:
S302: 지원 벡터 기계를 위한 트레이닝 샘플을 획득하는 것;
S304: 지원 벡터 기계의 트레이닝 샘플에 대응하는 샘플 피처 공간을 확보하기 위해, 지원 벡터 기계의 트레이닝 샘플을 고-차원 피처 공간에 매핑하는 것;
S306: 샘플 피처 공간으로부터 샘플 피처를 나타내는 파라미터를 획득하고, 샘플 피처의 파라미터에 따라 샘플 피처의 카테고리를 결정하기 위한 분별 함수를 설정하는 것; 및
S308: SVM 모델을 확보하기 위해, 지원 벡터 기계의 트레이닝 샘플에 기초하여 분별 함수에서 대응하는 SVM 모델 파라미터를 트레이닝하는 것.
지원 벡터 기계를 위한 트레이닝 샘플은 전술한 은닉 마코브 모델을 통해 샘플 주소를 트레이닝함으로써 확보되는, 트레이닝 샘플과 대응하는 결정 벡터일 수 있고, 또는 입력 주소를 특징으로 하는 다른 차별화되는 데이터일 수 있다.
구체적으로, SVM은 다승(multi-power) 다항식 커널 함수를 선택함으로써 결정 벡터 주소를 고-차원 피처 공간에 매핑할 수 있으며, 수식은 다음과 같다:
Figure pct00005
SVM은 샘플 주소의 고-차원 피처 공간에서 샘플 피처 및 기타 피처의 각 카테고리에 대한 최적의 분류 초평면(hyperplane)을 찾는데 사용되고, 다양한 샘플 피처를 나타내는 지원 벡터 세트와 그에 대응하는 VC 신뢰도가 확보되고, 각 피처의 카테고리를 결정하기 위한 분별 함수가 형성된다:
Figure pct00006
SVM 모델 파라미터
Figure pct00007
는 지원 벡터 기계 모델을 더욱 최적화하기 위해, 전역 주소 라이브러리 데이터와 같은 대량의 주소 데이터에 기초하여 트레이닝함으로써 확보된다.
의미론적 식별에 기초한 주소 매칭 학습에 의해, 위험 주소의 분류 결정 결과는 각 주소 단어 및 그 전후의 의미의 매칭 결과에 따라 확보되고, 이는 위험 주소 또는 위조 위험 주소를 효과적으로 식별할 수 있고, 위험하지 않은 주소의 오판을 피할 수 있다.
동일한 사상에 기초하여, 본 명세서의 실시예는 나아가 위험 주소 식별 장치를 제공한다. 도 5는 본 명세서의 실시예에서 제공된 도 2에 대응하는 위험 주소 식별 장치의 개략적인 구조도이다. 도 5에 도시된 구조는 구체적으로:
입력 주소에 대응하는 주소 단어 시퀀스를 획득하는, 수신 모듈(101);
주소 단어 시퀀스에 포함된 다양한 주소 단어에서 각 위험 주소와 대응하는 위험 단어와 일치하는 주소 단어를 결정하는, 매칭 모듈(102);
결정된 주소 단어에 따라 주소 단어 시퀀스와 대응하는 관측 시퀀스를 생성하는, 생성 모듈(103);
결정 벡터를 확보하기 위해 주소 단어 전후의 의미론적 학습에 기초하여 확보된 은닉 마코브 모델을 사용하여 관측 시퀀스를 처리하는, 라벨링 모듈(104)- 결정 벡터는 주소 단어 시퀀스에 포함된 다양한 주소 단어와 일치하는 위험 주소의 확률을 나타냄-; 및
결정 벡터에 대한 분류 결정을 내림으로써 입력 주소가 위험 주소인지 여부를 식별하는, 식별 모듈(105)을 포함할 수 있다.
주소 단어 전후의 의미론적 학습 및 지원 벡터 기계 모델에 기초하여 확보된 은닉 마코브 모델을 사용하여, 입력 주소의 분류 결정 결과는 입력 주소의 처리 후 확보된 주소 단어와 그 전후의 의미에 따라 확보되고, 이는 위험 주소 또는 위조 위험 주소를 효과적으로 식별할 수 있으며 위험하지 않은 주소의 오판을 피할 수 있다. 따라서, 종래 기술의 문제는 부분적으로 또는 완전히 해결될 수 있다.
나아가, 입력 주소에 대응하는 주소 단어 시퀀스를 획득하는 수신 모듈(101)은 구체적으로:
입력 주소를 수신하고; 입력 주소에 대응하는 주소 단어 시퀀스를 확보하기 위해, 입력 주소에 대해 데이터 클리닝 처리 및 단어 분할 처리를 수행하는, 수신 모듈(101)을 포함할 수 있다. 후속 단계에서 주소 단어 시퀀스에 대한 라벨링 작업을 용이하게 하기 위해, 입력 주소에 대한 추가 클리닝 처리 및 단어 분할 처리를 통해, 표준화된 주소 단어 시퀀스가 확보되는데, 이는 주소 단어 시퀀스에서 결정된 주소 단어의 확률 라벨링의 작업 효율을 개선할 수 있다.
나아가, 주소 단어 시퀀스에 포함된 다양한 주소 단어에서 각 위험 주소와 대응하는 위험 단어와 일치하는 주소 단어를 결정하는 매칭 모듈(102)은 구체적으로:
각 위험 주소에 대응하는 위험 단어를 사용하여 주소 단어 시퀀스의 다양한 주소 단어를 각각 매칭시키는 매칭 모듈(120)을 포함할 수 있고;
만약 주소 단어 중 하나가 성공적으로 매칭되면, 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어와 동일한 것으로 라벨링하고, 결정한다.
나아가, 주소 단어 시퀀스에 포함된 다양한 주소 단어에서 각 위험 주소와 대응하는 위험 단어와 일치하는 주소 단어를 결정하는 매칭 모듈(102)은 추가로:
성공적으로 매칭되는 주소 단어가 없는 경우, 입력 주소는 위험 주소가 아닌 것으로 결정하는 것을 포함할 수 있다.
매칭 모듈(102)을 통해 주소 단어를 라벨링함으로써, 위험 입력 주소 및 위험하지 않은 입력 주소의 신속한 사전-필터링이 수행될 수 있으므로, 위험 주소 식별의 작업 효율을 개선할 수 있다.
나아가, 결정된 주소 단어에 따라 주소 단어 시퀀스와 대응하는 관측 시퀀스를 생성하는 생성 모듈(103)은 구체적으로:
결정된 주소 단어에 대해, 다음 작업을 각각 수행하는 것: 주소 단어 시퀀스에서 주소 단어와 관련된 단어 및 주소 단어에 따라 주소 단어 시퀀스에 대응하는 관측 시퀀스 생성하는 것- 관련된 단어는 주소 단어 시퀀스의 주소 단어 전후의 의미를 반영함- 을 포함할 수 있다. 여기서, 주소 단어 전후의 의미는 히트 주소 단어의 전후 및 관련된 복수의 주소 단어를 나타내며, 관련된 주소 단어의 수는 2개 또는 3개일 수 있고, 여기에서 관련된 주소 단어는 히트 주소 단어와 연속적으로 관련된 주소 단어일 수 있으며, 히트 주소 단어와 관련되거나, 히트 주소 단어로부터 간격을 둔 주소 단어일 수도 있다.
나아가, 주소 단어 전후의 의미론적 학습에 기초한 은닉 마코브 모델을 확보하는 것은:
사전 정의된 트레이닝 샘플에 따라 초기 파라미터를 추출하고 초기 파라미터에 따라 은닉 마코브 모델 파라미터를 포함하는 초기 모델을 설정하는 것-- 트레이닝 샘플은 위험 주소 또는 비-위험 주소임--;
트레이닝 샘플에 포함된 주소 단어와 주소 단어 전후의 의미에 따라 트레이닝 샘플에 대응하는 관측 시퀀스 생성하는 것; 및
은닉 마코브 모델을 확보하기 위해, 초기 모델 및 트레이닝 샘플에 대응하는 관측 시퀀스에 따라 은닉 마코브 모델 파라미터를 트레이닝하는 것을 포함한다.
요구되는 은닉 마코브 모델(hidden Markov model, HMM)을 확보하기 위해, 은닉 마코브 모델에 대해, 히트 위험 단어 및 위험 단어 전후의 의미를 포함하는 관측 시퀀스는 은닉 마코브 모델 파라미터를 트레이닝하는데 사용되는데, 이는 은닉 마코브 모델에 의한 입력 주소 위험 식별의 정확도를 개선할 수 있다.
나아가, 초기 파라미터는: 초기 확률 벡터 및 상태 전이 매트릭스를 포함하고;
사전 정의된 트레이닝 샘플에 따라 초기 파라미터를 추출하는 것은 구체적으로:
복수의 트레이닝 샘플에 기초하여, 트레이닝 샘플에 포함된 주소 단어에 대한 확률 라벨링을 각각 수행함으로써 초기 확률 벡터를 확보하는 것; 및 트레이닝 샘플에 포함된 주소 단어의 위험 단어와 비-위험 단어 사이의 상태 전이 확률에 따라 샘플 주소의 상태 전이 매트릭스를 확보하는 것을 포함할 수 있다. 여기서 위험 단어는 위험 주소에 포함된 주소 단어, 비-위험 단어는 비-위험 주소에 포함된 주소 단어이며, 일부 주소 단어는 위험 단어와 비-위험 단어 모두일 수 있다.
나아가, 은닉 마코브 모델을 확보하기 위해, 초기 모델 및 트레이닝 샘플에 대응하는 관측 시퀀스에 따라 은닉 마코브 모델 파라미터를 트레이닝하는 것은 구체적으로:
은닉 마코브 모델을 확보하기 위해 은닉 마코브 모델 파라미터를 트레이닝하도록, 초기 모델 및 트레이닝 샘플에 대응하는 관측 시퀀스에 따라, Baum-Welch 알고리즘을 사용하는 것을 포함할 수 있다.
은닉 마코브 모델을 모델링하는 동안, 트레이닝 샘플 주소의 양과 규모는 트레이닝 결과의 품질에 직접적인 영향을 미친다는 점에 유의해야 한다. 트레이닝 샘플 주소에 사용되는 전역 주소 라이브러리가 더 포괄적이고 넓은 커버리지를 가질 때, 모델을 사용하는 동안 식별 속도가 크게 향상될 것이므로, 따라서 충분한 트레이닝 샘플 주소를 가진 경우 훌륭한 모델링 효과가 달성될 수 있다.
결정 벡터를 확보하기 위해, 주소 단어 전후의 의미론적 학습에 기초하여 확보된 은닉 마코브 모델을 사용하여 관측 시퀀스를 처리하는 라벨링 모듈(104)은 구체적으로:
결정 벡터를 얻기 위해, 주소 단어 전후의 의미론적 학습에 의해 확보된 은닉 마코브 모델과 Viterbi 알고리즘을 사용하여 관측 시퀀스 처리하는 것을 포함할 수 있다. 결정 벡터는 주소 단어 시퀀스에 포함된 다양한 주소 단어와 일치하는 위험 주소의 확률을 나타낸다.
나아가, 결정 벡터 상에 분류 결정을 내리는 식별 모듈(105)은 구체적으로:
트레이닝을 통해 확보된 지원 벡터 기계(support vector machine, SVM) 모듈을 사용하는 결정 벡터 상에 분류 결정을 내리는 것을 포함할 수 있다.
나아가, 트레이닝을 통해 지원 벡터 기계 모델을 확보하는 것은:
지원 벡터 기계를 위한 트레이닝 샘플을 획득하는 것;
지원 벡터 기계의 트레이닝 샘플에 대응하는 샘플 피처 공간을 확보하기 위해, 지원 벡터 기계의 트레이닝 샘플을 고-차원 피처 공간에 매핑하는 것;
샘플 피처 공간으로부터, 샘플 피처를 나타내는 파라미터를 획득하는 것 및 샘플 피처의 파라미터에 따라 샘플 피처의 카테고리를 결정하기 위한 분별 함수를 설정하는 것; 및
SVM 모델을 확보하기 위해, SVM에 대한 트레이닝 샘플에 기초하여 분별 함수에서 대응하는 SVM 모델 파라미터를 트레이닝하는 것을 포함한다.
트레이닝 샘플은 전술한 실시예에서, 결정 벡터로 이해될 수 있고, 또는 입력 주소를 특징으로 하는 다른 차별화되는 데이터로 이해될 수 있다.
일반적으로 은닉 마코브 모델을 통해 계산된 결정 벡터의 경우, SVM은 결정 벡터를 고-차원 피처 공간에 매핑하고, 2 진수 분류 결정을 내리기 위해 사용되는 것을 필요로 한다. 물론 일부 결정 벡터에 대해 분류 결정이 내려질 수 있는데, 이는 고-차원 피처 공간에 동일한 것을 매핑을 하지 않고도 처리가 용이하며, 예를 들어 선형 분류 결정이 내려질 수 있고, 이는 계산 상의 어려움을 줄이고 처리 속도를 촉진시킬 수 있다.
동일한 사상에 기초하여, 본 명세서의 실시예는 나아가 전자 디바이스를 제공하는데, 전자 디바이스는:
적어도 하나의 프로세서; 및
적어도 하나의 프로세서와 통신 접속하는 메모리를 포함하고,
메모리는 적어도 하나의 프로세서에 의해 실행 가능한 명령어를 저장하고, 명령어는 적어도 하나의 프로세서에 의해 적어도 하나의 프로세서가:
입력 주소에 대응하는 주소 단어 시퀀스를 획득하는 것;
주소 단어 시퀀스에 포함된 다양한 주소 단어에서 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어를 결정하는 것;
결정된 주소 단어에 따라 주소 단어 시퀀스에 대응하는 관측 시퀀스를 생성하는 것;
결정 벡터를 확보하기 위해, 주소 단어 전후의 의미론적 학습에 기초하여 확보된 은닉 마코브 모델을 사용하여 관측 시퀀스를 처리하는 것- 결정 벡터는 주소 단어 시퀀스에 포함된 다양한 주소 단어와 일치하는 위험 주소의 확률을 나타냄-; 및
결정 벡터에 대한 분류 결정을 내림으로써 입력 주소가 위험 주소인지 여부를 식별하는 것이 가능하도록 실행된다.
본 명세서의 하나 이상의 실시예의 발명의 구상을 더 잘 설명하기 위해, 두 가지 실시예가 구체적으로 아래에 열거된다:
도 6은 본 명세서의 실시예에서 제공된 위험 주소 식별이 주소가 위험하지 않음을 나타낼 때, 개략적인 흐름도이고, 구체적으로:
먼저, 입력 주소의 텍스트가 REPUBLICA DE SIRIA 7495 SANTA FE Santa Fe AR 이고,
이후, 입력 주소를 전역적으로 스캐닝하고, 일치하는 제재 주소(국가 또는 도시) 단어와 동일한 것을 라벨링하고: SIRIA, 입력 주소의 초기 라벨링 벡터 [0, 0, 1, 0, 0, 0, 0, 0, 0]를 확보하는 것- 여기에서 초기 라벨링 벡터는 초기 확률 벡터로 이해될 수 있음-;
나아가, 은닉 마코브 라벨링 모델을 통해 결정 벡터 [0.01, 0.02, 0.02, 0.02, 0.01, 0, 0, 0, 0]를 확보하는 것; 및
최종적으로, 입력 주소가 제재 주소와 일치하지 않는다는 결정을 내리는 SVM 분류 모델- 여기에서 설명된 제재 주소는 위험 주소로 이해될 수 있음- 을 포함할 수 있다.
도 7은 본 명세서의 일 실시예에서 제공된, 위험 주소 식별이 주소가 위험하다는 것을 나타내는 개략적인 구조도이고, 이는 구체적으로:
먼저, 입력 주소의 텍스트가 Rostovskaya, 31a, Simferopol 5 Other RU 이고,
이후, 입력 주소를 전역적으로 스캐닝하고, 일치하는 제재 주소(국가 또는 도시) 단어와 동일한 것을 라벨링하고: Simferopol, 입력 주소의 초기 라벨링 벡터 [0, 0, 1, 0, 0, 0]를 확보하는 것;
나아가, 은닉 마코브 라벨링 모델을 통해 결정 벡터 [0.9, 0.9, 0.9, 0.9, 0.5, 0.1]를 확보하는 것; 및
최종적으로, 입력 주소가 제재 주소와 일치한다는 결정을 내리는 SVM 분류 모델을 포함할 수 있고,
여기에서 설명된 제재 주소는 전술한 위험 주소로 이해될 수 있다.
도 8은 본 명세서의 일 실시예에서 제공된, 위험 주소 식별의 모델링 및 식별의 개략적인 흐름도이고, 이는 구체적으로:
위험 주소 식별 모델을 모델링할 때, 파라미터 트레이닝을 수행하는 것 및 먼저 샘플 주소로 이해될 수 있는 트레이닝 주소 코퍼스(corpus)를 획득하는 것;
이후, 트레이닝 주소 코퍼스를 클리닝하고, 주소 단어 시퀀스로 이해될 수 있는 표준화된 주소 문자열로 분리하는 것;
이후, 초기 라벨링 모델 및 초기 파라미터를 확보하기 위해, 입력 트레이닝 주소 코퍼스를 전역적으로 스캐닝, 매칭 및 라벨링하는 것을 포함할 수 있다.
나아가, 초기 라벨링 모델링 따라, 은닉 마코브 모델 파라미터는 필요한 은닉 마코브 모델을 확보하기 위해 트레이닝된다. 또한, 최종적으로 필요한 SVM 모델을 확보하기 위해, SVM의 파라미터는 은닉 마코브 모델을 통해 결정 벡터 출력에 따라 트레이닝된다.
위험 주소 스캐닝 및 식별을 수행할 때, 사용자는 먼저 주소를 입력한다; 이후, 라벨링된 주소 단어 시퀀스를 확보하기 위해 표준화 처리 및 전역 위험 주소 스캐닝 및 라벨링이 입력 주소 상에 수행되고, 나아가 위험 단어 및 그 전후 의미에 기초하여 관측 시퀀스가 확보된다.
또한, 위험 확률 계산 및 라벨링은 결정 벡터를 생성하기 위해 은닉 마코브 모델을 통해, 주소 단어 시퀀스(관측 시퀀스) 상에 수행된다.
최종적으로, SVM은 입력 주소가 위험 주소인지 여부를 결정하기 위해, 결정 벡터에 따라 2 진수 분류 결정을 내린다.
은닉 마코브 모델 및 지원 벡터 기계는 위험 주소 단어와 그 전후의 의미에 기초하여 입력 주소를 판단하고 식별하는데 사용되어, 식별의 정확도는 효율적으로 개선될 수 있다.
본 명세서의 특정 실시예가 전술되었다. 다른 실시예는 첨부된 청구항의 범위 내에 있다. 일부 경우에서, 청구항에 기술된 동작 또는 단계는 실시예에서와 다른 순서로 수행될 수 있고, 그럼에도 불구하고 원하는 결과를 달성할 수 있다. 또한, 첨부 도면에 도시된 프로세스는 도시된 특정 시퀀스 또는 연속 시퀀스에 따라 원하는 결과를 달성하기 위해 필수적으로 요구되지 않는다. 일부 구현 방식에서, 멀티 태스킹 프로세싱 및 병렬 프로세싱이 가능하거나, 유리할 수 있다.
본 설명의 다양한 실시예들은 모두 진행형의 형식으로 기술된다. 실시예 중에서 동일하거나 유사한 부분은, 서로를 참조하여 얻어질 수 있다. 각각의 실시예에 대해, 다른 실시예와 다른 부분이 주로 설명된다. 특히, 장치, 전자 디바이스 및 비-휘발성 컴퓨터 저장 매체 실시예는 실질적으로 방법 실시예와 유사하므로, 상대적으로 간단히 설명되고, 관련 부분에 대해서는, 방법 실시예에서 부분의 기술 내용을 참고한다.
본 명세서의 실시예들에 제공된 장치, 전자 디바이스 및 비-휘발성 컴퓨터 저장 매체는 방법에 대응한다. 그러므로, 장치, 전자 디바이스 및 비-휘발성 컴퓨터 저장 매체는 또한 대응하는 방법과 유사한 유익한 기술적 효과를 갖는다. 방법의 유익한 기술적 효과가 구체적으로 전술되었으므로, 장치, 전자 디바이스 및 비-휘발성 컴퓨터 저장 매체의 유익한 기술적 효과는 여기서 설명되지 않을 것이다.
1990년대에는 기술 개선이 하드웨어 개선(예컨대, 다이오드, 트랜지스터 및 스위치와 같은 회로 구조의 개선)이나 소프트웨어 개선(방법 절차 상의 개선)으로 분명히 구분될 수 있었다. 그러나, 기술의 발달과 함께, 현재 많은 방법 절차의 개선은 하드웨어 회로 구조의 직접적인 개선으로 간주 될 수 있다. 거의 모든 설계자는 해당 하드웨어 회로 구조를 얻기 위해, 개선된 방법 절차를 하드웨어 회로에 프로그래밍한다. 따라서 방법 절차의 개선은 하드웨어 엔티티 모듈을 사용하여 구현할 수 없다고 말할 수 없다. 예를 들어, 프로그래머블 논리 디바이스(Programmable Logic Device, PLD)(예컨대, a Field Programmable Gate Array (FPGA))는 그러한 집적 회로이며, 그 논리 함수는 사용자 프로그래밍 디바이스에 의해 결정된다. 설계자는 칩 제조업체가 전용 집적 회로 칩을 설계하고 제조하도록 요청하지 않고도 디지털 시스템을 PLD에 "통합"하기 위해 스스로 프로그래밍한다. 더욱이, 현재, 프로그래밍은 집적 회로 칩을 수동으로 제조하는 대신, "논리 컴파일러" 소프트웨어를 사용함으로써 대부분 구현된다. "논리 컴파일러" 소프트웨어는 프로그램 개발 및 작성에 사용되는 소프트웨어 컴파일러와 유사하며, 또한 컴파일 이전의 원본 코드는, 하드웨어 기술 언어(Hardware Description Language, HDL)로 지칭되는 특정 프로그래밍 언어로 작성될 필요가 있다. ABEL(Advanced Boolean Expression Language), AHDL(Altera Hardware Description Language), Confluence, CUPL(Cornell University Programming Language), HDCal, JHDL(Java Hardware Description Language), 라바(Lava), 롤라(Lola), MyHDL, PALASM 및 RHDL(Ruby Hardware Description Language)와 같은 HDL의 많은 유형이 있는데, 그 중에서도 VHDL(Very-High-Speed Integrated Circuit Hardware Description Language) 및 Verilog가 현재 가장 일반적으로 사용된다. 또한 해당 기술분야의 통상의 기술자는 논리 방법 절차를 구현하기 위한 하드웨어 회로가 상기 몇몇 하드웨어 기술 언어를 사용하고 집적 회로에 프로그래밍하는 방법 절차를 약간 논리적으로 프로그래밍함으로써, 쉽게 얻을 수 있음을 알아야 한다.
컨트롤러는 임의의 적절한 방식으로 구현될 수 있다. 예를 들어, 컨트롤러는 마이크로 프로세서 또는 프로세서의 형태, 마이크로 프로세서 또는 프로세서에 의해 실행 가능한 (소프트웨어 또는 펌웨어와 같은) 컴퓨터 판독 가능 프로그램 코드를 저장하는 컴퓨터 판독 가능 매체, 논리 게이트, 스위치, ASIC(Application Specific Integrated Circuit), 프로그래머블 로직 컨트롤러(programmable logic controller) 및 임베디드 마이크로 컨트롤러를 이용할 수 있다. 컨트롤러의 예들은 이하의 마이크로 컨트롤러를 포함하지만, 이에 제한되지 않는다: ARC 625D, Atmel AT91SAM, Microchip PIC18F26K20, 및 Silicone Labs C8051F320. 메모리의 컨트롤러는 또한 메모리의 컨트롤 로직의 부분으로서 구현될 수 있다. 해당 기술분야의 통상의 기술자는 순수 컴퓨터 판독 가능 프로그램 코드에 의해 컨트롤러를 구현하는 것 이외에도, 컨트롤러가 논리 게이트, 스위치, ASIC, 프로그래머블 로직 컨트롤러 및 내장된 마이크로 컨트롤러의 형태로 동일한 기능을 구현할 수 있도록, 방법 단계가 논리적으로 프로그래밍되는 것을 이해한다. 그러므로, 이러한 컨트롤러는 하드웨어 구성요소로 간주될 수 있으며, 또한 다양한 기능을 구현하기 위해 여기에 포함된 장치는 하드웨어 구성요소 내부의 구조로 간주될 수 있다. 대안적으로, 다양한 기능을 구현하기 위한 장치는 방법을 구현하기 위한 소프트웨어 모듈과 하드웨어 구성요소 내부의 구조 둘 다로 간주될 수 있다.
전술한 실시예에서 설명된 시스템, 장치, 모듈 또는 유닛은 구체적으로 컴퓨터 칩 또는 엔티티에 의해 구현될 수 있거나, 특정 기능을 가진 제품에 의해 구현될 수 있다. 전형적인 구현 디바이스는 컴퓨터이다. 예를 들어, 컴퓨터는 개인용 컴퓨터, 랩톱 컴퓨터, 셀룰러 폰, 카메라 폰, 스마트 폰, PDA(personal digital assistant), 미디어 플레이어, 네비게이션 디바이스, 이메일 디바이스, 게임 콘솔, 태블릿 컴퓨터, 웨어러블 디바이스 또는 이들 디바이스의 임의의 조합일 수 있다.
설명의 용이성을 위해, 전술한 장치는 기능에 기초로 하는 다양한 모듈로 분리되고, 그 모듈은 별도로 설명된다. 물론 본 명세서의 하나 이상의 실시예가 구현될 때, 다양한 유닛의 기능은 하나 이상의 소프트웨어 및/또는 하드웨어에서 구현될 수 있다.
해당 기술분야의 통상의 기술자는 본 명세서의 실시예가 방법, 시스템 또는 컴퓨터 프로그램 제품으로 제공될 수 있다는 것을 이해해야 한다. 따라서 본 명세서의 실시예는 완전한 하드웨어 실시예, 완전한 소프트웨어 실시예 또는 소프트웨어와 하드웨어를 결합한 실시예의 형태로 구현될 수 있다. 또한, 본 명세서의 실시예는 컴퓨터 사용 가능한 프로그램 코드를 포함하는 하나 이상의 컴퓨터 사용 가능한 저장 매체(자기 디스크 메모리, CD-ROM, 광학 메모리 등을 포함하지만 이에 제한되지 않음)에 구현된 컴퓨터 프로그램 제품의 형태가 될 수 있다.
본 명세서는 본 발명의 실시예에 따라 방법, 디바이스(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 설명된다. 컴퓨터 프로그램 명령어는 흐름도 및/또는 블록도의 각 프로세스 및/또는 블록과 흐름도 및/또는 블록도의 각 프로세스 및/또는 블록의 조합을 구현하기 위해 사용될 수 있음은 이해되어야 한다. 흐름도의 하나 이상의 프로세스 및/또는 블록도의 하나 이상의 블록에서 특정 기능을 구현하기 위한 장치가 컴퓨터 또는 기타 프로그래밍 가능한 데이터 프로세싱 디바이스의 프로세서에 의해 실행된 명령어에 의해 생성되도록 하기 위해, 컴퓨터 프로그램 명령어는 기계를 생성하기 위해 범용 컴퓨터, 특수 목적 컴퓨터, 임베디드 프로세서 또는 다른 프로그래머블 데이터 프로세싱 디바이스의 프로세서에 제공될 수 있다.
컴퓨터 프로그램 명령어는 또한 컴퓨터나 다른 프로그래머블 데이터 프로세싱 디바이스가 특정 방식으로 작동하도록 유도할 수 있는 컴퓨터 판독 가능 메모리에 저장될 수 있어, 컴퓨터 판독 가능 메모리에 저장된 명령어가 명령어 장치를 포함한 제조 물품을 생성한다. 명령어 장치는 흐름도에서 하나 이상의 프로세서 및/또는 블록도에서 하나 이상의 블록에 의해 지정된 기능을 구현한다.
또한 컴퓨터 프로그램 명령어는 컴퓨터나 다른 프로그래머블 데이터 프로세싱 디바이스에 로드될 수 있어, 컴퓨터 또는 다른 프로그래머블 디바이스에서 일련의 작동 단계가 수행되므로, 컴퓨터-구현 프로세싱을 생성한다. 그러므로, 컴퓨터 또는 다른 프로그래머블 데이터 프로세싱 디바이스에서 실행된 명령어는 흐름도에서 하나 이상의 프로세서 및/또는 블록도에서 하나 이상의 블록에 지정된 기능을 구현하기 위해 단계를 제공한다.
전형적인 구성에서 컴퓨팅 디바이스는 하나 이상의 중앙처리장치(CPU), 입/출력 인터페이스, 네트워크 인터페이스 및 메모리를 포함한다.
메모리는 휘발성 메모리, RAM(Random Access Memory) 및/또는 비-휘발성 메모리(예컨대, ROM(Read-Only Memory)) 또는 플래시 RAM과 같은 컴퓨터 판독 가능 매체를 포함할 수 있다. 메모리는 컴퓨터 판독 가능 매체의 예이다.
컴퓨터 판독 가능 매체는 비-휘발성 및 휘발성 매체뿐만 아니라, 이동식 매체와 비-이동식 매체를 포함하고, 임의의 방법 및 기술에 의해 정보를 저장할 수 있다. 정보는 컴퓨터 판독 가능 명령어, 데이터 구조 및 프로그램 또는 기타 데이터의 모듈일 수 있다. 컴퓨터의 저장 매체의 예는 위상 변화 메모리(phase change memory, PRAM), 정적 RAM(Static Random Access Memory, SRAM), 동적 RAM(Dynamic Random Access Memory, DRAM), 다른 유형의 RAM, ROM, EEPROM(electrically erasable programmable read-only memory), 플래시 메모리 또는 다른 메모리 기술, CD-ROM, DVD 또는 다른 광 저장소, 카세트 테이프, 자기 테이프/자기 디스크 저장소 또는 다른 자기 저장 디바이스 또는 임의의 다른 비-전송 매체(non-transmission medium)를 포함하지만, 이에 제한되지 않으며, 컴퓨터 디바이스에 접근할 수 있는 정보를 저장하는데 사용될 수 있다. 여기에 있는 정의에 따르면, 컴퓨터 판독 가능 매체는 변조된 데이터 신호 및 캐리어(carrier)와 같은 일시적 컴퓨터 판독 가능 매체(computer-readable transitory medium)를 포함하지 않는다.
프로세서, 방법, 상품 또는 구성요소의 시리즈를 포함하는 디바이스는 구성요소만을 포함하지 않으며, 명시적으로 열거되지 않은 다른 구성요소도 포함할 수 있고, 나아가 프로세서, 방법, 상품 또는 디바이스에 고유한 구성요소를 포함하도록, 용어 "포함하다(include)", "구성하다(comprise)" 또는 임의의 다른 변형은 비-배타적 포함을 커버하도록 의도된 것임은 더 명심해야 한다. 더욱 제한하는 것 없이, "~을 포함하는 것"에 의해 정의되는 구성요소는 구성요소를 포함한 프로세스, 방법, 상품 또는 디바이스가 다른 동일한 구성요소를 가지는 것을 배제하지 않는다.
본 명세서는 컴퓨터, 예를 들어 프로그램 모듈에 의해 실행된 컴퓨터 실행 가능한 명령어의 일반적인 문맥에서 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 실행하거나 특정 추상적인 데이터 유형을 구현하기 위하여, 루틴(routine), 프로그램, 객체(object), 컴포넌트(component), 데이터 구조 및 이와 유사한 것을 포함한다. 또한, 본 명세서는 분산된 컴퓨팅 환경에서 구현될 수 있다. 분산된 컴퓨팅 환경에서, 태스크는 통신 네트워크를 통해 연결된 원격 프로세싱 디바이스를 사용함으로써 실행될 수 있다. 분산된 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및 저장 디바이스를 포함하는 원격 컴퓨터 저장 매체에 위치할 수 있다.
본 설명의 다양한 실시예들은 모두 진행형의 형식으로 기술된다. 실시예 중에서 동일하거나 유사한 부분은, 서로를 참조하여 얻어질 수 있다. 각각의 실시예에 대해, 다른 실시예와 다른 부분이 주로 설명된다. 특히, 시스템 실시예는 실질적으로 방법 실시예와 유사하므로, 상대적으로 간단히 설명되고, 관련 부분에 대해서는, 방법 실시예에서 부분의 기술 내용을 참고한다.
전술한 설명은 오직 본 명세서의 실시예이며, 본 출원을 제한하지 않는다. 해당 기술분야의 통상의 기술자에게, 본 출원은 다양한 교체 및 변형을 가질 수 있다. 본 출원의 주요 의미와 원리에서 벗어나지 않고 이루어진, 임의의 변경, 동등한 대체물, 개선 및 이와 유사한 것은 본 출원의 청구 범위에 포함되어야 한다.

Claims (23)

  1. 위험 주소 식별 방법에 있어서,
    입력 주소에 대응하는 주소 단어 시퀀스를 획득하는 것;
    상기 주소 단어 시퀀스에 포함된 다양한 주소 단어에서, 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어를 결정하는 것;
    상기 결정된 주소 단어에 따라 상기 주소 단어 시퀀스와 대응하는 관측 시퀀스를 생성하는 것;
    결정 벡터를 확보하기 위해, 주소 단어 전후의 의미론적 학습에 기초하여 확보된 은닉 마코브 모델을 사용하여 상기 관측 시퀀스를 처리하는 것 - 상기 결정 벡터는 상기 주소 단어 시퀀스에 포함된 상기 다양한 주소 단어와 일치하는 상기 위험 주소의 확률을 나타냄 -; 및
    상기 결정 벡터 상에 분류 결정을 내림으로써, 상기 입력 주소가 위험 주소인지 여부를 식별하는 것을 포함하는, 위험 주소 식별 방법.
  2. 제1항에 있어서,
    입력 주소에 대응하는 주소 단어 시퀀스를 획득하는 것은 구체적으로,
    입력 주소를 수신하는 것;
    상기 입력 주소에 대응하는 주소 단어 시퀀스를 확보하기 위해, 상기 입력 주소에 대해 데이터 클리닝 처리 및 단어 분할 처리를 수행하는 것을 포함하는, 위험 주소 식별 방법.
  3. 제1항에 있어서,
    상기 주소 단어 시퀀스에 포함된 다양한 주소 단어에서, 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어를 결정하는 것은 구체적으로,
    각 위험 주소에 대응하는 위험 단어를 사용하여 상기 주소 단어 시퀀스에 있는 상기 다양한 주소 단어와 각각 매칭시키는 것; 및
    상기 주소 단어 중 하나가 성공적으로 매칭되면, 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어와 동일한 것으로 라벨링하고, 결정하는 것을 포함하는, 위험 주소 식별 방법.
  4. 제3항에 있어서,
    상기 주소 단어 시퀀스에 포함된 다양한 주소 단어에서, 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어를 결정하는 것은,
    성공적으로 매칭되는 주소 단어가 없으면, 상기 입력 주소는 위험 주소가 아닌 것으로 결정하는 것을 더 포함하는, 위험 주소 식별 방법.
  5. 제3항에 있어서,
    상기 결정된 주소 단어에 따라 상기 주소 단어 시퀀스와 대응하는 관측 시퀀스를 생성하는 것은 구체적으로,
    상기 결정된 주소 단어에 대해, 상기 주소 단어 시퀀스에서 상기 주소 단어와 관련된 단어 및 상기 주소 단어에 따라 상기 주소 단어 시퀀스에 대응하는 관측 시퀀스 생성하는 것 - 상기 관련된 단어는 상기 주소 단어 시퀀스에 있는 상기 주소 단어 전후의 상기 의미를 반영함 - 을 각각 수행하는 것을 포함하는, 위험 주소 식별 방법.
  6. 제1항에 있어서,
    주소 단어 전후의 의미론적 학습에 기초하여 은닉 마코브 모델을 확보하는 것은,
    사전 정의된 트레이닝 샘플에 따라 초기 파라미터를 추출하는 것 및 상기 초기 파라미터에 따라 은닉 마코브 모델 파라미터를 포함하는 초기 모델을 설정하는 것 -- 상기 트레이닝 샘플은 위험 주소 또는 비-위험 주소임 --;
    상기 트레이닝 샘플에 포함된 주소 단어와 상기 주소 단어 전후의 상기 의미에 따라 상기 트레이닝 샘플에 대응하는 관측 시퀀스를 생성하는 것; 및
    은닉 마코브 모델을 확보하기 위해, 상기 트레이닝 샘플에 대응하는 상기 관측 시퀀스 및 상기 초기 모델에 따라 상기 은닉 마코브 모델 파라미터를 트레이닝하는 것을 포함하는, 위험 주소 식별 방법.
  7. 제6항에 있어서,
    상기 초기 파라미터는 초기 확률 벡터 및 상태 전이 매트릭스를 포함하고,
    상기 사전 정의된 트레이닝 샘플에 따라 초기 파라미터를 추출하는 것은 구체적으로,
    복수의 사전 정의된 트레이닝 샘플에 기초하여, 상기 트레이닝 샘플에 포함된 주소 단어에 대한 확률 라벨링을 각각 수행함으로써 초기 확률 벡터를 확보하는 것; 및
    상기 트레이닝 샘플에 포함된 상기 주소 단어의 위험 단어와 비-위험 단어 사이의 상태 전이 확률에 따라 샘플 주소의 상태 전이 매트릭스를 확보하는 것을 포함하는, 위험 주소 식별 방법.
  8. 제6항에 있어서,
    상기 은닉 마코브 모델을 확보하기 위해, 상기 트레이닝 샘플에 대응하는 상기 관측 시퀀스 및 상기 초기 모델에 따라 상기 은닉 마코브 모델 파라미터를 트레이닝하는 것은 구체적으로,
    은닉 마코브 모델을 확보하기 위해 상기 은닉 마코브 모델 파라미터를 트레이닝하도록, 상기 초기 모델 및 상기 트레이닝 샘플에 대응하는 상기 관측 시퀀스에 따라, Baum-Welch 알고리즘을 사용하는 것을 포함하는, 위험 주소 식별 방법.
  9. 제1항에 있어서,
    결정 벡터를 확보하기 위해, 주소 단어 전후의 의미론적 학습에 기초하여 획득된 은닉 마코브 모델을 사용하여 상기 관측 시퀀스를 처리하는 것은 구체적으로,
    결정 벡터를 얻기 위해, 주소 단어 전후의 의미론적 학습에 의해 확보된 상기 은닉 마코브 모델과 Viterbi 알고리즘을 사용하여 상기 관측 시퀀스를 처리하는 것을 포함하는, 위험 주소 식별 방법.
  10. 제1항에 있어서,
    상기 결정 벡터 상에 분류 결정을 내리는 것은 구체적으로,
    트레이닝을 통해 확보된 지원 벡터 기계(support vector machine, SVM) 모델을 사용하여 상기 결정 벡터 상에 분류 결정을 내리는 것을 포함하는, 위험 주소 식별 방법.
  11. 제10항에 있어서,
    트레이닝을 통해 상기 지원 벡터 기계 모델을 확보하는 것은,
    지원 벡터 기계를 위한 트레이닝 샘플을 획득하는 것;
    상기 지원 벡터 기계의 상기 트레이닝 샘플에 대응하는 샘플 피처 공간을 확보하기 위해, 상기 지원 벡터 기계의 상기 트레이닝 샘플을 고-차원 피처 공간에 매핑하는 것;
    상기 샘플 피처 공간으로부터, 샘플 피처를 나타내는 파라미터를 획득하고, 상기 샘플 피처의 상기 파라미터에 따라 상기 샘플 피처의 카테고리를 결정하기 위한 분별 함수를 설정하는 것; 및
    SVM 모델을 확보하기 위해, 상기 지원 벡터 기계의 상기 트레이닝 샘플에 기초하여 상기 분별 함수에서 대응하는 SVM 모델 파라미터를 트레이닝하는 것을 포함하는, 위험 주소 식별 방법.
  12. 위험 주소 식별 장치에 있어서,
    입력 주소에 대응하는 주소 단어 시퀀스를 획득하는, 수신 모듈;
    상기 주소 단어 시퀀스에 포함된 다양한 주소 단어에서 각 위험 주소와 대응하는 위험 단어와 일치하는 주소 단어를 결정하는, 매칭 모듈;
    상기 결정된 주소 단어에 따라 상기 주소 단어 시퀀스와 대응하는 관측 시퀀스를 생성하는, 생성 모듈;
    결정 벡터를 확보하기 위해 주소 단어 전후의 의미론적 학습에 기초하여 확보된 은닉 마코브 모델을 사용하여 상기 관측 시퀀스를 처리하는, 라벨링 모듈 - 상기 결정 벡터는 상기 주소 단어 시퀀스에 포함된 상기 다양한 주소 단어와 일치하는 상기 위험 주소의 확률을 나타냄-; 및
    상기 결정 벡터에 대한 분류 결정을 내림으로써 상기 입력 주소가 위험 주소인지 여부를 식별하는, 식별 모듈을 포함하는, 위험 주소 식별 장치.
  13. 제12항에 있어서,
    입력 주소에 대응하는 주소 단어 시퀀스를 획득하는, 상기 수신 모듈은 구체적으로,
    입력 주소를 수신하는 수신 모듈; 및
    상기 입력 주소에 대응하는 주소 단어 시퀀스를 확보하기 위해, 상기 입력 주소에 대해 데이터 클리닝 처리 및 단어 분할 처리를 수행하는 것을 포함하는, 위험 주소 식별 장치.
  14. 제12항에 있어서,
    상기 주소 단어 시퀀스에 포함된 다양한 주소 단어에서 각 위험 주소와 대응하는 위험 단어와 일치하는 주소 단어를 결정하는, 상기 매칭 모듈은 구체적으로,
    각 위험 주소에 대응하는 위험 단어를 사용하여 상기 주소 단어 시퀀스에 있는 상기 다양한 주소 단어와 각각 매칭시키는 것; 및
    상기 주소 단어 중 하나가 성공적으로 매칭되면, 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어와 동일한 것으로 라벨링하고, 결정하는 것을 포함하는, 위험 주소 식별 장치.
  15. 제14항에 있어서,
    상기 주소 단어 시퀀스에 포함된 다양한 주소 단어에서, 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어를 결정하는 상기 매칭 모듈은,
    성공적으로 매칭되는 주소 단어가 없으면, 상기 입력 주소는 위험 주소가 아닌 것으로 결정하는 것을 더 포함하는, 위험 주소 식별 장치.
  16. 제14항에 있어서,
    상기 결정된 주소 단어에 따라 상기 주소 단어 시퀀스와 대응하는 관측 시퀀스를 생성하는, 상기 생성 모듈은 구체적으로,
    상기 결정된 주소 단어에 대해, 상기 주소 단어 시퀀스에서 상기 주소 단어와 관련된 단어 및 상기 주소 단어에 따라 상기 주소 단어 시퀀스에 대응하는 관측 시퀀스 생성하는 것 - 상기 관련된 단어는 상기 주소 단어 시퀀스에 있는 상기 주소 단어 전후의 상기 의미를 반영함 - 을 각각 수행하는 것을 포함하는, 위험 주소 식별 장치.
  17. 제12항에 있어서,
    주소 단어 전후의 의미론적 학습에 기초하여 은닉 마코브 모델을 확보하는 것은,
    사전 정의된 트레이닝 샘플에 따라 초기 파라미터를 추출하는 것 및 상기 초기 파라미터에 따라 은닉 마코브 모델 파라미터를 포함하는 초기 모델을 설정하는 것 -- 상기 트레이닝 샘플은 위험 주소 또는 비-위험 주소임 --;
    상기 트레이닝 샘플에 포함된 주소 단어와 상기 주소 단어 전후의 상기 의미에 따라 상기 트레이닝 샘플에 대응하는 관측 시퀀스를 생성하는 것; 및
    은닉 마코브 모델을 확보하기 위해, 상기 트레이닝 샘플에 대응하는 상기 관측 시퀀스 및 상기 초기 모델에 따라 상기 은닉 마코브 모델 파라미터를 트레이닝하는 것을 포함하는, 위험 주소 식별 장치.
  18. 제17항에 있어서,
    상기 초기 파라미터는 초기 확률 벡터 및 상태 전이 매트릭스를 포함하고,
    사전 정의된 트레이닝 샘플에 따라 초기 파라미터를 추출하는 것은 구체적으로,
    복수의 사전 정의된 트레이닝 샘플에 기초하여, 상기 트레이닝 샘플에 포함된 주소 단어에 대한 확률 라벨링을 각각 수행함으로써 초기 확률 벡터를 확보하는 것; 및
    상기 트레이닝 샘플에 포함된 상기 주소 단어의 위험 단어와 비-위험 단어 사이의 상태 전이 확률에 따라 샘플 주소의 상태 전이 매트릭스를 확보하는 것을 포함하는, 위험 주소 식별 장치.
  19. 제17항에 있어서,
    은닉 마코브 모델을 확보하기 위해, 상기 트레이닝 샘플에 대응하는 상기 관측 시퀀스 및 상기 초기 모델에 따라 상기 은닉 마코브 모델 파라미터를 트레이닝하는 것은 구체적으로,
    은닉 마코브 모델을 확보하기 위해 상기 은닉 마코브 모델 파라미터를 트레이닝하도록, 상기 초기 모델 및 상기 트레이닝 샘플에 대응하는 상기 관측 시퀀스에 따라, Baum-Welch 알고리즘을 사용하는 것을 포함하는, 위험 주소 식별 장치.
  20. 제12항에 있어서,
    결정 벡터를 확보하기 위해, 주소 단어 전후의 의미론적 학습에 기초하여 획득된 은닉 마코브 모델을 사용하여 상기 관측 시퀀스를 처리하는 상기 라벨링 모듈은 구체적으로,
    결정 벡터를 얻기 위해, 주소 단어 전후의 의미론적 학습에 의해 확보된 상기 은닉 마코브 모델과 Viterbi 알고리즘을 사용하여 상기 관측 시퀀스를 처리하는 것을 포함하는, 위험 주소 식별 장치.
  21. 제12항에 있어서,
    상기 결정 벡터 상에 분류 결정을 내리는, 상기 식별 모듈은 구체적으로,
    트레이닝을 통해 확보된 지원 벡터 기계(support vector machine, SVM) 모델을 사용하여 상기 결정 벡터 상에 분류 결정을 내리는 것을 포함하는, 위험 주소 식별 장치.
  22. 제21항에 있어서,
    트레이닝을 통해 상기 지원 벡터 기계 모델을 확보하는 것은,
    지원 벡터 기계를 위한 트레이닝 샘플을 획득하는 것;
    상기 지원 벡터 기계의 상기 트레이닝 샘플에 대응하는 샘플 피처 공간을 확보하기 위해, 상기 지원 벡터 기계의 상기 트레이닝 샘플을 고-차원 피처 공간에 매핑하는 것;
    상기 샘플 피처 공간으로부터, 샘플 피처를 나타내는 파라미터를 획득하고, 상기 샘플 피처의 상기 파라미터에 따라 상기 샘플 피처의 카테고리를 결정하기 위한 분별 함수를 설정하는 것; 및
    SVM 모델을 확보하기 위해, 상기 지원 벡터 기계의 상기 트레이닝 샘플에 기초하여 상기 분별 함수에서 대응하는 SVM 모델 파라미터를 트레이닝하는 것을 포함하는, 위험 주소 식별 장치.
  23. 전자 디바이스에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 접속하는 메모리- 상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어를 저장함- 를 포함하고,
    상기 명령어는 상기 적어도 하나의 프로세서에 의해, 상기 적어도 하나의 프로세서가:
    입력 주소에 대응하는 주소 단어 시퀀스를 획득하고;
    상기 주소 단어 시퀀스에 포함된 다양한 주소 단어에서 각 위험 주소에 대응하는 위험 단어와 일치하는 주소 단어를 결정하고;
    상기 결정된 주소 단어에 따라 상기 주소 단어 시퀀스에 대응하는 관측 시퀀스를 생성하고;
    결정 벡터를 확보하기 위해, 주소 단어 전후의 의미론적 학습에 기초하여 확보된 은닉 마코브 모델을 사용하여 상기 관측 시퀀스를 처리하고- 상기 결정 벡터는 상기 주소 단어 시퀀스에 포함된 상기 다양한 주소 단어와 일치하는 상기 위험 주소의 확률을 나타냄-; 및
    상기 결정 벡터에 대한 분류 결정을 내림으로써 상기 입력 주소가 위험 주소인지 여부를 식별하는 것을 가능하게 하는, 전자 디바이스.
KR1020197023966A 2017-07-05 2018-06-29 위험 주소 식별 방법, 장치 및 전자 디바이스 KR102244417B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710543805.4 2017-07-05
CN201710543805.4A CN107526967B (zh) 2017-07-05 2017-07-05 一种风险地址识别方法、装置以及电子设备
PCT/CN2018/093791 WO2019007288A1 (zh) 2017-07-05 2018-06-29 一种风险地址识别方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
KR20200015444A true KR20200015444A (ko) 2020-02-12
KR102244417B1 KR102244417B1 (ko) 2021-04-28

Family

ID=60748842

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197023966A KR102244417B1 (ko) 2017-07-05 2018-06-29 위험 주소 식별 방법, 장치 및 전자 디바이스

Country Status (10)

Country Link
US (2) US10762296B2 (ko)
EP (1) EP3637295B1 (ko)
JP (1) JP6894058B2 (ko)
KR (1) KR102244417B1 (ko)
CN (1) CN107526967B (ko)
MY (1) MY201873A (ko)
PH (1) PH12019501823A1 (ko)
SG (1) SG11201907079QA (ko)
TW (1) TWI682302B (ko)
WO (1) WO2019007288A1 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423883B (zh) * 2017-06-15 2020-04-07 创新先进技术有限公司 待处理业务的风险识别方法及装置、电子设备
CN107526967B (zh) * 2017-07-05 2020-06-02 阿里巴巴集团控股有限公司 一种风险地址识别方法、装置以及电子设备
CN108920457B (zh) * 2018-06-15 2022-01-04 腾讯大地通途(北京)科技有限公司 地址识别方法和装置及存储介质
CN108876545A (zh) * 2018-06-22 2018-11-23 北京小米移动软件有限公司 订单识别方法、装置和可读存储介质
CN109102303B (zh) * 2018-06-28 2021-06-08 招联消费金融有限公司 风险检测方法和相关装置
CN114119137B (zh) * 2018-06-29 2024-06-28 创新先进技术有限公司 风险控制方法和装置
CN108960645B (zh) * 2018-07-10 2020-11-13 创新先进技术有限公司 一种风险防控方法、系统及终端设备
CN109598000B (zh) * 2018-12-28 2023-06-16 百度在线网络技术(北京)有限公司 语义关系识别方法、装置、计算机设备和存储介质
CN111488334B (zh) * 2019-01-29 2023-04-14 阿里巴巴集团控股有限公司 数据处理方法及电子设备
CN110322252B (zh) * 2019-05-30 2023-07-04 创新先进技术有限公司 风险主体识别方法以及装置
CN110335115A (zh) * 2019-07-01 2019-10-15 阿里巴巴集团控股有限公司 一种业务订单处理方法及装置
CN110348730A (zh) * 2019-07-04 2019-10-18 创新奇智(南京)科技有限公司 风险用户判断方法及其系统、电子设备
CN112579713B (zh) * 2019-09-29 2023-11-21 中国移动通信集团辽宁有限公司 地址识别方法、装置、计算设备及计算机存储介质
US11132512B2 (en) * 2019-11-08 2021-09-28 International Business Machines Corporation Multi-perspective, multi-task neural network model for matching text to program code
CN112988989B (zh) * 2019-12-18 2022-08-12 中国移动通信集团四川有限公司 一种地名地址匹配方法及服务器
CN113111232B (zh) * 2020-02-13 2024-09-06 北京明亿科技有限公司 基于正则表达式的接处警文本地址提取方法和装置
CN111738358B (zh) * 2020-07-24 2020-12-08 支付宝(杭州)信息技术有限公司 一种数据识别方法、装置、设备和可读介质
CN112818667B (zh) * 2021-01-29 2024-07-02 上海寻梦信息技术有限公司 地址纠正方法、系统、设备及存储介质
CN113343670B (zh) * 2021-05-26 2023-07-28 武汉大学 基于隐马尔可夫与分类算法耦合的地址文本要素提取方法
CN114528908B (zh) * 2021-12-31 2024-09-06 安徽航天信息有限公司 网络请求数据分类模型训练方法、分类方法及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080034073A1 (en) * 2006-08-07 2008-02-07 Mccloy Harry Murphey Method and system for identifying network addresses associated with suspect network destinations
KR101182965B1 (ko) * 2004-12-06 2012-09-21 소니 주식회사 데이터 학습용 방법 및 장치, 데이터 인식용 장치, 및 데이터 생성용 장치
US20140298460A1 (en) * 2013-03-26 2014-10-02 Microsoft Corporation Malicious uniform resource locator detection
CN105447204A (zh) * 2016-01-04 2016-03-30 北京百度网讯科技有限公司 网址识别方法和装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812300B2 (en) * 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
JP4497834B2 (ja) * 2003-04-28 2010-07-07 パイオニア株式会社 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
JP4545540B2 (ja) * 2004-10-01 2010-09-15 三菱電機株式会社 アクセス防止装置
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
EP2013791A4 (en) * 2006-05-04 2011-04-20 Jpmorgan Chase Bank Na SYSTEM AND METHOD FOR RESOLUTION AND FILTERING SERVICES OF LIMITED PARTICIPANTS
US7668921B2 (en) * 2006-05-30 2010-02-23 Xerox Corporation Method and system for phishing detection
WO2008004663A1 (fr) * 2006-07-07 2008-01-10 Nec Corporation Dispositif de mise à jour de modèle de langage, procédé de mise à jour de modèle de langage, et programme de mise à jour de modèle de langage
US7984500B1 (en) * 2006-10-05 2011-07-19 Amazon Technologies, Inc. Detecting fraudulent activity by analysis of information requests
KR100897553B1 (ko) * 2007-01-04 2009-05-15 삼성전자주식회사 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치
US8805861B2 (en) * 2008-12-09 2014-08-12 Google Inc. Methods and systems to train models to extract and integrate information from data sources
CN101923618B (zh) * 2010-08-19 2011-12-21 中国航天科技集团公司第七一0研究所 一种基于隐马尔可夫模型的汇编指令级漏洞检测方法
US8468167B2 (en) * 2010-10-25 2013-06-18 Corelogic, Inc. Automatic data validation and correction
CN102339320B (zh) * 2011-11-04 2013-08-28 华为数字技术(成都)有限公司 恶意网页的识别方法以及识别装置
US9275339B2 (en) * 2012-04-24 2016-03-01 Raytheon Company System and method for probabilistic name matching
CN103810425B (zh) * 2012-11-13 2015-09-30 腾讯科技(深圳)有限公司 恶意网址的检测方法及装置
TWI461952B (zh) * 2012-12-26 2014-11-21 Univ Nat Taiwan Science Tech 惡意程式偵測方法與系統
CN103220302A (zh) * 2013-05-07 2013-07-24 腾讯科技(深圳)有限公司 恶意网址的访问防御方法和相关装置
CN103530562A (zh) * 2013-10-23 2014-01-22 腾讯科技(深圳)有限公司 一种恶意网站的识别方法和装置
CN104217160B (zh) * 2014-09-19 2017-11-28 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
CN106205220A (zh) * 2015-01-07 2016-12-07 江苏理工学院 空中交通管制方法
US10049099B2 (en) * 2015-04-10 2018-08-14 Facebook, Inc. Spell correction with hidden markov models on online social networks
CN104766014B (zh) * 2015-04-30 2017-12-01 安一恒通(北京)科技有限公司 用于检测恶意网址的方法和系统
CN106296195A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN105574146A (zh) * 2015-12-15 2016-05-11 北京奇虎科技有限公司 网址拦截方法及装置
CN106682502B (zh) * 2016-12-13 2019-07-19 重庆邮电大学 基于隐马尔可夫和概率推断的入侵意图识别系统及方法
CN107526967B (zh) * 2017-07-05 2020-06-02 阿里巴巴集团控股有限公司 一种风险地址识别方法、装置以及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101182965B1 (ko) * 2004-12-06 2012-09-21 소니 주식회사 데이터 학습용 방법 및 장치, 데이터 인식용 장치, 및 데이터 생성용 장치
US20080034073A1 (en) * 2006-08-07 2008-02-07 Mccloy Harry Murphey Method and system for identifying network addresses associated with suspect network destinations
US20140298460A1 (en) * 2013-03-26 2014-10-02 Microsoft Corporation Malicious uniform resource locator detection
CN105447204A (zh) * 2016-01-04 2016-03-30 北京百度网讯科技有限公司 网址识别方法和装置

Also Published As

Publication number Publication date
CN107526967B (zh) 2020-06-02
EP3637295A1 (en) 2020-04-15
SG11201907079QA (en) 2019-08-27
KR102244417B1 (ko) 2021-04-28
WO2019007288A1 (zh) 2019-01-10
JP6894058B2 (ja) 2021-06-23
PH12019501823A1 (en) 2019-10-07
US10699076B2 (en) 2020-06-30
CN107526967A (zh) 2017-12-29
EP3637295A4 (en) 2020-04-29
TWI682302B (zh) 2020-01-11
JP2020524314A (ja) 2020-08-13
US10762296B2 (en) 2020-09-01
US20200034426A1 (en) 2020-01-30
US20200167526A1 (en) 2020-05-28
TW201907325A (zh) 2019-02-16
EP3637295B1 (en) 2021-08-04
MY201873A (en) 2024-03-21

Similar Documents

Publication Publication Date Title
KR102244417B1 (ko) 위험 주소 식별 방법, 장치 및 전자 디바이스
RU2686590C1 (ru) Способ и устройство для сравнения схожих элементов высокоразмерных признаков изображений
CN110363049B (zh) 图形元素检测识别和类别确定的方法及装置
CN111858843B (zh) 一种文本分类方法及装置
US20210358570A1 (en) Method and system for claim scope labeling, retrieval and information labeling of gene sequence
WO2020005605A1 (en) Table detection in spreadsheet
US20230343327A1 (en) Intent recognition methods, apparatuses, and devices
CN112287071A (zh) 一种文本关系提取方法、装置及电子设备
US20210192137A1 (en) Information processing apparatus, information processing method, and computer-readable recording medium
CN111368902A (zh) 一种数据标注的方法及装置
CN107329964A (zh) 一种文本处理方法及装置
CN112651226B (zh) 基于依存句法树的知识解析系统及方法
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
CN104641367B (zh) 用于格式化电子字符序列的格式化模块、系统和方法
CN114254622B (zh) 一种意图识别方法和装置
JP5379813B2 (ja) データ抽出装置、データ抽出方法、及びプログラム
CN110399984B (zh) 一种信息的预测方法、系统以及电子设备
CN111711618A (zh) 一种风险地址识别方法、装置、设备和存储介质
CN118503454B (zh) 一种数据查询方法、设备、存储介质及计算机程序产品
CN107577659A (zh) 词向量处理方法、装置以及电子设备
CN112860958B (zh) 一种信息显示方法及装置
CN118036597B (zh) 基于自适应空间度量的结构化信息抽取方法、系统及介质
JP7209168B2 (ja) 文章抽出装置、プログラム
WO2024129366A1 (en) Model pre-training for user interface navigation
CN117131159A (zh) 一种提取敏感信息的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
GRNT Written decision to grant