KR101826329B1 - 스팸 전화 번호 결정 방법, 장치 및 시스템 - Google Patents

스팸 전화 번호 결정 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR101826329B1
KR101826329B1 KR1020167011668A KR20167011668A KR101826329B1 KR 101826329 B1 KR101826329 B1 KR 101826329B1 KR 1020167011668 A KR1020167011668 A KR 1020167011668A KR 20167011668 A KR20167011668 A KR 20167011668A KR 101826329 B1 KR101826329 B1 KR 101826329B1
Authority
KR
South Korea
Prior art keywords
spam
word
call
call record
keyword
Prior art date
Application number
KR1020167011668A
Other languages
English (en)
Other versions
KR20170018297A (ko
Inventor
키우핑 킨
지준 첸
페이 롱
Original Assignee
시아오미 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시아오미 아이엔씨. filed Critical 시아오미 아이엔씨.
Publication of KR20170018297A publication Critical patent/KR20170018297A/ko
Application granted granted Critical
Publication of KR101826329B1 publication Critical patent/KR101826329B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/66Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
    • H04M1/663Preventing unauthorised calls to a telephone set
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/436Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • H04M15/04Recording calls, or communications in printed, perforated or other permanent form
    • H04M15/06Recording class or number of calling, i.e. A-party or called party, i.e. B-party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2218Call detail recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2038Call context notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/55Aspects of automatic or semi-automatic exchanges related to network data storage and management
    • H04M2203/551Call history
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/60Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
    • H04M2203/6027Fraud preventions

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 스팸 전화 번호 결정 방법, 장치 및 시스템에 관한 것으로서 안전 기술 분야에 속한다. 상기 스팸 전화 번호 결정 방법은, 단말기로부터 대상 통화 기록을 획득하여 사전 결정된 개수의 대상 통화 기록이 포함되어 있는 통화 기록 집합을 얻는 단계; 통화 기록 집합 중의 N개 의심 번호를 획득하는 단계; 각 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어의 존재 여부를 검출하는 단계; 및 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정하는 단계;를 포함한다.

Description

스팸 전화 번호 결정 방법, 장치 및 시스템{METHOD, DEVICE AND SYSTEM FOR DETERMINING CRANK PHONE NUMBER}
본 발명은 출원번호가 201510408711.7이고 출원일자가 2015년 07월 13일인 중국 특허 출원에 기반하여 제출하였고 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 본 발명에 원용된다.
본 발명은 안전 기술 분야에 관한 것으로서, 특히는 스팸 전화 번호 결정 방법, 장치 및 시스템에 관한 것이다.
스팸 전화 번호는 일반적으로 보험 판촉 전화 번호, 부동산 중개업자 전화 번호와 사기 전화 번호를 포함할 수 있고, 이러한 스팸 전화 번호는 장기적으로 사람들의 정상적인 생활에 영향을 미치고 있다.
관련 기술에 따른 스팸 전화 번호 결정 방법에 의하면, 우선 수많은 사용자들이 단말기를 통하여 수신된 번호가 스팸 전화 번호인지 여부를 결정하고, 결정한 스팸 전화 번호를 서버로 업로드시키며, 서버에서는 수많은 사용자에 의해 결정된 스팸 전화 번호를 수집하여 스팸 전화 번호 리스트를 생성한다.
관련 기술적 문제를 해결하기 위하여, 본 발명의 실시예는 스팸 전화 번호 결정 방법, 장치 및 시스템을 제공하며, 상기 과제 해결 수단은 다음과 같다.
제1 양태에 의하면,
적어도 하나의 단말기로부터 대상 통화 기록을 획득하여 통화 기록 집합을 얻고, 통화 기록 집합에는 사전 결정된 개수의 대상 통화 기록이 포함되어 있으며, 각 대상 통화 기록에는 낯선 번호와 적어도 하나의 키워드가 포함되어 있고, 적어도 하나의 키워드는 단말기가 낯선 번호와 통화한 통화 내용 텍스트 데이터에 근거하여 얻은 것으로서 통화 내용 텍스트 데이터의 통화 주제를 표징하기 위한 것이며, 낯선 번호는 낯선 번호에 대응되는 단말기의 연락처 목록에 미저장된 번호인 단계;
통화 기록 집합 중의 N개 의심 번호를 획득하고, N개 의심 번호는 사전 결정된 개수의 대상 통화 기록에 포함되는 낯선 번호가 출현 횟수에 따라 내림차순으로 배열된, 배열순위 제N위까지의 낯선 번호인 단계;
각 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전(dictionary)에 기록된 스팸 특징단어의 존재 여부를 검출하는 단계; 및
어느 하나의 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어가 존재하면, 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정하는 단계;를 포함하는 스팸 전화 번호 결정 방법을 제공한다.
본 발명의 제1 양태에 의하면, 통화 기록 집합에 포함되는 수많은 전화 번호 중에서 스팸 전화 번호를 편리하고 빠르게 결정해낼 수 있어, 스팸 전화 번호의 획득 효율을 향상시킬 수 있다.
제1 양태와 결부하면, 제1 실현 가능한 양태에서
소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정하는 단계는,
제1 의심 전화 번호를 포함하는 대상 통화 기록으로 구성되는 대상 통화 기록 집합을 획득하고, 제1 의심 전화 번호는 어느 하나의 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호인 단계;
사전 설정된 스팸 특징단어와 스팸 유형의 대응관계에 근거하여, 제1 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 결정하고, 스팸 유형은 제1 의심 전화 번호의 스팸 목적을 표징하며, 제1 통화 기록은 대상 통화 기록 집합 중의 어느 하나의 통화 기록인 단계;
제1 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 제1 통화 기록의 스팸 유형으로 결정하는 단계;
대상 통화 기록 집합 중에서 각 스팸 유형에 대응하는 통화 기록의 수량을 통계하는 단계;
각 스팸 유형에 대응하는 통화 기록의 수량과 대상 통화 기록 집합 중의 통화 기록의 총수의 비례값에 근거하여, 각 스팸 유형이 대상 통화 기록 집합 중에서의 비례를 결정하는 단계; 및
대상 통화 기록 집합 중에서의 비례가 비례 임계값보다 큰 스팸 유형이 존재하면, 제1 의심 전화 번호를 스팸 전화 번호로 결정하는 단계;를 포함한다.
본 발명의 제1 양태의 제1 실현 가능한 양태에 의하면, 결정된 스팸 전화 번호의 정확성을 향상시킬 수 있다.
제1 실현 가능한 양태와 결부하면, 제2 실현 가능한 양태에서
상기 스팸 전화 번호 결정 방법은,
대상 통화 기록 집합 중의 비례가 가장 큰 스팸 유형을 스팸 전화 번호의 스팸 유형으로 하는 단계를 더 포함한다.
본 발명의 제1 양태의 제2 실현 가능한 양태에 의하면, 스팸 전화 번호의 스팸 유형을 결정할 수 있다.
제1 양태, 또는 제1 실현 가능한 양태 또는 제2 실현 가능한 양태와 결부하면, 제3 실현 가능한 양태에서
각 대상 통화 기록에 두 개의 전화 번호가 포함되어 있고, 두 개의 전화 번호 중에 낯선 번호가 포함되어 있으며,
통화 기록 집합 중의 N개 의심 번호를 획득하는 단계는,
통화 기록 집합에 대하여 반복 제거 처리를 진행하고, 반복 제거 처리는 적어도 두 개의 동일 유형의 통화 기록에 키워드를 가장 많이 포함하는 대상 통화 기록 이외의 통화 기록을 폐기하기 위한 것이며, 동일 유형의 통화 기록은 동일한 두 개의 전화 번호를 포함하는 대상 통화 기록인 단계; 및
처리 후의 통화 기록 집합 중의 N개 의심 번호를 획득하는 단계를 포함한다.
본 발명의 제1 양태의 제3 실현 가능한 양태에 의하면, 최종적으로 결정된 스팸 전화 번호의 정확성을 강화시킬 수 있다.
제2 양태에 의하면,
낯선 번호와 통화한 통화 음성 데이터와 통화 기록을 획득하고, 통화 기록에 낯선 번호가 포함되어 있으며, 낯선 번호는 연락처 목록에 미저장된 번호인 단계;
통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시키는 단계;
통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하고, 적어도 하나의 키워드는 통화 내용 텍스트 데이터의 통화 주제를 표징하는 단어인 단계;
적어도 하나의 키워드와 통화 기록에 근거하여 대상 통화 기록을 생성하고, 대상 통화 기록에 낯선 번호와 적어도 하나의 키워드가 포함되어 있는 단계; 및
대상 통화 기록을 서버로 제공하고, 서버는 대상 통화 기록 중의 낯선 번호와 적어도 하나의 키워드에 근거하여 낯선 번호가 스팸 전화 번호인지 여부를 결정하기 위한 것인 단계;를 포함하는 스팸 전화 번호 결정 방법을 제공한다.
본 발명의 제2 양태에 의하면, 서버로 하여금 통화 기록 집합에 포함되는 수많은 전화 번호 중에서 스팸 전화 번호를 편리하고 빠르게 결정해낼 수 있도록 하여, 스팸 전화 번호의 획득 효율을 향상시킬 수 있다.
제2 양태와 결부하면, 제1 실현 가능한 양태에서,
통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하는 단계는,
내용 텍스트 데이터에 대하여 단어 분할 처리를 진행하여 적어도 하나의 단어가 포함되어 있는 단어 분할 결과를 얻는 단계;
단어 분할 결과 중의 각 단어의 키워드 인자를 획득하고, 키워드 인자는 각 단어의 주제 상관성과 양의 상관관계를 가지고, 각 단어의 주제 상관성은 각 단어와 통화 내용 텍스트 데이터의 통화 주제와의 상관성 수준을 지시하기 위한 것인 단계;
키워드 인자의 크기에 따라 단어 분할 결과 중의 단어를 내림차순으로 배열하는 단계; 및
배열순위 제M위까지의 단어를 내용 텍스트 데이터의 키워드로 하는 단계를 포함한다.
본 발명의 제2 양태의 제1 실현 가능한 양태에 의하면, 획득된 키워드와 주제의 상관성 수준을 향상시킬 수 있다.
제1 실현 가능한 양태와 결부하면, 제2 실현 가능한 양태에서
단어 분할 결과 중의 각 단어의 키워드 인자를 획득하는 단계는,
사전 설정된 유형의 사전에 근거하여 단어 분할 결과 중의 각 단어의 유형을 획득하고, 유형은 각 단어의 특징을 표징하기 위한 것인 단계;
사전 설정된 유형과 가중치의 대응관계에 근거하여, 단어 분할 결과 중의 각 단어의 유형에 따라 각 단어를 위하여 가중치를 할당하는 단계;
단어 분할 결과 중의 각 단어의 단어 사용 빈도를 획득하는 단계; 및
각 단어의 가중치와 단어 사용 빈도의 곱셈값을 각 단어의 키워드 인자로 하는 단계;를 포함한다.
본 발명의 제2 실현 가능한 양태에 의하면, 신뢰도가 비교적 높은 키워드 인자를 획득할 수 있어, 키워드 인자의 신뢰성을 향상시킬 수 있다.
제2 실현 가능한 양태와 결부하면, 제3 실현 가능한 양태에서
단어 분할 결과 중의 각 단어의 키워드 인자를 획득하는 단계는,
단어 분할 결과 중의 유형이 어조사, 인칭대명사 및 수식사인 단어를 제거하고 처리 후의 단어 분할 결과를 얻는 단계; 및
처리 후의 단어 분할 결과 중의 각 단어의 키워드 인자를 획득하는 단계;를 포함한다.
본 발명의 제2 양태의 제3 실현 가능한 양태에 의하면, 단말기의 계산량을 감소시키고, 키워드 인자의 신뢰도를 향상시킬 수 있다.
제3 양태에 의하면,
적어도 하나의 단말기로부터 대상 통화 기록을 획득하여 통화 기록 집합을 얻도록 구성되고, 통화 기록 집합에는 사전 결정된 개수의 대상 통화 기록이 포함되어 있으며, 각 대상 통화 기록에는 낯선 번호와 적어도 하나의 키워드가 포함되어 있고, 적어도 하나의 키워드는 단말기가 낯선 번호와 통화한 통화 내용 텍스트 데이터에 근거하여 얻은 것으로서 통화 내용 텍스트 데이터의 통화 주제를 표징하기 위한 것이며, 낯선 번호는 낯선 번호에 대응되는 단말기의 연락처 목록에 미저장된 번호인 집합 획득 모듈;
통화 기록 집합 중의 N개 의심 번호를 획득하도록 구성되고, N개 의심 번호는 사전 결정된 개수의 대상 통화 기록에 포함되는 낯선 번호가 출현 횟수에 따라 내림차순으로 배열된, 배열순위 제N위까지의 낯선 번호인 번호 획득 모듈;
각 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어의 존재 여부를 검출하도록 구성되는 검출 모듈; 및
어느 하나의 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어가 존재하면, 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정하도록 구성되는 결정 모듈;을 포함하는 스팸 전화 번호 결정 장치를 제공한다.
제3 양태와 결부하면, 제1 실현 가능한 양태에서,
결정 모듈은,
제1 의심 전화 번호를 포함하는 대상 통화 기록으로 구성되는 대상 통화 기록 집합을 획득하도록 구성되고, 제1 의심 전화 번호는 어느 하나의 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호인 집합 획득 서브 모듈;
사전 설정된 스팸 특징단어와 스팸 유형의 대응관계에 근거하여, 제1 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 결정하도록 구성되고, 스팸 유형은 제1 의심 전화 번호의 스팸 목적을 표징하며, 제1 통화 기록은 대상 통화 기록 집합 중의 어느 하나의 통화 기록인 특징단어 결정 서브 모듈;
제1 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 제1 통화 기록의 스팸 유형으로 결정하도록 구성되는 기록 결정 서브 모듈;
대상 통화 기록 집합 중에서 각 스팸 유형에 대응하는 통화 기록의 수량을 통계하도록 구성되는 통계 서브 모듈;
각 스팸 유형에 대응하는 통화 기록의 수량과 대상 통화 기록 집합 중의 통화 기록의 총수의 비례값에 근거하여, 각 스팸 유형이 대상 통화 기록 집합 중에서의 비례를 결정하도록 구성되는 비례 결정 서브 모듈; 및
대상 통화 기록 집합 중에서의 비례가 비례 임계값보다 큰 스팸 유형이 존재하면, 제1 의심 전화 번호를 스팸 전화 번호로 결정하도록 구성되는 번호 결정 서브 모듈;을 포함한다.
제1 실현 가능한 양태와 결부하면, 제2 실현 가능한 양태에서,
상기 스팸 전화 번호 결정 장치는,
대상 통화 기록 집합 중의 비례가 가장 큰 스팸 유형을 스팸 전화 번호의 스팸 유형으로 하도록 구성되는 유형 결정 모듈을 더 포함한다.
제3 양태, 또는 제1 실현 가능한 양태 또는 제2 실현 가능한 양태와 결부하면, 제3 실현 가능한 양태에서,
각 대상 통화 기록에 두 개의 전화 번호가 포함되어 있고, 두 개의 전화 번호 중에 낯선 번호가 포함되어 있으며,
번호 획득 모듈은, 통화 기록 집합에 대하여 반복 제거 처리를 진행하도록 구성되고, 반복 제거 처리는 적어도 두 개의 동일 유형의 통화 기록에 키워드를 가장 많이 포함하는 대상 통화 기록 이외의 통화 기록을 폐기하기 위한 것이며, 동일 유형의 통화 기록은 동일한 두 개의 전화 번호를 포함하는 대상 통화 기록이고; 처리 후의 통화 기록 집합 중의 N개 의심 번호를 획득하도록 구성된다.
제4 양태에 의하면,
낯선 번호와 통화한 통화 음성 데이터와 통화 기록을 획득하도록 구성되고, 통화 기록에 낯선 번호가 포함되어 있으며, 낯선 번호는 연락처 목록에 미저정된 번호인 단말기 획득 모듈;
통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시키도록 구성되는 전환 모듈;
통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하도록 구성되고, 적어도 하나의 키워드는 통화 내용 텍스트 데이터의 통화 주제를 표징하는 단어인 키워드 획득 모듈;
적어도 하나의 키워드와 통화 기록에 근거하여 대상 통화 기록을 생성하도록 구성되고, 대상 통화 기록에 낯선 번호와 적어도 하나의 키워드가 포함되어 있는 대상 생성 모듈; 및
대상 통화 기록을 서버로 제공하도록 구성되고, 서버는 대상 통화 기록 중의 낯선 번호와 적어도 하나의 키워드에 근거하여 낯선 번호가 스팸 전화 번호인지 여부를 결정하기 위한 기록 제공 모듈을 포함하는 스팸 전화 번호 결정 장치를 제공한다.
제4 양태와 결부하면, 제1 실현 가능한 양태에서,
키워드 획득 모듈은,
내용 텍스트 데이터에 대하여 단어 분할 처리를 진행하여 적어도 하나의 단어가 포함되어 있는 단어 분할 결과를 얻도록 구성되는 단어 분할 서브 모듈;
단어 분할 결과 중의 각 단어의 키워드 인자를 획득하도록 구성되고, 키워드 인자는 각 단어의 주제 상관성과 양의 상관관계를 가지고, 각 단어의 주제 상관성은 각 단어와 통화 내용 텍스트 데이터의 통화 주제와의 상관성 수준을 지시하기 위한 것인 인자 획득 서브 모듈;
키워드 인자의 크기에 따라 단어 분할 결과 중의 단어를 내림차순으로 배열하도록 구성되는 인자 정렬 서브 모듈; 및
배열순위 제M위까지의 단어를 내용 텍스트 데이터의 키워드로 하도록 구성되는 키워드 결정 서브 모듈;을 포함한다.
제1 실현 가능한 양태와 결부하면, 제2 실현 가능한 양태에서,
인자 획득 서브 모듈은, 사전 설정된 유형의 사전에 근거하여 단어 분할 결과 중의 각 단어의 유형을 획득하도록 구성되고, 유형은 각 단어의 특징을 표징하기 위한 것이며; 사전 설정된 유형과 가중치의 대응관계에 근거하여, 단어 분할 결과 중의 각 단어의 유형에 따라 각 단어를 위하여 가중치를 할당하도록 구성되고; 단어 분할 결과 중의 각 단어의 단어 사용 빈도를 획득하도록 구성되며; 각 단어의 가중치와 단어 사용 빈도의 곱셈값을 각 단어의 키워드 인자로 하도록 구성된다.
제2 실현 가능한 양태와 결부하면, 제3 실현 가능한 양태에서,
인자 획득 서브 모듈은, 단어 분할 결과 중의 유형이 어조사, 인칭대명사 및 수식사인 단어를 제거하고 처리 후의 단어 분할 결과를 얻도록 구성되고; 처리 후의 단어 분할 결과 중의 각 단어의 키워드 인자를 획득하도록 구성된다.
제5 양태에 의하면,
프로세서; 및
프로서세가 실행 가능한 인스트렉션을 저장하기 위한 메모리;를 포함하고,
프로세서는,
적어도 하나의 단말기로부터 대상 통화 기록을 획득하여 통화 기록 집합을 얻고, 통화 기록 집합에는 사전 결정된 개수의 대상 통화 기록이 포함되어 있으며, 각 대상 통화 기록에는 낯선 번호와 적어도 하나의 키워드가 포함되어 있고, 적어도 하나의 키워드는 단말기가 낯선 번호와 통화한 통화 내용 텍스트 데이터에 근거하여 얻은 것으로서 통화 내용 텍스트 데이터의 통화 주제를 표징하기 위한 것이며, 낯선 번호는 낯선 번호에 대응되는 단말기의 연락처 목록에 미저장된 번호이고;
통화 기록 집합 중의 N개 의심 번호를 획득하고, N개 의심 번호는 사전 결정된 개수의 대상 통화 기록에 포함되는 낯선 번호가 출현 횟수에 따라 내림차순으로 배열된, 배열순위 제N위까지의 낯선 번호이며;
각 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어의 존재 여부를 검출하고;
어느 하나의 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어가 존재하면, 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정하도록 구성되는 스팸 전화 번호 결정 장치를 제공한다.
제6 양태에 의하면,
프로세서; 및
프로서세가 실행 가능한 인스트렉션을 저장하기 위한 메모리;를 포함하고,
프로세서는,
낯선 번호와 통화한 통화 음성 데이터와 통화 기록을 획득하고, 통화 기록에 낯선 번호가 포함되어 있으며, 낯선 번호는 연락처 목록에 미저장된 번호이고;
통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시키며;
통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하고, 적어도 하나의 키워드는 통화 내용 텍스트 데이터의 통화 주제를 표징하는 단어이며;
적어도 하나의 키워드와 통화 기록에 근거하여 대상 통화 기록을 생성하고, 대상 통화 기록에 낯선 번호와 적어도 하나의 키워드가 포함되어 있으며;
대상 통화 기록을 서버로 제공하고, 서버는 대상 통화 기록 중의 낯선 번호와 적어도 하나의 키워드에 근거하여 낯선 번호가 스팸 전화 번호인지 여부를 결정하기 위한 것이 되도록 구성되는 스팸 전화 번호 결정 장치를 제공한다.
제7 양태에 의하면,
제3 양태에 의해 제공되는 스팸 전화 번호 결정 장치를 포함하는 서버; 및
제4 양태에 의해 제공되는 스팸 전화 번호 결정 장치를 포함하는 단말기;를 포함하는 스팸 전화 번호 결정 시스템을 제공한다.
제8 양태에 의하면,
제5 양태에 의해 제공되는 스팸 전화 번호 결정 장치를 포함하는 서버; 및
제6 양태에 의해 제공되는 스팸 전화 번호 결정 장치를 포함하는 단말기;를 포함하는 스팸 전화 번호 결정 시스템을 제공한다.
본 발명에 의해 제공된 과제 해결 수단은 하기와 같은 유익한 효과를 포함할 수 있다.
본 발명의 실시예에 따른 스팸 전화 번호 결정 방법, 장치 및 시스템에 의하면, 통화 기록 집합 중에서 출현 횟수가 가장 많은 N개 낯선 번호를 의심 번호로 결정하고, 의심 번호가 소재하는 대상 통화 기록에 포함되는, 통화 주제를 표징하는 단어인 키워드 중에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정함으로써, 통화 기록 집합에 포함되는 수많은 전화 번호 중에서 스팸 전화 번호를 편리하고 빠르게 결정해낼 수 있어, 스팸 전화 번호의 획득 효율을 향상시킬 수 있는 효과를 달성할 수 있다.
상기의 일반적인 설명과 후술되는 구체적인 설명은 단지 예시적인 것이며 본 발명을 한정하는 것이 아님을 이해해야 한다.
본 발명의 실시예를 더욱 명확하게 설명하기 위하여, 이하 실시예에 대한 설명에서 사용하게 되는 도면에 대하여 간단하게 소개하도록 한다. 이하 설명에 따른 도면은 본 발명의 일부 실시예일 뿐, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자들에 있어서, 창조적인 노력을 하지 않으면서 이러한 도면에 근거하여 기타 도면을 얻을 수 있는 것을 자명한 것이다.
도1은 본 발명의 각 실시예에 의해 제공되는 스팸 전화 번호 결정 방법에 따른 실시 환경의 모식도이다.
도2는 일 예시적 실시예에 근거하여 나타내는 하나의 스팸 전화 번호 결정 방법의 흐름도이다.
도3은 일 예시적 실시예에 근거하여 나타내는 다른 하나의 스팸 전화 번호 결정 방법의 흐름도이다.
도4a는 일 예시적 실시예에 근거하여 나타내는 또 다른 하나의 스팸 전화 번호 결정 방법의 흐름도이다.
도4b는 도4a에 의해 나타내는 스팸 전화 번호 결정 방법 중의 키워드를 획득하는 흐름도이다.
도4c은 도4a에 의해 나타내는 스팸 전화 번호 결정 방법 중의 키워드 인자를 획득하는 흐름도이다.
도4d는 도4a에 의해 나타내는 스팸 전화 번호 결정 방법 중의 스팸 전화 번호를 결정하는 흐름도이다.
도5a는 일 예시적 실시예에 근거하여 나타내는 스팸 전화 번호 결정 장치의 블록도이다.
도5b는 도5a에 의해 나타내는 스팸 전화 번호 결정 장치 중의 결정 모듈의 블록도이다.
도5c는 본 발명의 실시예에 의해 제공되는 다른 하나의 스팸 전화 번호 결정 장치의 블록도이다.
도6a는 일 예시적 실시예에 근거하여 나타내는 다른 하나의 스팸 전화 번호 결정 장치의 블록도이다.
도6b는 도6a에 의해 나타내는 스팸 전화 번호 결정 장치 중의 키워드 획득 모듈의 블록도이다.
도7은 일 예시적 실시예에 근거하여 나타내는 스팸 전화 번호 결정 장치의 블록도이다.
도8은 일 예시적 실시예에 근거하여 나타내는 스팸 전화 번호 결정 장치의 블록도이다.
도9는 일 예시적 실시예에 근거하여 나타내는 스팸 전화 번호 결정 시스템의 블록도이다.
도10은 일 예시적 실시예에 근거하여 나타내는 스팸 전화 번호 결정 시스템의 블록도이다.
이 부분의 도면은 명세서의 일부분으로서 명세서 전체를 구성하며 본 발명에 부합하는 실시예를 예시하여 본 발명의 원리를 해석하기 위한 것이다.
본 발명의 목적, 과제 해결 수단 및 장점이 더욱 명확해지도록, 이하 도면과 결부하여 본 발명에 대하여 더욱 구체적으로 설명하도록 한다. 물론, 기재된 실시예는 단지 본 발명의 일부 실시예일 뿐, 전부 실시예가 아니다. 본 발명의 실시예를 기반으로, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자들에 의해 창조적인 노력을 하지 않으면서 획득한 모든 기타 실시예는 모두 본 발명의 보호범위에 포함되어야 할 것이다.
도1은 본 발명의 각 실시예에 의해 제공되는 스팸 전화 번호 결정 방법에 따른 실시 환경의 모식도로서, 상기 실시 환경은 단말기(11) 및 서버(12)를 포함할 수 있다.
단말기(11)는 휴대폰, 태블릿 PC, 랩톱 휴대형 컴퓨터 및 데스크톱 컴퓨터 등일 수 있다.
서버(12)는 한 대의 서버일 수 있거나 또는 몇 대의 서버로 구성되는 서버 클러스터일 수 있거나 또는 하나의 클라우드 컴퓨팅 서비스 센터일 수 있다.
단말기(11) 및 서버(12) 사이에는 유선 연결 또는 무선 연결을 구축할 수 있다. 이 밖에, 본 실시 환경은 단말기(11)의 수량에 대하여 한정하지 않는다.
도2는 일 예시적 실시예에 근거하여 나타내는 하나의 스팸 전화 번호 결정 방법의 흐름도로서, 본 실시예는 상기 스팸 전화 번호 결정 방법을 도1에 도시되는 실시 환경 중의 서버(12)에 응용하는 것을 예로 들어 설명하며, 상기 스팸 전화 번호 결정 방법은 다음과 같은 몇몇 단계를 포함할 수 있다.
단계 201에서는, 적어도 하나의 단말기로부터 대상 통화 기록을 획득하여 통화 기록 집합을 얻고, 통화 기록 집합에는 사전 결정된 개수의 대상 통화 기록이 포함되어 있으며, 각 대상 통화 기록에는 낯선 번호와 적어도 하나의 키워드가 포함되어 있고, 적어도 하나의 키워드는 단말기가 낯선 번호와 통화한 통화 내용 텍스트 데이터에 근거하여 얻은 것으로서 통화 내용 텍스트 데이터의 통화 주제를 표징하기 위한 것이며, 낯선 번호는 낯선 번호에 대응되는 단말기의 연락처 목록에 미저장된 번호이다.
단계 202에서는, 통화 기록 집합 중의 N개 의심 번호를 획득하고, N개 의심 번호는 사전 결정된 개수의 대상 통화 기록에 포함되는 낯선 번호가 출현 횟수에 따라 내림차순으로 배열된 배열순위 제N위까지의 낯선 번호이다.
단계 203에서는, 각 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된(preset) 사전(dictionary)에 기록된 스팸 특징단어의 존재 여부를 검출한다.
단계 204에서는, 어느 하나의 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전(dictionary)에 기록된 스팸 특징단어가 존재하면, 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정한다.
상기와 같이, 본 발명의 실시예에 의해 제공되는 스팸 전화 번호 결정 방법에 의하면, 통화 기록 집합 중 출현 횟수가 가장 많은 N개 낯선 번호를 의심 번호로 결정하고, 의심 번호가 소재하는 대상 통화 기록에 포함되는, 통화 주제를 표징하는 단어인 키워드 중에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정함으로써, 통화 기록 집합에 포함되는 수많은 전화 번호 중에서의 스팸 전화 번호를 편리하고 빠르게 결정해낼 수 있어, 스팸 전화 번호의 획득 효율을 향상시킬 수 있는 효과를 달성할 수 있다.
도3은 일 예시적 실시예에 근거하여 나타내는 다른 하나의 스팸 전화 번호 결정 방법의 흐름도로서, 본 실시예는 상기 스팸 전화 번호 결정 방법을 도1에 도시되는 실시 환경 중의 단말기(11)에 응용하는 것을 예로 들어 설명하며, 상기 스팸 전화 번호 결정 방법은 다음과 같은 몇몇 단계를 포함할 수 있다.
단계 301에서는, 낯선 번호와 통화한 통화 음성 데이터와 통화 기록을 획득하고, 통화 기록에 낯선 번호가 포함되어 있으며, 낯선 번호는 연락처 목록에 미저장된 번호이다.
단계 302에서는, 통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시킨다.
단계 303에서는, 통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하고, 적어도 하나의 키워드는 통화 내용 텍스트 데이터의 통화 주제를 표징하는 단어이다.
단계 304에서는, 적어도 하나의 키워드와 통화 기록에 근거하여 대상 통화 기록을 생성하고, 대상 통화 기록에 낯선 번호와 적어도 하나의 키워드가 포함되어 있다.
단계 305에서는, 대상 통화 기록을 서버로 제공하고, 서버는 대상 통화 기록 중의 낯선 번호와 적어도 하나의 키워드에 근거하여 낯선 번호가 스팸 전화 번호인지 여부를 결정하기 위한 것이다.
상기와 같이, 본 발명의 실시예에 의해 제공되는 스팸 전화 번호 결정 방법에 의하면, 낯선 번호와 적어도 하나의 키워드가 포함되어 있는 대상 통화 기록을 획득하고 상기 대상 통화 기록을 상기 대상 통화 기록 중의 낯선 번호와 적어도 하나의 키워드에 근거하여 상기 낯선 번호가 스팸 전화 번호인지 여부를 결정하기 위한 서버로 제공함으로써 스팸 전화 번호의 획득 효율을 향상시키는 효과를 달성할 수 있다.
도4a는 일 예시적 실시예에 근거하여 나타내는 또 다른 하나의 스팸 전화 번호 결정 방법의 흐름도로서, 본 실시예는 상기 스팸 전화 번호 결정 방법을 도1에 도시되는 실시 환경 중에 응용하는 것을 예로 들어 설명하며, 상기 스팸 전화 번호 결정 방법은 다음과 같은 몇몇 단계를 포함할 수 있다.
단계 401에서, 단말기는 낯선 번호와 통화한 통화 음성 데이터와 통화 기록을 획득하고, 상기 통화 기록에 낯선 번호가 포함되어 있으며, 낯선 번호는 연락처 목록에 미저장된 번호이다.
단말기가 통화하기 시작할 때, 연락처 목록에 근거하여 통화 상대 단말기의 전화 번호가 낯선 번호인지 여부를 검출할 수 있고, 통화 상대 단말기의 전화 번호가 낯선 번호일 경우, 단말기는 통화 음성 데이터를 동기적으로 획득할 수 있어 하나의 통화 기록을 생성하고, 상기 통화 기록에는 통화 상대 단말기의 낯선 번호와 상기 단말기 자체의 전화 번호가 기록되어 있을 수 있거나 또는 상기 통화 기록에는 단지 통화 상대 단말기의 낯선 번호만 기록되어 있을 수 있다.
단계 402에서, 단말기는 통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시킨다.
단말기는 통화 음성 데이터를 획득한 후, 통화 음성 데이터를 텍스트 형식의 통화 내용 텍스트 데이터로 전환시켜 저장할 수 있고, 상기 텍스트 형식은 txt 또는 ASCII(American Standard Code for Information Interchange, 미국 정보교환 표준 코드)등 일 수 있다.
예시적으로, 자동음성인식기술(Automatic Speech Recognition)을 통해 획득한 통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시킬 수 있고, 상기 자동음성인식기술은 기존 기술을 참고할 수 있는 바, 본 발명의 실시예에서는 일일이 설명하지 않도록 한다.
선택적으로, 본 단계는 단계 401과 동시에 실행할 수 있는 바, 즉 단말기는 낯선 번호와 통화할 때 낯선 번호와의 통화 음성 데이터를 획득하고, 실시간으로 음성 데이터를 통화 내용 텍스트 데이터로 전환시키며, 이로써 통화 완료 시에 단말기는 완전한 통화 내용 텍스트 데이터를 획득할 수 있다.
단계 403에서는, 단말기는 통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하고, 상기 적어도 하나의 키워드는 상기 통화 내용 텍스트 데이터의 통화 주제를 표징하는 단어이다.
단말기에 의해 통화 내용 텍스트 데이터가 획득된 후, 단말기는 상기 통화 내용 텍스트 데이터를 분석할 수 있고, 그 중의 통화 주제를 표징할 수 있는 단어를 획득할 수 있다. 예시적으로, 획득한 통화 내용 텍스트 데이터가 어느 스타에 대하여 토론하는 한 단락의 말일 경우, 단말기에 의해 획득되는 키워드는 상기 스타의 이름일 수 있다.
도4b에 도시된 바와 같이, 본 단계는 다음과 같은 4개의 서브 단계로 구분될 수 있다.
서브 단계 4031에서는, 단말기가 내용 텍스트 데이터에 대하여 단어 분할 처리를 진행하여 적어도 하나의 단어가 포함되어 있는 단어 분할 결과를 얻는다.
단말기에 의해 획득된 통화 내용 텍스트 데이터는 일반적으로 복수 개의 완전한 어구를 포함하고, 단말기가 이로부터 키워드를 획득하고자 할 때, 우선 상기 통화 내용 텍스트 데이터에 대하여 단어 분할 처리를 진행하여 그 중에 포함되는 완전한 어구를 모두 하나 하나의 단어로 분할시켜야 한다.
여기서, 단어 분할 처리 방법에는 사전, 어휘집 매칭에 기반하는 단어 분할 방법, 단어 사용 빈도 통계에 기반하는 단어 분할 방법 및 지식 이해에 기반하는 단어 분할 방법 등 3개 유형의 방법을 포함할 수 있고, 각 큰 유형에는 또 여러가지 단어 분할 알고리즘을 포함할 수 있다. 예를 들면 사전, 어휘집 매칭에 기반하는 단어 분할 방법에는 최대 순방향 매칭법, 최대 역방향 매칭법 및 최단 경로 단어 분할법 등등을 포함할 수 있고, 또 예를 들면 단어 사용 빈도 통계에 기반하는 단어 분할 방법에는 통계에 기반하는 단어 분할 모델을 구축하고 상기 단어 분할 모델에 근거하여 단어 분할 처리의 알고리즘을 포함할 수 있다. 선택적으로, 본 발명의 실시예는 상기 3개 유형의 단어 분할 처리의 방법으로부터 적어도 한가지 단어 분할 알고리즘을 임의로 선택하여 획득한 통화 내용 텍스트 데이터에 대하여 단어 분할 처리를 할 수 있다.
서브 단계 4032에서는, 단말기는 단어 분할 결과 중의 각 단어의 키워드 인자를 획득한다.
단말기는 통화 내용 텍스트 데이터의 단어 분할 결과를 획득한 후, 상기 단어 분할 결과 중의 각 단어의 키워드 인자를 획득할 수 있는 바, 상기 키워드 인자는 각 단어의 주제 상관성과 양의 상관관계를 가지고, 상기 주제 상관성은 하나의 단어와 통화 내용 텍스트 데이터의 통화 주제와의 상관성 수준을 지시하기 위한 것이다. 즉, 하나의 단어의 키워드 인자가 클수록, 상기 단어와 통화 내용 텍스트 데이터의 통화 주제와의 상관성 수준이 더욱 높다.
도4c에 도시된 바와 같이, 본 단계는 다음과 같은 5개의 서브 단계를 포함할 수 있다.
서브 단계 4032a에서는, 단말기는 사전 설정된 유형의 사전에 근거하여 단어 분할 결과 중의 각 단어의 유형을 획득하고, 상기 유형은 각 단어의 특징을 표징하기 위한 것이다.
단말기는 통화 내용 텍스트 데이터의 단어 분할 결과를 획득한 후, 우선 사전 설정된 유형의 사전에 근거하여 상기 단어 분할 결과 중의 각 단어의 유형을 획득하고, 상기 유형은 각 단어의 특징을 표징할 수 있다. 예시적으로, 상기 유형은 스팸 특징 단어, 전문 명사, 인물 이름, 날자, 어조사, 인칭대명사, 수식사 및 지명 등등을 포함할 수 있고, 사전 설정된 유형의 사전 중에는 대부분의 통상적인 어휘의 유형이 기록되어 있을 수 있다.
서브 단계 4032b에서는, 단말기는 단어 분할 결과 중의 유형이 어조사, 인칭대명사 및 수식사인 단어를 제거하고 처리 후의 단어 분할 결과를 얻는다.
단말기는 단어 분할 결과 중의 각 단어의 유형을 획득한 후, 그 중의 유형이 어조사, 인칭대명사 및 수식사인 단어를 제거하고 처리 후의 단어 분할 결과를 얻을 수 있다. 이로써, 후속적인 단계에서 단말기의 계산량을 줄일 수 있고, 단말기가 본 발명의 실시예에 의해 제공되는 스팸 전화 번호 결정 방법을 실시할 때의 실행 속도를 향상시킬 수 있다.
여기서, 유형이 어조사(modal particles), 인칭대명사 및 수식사인 단어는 일반적으로 모두 통화 주제와 무관하며, 출현 빈도가 상대적으로 높을 수 있다. 예시적으로, 어조사는 “le”, “me”, “ne”, “ba”, “a” 등을 포함할 수 있고, 인칭대명사는 “너”, “나”, “그” 등을 포함할 수 있으며, 수식사는 “크다”, “높다”, “진지하다”, “생동하다”, “아름답다” 등을 포함할 수 있다. 이러한 단어를 제거할 경우, 후속의 키워드 획득에 영향을 미치지 않을 뿐만 아니라, 또 획득된 키워드의 정확성을 향상시킬 수 있다. 이 밖에, 단말기는 또 기타 유형의 주제와 상관성이 비교적 작은 단어를 제거할 수 있으며, 본 발명의 실시예에서는 이에 대하여 한정하지 않는다.
설명해야 할 것은, 본 단계는 선택 가능한 단계이며, 즉, 단말기는 본 단계를 진행하지 않을 수도 있으며, 서브 단계 4032a 이후에 직접 서브 단계 4032c를 실행할 수 있다.
서브 단계 4032c에서는, 단말기는 사전 설정된 유형과 가중치의 대응관계에 근거하여, 단어 분할 결과 중의 각 단어의 유형에 따라 각 단어를 위하여 가중치를 할당한다.
단말기에서 통화 주제와 무관하는 유형의 단어를 제거한 후, 단말기는 처리 후의 단어 분할 결과 중의 각 단어의 키워드 인자를 계속하여 획득할 수 있다. 단말기는 사전 설정된 유형과 가중치의 대응관계에 근거하여, 단어 분할 결과 중의 각 단어의 유형에 따라 각 단어를 위하여 가중치를 할당할 수 있다. 여기서, 사전 설정된 유형과 가중치의 대응관계는, 유형과 통화 주제의 가능한 상관성에 근거하여 사전에 설정할 수 있고, 예시적으로 유형이 스팸 특징 단어인 단어를 위하여 최고 가중치를 설정하고, 유형이 전문 명사 및 인물 이름인 단어를 위하여 상대적으로 높은 가중치를 설정하며, 유형이 날자 및 지명인 단어를 위하여 상대적으로 낮은 가중치를 설정할 수 있다. 예를 들면, 스팸 특징 단어에 대응되는 가중치는 2이고, 전문 명사 및 인물 이름에 대응하는 가중치는 1.5이며, 날자 및 지명에 대응하는 가중치는 1 등등이다.
서브 단계 4032d에서는, 단말기는 단어 분할 결과 중의 각 단어의 단어 사용 빈도를 획득한다.
단말기가 단어 분할 결과 중의 각 단어를 위하여 가중치를 할당한 후, 각 단어의 단어 분할 결과 중에서의 단어 사용 빈도를 획득할 수 있고, 그 중 단어 사용 빈도는 어느 단어가 단어 분할 결과에서 출현하는 횟수를 표시할 수 있는 바, 예를 들면 단어 분할 결과 중에 100개 단어가 있고, “부동산 건물”이란 단어가 12번 출현하였다면, “부동산 건물”은 상기 단어 분할 결과 중에서의 단어 사용 빈도가 12일 수 있다. 또는, 단어 사용 빈도는 어느 단어가 단어 분할 결과 중에서 출현하는 횟수를 상기 단어 분할 결과 중의 총 단어 수량으로 나누어 얻은 수치일 수 있는 바, 예를 들면, 단어 분할 결과 중에 100개 단어가 있고, “부동산 건물”이란 단어가 12번 출현하였다면, “부동산 건물”의 상기 단어 분할 결과 중에서의 단어 사용 빈도는 12/100=0.12일 수 있다. 설명해야 할 것은, 여러가지 단어 분할 알고리즘을 사용하여 단어 분할 처리를 진행하고 여러가지 단어 분할 결과를 획득할 때, 각 단어 분할 결과로부터 각 단어의 단어 사용 빈도를 각각 통계할 수 있다.
설명해야 할 것은, 본 단계는 서브 단계 4032c 이전에 실행할 수도 있고 또는 본 단계와 서브 단계 4032c가 동시에 실행할 수 있는 바, 본 발명의 실시예는 이에 대하여 한정하지 않는다.
서브 단계 4032e에서, 단말기는 각 단어의 가중치와 단어 사용 빈도의 곱셈값을 각 단어의 키워드 인자로 한다.
단말기가 각 단어의 가중치와 곱셈값을 획득한 후, 가중치와 단어 사용 빈도의 곱셈값을 키워드 인자로 할 수 있다.
서브 단계 4033에서는, 단말기는 키워드 인자의 크기에 따라 단어 분할 결과 중의 단어를 내림차순으로 배열한다.
단말기는 단어 분할 결과 중의 각 단어의 키워드 인자를 획득한 후, 키워드 인자의 크기에 따라 단어 분할 결과 중의 단어를 내림차순으로 배열할 수 있는데, 즉, 키워드 인자가 클수록 단어 순위가 더욱 높다.
설명해야 할 것은, 단말기가 여러가지 단어 분할 알고리즘으로 단어 분할을 진행하여 여러가지 단어 분할 결과를 얻을 때, 각 단어 분할 결과 중의 단어에 대하여 각각 순위를 정할 수 있거나 또는 여러가지 단어 분할 결과 중의 단어를 합병시켜 순위를 정할 수도 있으며, 본 발명의 실시예는 이에 대하여 한정하지 않는다.
서브 단계 4034에서는, 단말기는 배열순위 제M위까지의 단어를 내용 텍스트 데이터의 키워드로 한다.
단말기는 배열순위 제M위까지의 단어를 내용 텍스트 데이터의 키워드로 할 수 있다.
설명해야 할 것은, 단말기가 여러가지 단어 분할 알고리즘으로 단어 분할 처리를 진행하여 여러가지 단어 분할 결과를 얻을 경우, 상기 제M위까지의 단어는 각 단어 분할 결과 중의 제M위까지의 단어일 수 있거나 또는 상기 제M위까지의 단어는 합병 배열된 제M위 까지의단어일 수도 있다. 여기서, M은 사전 설정된 값이다.
예시적으로, M가 1일 경우, 단말기는 두 가지 단어 분할 알고리즘에 근거하여 두 가지 단어 분할 결과인 F1과 F2를 얻는다. F1에는 “보험”, “부동산 보기” 및 “축하”라는 단어가 포함되며, “보험”의 키워드 인자는 10이고, “부동산 보기”의 키워드 인자는 12이며, “축하”의 키워드 인자는 8이다. F2에는 “상품”, “장 아무개” 및 “이 아무개”라는 단어가 포함되며, “상품”의 키워드 인자는 13이고, “장 아무개”의 키워드 인자는 7이며, “이 아무개”의 키워드 인자는 3이다.
F1 중의 단어를 키워드 인자에 따라 내림차순으로 배열하면, 1. “부동산 보기”, 2. “보험”, 3. “축하”이다. F2 중의 단어를 키워드 인자에 따라 내림차순으로 배열하면, 1. “상품”, 2. “장 아무개”, 3. “이 아무개”이다. 단말기는 상기 두 개 배열 중의 앞 순위 단어인 “부동산 보기”와 “상품”을 키워드로 할 수 있다.
F1과 F2 중에 포함되는 단어가 키워드 인자의 크기에 따라 내림차순으로 배열하면, 1. “상품”, 2. “부동산 보기”, 3. “보험”, 4. “축하”, 5. “장 아무개”, 6. “이 아무개”이다. 단말기는 상기 합병된 배열에서 앞 순위 단어인 “상품”을 키워드로 할 수도 있다.
설명해야 할 것은, 단말기는 키워드 인자의 임계값을 설정할 수 있고, 단말기는 상기 키워드 인자 임계값을 이용하여 배열순위에서 제M위까지의 단어에 대하여 더 선별하여 배열순위 제M위까지의 단어에서 키워드 인자가 키워드 인자 임계값보다 작은 단어를 제거하여 나머지 단어를 키워드로 할 수 있다. 이로써, 최종적으로 결정되는 키워드의 정확성을 향상시킬 수 있고, 또는 단말기는 직접 단어 분할 결과 중의 키워드 인자가 상기 키워드 인자 임계값보다 큰 단어를 키워드로 할 수 있다.
상기와 같이, 내용 텍스트 데이터의 키워드를 획득할 수 있다. 설명해야 할 것은, 단계 402와 단계 403은 단말기를 위하여 키워드를 획득하는 단계로서, 상기 두 개의 단계 또는 상기 두 개의 단계 중의 일부 단계는 서버에 의해 완료될 수도 있는데, 본 발명의 실시예는 이에 대하여 한정하지 않는다. 예시적으로, 단말기는 통화 음성 데이터 또는 통화 내용 텍스트 데이터를 서버로 업로드시킬 수 있고, 서버에 의해 그 중의 키워드를 획득할 수 있다.
단계 404에서는, 단말기는 적어도 하나의 키워드와 통화 기록에 근거하여 대상 통화 기록을 생성하고, 대상 통화 기록에 낯선 번호와 적어도 하나의 키워드가 포함되어 있다.
단말기는 키워드를 획득한 후, 키워드 및 상기 키워드에 대응되는 통화 기록을 합병시켜 대상 통화 기록을 얻을 수 있고, 대상 통화 기록에 낯선 번호와 적어도 하나의 키워드가 포함되어 있다. 예시적으로, 키워드를 통화 기록 중의 대응되는 필드에 삽입시켜 대상 통화 기록을 생성할 수 있다.
단계 405에서는, 단말기는 사전 결정된 시간 내의 모든 통화 기록을 서버로 제공한다.
단말기는 대상 통화 기록을 획득한 후, 사전 결정된 시간 내의 모든 통화 기록을 서버로 제공할 수 있고, 상기 모든 통화 기록에는 대상 통화 기록과 일반 통화 기록이 포함되어 있을 수 있으며, 그 중 일반 통화 기록은 키워드를 포함하지 않는 일반적인 통화 기록이다. 예시적으로, 단말기는 매 달마다 모든 통화 기록을 서버로 업로드시킬 수 있다.
이 밖에, 단말기는 단지 대상 통화 기록만 서버로 제공할 수 있으며, 본 발명의 실시예는 이에 대하여 한정하지 않는다.
단계 406에서는, 서버는 적어도 하나의 단말기의 사전 결정된 시간 내의 모든 통화 기록을 획득한다.
서버는 적어도 하나의 단말기의 사전 결정된 시간 내의 모든 통화 기록을 획득할 수 있으며, 예시적으로 서버는 1000개의 단말기의 1개월 내의 모든 통화 기록을 획득할 수 있으며 서버는 상기 1000개의 단말기로부터 매 달마다 한 번씩 획득할 수 있다.
단계 407에서는, 서버는 적어도 하나의 단말기의 사전 결정된 시간 내의 모든 통화 기록으로부터 대상 통화 기록을 획득하여 통화 기록 집합을 얻는다.
단말기가 서버로 제공하는 것이 모든 통화 기록일 때, 서버는 이로부터 대상 통화 기록을 선별해낼 수 있고 대상 통화 기록을 통화 기록 집합으로 구성할 수 있다. 선별 방법은 각각의 상황에 근거하여 다음과 같이 구분될 수 있다.
1) 단말기가 서버로 연락처 목록을 제공할 때, 서버는 상기 연락처 목록에 근거하여 그 중에 포함되어 있는 낯선 번호의 통화 기록을 선별할 수 있고, 이러한 낯선 번호가 포함되어 있는 전화 번호를 대상 통화 기록으로 할 수 있다.
2) 단말기가 서버로 연락처 목록을 제공하지 않고 단지 서버로 통화 기록만 제공할 때, 서버는 통화 기록에 이름이 기록되어 있는지 여부에 근거하여 이름이 기록되어 있지 않는 통화 기록을 대상 통화 기록으로 할 수 있다. 설명해야 할 것은, 단말기는 통화 기록을 생성할 때, 통화 상대 단말기의 번호가 연락처 목록 중 기록된 연락인의 번호이면 일반적으로 통화 기록에 상기 연락인의 이름을 첨부한다.
이 밖에, 단말기가 서버로 단지 대상 통화 기록만 제공할 때, 서버는 획득된 대상 통화 기록으로 직접 통화 기록 집합을 구성할 수 있다.
단계 408에서는, 서버는 통화 기록 집합에 대하여 반복 제거 처리를 진행한다.
대상 통화 기록에는 통화 상대 단말기의 낯선 번호가 기록되어 있는 것을 제외하고 또 대상 통화 기록을 생성하는 단말기의 전화 번호가 기록되어 있을 수도 있다. 여기서, 반복 제거 처리는 적어도 두개의 동일한 유형의 통화 기록에 키워드를 가장 많이 포함하는 대상 통화 기록 이외의 통화 기록을 폐기하기 위한 것이며, 즉, 포함되는 두 개의 전화 번호가 일치한 대상 통화 기록이 복수 개 존재할 때, 포함되는 키워드 수량에 근거하여 이러한 대상 통화 기록에 대하여 내림차순으로 배열하고, 단지 앞 순위의 대상 통화 기록만 보류할 수 있다. 동일한 유형의 통화 기록은 동일한 두 개의 전화 번호를 포함하는 대상 통화 기록이고, 상기 두 개의 번호는 통화 양측의 전화 번호이다.
예시적으로, 대상 통화 기록A, 대상 통화 기록B 및 대상 통화 기록C가 동일한 유형의 통화 기록으로서, 대상 통화 기록A에는 키워드인 “보험”, “부동산 보기”, “축하” 및 “상품”이 포함되어 있고, 대상 통화 기록B에는 키워드인 “장 아무개”가 포함되어 있으며, 대상 통화 기록C에는 키워드인 “이 아무개”와 “투자”가 포함되어 있을 경우, 포함되는 키워드의 수량에 따라 이러한 대상 통화 기록에 대하여 내림차순으로 배열하면 다음과 같다.
1. 대상 통화 기록A(4개 키워드);
2. 대상 통화 기록C(2개 키워드);
3. 대상 통화 기록B(1개 키워드).
서버는 대상 통화 기록C와 대상 통화 기록B를 폐기하고, 키워드를 가장 많이 포함하는 대상 통화 기록A를 보류할 수 있다. 이로써, 본 발명의 실시예가 제공하는 스팸 전화 번호 결정 방법에 따라 결정되는 스팸 전화 번호의 정확성을 향상시킬 수 있다.
단계 409에서는, 서버는 처리 후의 통화 기록 집합 중의 N개 의심 번호를 획득한다.
여기서, N개 의심 번호는 사전 결정된 개수의 대상 통화 기록에 포함되는 낯선 번호가 출현 횟수에 따라 내림차순으로 배열된, 배열순위 제N위까지의 낯선 번호일 수 있으며, N은 사전 설정된 값이다.
스팸 전화의 발신측은 일반적으로 수많은 낯선 번호로 전화를 걸기 때문에, 서버는 통화 기록 집합에 대하여 반복 제거 처리를 진행한 후, 우선 통화 기록 집합 중에 포함되는 대상 통화 기록 중의 각 낯선 번호의 출현 횟수를 통계하고 상기 출현 횟수에 따라 모든 낯선 번호에 대하여 내림차순으로 배열하여 배열순위 제N위까지의 낯선 번호를 의심 번호로 결정할 수 있다. 스팸 전화의 발신측은 일반적으로 수많은 낯선 번호로 스팸 전화를 걸기 때문에, 스팸 전화 번호의 발신측의 번호는 일반적으로 대상 통화 기록에 대량 출현하게 된다.
예시적으로, 서버의 통계에 의해 얻은 낯선 번호의 출현 횟수에 있어서 낯선 번호1의 출현 횟수는 1000회, 낯선 번호2의 출현 횟수는 900회, 낯선 번호3의 출현 횟수는 800회, 낯선 번호4의 출현 횟수는 1200회, 낯선 번호5의 출현 횟수는 2000회일 경우, 이러한 낯선 번호를 출현 횟수에 따라 내림차순으로 배열시킨다.
1. 낯선 번호5;
2. 낯선 번호4;
3. 낯선 번호1;
4. 낯선 번호2;
5. 낯선 번호3.
N이 3으로 사전 설정될 때, 의심 번호로서 낯선 번호5, 낯선 번호4 및 낯선 번호1가 될 수 있다.
이 밖에, 서버는 출현 횟수 임계값을 설정하여 배열순위 제N위까지의 낯선 번호에서 출현 횟수가 상기 출현 횟수 임계값보다 작은 낯선 번호를 필터링시키고, 나머지 낯선 번호를 의심 번호로 하여 의심 번호의 정확성을 향상시킬 수 있다. 또는, 서버는 통화 기록 집합 중에 출현 횟수가 상기 출현 횟수 임계값보다 큰 낯선 번호를 직접 의심 번호로 할 수도 있다.
본 단계에 의하면, 본 발명의 실시예가 제공하는 스팸 전화 번호 결정 방법에 따라 결정하는 스팸 전화 번호의 정확성을 더 향상시킬 수 있다.
설명해야 할 것은, 서버에서도 의심 번호를 스팸 전화 번호로 결정할 수 있으며, 본 발명의 실시예에서는 이에 대하여 한정하지 않는다.
단계 410에서는, 서버는 각 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어가 존재하는지 여부를 검출한다.
서버는 의심 번호를 획득한 후, 사전 설정된 사전에 근거하여 각 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 스팸 특징단어의 존재 여부를 검출하며, 사전 설정된 사전에는 스팸 특징단어가 기록되어 있을 수 있다. 예시적으로, 사전 설정된 사전에 기록된 스팸 특징단어는 다음과 같은 단어를 포함할 수 있다.
보험, 보험 회사, 보험 상품, 리스크, 투자;
중고 주택, 부동산 보기, 통학 주택, 업주, 새 주택, 주택 교환;
축하, 휴대전화 번호, 전화 번호, 추첨, 당첨, 상품.
서버는 각 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 이러한 단어가 있는지 여부를 검출할 수 있다.
단계 411에서는, 어느 하나의 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어가 존재하면, 서버는 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정한다.
서버는 사전 설정된 사전에 근거하여 각 의심 번호에 스팸 특징단어의 존재 여부를 검출한 후, 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정할 수 있다. 본 단계에 의하면, 결정되는 스팸 전화 번호의 정확성을 더 향상시키고 보통 번호(스팸 전화 번호가 아닌 번호)에 대한 오판 가능성을 감소시킬 수 있다.
도4d에 도시된 바와 같이, 본 단계는 다음과 같은 7개의 서브 단계를 포함할 수 있다.
서브 단계 4111에서는, 서버는 제1 의심 전화 번호를 포함하는 대상 통화 기록으로 구성되는 대상 통화 기록 집합을 획득하고, 제1 의심 전화 번호는 어느 하나의 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호이다.
서버는 모든 의심 번호가 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는지 여부를 검출한 후, 제1 의심 전화 번호를 포함하는 대상 통화 기록으로 구성되는 대상 통화 기록 집합을 획득할 수 있고, 제1 의심 전화 번호는 어느 하나의 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호이며, 제1 의심 전화 번호는 복수 개의 대상 통화 기록에 출현할 수 있고, 서버는 상기 복수 개의 대상 통화 기록으로 대상 통화 기록 집합을 구성할 수 있다.
서브 단계 4112에서는, 서버는 사전 설정된 스팸 특징단어와 스팸 유형의 대응관계에 근거하여, 제1 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 결정한다.
여기서, 스팸 유형은 제1 의심 전화 번호의 스팸 목적을 표징하며, 제1 통화 기록은 대상 통화 기록 집합 중의 어느 하나의 통화 기록이다. 즉, 서버는 대상 통화 기록 집합을 획득한 후, 사전 설정된 스팸 특징단어와 스팸 유형의 대응관계에 근거하여 대상 통화 기록 집합 중의 각 대상 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 결정할 수 있다. 예시적으로, 사전 설정된 스팸 특징단어와 스팸 유형의 대응관계는 표1에 도시된 바와 같을 수 있다.
스팸 유형 스팸 특징단어
판촉 보험, 보험 회사, 보험 상품, 리스크, 투자
중개 중고 주택, 부동산 보기, 통학 주택, 업주, 새 주택, 주택 교환
사기 축하, 휴대전화 번호, 전화 번호, 추첨, 당첨, 상품
표1에서, 제1 행은 표 항목으로, 표1 중의 2개 열에 대하여 설명하기 위한 것이다. 좌측 열은 스팸 유형을 표시하고, 우측 열은 각 스팸 유형에 포함되는 스팸 특징단어를 표시하며, 서버는 상기 표에 근거하여 제1 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 결정할 수 있다. 예를 들면, 제1 통화 기록에 포함되는 스팸 특징단어가 “축하”일 경우, 표1에 근거하여 알 수 있듯이 “축하”의 스팸 유형은 “사기”이다.
서브 단계 4113에서는, 서버는 제1 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 제1 통화 기록의 스팸 유형으로 결정한다.
서버는 대상 통화 기록 집합 중의 각 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 획득한 후, 상기 스팸 특징단어의 스팸 유형을 상기 통화 기록의 스팸 유형으로 결정할 수 있다. 예시적으로, 대상 통화 기록 집합 중의 하나의 통화 기록에 스팸 유형이 “사기”인 스팸 특징단어가 포함되어 있을 경우, 서버는 상기 통화 기록의 스팸 유형을 “사기”로 결정할 수 있다.
설명해야 할 것은, 대상 통화 기록 집합 중의 통화 기록에 복수 개의 스팸 유형의 스팸 특징단어가 포함되어 있을 경우, 복수 개의 스팸 유형을 모두 상기 통화 기록의 스팸 유형으로 결정할 수 있다. 예시적으로, 통화 기록A에 “사기”와 “중개” 등 2가지 스팸 유형의 스팸 특징단어가 포함되어 있을 경우, 통화 기록A의 스팸 유형은 “사기”와 “중개”이다.
서브 단계 4114에서는, 서버는 대상 통화 기록 집합 중에서 각 스팸 유형에 대응하는 통화 기록의 수량을 통계한다.
서버는 대상 통화 기록 집합 중의 각 통화 기록의 스팸 유형을 획득한 후, 대상 통화 기록 집합 중의 각 스팸 유형에 대응하는 통화 기록의 수량을 통계할 수 있다.
예시적으로, 통화 기록A의 스팸 유형은 “사기”와 “중개”이고, 통화 기록B의 스팸 유형은 “판촉”이며, 통화 기록C의 스팸 유형은 “중개”이다. 이 경우, 서버의 통계 결과는 다음과 같다.
스팸 유형 “중개”에 대응되는 통화 기록은 통화 기록A와 통화 기록C 등 2개의 통화 기록이고, 스팸 유형 “사기”에 대응되는 통화 기록은 통화 기록A 하나이며, 스팸 유형 “판촉”에 대응하는 통화 기록은 통화 기록B 하나이다.
서브 단계 4115에서는, 서버는 각 스팸 유형에 대응하는 통화 기록의 수량과 대상 통화 기록 집합 중의 통화 기록의 총수의 비례값에 근거하여, 각 스팸 유형이 대상 통화 기록 집합 중에서의 비례를 결정한다.
서버는 대상 통화 기록 집합 중의 각 스팸 유형에 대응하는 통화 기록의 수량을 통계한 후, 각 스팸 유형에 대응하는 통화 기록의 수량과 대상 통화 기록 집합 중의 통화 기록의 총수의 비례값에 근거하여, 각 스팸 유형이 대상 통화 기록 집합 중에서의 비례를 결정할 수 있다.
예시적으로, 대상 통화 기록 집합 중에 스팸 유형인 “판촉”에 대응하는 통화 기록은 60개 있고, 스팸 유형인 “중개”에 대응되는 통화 기록은 20개 있으며, 상기 대상 통화 기록 집합의 통화 기록은 모두 100개 있을 경우, 스팸 유형인 “판촉”이 상기 대상 통화 기록 집합에서의 비례는 0.6이고, 스팸 유형인 “중개”가 상기 대상 통화 기록 집합에서의 비례는 0.2이다.
단계 4116에서는, 대상 통화 기록 집합 중에서의 비례가 비례 임계값보다 큰 스팸 유형이 존재하면, 서버는 제1 의심 전화 번호를 스팸 전화 번호로 결정한다.
서버는 각 스팸 유형이 대상 통화 기록 집합 중에서의 비례를 획득한 후, 이러한 비례 중에 비례 임계값보다 큰 값이 존재하는지 여부를 검출할 수 있고, 만약 비례 임계값보다 큰 값이 존재하면, 상기 제1 의심 전화 번호를 스팸 전화 번호로 결정한다. 예시적으로, 비례 임계값이 0.5이고, 스팸 유형인 “판촉”이 대상 통화 기록 집합에서의 비례가 0.6으로서 상기 비례 임계값보다 클 경우, 상기 대상 통화 기록 집합에 대응하는 제1 의심 전화 번호를 스팸 전화 번호로 결정할 수 있다.
설명해야 할 것은, 스팸 전화 중 스팸 측의 내용은 대부분 유사하므로, 하나의 스팸 전화 번호가 소재하는 복수 개의 통화 기록 중의 스팸 특징단어의 스팸 유형의 유사도는 상대적으로 높다. 즉, 비례 임계값에 근거하여 의심 번호를 선별함으로써 결정된 스팸 전화 번호의 정확성을 더 향상시킬 수 있다.
단계 4117에서는, 서버는 대상 통화 기록 집합 중의 비례가 가장 큰 스팸 유형을 스팸 전화 번호의 스팸 유형으로 한다.
서버는 스팸 전화 번호를 결정한 후, 상기 스팸 전화 번호에 대응되는 대상 통화 기록 집합 중의 비례가 가장 큰 스팸 유형을 상기 스팸 전화 번호의 스팸 유형으로 할 수 있고, 상기 스팸 유형은 사용자에게 스팸 전화 번호에 대한 명확한 인식을 제공할 수 있고, 사용자 체험을 향상시킬 수 있다. 예시적으로, 대상 통화 기록 집합 중에 “판촉”과 “중개” 등 두가지 스팸 유형의 통화 기록이 포함되고, 스팸 유형인 “판촉”이 상기 대상 통화 기록 집합 중에서의 비례가 0.6이고, 스팸 유형인 “중개”가 상기 대상 통화 기록 집합 중에서의 비례가 0.2일 경우, 상기 스팸 전화 번호의 스팸 유형은 “판촉”으로 결정할 수 있다.
이 밖에, 서브 단계 4117은 스팸 전화 번호에 대하여 분류하는 단계이며, 구체적으로 서버는 대상 통화 기록 집합 중의 비례가 제일 큰 스팸 유형을 스팸 전화 번호의 스팸 유형으로 하며, 이 단계는 선택 가능한 단계이다.
설명해야 할 것은, 대상 통화 기록 집합 중의 통화 기록은 모두 대상 통화 기록이다.
단계 412에서는, 서버는 결정된 스팸 전화 번호에 근거하여 인스턴트 스팸 번호 리스트를 생성한다.
서버는 스팸 전화 번호를 획득한 후, 스팸 전화 번호에 근거하여 인스턴트 스팸 번호 리스트를 생성할 수 있다. 예시적으로, 생성된 인스턴트 스팸 전화 번호 리스트는 표2에 도시된 바와 같을 수 있다.
스팸 전화 번호
111***1111
111***1112
111***1113
…………
표2에서, 제1행은 표 항목으로 표2 중의 데이터에 대하여 설명하기 위한 것이고, 표2 중의 숫자는 스팸 전화 번호를 표시한다.
설명해야 할 것은, 서버가 스팸 전화 번호의 스팸 유형을 결정할 때, 서버는 스팸 전화 번호와 스팸 유형에 근거하여 인스턴트 스팸 번호 리스트를 공동으로 생성할 수도 있으며, 즉 인스턴트 스팸 번호 리스트 중에 스팸 전화 번호뿐만 아니라 스팸 전화 번호의 스팸 유형까지 기록되어 있을 수 있다. 예시적으로, 표3에 도시된 바와 같다.
스팸 전화 번호 스팸 유형
111***1111 판촉
111***1112 중개
111***1113 사기
………… …………
표3에서, 제1행은 표 항목으로 표3 중의 2개 열의 데이터에 대하여 설명하기 위한 것이고, 좌측 열은 스팸 전화 번호를 표시하고, 우측 열은 각 스팸 전화 번호의 스팸 유형을 표시한다. 예를 들면, 제2행의 스팸 전화 번호 “111***1111”의 스팸 유형은 “판촉”이다.
단계 413에서는, 서버는 인스턴트 스팸 번호 리스트에 근거하여 이력 스팸 번호 리스트를 업데이트한다.
서버는 인스턴트 스팸 번호 리스트를 획득한 후, 상기 인스턴트 스팸 번호 리스트로 이력 스팸 번호 리스트를 업데이트할 수 있고, 이력 스팸 번호 리스트는 서버가 본회 이전에 획득한 인스턴트 스팸 번호 리스트에 근거하여 생성된 것일 수 있으며, 이 밖에, 본회가 바로 처음으로, 인스턴트 스팸 번호 리스트를 획득한 경우일 때 상기 인스턴트 스팸 번호 리스트를 이력 스팸 번호 리스트로 할 수 있다. 이력 스팸 번호 리스트를 업데이트할 때, 각 스팸 전화 번호에 타임 스탬프(Timestamp)를 추가하여 상기 스팸 전화 번호가 이력 스팸 번호 리스트에 기록되는 시간을 표시할 수 있다. 서버는 일정 시간 지날 때마다 인스턴트 스팸 번호 리스트를 한 번씩 생성할 수 있고, 최근 획득한 인스턴트 스팸 번호 리스트에 근거하여 이력 스팸 번호 리스트를 한 번 업데이트할 수 있다.
설명해야 할 것은, 타임 스탬프는 또 Unix 타임(Unix time)으로 불릴 수도 있는 바, 일종의 시간 표시 방식으로, 그리니치 시간 1970년 01월 01일 00시 00분 00초(베이징 시간 1970년 01월 01일 08시 00분 00초)로부터 지금까지의 총 초 수로 정의된다.
본 단계에 의하면, 이력 스팸 번호 리스트를 업데이트할 때, 다음과 같은 3가지 원칙을 준수할 수 있다.
1) 이력 스팸 번호 리스트 중에 없지만 인스턴트 스팸 번호 리스트 중에 있는 스팸 전화 번호일 경우, 이력 스팸 번호 리스트 중에 업데이트시킨다.
2) 이력 스팸 번호 리스트와 인스턴트 스팸 번호 리스트 중에 모두 있는 스팸 전화 번호일 경우, 이력 스팸 번호 리스트 중에서의 상기 스팸 전화 번호의 타임 스탬프를 업데이트시킨다.
3) 이력 스팸 번호 리스트 중에 있지만 인스턴트 스팸 번호 리스트 중에 없는 스팸 전화 번호일 경우, 현재 시간과 상기 스팸 전화 번호의 타임 스탬프를 비교한 후, 시간차가 임계값(사전 설정할 수 있음)보다 크면 이력 스팸 번호 리스트 중의 상기 스팸 전화 번호를 삭제한다. 이로써, 이력 스팸 번호 리스트 중의 장기간 사용하지 않은 스팸 전화 번호를 삭제하여, 스팸 전화 번호의 사용자 교체로 인한 오판을 방지할 수 있다.
본 단계가 완료된 후, 서버에 의해 획득된 이력 스팸 번호 리스트 중에 기록된 스팸 전화 번호는 상당히 높은 정확성을 가질 수 있다.
단계 414에서는, 서버는 단말기로 업데이트 후의 이력 스팸 번호 리스트를 제공한다.
서버는 이력 스팸 번호 리스트를 업데이트한 후, 단말기로 상기 업데이트 후의 이력 스팸 번호 리스트를 제공할 수 있다. 예시적으로, 서버에 의해 단말기로 상기 이력 스팸 번호 리스트를 주동적으로 발송하거나 또는 단말기에 의해 서버로부터 상기 이력 스팸 번호 리스트를 다운로드 받을 수 있다.
단말기가 업데이트 후의 이력 스팸 번호 리스트를 획득한 후, 단말기의 사용자는 그 중에 기록되는 스팸 전화 번호 및 스팸 전화 번호의 스팸 유형에 근거하여 스팸 전화 번호의 발신에 대하여 더 처리할 수 있다.
보충 설명해야 할 것은, 본 발명의 실시예가 제공하는 스팸 전화 번호 결정 방법에 의하면, 키워드 인자의 크기에 따라 단어 분할 결과 중의 단어가 키워드인지 여부를 판단함으로써 키워드의 정확성을 향상시키는 효과를 달성할 수 있다.
보충 설명해야 할 것은, 본 발명의 실시예가 제공하는 스팸 전화 번호 결정 방법에 의하면, 대상 통화 기록에 출현 횟수가 가장 많은 N개 번호를 의심 번호로 결정함으로써 최종적으로 결정되는 스팸 전화 번호의 정확성을 향상시키는 효과를 달성할 수 있다.
보충 설명해야 할 것은, 본 발명의 실시예가 제공하는 스팸 전화 번호 결정 방법에 의하면, 대상 통화 기록 집합 중의 각 스팸 유형에 대응하는 대상 통화 기록이 대상 통화 기록에서의 비례에 따라 스팸 전화 번호를 선별해냄으로써, 결정되는 스팸 전화 번호의 정확성을 더 향상시키는 효과를 달성할 수 있다.
상기와 같이, 본 발명의 실시예에 의해 제공되는 스팸 전화 번호 결정 방법에 의하면, 통화 기록 집합 중 출현 횟수가 가장 많은 N개 낯선 번호를 의심 번호로 결정하고, 의심 번호가 소재하는 대상 통화 기록에 포함되는, 통화 주제를 표징하는 단어인 키워드 중에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정함으로써, 통화 기록 집합에 포함되는 수많은 전화 번호 중에서 스팸 전화 번호를 편리하고 빠르게 결정해낼 수 있어, 스팸 전화 번호의 획득 효율을 향상시킬 수 있는 효과를 달성할 수 있다.
하기는 본 발명의 장치에 관한 실시예로서, 본 발명의 방법에 관한 실시예를 실행하는데 사용될 수 있다. 본 발명의 장치에 관한 실시예에서 제시되지 않은 세부 내용은 본 발명의 방법에 관한 실시예를 참조한다.
도5a는 일 예시적 실시예에 근거하여 나타내는 스팸 전화 번호 결정 장치의 블록도로서, 본 실시예는 상기 스팸 전화 번호 결정 장치를 도1에 도시되는 실시 환경 중의 서버(12)에 응용하는 것을 예로 들어 설명하며, 상기 스팸 전화 번호 결정 장치는 다음과 같은 모듈을 포함할 수 있다.
집합 획득 모듈(510)은, 적어도 하나의 단말기로부터 대상 통화 기록을 획득하여 통화 기록 집합을 얻도록 구성되고, 통화 기록 집합에는 사전 결정된 개수의 대상 통화 기록이 포함되어 있으며, 각 대상 통화 기록에는 낯선 번호와 적어도 하나의 키워드가 포함되어 있고, 적어도 하나의 키워드는 단말기가 낯선 번호와 통화한 통화 내용 텍스트 데이터에 근거하여 얻은 것으로서 통화 내용 텍스트 데이터의 통화 주제를 표징하기 위한 것이며, 낯선 번호는 낯선 번호에 대응되는 단말기의 연락처 목록에 미저장된 번호이다.
번호 획득 모듈(520)은, 집합 획득 모듈(510)에 의해 획득한 통화 기록 집합 중에서 N개 의심 번호를 획득하도록 구성되고, N개 의심 번호는 사전 결정된 개수의 대상 통화 기록에 포함되는 낯선 번호가 출현 횟수에 따라 내림차순으로 배열된, 배열순위 제N위까지의 낯선 번호이다.
검출 모듈(530)은, 번호 획득 모듈(520)에 의해 획득한 각 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어의 존재 여부를 검출하도록 구성된다.
결정 모듈(540)은, 검출 모듈(530)에 의해 검출한 어느 하나의 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어가 존재하면, 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정하도록 구성된다.
상기와 같이, 본 발명의 실시예가 제공하는 스팸 전화 번호 결정 장치에 의하면, 통화 기록 집합 중 출현 횟수가 가장 많은 N개 낯선 번호를 의심 번호로 결정하고, 의심 번호가 소재하는 대상 통화 기록에 포함되는, 통화 주제를 표징하는 단어인 키워드 중에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정함으로써, 통화 기록 집합에 포함되는 수많은 전화 번호 중에서 스팸 전화 번호를 편리하고 빠르게 결정해낼 수 있어, 스팸 전화 번호의 획득 효율을 향상시킬 수 있는 효과를 달성할 수 있다.
도5b는 도5a에 의해 나타내는 스팸 전화 번호 결정 장치 중의 결정 모듈(540)의 블록도이다.
선택적으로, 결정 모듈(540)은
제1 의심 전화 번호를 포함하는 대상 통화 기록으로 구성되는 대상 통화 기록 집합을 획득하도록 구성되고, 제1 의심 전화 번호는 어느 하나의 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호인 집합 획득 서브 모듈(541);
사전 설정된 스팸 특징단어와 스팸 유형의 대응관계에 근거하여, 집합 획득 서브 모듈(541)에 의해 획득한 대상 통화 기록 집합 중의 제1 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 결정하도록 구성되고, 스팸 유형은 제1 의심 전화 번호의 스팸 목적을 표징하며, 제1 통화 기록은 대상 통화 기록 집합 중의 어느 하나의 통화 기록인 특징단어 결정 서브 모듈(542);
특징단어 결정 서브 모듈(542)에 의해 결정된 제1 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 제1 통화 기록의 스팸 유형으로 결정하도록 구성되는 기록 결정 서브 모듈(543);
기록 결정 서브 모듈(543)에 의해 결정된 대상 통화 기록 집합 중에서 각 스팸 유형에 대응하는 통화 기록의 수량을 통계하도록 구성되는 통계 서브 모듈(544);
통계 서브 모듈(544)에 의해 통계된 각 스팸 유형에 대응하는 통화 기록의 수량과 대상 통화 기록 집합 중의 통화 기록의 총수의 비례값에 근거하여, 각 스팸 유형이 대상 통화 기록 집합 중에서의 비례를 결정하도록 구성되는 비례 결정 서브 모듈(545); 및
비례 결정 서브 모듈(545)에 의해 결정된 대상 통화 기록 집합 중에서의 비례가 비례 임계값보다 큰 스팸 유형이 존재하면, 제1 의심 전화 번호를 스팸 전화 번호로 결정하도록 구성되는 번호 결정 서브 모듈(546)을 포함한다.
도5c는 본 발명의 실시예에 의해 제공되는 다른 하나의 스팸 전화 번호 결정 장치의 블록도이다.
선택적으로, 상기 스팸 전화 번호 결정 장치는
비례 결정 서브 모듈에 의해 결정된 대상 통화 기록 집합 중의 비례가 가장 큰 스팸 유형을 스팸 전화 번호의 스팸 유형으로 하도록 구성되는 유형 결정 모듈(550)을 더 포함한다.
선택적으로, 각 대상 통화 기록에 두 개의 전화 번호가 포함되어 있고, 두 개의 전화 번호 중에 낯선 번호가 포함되어 있다.
번호 획득 모듈(520)은, 집합 획득 모듈(510)에 의해 획득한 통화 기록 집합에 대하여 반복 제거 처리를 진행하도록 구성되고, 반복 제거 처리는 적어도 두 개의 동일 유형의 통화 기록에 키워드를 가장 많이 포함하는 대상 통화 기록 이외의 통화 기록을 폐기하기 위한 것이며, 동일 유형의 통화 기록은 동일한 두 개의 전화 번호를 포함하는 대상 통화 기록이고; 처리 후의 통화 기록 집합 중의 N개 의심 번호를 획득하도록 구성된다.
보충 설명해야 할 것은, 본 발명의 실시예가 제공하는 스팸 전화 번호 결정 장치에 의하면, 대상 통화 기록에 출현 횟수가 가장 많은 N개 번호를 의심 번호로 결정함으로써 최종적으로 결정되는 스팸 전화 번호의 정확성을 향상시키는 효과를 달성할 수 있다.
보충 설명해야 할 것은, 본 발명의 실시예가 제공하는 스팸 전화 번호 결정 장치에 의하면, 대상 통화 기록 집합 중의 각 스팸 유형에 대응하는 대상 통화 기록이 대상 통화 기록에서의 비례에 따라 스팸 전화 번호를 선별해냄으로써, 결정되는 스팸 전화 번호의 정확성을 더 향상시키는 효과를 달성할 수 있다.
상기와 같이, 본 발명의 실시예가 제공하는 스팸 전화 번호 결정 장치에 의하면, 통화 기록 집합 중 출현 횟수가 가장 많은 N개 낯선 번호를 의심 번호로 결정하고, 의심 번호가 소재하는 대상 통화 기록에 포함되는, 통화 주제를 표징하는 단어인 키워드 중에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정함으로써, 통화 기록 집합에 포함되는 수많은 전화 번호 중에서 스팸 전화 번호를 편리하고 빠르게 결정해낼 수 있어, 스팸 전화 번호의 획득 효율을 향상시킬 수 있는 효과를 달성할 수 있다.
도5a와 도5c에 도시되는 스팸 전화 번호 결정 장치는 도2와 도4a에 도시되는 방법의 흐름을 실행하기 위한 것이다.
도5b에 도시된 결정 모듈은 도4d에 도시되는 방법의 흐름을 실행하기 위한 것이다.
도6a는 일 예시적 실시예에 근거하여 나타내는 다른 하나의 스팸 전화 번호 결정 장치의 블록도로서, 본 실시예는 상기 스팸 전화 번호 결정 장치를 도1에 도시되는 실시 환경 중의 단말기(11)에 응용하는 것을 예로 들어 설명하며, 상기 스팸 전화 번호 결정 장치는 다음과 같은 모듈을 포함할 수 있다.
단말기 획득 모듈(610)은, 낯선 번호와 통화한 통화 음성 데이터와 통화 기록을 획득하도록 구성되고, 통화 기록에 낯선 번호가 포함되어 있으며, 낯선 번호는 연락처 목록에 미저장된 번호이다.
전환 모듈(620)은, 단말기 획득 모듈(610)에 의해 획득한 통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시키도록 구성된다.
키워드 획득 모듈(630)은, 전환 모듈(620)에 의해 획득한 통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하도록 구성되고, 적어도 하나의 키워드는 통화 내용 텍스트 데이터의 통화 주제를 표징하는 단어이다.
대상 생성 모듈(640)은, 키워드 획득 모듈(630)에 의해 획득한 적어도 하나의 키워드와 통화 기록에 근거하여 대상 통화 기록을 생성하도록 구성되고, 대상 통화 기록에 낯선 번호와 적어도 하나의 키워드가 포함되어 있다.
기록 제공 모듈(650)은, 대상 생성 모듈(640)에 의해 생성한 대상 통화 기록을 서버로 제공하도록 구성되고, 서버는 대상 통화 기록 중의 낯선 번호와 적어도 하나의 키워드에 근거하여 낯선 번호가 스팸 전화 번호인지 여부를 결정하기 위한 것이다.
상기와 같이, 본 발명의 실시예가 제공하는 스팸 전화 번호 결정 장치에 의하면, 낯선 번호와 적어도 하나의 키워드가 포함되어 있는 대상 통화 기록을 획득하고, 상기 대상 통화 기록을 상기 대상 통화 기록 중의 낯선 번호와 적어도 하나의 키워드에 근거하여, 상기 낯선 번호가 스팸 전화 번호인지 여부를 결정하기 위한 서버로 제공함으로써 스팸 전화 번호의 획득 효율을 향상시키는 효과를 달성할 수 있다.
도6b는 도6a에 도시되는 스팸 전화 번호 결정 장치 중의 키워드 획득 모듈(630)의 블록도로서, 상기 키워드 획득 모듈(630)은 다음과 같은 서브 모듈을 포함한다.
단어 분할 서브 모듈(631)은, 내용 텍스트 데이터에 대하여 단어 분할 처리를 진행하여 적어도 하나의 단어가 포함되어 있는 단어 분할 결과를 얻도록 구성된다.
인자 획득 서브 모듈(632)은, 단어 분할 서브 모듈(631)에 의해 얻은 단어 분할 결과 중의 각 단어의 키워드 인자를 획득하도록 구성되고, 키워드 인자는 각 단어의 주제 상관성과 양의 상관관계를 가지고, 각 단어의 주제 상관성은 각 단어와 통화 내용 텍스트 데이터의 통화 주제와의 상관성 수준을 지시하기 위한 것이다.
인자 정렬 서브 모듈(633)은, 인자 획득 서브 모듈(632)에 의해 획득한 키워드 인자의 크기에 따라 단어 분할 결과 중의 단어를 내림차순으로 배열하도록 구성된다.
키워드 결정 서브 모듈(634)은, 인자 정렬 서브 모듈(633)의 배열 중에서 배열순위 제M위까지의 단어를 내용 텍스트 데이터의 키워드로 하도록 구성된다.
선택적으로, 인자 획득 서브 모듈(632)은, 사전 설정된 유형의 사전에 근거하여 단어 분할 서브 모듈(631)에 의해 얻은 단어 분할 결과 중의 각 단어의 유형을 획득하도록 구성되고, 유형은 각 단어의 특징을 표징하기 위한 것이며; 사전 설정된 유형과 가중치의 대응관계에 근거하여, 단어 분할 결과 중의 각 단어의 유형에 따라 각 단어를 위하여 가중치를 할당하도록 구성되고; 단어 분할 결과 중의 각 단어의 단어 사용 빈도를 획득하도록 구성되며; 각 단어의 가중치와 단어 사용 빈도의 곱셈값을 각 단어의 키워드 인자로 하도록 구성된다.
선택적으로, 인자 획득 서브 모듈(632)은, 단어 분할 서브 모듈(631)에 의해 얻은 단어 분할 결과 중의 유형이 어조사, 인칭대명사 및 수식사인 단어를 제거하고 처리 후의 단어 분할 결과를 얻도록 구성되고; 처리 후의 단어 분할 결과 중의 각 단어의 키워드 인자를 획득하도록 구성된다.
보충 설명해야 할 것은, 본 발명의 실시예가 제공하는 스팸 전화 번호 결정 장치에 의하면, 키워드 인자의 크기에 따라 단어 분할 결과 중의 단어가 키워드인지 여부를 판단함으로써 키워드의 정확성을 향상시키는 효과를 달성할 수 있다.
상기와 같이, 본 발명의 실시예가 제공하는 스팸 전화 번호 결정 장치에 의하면, 낯선 번호와 적어도 하나의 키워드가 포함되어 있는 대상 통화 기록을 획득하고 상기 대상 통화 기록을 서버로 제공하며, 서버는 상기 대상 통화 기록 중의 낯선 번호와 적어도 하나의 키워드에 근거하여 상기 낯선 번호가 스팸 전화 번호인지 여부를 결정함으로써 스팸 전화 번호의 획득 효율을 향상시키는 효과를 달성할 수 있다.
도6a에 도시된 바와 같은 스팸 전화 번호 결정 장치는 도3에 도시된 바와 같은 방법의 흐름을 실행하기 위한 것이다.
도6b에 도시된 바와 같은 키워드 획득 모듈은 도4b에 도시된 바와 같은 방법의 흐름을 실행하기 위한 것이다.
도7은 일 예시적 실시예에 근거하여 나타내는 스팸 전화 번호 결정 장치(700)의 블록도이다. 예를 들어, 장치(700)는 휴대폰, 컴퓨터, 디지털방송 단말기, 메시지 송수신 기기, 게임 콘솔, 태블릿기기, 의료기기, 휘트니스기기, 개인 휴대 정보 단말기 등일 수 있다.
도7을 참조하면, 장치(700)는 프로세싱 컴포넌트(702), 메모리(704), 전원 컴포넌트(706), 멀티미디어 컴포넌트(708), 오디오 컴포넌트(710), 입력/출력(I/O) 인터페이스(712), 센서 컴포넌트(714) 및 통신 컴포넌트(716) 중의 하나 또는 다수의 컴포넌트를 포함할 수 있다.
프로세싱 컴포넌트(702)는 통상적으로 표시, 전화 호출, 데이터 통신, 카메라 동작 및 기록 동작과 관련한 장치(700)의 전체 동작을 제어한다. 프로세싱 컴포넌트(702)는 상기 스팸 전화 번호 결정 방법의 전부 또는 일부 단계를 완성하도록, 하나 또는 다수의 프로세서(720)를 포함하여 인스트럭션을 실행할 수 있다. 이 외에, 프로세싱 컴포넌트(702)는 프로세싱 컴포넌트(702)와 기타 컴포넌트 사이의 교류가 편리하도록, 하나 또는 다수의 모듈을 포함할 수 있다. 예를 들어, 프로세싱 컴포넌트(702)는 멀티미디어 컴포넌트(708)와 프로세싱 컴포넌트(702) 사이의 교류가 편리하도록 멀티미디어 모듈을 포함할 수 있다.
메모리(704)는 장치(700)의 작동을 지원하도록 각종 유형의 데이터를 저장하도록 구성된다. 이러한 데이터의 예시는 장치(700)에서 작동하기 위한 그 어느 하나의 응용 프로그램 또는 방법의 인스트럭션, 연락처 데이터, 전화번호부 데이터, 메시지, 이미지, 동영상 등을 포함한다. 메모리(704)는 스태틱 랜덤 액세스 메모리(SRAM), 전기적 소거 가능한 프로그램 가능 판독전용 메모리(EEPROM), 소거 및 프로그램 가능 판독전용 메모리(EPROM), 프로그램 가능 판독전용 메모리(PROM), 판독 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 디스크 또는 CD와 같은 모든 유형의 휘발성 또는 비휘발성 메모리 기기 또는 이들의 조합으로 이루어질 수 있다.
전원 컴포넌트(706)는 장치(700)의 각종 컴포넌트에 전력을 공급한다. 전원 컴포넌트(706)는 전원관리시스템, 하나 또는 다수의 전원, 및 장치(700)에 전력을 생성하고 관리하고 할당하는 것과 관련되는 기타 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(708)는 상기 장치(700)와 사용자 사이에 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서 스크린은 액정디스플레이(LCD)와 터치패널(TP)을 포함할 수 있다. 스크린이 터치패널을 포함하면, 스크린은 사용자가 입력한 신호를 수신하도록 터치스크린으로 실현될 수 있다. 터치패널은 터치, 슬라이딩과 터치패널의 손동작을 감지하도록, 하나 또는 다수의 터치센서를 포함한다. 상기 터치센서는 터치 또는 슬라이딩 동작의 경계를 감지할 수 있을 뿐만 아니라 상기 터치 또는 슬라이딩 동작과 관련한 지속시간과 압력도 검출할 수 있다. 일부 실시예에서, 멀티미디어 컴포넌트(708)는 하나의 프론트 카메라 및/또는 리어 카메라를 포함한다. 장치(700)가 작동모드 예를 들어, 촬영모드 또는 동영상모드일 경우, 프론트 카메라 및/또는 리어 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 프론트 카메라와 리어 카메라는 하나의 고정된 광학렌즈 시스템이거나 초점 거리와 광학 줌 능력을 구비할 수 있다.
오디오 컴포넌트(710)는 오디오신호를 출력 및/또는 입력한다. 예를 들어, 오디오 컴포넌트(710)는 하나의 마이크(MIC)를 포함하는 바, 장치(700)가 작동모드, 예를 들어 호출모드, 기록모드 및 음성인식모드일 경우, 마이크는 외부의 오디오신호를 수신한다. 수신된 오디오신호는 진일보로 메모리(704)에 저장되거나 통신 컴포넌트(716)를 거쳐 발송될 수 있다. 일부 실시예에서 오디오 컴포넌트(710)는 오디오신호를 출력하기 위한 하나의 스피커를 더 포함한다.
입출력(I/O) 인터페이스(712)는 프로세싱 컴포넌트(702)와 주변 인터페이스모듈 사이에 인터페이스를 제공하되, 상기 주변 인터페이스모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼은 홈버튼, 음량버튼, 작동버튼과 잠금버튼을 포함할 수 있지만 이에 한정되지는 않는다.
센서 컴포넌트(714)는 하나 또는 다수의 센서를 포함하여 장치(700)에 여러 방면의 상태평가를 제공한다. 예를 들어, 센서 컴포넌트(714)는 장치(700)의 온/오프상태, 컴포넌트의 상대적 측위, 예를 들어 상기 컴포넌트는 장치(700)의 모니터와 키패드를 검출할 수 있고, 센서 컴포넌트(714)는 장치(700) 또는 장치(700)의 한 컴포넌트의 위치변화, 사용자와 장치(700)의 접촉여부, 장치(700) 위치 또는 가속/감속과 장치(700)의 온도변화를 검출할 수 있다. 센서 컴포넌트(714)는 아무런 물리접촉이 없을 경우 주변 물체의 존재를 검출하도록 구성된 근접센서를 포함할 수 있다. 센서 컴포넌트(714)는 CMOS 또는 CCD 영상센서와 같은 광 센서를 더 포함하여 영상응용에 사용한다. 일부 실시예에서, 상기 센서 컴포넌트(714)는 가속도센서, 자이로센서, 자기센서, 압력센서 또는 온도센서를 더 포함할 수 있다.
통신 컴포넌트(716)는 장치(700)와 기타 기기 사이의 유선 또는 무선방식의 통신이 편리하도록 구성된다. 장치(700)는 통신표준에 기반한 무선 네트워크, 예를 들어 WiFi, 2G 또는 3G 또는 이들의 조합과 같은 무선 네트워크로 액세스할 수 있다. 일 예시적 실시예에서, 통신 컴포넌트(716)는 방송신호를 거쳐 외부 방송관리 시스템의 방송신호 또는 방송과 관련한 정보를 수신한다. 일 예시적 실시예에서, 상기 통신 컴포넌트(716)는 근거리 통신을 촉진하도록 근거리 자기장 통신(NFC)모듈을 더 포함한다. 예를 들어 NFC모듈은 무선주파수 인식(RFID)기술, 적외선 통신규격(IrDA)기술, 초광대역(UWB)기술, 블루투스(BT)기술과 기타 기술에 기반하여 실현할 수 있다.
예시적인 실시예에서 장치(700)는 상기 스팸 전화 번호 결정 방법을 수행하도록 하나 또는 다수의 응용 주문형 집적회로(ASIC), 디지털신호 프로세서(DSP), 디지털신호 처리기기(DSPD), 프로그램 가능 논리 소자(PLD), 필드 프로그램 가능 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 기타 전자부품에 의해 실현될 수 있다.
예시적인 실시예에서, 인스트럭션을 포함한 비일시적 컴퓨터 판독 가능한 기록매체, 예를 들어 상기 스팸 전화 번호 결정 방법을 완성하도록 장치(700)의 프로세서(720)가 실행하는 인스트렉션을 포함한 메모리(704)를 더 제공한다. 예를 들어, 상기 비일시적 컴퓨터 판독 가능한 기록매체는 ROM, 랜덤 액세스 메모리(RAM), CD-ROM, 테이프, 플로피 디스켓과 광 데이터 저장기기 등일 수 있다.
비일시적 컴퓨터 판독 가능한 기록매체는, 장치(700)의 프로세스가 상기 기록매체 중의 인스트럭션을 실행할 경우, 장치(700)가 상기 각 실시예가 제공하는 스팸 전화 번호 결정 방법을 수행할 수 있도록 한다.
도8은 일 예시적 실시예에 근거하여 나타내는 스팸 전화 번호 결정 장치(800)의 블록도이다. 예를 들어, 장치(800)는 하나의 서버로 제공될 수 있다. 도8을 참조하면, 장치(800)는 프로세서 컴포넌트(822)를 포함하고 이는 진일보로 하나 또는 다수의 프로세서 및 프로세서 컴포넌트(822)가 실행 가능한 인스트럭션, 예를 들어 애플리케이션 프로그램을 저장하기 위한 메모리(832)를 대표로 하는 메모리 리소스를 포함한다. 메모리(832)에 저장된 애플리케이션 프로그램은 하나 또는 하나 이상의 각 인스트럭션에 대응하는 모듈을 포함할 수 있다. 이 외에 프로세서 컴포넌트(822)는 상기 스팸 전화 번호 결정 방법을 수행하도록 인스트럭션을 실행한다.
장치(800)는 장치(800)의 전원관리를 실행하도록 구성된 하나의 전원 컴포넌트(826), 장치(800)를 네트워크에 연결하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(850), 하나의 입출력(I/O) 인터페이스(858)를 더 포함할 수 있다. 장치(800)는 메모리(832)에 저장된 운영체제, 예를 들어 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 운영체제를 작동시킬 수 있다.
도9는 일 예시적 실시예에 근거하여 나타내는 스팸 전화 번호 결정 시스템의 블록도로서, 상기 시스템은 서버(910)과 단말기(920)을 포함한다.
서버(910)는 도5a에 도시되는 스팸 전화 번호 결정 장치 또는 도5c에 도시되는 스팸 전화 번호 결정 장치를 포함할 수 있다.
단말기(920)는 도6a에 도시되는 스팸 전화 번호 결정 장치를 포함할 수 있다.
도10은 일 예시적 실시예에 근거하여 나타내는 스팸 전화 번호 결정 시스템의 블록도로서, 상기 시스템은 서버(1010)과 단말기(1020)을 포함한다.
서버(1010)는 도8에 도시되는 스팸 전화 번호 결정 장치를 포함할 수 있다.
단말기(1020)는 도7에 도시되는 스팸 전화 번호 결정 장치를 포함할 수 있다.
본 발명이 속하는 기술분야에서 통상의 지식을 가진 자들은 명세서를 고려하여 여기서 제시한 발명을 실시한 후 본 발명의 기타 실시형태를 용이하게 생각해낼 수 있다. 본원 발명은 본 발명의 모든 변형, 용도 또는 적응성 변화를 포함하고 이러한 변형, 용도 또는 적응성 변화는 본 발명의 일반적인 원리를 따르며 본 발명이 제시하지 않은 본 기술분야에서의 공지된 상식 또는 통상적인 기술수단을 포함한다. 명세서와 실시예는 예시적인 것일 뿐 본 발명의 진정한 범위와 기술적 사상은 하기의 청구범위에 의해 밝혀질 것이다.
본 발명은 상기에서 설명하고 도면에 도시한 정확한 구조에 한정되는 것이 아니라 그 범위를 벗어나지 않는 한, 여러가지 수정과 변경을 할 수 있음을 이해해야 한다. 본 발명의 범위는 첨부되는 청구범위에 의해서만 한정된다.
산업상 이용 가능성
본 발명의 실시예에 따르면, 통화 기록 집합 중에서 출현 횟수가 가장 많은 N개 낯선 번호를 의심 번호로 결정하고, 의심 번호가 소재하는 대상 통화 기록에 포함되는, 통화 주제를 표징하는 단어인 키워드 중에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정함으로써, 통화 기록 집합에 포함되는 수많은 전화 번호 중에서 스팸 전화 번호를 편리하고 빠르게 결정해낼 수 있어, 스팸 전화 번호의 획득 효율을 향상시킬 수 있는 효과를 달성할 수 있다.

Claims (26)

  1. 적어도 하나의 단말기로부터 대상 통화 기록을 획득하여 통화 기록 집합을 얻고, 상기 통화 기록 집합에는 사전 결정된 개수의 대상 통화 기록이 포함되어 있으며, 상기 각 대상 통화 기록에는 낯선 번호와 적어도 하나의 키워드가 포함되어 있고, 상기 적어도 하나의 키워드는 상기 단말기가 낯선 번호와 통화한 통화 내용 텍스트 데이터에 근거하여 얻은 것으로서 상기 통화 내용 텍스트 데이터의 통화 주제를 표징하기 위한 것이며, 상기 낯선 번호는 상기 단말기의 연락처 목록에 미저장된 번호인 단계;
    상기 통화 기록 집합 중의 N개 의심 번호를 획득하고, 상기 N개 의심 번호는 상기 사전 결정된 개수의 대상 통화 기록에 포함되는 낯선 번호가 출현 횟수에 따라 내림차순으로 배열된, 배열순위 제N위까지의 낯선 번호인 단계;
    상기 각 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전(dictionary)에 기록된 스팸 특징단어의 존재 여부를 검출하는 단계; 및
    어느 하나의 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어가 존재하면, 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정하는 단계;를 포함하는 스팸 전화 번호 결정 방법.
  2. 제1항에 있어서,
    상기 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정하는 단계는,
    제1 의심 전화 번호를 포함하는 대상 통화 기록으로 구성되는 대상 통화 기록 집합을 획득하고, 상기 제1 의심 전화 번호는 어느 하나의 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호인 단계;
    사전 설정된 스팸 특징단어와 스팸 유형의 대응관계에 근거하여, 제1통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 결정하고, 상기 스팸 유형은 상기 제1 의심 전화 번호의 스팸 목적을 표징하며, 상기 제1 통화 기록은 상기 대상 통화 기록 집합 중의 어느 하나의 통화 기록인 단계;
    상기 제1 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 상기 제1 통화 기록의 스팸 유형으로 결정하는 단계;
    상기 대상 통화 기록 집합 중에서 각 스팸 유형에 대응하는 통화 기록의 수량을 통계하는 단계;
    상기 각 스팸 유형에 대응하는 통화 기록의 수량과 상기 대상 통화 기록 집합 중의 통화 기록의 총 수의 비례값에 근거하여, 각 스팸 유형이 상기 대상 통화 기록 집합 중에서의 비례를 결정하는 단계; 및
    상기 대상 통화 기록 집합 중에서의 비례가 비례 임계값보다 큰 스팸 유형이 존재하면, 상기 제1 의심 전화 번호를 스팸 전화 번호로 결정하는 단계;를 포함하는 스팸 전화 번호 결정 방법.
  3. 제2항에 있어서,
    상기 스팸 전화 번호 결정 방법은,
    상기 대상 통화 기록 집합 중의 비례가 가장 큰 스팸 유형을 상기 스팸 전화 번호의 스팸 유형으로 하는 단계를 더 포함하는 스팸 전화 번호 결정 방법.
  4. 제1항 내지 제3항 중의 어느 한 항에 있어서,
    상기 각 대상 통화 기록에 두 개의 전화 번호가 포함되어 있고, 상기 두 개의 전화 번호 중에 낯선 번호가 포함되어 있으며,
    상기 통화 기록 집합 중의 N개 의심 번호를 획득하는 상기 단계는,
    상기 통화 기록 집합에 대하여 반복 제거 처리를 진행하고, 상기 반복 제거 처리는 적어도 두 개의 동일 유형의 통화 기록에 키워드를 가장 많이 포함하는 대상 통화 기록 이외의 통화 기록을 폐기하기 위한 것이며, 상기 동일 유형의 통화 기록은 동일한 두 개의 전화 번호를 포함하는 대상 통화 기록인 단계; 및
    처리 후의 통화 기록 집합 중의 N개 의심 번호를 획득하는 단계를 포함하는 스팸 전화 번호 결정 방법.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 적어도 하나의 단말기로부터 대상 통화 기록을 획득하여 통화 기록 집합을 얻도록 구성되고, 상기 통화 기록 집합에는 사전 결정된 개수의 대상 통화 기록이 포함되어 있으며, 상기 각 대상 통화 기록에는 낯선 번호와 적어도 하나의 키워드가 포함되어 있고, 상기 적어도 하나의 키워드는 상기 단말기가 낯선 번호와 통화한 통화 내용 텍스트 데이터에 근거하여 얻은 것으로서 상기 통화 내용 텍스트 데이터의 통화 주제를 표징하기 위한 것이며, 상기 낯선 번호는 상기 단말기의 연락처 목록에 미저장된 번호인 집합 획득 모듈;
    상기 통화 기록 집합 중의 N개 의심 번호를 획득하도록 구성되고, 상기 N개 의심 번호는 상기 사전 결정된 개수의 대상 통화 기록에 포함되는 낯선 번호가 출현 횟수에 따라 내림차순으로 배열된, 배열순위 제N위까지의 낯선 번호인 번호 획득 모듈;
    상기 각 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어의 존재 여부를 검출하도록 구성되는 검출 모듈; 및
    어느 하나의 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어가 존재하면, 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정하도록 구성되는 결정 모듈;을 포함하는 스팸 전화 번호 결정 장치.
  10. 제9항에 있어서,
    상기 결정 모듈은,
    제1 의심 전화 번호를 포함하는 대상 통화 기록으로 구성되는 대상 통화 기록 집합을 획득하도록 구성되고, 상기 제1 의심 전화 번호는 어느 하나의 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호인 집합 획득 서브 모듈;
    사전 설정된 스팸 특징단어와 스팸 유형의 대응관계에 근거하여, 제1 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 결정하도록 구성되고, 상기 스팸 유형은 상기 제1 의심 전화 번호의 스팸 목적을 표징하며, 상기 제1 통화 기록은 상기 대상 통화 기록 집합 중의 어느 하나의 통화 기록인 특징단어 결정 서브 모듈;
    상기 제1 통화 기록에 포함되는 스팸 특징단어의 스팸 유형을 상기 제1 통화 기록의 스팸 유형으로 결정하도록 구성되는 기록 결정 서브 모듈;
    상기 대상 통화 기록 집합 중에서 각 스팸 유형에 대응하는 통화 기록의 수량을 통계하도록 구성되는 통계 서브 모듈;
    상기 각 스팸 유형에 대응하는 통화 기록의 수량과 상기 대상 통화 기록 집합 중의 통화 기록의 총 수의 비례값에 근거하여, 각 스팸 유형이 상기 대상 통화 기록 집합 중에서의 비례를 결정하도록 구성되는 비례 결정 서브 모듈; 및
    상기 대상 통화 기록 집합 중에서의 비례가 비례 임계값보다 큰 스팸 유형이 존재하면, 제1 의심 전화 번호를 스팸 전화 번호로 결정하도록 구성되는 번호 결정 서브 모듈;을 포함하는 스팸 전화 번호 결정 장치.
  11. 제10항에 있어서,
    상기 스팸 전화 번호 결정 장치는,
    상기 대상 통화 기록 집합 중의 비례가 가장 큰 스팸 유형을 상기 스팸 전화 번호의 스팸 유형으로 하도록 구성되는 유형 결정 모듈을 더 포함하는 스팸 전화 번호 결정 장치.
  12. 제9항 내지 제11항 중의 어느 한 항에 있어서,
    상기 각 대상 통화 기록에 두 개의 전화 번호가 포함되어 있고, 상기 두 개의 전화 번호 중에 낯선 번호가 포함되어 있으며,
    상기 번호 획득 모듈은,
    상기 통화 기록 집합에 대하여 반복 제거 처리를 진행하도록 구성되고, 상기 반복 제거 처리는 적어도 두 개의 동일 유형의 통화 기록에 키워드를 가장 많이 포함하는 대상 통화 기록 이외의 통화 기록을 폐기하기 위한 것이며, 상기 동일 유형의 통화 기록은 동일한 두 개의 전화 번호를 포함하는 대상 통화 기록이고; 처리 후의 통화 기록 집합 중의 N개 의심 번호를 획득하도록 구성되는 스팸 전화 번호 결정 장치.
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 프로세서; 및
    상기 프로세서가 실행 가능한 인스트렉션을 저장하기 위한 메모리;를 포함하고,
    상기 프로세서는,
    적어도 하나의 단말기로부터 대상 통화 기록을 획득하여 통화 기록 집합을 얻고, 상기 통화 기록 집합에는 사전 결정된 개수의 대상 통화 기록이 포함되어 있으며, 상기 각 대상 통화 기록에는 낯선 번호와 적어도 하나의 키워드가 포함되어 있고, 상기 적어도 하나의 키워드는 상기 단말기가 낯선 번호와 통화한 통화 내용 텍스트 데이터에 근거하여 얻은 것으로서 상기 통화 내용 텍스트 데이터의 통화 주제를 표징하기 위한 것이며, 상기 낯선 번호는 상기 단말기의 연락처 목록에 미저장된 번호이고;
    상기 통화 기록 집합 중의 N개 의심 번호를 획득하고, 상기 N개 의심 번호는 상기 사전 결정된 개수의 대상 통화 기록에 포함되는 낯선 번호가 출현 횟수에 따라 내림차순으로 배열된, 배열순위 제N위까지의 낯선 번호이며;
    상기 각 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어의 존재 여부를 검출하고;
    어느 하나의 의심 번호가 소재하는 대상 통화 기록에 포함되는 키워드 중에 사전 설정된 사전에 기록된 스팸 특징단어가 존재하면, 소재하는 대상 통화 기록에 스팸 특징단어가 존재하는 의심 번호를 스팸 전화 번호로 결정하도록 구성되는 스팸 전화 번호 결정 장치.
  18. 삭제
  19. 제9항 내지 제11항 중 어느 한 항에 따른 스팸 전화 번호 결정 장치를 포함하는 서버; 및
    다른 스팸 전화 번호 결정 장치를 포함하는 단말기를 포함하며,
    상기 다른 스팸 전화 번호 결정 장치는,
    낯선 번호와 통화한 통화 음성 데이터와 통화 기록을 획득하도록 구성되고, 상기 통화 기록에 상기 낯선 번호가 포함되어 있으며, 상기 낯선 번호는 연락처 목록에 미저장된 번호인 단말기 획득 모듈;
    상기 통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시키도록 구성되는 전환 모듈;
    상기 통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하도록 구성되고, 상기 적어도 하나의 키워드는 상기 통화 내용 텍스트 데이터의 통화 주제를 표징하는 단어인 키워드 획득 모듈;
    상기 적어도 하나의 키워드와 상기 통화 기록에 근거하여 대상 통화 기록을 생성하도록 구성되고, 상기 대상 통화 기록에 상기 낯선 번호와 상기 적어도 하나의 키워드가 포함되어 있는 대상 생성 모듈; 및
    상기 대상 통화 기록을 서버로 제공하도록 구성되고, 상기 서버는 상기 대상 통화 기록 중의 상기 낯선 번호와 상기 적어도 하나의 키워드에 근거하여 상기 낯선 번호가 스팸 전화 번호인지 여부를 결정하기 위한 기록 제공 모듈;을 포함하는 스팸 전화 번호 결정 시스템.
  20. 제12항에 따른 스팸 전화 번호 결정 장치를 포함하는 서버; 및
    다른 스팸 전화 번호 결정 장치를 포함하는 단말기를 포함하고,
    상기 다른 스팸 전화 번호 결정 장치는,
    낯선 번호와 통화한 통화 음성 데이터와 통화 기록을 획득하도록 구성되고, 상기 통화 기록에 상기 낯선 번호가 포함되어 있으며, 상기 낯선 번호는 연락처 목록에 미저장된 번호인 단말기 획득 모듈;
    상기 통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시키도록 구성되는 전환 모듈;
    상기 통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하도록 구성되고, 상기 적어도 하나의 키워드는 상기 통화 내용 텍스트 데이터의 통화 주제를 표징하는 단어인 키워드 획득 모듈;
    상기 적어도 하나의 키워드와 상기 통화 기록에 근거하여 대상 통화 기록을 생성하도록 구성되고, 상기 대상 통화 기록에 상기 낯선 번호와 상기 적어도 하나의 키워드가 포함되어 있는 대상 생성 모듈; 및
    상기 대상 통화 기록을 서버로 제공하도록 구성되고, 상기 서버는 상기 대상 통화 기록 중의 상기 낯선 번호와 상기 적어도 하나의 키워드에 근거하여 상기 낯선 번호가 스팸 전화 번호인지 여부를 결정하기 위한 기록 제공 모듈;을 포함하는 스팸 전화 번호 결정 시스템.
  21. 제17항에 따른 스팸 전화 번호 결정 장치를 포함하는 서버; 및
    다른 스팸 전화 번호 결정 장치를 포함하는 단말기를 포함하며,
    상기 다른 스팸 전화 번호 결정 장치는,
    프로세서; 및
    상기 프로세서가 실행 가능한 인스트렉션을 저장하기 위한 메모리;를 포함하고,
    상기 프로세서는,
    낯선 번호와 통화한 통화 음성 데이터와 통화 기록을 획득하고, 상기 통화 기록에 상기 낯선 번호가 포함되어 있으며, 상기 낯선 번호는 연락처 목록에 미저장된 번호이고;
    상기 통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시키며;
    상기 통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하고, 상기 적어도 하나의 키워드는 상기 통화 내용 텍스트 데이터의 통화 주제를 표징하는 단어이며;
    상기 적어도 하나의 키워드와 상기 통화 기록에 근거하여 대상 통화 기록을 생성하고, 상기 대상 통화 기록에 상기 낯선 번호와 상기 적어도 하나의 키워드가 포함되어 있으며;
    상기 대상 통화 기록을 서버로 제공하고, 상기 서버는 상기 대상 통화 기록 중의 상기 낯선 번호와 상기 적어도 하나의 키워드에 근거하여 상기 낯선 번호가 스팸 전화 번호인지 여부를 결정하도록 구성되는 스팸 전화 번호 결정 시스템.
  22. 삭제
  23. 삭제
  24. 제12항에 따른 스팸 전화 번호 결정 장치를 포함하는 서버; 및
    다른 스팸 전화 번호 결정 장치를 포함하는 단말기를 포함하고,
    상기 다른 스팸 전화 번호 결정 장치는,
    낯선 번호와 통화한 통화 음성 데이터와 통화 기록을 획득하도록 구성되고, 상기 통화 기록에 상기 낯선 번호가 포함되어 있으며, 상기 낯선 번호는 연락처 목록에 미저장된 번호인 단말기 획득 모듈;
    상기 통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시키도록 구성되는 전환 모듈;
    상기 통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하도록 구성되고, 상기 적어도 하나의 키워드는 상기 통화 내용 텍스트 데이터의 통화 주제를 표징하는 단어인 키워드 획득 모듈;
    상기 적어도 하나의 키워드와 상기 통화 기록에 근거하여 대상 통화 기록을 생성하도록 구성되고, 상기 대상 통화 기록에 상기 낯선 번호와 상기 적어도 하나의 키워드가 포함되어 있는 대상 생성 모듈; 및
    상기 대상 통화 기록을 서버로 제공하도록 구성되고, 상기 서버는 상기 대상 통화 기록 중의 상기 낯선 번호와 상기 적어도 하나의 키워드에 근거하여 상기 낯선 번호가 스팸 전화 번호인지 여부를 결정하기 위한 기록 제공 모듈;을 포함하고,
    상기 키워드 획득 모듈은,
    상기 통화 내용 텍스트 데이터에 대하여 단어 분할 처리를 진행하여 적어도 하나의 단어가 포함되어 있는 단어 분할 결과를 얻도록 구성되는 단어 분할 서브 모듈;
    상기 단어 분할 결과 중의 각 단어의 키워드 인자를 획득하도록 구성되고, 상기 키워드 인자는 상기 각 단어의 주제 상관성과 양의 상관관계를 가지고, 상기 각 단어의 주제 상관성은 상기 각 단어와 상기 통화 내용 텍스트 데이터의 통화 주제와의 상관성 수준을 지시하기 위한 것인 인자 획득 서브 모듈;
    상기 키워드 인자의 크기에 따라 상기 단어 분할 결과 중의 단어를 내림차순으로 배열하도록 구성되는 인자 정렬 서브 모듈; 및
    배열순위 제M위 까지의 단어를 상기 통화 내용 텍스트 데이터의 키워드로 하도록 구성되는 키워드 결정 서브 모듈;을 포함하는 스팸 전화 번호 결정 시스템.
  25. 제12항에 따른 스팸 전화 번호 결정 장치를 포함하는 서버; 및
    다른 스팸 전화 번호 결정 장치를 포함하는 단말기를 포함하고,
    상기 다른 스팸 전화 번호 결정 장치는,
    낯선 번호와 통화한 통화 음성 데이터와 통화 기록을 획득하도록 구성되고, 상기 통화 기록에 상기 낯선 번호가 포함되어 있으며, 상기 낯선 번호는 연락처 목록에 미저장된 번호인 단말기 획득 모듈;
    상기 통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시키도록 구성되는 전환 모듈;
    상기 통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하도록 구성되고, 상기 적어도 하나의 키워드는 상기 통화 내용 텍스트 데이터의 통화 주제를 표징하는 단어인 키워드 획득 모듈;
    상기 적어도 하나의 키워드와 상기 통화 기록에 근거하여 대상 통화 기록을 생성하도록 구성되고, 상기 대상 통화 기록에 상기 낯선 번호와 상기 적어도 하나의 키워드가 포함되어 있는 대상 생성 모듈; 및
    상기 대상 통화 기록을 서버로 제공하도록 구성되고, 상기 서버는 상기 대상 통화 기록 중의 상기 낯선 번호와 상기 적어도 하나의 키워드에 근거하여 상기 낯선 번호가 스팸 전화 번호인지 여부를 결정하기 위한 기록 제공 모듈;을 포함하고,
    상기 키워드 획득 모듈은,
    상기 통화 내용 텍스트 데이터에 대하여 단어 분할 처리를 진행하여 적어도 하나의 단어가 포함되어 있는 단어 분할 결과를 얻도록 구성되는 단어 분할 서브 모듈;
    상기 단어 분할 결과 중의 각 단어의 키워드 인자를 획득하도록 구성되고, 상기 키워드 인자는 상기 각 단어의 주제 상관성과 양의 상관관계를 가지고, 상기 각 단어의 주제 상관성은 상기 각 단어와 상기 통화 내용 텍스트 데이터의 통화 주제와의 상관성 수준을 지시하기 위한 것인 인자 획득 서브 모듈;
    상기 키워드 인자의 크기에 따라 상기 단어 분할 결과 중의 단어를 내림차순으로 배열하도록 구성되는 인자 정렬 서브 모듈; 및
    배열순위 제M위까지의 단어를 상기 통화 내용 텍스트 데이터의 키워드로 하도록 구성되는 키워드 결정 서브 모듈;을 포함하며,
    상기 인자 획득 서브 모듈은,
    사전 설정된 유형의 사전에 근거하여 상기 단어 분할 결과 중의 각 단어의 유형을 획득하도록 구성되고, 상기 유형은 상기 각 단어의 특징을 표징하기 위한 것이며; 사전 설정된 유형과 가중치의 대응관계에 근거하여, 상기 단어 분할 결과 중의 각 단어의 유형에 따라 상기 각 단어를 위하여 가중치를 할당하도록 구성되고; 상기 단어 분할 결과 중의 각 단어의 단어 사용 빈도를 획득하도록 구성되며; 상기 각 단어의 가중치와 단어 사용 빈도의 곱셈값을 상기 각 단어의 키워드 인자로 하도록 구성되는 스팸 전화 번호 결정 시스템.
  26. 제12항에 따른 스팸 전화 번호 결정 장치를 포함하는 서버; 및
    다른 스팸 전화 번호 결정 장치를 포함하는 단말기를 포함하고,
    상기 다른 스팸 전화 번호 결정 장치는,
    낯선 번호와 통화한 통화 음성 데이터와 통화 기록을 획득하도록 구성되고, 상기 통화 기록에 상기 낯선 번호가 포함되어 있으며, 상기 낯선 번호는 연락처 목록에 미저장된 번호인 단말기 획득 모듈;
    상기 통화 음성 데이터를 통화 내용 텍스트 데이터로 전환시키도록 구성되는 전환 모듈;
    상기 통화 내용 텍스트 데이터의 적어도 하나의 키워드를 획득하도록 구성되고, 상기 적어도 하나의 키워드는 상기 통화 내용 텍스트 데이터의 통화 주제를 표징하는 단어인 키워드 획득 모듈;
    상기 적어도 하나의 키워드와 상기 통화 기록에 근거하여 대상 통화 기록을 생성하도록 구성되고, 상기 대상 통화 기록에 상기 낯선 번호와 상기 적어도 하나의 키워드가 포함되어 있는 대상 생성 모듈; 및
    상기 대상 통화 기록을 서버로 제공하도록 구성되고, 상기 서버는 상기 대상 통화 기록 중의 상기 낯선 번호와 상기 적어도 하나의 키워드에 근거하여 상기 낯선 번호가 스팸 전화 번호인지 여부를 결정하기 위한 기록 제공 모듈;을 포함하고,
    상기 키워드 획득 모듈은,
    상기 통화 내용 텍스트 데이터에 대하여 단어 분할 처리를 진행하여 적어도 하나의 단어가 포함되어 있는 단어 분할 결과를 얻도록 구성되는 단어 분할 서브 모듈;
    상기 단어 분할 결과 중의 각 단어의 키워드 인자를 획득하도록 구성되고, 상기 키워드 인자는 상기 각 단어의 주제 상관성과 양의 상관관계를 가지고, 상기 각 단어의 주제 상관성은 상기 각 단어와 상기 통화 내용 텍스트 데이터의 통화 주제와의 상관성 수준을 지시하기 위한 것인 인자 획득 서브 모듈;
    상기 키워드 인자의 크기에 따라 상기 단어 분할 결과 중의 단어를 내림차순으로 배열하도록 구성되는 인자 정렬 서브 모듈; 및
    배열순위 제M위 까지의 단어를 상기 통화 내용 텍스트 데이터의 키워드로 하도록 구성되는 키워드 결정 서브 모듈;을 포함하며,
    상기 인자 획득 서브 모듈은,
    사전 설정된 유형의 사전에 근거하여 상기 단어 분할 결과 중의 각 단어의 유형을 획득하도록 구성되고, 상기 유형은 상기 각 단어의 특징을 표징하기 위한 것이며; 사전 설정된 유형과 가중치의 대응관계에 근거하여, 상기 단어 분할 결과 중의 각 단어의 유형에 따라 상기 각 단어를 위하여 가중치를 할당하도록 구성되고; 상기 단어 분할 결과 중의 각 단어의 단어 사용 빈도를 획득하도록 구성되며; 상기 각 단어의 가중치와 단어 사용 빈도의 곱셈값을 상기 각 단어의 키워드 인자로 하도록 구성되고,
    또한, 상기 인자 획득 서브 모듈은,
    상기 단어 분할 결과 중의 유형이 어조사, 인칭대명사 및 수식사인 단어를 제거하고 처리 후의 단어 분할 결과를 얻도록 구성되고; 상기 처리 후의 단어 분할 결과 중의 각 단어의 키워드 인자를 획득하도록 구성되는 스팸 전화 번호 결정 시스템.
KR1020167011668A 2015-07-13 2015-12-17 스팸 전화 번호 결정 방법, 장치 및 시스템 KR101826329B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510408711.7 2015-07-13
CN201510408711.7A CN105100366B (zh) 2015-07-13 2015-07-13 骚扰电话号码确定方法、装置和系统
PCT/CN2015/097746 WO2017008440A1 (zh) 2015-07-13 2015-12-17 骚扰电话号码确定方法、装置和系统

Publications (2)

Publication Number Publication Date
KR20170018297A KR20170018297A (ko) 2017-02-17
KR101826329B1 true KR101826329B1 (ko) 2018-03-22

Family

ID=54579870

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167011668A KR101826329B1 (ko) 2015-07-13 2015-12-17 스팸 전화 번호 결정 방법, 장치 및 시스템

Country Status (8)

Country Link
US (1) US10291774B2 (ko)
EP (1) EP3119070B1 (ko)
JP (1) JP6415554B2 (ko)
KR (1) KR101826329B1 (ko)
CN (1) CN105100366B (ko)
MX (1) MX359189B (ko)
RU (1) RU2016119025A (ko)
WO (1) WO2017008440A1 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9591131B2 (en) 2015-04-20 2017-03-07 Youmail, Inc. System and method for identifying unwanted callers and rejecting or otherwise disposing of calls from same
CN105100366B (zh) * 2015-07-13 2018-03-20 小米科技有限责任公司 骚扰电话号码确定方法、装置和系统
CN106993290B (zh) * 2016-01-20 2021-05-18 阿里巴巴集团控股有限公司 通信记录的检测方法及装置
CN106170129B (zh) * 2016-07-14 2019-12-31 广东小天才科技有限公司 一种通信控制方法及装置、通信设备
US10904392B2 (en) 2016-08-01 2021-01-26 Youmail, Inc. System and method for facilitating setup and joining of conference calls
US10110738B1 (en) * 2016-08-19 2018-10-23 Symantec Corporation Systems and methods for detecting illegitimate voice calls
CN106375583B (zh) * 2016-09-13 2020-11-13 惠州Tcl移动通信有限公司 一种移动终端的智能来电屏蔽方法及其装置
CN107872590A (zh) * 2016-09-26 2018-04-03 北京搜狗科技发展有限公司 一种电话识别的方法、装置和设备
CN106657690A (zh) * 2016-12-09 2017-05-10 北京奇虎科技有限公司 一种防止电话诈骗的方法、装置及移动终端
JP6875905B2 (ja) * 2017-03-29 2021-05-26 株式会社日立情報通信エンジニアリング 通話制御システム及び通話制御方法
CN107181879B (zh) * 2017-04-28 2019-10-25 百度在线网络技术(北京)有限公司 识别来电意图
CN107689962B (zh) * 2017-09-25 2021-03-19 深圳市盛路物联通讯技术有限公司 一种数据流过滤方法及系统
US10212278B1 (en) * 2017-11-15 2019-02-19 International Business Machines Corporation Identifying and controlling unwanted calls
CN108933870B (zh) * 2018-07-26 2021-06-11 平安科技(深圳)有限公司 销售电话的拨号控制方法、装置、计算机设备和存储介质
US10455085B1 (en) * 2018-10-26 2019-10-22 Symantec Corporation Systems and methods for real-time scam protection on phones
US10978095B2 (en) * 2018-11-06 2021-04-13 International Business Machines Corporation Control of incoming calls
US10659605B1 (en) 2019-04-26 2020-05-19 Mastercard International Incorporated Automatically unsubscribing from automated calls based on call audio patterns
US10757252B1 (en) 2019-06-25 2020-08-25 Youmail, Inc. Identifying, screening, and blocking of calls from problematic telecommunications carriers and number blocks
CN110955754A (zh) * 2019-12-01 2020-04-03 国家电网有限公司客户服务中心 一种用于重复来电分析识别的模型构建方法
KR102377598B1 (ko) 2020-07-30 2022-03-23 한국과학기술연구원 스핀 싱커를 포함하는 자기 소자
RU2766273C1 (ru) * 2020-09-24 2022-02-10 Акционерное общество "Лаборатория Касперского" Система и способ определения нежелательного звонка
CN112364153A (zh) * 2020-11-10 2021-02-12 中数通信息有限公司 一种基于干扰特征的关键词识别方法及装置
US11758040B2 (en) * 2020-12-31 2023-09-12 Bce Inc. Systems and methods for use in blocking of robocall and scam call phone numbers
US11711464B2 (en) 2021-02-24 2023-07-25 T-Mobile Usa, Inc. Spam telephone call reducer

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100742130B1 (ko) * 2006-02-09 2007-07-24 엔에이치엔(주) 키워드 기반 스팸 검출 방법 및 시스템
KR101033870B1 (ko) * 2011-01-19 2011-05-11 (주)지란지교소프트 스팸 전화 처리 방법 및 장치

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10155017A (ja) * 1996-11-20 1998-06-09 Anritsu Corp 電話端末装置
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
JP2004096502A (ja) * 2002-08-30 2004-03-25 Nippon Telegraph & Telephone East Corp 録音データ主題検出装置
US20060168032A1 (en) 2004-12-21 2006-07-27 Lucent Technologies, Inc. Unwanted message (spam) detection based on message content
US8126712B2 (en) * 2005-02-08 2012-02-28 Nippon Telegraph And Telephone Corporation Information communication terminal, information communication system, information communication method, and storage medium for storing an information communication program thereof for recognizing speech information
GB0522358D0 (en) 2005-11-02 2005-12-07 Mcfeeters Ken Call interceptor
JP2007139864A (ja) * 2005-11-15 2007-06-07 Nec Corp 不審会話検出装置、方法及びそれを用いた通信装置
JP2007228384A (ja) * 2006-02-24 2007-09-06 Fujitsu Ltd 不審通話判別プログラム
JP2007266944A (ja) * 2006-03-28 2007-10-11 Nec Corp 電話端末装置および発信者検証方法
WO2007141247A1 (de) * 2006-06-09 2007-12-13 Nokia Siemens Networks Gmbh & Co. Kg Verfahren und endgerät zum erkennen von störenden telefonanrufen
WO2008031871A1 (en) 2006-09-13 2008-03-20 Imencro Software Sa Method for automatically classifying communication between a sender and a recipient
JP5418225B2 (ja) 2007-07-10 2014-02-19 日本電気株式会社 通信管理システム、通信管理端末、通信管理方法、及び通信管理プログラム
US8495727B2 (en) 2007-08-07 2013-07-23 Microsoft Corporation Spam reduction in real time communications by human interaction proof
US8144841B2 (en) * 2007-12-05 2012-03-27 Microsoft Corporation Multimedia spam determination using speech conversion
CN101472007A (zh) * 2007-12-28 2009-07-01 中国移动通信集团公司 一种确定骚扰电话的方法和系统
KR20100033565A (ko) 2008-09-22 2010-03-31 주식회사 케이티테크 스팸 전화번호의 등록과 이를 활용하는 방법 및 장치
JP2010258556A (ja) * 2009-04-22 2010-11-11 Chugoku Electric Power Co Inc:The 迷惑電話対処システム
US20110280160A1 (en) 2010-05-14 2011-11-17 Mcafee, Inc. VoIP Caller Reputation System
JP5614121B2 (ja) * 2010-06-21 2014-10-29 日本電気株式会社 情報処理システム、電話機、情報処理方法及び情報処理プログラム
JP2013005205A (ja) * 2011-06-16 2013-01-07 Ntt Docomo Inc 悪質電話防止装置、悪質電話防止システム
CN102546992A (zh) * 2011-12-12 2012-07-04 华为技术有限公司 一种垃圾语音消息过滤方法、过滤装置及过滤系统
US20140120885A1 (en) * 2012-10-31 2014-05-01 David J. Luneau System and method for handling undesired phone calls
CN103354575A (zh) 2013-06-14 2013-10-16 广东欧珀移动通信有限公司 一种主被叫时提示历史通话内容的方法以及移动终端
WO2015054993A1 (zh) 2013-10-18 2015-04-23 中兴通讯股份有限公司 垃圾信息处理方法及装置
CN103647882B (zh) 2013-11-05 2016-07-06 百度在线网络技术(北京)有限公司 针对通信中陌生号码的处理方法、系统以及设备
CN104104772B (zh) * 2014-07-15 2017-06-27 中国联合网络通信集团有限公司 一种欺诈电话提示方法、服务器及系统
CN104184872A (zh) 2014-09-14 2014-12-03 陈桂芳 一种基于通话内容防骚扰电话的手机实现方法
CN104580650A (zh) * 2014-12-25 2015-04-29 广东欧珀移动通信有限公司 一种提示诈骗电话的方法及通信终端
CN104580725A (zh) * 2014-12-31 2015-04-29 广东欧珀移动通信有限公司 一种提示诈骗电话的方法及通信终端
CN105100366B (zh) * 2015-07-13 2018-03-20 小米科技有限责任公司 骚扰电话号码确定方法、装置和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100742130B1 (ko) * 2006-02-09 2007-07-24 엔에이치엔(주) 키워드 기반 스팸 검출 방법 및 시스템
KR101033870B1 (ko) * 2011-01-19 2011-05-11 (주)지란지교소프트 스팸 전화 처리 방법 및 장치

Also Published As

Publication number Publication date
RU2016119025A3 (ko) 2018-07-19
MX2016006061A (es) 2017-05-04
JP6415554B2 (ja) 2018-10-31
WO2017008440A1 (zh) 2017-01-19
KR20170018297A (ko) 2017-02-17
US20170019534A1 (en) 2017-01-19
RU2016119025A (ru) 2018-07-19
JP2017530431A (ja) 2017-10-12
EP3119070B1 (en) 2019-09-11
CN105100366B (zh) 2018-03-20
MX359189B (es) 2018-09-18
EP3119070A1 (en) 2017-01-18
US10291774B2 (en) 2019-05-14
CN105100366A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
KR101826329B1 (ko) 스팸 전화 번호 결정 방법, 장치 및 시스템
CN105426152B (zh) 弹幕的显示方法和装置
US20170052947A1 (en) Methods and devices for training a classifier and recognizing a type of information
CN107621886B (zh) 一种输入推荐方法、装置及电子设备
CN111859020B (zh) 推荐方法、装置、电子设备及计算机可读存储介质
CN107784045B (zh) 一种快捷回复方法和装置、一种用于快捷回复的装置
CN107291772B (zh) 一种搜索访问方法、装置及电子设备
WO2018040040A1 (zh) 消息通信方法及装置
CN110391966B (zh) 一种消息处理方法、装置和用于消息处理的装置
CN110019885B (zh) 一种表情数据推荐方法及装置
CN110928425A (zh) 信息监控方法及装置
CN110020082B (zh) 一种搜索方法及装置
CN107846347B (zh) 一种通信内容处理方法、装置及电子设备
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN105450510B (zh) 用于社交网络平台的好友管理方法、装置及服务器
CN110020153B (zh) 一种搜索方法及装置
CN111382295B (zh) 一种图像搜索结果的排序方法和装置
CN110362686B (zh) 一种词库的生成方法、装置、终端设备和服务器
CN110020117B (zh) 一种兴趣信息获取方法、装置及电子设备
CN111339263A (zh) 一种信息推荐方法、装置和电子设备
CN111273786A (zh) 智能输入方法及装置
CN111782761B (zh) 评论信息的确定方法、装置、电子设备及存储介质
CN110929122A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN111666436B (zh) 一种数据处理方法、装置和电子设备
CN112462992B (zh) 一种信息处理方法、装置、电子设备及介质

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)