KR20170032880A - 분류기 트레이닝, 타입 식별 방법 및 장치 - Google Patents

분류기 트레이닝, 타입 식별 방법 및 장치 Download PDF

Info

Publication number
KR20170032880A
KR20170032880A KR1020167003870A KR20167003870A KR20170032880A KR 20170032880 A KR20170032880 A KR 20170032880A KR 1020167003870 A KR1020167003870 A KR 1020167003870A KR 20167003870 A KR20167003870 A KR 20167003870A KR 20170032880 A KR20170032880 A KR 20170032880A
Authority
KR
South Korea
Prior art keywords
classifier
training
sample
feature
information
Prior art date
Application number
KR1020167003870A
Other languages
English (en)
Other versions
KR101778784B1 (ko
Inventor
핑저 왕
페이 롱
타오 장
Original Assignee
시아오미 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시아오미 아이엔씨. filed Critical 시아오미 아이엔씨.
Publication of KR20170032880A publication Critical patent/KR20170032880A/ko
Application granted granted Critical
Publication of KR101778784B1 publication Critical patent/KR101778784B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F17/2705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • G06F17/2755
    • G06F17/30705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Abstract

본 개시는 분류기 트레이닝, 타입 식별 방법 및 장치를 개시하는 것으로서, 자연언어 처리분야에 속한다. 분류기 트레이닝 방법은, 샘플정보에서 타겟 키워드를 포함하는 샘플단문을 추출하는 단계; 매 상기 샘플단문이 타겟유형에 속하는지 여부에 따라, 상기 샘플단문에 대해 2진법으로 표기하여, 샘플 트레이닝 집합을 획득하는 단계; 상기 샘플 트레이닝 집합 중의 상기 매 샘플단문을 분할하여 여러 개의 단어를 획득하는 단계; 상기 여러 개의 단어에서 지정 특징 집합을 추출하며, 상기 지정 특징 집합은 적어도 하나의 특징단어를 포함하는 단계; 상기 지정 특징 집합 중의 상기 특징단어에 따라 분류기를 구축하는 단계; 및 상기 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 상기 분류기에 대한 트레이닝을 수행하는 단계를 포함한다. 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함한 샘플단문의 분할결과에 따라 추출된 것이므로, 상기 분류기는 타겟 키워드를 포함하는 단문에 대해 보다 정확히 추측할 수 있음으로, 보다 정확한 식별결과를 가져올 수 있다.

Description

분류기 트레이닝, 타입 식별 방법 및 장치{METHOD AND DEVICE FOR TRAINING CLASSIFIER, RECOGNIZING TYPE}
관련 출원에 대한 상호 참조
본 출원은 2015년 8월 19일 출원되고, 중국 출원번호 201510511468.1인 중국 특허 출원을 기초로 우선권을 주장하며 제출한 것으로, 당해 중국 특허 출원의 모든 내용은 참조로서 본 출원에 인용된다.
본 개시는 자연언어 처리 기술분야에 관한 것으로서, 보다 구체적으로는 분류기 트레이닝, 타입 식별 방법 및 장치에 관한 것이다.
메시지 내용에 대한 식별과 추출은 자연언어 처리의 실질적인 응용의 하나이다.
생일 메시지를 예로 들면, 관련기술에는 식별 방법이 제공되며, 당해 식별 방법은, 미리 복수 개의 키워드를 설정하고, 메시지 내용 중에 전부 또는 일부 키워드가 포함되어 있는지 여부를 식별하는 것을 통해, 당해 메시지가 생일날짜가 포함되어 있는 메시지인지 여부를 식별한다.
본 개시는, 키워드를 직접적으로 이용함으로 인한 타입 식별의 불 정확성의 과제를 해결하기 위하여, 분류기 트레이닝, 타입 식별 방법 및 장치를 제공한다. 상기 과제해결수단은 이하와 같다.
본 개시의 실시예의 제1 양태에 따르면, 분류기 트레이닝 방법이 제공되며, 상기 방법은,
샘플정보에서 타겟 키워드를 포함하는 샘플단문을 추출하는 단계;
매 샘플단문이 타겟유형에 속하는지 여부에 따라, 샘플단문에 대해 2진법으로 표기하여, 샘플 트레이닝 집합을 획득하는 단계;
샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 획득하는 단계;
여러 개의 단어에서 지정 특징 집합을 추출하며, 지정 특징 집합은 적어도 하나의 특징단어를 포함하는 단계;
지정 특징 집합 중의 특징단어에 따라 분류기를 구축하는 단계; 및
샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 분류기에 대한 트레이닝을 수행하는 단계를 포함한다.
일 실시예에 있어서, 여러 개의 단어에서 지정 특징 집합을 추출하는 단계는,
카이자승 검증에 의해 여러 개의 단어에서 지정 특징 집합을 추출하는 단계, 또는 정보획득에 따라 여러 개의 단어에서 지정 특징 집합을 추출하는 단계를 포함한다.
일 실시예에 있어서, 지정 특징 집합 중의 특징단어에 따라 분류기를 구축하는 단계는,
지정 특징 집합 중의 특징단어를 나이브베이스 분류기로 구축하며, 각 특징단어는 상기 나이브베이스 분류기에서 서로 독립적인 것을 포함한다.
일 실시예에 있어서, 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 분류기에 대한 트레이닝을 수행하는 단계는,
나이브베이스 분류기의 매 특징단어에 대해, 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라, 특징단어를 포함하는 단문이 타겟유형에 속하는 제1 조건확률과, 특징단어를 포함하는 단문이 타겟유형에 속하지 않는 제2 조건확률을 통계하는 단계; 및
각 특징단어, 제1 조건확률과 제2 조건확률에 따라, 트레이닝 후의 나이브베이스 분류기를 획득하는 단계를 포함한다.
본 개시의 제2 양태에 따르면, 타입 식별 방법이 제공되며, 상기 방법은,
원시정보에서 타겟 키워드를 포함하는 단문을 추출하는 단계;
추출된 단문에서 지정 특징 집합에 속하는 특징단어에 따라, 원시정보의 특징 집합을 생성하며, 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함하는 샘플단문의 분할결과에 의해 추출하여 획득되는 단계;
원시정보의 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하며, 분류기는 미리 지정 특징 집합 중의 특징단어에 따라 구축되는 단계; 및
분류기의 예측결과를 획득하며, 예측결과는 원시정보가 타겟유형에 속하거나 또는 타깃유형에 속하지 않은 것을 나타내는 단계를 포함한다.
일 실시예에 있어서, 원시정보의 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하는 단계는,
원시정보의 특징 집합 중의 매 특징단어를 트레이닝 후의 나이브베이스 분류기에 입력하여, 원시정보가 타겟유형에 속하는 제1 예측확률과 원시정보가 타겟유형에 속하지 않는 제2 예측확률을 계산하는 단계; 및
제1 예측확률과 제2 예측확률의 크기 관계에 따라, 원시정보가 타겟유형에 속하는지 여부를 예측하는 단계를 포함하며,
그 중, 트레이닝 후의 나이브베이스 분류기에는 매 특징단어의 제1 조건확률과 제2 조건확률이 포함되고, 제1 조건확률은 특징단어를 포함하는 단문이 타겟유형에 속하는 확률이고, 제2 조건확률은 특징단어를 포함하는 단문이 타겟유형에 속하지 않는 확률이다.
일 실시예에 있어서, 당해 방법은,
만약 예측된 원시정보가 타겟유형에 속할 경우 원시정보에서 타겟정보를 추출하는 단계를 더 포함한다.
일 실시예에 있어서, 타겟정보는 생일날짜이고,
원시정보에서 추출된 타겟정보는,
정규 표현식을 통해 원시정보에서 추출된 상기 생일날짜; 또는 원시정보의 수신날짜를 생일날짜로서 추출한 상기 생일날짜를 포함한다.
본 개시의 제3 양태에 따르면, 분류기 트레이닝 장치가 제공되며, 당해 장치는,
샘플정보에서 타겟 키워드를 포함하는 샘플단문을 추출하도록 구성된 단문 추출 모듈;
매 샘플단문이 타겟유형에 속하는지 여부에 따라, 샘플단문에 대해 2진법으로 표기하여, 샘플 트레이닝 집합을 획득하도록 구성된 단문 표기 모듈;
샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 획득하도록 구성된 단문 분할 모듈;
여러 개의 단어에서 적어도 하나의 특징단어를 포함하는 지정 특징 집합을 추출하도록 구성된 특징단어 추출 모듈;
지정 특징 집합 중의 특징단어에 따라 분류기를 구축하도록 구성된 분류기 구축 모듈; 및
샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 분류기에 대한 트레이닝을 수행하도록 구성된 분류기 트레이닝 모듈을 포함한다.
일 실시예에 있어서, 특징단어 추출 모듈은 카이자승 검증에 의해 여러 개의 단어에서 지정 특징 집합을 추출하도록 구성되거나, 또는, 특징단어 추출 모듈은 정보획득에 따라 여러 개의 단어에서 지정 특징 집합을 추출하도록 구성된다.
일 실시예에 있어서, 분류기 구축 모듈은 지정 특징 집합 중의 상기 특징단어를 나이브베이스 분류기로 구축하도록 구성되며, 각 특징단어는 나이브베이스 분류기에서 서로 독립적이다.
일 실시예에 있어서, 분류기 트레이닝 모듈은,
나이브베이스 분류기 중의 매 특징단어에 대해, 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라, 특징단어를 포함하는 단문이 타겟유형에 속하는 제1 조건확률과, 특징단어를 포함하는 단문이 타겟유형에 속하지 않는 제2 조건확률을 통계하도록 구성되는 통계 서브 모듈; 및
각 특징단어, 제1 조건확률과 제2 조건확률에 따라 트레이닝 후의 나이브베이스 분류기를 획득하도록 구성되는 트레이닝 서브 모듈을 포함한다.
본 개시의 제4 양태에 따르면, 타입 식별 장치가 제공되며, 당해 장치는,
원시정보에서 타겟 키워드를 포함하는 단문을 추출하도록 구성되는 원시 추출 모듈;
추출된 단문에서 지정 특징 집합에 속하는 특징단어에 따라, 원시정보의 특징 집합을 생성하도록 구성되며, 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함하는 샘플단문의 분할결과에 의해 추출하여 획득되는 특징 추출 모듈;
원시정보의 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하도록 구성되며, 분류기는 미리 지정 특징 집합 중의 특징단어에 따라 구축되는 특징 입력 모듈; 및
분류기의 예측결과를 얻도록 구성되며, 예측결과는 원시정보가 타겟유형에 속하거나 또는 타겟유형에 속하지 않은 것을 나타내는 결과 획득 모듈을 포함한다.
일 실시예에 있어서, 특징 입력 모듈은,
원시정보의 특징 집합 중의 매 특징단어를 트레이닝 후의 나이브베이스 분류기에 입력하여 원시정보가 타겟유형에 속하는 제1 예측확률과 원시정보가 타겟유형에 속하지 않는 제2 예측확률을 계산하도록 구성되는 계산 서브 모듈;
제1 예측확률과 제2 예측확률의 크기 관계에 따라, 원시정보가 상기 타겟유형에 속하는지 여부를 예측하도록 구성되는 예측 서브 모듈을 포함하며,
그 중, 트레이닝 후의 나이브베이스 분류기에는 매 특징단어의 제1 조건확률과 제2 조건확률이 포함되고, 제1 조건확률은 특징단어를 포함하는 단문이 타겟유형에 속하는 확률이고, 제2 조건확률은 특징단어를 포함하는 단문이 타겟유형에 속하지 않는 확률이다.
일 실시예에 있어서, 당해 장치는,
원시정보가 상기 타겟유형에 속하는 것을 예측할 경우, 원시정보에서 타겟정보를 추출하도록 구성되는 정보 추출 모듈을 더 포함한다.
일 실시예에 따르면, 타겟정보는 생일날짜이고,
정보 추출 모듈은, 정규 표현식을 통해 원시정보에서 생일날짜를 추출하도록 배치되거나, 또는 정보 추출 모듈은, 원시정보의 수신날짜를 상기 생일날짜로 추출하도록 구성된다.
본 개시의 제5 양태에 따르면, 분류기 트레이닝 장치가 제공되며, 당해 장치는,
프로세서 및 프로세서가 실행할 수 있는 명령을 저장하기 위한 메모리를 포함하고,
상기 프로세서는,
샘플정보에서 타겟 키워드를 포함하는 샘플단문을 추출하고;
매 샘플단문이 타겟유형에 속하는지 여부에 따라, 샘플단문에 대해 2진법으로 표기하여 샘플 트레이닝 집합을 획득하고;
샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 획득하며;
여러 개의 단어에서 적어도 하나의 특징단어를 포함하는 지정 특징 집합을 추출하며;
지정 특징 집합 중의 특징단어에 따라 분류기를 구축하며;
샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 분류기에 대한 트레이닝을 수행하도록 구성된다.
본 개시예의 제 6양태에 따르면, 타입 식별 장치가 제공되며, 당해 장치는,
프로세서 및 프로세서가 실행할 수 있는 명령을 저장하기 위한 메모리를 포함하고,
상기 프로세서는,
원시정보에서 타겟 키워드를 포함하는 단문을 추출하고;
추출된 단문에서 지정 특징 집합에 속하는 특징단어에 따라, 원시정보의 특징 집합을 생성하고, 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함하는 샘플단문의 분할결과에 의해 추출하여 획득되며;
원시정보의 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하고, 분류기는 미리 지정 특징 집합 중의 특징단어에 따라 구축되며;
분류기의 원시정보가 타겟유형에 속하거나 또는 타겟유형에 속하지 않은 것을 나타내는 예측결과를 획득하도록 구성된다.
본 개시의 실시예에서 제공되는 기술과제해결수단은 이하와 같은 유익한 효과를 가져온다.
샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 획득하고, 당해 여러 개의 단어로부터 지정 특징 집합을 추출하고, 지정 특징 집합 중의 특징단어에 따라 분류기를 구축함으로써, 단순하게 생일 키워드를 이용하여 메시지유형을 분석할 경우, 식별결과가 정확하지 않는 과제를 해결한다. 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함한 샘플단문의 분할결과에 따라 추출된 것으므로, 상기 분류기는 타겟 키워드를 포함하는 단문에 대해 보다 정확히 추측할 수 있음으로, 보다 정확한 식별결과를 가져올 수 있다.
상기 일반적인 설명과 후술한 세부사항에 대한 설명은 단지 예시적인 것일뿐 본 개시를 한정하는 것이 아님을 이해되어야 할 부분이다.
하기 도면은 본 명세서의 일부로서, 본 개시의 실시예를 예시하고, 본 개시의 원리를 설명하기 위한 것이다.
도 1은 예시적인 실시예에 따른 분류기 트레이닝 방법의 흐름도이다.
도 2는 다른 예시적인 실시예에 따른 분류기 트레이닝 방법의 흐름도이다.
도 3은 예시적인 실시예에 따른 타입 식별 방법의 흐름도이다.
도 4는 다른 예시적인 실시예에 따른 타입 식별 방법의 흐름도이다.
도 5는 예시적인 실시예에 따른 분류기 트레이닝 장치의 블록도이다.
도 6은 다른 예시적인 실시예에 따른 분류기 트레이닝 장치의 블록도이다.
도 7은 예시적인 실시예에 따른 타입 식별 장치의 블록도이다.
도 8은 다른 예시적인 실시예에 따른 타입 식별 장치의 블록도이다.
도 9는 예시적인 살시예에 따른 분류기 트레이닝 장치 또는 타입 식별 장치에 사용되는 블록도이다.
여기서, 예시적인 실시예에 대하여 상세히 설명하고, 그 예시를 도면에 나타낸다. 아래의 설명이 도면에 관한 것일 때, 별도의 표시가 없는 한, 상이한 도면 중의 동일한 숫자는 동일 또는 유사한 요소를 표시한다. 아래의 예시적인 실시예에 설명되는 실시형태는 본 개시와 일치한 모든 실시형태를 대표하는 것이 아니다. 반대로, 이들은 부가된 특허청구범위에서 상세히 설명된 본 개시의 일부와 일치한 장치 및 방법의 예시일 뿐이다.
자연언어 표현의 다양성과 복잡성으로 인해, 타겟 키워드를 직접 이용하여 타입 식별을 수행하는 것은 정확하지 않다. 예를 들어, 타겟 키워드 "생일” 또는 "출생”을 포함하는 메시지는 이하와 같다.
메시지1:“소민아, 내일은 그의 생일이 아니야, 케이크 사지마."
메시지2:“ 오늘 너의 생일이니"
메시지3:“ 내 아들은 작년 오늘에 출생했어."
메시지4:“5월 20일에 출생한 아기는 모두 운이 좋아."
상기 4통의 메시지 중, 3번째 메시지에만 유효적인 생일날짜가 포함되고 있고, 기타 3통의 메시지에는 전부 유효적인 생일날짜가 포함되지 않고 있다.
본 개시는 메시지에 대한 정확한 타입 식별을 위한 분류기를 토대로 하는 식별 방법을 제공한다. 상기 식별 방법은 분류기를 트레이닝 하는 제1 단계와, 분류기를 이용하여 타입을 식별하는 제2 단계를 포함한다.
이하 다른 실시예를 통해 상기 두 단계에 대한 설명을 한다.
제1 단계는 분류기를 트레이닝 하는 단계이다.
도 1은 예시적인 실시예에 따른 분류기 트레이닝 방법의 흐름도이다. 당해 방법은 하기 단계를 포함한다.
단계101에 있어서, 샘플정보로부터 타겟 키워드를 포함하는 샘플단문을 추출한다.
샘플정보의 유형은 메시지, 메일, 웨이보 (微博, Microblog) 또는 인스턴트 메시지 정보 중 임의의 타입일 수 있다. 본 개시의 실시예에 있어서, 샘플정보의 유형을 한정하는 것이 아니다.
매 하나의 샘플정보는 적어도 하나의 단문을 포함한다. 그 중, 타겟 키워드를 포함하고 있는 단문이 샘플단문이다.
단계102에 있어서, 매 하나의 샘플단문이 타겟유형에 속하는지 여부에 따라, 샘플단문에 대하여 2진법으로 표기를 하고 샘플 트레이닝 집합을 획득한다.
단계103에 있어서, 샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 획득한다.
단계104에 있어서, 여러 개의 단어로부터 적어도 하나의 특징단어를 포함하는 지정 특징 집합을 추출한다.
단계105에 있어서, 지정 특징 집합 중의 특징단어에 따라 분류기를 구축한다.
상기 분류기는 나이브베이스 분류기이다.
단계106에 있어서, 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 분류기를 트레이닝 한다.
상술한 바와 같이, 본 실시예에서 제공되는 분류기 트레이닝 방법은, 샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 획득하고, 당해 여러 개의 단어로부터 지정 특징 집합을 추출하며, 지정 특징 집합 중의 특징단어에 따라 분류기를 구축함으로써, 단순하게 생일 키워드를 이용하여 메시지유형에 대한 분석을 할 경우, 식별결과가 정확하지 않는 과제를 해결한다. 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함한 샘플단문의 분할결과에 따라 추출된 것으므로, 당해 분류기는 타겟 키워드를 포함하는 단문에 대한 보다 정확한 추측을 할 수 있어, 보다 정확한 식별결과를 가져올 수 있다.
도 2는 다른 예시적인 실시예에 따른 분류기 트레이닝 방법의 흐름도이다. 당해 방법은 하기 단계를 포함한다.
단계201에 있어서, 타겟 키워드를 포함한 여러 개의 샘플정보를 획득한다.
타겟 키워드는 타겟유형과 관련된 키워드이다. 유효생일날짜를 포함하는 정보를 타겟유형으로서 예를 들면, 타겟 키워드는 "생일”과 "출생”을 포함한다.
타겟 키워드를 포함한 샘플정보가 많을수록, 트레이닝을 수행하여 획득된 분류기가 더욱 정확하다. 샘플정보의 유형이 메시지일 경우, 예시적으로, 샘플정보는,
샘플 메시지 1:“소민아, 내일은 그의 생일이 아니야, 케이크 사지마."
샘플 메시지 2:“오늘 너의 생일이니?"
샘플 메시지 3:“내 아들은 작년 오늘에 출생했어."
샘플 메시지 4:“5월 20일에 출생한 아기는 모두 운이 좋아."
샘플 메시지 5:“ 내 아들의 출생 당일은, 마침 4월 1일이야."
등을 포함할 수 있으며, 일일이 열거하지 않는다.
단계202에 있어서, 샘플정보로부터 타겟 키워드를 포함하는 샘플단문을 추출한다.
매 하나의 샘플정보는 적어도 하나의 단문을 포함한다. 단문이란 문장부호에 따라 분할하지 않은 문장을 말한다. 예를 들면,
샘플 메시지 1에서 추출한 샘플단문1:“내일은 그의 생일이 아니야”;
샘플 메시지 2 에서 추출한 샘플단문2:“오늘 너의 생일이니?"
샘플 메시지 3 에서 추출한 샘플단문3: "내 아들은 작년 오늘에 출생했어”
샘플 메시지 4 에서 추출한 샘플단문4:“5월 20일에 출생한 아기는 모두 운이 좋아”
샘플 메시지 5 에서 추출한 샘플단문5:“내 아들의 출생 당일은”이다.
단계203에 있어서, 매 하나의 샘플단문이 타겟유형에 속하는지 여부에 따라, 샘플단문에 대해 2진법으로 표기를 하고 샘플 트레이닝 집합을 획득한다.
2진법의 표기값은 1 또는 0이며, 샘플단문이 타겟유형에 속할 경우, 1로 표기하고, 샘플단문이 타겟유형에 속하지 않을 경우, 0으로 표기한다.
예를 들어, 샘플단문1은 0으로, 샘플단문2는0으로, 샘플단문3은 1로, 샘플단문4는 0으로, 샘플단문5는 1로 표기한다.
샘플 트레이닝 집합은 복수 개의 샘플단문을 포함한다.
단계204에 있어서, 샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 획득한다.
예를 들면, 샘플단문1을 분할하여, "내일”, "아니”,"그”, "의”, "생일” 총 5개 단어를 얻고, 샘플단문2를 분할하여, "오늘”, "이(니)", "너”, "의”, "생일”, "니” 총 6개 단어를 얻고; 샘플단문3을 분할하여 "내”, "아들”, "이(니)", "작년”, "의”, "오늘”, "출생”, "의” 총 8개 단어를 얻고, 샘플단문4를 분할하여 "5월”,"20일”,"출생”, "의”,"아기”,"모두”,"운이 좋(아)" 총 7개 단어를 얻고, 샘플단문5을 분할하여 "내”, "아들”, "출생”,"당일” 총 4개의 단어를 획득한다.
즉, 여러 개의 단어는 ,"내일”, "아니”, "그”, "의”, "생일”, "오늘”, "이(니)", "너”, "니”, "내”, "아들”, "작년”, "출생”, "5월”, "20일”, "아기”, "모두”, "운이 좋(아)", "당일” 등을 포함한다.
단계205에 있어서, 카이자승 검증 또는 정보획득에 따라 여러 개의 단어로부터 지정 특징 집합을 추출한다.
분할하여 얻은 여러 개의 단어 중, 어떤 단어의 중요성은 높고, 어떤 단어의 중요성은 낮으며, 모든 단어가 특징단어로 다 적합한 것은 아니다. 이리하여, 본 단계는 두 가지 다른 방법으로 특징단어를 추출할 수 있다.
첫 번째 방법은, 카이자승 검증에 따라, 여러 개의 단어로부터 타겟유형과의 관련성 순위가 앞 n순위인 특징단어를 추출하여, 지정 특징 집합F을 형성한다.
카이자승 검증은 매 단어와 타겟유형과의 관련성을 검출할 수 있다. 관련성이 높을 수록, 상기 타겟유형에 대응되는 특징단어로서 적합하다.
예시적으로, 한 가지 카이자승 검증의 특징단어를 추출하는 방법은 아래와 같다.
1.1 샘플 트레이닝 집합 중의 샘플단문의 총수N을 통계한다.
1.2 매 단어가 타겟유형에 속하는 샘플단문에 나타나는 빈도수A, 타겟유형에 속하지 않는 샘플단문에 나타나는 빈도수B, 타겟유형에 속하는 샘플단문에 나타나지 않은 빈도수 C, 타겟유형에 속하지 않는 샘플단문에 나타나지 않은 빈도수D에 대해 통계한다.
1.3 매 단어의 카이제곱 값에 대한 계산은 이하와 같다.
Figure pct00001
1.4 매 단어를 각각의 카이제곱 값에 따라 큰 값부터 작아지는 순서대로 나열하여, 앞 순서 n개의 단어를 특징단어로 선정한다.
두 번째 방법은, 정보획득에 따라 여러 개의 단어로부터 정보획득 값의 순위가 앞 n순위인 특징단어를 추출하여 지정 특징 집합F를 형성한다.
정보획득은 샘플 트레이닝 집합에 대응하는 단어의 정보량을 표기하는데 사용되며, 그 단어에 포함되는 정보량이 많을수록 특징단어로 선별되는데 더 적합하다.
예시적으로, 정보획득이 특징단어를 추출하는 방법은 아래와 같다.
2.1 타겟유형에 속하는 샘플단문의 개수N1, 타겟유형에 속하지 않는 샘플단문의 개수 N2를 통계한다.
2.2 매 단어가 타겟유형에 속하는 샘플단문에서 나타나는 빈도수A, 타겟유형에 속하지 않는 샘플단문에서 나타나는 빈도수B, 타겟유형에 속하는 샘플단문에서 나타나지 않는 빈도수C, 타겟유형에 속하지 않는 샘플단문에서 나타나지 않는 빈도수D를 통계한다.
2.3. 정보 엔트로피의 계산
Figure pct00002
2.4. 매 단어의 정보획득 값을 계산
Figure pct00003
2.5. 매 단어를 정보획득 값이 작아지는 순서로 나열하여 앞 순위 n 개의 단어를 특정단어로 선정한다.
단계206에 있어서, 지정 특징 집합 중의 특징단어에 따라 나이브베이스 분류기를 구축하고, 나이브베이스 분류기 중의 각 특징단어는 서로 독립적이다.
나이브베이스 분류기는 매 특징단어의 제1 조건확률과 제2 조건확률을 토대로 추측한 분류이다. 임의의 특징단어에 대하여, 제1 조건확률은 특징단어를 포함하는 단문이 타겟유형에 속하는 확률이고, 제2 조건확률은 특징단어를 포함하는 단문이 타겟유형에 속하지 않는 확률이다.
나이브베이스 분류기를 트레이닝하는 과정은, 샘플 트레이닝 집합에 따라 매 특징단어의 제1 조건확률과 제2 조건확률을 계산해야 한다.
예를 들면, 특징단어 "오늘”을 포함하는 샘플단문이 100개 일 경우, 타겟유형에 속하는 샘플단문이 73개, 타겟유형에 속하지 않는 샘플단문이27개 이면, 특징단어 "오늘”의 제1 조건확률은0.73이고, 제2 조건확률은 0.27이다.
단계207에 있어서, 나이브베이스 분류기의 매 특징단어에 대하여, 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라, 특징단어를 포함하는 단문이 타겟유형에 속하는 제1 조건확률, 특징단어를 포함하는 단문이 타겟유형에 속하지 않는 제2 조건확률을 통계한다.
단계208에 있어서, 각 특징단어, 제1 조건확률과 제2 조건확률에 따라, 트레이닝 후의 나이브베이스 분류기를 획득한다.
상술한 바와 같이, 본 실시예에서 제공되는 분류기 트레이닝 방법은, 샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 획득하고, 상기 여러 개의 단어로부터 지정 특징 집합을 추출하고, 지정 특징 집합 중의 특징단어에 따라 분류기를 구축함으로써, 단순하게 생일 키워드를 이용하여 메시지유형에 대한 분석을 할 경우 식별결과가 정확하지 않는 과제를 해결한다. 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함한 샘플단문을 분할한 결과에 따라 추출된 것으므로, 상기 분류기는 타겟 키워드를 포함하는 단문에 대해 보다 정확한 추측을 할 수 있어, 보다 정확한 식별결과를 가져올 수 있다.
본 실시예는 또한 카이자승 검증 또는 정보획득을 통해 샘플 트레이닝 집합 중의 각 단문으로부터 특징단어를 추출함으로써, 분류 정확성에 대해 바람직한 역할을 하는 특징단어를 추출할 수 있어, 나이브베이스 분류기의 분류 정확성을 향상시킨다.
제2 단계는 분류기를 이용하여 타입을 식별하는 단계이다.
도 3은 예시적인 실시예에 따른 타입 식별 방법의 흐름도이다. 상기 타입 식별 방법에서 이용되는 분류기는 도 1 또는 도 2의 실시예에서 트레이닝 하여 얻은 분류기이다. 상기 방법은 이하와 같은 단계를 포함한다.
단계301에 있어서, 원시정보로부터 타겟 키워드를 포함하는 단문을 추출한다.
원시정보는 메시지, 이메일, 웨이보 또는 인스턴트 메시지 정보 중 임의의 하나이다. 본 개시의 실시예에 있어서, 원시정보의 유형이 한정되는 것이 아니다. 매 하나의 원시정보는 적어도 하나의 단문을 포함한다.
단계302에 있어서, 추출한 단문에서 지정 특징 집합에 속한 특징단어에 따라, 원시정보의 특징 집합을 생성하며, 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함한 샘플단문의 분할결과에 따라 추출하여 획득된다.
단계303에 있어서, 원시정보의 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하며, 분류기는 미리 지정 특징 집합 중의 특징단어에 따라 구축된다.
상기 분류기는 나이브베이스 분류기이다.
단계304에 있어서, 분류기의 예측결과를 획득하며, 당해 예측결과는 원시정보가 타겟유형에 속하는지 여부를 나타낸다.
상술한 바와 같이, 본 실시예에서 제공되는 타입 식별 방법은, 지정 특징 집합을 통해 단문의 특징단어를 추출하여, 이를 원시정보의 특징 집합으로 한 이후, 당해 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하며, 당해 분류기는 미리 지정 특징 집합 중의 특징단어에 따라 구축된 분류기이다. 이리하여, 단순하게 생일 키워드를 이용하여 메시지유형에 대한 분석을 할 경우, 식별결과가 정확하지 않는 과제를 해결한다. 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함한 샘플단문의 분할결과에 따라 추출된 것으므로, 당해 분류기는 타겟 키워드를 포함하는 단문에 대해 보다 정확한 추측을 할 수 있어, 보다 정확한 식별결과를 가져올 수 있다.
도 4는 다른 예시적인 실시예에 따른 타입 식별 방법의 흐름도이다. 당해 타입 식별 방법에서 이용되는 분류기는 도1 또는 도2의 실시예에서 트레이닝을 수행하여 얻은 분류기이다. 당해 방법은 하기와 같은 단계를 포함한다.
단계401에 있어서, 원시정보가 타겟 키워드를 포함하는지 여부를 검출한다.
원시정보는 메시지이다. 예를 들어, 원시정보는 "나의 생일은 7월 28일이고, 오늘은 나의 생일이 아니야!"이다.
타겟 키워드는 타겟 유형과 관련된 키워드이다. 유효생일날짜를 포함한 정보인 타겟 유형을 예로 들면, 타겟 키워드는 "생일”과 "출생”을 포함한다.
원시정보가 타겟 키워드를 포함하는지 여부를 검출하며, 만약 포함하면 단계402로 진입하고, 만약 포함하지 않으면 후속처리를 진행하지 않는다.
단계402에 있어서, 만약 원시정보가 타겟 키워드를 포함하면, 원시정보에서 타겟 키워드를 포함하는 단문을 추출한다.
예를 들면, 원시정보가 타겟 키워드 "생일”을 포함하면, 원시정보에서 단문 "나의 생일은 7월 28일”을 추출한다.
단계403에 있어서, 추출한 단문 중 지정 특징 집합에 속하는 특징단어에 따라 원시정보의 특징 집합을 생성하며, 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함하는 샘플단문의 분할결과에 따라 획득된다.
예를 들면, 지정 특징 집합은 :“내일”, "아니”, "그”, "의”, "생일”, "오늘”, "이(다)", "너”,"(이)니”, "나”, "아들”, "작년”, "출생”, "당일” 등 특징단어를 포함한다.
단문 "나의 생일은 7월 28일”에서 지정 특징 집합에 속하는 특징단어는 :“나”, "의”, "생일”, "이(다)"를 포함한다. "나”, "의”, "생일”, "이(다)" 총 4개의 단어를 원시정보의 특징 집합으로 한다.
단계404에 있어서, 원시정보의 특징 집합 중의 각 특징단어를 트레이닝 후의 나이브베이스 분류기에 입력하여, 원시정보가 타겟유형에 속하는 제1 예측확률과 원시정보가 타겟유형에 속하지 않는 제2 예측확률을 계산한다.
그 중, 트레이닝 후의 나이브베이스 분류기는 매개 특징단어의 제1 조건확률과 제2 조건확률을 포함하며, 제1 조건확률은 특징단어를 포함하는 단문이 타겟유형에 속하는 확률을 말하고, 제2 조건확률은 특징단어를 포함하는 단문이 타겟유형에 속하지 않는 확률을 말한다.
원시정보의 제1 예측확률은, 원시정보의 특징 집합 중의 각 특징단어의 제1 조건확률의 곱셈과 같다.
예를 들어,"나”의 제1 조건확률이 0.6 이고, "의”의 제1 조건확률이 0.5이며, "생일”의 제1 조건확률이 0.65 이며, "은”의 제1 조건확률이0.7일 경우, 원시정보의 제1 예측확률=0.6*0.5*0.65*0.7=0.11375 이다.
원시정보의 제2 예측확률은, 원시정보의 특징 집합 중의 각 특징단어의 제2 조건확률의 곱셈과 같다.
예를 들면, "나”의 제2 조건확률이 0.4,이고 "의”의 제1 조건확률이 0.5 이며, "생일”의 제1 조건확률이 0.35이며, "은”의 제1 조건확률은 0.3일 경우, 원시정보의 제 1예측확률=0.6*0.5*0.65*0.7=0.021이다.
단계405에 있어서, 제1 예측확률과 제2 예측확률의 크기관계에 따라, 원시정보가 타겟 유형에 속하는지 여부를 예측한다.
제1 예측확률이 제2 예측확률보다 클 경우, 예측결과는 원시정보가 타겟 유형에 속하는 것이다.
예를 들면, 0.11375 > 0.021 이기 때문에, 원시정보는 타겟 유형에 속하며, 즉, 원시정보는 유효생일날짜를 포함하는 정보이다.
제2 예측확률이 제1 예측확률보다 클 경우, 예측결과는 원시정보가 타겟 유형에 속하지 않는 것이다.
단계406에 있어서, 원시정보가 타겟 유형에 속한다는 것을 예측할 경우, 원시정보로부터 타겟 정보를 추출한다.
본 단계는 이하의 임의의 방식에 의해 실현 될 수 있다.
첫째, 정규 표현식을 통해 원시정보로부터 생일날짜를 추출한다.
둘째, 원시정보의 수신날짜를 생일날짜로 추출한다.
셋째, 정규 표현식을 통해 원시정보로부터 생일날짜를 추출하는 것을 시도하되, 정규 표현식을 통해 생일날짜를 추출할 수 없을 경우, 원시정보의 수신날짜를 생일날짜로 한다.
상술한 바와 같이, 본 실시예에서 제공되는 타입 식별 방법은, 지정 특징 집합을 통해 단문 중의 특징단어를 추출하여 원시정보의 특징 집합으로 한 이후, 상기 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하며, 당해 분류기는 미리 특징 집합 중의 특징단어에 따라 구축된 분류기이다. 이리하여, 단순하게 생일 키워드를 이용하여 메시지유형에 대한 분석을 할 경우, 식별결과가 정확하지 않는 과제를 해결한다. 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함한 샘플단문의 분할결과에 따라 추출된 것으므로, 상기 분류기는 타겟 키워드를 포함하는 단문에 대한 보다 정확한 추측을 할 수 있어, 보다 정확한 식별결과를 가져올 수 있다.
본 실시예에서 제공한 타입 식별 방법은, 또한 원시정보가 타겟유형에 속하는 것을 예측한 후, 원시정보로부터 타겟 정보를 추출하여 생일날짜, 외출날짜와 같은 타겟 정보의 추출을 실현하여, 후속의 알람사항, 달력표기 등 기능이 자동 생성하도록 데이터서포트를 제공한다.
상기 실시예에 있어서, 타겟유형이 유효생일날짜를 포함하는 정보인 것을 예로 들어 설명하였으나, 상기 방법의 응용은 이러한 단일 타겟유형에 한정되는 것이 아니며, 타겟유형은 유효외출날짜를 포함하는 정보, 유효휴가날짜를 포함하는 정보 등등일 수 있는 것은 설명되어야 할 부분이다.
하기는 본 개시의 방법을 수행할 수 있는 본 개시의 장치의 실시예이다. 본 개시의 장치의 실시예에서 개시되어 있지 않은 세부적인 부분은 본 개시의 방법의 실시예를 참조로 한다.
도 5는 예시적인 실시예에 따른 분류기 트레이닝 장치의 블록도이며, 도 5에 도시한 바와 같이, 당해 분류기 트레이닝 장치는 하기 모듈을 포함하지만 이에 한정되는 것이 아니다.
단문 추출 모듈 (510)은, 샘플정보로부터 타겟 키워드를 포함하는 샘플단문을 추출하도록 구성된다.
단문 표기 모듈 (520)은, 매 하나의 샘플단문이 타겟 유형에 속하는지 여부에 따라, 샘플단문에 대해 2진법으로 표기하고, 샘플 트레이닝 집합을 획득하도록 구성된다.
단문 분할 모듈 (530)은, 샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 획득하도록 구성된다.
특징단어 추출 모듈 (540)은, 여러 개의 단어에서 적어도 하나의 특징단어를 포함하는 지정 특징 집합을 추출하도록 구성된다.
분류기 구축 모듈 (550)은, 지정 특징 집합 중의 특징단어에 따라 분류기를 구축하도록 구성된다.
분류기 트레이닝 모듈 (560)은, 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 분류기에 대한 트레이닝을 수행하도록 구성된다.
상술한 바와 같이, 본 실시예에서 제공한 분류기 트레이닝 장치는, 샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 얻고, 상기 여러 개의 단어로부터 지정 특징 집합을 추출하고, 지정 특징 집합 중의 특징단어에 따라 분류기를 구축함으로써, 단순하게 생일 키워드를 이용하여 메시지유형에 대한 분석을 할 경우, 식별결과가 정확하지 않는 과제를 해결한다. 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함한 샘플단문의 분할결과에 따라 추출된 것이기에, 상기 분류기는 타겟 키워드를 포함하는 단문에 대한 보다 정확한 추측을 할 수 있어, 보다 정확한 식별결과를 가져올 수 있다.
도 6은 다른 예시적인 실시예에 따른 분류기 트레이닝 장치의 블록도이며, 도6에 도시한 바와 같이, 당해 분류기 트레이닝 장치는 하기 모듈을 포함하지만 이에 한정되는 것이 아니다.
단문 추출 모듈 (510)은, 샘플정보로부터 타겟 키워드를 포함하는 샘플단문을 추출하도록 구성된다.
단문 표기 모듈 (520)은, 매 하나의 샘플단문이 타겟 유형에 속하는지 여부에 따라, 샘플단문에 대해 2진법으로 표기하고, 샘플 트레이닝 집합을 획득하도록 구성된다.
단문 분할 모듈 (530)은, 샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 획득하도록 배치된다.
특징단어추출 모듈 (540)은, 여러 개의 단어에서 적어도 하나의 특징단어를 포함하는 지정 특징 집합을 추출하도록 구성된다.
분류기 구축 모듈 (550)은, 지정 특징 집합 중의 특징단어에 따라 분류기를 구축하도록 배치된다.
분류기 트레이닝 모듈 (560)은, 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 분류기에 대한 트레이닝을 수행하도록 구성된다.
특징단어 추출 모듈 (540)은, 카이자승 검증에 의해 여러 개의 단어에서 지정 특징 집합을 추출하도록 구성되거나, 또는 정보획득에 의해 여러 개의 단어에서 지정 특징 집합을 추출하도록 배치될 수도 있다.
분류기 구축 모듈 (550)은, 지정 특징 집합 중의 특징단어에 따라 나이브베이스 분류기를 구축하도록 구성될 수도 있으며, 각 특징단어는 나이브베이스 분류기에서 서로 독립적이다.
분류기 트레이닝 모듈 (560)은,
나이브베이스 분류기 중의 매 특징단어에 대해, 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라, 특징단어를 포함하는 단문이 타겟유형에 속하는 제1 조건확률과, 특징단어를 포함하는 단문이 타겟유형에 속하지 않는 제2 조건확률을 통계하도록 구성되는 통계 서브 모듈 (562); 및
각 특징단어, 제1 조건확률과 제2 조건확률에 따라 트레이닝 후의 나이브베이스 분류기를 획득하도록 구성되는 트레이닝 서브 모듈 (564)을 포함할 수 있다.
상술한 바와 같이, 본 실시예에서 제공되는 분류기 트레이닝 장치는, 샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 획득하고, 당해 여러 개의 단어로부터 지정 특징 집합을 추출하고, 지정 특징 집합 중의 특징단어에 따라 분류기를 구축함으로써, 단순하게 생일 키워드를 이용하여 메시지유형에 대한 분석을 할 경우, 식별결과가 정확하지 않는 과제를 해결한다. 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함한 샘플단문의 분할결과에 따라 추출된 것으므로, 상기 분류기는 타겟 키워드를 포함하는 단문에 대한 보다 정확한 추측을 할 수 있어, 보다 정확한 식별결과를 가져올 수 있다.
본 실시예는 또한 카이자승 검증 또는 정보획득을 통해 샘플 트레이닝 집합 중의 각각의 단문으로부터 특징단어를 추출함으로써, 분류 정확성에 대해 바람직한 역할을 하는 특징단어를 추출할 수 있어, 나이브베이스 분류기의 분류 정확성을 향상시킨다.
도 7은 예시적인 실시예에 따른 타입 식별 장치의 블록도이며, 도 7에 도시한 바와 같이, 당해 타입 식별 장치는 하기 모듈을 포함하지만 이에 한정되는 것이 아니다.
원시 추출 모듈 (720)은, 원시정보에서 타겟 키워드를 포함하는 단문을 추출하도록 구성된다.
특징 추출 모듈 (740)은, 추출된 단문의 지정 특징 집합에 속하는 특징단어에 따라, 원시정보의 특징 집합을 생성하도록 구성되며, 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함하는 샘플단문의 분할결과에 따라 추출하여 획득된다.
특징 입력 모듈 (760)은, 원시정보의 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하도록 구성되며, 분류기는 미리 지정 특징 집합 중의 특징단어에 따라 구축된다.
결과 획득 모듈 (780)은, 분류기의 예측결과를 획득하도록 구성되며, 예측결과는 원시정보가 타겟유형에 속하거나 또는 타겟유형에 속하지 않는 것을 나타낸다.
상술한 바와 같이, 본 실시예에서 제공되는 타입 식별 장치는, 지정 특징 집합을 통해 단문의 특징단어를 추출하여, 이를 원시정보의 특징 집합으로 한 이후, 당해 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하며, 당해 분류기는 미리 지정 특징 집합 중의 특징단어에 따라 구축된 분류기이다. 이리하여, 단순하게 생일 키워드를 이용하여 메시지유형에 대한 분석을 할 경우, 식별결과가 정확하지 않는 과제를 해결한다. 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함한 샘플단문의 분할결과에 따라 추출된 것으므로, 당해 분류기는 타겟 키워드를 포함하는 단문에 대한 보다 정확한 추측을 할 수 있어, 보다 정확한 식별결과를 가져올 수 있다.
도 8은 다른 예시적인 실시예에 따른 타입 식별 장치의 블록도이며, 도8에 도시한 바와 같이, 당해 타입 식별 장치는 하기 모듈을 포함하지만 이에 한정되는 것이 아니다.
원시 추출 모듈 (720)은, 원시정보에서 타겟 키워드를 포함하는 단문을 추출하도록 구성된다.
특징 추출 모듈 (740)은, 추출된 단문의 지정 특징 집합에 속하는 특징단어에 따라, 원시정보의 특징 집합을 생성하도록 구성되며, 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함하는 샘플단문의 분할결과에 따라 추출하여 획득된다.
특징 입력 모듈 (760)은, 원시정보의 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하도록 구성되며, 분류기는 미리 지정 특징 집합 중의 특징단어에 따라 구축된다.
결과 획득 모듈 (780)은, 분류기의 예측결과를 획득하도록 구성되며, 예측결과는 원시정보가 타겟유형에 속하거나 또는 타겟유형에 속하지 않는 것을 나타낸다.
특징 입력 모듈 (760)은,
원시정보의 특징 집합 중의 각 특징단어를 트레이닝 후의 나이브베이스 분류기에 입력하여 원시 정보 타겟유형에 속하는 제1 예측확률과 원시정보가 타겟유형에 속하지 않는 제2 예측확률을 계산하도록 구성되는 계산 서브 모듈 (762); 및
제1 예측확률과 제2 예측확률의 크기관계에 따라, 원시정보가 타겟 유형에 속하는지 여부를 예측하도록 배치되는 예측 서브 모듈 (764)을 포함한다.
그 중, 트레이닝 후의 나이브베이스 분류기에는 각 특징단어의 제 1조건확률과 제 2조건확률이 포함되며, 제1 조건확률은 특징단어를 포함하는 단문이 타겟유형에 속하는 확률을 말하고, 제2 조건확률은 특징단어를 포함하는 단문이 타겟유형에 속하지 않는 확률을 말한다.
당해 장치는,
원시정보가 타겟유형에 속하는 것을 예측할 경우, 원시정보에서 타겟정보를 추출하도록 구성되는 정보 추출 모듈 (790)을 더 포함한다.
타겟정보는 생일날짜 일 수 있다.
정보 추출 모듈 (790)은, 정규 표현식을 통해 원시정보에서 생일날짜를 추출하도록 구성되거나, 또는, 원시정보의 수신날짜를 생일날짜로 추출하도록 구성된다.
상술한 바와 같이, 본 실시예에서 제공되는 타입 식별 장치는, 지정 특징 집합을 통해 단문의 특징단어를 추출하여, 이를 원시정보의 특징 집합으로 한 이후, 당해 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하며, 당해 분류기는 미리 지정 특징 집합 중의 특징단어에 따라 분류기이다. 이리하여, 단순하게 생일 키워드를 이용하여 메시지유형에 대한 분석을 할 경우, 식별결과가 정확하지 않는 과제를 해결한다. 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함한 샘플단문의 분할결과에 따라 추출된 것으므로, 당해 분류기는 타겟 키워드를 포함하는 단문에 대해 보다 정확한 추측을 할 수 있어, 보다 정확한 식별결과를 가져올 수 있다.
본 실시예에서 제공되는 타입식별 장치는, 또한 원시정보가 타겟유형에 속하는 것을 예측한 후, 원시정보로부터 타겟 정보를 추출하여 생일날짜, 외출날짜와 같은 타겟 정보의 추출을 실현함으로써, 후속의 알람사항, 달력표기 등 기능이 자동 생성하도록 데이터서포트를 제공한다.
상기 실시예 중의 장치에 관하여, 각 모듈이 조작을 수행하는 구체적인 방법은 이미 관련된 방법의 실시예에서 상세히 설명되었기에, 여기서 상세한 설명은 생략한다.
본 개시의 실시예에서 제공되는 분류기 트레이닝 장치는, 본 개시의 실시예에서 제공되는 분류기 트레이닝 방법을 실현할 수 있으며, 당해 분류기 트레이닝 장치는, 프로세서 및 프로세서가 실행할 수 있는 명령을 저장하기 위한 메모리를 포함하고, 그 중, 프로세서는,
샘플정보로부터 타겟 키워드를 포함하는 샘플단문을 추출하고;
매 하나의 샘플단문이 타겟유형에 속하는지 여부에 따라, 샘플단문에 대해 2진법으로 표기하여, 샘플 트레이닝 집합을 얻고;
샘플 트레이닝 집합 중의 매 샘플단문을 분할하여 여러 개의 단어를 획득하며;
여러 개의 단어에서 적어도 하나의 특징단어를 포함하는 지정 특징 집합을 추출하며;
지정 특징 집합 중의 특징단어에 따라 분류기를 구축하며;
샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 분류기에 대한 트레이닝을 수행하도록 구성된다.
본 개시의 실시예에서 제공되는 타입 식별 장치는, 본 개시의 실시예에서 제공되는 타입 식별 방법을 실현할 수 있으며, 당해 타입식별 장치는, 프로세서 및 프로세서가 실행할 수 있는 명령을 저장하기 위한 메모리를 포함하고, 그 중, 프로세서는,
원시정보에서 타겟 키워드를 포함하는 단문을 추출하고;
추출된 단문에서 지정 특징 집합에 속하는 특징단어에 따라, 원시정보의 특징 집합을 생성하고, 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함하는 샘플단문에 대한 분할결과에 의해 추출하여 획득되며;
원시정보의 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하고, 분류기는 미리 지정 특징 집합 중의 특징단어에 따라 구축되며;
분류기의 원시정보가 타겟유형 속하거나 또는 타겟유형에 속하지 않은 것을 나타내는 예측결과를 획득하도록 구성된다.
도 9는 예시적인 살시예에 따른 분류기 트레이닝 장치 또는 타입 식별 장치에 사용되는 블록도이다. 장치 (900)은 휴대폰, 컴퓨터, 디지털방송 단말기, 메시지 송수신 장치, 게임 콘솔, 태블릿 장치, 의료 설비, 헬스 설비, 개인 휴대 정보 단말기 (PDA) 등일 수 있다.
도 9를 참조하면, 장치 (900)는 프로세싱 부품 (902), 메모리 (904), 전원 부품 (906), 멀티미디어 부품 (908), 오디오 부품 (910), 입력/출력 (I/O) 인터페이스 (912), 센서부품 (914) 및 통신 부품 (916) 중 하나 또는 복수 개의 부품을 포함할 수 있다.
프로세싱 부품 (902)는, 일반적으로 장치 (900)의 전체적인 작업, 예를 들어, 표시, 전화 호출, 데이터 통신, 카메라 작동 및 기록 작업에 관련된 작업을 제어한다. 프로세싱 부품 (902)는, 상술한 방법의 전부 또는 일부 단계를 완성하기 위하여, 명령을 수행하는 하나 또는 복수 개의 프로세서 (920)을 포함할 수 있다. 또한, 프로세싱 부품 (902)는, 하나 또는 복수 개의 모듈을 포함할 수 있고, 프로세싱 부품 (902)와 기타 부품 사이의 인터랙션을 수행하도록 한다. 예를 들어, 프로세싱 부품 (902)는 멀티미디어 모듈을 포함하여, 멀티미디어 부품 (908)과 프로세싱 부품 (902) 사이의 인터랙션을 수행하도록 한다.
메모리 (904)는, 장치 (900)에 있어서의 작업을 서포트하기 위하여, 다양한 유형의 데이터를 기억하도록 구성되어 있다. 이러한 데이터의 사례는, 장치 (900)에서 작업하는 모든 응용프로그램 또는 방법의 명령어, 연락자 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리 (904)는 임의 유형의 휘발성 또는 비휘발성 저장장치 또는 이들의 조합으로 구현될 수 있으며, 예를 들어, 스태틱 랜덤 액세스 메모리 (SRAM: Static Random Access Memory), 전기적 소거 및 프로그램 가능 읽기 전용 메모리 (EEPROM: Electrically Erasable Programmable Read-Only Memory), 소거 및 프로그램 가능 읽기 전용 메모리 (EPROM: Erasable Programmable Read-Only Memory), 프로그램 가능 읽기 전용 메모리 (PROM: Programmable Read-Only Memory), 읽기 전용 메모리 (ROM: Read-Only Memory), 자기 메모리, 플래시 메모리, 자기 디스크 또는 콤팩트 디스크에 의하여 구현될 수 있다.
전원 부품 (906)은 장치 (900)의 각 부품에 전력을 공급한다. 전원 부품 (906)은 전원 관리 시스템, 하나 또는 복수 개의 전원, 및 장치 (900)을 위해 전력을 생성, 관리 및 분배하는 기타 관련된 부품을 포함할 수 있다.
멀티미디어 부품 (908)은, 상기 장치 (900)과 사용자 사이에 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정표시장치 (LCD: Liquid Crystal Display) 및 터치패널 (TP: Touch Panel)을 포함할 수 있다. 스크린에 터치패널이 포함될 경우, 스크린은 사용자가 입력한 신호를 수신할 수 있도록 터치스크린으로 구현될수 있다. 터치페널은 하나 또는 복수 개의 터치센서를 포함하고 있어, 터치, 스와이프 및 터치패널 위에서의 제스처를 감지할 수 있다. 상기 터치센서는 터치 또는 스와이프 동작의 경계선을 감지할뿐만 아니라, 상기 터치 또는 스와이프 작업에 관련된 지속시간과 압력을 검출할 수 있다. 일부 실시예에 있어서, 멀티미디어 부품 (908)은, 전방 카메라 및/또는 후방 카메라를 포함한다. 장치 (900)이 예를 들어 촬영 모드 또는 비디오 모드와 같은 작업 모드일 경우, 전방 카메라 및/또는 후방 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라와 후방 카메라는 고정된 광학렌즈 시스템이거나 초점거리와 광학 줌 기능을 가질 수 있다.
오디오 부품 (910)은 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들어, 오디오 부품 (910)은 마이크 (MIC)를 포함하고, 장치 (900)이 예를 들어 호출 모드, 기록 모드 및 음성 인식 모드와 같은 작업 모드일 경우, 마이크는 외부의 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리 (904)에 기억되거나 또는 통신 부품 (916)을 통하여 다시 송신될 수 있다. 일부 실시예에 있어서, 오디오 부품 (910)은 오디오신호를 출력하는 스피커를 더 포함할 수 있다.
I/O 인터페이스 (912)는 프로세싱 부품 (902)과 주변 인터페이스 모듈 사이에 인터페이스를 제공하는 것으로서, 상기 주변 인터페이스 모듈은 키보드, 클릭 휠 (Click Wheel), 버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 작동 버튼 및 잠금 버튼을 포함할 수 있지만, 이에 한정되는것이 아니다.
센서 부품 (914)는 장치 (900)에 여러 방면의 상태평가를 제공하는 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 부품 (914)는 장치 (900)의 온/오프 (ON/OFF) 상태 및 부품의 상대적인 위치결정을 검출할 수 있다. 예를 들어, 상기 부품이 장치 (900)의 디스플레이 및 키패드 (Keypad) 일 경우, 센서 부품 (914)는 또한 장치 (900) 또는 장치 (900)의 일 부품의 위치변화, 사용자와 장치 (900) 사이의 접촉 여부, 장치 (900) 위치 또는 가속/감속 및 장치 (900)의 온도변화를 검출할 수 있다. 센서 부품 (914)는 근접센서를 포함할 수 있으며, 어떠한 물리적 접촉도 없을 경우, 근처의 물체 존재 여부를 검출하도록 구성되어 있다. 센서 부품 (914)는 또한 예를 들어, COMS 또는 CCD 이미지 센서 등과 같은 광 센서를 더 포함할 수 있으며, 이미지 응용에 사용된다. 일부 실시예에 있어서, 당해 센서 부품 (914)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 부품 (916)은 장치 (900)과 기타 장치 사이의 유선 또는 무선 방식의 통신을 수행하도록 구성된다. 장치 (900)은, 예를 들어 WiFi, 2G 또는 3G 또는 이들의 조합과 같은 통신표준을 기반으로 한 무선 네트워크에 접속이 가능하다. 예시적인 실시예에 있어서, 통신부품 (916)은 방송 채널을 통해 외부 방송관리 시스템으로부터 방송신호 또는 방송관련정보를 수신한다. 예시적인 실시예에 있어서, 상기 통신 부품 (916)은 근거리 무선통신 (NFC: Near Field Communication) 모듈을 더 포함하고 있어, 단거리 통신을 촉진할 수 있다. 예를 들어, NFC 모듈은 무선 주파수 식별 (RFID) 기술, 적외선 통신 규격 (lrDA) 기술, 초광대역 (UWB) 기술, 블루투스 (BT) 기술 및 기타 기술에 의해 구현될 수 있다.
예시적인 실시예에 있어서, 장치 (900)은 하나 또는 복수 개의 응용 주문형 직접회로 (ASIC), 디지털신호 프로세서 (DSP), 디지털신호 처리기기 (DSPD), 프로그램 가능 논리 소자 (PLD), 필드 프로그램 가능 게이트 어레이 (FPGA), 컨트롤러, 마이크로 컨트롤러, 또는 기타 전자 소자에 의해 구현될 수 있으며, 상술한 방법을 수행하는데 사용된다.
예시적인 실시예에 있어서, 명령어를 포함하는 비일시적 컴퓨터 판독 가능 기억 매체가 더 제공되어, 명령어를 포함하는 메모리 (904)를 예로 들 수 있으며, 상기 명령어는 장치(900)의 프로세서 (920)에 의해 수행되어 상기 방법을 구현할 수 있다. 예를 들어, 상기 비일시적 컴퓨터 판독 가능 기억 매체는 ROM, 랜덤 액세스 메모리 (RAM), CD-ROM, 자기 테이프, 플로피디스크 및 광데이터 저장장치 등일 수 있다.
당업자는 본 개시의 명세서에 기재된 내용에 의해 본 개시의 다른 실시과제를 용이하게 생각해낼 수 있다. 본 출원은 본 개시의 임의의 변형, 용도 또는 적응성 변화를 포괄하는 것을 목적으로 하되, 이러한 변형, 용도 또는 적응성 변화는 본 개시의 일반적인 원리를 준수하며, 본 개시에 공개되지 않은 본 기술분야의 통상의 지식 또는 통상적인 기술 수단을 포함한다. 명세서와 실시예는 단지 예시적인 내용으로서, 본 개시의 진정한 보호범위와 취지는 특허청구범위에 의해 한정된다.
본 개시는 상술한 기재 내용과 도시된 구조에 한정되지 않으며, 보호하고자 하는 범위 내에서 다양한 수정 또는 변경을 실시할 수 있다는 것은 이해되어야 할 부분이다. 본 개시의 범위는 특허청구범위에 의해 한정된다.

Claims (18)

  1. 샘플정보에서 타겟 키워드를 포함하는 샘플단문을 추출하는 단계;
    매 상기 샘플단문이 타겟유형에 속하는지 여부에 따라, 상기 샘플단문에 대해 2진법으로 표기하여, 샘플 트레이닝 집합을 획득하는 단계;
    상기 샘플 트레이닝 집합 중의 상기 매 샘플단문을 분할하여 여러 개의 단어를 획득하는 단계;
    상기 여러 개의 단어에서 지정 특징 집합을 추출하며, 상기 지정 특징 집합은 적어도 하나의 특징단어를 포함하는 단계;
    상기 지정 특징 집합 중의 상기 특징단어에 따라 분류기를 구축하는 단계; 및
    상기 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 상기 분류기에 대한 트레이닝을 수행하는 단계를 포함하는 것을 특징으로 하는
    분류기 트레이닝 방법.
  2. 제1항에 있어서,
    상기의 상기 여러 개의 단어에서 지정 특징 집합을 추출하는 단계는,
    카이자승 검증에 의해 상기 여러 개의 단어에서 상기 지정 특징 집합을 추출하는 단계; 또는
    정보획득에 따라 상기 여러 개의 단어에서 상기 지정 특징 집합을 추출하는 단계를 포함하는 것을 특징으로 하는
    분류기 트레이닝 방법.
  3. 제1항에 있어서,
    상기의 상기 지정 특징 집합 중의 특징단어에 따라 분류기를 구축하는 단계는,
    지정 특징 집합 중의 특징단어를 나이브베이스 분류기로 구축하며, 각 특징단어는 상기 나이브베이스 분류기에서 서로 독립적인 것을 포함하는 것을 특징으로 하는
    분류기 트레이닝 방법.
  4. 제3항에 있어서,
    상기의 상기 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 상기 분류기에 대한 트레이닝을 수행하는 단계는,
    상기 나이브베이스 분류기의 매 상기 특징단어에 대해, 상기 샘플 트레이닝 집합 중의2진법의 표기결과에 따라, 상기 특징단어를 포함하는 단문이 상기 타겟유형에 속하는 제1 조건확률과, 상기 특징단어를 포함하는 단문이 타겟유형에 속하지 않는 제2 조건확률을 통계하는 단계; 및
    각 상기 특징단어, 상기 제1 조건확률과 상기 제2 조건확률에 따라, 트레이닝 후의 상기 나이브베이스 분류기를 획득하는 단계를 포함하는 것을 특징으로 하는
    분류기 트레이닝 방법.
  5. 원시정보에서 타겟 키워드를 포함하는 단문을 추출하는 단계;
    추출된 상기 단문에서 지정 특징 집합에 속하는 특징단어에 따라, 상기 원시정보의 특징 집합을 생성하며, 상기 지정 특징 집합 중의 특징단어는 타겟 키워드를 포함하는 샘플단문의 분할결과에 의해 추출하여 획득되는 단계;
    상기 원시정보의 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하며, 상기 분류기는 미리 상기 지정 특징 집합 중의 상기 특징단어에 따라 구축되는 단계; 및
    상기 분류기의 예측결과를 획득하며, 상기 예측결과는 상기 원시정보가 상기 타겟유형에 속하거나 또는 상기 타깃유형에 속하지 않은 것을 나타내는 단계를 포함하는 것을 특징으로 하는
    타입 식별 방법.
  6. 제5항에 있어서,
    상기의 상기 원시정보의 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하는 단계는,
    상기 원시정보의 특징 집합 중의 매 특징단어를 트레이닝 후의 나이브베이스 분류기에 입력하여, 상기 원시정보가 상기 타겟유형에 속하는 제1 예측확률과 상기 원시정보가 상기 타겟유형에 속하지 않는 제2 예측확률을 계산하는 단계; 및
    상기 제1 예측확률과 상기 제2 예측확률의 크기 관계에 따라, 상기 원시정보가 상기 타겟유형에 속하는지 여부를 예측하는 단계를 포함하며,
    그 중, 상기 트레이닝 후의 나이브베이스 분류기에는 매 특징단어의 제1 조건확률과 제2 조건확률이 포함되고, 상기 제1 조건확률은 특징단어를 포함하는 단문이 타겟유형에 속하는 확률이고, 상기 제2 조건확률은 특징단어를 포함하는 단문이 타겟유형에 속하지 않는 확률인 것을 특징으로 하는
    타입 식별 방법.
  7. 제5항 또는 제6항에 있어서,
    만약 예측된 원시정보가 타겟유형에 속할 경우 원시정보에서 타겟정보를 추출하는 단계를 더 포함하는 것을 특징으로 하는
    타입 식별 방법.
  8. 제7항에 있어서,
    상기 타겟정보는 생일날짜이고,
    상기 원시정보에서 추출된 상기 타겟정보는,
    정규 표현식을 통해 상기 원시정보에서 추출된 상기 생일날짜; 또는
    상기 원시정보의 수신날짜를 생일날짜로서 추출한 상기 생일날짜를 포함하는 것을 특징으로 하는
    타입 식별 방법.
  9. 샘플정보에서 타겟 키워드를 포함하는 샘플단문을 추출하도록 구성된 단문 추출 모듈;
    매 상기 샘플단문이 타겟유형에 속하는지 여부에 따라, 샘플단문에 대해 2진법으로 표기하여, 샘플 트레이닝 집합을 획득하도록 구성된 단문 표기 모듈;
    상기 샘플 트레이닝 집합 중의 매 상기 샘플단문을 분할하여 여러 개의 단어를 획득하도록 구성된 단문 분할 모듈;
    상기 여러 개의 단어에서 적어도 하나의 특징단어를 포함하는 지정 특징 집합을 추출하도록 구성된 특징단어 추출 모듈;
    상기 지정 특징 집합 중의 특징단어에 따라 분류기를 구축하도록 구성된 분류기 구축 모듈; 및
    상기 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 분류기에 대한 트레이닝을 수행하도록 구성된 분류기 트레이닝 모듈을 포함하는 것을 특징으로 하는
    분류기 트레이닝 장치.
  10. 제9항에 있어서,
    상기 특징단어 추출 모듈은, 카이자승 검증에 의해 상기 여러 개의 단어에서 상기 지정 특징 집합을 추출하도록 구성되거나, 또는
    상기 특징단어 추출 모듈은, 정보획득에 따라 상기 여러 개의 단어에서 상기 지정 특징 집합을 추출하도록 구성되는 것을 특징으로 하는
    분류기 트레이닝 장치.
  11. 제9항에 있어서,
    상기 분류기 구축 모듈은 상기 지정 특징 집합 중의 상기 특징단어를 나이브베이스 분류기로 구축하도록 구성되며, 각 특징단어는 상기 나이브베이스 분류기에서 서로 독립적인 것을 특징으로 하는
    분류기 트레이닝 장치.
  12. 제11항에 있어서,
    상기 분류기 트레이닝 모듈은,
    상기 나이브베이스 분류기 중의 매 상기 특징단어에 대해, 상기 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라, 상기 특징단어를 포함하는 단문이 상기 타겟유형에 속하는 제1 조건확률과, 상기 특징단어를 포함하는 단문이 상기 타겟유형에 속하지 않는 제2 조건확률을 통계하도록 구성되는 통계 서브 모듈; 및
    각 상기 특징단어, 상기 제1 조건확률과 상기 제2 조건확률에 따라 트레이닝 후의 나이브베이스 분류기를 획득하도록 구성되는 트레이닝 서브 모듈을 포함하는 것을 특징으로 하는
    분류기 트레이닝 장치.
  13. 원시정보에서 타겟 키워드를 포함하는 단문을 추출하도록 구성되는 원시 추출 모듈;
    추출된 상기 단문에서 지정 특징 집합에 속하는 특징단어에 따라, 원시정보의 특징 집합을 생성하도록 구성되며, 상기 지정 특징 집합 중의 특징단어는 상기 타겟 키워드를 포함하는 샘플단문의 분할결과에 의해 추출하여 획득되는 특징 추출 모듈;
    상기 원시정보의 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하도록 구성되며, 상기 분류기는 미리 지정 특징 집합 중의 특징단어에 따라 구축되는 특징 입력 모듈; 및
    상기 분류기의 예측결과를 얻도록 구성되며, 상기 예측결과는 원시정보가 타겟유형에 속하거나 또는 타겟유형에 속하지 않은 것을 나타내는 결과 획득 모듈을 포함하는 것을 특징으로 하는
    타입 식별 장치.
  14. 제13항에 있어서,
    상기 특징 입력 모듈은,
    상기 원시정보의 특징 집합 중의 매 특징단어를 트레이닝 후의 나이브베이스 분류기에 입력하여 상기 원시정보가 상기 타겟유형에 속하는 제1 예측확률과 원시정보가 타겟유형에 속하지 않는 제2 예측확률을 계산하도록 구성되는 계산 서브 모듈;
    상기 제1 예측확률과 상기 제2 예측확률의 크기 관계에 따라, 상기 원시정보가 상기 타겟유형에 속하는지 여부를 예측하도록 구성되는 예측 서브 모듈을 포함하며,
    그 중, 상기 트레이닝 후의 나이브베이스 분류기에는 매 특징단어의 제1 조건확률과 제2 조건확률이 포함되고, 상기 제1 조건확률은 상기 특징단어를 포함하는 단문이 상기 타겟유형에 속하는 확률이고, 상기 제2 조건확률은 상기 특징단어를 포함하는 단문이 상기 타겟유형에 속하지 않는 확률인 것을 특징으로 하는
    타입 식별 장치.
  15. 제13항 또는 제14항에 있어서,
    상기 원시정보가 상기 타겟유형에 속하는 것을 예측할 경우, 상기 원시정보에서 타겟정보를 추출하도록 구성되는 정보 추출 모듈을 더 포함하는 것을 특징으로 하는
    타입 식별 장치.
  16. 제15항에 있어서,
    상기 타겟정보는 생일날짜이고,
    상기 정보 추출 모듈은, 정규 표현식을 통해 상기 원시정보에서 생일날짜를 추출하도록 배치되거나, 또는
    상기 정보 추출 모듈은, 상기 원시정보의 수신날짜를 상기 생일날짜로 추출하도록 구성되는 것을 특징으로 하는
    타입 식별 장치.
  17. 프로세서 및 프로세서가 실행할 수 있는 명령을 저장하기 위한 메모리를 포함하고,
    상기 프로세서는,
    샘플정보에서 타겟 키워드를 포함하는 샘플단문을 추출하고;
    매 상기 샘플단문이 타겟유형에 속하는지 여부에 따라, 상기 샘플단문에 대해 2진법으로 표기하여 샘플 트레이닝 집합을 획득하고;
    상기 샘플 트레이닝 집합 중의 매 상기 샘플단문을 분할하여 여러 개의 단어를 획득하며;
    상기 여러 개의 단어에서 적어도 하나의 특징단어를 포함하는 지정 특징 집합을 추출하며;
    상기 지정 특징 집합 중의 특징단어에 따라 분류기를 구축하며;
    상기 샘플 트레이닝 집합 중의 2진법의 표기결과에 따라 분류기에 대한 트레이닝을 수행하도록 구성되는 것을 특징으로 하는
    분류기 트레이닝 장치.
  18. 프로세서 및 프로세서가 실행할 수 있는 명령을 저장하기 위한 메모리를 포함하고,
    상기 프로세서는,
    원시정보에서 타겟 키워드를 포함하는 단문을 추출하고;
    추출된 상기 단문에서 지정 특징 집합에 속하는 특징단어에 따라, 상기 원시정보의 특징 집합을 생성하고, 상기 지정 특징 집합 중의 특징단어는 상기 타겟 키워드를 포함하는 샘플단문의 분할결과에 의해 추출하여 획득되며;
    상기 원시정보의 특징 집합을 트레이닝 후의 분류기에 입력하여 예측하고, 상기 분류기는 미리 지정 특징 집합 중의 상기 특징단어에 따라 구축되며;
    상기 분류기의 상기 원시정보가 타겟유형에 속하거나 또는 타겟유형에 속하지 않은 것을 나타내는 예측결과를 획득하도록 구성되는 것을 특징으로 하는
    타입 식별 장치.
KR1020167003870A 2015-08-19 2015-12-16 분류기 트레이닝, 타입 식별 방법 및 장치 KR101778784B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510511468.1A CN105117384A (zh) 2015-08-19 2015-08-19 分类器训练方法、类型识别方法及装置
CN201510511468.1 2015-08-19
PCT/CN2015/097615 WO2017028416A1 (zh) 2015-08-19 2015-12-16 分类器训练方法、类型识别方法及装置

Publications (2)

Publication Number Publication Date
KR20170032880A true KR20170032880A (ko) 2017-03-23
KR101778784B1 KR101778784B1 (ko) 2017-09-26

Family

ID=54665378

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167003870A KR101778784B1 (ko) 2015-08-19 2015-12-16 분류기 트레이닝, 타입 식별 방법 및 장치

Country Status (8)

Country Link
US (1) US20170052947A1 (ko)
EP (1) EP3133532A1 (ko)
JP (1) JP2017535007A (ko)
KR (1) KR101778784B1 (ko)
CN (1) CN105117384A (ko)
MX (1) MX2016003981A (ko)
RU (1) RU2643500C2 (ko)
WO (1) WO2017028416A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置
CN111277579B (zh) * 2016-05-06 2023-01-17 青岛海信移动通信技术股份有限公司 一种识别验证信息的方法和设备
CN106211165B (zh) * 2016-06-14 2020-04-21 北京奇虎科技有限公司 检测外文骚扰短信的方法、装置及相应的客户端
CN107135494B (zh) * 2017-04-24 2020-06-19 北京小米移动软件有限公司 垃圾短信识别方法及装置
CN107230475B (zh) * 2017-05-27 2022-04-05 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN110019782B (zh) * 2017-09-26 2021-11-02 北京京东尚科信息技术有限公司 用于输出文本类别的方法和装置
CN107704892B (zh) * 2017-11-07 2019-05-17 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
US10726204B2 (en) * 2018-05-24 2020-07-28 International Business Machines Corporation Training data expansion for natural language classification
CN109325123B (zh) * 2018-09-29 2020-10-16 武汉斗鱼网络科技有限公司 基于补集特征的贝叶斯文档分类方法、装置、设备及介质
US11100287B2 (en) * 2018-10-30 2021-08-24 International Business Machines Corporation Classification engine for learning properties of words and multi-word expressions
CN109979440B (zh) * 2019-03-13 2021-05-11 广州市网星信息技术有限公司 关键词样本确定方法、语音识别方法、装置、设备和介质
CN109992771B (zh) * 2019-03-13 2020-05-05 北京三快在线科技有限公司 一种文本生成的方法及装置
CN110083835A (zh) * 2019-04-24 2019-08-02 北京邮电大学 一种基于图和词句协同的关键词提取方法及装置
CN111339297B (zh) * 2020-02-21 2023-04-25 广州天懋信息系统股份有限公司 网络资产异常检测方法、系统、介质和设备
CN113688436A (zh) * 2020-05-19 2021-11-23 天津大学 一种pca与朴素贝叶斯分类融合的硬件木马检测方法
CN112529623B (zh) * 2020-12-14 2023-07-11 中国联合网络通信集团有限公司 恶意用户的识别方法、装置和设备
CN112925958A (zh) * 2021-02-05 2021-06-08 深圳力维智联技术有限公司 多源异构数据适配方法、装置、设备及可读存储介质
CN114281983B (zh) * 2021-04-05 2024-04-12 北京智慧星光信息技术有限公司 分层结构的文本分类方法、系统、电子设备和存储介质
CN116094886B (zh) * 2023-03-09 2023-08-25 浙江万胜智能科技股份有限公司 一种双模模块中载波通信数据处理方法及系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203318A (ja) * 1998-01-19 1999-07-30 Seiko Epson Corp 文書分類方法および装置並びに文書分類処理プログラムを記録した記録媒体
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
US7624006B2 (en) * 2004-09-15 2009-11-24 Microsoft Corporation Conditional maximum likelihood estimation of naïve bayes probability models
JP2006301972A (ja) 2005-04-20 2006-11-02 Mihatenu Yume:Kk 電子秘書装置
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8082151B2 (en) * 2007-09-18 2011-12-20 At&T Intellectual Property I, Lp System and method of generating responses to text-based messages
CN101516071B (zh) * 2008-02-18 2013-01-23 中国移动通信集团重庆有限公司 垃圾短消息的分类方法
US20100161406A1 (en) * 2008-12-23 2010-06-24 Motorola, Inc. Method and Apparatus for Managing Classes and Keywords and for Retrieving Advertisements
JP5346841B2 (ja) * 2010-02-22 2013-11-20 株式会社野村総合研究所 文書分類システムおよび文書分類プログラムならびに文書分類方法
US8892488B2 (en) * 2011-06-01 2014-11-18 Nec Laboratories America, Inc. Document classification with weighted supervised n-gram embedding
RU2491622C1 (ru) * 2012-01-25 2013-08-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ классификации документов по категориям
CN103246686A (zh) * 2012-02-14 2013-08-14 阿里巴巴集团控股有限公司 文本分类方法和装置及文本分类的特征处理方法和装置
US9910909B2 (en) * 2013-01-23 2018-03-06 24/7 Customer, Inc. Method and apparatus for extracting journey of life attributes of a user from user interactions
CN103336766B (zh) * 2013-07-04 2016-12-28 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN103501487A (zh) * 2013-09-18 2014-01-08 小米科技有限责任公司 分类器更新方法、装置、终端、服务器及系统
CN103500195B (zh) * 2013-09-18 2016-08-17 小米科技有限责任公司 分类器更新方法、装置、系统及设备
CN103885934B (zh) * 2014-02-19 2017-05-03 中国专利信息中心 一种专利文献关键短语自动提取方法
US10394953B2 (en) * 2015-07-17 2019-08-27 Facebook, Inc. Meme detection in digital chatter analysis
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置

Also Published As

Publication number Publication date
RU2643500C2 (ru) 2018-02-01
EP3133532A1 (en) 2017-02-22
MX2016003981A (es) 2017-04-27
JP2017535007A (ja) 2017-11-24
KR101778784B1 (ko) 2017-09-26
WO2017028416A1 (zh) 2017-02-23
CN105117384A (zh) 2015-12-02
US20170052947A1 (en) 2017-02-23
RU2016111677A (ru) 2017-10-04

Similar Documents

Publication Publication Date Title
KR101778784B1 (ko) 분류기 트레이닝, 타입 식별 방법 및 장치
CN107102746B (zh) 候选词生成方法、装置以及用于候选词生成的装置
CN107608532B (zh) 一种联想输入方法、装置及电子设备
CN107247519B (zh) 一种输入方法及装置
EP3173948A1 (en) Method and apparatus for recommendation of reference documents
CN105447750B (zh) 信息识别方法、装置、终端及服务器
CN109243430B (zh) 一种语音识别方法及装置
CN108399914B (zh) 一种语音识别的方法和装置
CN108628813B (zh) 处理方法和装置、用于处理的装置
CN109558599B (zh) 一种转换方法、装置和电子设备
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
WO2018090688A1 (zh) 一种输入方法、装置及电子设备
CN110874145A (zh) 一种输入方法、装置及电子设备
CN109002184B (zh) 一种输入法候选词的联想方法和装置
JP2022510660A (ja) データ処理方法及びその装置、電子機器、並びに記憶媒体
CN111831806A (zh) 语义完整性确定方法、装置、电子设备和存储介质
CN108509406B (zh) 一种语料抽取方法、装置和电子设备
CN111813932B (zh) 文本数据的处理方法、分类方法、装置及可读存储介质
CN111104807A (zh) 一种数据处理方法、装置和电子设备
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN108345590B (zh) 一种翻译方法、装置、电子设备以及存储介质
CN110765111B (zh) 存储和读取方法、装置、电子设备和存储介质
KR102327790B1 (ko) 정보 처리 방법, 장치 및 저장 매체
CN109032374B (zh) 一种用于输入法的候选展示方法、装置、介质及设备
CN111324805B (zh) 查询意图确定方法及装置、搜索方法及搜索引擎

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
GRNT Written decision to grant