KR101948257B1 - 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 - Google Patents

문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 Download PDF

Info

Publication number
KR101948257B1
KR101948257B1 KR1020160161224A KR20160161224A KR101948257B1 KR 101948257 B1 KR101948257 B1 KR 101948257B1 KR 1020160161224 A KR1020160161224 A KR 1020160161224A KR 20160161224 A KR20160161224 A KR 20160161224A KR 101948257 B1 KR101948257 B1 KR 101948257B1
Authority
KR
South Korea
Prior art keywords
document
sentence
matching
lexical
unit
Prior art date
Application number
KR1020160161224A
Other languages
English (en)
Other versions
KR20180062490A (ko
Inventor
장준환
김현태
고준호
이재안
윤도현
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to PCT/KR2016/013963 priority Critical patent/WO2018101506A1/ko
Priority to KR1020160161224A priority patent/KR101948257B1/ko
Publication of KR20180062490A publication Critical patent/KR20180062490A/ko
Application granted granted Critical
Publication of KR101948257B1 publication Critical patent/KR101948257B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F17/2705
    • G06F17/2755
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 방법에 관한 것이다. 본 발명은 형태소, 음절, 및 어절로 이루어진 어휘의미패턴(Lexico-semantic pattern: LSP)을 정의하여 데이터베이스에 저장하고, 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉을 정의하여 데이터베이스에 저장하는 전처리유닛, 분석대상문서에 포함된 문장을 형태소 분석하고 상기 어휘의미패턴에 매칭시켜 구문분석결과를 연산하는 분석유닛, 및 상기 구문분석결과를 문서분류규칙에 따라 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 분류유닛을 포함한다.

Description

문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 {MULTI-CLASSIFICATION DEVICE AND METHOD USING LSP}
본 발명은 언어 처리 기술을 이용하여 문서를 분류하는 방법에 관한다.
하루가 다르게 증가하는 정보의 홍수 속에서 가치 있는 정보를 찾기 위한 방편으로 정보검색의 효율을 향상시키는 기술이 진화되어 왔다. 특히 문서에 포함된 내용에 따라 문서를 특정분류로 카테고라이징 하는 문서분류기술이 전해진다. 예를 들어 기계학습을 통한 문서분류기술로서 SLDA(Supervised Latent Dirichlet Allocation), SVM(Support Vector Machines) 등의 알고리즘이 알려져있다.
그러나 기계학습을 통한 문서분류기술은 학습초기에 학습에 필요한 데이터셋을 준비하는 것이 쉽지 않고, 어떤 데이터셋을 사용하여 학습시켰는지에 따라 분류결과에 편차가 큰 편이어서 문제된다.
그와 같은 한계는 특히 다수의 문장을 포함하는 문서에서 특정 키워드를 추출하기 어렵고, 유의미한 부분만을 추출하여 문서를 분류하기에 적합하지 않기 때문이다. 또한, 의미의 확장이나 새로운 지식에 대한 대응을 하기 쉽지 않다는 문제점도 지니고 있었다.
본 발명의 발명자들은 위와 같은 문제점을 해결하기 위해서 연구하고 노력한 결과 본 발명을 완성하기에 이르렀다.
본 발명의 발명자들은 문서에 포함된 문장의 실질적 의미를 어휘의미패턴을 기반으로 분석하여 해당 문서를 어느 분류에 매칭시켜야 하는 지에 대한 대답을 제공하려고 한다. 특히 본 발명에 따르면 어휘의미패턴을 이용하여 문서가 담고 있는 실질적인 의미에 따라 문서를 보다 정확하게 분류할 수 있다. 또한, 하나의 문서를 복수의 카테고리(문서분류)로 분류하여 문서가 포함하고 있는 다양한 의미를 용이하게 추론할 수 있도록 한다.
한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.
이와 같은 과제를 달성하기 위하여 본 발명의 제1국면은 형태소, 음절, 및 어절로 이루어진 어휘의미패턴(Lexico-semantic pattern: LSP)을 정의하여 데이터베이스에 저장하고, 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉을 정의하여 데이터베이스에 저장하는 전처리유닛;
분석대상문서에 포함된 문장을 형태소 분석하고 상기 어휘의미패턴에 매칭시켜 구문분석결과를 연산하는 분석유닛; 및
상기 구문분석결과를 문서분류규칙에 따라 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 분류유닛을 포함하는 것을 특징으로 하는, 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치를 제공한다.
바람직한 실시예에 있어서 상기 분석유닛은 분석대상문서를 문장 단위로 분리하는 문장추출부;
문장을 형태소, 음절, 및 어절 중 적어도 어느 하나로 분석하는 문장요소분석부; 및
문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 구문분석부를 포함할 수 있다.
바람직한 실시예에 있어서 상기 분류유닛은 어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 분류규칙입력부; 및
구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 문서분류매칭부를 포함할 수 있다.
본 발명의 제2국면은 전처리유닛이 1) 어휘의미패턴, 2) 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉, 3) 어휘의미패턴에 기반하여 문서의 카테고리를 분류한 문서분류를 각각 정의하여 데이터베이스에 저장하는 단계;
분석유닛이 분석대상문서를 문장 단위로 분리하는 단계;
분리된 문장을 형태소, 음절, 및 어절 중 적어도 어느 하나의 문장요소로 분석하는 단계;
문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 단계;
어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 단계; 및
구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 단계를 포함하는 것을 특징으로 하는, 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 방법을 제공한다.
본 발명은 문서가 담고 있는 내용을 파악하여 해당 문서를 사전에 정의된 문서 카테고리로 자동분류할 수 있다. 특히, 본 발명은 기구축된 어휘의미패턴 혹은 컨셉 모델을 기반으로 구문의 실질적 의미를 파악해서 문서분류의 정확성을 크게 개선하는 효과가 있다.
한편 본 발명은 문서를 하나의 문서분류로 분류하는 것이 아니고 문서가 포함하고 있는 다양한 의미에 따라 복수의 문서분류를 추출할 수 있다. 사용자는 이를 통해 실제 문서를 읽지 않아도 해당 문서가 어떤 내용을 포함하고 있는지 손쉽게 파악할 수 있다.
한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
도 1은 본 발명의 다중분류장치의 바람직한 실시예를 나타내는 도면이다.
도 2는 본 발명에서 어휘의미패턴을 정의하는 실시예를 나타내는 도면이다.
도 3은 본 발명에서 컨셉을 정의하는 실시예를 나타내는 도면이다.
도 4는 본 발명에서 어휘의미패턴을 이용하여 문서를 분석하는 실시예를 나타내는 도면이다.
도 5는 본 발명에서 문서를 다중분류하는 실시예를 나타내는 도면이다.
도 6은 본 발명의 다중분류방법의 바람직한 실시예를 나타내는 도면이다.
첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 1은 본 발명의 다중분류장치의 바람직한 실시예를 나타내는 도면이다.
도 1에서 알 수 있듯이, 본 발명의 다중분류장치(100)는 전처리유닛(110), 분석유닛(120), 분류유닛(130)을 포함한다.
전처리유닛(110)은 형태소, 음절, 및 어절로 이루어진 어휘의미패턴(Lexico-semantic pattern: LSP)을 정의하여 제1데이터베이스(111)에 저장한다. 예를 들어 전처리유닛(110)은 도 2와 같이 복수의 어휘의미패턴을 정의하고 식별자(ID)를 부여한다. 어휘의미패턴은 텍스트를 매칭하기 위한 정규식과 유사한 것으로, 단어뿐만 아니라 형태소 태그, 의미자질, 각종 연산자들을 사용하여 구성한다. 예를 들어, '이번달 핸드폰 요금이 얼마'라는 문장이 있다면, 이를 분석하기 위해서 LSP는 '/NNG+@month @phone @pay+(/J_)? @how+(/SC)?' 같이 구성될 수 있다. 여기서 '@'는 의미자질을 의미하며, '/'가 앞에 들어간 것은 형태소 태그를 의미한다. '/J_'는 조사를 의미한다. LSP를 정의하는 기호를 표로 정리하면 다음과 같다.
연산자 의미
| OR
= 값의 범주를 지정하는 연산자
/ 품사 표현
+ 좌/우변에 대한 형태소 결합을 표현
? 모든 표현에 대해 적용 혹은 미적용을 의미
모든 표현을 한 번 대치하거나 공집합을 의미
! 표현이나 단어의 본래 의미를 부정하는 표현
* 표현식을 반복
품사 N_: 체언(명사류를 포함)
J_: 조사
V_: 용언(동사, 형용사)
E_: 어미
MA: 부사
전처리유닛(110)은 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉(concept)을 정의하여 제2데이터베이스(113)에 저장한다. 예를 들어 컨셉은 도 3과 같이 계층적인 구조를 포함할 수 있다. 컨셉은 일종의 LSP의 집합이다. 컨셉은 비슷한 의미를 가지는 LPS들을 하나로 묶어주는 역할을 한다. 컨셉을 통해서 LSP를 통해 매칭된 문장에 의미를 부여할 수 있다. 따라서, 컨셉은 특정한 의도를 갖고 특정한 의미를 부여하기 위해 계층적으로 구조화되는 것이 좋다. 예를 들어, 상품의 환불, 반품, 문의 등과 같이 특정한 의미를 갖는 컨셉을 구축할 수 있으며, 환불 컨셉에 속한 LSP에 매칭된 문장은 그 문장이 환불에 관한 의미를 포함하고 있다는 의미이다.
한편 의미자질은 컨셉의 의미를 구성하는 기본 단위로 정의될 수 있다. 그것은 일종의 단어 사전으로 비슷한 의미를 가진 어휘나 형태소 태그 또는 패턴 정보를 가지게 된다. 의미자질 안에 속한 정보를 '엔트리'라고 정의한다. 동일한 의미를 가지는 한 개 이상의 엔트리들을 각 의미자질에 속하는 하나의 집합으로 구축할 수 있다. 이러한 의미자질은 LSP 내에 사용할 수 있으며, 실제 분석 단계에서 의미자질 내에 속한 모든 엔트리를 대상으로 분석을 진행하게 된다. 예를 들어, '의류'이라는 의미자질과 그 안에 '가디건', '니트', '조끼', '점퍼' 등의 엔트리를 미리 구축하여 놓을 수 있고, 그렇다면 문장 내에 '가디건', '니트', '조끼', '점퍼' 등의 엔트리가 나타나면 매칭이 되게 된다.
전처리유닛(110)은 문서분류를 사전에 정의하여 제3데이터베이스(115)에 저장한다. 문서분류는 적어도 하나 이상의 어휘의미패턴 또는 컨셉이 매칭되어 있다. 이와 같이 문서분류에 매칭되어 있는 어휘의미패턴 또는 컨셉은 해당 문서분류가 어떤 의미인지 특정하게 된다. 또한, 문서에 매칭된 어휘의미패턴이 특정 문서분류에 매칭된 어휘의미패턴과 동일한 경우 해당 문서를 해당 문서분류에 할당 할 수 있는 매개역할을 한다.
바람직한 실시예에 있어서 문서분류를 저장하는 데이터베이스는 문서분류 식별자(ID), 해당 문서분류 식별자에 매칭된 어휘의미패턴 식별자, 해당 문서분류 식별자에 매칭된 컨셉 식별자를 포함할 수 있다.
분석유닛(120)은 분석대상문서에 포함된 문장을 형태소 분석하고 어휘의미패턴에 매칭시켜 구문분석결과를 연산한다. 바람직한 실시예에서 분석유닛(120)은 분석대상문서를 문장 단위로 분리하는 문장추출부, 문장을 형태소, 음절, 및 어절 중 적어도 어느 하나로 분석하는 문장요소분석부, 및 문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 구문분석부를 포함한다. 분석유닛(120)에서 도출한 구문분석결과를 도 4에 예시하였다. 예를 들어 분석유닛(120)은 문서(21)를 분석하여 구문분석결과(23)를 도출한다. 구문분석결과(23)는 해당 문서가 n개의 문장으로 구분되며, 각 문장에 어떤 어휘의미패턴에 매칭되어 있는지에 대한 정보를 포함한다. 즉, 문장 1은 어휘의미패턴 1과 어휘의미패턴 10에 매칭됨을 알 수 있다.
분류유닛(130)은 구문분석결과를 문서분류규칙에 따라 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출한다. 바람직한 실시예에 있어서 분류유닛(130)은 어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 분류규칙입력부, 및 구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 문서분류매칭부를 포함한다. 분류유닛(130)에서 분석한 문서의 분류결과를 도 5에 예시하였다. 예를 들어 문서 1(31)은 문서분류 1과 문서분류 2로 다중 분류된다. 문서 2(32)는 문서분류 2, 3, n으로 다중 분류된다.
도 6은 본 발명의 다중분류방법의 바람직한 실시예를 나타내는 도면이다. 본 발명의 방법은 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류한다.
바람직한 실시예에서 전처리유닛이 1) 어휘의미패턴, 2) 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉, 3) 어휘의미패턴에 기반하여 문서의 카테고리를 분류한 문서분류를 각각 정의하여 데이터베이스에 저장한다. 이와 같이 어휘의미패턴, 컨셉, 문서분류를 사정에 정의한 다음 실제 분석하고자 하는 분석대상문서를 분석유닛에 입력한다. 먼저 분석유닛은 분석대상문서를 문장 단위로 분리한다(S110).
분석유닛이 분리된 문장을 형태소, 음절, 및 어절 중 적어도 어느 하나의 문장요소로 분석한다(S120). 이렇게 분석된 문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭한다. 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출한다(S130). 예를들어 문장이 '인터넷쇼핑' 및 '환불정책'이고, '인터넷쇼핑' 및 '환불정책'에 관련된 어휘의미패턴의 LSP 식별자가 3번이라면, 해당 문장에 LSP 3번이 매칭된다.
분류유닛이 문장을 순서대로 정렬하고 개별 문장에 매칭된 LSP를 정렬하여 문장별로 LSP를 그룹핑한다(S140).
분류유닛이 어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는다.
문서분류규칙은 문서를 분류하기 위한 기준을 의미한다. 문서분류규칙은 함수명, LSP 식별자, 컨셉 식별자를 포함할 수 있다. 바람직한 실시예에서 문서분류규칙은 아래와 같이 LSP 식별자, 컨셉 식별자 중 적어도 하나 이상을 포함한다.
(함수명, LSP 식별자, 컨셉 식별자)
그 밖에 문서분류규칙은 컨셉의 계층적 구조 중에서 특정 LSP의 경로를 포함할 수 있다. 또한, 문서분류규칙은 문자열을 포함할 수도 있다. 예를 들면 다음과 같다.
(함수명, L43, C12, (or, "지연", "장애"))
문서분류규칙은 또한 분류규칙에 포함된 인자들의 연산방식을 정의하는 함수명을 포함한다. 함수명과 그 의미는 아래 표와 같다.
함수 이름 함수 기능 함수 제약 사항 사용 예시
AND AND 연산자는 한 개 이상의 조건을 취하며, 결과가 참이 되기 위해서는 입력 문서에 대하여 주어진 모든 조건들이 만족되어야 한다. LSP, Concept, 문자열, 함수 등이 인자로 사용 가능 (AND, "요금제", "핸드폰")
OR OR 연산자는 한 개 이상의 조건을 취하며, 결과가 참이 되기 위해서는 입력 문서에 대하여 주어진 조건들 중 한 개 이상이 만족되어야 한다. LSP, Concept, 문자열, 함수 등이 인자로 사용 가능 (OR, "요금제", "핸드폰")
NOT NOT 연산자는 한 개의 조건만을 취하며, AND 연산자의 자식으로만 존재 할 수 있습니다. 이 조건은 문자열이 온 경우에는 해당 문자열이 주어진 문서 범위 안에 존재하지 않을 때 참을 반환한다. LSP나 개념이 인자로 있을 때는 분석 결과에 해당 사항이 없을 때에 참을 반환하며, 함수가 인자로 온 경우에는 함수의 반환 결과를 역으로 반환한다. LSP, Concept, 문자열, 함수 등이 인자로 사용 가능 (AND, (NOT, "비싸"), (OR, L49))
MIN_n MIN_n (minimum) 연산자는 한 개의 정수(n)와 한 개 이상의 조건을 매개변수로 취합니다. 해당 규칙은 최소 n개의 조건이 만족될 때 참이 된다. LSP, Concept, 문자열, 함수 등이 인자로 사용 가능 (MIN_2, L21, C11, "반품")
MINOC_n MINOC_n (minimum occurrences) 연산자는 MIN_n과 비슷한 연산자로, 조건이 참이 되기 위해서는 연산자에 명시된 단어가 최소 n번 등장해야 한다. n에는 정수만 올 수 있으며, 인자에는 문자열만 사용 가능합니다. (MINOC_2, "제품", "결함", "리콜")
MAXOC_n MAXOC_n (maximum occurrences) 연산자는 MINOC_n의 반대 연산자이며, 조건이 참이 되기 위해서는 연산자에 명시된 단어가 최대 n번만 등장해야 한다. n에는 정수만 올 수 있으며, 인자에는 문자열만 사용 가능합니다. (MAXOC_2, "약정", "반품")
SENT SENT (sentence) 연산자는 한 개 이상의 조건을 취하며, 모든 조건이 한 문장 내에서 만족될 때 참을 반환한다. LSP, Concept, 문자열, 함수 등이 인자로 사용 가능 (SENT, "달력", L41, C12)
DIST_n DIST_n (distance) 연산자는 한 개의 정수(n)와 두 개의 조건을 취한다. 이 규칙은 두 문자열의 거리가 n 이내 일 때 참을 반환한다. n에는 정수만 올 수 있으며, 인자에는 문자열만 사용 가능합니다. (DIST_3, "공동", "연구")
DMS_n DMS_n (distance matched sentence) 함수는 인자로 주어진 LSP나 개념에 매칭된 문장들의 거리를 비교하며, 하나라도 조건을 만족시키는 문장이 있을 시 참을 반환한다. n에는 정수만 올 수 있으며, 인자에는 LSP 혹은 Concept 만 사용 가능 (DMS_3, L3241, C12)
NSENEQ_n NSENEQ_n (Number of Sentence Equal) 기타 다른 인자를 사용하지 않으며 문장 개수를 정의하는 인자만 사용된다. 분석 대상 문서의 문장 분리 후 문장 개수가 n과 같을 때 참을 반환 n에는 정수만 올 수 있으며, n이외 기타 다른 인자 사용 불가 (NSENEQ_3) 문서가 총 3문장 일 때 참을 반환한다.
NSENLT_n NSENLT_n (Number of Sentence Less Than) 기타 다른 인자를 사용하지 않으며 문장 개수를 정의하는 인자만 사용된다. 분석 대상 문서의 문장 분리 후 문장 개수가 n개 미만일 때 참을 반환한다. n에는 정수만 올 수 있으며, n이외 기타 다른 인자 사용 불가 (NSENLT_3) 문서가 총 3문장 미만 일 때 참을 반환한다.
NSENGT_n NSENGT_n (Number of Sentence Greater Than) 기타 다른 인자를 사용하지 않으며 문장 개수를 정의하는 인자만 사용된다. 부석 대상 문서의 문장 분리 후 문장 개수가 n개 미만일 때 참을 반환한다. n에는 정수만 올 수 있으며, n이외 기타 다른 인자 사용 불가 (NSENGT_3) 문서가 총 3문장 초과 일 때 참을 반환한다.
분류유닛이 구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출한다(S150).
참고로, 본 발명의 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims (4)

  1. 형태소, 음절, 및 어절로 이루어진 어휘의미패턴(Lexico-semantic pattern: LSP)을 정의하여 데이터베이스에 저장하고, 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉을 정의하여 데이터베이스에 저장하는 전처리유닛;
    분석대상문서에 포함된 문장을 형태소 분석하고 상기 어휘의미패턴에 매칭시켜 구문분석결과를 연산하는 분석유닛; 및
    상기 구문분석결과를 문서분류규칙에 따라 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 분류유닛을 포함하는 것을 특징으로 하는,
    문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치.
  2. 제1항에 있어서,
    상기 분석유닛은
    분석대상문서를 문장 단위로 분리하는 문장추출부;
    문장을 형태소, 음절, 및 어절 중 적어도 어느 하나로 분석하는 문장요소분석부; 및
    문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 구문분석부를 포함하는 것인,
    문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치.
  3. 제1항에 있어서,
    상기 분류유닛은
    어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 분류규칙입력부; 및
    구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 문서분류매칭부를 포함하는 것인,
    문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치.
  4. 전처리유닛이 1) 어휘의미패턴, 2) 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉, 3) 어휘의미패턴에 기반하여 문서의 카테고리를 분류한 문서분류를 각각 정의하여 데이터베이스에 저장하는 단계;
    분석유닛이 분석대상문서를 문장 단위로 분리하는 단계;
    분석유닛이 분리된 문장을 형태소, 음절, 및 어절 중 적어도 어느 하나의 문장요소로 분석하는 단계;
    분석유닛이 문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 단계;
    분류유닛이 어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 단계; 및
    분류유닛이 구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 단계를 포함하는 것을 특징으로 하는,
    문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 방법.
KR1020160161224A 2016-11-30 2016-11-30 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 KR101948257B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2016/013963 WO2018101506A1 (ko) 2016-11-30 2016-11-30 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법
KR1020160161224A KR101948257B1 (ko) 2016-11-30 2016-11-30 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160161224A KR101948257B1 (ko) 2016-11-30 2016-11-30 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법

Publications (2)

Publication Number Publication Date
KR20180062490A KR20180062490A (ko) 2018-06-11
KR101948257B1 true KR101948257B1 (ko) 2019-02-15

Family

ID=62242147

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160161224A KR101948257B1 (ko) 2016-11-30 2016-11-30 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법

Country Status (2)

Country Link
KR (1) KR101948257B1 (ko)
WO (1) WO2018101506A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102076548B1 (ko) * 2018-07-30 2020-02-12 주식회사 한글과컴퓨터 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법
KR102147582B1 (ko) * 2018-11-27 2020-08-26 주식회사 와이즈넛 속성 지식 확장 시스템 및 속성 지식 확장 방법
KR102233503B1 (ko) * 2019-02-12 2021-03-29 주식회사 자이냅스 문서 학습 장치
KR102215091B1 (ko) * 2019-03-29 2021-02-10 주식회사 포시에스 형태소 분석 기반의 자연어 매칭 장치, 방법 및 그를 이용한 전자문서 제어 시스템
CN114611524B (zh) * 2022-02-08 2023-11-17 马上消费金融股份有限公司 文本纠错方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4872504B2 (ja) * 2006-07-19 2012-02-08 富士ゼロックス株式会社 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム
KR101339103B1 (ko) * 2011-10-05 2013-12-09 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
KR101589621B1 (ko) * 2015-02-23 2016-01-28 주식회사 와이즈넛 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법

Also Published As

Publication number Publication date
KR20180062490A (ko) 2018-06-11
WO2018101506A1 (ko) 2018-06-07

Similar Documents

Publication Publication Date Title
KR101948257B1 (ko) 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법
US9626358B2 (en) Creating ontologies by analyzing natural language texts
Alwakid et al. Challenges in sentiment analysis for Arabic social networks
US20180267958A1 (en) Information extraction from logical document parts using ontology-based micro-models
US20160062982A1 (en) Natural language processing system and method
US20180060306A1 (en) Extracting facts from natural language texts
US20190392035A1 (en) Information object extraction using combination of classifiers analyzing local and non-local features
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
US20200342059A1 (en) Document classification by confidentiality levels
US10445428B2 (en) Information object extraction using combination of classifiers
Kmail et al. An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures
US20180113856A1 (en) Producing training sets for machine learning methods by performing deep semantic analysis of natural language texts
Rodrigues et al. Natural language processing applied to forensics information extraction with transformers and graph visualization
US11314922B1 (en) System and method for generating regulatory content requirement descriptions
Sitaula A hybrid algorithm for stemming of Nepali text
Imane et al. A set of parameters for automatically annotating a Sentiment Arabic Corpus
Pham et al. A hybrid approach for biomedical event extraction
Umair et al. N-GPETS: Neural Attention Graph-Based Pretrained Statistical Model for Extractive Text Summarization
Kramer et al. Improvement of a naive Bayes sentiment classifier using MRS-based features
US20220229998A1 (en) Lookup source framework for a natural language understanding (nlu) framework
US20230419110A1 (en) System and method for generating regulatory content requirement descriptions
Kishore et al. Document Summarization in Malayalam with sentence framing
Ahmad et al. Aspect Based Sentiment Analysis and Opinion Mining on Twitter Data Set Using Linguistic Rules
JP7227705B2 (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム
Garg et al. A systematic and exhaustive review of automatic abstractive text summarization for Hindi language

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right