KR101938212B1 - 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템 - Google Patents

의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템 Download PDF

Info

Publication number
KR101938212B1
KR101938212B1 KR1020180061050A KR20180061050A KR101938212B1 KR 101938212 B1 KR101938212 B1 KR 101938212B1 KR 1020180061050 A KR1020180061050 A KR 1020180061050A KR 20180061050 A KR20180061050 A KR 20180061050A KR 101938212 B1 KR101938212 B1 KR 101938212B1
Authority
KR
South Korea
Prior art keywords
document
words
meaning
vector
context
Prior art date
Application number
KR1020180061050A
Other languages
English (en)
Inventor
양형정
주종민
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020180061050A priority Critical patent/KR101938212B1/ko
Application granted granted Critical
Publication of KR101938212B1 publication Critical patent/KR101938212B1/ko

Links

Images

Classifications

    • G06F17/30011
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • G06F17/3069

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템에 관한 것으로서, 전처리부가 형태소 분석을 통해 입력받은 문서를 각 단어별로 분류하는 (a) 단계; 특징추출부가 분류된 단어와 인접한 위치의 다른 단어들을 의미별로 분류하는 (b) 단계; 특징추출부가 분류된 단어들의 문맥을 고려해 구성한 문장 또는 문서를 벡터화하는 (c) 단계; 및 자동분류부가 벡터화된 문장 또는 문서를 주제별로 분류하는 (d) 단계를 포함한다.
상기와 같은 본 발명에 따르면, 다양한 문서 집합으로부터 형태소를 분석해 불용어 필터링하고, 문서의 벡터 변환과 특징을 추출하며, 순환신경망 기반으로 문서를 자동으로 분류함으로써, 문서에 포함된 단어의 의미와 문맥을 고려하여 서로 유사한 문서를 추출해 주제별로 분류하는 일련의 과정을 자동으로 수행할 수 있다.

Description

의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템{SUBJECT BASED DOCUMENT AUTOMATIC CLASSIFICATION SYSTEM THAT CONSIDERS MEANING AND CONTEXT}
본 발명은 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템에 관한 것으로 더욱 상세하게는, 다양한 문서 집합에 포함된 단어의 의미와 문맥을 고려하여 서로 유사한 문서를 찾아 주제별로 분류하는 기술에 관한 것이다.
다양한 분야의 문서가 섞여있는 집합을 분류하는 문제는 오랫동안 연구되어왔다. 문서를 백터화시키기 위해 일반적으로 Tf-iDf(Term Frequency - inverse Document Frequency) 방법을 많이 사용해왔다.
Tf-iDf는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다.
이러한 Tf-iDf 방법은 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용되고 있다. 그러나, 문맥을 이해하지 못하고 단순하기 때문에 그 성능을 신뢰할 수 없다는 문제점이 있다.
한편, 종래에 분류 문제에서는 베이시안 분류, 최근접 이웃 기법, 서포트 벡터 머신(Support Vector MACHINE) 등 통계적 추론을 사용해왔다.
이러한 방법들은 현재까지도 많이 사용되고 있으나, 딥러닝 기법을 이용한 문서 분류에 비해 신뢰도가 낮은 문제점이 있다.
한국공개특허 제10-2018-0023351호
본 발명의 목적은, 다양한 문서 집합으로부터 형태소를 분석해 불용어 필터링하고, 문서의 벡터 변환과 특징을 추출하며, 순환신경망 기반으로 문서를 자동으로 분류함으로써, 문서에 포함된 단어의 의미와 문맥을 고려하여 서로 유사한 문서를 추출해 주제별로 분류하는 일련의 과정을 자동으로 수행하는데 있다.
이러한 기술적 과제를 달성하기 위한 본 발명의 일 실시예는 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템으로서, 형태소 분석을 통해 입력받은 문서를 각각의 단어로 분리하는 전처리부; 및 분리된 단어와 인접한 위치의 다른 단어들을 의미별로 분류하고, 의미별로 분류된 단어들을 포함한 문장 또는 문서를 벡터화하는 특징추출부를 포함하는 것을 특징으로 한다.
바람직하게는 특징추출부는, 문장 내에서 특정 단어가 입력 데이터로 설정되면 주위에 인접한 다른 단어를 출력 데이터로 입력하고, 스킵그램 모델(Skip-gram model)을 통해 학습을 수행하여 상기 특정 단어와 인접한 위치의 다른 단어들을 의미별로 분류하여 벡터로 설정하는 의미분석모듈을 포함하는 것을 특징으로 한다.
특징추출부는, 의미별로 분류된 단어들을 분산메모리(DM: distributed memory) 구조를 통해 기 설정된 문맥 연결 기준에 부합하도록 구성한 문장 또는 문서를 벡터화하는 문맥파악모듈을 포함하는 것을 특징으로 한다.
의미분석모듈은, 입력 데이터를 은닉층(Hidden layer)로 인가하고, 출력층(Output layer)에 입력된 데이터에 가중치 행렬(Weight Matrix)을 곱한 값을 인가하며, 소프트맥스(softmax) 계산을 통해 기 설정된 단어의 벡터와 비교하여 오차를 계산한 후 오류 역전파를 통한 수정을 반복해 가중치 행렬을 수정하고, 기 설정된 기준 이하의 오차가 나오는 경우 가중치 행렬을 곱한 값과 대응하는 단어들을 벡터로 설정하는 것을 특징으로 한다.
의미분석모듈은, 특정 단어와 인접한 위치의 다른 단어를 의미별로 분류하여 word2vec를 통해 벡터화하는 것을 특징으로 한다.
문맥파악모듈은, 문장 또는 문서를 doc2vec을 통해 벡터화하는 것을 특징으로 한다.
벡터화된 문장 또는 문서를 순환신경망 기반에 다층 구조의 서열 분류모델인 GRU(Gated Recurrent Unit)을 통해 주제별로 분류하는 자동분류부를 포함하는 것을 특징으로 한다.
전술한 시스템을 기반으로 하는 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 방법은, 전처리부가 형태소 분석을 통해 입력받은 문서를 각 단어별로 분류하는 (a) 단계; 특징추출부가 분류된 단어와 인접한 위치의 다른 단어들을 의미별로 분류하는 (b) 단계; 특징추출부가 분류된 단어들의 문맥을 고려해 구성한 문장 또는 문서를 벡터화하는 (c) 단계; 및 자동분류부가 벡터화된 문장 또는 문서를 주제별로 분류하는 (d) 단계를 포함한다.
바람직하게는 (b) 단계는, 특징추출부가 분류된 단어를 입력 데이터로 설정하는 (b-1) 단계; 특징추출부가 입력 데이터로 설정된 단어와 인접한 위치의 단어를 출력 데이터로 입력하는 (b-2) 단계; 특징추출부가 입력 데이터를 은닉층(Hidden layer)로 인가하고, 출력층(Output layer)에 입력된 출력 데이터에 가중치 행렬(Weight Matrix)을 곱하는 (b-3) 단계; 특징추출부가 출력 데이터에 가중치 행렬(Weight Matrix)을 곱한 값을 소프트맥스(softmax) 계산을 통해 기 설정된 단어의 벡터와 비교하여 오차를 계산한 후 오류 역전파를 통해 보정하는 (b-4) 단계; 및 특징추출부가 계산한 오차가 기 설정된 기준 이하인 경우, 가중치 행렬을 곱한 값과 대응하는 단어를 벡터로 설정해 (b-1) 단계에서 입력 데이터로 설정된 단어와 인접한 위치의 다른 단어들을 의미별로 분류하는 (b-5) 단계를 포함하는 것을 특징으로 한다.
(c) 단계는, 분류된 단어를 문서의 벡터로 정의하는 (c-1) 단계; 특징추출부가 문단 벡터 메모리를 추가로 할당하는 (c-2) 단계; 특징추출부가 입력 벡터에 추가로 문서 벡터를 더해 분류하는 (c-3) 단계; 및 특징추출부가 문서 벡터를 더해 분류한 단어들 포함하는 문장 또는 문서를 벡터화하는 (c-4) 단계를 포함하는 것을 특징으로 한다.
상기와 같은 본 발명에 따르면, 다양한 문서 집합으로부터 형태소를 분석해 불용어 필터링하고, 문서의 벡터 변환과 특징을 추출하며, 순환신경망 기반으로 문서를 자동으로 분류함으로써, 문서에 포함된 단어의 의미와 문맥을 고려하여 서로 유사한 문서를 추출해 주제별로 분류하는 일련의 과정을 자동으로 수행하는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템을 도시한 구성도.
도 2는 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템의 스킵그램 모델을 도시한 예시도.
도 3은 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템의 분산메모리 모델을 도시한 예시도.
도 4는 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템의 순환신경망 구조를 도시한 도면.
도 5는 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템의 GRU 구조를 도시한 도면.
도 6은 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 방법을 도시한 순서도.
도 7은 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 방법의 제S200단계에 대한 세부과정을 도시한 순서도.
도 8은 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 방법의 제S300단계에 대한 세부과정을 도시한 순서도.
본 발명의 구체적인 특징 및 이점들은 첨부 도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다. 또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템(S)을 도시한 구성도이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템(S)은 전처리부(100), 특징추출부(200) 및 자동분류부(300)를 포함하여 구성된다.
전처리부(100)는 형태소 분석을 통해 입력받은 문서를 각 단어별로 분리한다.
이때, 전천리부(100)는 문서의 분별력 향상을 위해 불필요한 단어 즉, 불용어에 대한 필터링을 수행한다.
본 발명의 일 실시예에 따른 불용어는 대다수의 문서에서 높은 빈도로 포함된 단어로 조사, 어미, 접두사 또는 접미사 중에 어느 하나로 구성될 수 있으며, 사용자 설정에 따라 지정된 단어를 포함할 수 있다.
특징추출부(200)는 전처리부(100)에 의해 분리된 단어와 인접한 위치의 다른 단어들을 유추하여 단어를 의미별로 분류하고, 분류된 단어들의 문맥(단어 의미의 앞뒤 연결)을 고려해 구성한 문장 또는 하나의 문서를 벡터화하되, 의미분석모듈(202) 및 문맥파악모듈(204)을 포함한다. 이때, 인접한 단어들의 유추는 도 2에 도시된 스킵그램 모델(Skip-gram model)을 통해 수행된다.
구체적으로, 의미분석모듈(202)은 문장 내에서 특정 단어가 입력 데이터로 설정되면 주위에 인접한 다른 단어를 출력 데이터로 입력하고, 스킵그램 모델(Skip-gram model)을 통해 학습을 수행하여 상기 특정 단어와 인접한 위치의 다른 단어들을 의미별로 분류한다. 이때, 의미분석모듈(202)에 의해 설정된 입력 데이터 및 출력 데이터는 원핫 인코딩(one-hot encoding) 방식으로 입력된다.
의미분석모듈(202)은 원핫 인코딩 방식으로 입력된 데이터를 은닉층(Hidden layer)로 인가하고, 출력층(Output layer)에 입력된 데이터에 가중치 행렬(Weight Matrix)을 곱한 값을 인가하며, 소프트맥스(softmax) 계산을 통해 기 설정된 단어의 벡터와 비교하여 오차를 계산한 후 오류 역전파를 통해 수정한다.
의미분석모듈(202)은 전술한 입력, 은닉 및 출력에 이르는 연산 과정을 반복 수행하여 가중치 행렬을 수정하고, 기 설정된 기준 이하의 오차가 나오는 경우 가중치 행렬을 곱한 값과 대응하는 단어들을 벡터로 설정한다.
문맥파악모듈(204)은 의미분석모듈(202)에 의해 벡터로 설정된 단어들을 도 3에 도시된 분산메모리(DM: distributed memory) 방식으로 문맥(단어 의미의 앞뒤 연결)을 고려한 기 설정된 문맥 연결 기준에 부합하도록 구성한 문장 또는 하나의 문서를 벡터화한다.
이때, 문맥파악모듈(204)은 학습 단계를 벡터에 기억시키고 학습된 최종 벡터를 해당 문서의 벡터로 정의하되, 문단(paragraph) 벡터 메모리를 추가로 할당하고, 학습단계에서 입력 벡터에 추가로 문서 벡터를 더해 분류하고, 학습한 결과만큼의 오차를 갱신하는 형태로 학습한다.
아울러, 전술한 특징추출부(200)의 의미분석모듈(202)은 단어를 의미별로 분류하여 word2vec를 통해 벡터화하고, 문맥파악모듈(204)은 문장 또는 문서를 doc2vec을 통해 벡터화하도록 구성된다.
한편, 도 4는 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템(S)의 순환신경망(RNN: Recurrent Neural Network) 구조를 도시한 도면이고, 도 5는 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템(S)의 GRU(Gated Recurrent Unit) 구조를 도시한 도면이다.
자동분류부(300)는 특징추출부(200)로부터 인가받은 문장 또는 하나의 문서에 대한 벡터를 순환신경망(RNN) 기반에 다층 구조를 가지는 서열 분류모델인 GRU을 통해 주제별로 분류한다.
구체적으로, 본 발명의 일 실시예에 따른 순환신경망은 일반적인 순방향 신경망(Feed Forward Network)와 달리, 은닉층(Hidden layer)의 결과 벡터를 다시 입력 노드로 인가 즉, 과거에 입력되었던 데이터의 결과값이 다음 입력 데이터와 함께 은닉층 노드로 전달하여 순서에 의미가 있는 시계열 데이터(중요한 음성, 문자 등 자연어) 처리 분야에 적합하다.
이때, 순환신경망은 BPTT(Backpropagation Through Time) 방법으로 오차를 계산하는데 모든 노드가 곱하기 연산으로만 이루어졌기 때문에 그라디언트가 소실(Vanishing Gradients Problem)되는 문제가 발생한다. 따라서, 그라디언트 소실 문제를 해결하고 계산량을 줄이는 방법이 필요하다.
또한, 도 5에 도시된 바와 같이, GRU 방법은 업데이트 게이트(update gate)와 리셋 게이트(reset gate)로 구성된 셀(cell)을 통해 그라디언트 소실 문제를 해결하고 계산량을 낮춘다.
과거 정보를 얼마만큼 반영할지를 결정하기 위한 리셋 게이트는 [수학식 1]을 통해 정의하고, 과정 정보와 현재 정보를 어떻게 조합할지 결정하는 업데이트 게이트는 [수학식 2]를 통해 정의한다.
Figure 112018052590408-pat00001
Figure 112018052590408-pat00002
게이트 순환 단위(GRU) 방법에서는 먼저 현 시점에서 유지할 정보를 [수학식 3]과 같이 정의한다. 이때, 현재의 정보는
Figure 112018052590408-pat00003
가 되고, 과거 정보는
Figure 112018052590408-pat00004
가 된다. 이때, 과거 정보를 얼마나 반열할지는 리셋 게이트
Figure 112018052590408-pat00005
를 통해 결정한다.
리셋 게이트는 시그모이드 함수를 통해 값을 가지므로 0부터 1사이의 값을 갖는다. 따라서, 0이라면 과거의 정보는 모두 지우고 1이라면 과거 정보를 모두 기억하는 것을 의미한다. 또한, 리셋 게이트 값과 상관없이 현재의 정보는 무조건 반영된다.
Figure 112018052590408-pat00006
수정된 현재의 정보를 출력값으로 내보내기 위한 업데이트 절차는 [수학식 4]를 통해 수행된다. 이때, 과거의 정보
Figure 112018052590408-pat00007
과 현재의 정보
Figure 112018052590408-pat00008
를 업데이트 게이트
Figure 112018052590408-pat00009
값을 통해 결정한다.
업데이트 게이트 또한 시그모이드 함수로부터 0부터 1의 값을 가지므로 0의 값을 갖는다면 과거 정보는 모두 지우고 현재 정보만을 기억하게 된다.
Figure 112018052590408-pat00010
즉, 본 발명의 일 실시에에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템(S)에 의하면, 다양한 문서 집합으로부터 형태소를 분석해 불용어 필터링하고, 문서의 벡터 변환과 특징을 추출하며, 순환신경망 기반으로 문서를 자동으로 분류함으로써, 문서에 포함된 단어의 의미와 문맥을 고려하여 서로 유사한 문서를 추출해 주제별로 분류하는 일련의 과정을 자동으로 수행할 수 있다.
이하, 도 6을 참조하여 전술한 시스템을 기반으로 하는 본 발명의 일 실시예에 따른 의미와 문맥을 고려한 주제기반 문서 자동 분류 방법에 대해 살피면 아래와 같다.
먼저, 전처리부(100)가 형태소 분석을 통해 입력받은 문서를 각 단어별로 분류한다(S100).
이어서, 특징추출부(200)가 분류된 단어와 인접한 위치의 다른 단어들을 의미별로 분류한다(S200).
뒤이어, 특징추출부(200)가 분류된 단어들의 문맥을 고려해 구성한 문장 또는 문서를 벡터화한다(S300).
그리고, 자동분류부(300)가 벡터화된 문장 또는 문서를 주제별로 분류한다(S400).
바람직하게, 상기 제S200단계는 도 7에 도시된 바와 같이 제S202단계 내지 제S210단계를 포함하여 구성된다.
제S100단계 이후, 특징추출부(200)가 전처리부(100)에 의해 분류된 단어를 입력 데이터로 설정한다(S202).
이어서, 특징추출부(200)가 분류된 단어 즉, 입력 데이터로 설정된 단어와 인접한 위치의 단어를 출력 데이터로 입력한다(S204). 이때, 입력 데이터 및 출력 데이터는 원핫 인코딩(one-hot encoding) 방식으로 입력된다.
뒤이어, 특징추출부(200)가 입력 데이터를 은닉층(Hidden layer)로 인가하고, 출력층(Output layer)에 입력된 출력 데이터에 가중치 행렬(Weight Matrix)을 곱한 값을 인가한다(S206).
이어서, 특징추출부(200)가 출력 데이터에 가중치 행렬(Weight Matrix)을 곱한 값을 소프트맥스(softmax) 계산을 통해 기 설정된 단어의 벡터와 비교하여 오차를 계산한 후 오류 역전파를 통해 보정한다(S208).
그리고, 특징추출부(200)가 계산한 오차가 기 설정된 기준 이하인 경우, 가중치 행렬을 곱한 값과 대응하는 단어를 벡터로 설정해 상기 S202 단계에서 입력 데이터로 설정된 단어와 인접한 위치의 다른 단어들을 의미별로 분류한다(S210).
바람직하게, 상기 제S300단계는 도 8에 도시된 바와 같이 제S302단계 내지 제S308단계를 포함하여 구성된다.
제S200단계 이후, 특징추출부(200)가 S200단계에서 분류된 단어를 문서의 벡터로 정의한다(S302).
이어서, 특징추출부(200)가 문단(paragraph) 벡터 메모리를 추가로 할당한다(S304).
뒤이어, 특징추출부(200)가 입력 벡터에 추가로 문서 벡터를 더해 분류한다(S306).
그리고, 특징추출부(200)가 문서 벡터를 더해 분류한 단어들 포함하는 문장 또는 문서를 벡터화한다(S308).
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등 물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
S: 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템
100: 전처리부
200: 특징추출부
202: 의미분석모듈
204: 문맥파악모듈
300: 자동분류부

Claims (10)

  1. 형태소 분석을 통해 입력받은 문서를 각각의 단어로 분리하는 전처리부;
    분리된 단어와 인접한 위치의 다른 단어들을 의미별로 분류하고, 의미별로 분류된 단어들을 포함한 문장 또는 문서를 벡터화하는 특징추출부; 및
    상기 벡터화된 문장 또는 문서를 순환신경망 기반에 다층 구조의 서열 분류모델인 GRU(Gated Recurrent Unit)의 업데이트 게이트(update gate)와 리셋 게이트(reset gate)로 구성된 셀(cell)을 통해 주제별로 분류하는 자동분류부를 포함하되,
    상기 특징추출부는,
    문장 내에서 특정 단어가 입력 데이터로 설정되면 주위에 인접한 다른 단어를 출력 데이터로 입력하고, 스킵그램 모델(Skip-gram model)을 통해 학습을 수행하여 상기 특정 단어와 인접한 위치의 다른 단어들을 의미별로 분류하여 벡터로 설정하는 의미분석모듈; 및
    상기 의미별로 분류된 단어들을 분산메모리(DM: distributed memory) 구조를 통해 기 설정된 문맥 연결 기준에 부합하도록 구성한 문장 또는 문서를 벡터화하는 문맥파악모듈을 포함하고,
    상기 의미분석모듈은,
    상기 입력 데이터를 은닉층(Hidden layer)로 인가하고, 출력층(Output layer)에 입력된 데이터에 가중치 행렬(Weight Matrix)을 곱한 값을 인가하며, 소프트맥스(softmax) 계산을 통해 기 설정된 단어의 벡터와 비교하여 오차를 계산한 후 오류 역전파를 통한 수정을 반복해 가중치 행렬을 수정하고, 기 설정된 기준 이하의 오차가 나오는 경우 가중치 행렬을 곱한 값과 대응하는 단어들을 벡터로 설정하며, 상기 특정 단어와 인접한 위치의 다른 단어를 의미별로 분류하여 word2vec를 통해 벡터화하며,
    상기 문맥파악모듈은,
    학습 단계를 벡터에 기억시키고 학습된 최종 벡터를 해당 문서의 벡터로 정의하되, 문단(paragraph) 벡터 메모리를 추가로 할당하고, 학습단계에서 입력 벡터에 추가로 문서 벡터를 더해 분류하고, 학습한 결과만큼의 오차를 갱신하되, 상기 문장 또는 문서를 doc2vec을 통해 벡터화하며,
    상기 리셋 게이트는 [수학식 1]을 통해 정의하고, 상기 업데이트 게이트는 [수학식 2]를 통해서 정의하며, 현 시점에서 유지할 정보를 [수학식 3]과 같이 정의하고, 수정된 현재의 정보를 출력값으로 내보내기 위한 업데이트 절차는 [수학식 4]를 통해 수행하되, 현재의 정보는
    Figure 112018116636545-pat00019
    로 설정하고, 과거 정보는
    Figure 112018116636545-pat00020
    로 설정하며, 과거 정보를 얼마나 반열할지는 리셋 게이트
    Figure 112018116636545-pat00021
    를 통해 결정하고, 과거의 정보
    Figure 112018116636545-pat00022
    과 현재의 정보
    Figure 112018116636545-pat00023
    를 업데이트 게이트
    Figure 112018116636545-pat00024
    값을 통해 결정하는 것을 특징으로 하는 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템.
    [수학식 1]
    Figure 112018116636545-pat00025

    [수학식 2]
    Figure 112018116636545-pat00026

    [수학식3]
    Figure 112018116636545-pat00027

    [수학식 4]
    Figure 112018116636545-pat00028
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020180061050A 2018-05-29 2018-05-29 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템 KR101938212B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180061050A KR101938212B1 (ko) 2018-05-29 2018-05-29 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180061050A KR101938212B1 (ko) 2018-05-29 2018-05-29 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템

Publications (1)

Publication Number Publication Date
KR101938212B1 true KR101938212B1 (ko) 2019-01-15

Family

ID=65030455

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180061050A KR101938212B1 (ko) 2018-05-29 2018-05-29 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템

Country Status (1)

Country Link
KR (1) KR101938212B1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102050855B1 (ko) * 2019-03-25 2020-01-08 강태기 수요 예측 장치 및 방법
CN111178046A (zh) * 2019-12-16 2020-05-19 山东众阳健康科技集团有限公司 一种基于排序的字向量训练方法
KR20200094514A (ko) * 2019-01-30 2020-08-07 경기대학교 산학협력단 설비 오류 발생 패턴 추출 장치 및 방법
CN112597311A (zh) * 2020-12-28 2021-04-02 东方红卫星移动通信有限公司 一种基于低轨卫星通信下的终端信息分类方法及系统
WO2021132927A1 (en) * 2019-12-27 2021-07-01 Samsung Electronics Co., Ltd. Computing device and method of classifying category of data
CN113961698A (zh) * 2020-07-15 2022-01-21 上海乐言信息科技有限公司 基于神经网络模型的意图分类方法、系统、终端及介质
WO2022035117A1 (ko) * 2020-08-12 2022-02-17 한국수력원자력 주식회사 인공 지능 피드백 방법 및 인공 지능 피드백 시스템
WO2022035116A1 (ko) * 2020-08-12 2022-02-17 한국수력원자력 주식회사 인공 지능 피드백 방법 및 인공 지능 피드백 시스템
KR102425017B1 (ko) 2022-03-28 2022-07-25 주식회사 쓰리빌리언 S-bns를 이용한 지도학습 기반 데이터 처리 시스템
WO2022191368A1 (ko) * 2021-03-09 2022-09-15 주식회사 마이데이터랩 자연어 의도를 분류하는 뉴럴 네트워크 훈련을 위한 데이터 처리 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101847847B1 (ko) * 2016-11-15 2018-04-12 주식회사 와이즈넛 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101847847B1 (ko) * 2016-11-15 2018-04-12 주식회사 와이즈넛 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
J. Chung et al., Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling, www.arxiv.org (2014.12.11.)*
J. Mao et al., Explain Images with Multimodal Recurrent Neural Networks, www.arxiv.com (2014.10.04)
김도우, Doc2Vec을 활용한 CNN 기반 한국어 신문 기사 분류에 관한 연구, 서강대학교 석사학위 논문 (2017.01.05.)*

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200094514A (ko) * 2019-01-30 2020-08-07 경기대학교 산학협력단 설비 오류 발생 패턴 추출 장치 및 방법
KR102243372B1 (ko) * 2019-01-30 2021-04-22 경기대학교 산학협력단 설비 오류 발생 패턴 추출 장치 및 방법
KR102050855B1 (ko) * 2019-03-25 2020-01-08 강태기 수요 예측 장치 및 방법
CN111178046A (zh) * 2019-12-16 2020-05-19 山东众阳健康科技集团有限公司 一种基于排序的字向量训练方法
WO2021132927A1 (en) * 2019-12-27 2021-07-01 Samsung Electronics Co., Ltd. Computing device and method of classifying category of data
CN113961698A (zh) * 2020-07-15 2022-01-21 上海乐言信息科技有限公司 基于神经网络模型的意图分类方法、系统、终端及介质
WO2022035117A1 (ko) * 2020-08-12 2022-02-17 한국수력원자력 주식회사 인공 지능 피드백 방법 및 인공 지능 피드백 시스템
WO2022035116A1 (ko) * 2020-08-12 2022-02-17 한국수력원자력 주식회사 인공 지능 피드백 방법 및 인공 지능 피드백 시스템
CN112597311A (zh) * 2020-12-28 2021-04-02 东方红卫星移动通信有限公司 一种基于低轨卫星通信下的终端信息分类方法及系统
CN112597311B (zh) * 2020-12-28 2023-07-11 东方红卫星移动通信有限公司 一种基于低轨卫星通信下的终端信息分类方法及系统
WO2022191368A1 (ko) * 2021-03-09 2022-09-15 주식회사 마이데이터랩 자연어 의도를 분류하는 뉴럴 네트워크 훈련을 위한 데이터 처리 방법 및 장치
KR102425017B1 (ko) 2022-03-28 2022-07-25 주식회사 쓰리빌리언 S-bns를 이용한 지도학습 기반 데이터 처리 시스템

Similar Documents

Publication Publication Date Title
KR101938212B1 (ko) 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템
US20200151591A1 (en) Information extraction from documents
KR102008845B1 (ko) 비정형 데이터의 카테고리 자동분류 방법
US7412093B2 (en) Hybrid apparatus for recognizing answer type
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
US11847418B2 (en) Few-shot language model training and implementation
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
CN111831790A (zh) 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
CN112528894B (zh) 一种差异项判别方法及装置
CN111428028A (zh) 基于深度学习的信息分类方法及相关设备
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN110968693A (zh) 基于集成学习的多标签文本分类计算方法
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
Stuart et al. Intelligent semantic-based system for corpus analysis through hybrid probabilistic neural networks
CN108595568A (zh) 一种基于极大无关多元逻辑回归的文本情感分类方法
Putra et al. Hate speech detection using convolutional neural network algorithm based on image
CN112528653A (zh) 短文本实体识别方法和系统
CN115309899B (zh) 一种文本中特定内容识别存储方法及系统
Holla et al. An improved fake news detection model using hybrid time frequency-inverse document frequency for feature extraction and adaboost ensemble model as a classifier
CN114564579A (zh) 一种基于海量知识图谱及图嵌入的实体分类方法与系统
Sverdrup-Thygeson An artificial immune system for fake news classification
Dey et al. Analysis of machine learning algorithms by developing a phishing email and website detection model
Shankar et al. Spoken term detection from continuous speech using ANN posteriors and image processing techniques

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant