KR100420096B1 - 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 - Google Patents

각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 Download PDF

Info

Publication number
KR100420096B1
KR100420096B1 KR10-2001-0012318A KR20010012318A KR100420096B1 KR 100420096 B1 KR100420096 B1 KR 100420096B1 KR 20010012318 A KR20010012318 A KR 20010012318A KR 100420096 B1 KR100420096 B1 KR 100420096B1
Authority
KR
South Korea
Prior art keywords
sentence
sentences
category
learning
representative
Prior art date
Application number
KR10-2001-0012318A
Other languages
English (en)
Other versions
KR20020072140A (ko
Inventor
서정연
이근배
고영중
Original Assignee
주식회사 다이퀘스트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 다이퀘스트 filed Critical 주식회사 다이퀘스트
Priority to KR10-2001-0012318A priority Critical patent/KR100420096B1/ko
Publication of KR20020072140A publication Critical patent/KR20020072140A/ko
Application granted granted Critical
Publication of KR100420096B1 publication Critical patent/KR100420096B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 수집된 문서를 문장 단위로 나눈 후 각 범주의 핵심어 입력과 문장간 유사도 측정 기법을 사용하여 문장들을 각 범주별로 분류하고 범주별로 모아진 문장들을 학습 데이터로 사용하여 학습하고 문서 범주화 작업을 수행하는 자동 문서 범주화 시스템 및 방법을 제공한다. 본 발명은 (i)수집된 문서를 문장 단위로 분할하고 형태소 분석하여 내용어를 추출하는 단계; (ii)입력된 핵심어를 이용하여 각 범주의 대표 문장을 추출하는 단계; (iii)상기 추출된 대표 문장이 각 범주의 특성을 잘 나타내고 있는지를 검증하여 순위화하는 단계; (iv)상기 추출된 대표 문장과 대표 문장으로 추출되지 못한 미 분류 문장과의 문장간 유사도 측정 기법을 이용하여 학습에 사용될 학습 문장 집합을 생성하는 단계; (v)상기 생성된 학습 문장 집합을 사용하여 자질을 추출하고 학습하여 문서 범주화를 수행하는 단계를 포함하는 비지도 방식의 자동 문서 범주화 방법이다.

Description

각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한 비지도 학습을 기반으로 하는 자동 문서 범주화 방법{Automatic Text Categorization Method Based on Unsupervised Learning, Using Keywords of Each Category and Measurement of the Similarity between Sentences}
본 발명은 온 라인 상 문서의 자동 문서 범주화에 관한 것이며, 특히 수작업으로 수행되는 대량의 학습 문서 생성 작업 없이 적은 비용으로 문서 범주화를 수행할 수 있는 방법에 관한 것이다.
최근에는 인터넷이 폭 넓게 보급되어 온 라인(on-line)상에서 얻을 수 있는 텍스트(text) 정보의 양이 급증함에 따라 텍스트 문서를 수집하는 것은 쉬워졌으나 수집된 텍스트 정보에 대한 효율적인 정보 관리가 요구되고 있다.
종래의 자동 문서 범주화 방법은 보통 수작업에 의해 범주가 할당된 대량의 학습 문서를 사용해서 학습하고 범주화 작업을 수행한다. 그러나, 학습에 사용될 대량의 양질의 학습 문서를 생성하는데는 많이 비용과 어려움이 있다. 특히, 자동 문서 범주화의 영역이 신문 기사, 전자 도서관뿐만 아니라 전자 우편, 뉴스 그룹 등 적용 영역이 넓어지고 다양해 지고 있으므로 각 영역에 따라 대량의 학습 문서를 생성한다는 것은 많은 작업 인원과 많은 시간을 필요로 하는 어려움이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 학습 문서를 생성하기 위한 작업 없이 각 범주의 핵심어의 입력만으로 인터넷에서 수집된 문서를 사용하여 자동으로 학습 데이터를 생성하고 학습하여 문서 범주화를 수행하는 방법을 제공하는 데 있다.
본 발명은 기본적으로 텍스트 문서를 문장 단위로 나누는 기술과 형태소 분석 및 태깅 기술을 이용하고 있으며, 입력된 핵심어로부터 분류하고자 하는 각 범주의 특징을 잘 내포하고 있는 문장을 자동으로 추출하고 순위화하는 통계적 정보 검색 기법을 사용한다. 또한, 문장간 유사도 측정기법을 이용하여 학습 문장 데이터를 자동으로 구축하기 위한 통계적 언어 분석 기법을 사용하고 있으며, 구축된 학습 문장 데이터를 사용하여 자질을 추출하고 분류하는 과정에 의해 문서 범주화를 이룩한다.
도 1은 본 발명에 따른 자동 문서 범주화 방법을 나타낸 전체 흐름도.
도 2는 도 1의 전처리 단계에서 내용어 추출 과정의 일 예를 나타낸 흐름도.
도 3은 도 1의 학습 문장 집합 생성 단계의 일 예를 나타낸 흐름도.
도 4는 도 3에서 단어-문장간 유사도 측정의 반복 계산 예시도.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명은 (i)수집된 문서를 문장 단위로 분할하고 형태소 분석하여 내용어를 추출하는 단계; (ii)입력된 핵심어를 이용하여 각 범주의 대표 문장을 추출하는 단계; (iii)상기 추출된 대표 문장이 각 범주의 특성을 잘 나타내고 있는지를 검증하여 순위화하는 단계; (iv)상기 추출된 대표 문장과 대표 문장으로 추출되지 못한 미 분류 문장과의 문장간 유사도 측정 기법을 이용하여 학습에 사용될 학습 문장 집합을 생성하는 단계; (v)상기 생성된 학습 문장 집합을 사용하여 자질을 추출하고 학습하여 문서 범주화를 수행하는 단계를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명에 따른 학습 문서의 생성 작업없이 각 범주의 핵심어의 입력만으로 수집된 문서를 자동으로 분류해내기 위한 비지도(非指導) 학습 기반의 자동 문서 범주화 방법의 전체 흐름도이다.
도시된 바와 같이, 본 발명의 방법은 전체로 보아 수집된 문서의 형태를 정규화하고 문장 단위로 분할하며 언어적 분석을 통해 각 문장의 내용어를 추출하는 전처리 단계(10); 상기 가공된 문장 집합에서 대표 문장 추출과 문장간 유사도 측정 과정을 거쳐 학습 문장 집합을 자동으로 생성하는 학습 문장 집합 생성 단계(20); 상기 생성된 학습 문장 집합을 사용하여 자질을 추출하고 학습하여 입력 문서를 분류하는 자질 추출 및 범주화 단계(30)로 이루어진다.
상기 전처리 단계(10)는 수집된 문서를 본 시스템에서 사용하기 위해서 기계적 처리가 가능하도록 변환하는 문서 정규화 과정(110)과; 문장 단위 분할 과정(120)과; 형태소 분석 및 태깅 과정(130)과; 문장의 내용이나 특징을 잘 반영하는 내용어를 추출하는 내용어 추출 과정(140)을 포함한다.
문서 정규화 과정(110)은 HTML 문서 등에서 나타나는 태그(tag)와 특수 문자를 제거하고 한자어는 해당하는 한글로 변환시키는 작업을 수행한다.
문장 단위 분할 과정(120)은 한국어의 특징에 맞추어 종료형 어미(~다, ~까, ~요, ~죠 등) 다음에 마침표(.), 물음표(?), 또는 느낌표(!)가 나오는 경우를 문장의 끝으로 보고 문서의 내용을 문장 단위로 분리한다.
형태소 분석 및 태깅 과정(130)은 문장을 언어적, 통계적 분석을 통하여 각 형태소 별로 나누어 품사를 결정한다.
내용어 추출 과정(140)은 문장의 특징을 잘 나타내는 품사인 명사와 동사를 대상으로 문장의 내용어를 추출하는데 명사나 동사 중에도 문장의 내용을 구별하는데 별다른 정보를 주지 못하는 불용어를 처리하기 위해 불용어 사전을 사용하여 불용어 사전에 등록된 단어는 내용어 추출에서 제외된다. 도 2를 참고로 내용어 추출과정에 대한 예를 후술한다.
상기 학습 문장 집합 생성 단계(20)는 입력된 핵심어를 이용하여 각 범주의 대표 문장을 추출하는 대표 문장 추출 과정(210)과; 추출된 대표 문장이 각 범주의 특성을 잘 나타내고 있는지를 검증하여 순위화하는 대표 문장 검증 과정(220)과; 문장간 유사도 측정 기법을 이용하여 최종적인 학습 문장 집합을 생성하는 문장간 유사도 측정 과정(230)을 포함한다. 학습 문장 집합 생성 단계의 일 예를 도 3을 참고로 후술한다.
대표 문장 추출 과정(210)은 입력된 범주별 핵심어를 직접 문장의 핵심어로가지고 있는 문장들을 추출하여 이들을 각 범주의 특성을 가장 잘 나타내는 문장으로 간주한다.
대표 문장 검증 과정(220)은 핵심어를 포함하고 있는 문장 중에 그 범주에 해당하지 않는 문장이거나 혹은 그 범주의 특성을 잘 나타내지 못하는 문장들을 제거하기 위해서 추출된 문장들을 각 범주의 특성을 잘 나타내는 순위로 순위화 하기 위해 문장 가중치를 계산하고 순위화한다. 추출된 대표 문장의 각 내용어에 가중치를 부여하기 위하여 정보 검색 분야에 널리 사용되고 있는 용어 빈도(TF: Term Frequency)와 역범주 빈도(ICF: Inverse Category Frequency)를 사용했으며 문장의 가중치는 계산된 내용어 가중치의 평균값을 사용한다.
문장간 유사도 측정 과정(230)에서 추출된 대표 문장 집합은 문서 범주화의 학습 데이터로 사용하기 위해서는 그 양이 아직 적기 때문에 대표 문장으로 추출되지 못한 문장들을 각 범주의 대표 문장들과의 유사도 측정을 통해 측정된 유사도가 가장 높은 범주에 할당함으로써 학습 문장 집합을 생성한다. 본 발명에서는 단어 유사도 행렬과 문장 유사도 행렬을 사용하여 반복 계산을 통해 문장간 유사도를 계산하는데 그 예는 도 4에서 도식화하였다.
자질 추출 및 범주화 단계(30)는 생성된 학습 문장 집합을 사용하여 학습에 사용할 자질을 추출하는 자질 추출 과정(310)과; 추출된 자질을 사용하여 학습하고 입력된 문서에 범주를 할당하는 문서 범주화 과정(320)을 포함한다. 자질 추출 과정(310)에서는 카이 제곱 통계량( χ2statistics) 값을 사용하고, 문서 범주화 과정(320)에서는 문서 분류기로서 베이시안 확률 모델(Bayesian Probability Model)을 사용한다.
도 2는 수집된 문서 집합의 문서 정규화 과정과 문장 단위 분할 과정을 거친 후에 언어 분석과 태깅 과정을 통해 각 문장의 내용이나 특징을 잘 반영하는 내용어를 추출하는 과정을 예시한다.
먼저 수집된 문서 집합은 문서 정규화 과정을 통해 한자어나 각종 태그 등을 제거하고 문장단위로 분할된다(S11).
분할된 문장은 예시된 바와 같이 형태소 분석 및 태깅을 통해 언어적, 통계적 분석을 통해 각 형태소 별로 품사를 결정한다(S12).
품사 중에 문장의 특징을 잘 나타내는 품사인 명사(외래어 포함)와 동사만의 내용어를 추출한다(S13). 여기서 추출된 내용어 중에는 여러 문장에서 공통적으로 많이 나타나기 때문에 문장의 내용을 구분하기 위해 별다른 정보를 주지 못하는 불용어들이 있다. S13의 예에서 '기본[명사]'이 불용어에 해당하는데 이를 제거하기 위해 미리 불용어에 대한 사전을 구축해서 사전에 등록되어 있는 단어는 제거하여 최종적으로 해당 문장의 내용어를 추출한다(S14).
도 3은 문장 집합으로부터 각 범주별 학습 문장 집합을 자동으로 생성해내는 과정을 예시한다. 수집된 문서 집합의 문장 집합이 S21과 같고 범주별 핵심어가 S22와 같으며 '음악'과 '인터넷'이라는 두가지 범주가 있다고 가정하자. '음악' 범주의 핵심어인 '음악'을 내용어로 가지고 있는 문장 1는 '음악'범주의 대표 문장으로 추출되고(S23), '인터넷' 범주의 핵심어인 '인터넷'을 내용어로 직접 가지고 있는 문장 2은 '인터넷' 범주의 대표 문장으로 추출된다(S24). 범주별 핵심어를 직접 내용어로 가지지 못하는 문장은 미 분류 문장으로 분류된다(S25).
추출된 대표 문장들만으로 각 범주의 학습을 위한 학습 문장 집합이 되기에는 양이 부족하기 때문에, 대표 문장으로 추출되지 못한 미 분류 문장들과 각 범주의 대표 문장과의 유사도 측정을 통해 가장 유사도 값이 높게 나오는 범주로 미 분류 문장을 할당시킨다(S26). 문장 3과 문장 4는 핵심어를 가지고 있지 않기 때문에 미 분류 문장으로 분류되었으나 유사도 측정 과정(S26)을 거쳐 문장 3은 '음악' 범주에 할당되고(S27), 문장 4는 유사도 측정의 값이 어느 한계값 이상이 되지 않으므로 어느 범주에도 해당되지 않는 것으로 간주되어 계속 미 분류 문장 집합에 속하게 되고 결국 학습에 참여하지 않는다(S28).
본 발명에서는 문장간 유사도 측정 방법이 매우 중요한데 이를 위해 기존에 정보 검색에서 사용하는 단순한 방법들을 사용하지 않고 도 4와 같이 단어 유사도 행렬(S41)과 문장 유사도 행렬(S42)을 사용하여 반복 계산하고 문장간 유사도를 계산한다. 유사한 단어는 유사한 문맥에 위치하는 경향이 있으므로 이를 이용하여 문맥 정보를 반영하여 문장간 유사도를 측정한다. 본 발명에서 단어와 문장은 상호 보충적인 역할을 수행하는데, 문장은 포함하고 있는 단어들에 의해 표현되고, 단어는 그 단어를 포함하고 있는 문장들에 의해 표현된다. 즉, 문장은 유사한 단어들을 많이 포함할수록 유사한 문장이고 단어는 유사한 문장에서 많이 사용될수록 유사한 단어이다. 이를 반영하기 위해 2개의 유사도 행렬(S41),(S42)을 구성하고 반복 계산을 통해 계산된 유사도의 값이 서로에게 반영되도록 하였다.
단어 유사도 행렬(S41)의 행과 열은 유사도를 측정하고자 하는 범주별 대표 문장과 미 분류 문장들에 포함되어 있는 모든 내용어들로 구성되어 내용어 사이의 유사도 값을 가지며, 문장 유사도 행렬(S42)은 대표 문장과 미 분류 문장들의 유사도 값을 나타내게 된다.
본 발명은 수작업에 의해 범주가 할당된 대량의 학습 문서 생성 작업 없이 문서 범주화를 수행하게 함으로써 적은 비용으로 문서 범주화를 수행하고자 하는 온 라인 상의 문서 범주화 응용 영역에서 유용하게 사용할 수 있는 효과가 있으며, 또한, 대량의 학습 문서 생성 작업에 본 발명에서 제안된 기법을 사용한다면 작업에 소요되는 많은 시간과 인력을 최소화하여 학습 문서를 생성할 수 있는 효과가 있다.

Claims (7)

  1. 인터넷에서 수집된 문서의 자동 문서 범주화 방법에서,
    수집된 문서를 정규화하고, 상기 정규화된 문서를 문장 단위로 분할하며, 상기 분할된 문장 단위를 언어적 분석을 통해 각 문장의 내용어를 추출하는 단계; 및
    상기 정규화, 분할화 및 추출화된 문장 단위의 집합에서 대표 문장을 추출하고, 단어 유사도 행렬과 문장 유사도 행렬을 사용하여 상기 대표 문장과 상기 문장 단위의 유사도를 측정하여 각 범주별로 분류하는 것에 의해 학습 문장을 생성하는 단계를 포함하는 것을 특징으로 하는 자동 문서 범주화 방법.
  2. (a)수집된 문서를 문장 단위로 분할하고 형태소 분석하여 내용어를 추출하는 단계;
    (b)입력된 핵심어를 이용하여 각 범주의 대표 문장을 추출하는 단계;
    (c)상기 추출된 대표 문장이 각 범주의 특성을 잘 나타내고 있는지를 검증하여 순위화하는 단계;
    (d)상기 추출된 대표 문장과 대표 문장으로 추출되지 못한 미 분류 문장과의 문장간 유사도 측정을 통하여 학습에 사용될 학습 문장 집합을 생성하는 단계; 및
    (e)상기 생성된 학습 문장 집합을 사용하여 학습에 사용할 자질을 추출하고 학습하여 문서에 범주를 할당하는 단계를 포함하는 비지도 방식의 자동 문서 범주화 방법.
  3. 제 2항에 있어서, 상기 수집된 문서의 내용어 추출단계는 수집된 문서를 기계적 처리가 가능하게 하는 문서 정규화 단계와; 정규화된 문서의 문장을 문장 단위로 분할하는 문장 분할 단계와; 분할된 문장의 형태소 분석 및 태깅 단계를 포함하고, 내용어의 추출은 불용어 사전을 사용하는 것을 특징으로 하는 자동 문서 범주화 방법.
  4. 제 2항에 있어서, 상기 대표 문장을 추출하는 단계는 입력된 범주별 핵심어가 내용어로 직접 포함되어 있는 문장들을 추출하고 이들을 각 범주의 특성을 가장 잘 나타내는 문장으로 간주하는 것을 특징으로 하는 자동 문서 범주화 방법.
  5. 제 2항에 있어서, 상기 대표 문장 검증 및 순위화 단계는 용어 빈도(TF)와 역범주 빈도(ICF)를 사용하여 추출된 대표 문장의 각 내용어에 가중치를 부여하는 단계를 포함하는 것을 특징으로 하는 자동 문서 범주화 방법.
  6. 제 2항에 있어서, 상기 학습 문장 집합 생성단계에서 문장간 유사도 측정은 단어 유사도 행렬과 문장 유사도 행렬을 사용하여 반복 계산을 통해 얻어지는 것을특징으로 하는 자동 문서 범주화 방법.
  7. 제 6항에 있어서, 상기 단어 유사도 행렬의 행과 열은 유사도를 측정하고자 하는 범주별 대표 문장과 미 분류 문장들에 포함되어 있는 모든 내용어들로 구성되어 내용어 사이의 유사도 값을 가지며, 문장 유사도 행렬은 대표 문장과 미 분류 문장들의 유사도 값을 가지고 있는 것을 특징으로 하는 자동 문서 범주화 방법.
KR10-2001-0012318A 2001-03-09 2001-03-09 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 KR100420096B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0012318A KR100420096B1 (ko) 2001-03-09 2001-03-09 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0012318A KR100420096B1 (ko) 2001-03-09 2001-03-09 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법

Publications (2)

Publication Number Publication Date
KR20020072140A KR20020072140A (ko) 2002-09-14
KR100420096B1 true KR100420096B1 (ko) 2004-02-25

Family

ID=27696963

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0012318A KR100420096B1 (ko) 2001-03-09 2001-03-09 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법

Country Status (1)

Country Link
KR (1) KR100420096B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021154539A1 (en) * 2020-01-28 2021-08-05 Schlumberger Technology Corporation Oilfield data file classification and information processing systems

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100505848B1 (ko) * 2002-10-02 2005-08-04 씨씨알 주식회사 검색 시스템
KR100484943B1 (ko) * 2002-12-10 2005-04-25 한국전자통신연구원 한국어 텍스트 상의 개체명 인식 방법
US7379867B2 (en) * 2003-06-03 2008-05-27 Microsoft Corporation Discriminative training of language models for text and speech classification
KR100731283B1 (ko) * 2005-05-04 2007-06-21 주식회사 알에스엔 질의어에 따른 대량문서기반 성향 분석시스템
KR20070035786A (ko) * 2005-09-28 2007-04-02 강기만 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치및 그 방법
KR100659370B1 (ko) * 2006-02-15 2006-12-19 한국과학기술정보연구원 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
KR100829401B1 (ko) * 2006-12-06 2008-05-15 한국전자통신연구원 세부분류 개체명 인식 장치 및 방법
KR100842216B1 (ko) * 2006-12-08 2008-06-30 포항공과대학교 산학협력단 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치
KR100893629B1 (ko) * 2007-02-12 2009-04-20 주식회사 이지씨앤씨 전자교재 컨텐츠의 구문에 식별코드를 부여하는 시스템 및방법, 전자교재 컨텐츠의 데이터 검색 시스템 및 방법,전자교재 컨텐츠의 사용과 제공에 관한 포인트 관리 시스템및 방법
KR100932841B1 (ko) * 2007-11-09 2009-12-21 엔에이치엔(주) 검색 문서 품질 측정 방법 및 그 시스템
KR100900467B1 (ko) * 2008-01-16 2009-06-02 넷다이버(주) 개인 미디어 검색 서비스 시스템 및 방법
KR101120038B1 (ko) * 2008-12-22 2012-03-23 한국전자통신연구원 신조어 선정 장치 및 그 방법
KR100970783B1 (ko) * 2009-12-11 2010-07-16 (주)자숨 손 세척장치
KR101688660B1 (ko) * 2010-07-29 2016-12-21 에스케이커뮤니케이션즈 주식회사 용어/불용어 배열 구조를 이용한 문서 분석 방법 및 시스템과 이를 위한 프로그램 기록매체
KR101035038B1 (ko) * 2010-10-12 2011-05-19 한국과학기술정보연구원 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법
KR102196508B1 (ko) * 2013-12-06 2020-12-30 주식회사 케이티 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템
US9582486B2 (en) 2014-05-13 2017-02-28 Lc Cns Co., Ltd. Apparatus and method for classifying and analyzing documents including text
KR101680007B1 (ko) * 2015-10-08 2016-11-28 한국교육과정평가원 서답형 답안 채점 방법, 그를 위한 컴퓨터 프로그램과 기록매체
KR102123974B1 (ko) * 2018-07-24 2020-06-17 배재대학교 산학협력단 유사 특허 검색 서비스 시스템 및 방법
KR102315213B1 (ko) * 2019-10-02 2021-10-20 (주)디앤아이파비스 클러스터링을 이용한 특허문서의 유사도 판단 방법, 장치 및 시스템
KR102507192B1 (ko) * 2020-12-07 2023-03-07 고려대학교 산학협력단 문서 유사도 측정 모델 생성 방법 및 이를 이용한 문서 유사도 측정 방법
KR102580512B1 (ko) * 2023-04-12 2023-09-20 (주)유알피 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법
KR102640811B1 (ko) * 2023-09-01 2024-02-27 (주)유알피 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템
KR102640803B1 (ko) * 2023-09-01 2024-02-27 (주)유알피 사용자 사전 구축을 위한 딥러닝 기반 사용자 키워드 추천 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5895470A (en) * 1997-04-09 1999-04-20 Xerox Corporation System for categorizing documents in a linked collection of documents

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5895470A (en) * 1997-04-09 1999-04-20 Xerox Corporation System for categorizing documents in a linked collection of documents

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021154539A1 (en) * 2020-01-28 2021-08-05 Schlumberger Technology Corporation Oilfield data file classification and information processing systems

Also Published As

Publication number Publication date
KR20020072140A (ko) 2002-09-14

Similar Documents

Publication Publication Date Title
KR100420096B1 (ko) 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
Gamon Linguistic correlates of style: authorship classification with deep linguistic analysis features
Stamatatos et al. Automatic text categorization in terms of genre and author
US5680511A (en) Systems and methods for word recognition
Ahmed et al. Language identification from text using n-gram based cumulative frequency addition
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
KR100481580B1 (ko) 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
Dyevre Text-mining for lawyers: How machine learning techniques can advance our understanding of legal discourse
Hughes Automatically acquiring a classification of words
Fauziah et al. Lexicon Based Sentiment Analysis in Indonesia Languages: A Systematic Literature Review
CN114970536A (zh) 一种分词、词性标注和命名实体识别的联合词法分析方法
Galvez et al. Term conflation methods in information retrieval: Non‐linguistic and linguistic approaches
KR20230077588A (ko) 금융 용어 언어 모델에 기반하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템
CN114579695A (zh) 一种事件抽取方法、装置、设备及存储介质
Hirpassa Information extraction system for Amharic text
Vicedo et al. University of Alicante at TREC-10
Polshchykova et al. Synonymy in the terminology of computational linguistics
Awwalu et al. A corpus based transformation-based learning for Hausa text parts of speech tagging
Farkas et al. Named entity recognition for Hungarian using various machine learning algorithms
Karunarathna et al. Learning to Use Normalization Techniques for Preprocessing and Classification of Text Documents
US11928427B2 (en) Linguistic analysis of seed documents and peer groups
Paliouras et al. Learning rules for large vocabulary word sense disambiguation
Zmandar et al. Multilingual Financial Word Embeddings for Arabic, English and French

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130212

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140212

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20150212

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20160212

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20170213

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20180212

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20190212

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20200212

Year of fee payment: 17