KR20020049164A - 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법 - Google Patents

유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법 Download PDF

Info

Publication number
KR20020049164A
KR20020049164A KR1020000078266A KR20000078266A KR20020049164A KR 20020049164 A KR20020049164 A KR 20020049164A KR 1020000078266 A KR1020000078266 A KR 1020000078266A KR 20000078266 A KR20000078266 A KR 20000078266A KR 20020049164 A KR20020049164 A KR 20020049164A
Authority
KR
South Korea
Prior art keywords
word
document
cluster
word cluster
occurrences
Prior art date
Application number
KR1020000078266A
Other languages
English (en)
Inventor
송종철
문병주
정현수
홍기채
손소현
이성용
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1020000078266A priority Critical patent/KR20020049164A/ko
Priority to US09/846,473 priority patent/US20020078044A1/en
Publication of KR20020049164A publication Critical patent/KR20020049164A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Abstract

본 발명은 유전자 알고리즘을 이용하여 학습을 수행하는 유전자 학습 분류기에 분야별 카테고리를 학습시키고, 유전자 학습 분류기에 문서의 핵심어에 대한 단어 클러스터(Term Clustering)를 입력하여 문서를 분야별 카테고리로 분류하는 문서 자동 분류 시스템과 사용자가 검색에 사용한 검색어를 사용자 프로파일(Profile)에 저장하고, 이것을 유전자 학습 분류기에 입력하여 사용자 관심 분야를 판단하는 시스템이다. 본 발명은 웹 검색 시스템에서 이용되는 디렉토리 서비스에서 문서의 자동 분류에 활용될 수 있으며, 사용자가 검색 결과에 대해 재검색을 수행하는 경우, 사용자 관심 분야를 활용하여 검색 효율을 높일 수 있는 시스템을 고안하였다. 본 발명에서 카테고리를 학습하므로 새로운 분야 발생시에만 재학습을 수행하므로 즉시적인 서비스를 수행할 수 있으며, 분야별 카테고리를 이용하여 사용자가 찾으려는 검색어에 대한 분야별 카테고리를 제공할 수 있어 동음 이의어에 대한 모호한 검색을 방지할 수 있어 정확성이 높은 검색 결과를 제공할 수 있다.

Description

유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템 및 그 방법 {The System and Method for Auto - Document - classification by Learning Category using Genetic algorithm and Term cluster}
본 발명은 문서 자동 분류 시스템 및 그 방법에 관한 것으로서, 보다 상세하게 설명하면 유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템 및 그 방법에 관한 것이다.
인터넷을 통한 정보 교류가 보편화되면서 정보의 급격한 증가를 가져왔으나,상대적으로 사용자가 원하는 가장 적절한 정보 검색은 점점 더 어려워지고 있다. 이러한 문제를 해결하기 위해 문서를 카테고리 별로 분류하여 사용자가 원하는 문서를 보다 편리하고 정확하게 검색할 수 있는 연구가 진행 중이다. 그 중에서 정해진 분류 체계 하에서 분류하고자 하는 문서들을 가장 적합한 카테고리에 배정함으로써, 문서를 집단화하는 연구가 진행되고 있다.
이러한 문서의 자동 분류에 대한 연구에서 문서 그룹화 방법으로 문서 검색(Retrieval), 범주화(Categorization), 라우팅(Routing), 필터링(Filtering), 클러스터링(Clustering) 등의 기법이 사용되고 있다. 현재 자동 문서 분류에 대한연구가 많은 곳에서 진행되고 있지만 아직 완전하게 문서를 자동으로 분류할 수 있는 시스템은 거의 없는 실정이다. 또한, 문서 클러스터링을 학습하여 문서를 자동 분류하는 시스템은 새로운 문서에 대해 재학습을 수행하여야 하므로 학습 시간이 많이 소모되어 즉시적인 서비스에 많은 어려움을 준다.
이러한 종래 기술 중에서도 가장 대표적인 방법은 전체 문서에 대하여 문서 클러스터를 수행하고, 그 결과에 인공 지능적인 기법을 적용하여 문서의 자동 분류를 수행하는 방법이다. 이러한 문서 클러스터에 의한 문서 분류는 문서간 분리도가 높은 단어에 대하여 가중치를 적용함으로써, 문서 검색에는 효율적이나 카테고리간의 분리도가 중요한 문서 분류에는 부적합한 문제점을 가지고 있다.
특히, 문서 클러스터를 수행하는 시스템은 웹 로봇이 수집한 모든 문서에 대하여 문서 클러스터와 인공 지능을 이용한 학습을 수행하기 때문에 처리 시간이 상당히 필요하다. 또한, 추가로 수집되는 모든 문서에 대하여 다시 문서 클러스터와 학습을 수행하여야 하므로, 현재와 같은 인터넷 환경에서는 즉시적인 서비스가 어렵다는 많은 문제점들을 가지고 있다.
이러한 종래 기술 및 본 발명에서 이용하고 있는 종래 기술들을 상세히 살펴 보면, 다음과 같은 것들이 있다.
먼저, 저자가 '조광제, 김준태'이고, '한국정보과학회 학술발표논문집 V.24, no.1'에 게재된 논문 '역 카테고리 빈도에 의한 계층적 분류 체계에서의 문서의 자동 분류'를 살펴 보면 다음과 같다.
본 선행 논문에서는 문서의 자동 분류를 위한 색인어 가중치 계산 방법으로 색인어의 카테고리 분리도를 반영하는 역 카테고리 빈도(ICF : Inverted Category Frequency)를 정의하고 있다. 즉, 이를 이용한 계층적 분류 체계에서의 문서 분류 방법을 제시하고 있다. ICF는 각각의 카테고리 간의 분리도가 높은 단어에 대하여 높은 가중치를 주는 방법으로서, 문서 분류의 경우 역 문헌 빈도(IDF : Inverted Document Frequency, 총문서의 개수 / 임의의 단어가 들어 있는 문서 개수)보다 의미있는 가중치 계산 방법이다. 본 논문에서는 조선 일보 경제 기사와 KTSET(한국어 정보검색 연구를 위한 시험용 데이터 모음, 즉, 정보검색 시스템의 성능 테스트를 위한 데이터 모음)을 대상으로 문서의 자동 분류 실험을 수행하였으며, 실험 결과 ICF를 가중치로 사용한 경우가 IDF를 사용한 경우에 비하여 보다 높은 정확도를 나타낸다는 것을 입증하였다.
또한, 본 논문에서 제안한 ICF가 평면적인 분류 체계와 계층적인 분류 체계 모두 더 정확한 분류 성능을 보였으나, 특히, 계층적 분류 체계에서 더욱 효과적임이 입증되었다.
또한, 권리권자가 '주식회사 엔아이비소프트'이고, 특허 명칭이 '문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서 분류 검색 시스템'(등록 번호 : 10-2000-0029370)인 선행 특허를 설명하면 다음과 같다.
본 선행 특허에서는 자동 요약을 이용하여 주제어 데이터베이스와 주제 문장 데이터베이스를 구축한 후, 키 문서를 입력받아 키 문서의 내용과 유사한 내용을갖는 문서를 검색한다. 즉, 문서 자체를 검색 키로 하여 이와 유사한 내용을 갖는 문서를 검색할 수 있으므로, 한번의 검색으로 원하는 정보를 쉽고 빠르게 찾을 수 있으며, 문서에 대한 검색 결과를 문서의 주제와 관련된 요약 정보로 표시하여 주기 때문에 검색 결과를 다시 확인해야 하는 불편함이 없이 빠르게 원하는 정보를 찾을 수 있다.
이러한 문서 분류 방법은 검색 키 문서의 주제어 정보 생성 단계, 검색 대상 문서에 주제어별 가중치를 부여하는 단계, 검색 대상 문서에 주제 문장별 가중치를 부여하는 단계, 주제어별 가중치와 주제 문장별 가중치를 합한 전체 가중치를 높은 순위부터 검색 대상 문서로 분류하는 단계로 이루어진다.
또한, 저자가 '양수연, 이근배'이고, '한국정보과학회 학술발표논문집 V.19, No.2'에 게재된 논문 '기계 학습에 의한 문서 분류에 있어서 ID3와 Backpropagation의 성능 비교'(ID3(Induction of Decision Tree) : 결정 트리의 하나로서 귀납(induction) 작업을 수행하며 분류규칙이 트리로서 표현되는 시스템, 에러 역전파 알고리즘(Back Propagation) : 신경망 학습 알고리즘의 하나로서 입력층과 중간층 그리고 출력층으로 구성된 신경 회로망이며 필요한 정보를 저장하도록 학습시킬 수 있는 학습 알고리즘)를 살펴 보면 다음과 같다.
자연어 문서를 미리 정의된 범주로 분류하는 작업은 정보 검색과 자연어 처리 시스템에 있어서 상당히 중요하나, 종래에는 자동 문서 분류체에 관한 연구들은 기계 학습 내지 지식 공학적인 방법(Knowledge Engineering Method)으로 수행되어왔다. 본 선행 논문에서는 기계 학습에 의한 문서 분류 시스템을 설계, 구현하기 위한 첫 단계로 현재 가장 활발히 연구되고 있는 귀납적 학습 알고리즘(Inductive Leaning Algorithm)과 에러 역전파(Back Propagation) 알고리즘의 자동 문서 분류 방법을 비교 분석하였다.
이러한 비교 분석을 통하여 학습 자료의 크기와 특성 집합의 크기 변화에 따른 성능 변화의 관찰을 수행함으로써, 최적의 효율성을 기대할 수 있는 변수값을 제시하고 있다.
또한, 저자가 '안종일'이고, '정보처리논문지 Vol.7, No.6'에 게재된 논문 '시간표 문제의 유전자 알고리즘을 이용한 해결에 관한 연구'를 살펴 보면 다음과 같다.
본 선행 논문은 인공 지능의 한 연구 분야인 다중 제약을 갖는 대학의 시간표 작성 문제를 해결하는 알고리즘을 제시하고 있다. 이를 위하여 두 강좌간의 시간 충돌 제약과 요일 충돌 제약을 동시에 표현 가능하도록 2-유형 에지(Edge) 그래프를 정의하였다. 또한, 이를 유전자 알고리즘으로 해결하는 방법을 제안하고, 무작위 탐색의 효율을 높이기 위하여 국부 탐색을 수행하는 방법을 소개하고 있다. 본 선행 논문에서는 제안된 방법을 실험 결과가 무작위 탐색과 비교하여 탐색 비용을 10000번의 반복 횟수에서 평균 약 71% 감소시킨 것으로 나타났다.
즉, 유전자 알고리즘의 적용 분야를 소개한 논문이다.
또한, 저자가 '신진섭, 이창훈'이고, '정보처리논문지 Vol.6, No.9'에 게재된 논문 '단어의 연관성을 이용한 문서의 자동 분류'를 살펴보면 다음과 같다.
본 선행 논문은 단어들 사이의 연관 관계 특성을 이용하여 사용자의 관심 분야 범위 내에서 문서의 자동 분류 알고리즘을 제시한다. 자동 분류 알고리즘은 크게 다음과 같이 구성된다.
첫째, 대표 단어를 찾아 내기 위하여 TF*IDF 알고리즘을 이용한다. 둘째, 단어간의 연관 관계를 계산하기 위하여 본 선행 연구에서 제안한 연관성 계산 확률 모델을 이용한다. 셋째, 연관성이 가장 높은 두 단어를 중심으로 각각의 단어들에 밀접한 단어들을 하나의 집합으로 구성하고 프로파일을 생성한다. 넷째, 임계값보다 낮은 값이 나올 때까지 연관성이 다음으로 높은 두 단어를 중심으로 상기 세 번째의 과정을 반복한다.
본 선행 논문에서는 생성된 각각의 프로파일이 각각의 문서들에 어느 정도의 영향력을 가지는지 평가하고, 기존의 문서 분류 알고리즘과 비교하여 본 선행 논문에서 제시한 알고리즘의 타당성을 입증하고 있다.
따라서, 본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 유전자 알고리즘을 이용하여 학습을 수행하는 유전자 학습 분류기에 분야별 카테고리를 학습시키고, 유전자 학습 분류기에 문서의 핵심어에 대한 단어 클러스터를 입력받아 문서를 분야별 카테고리로 분류하는 문서 자동 분류 시스템 및 그 방법과 사용자가 검색에 사용한 검색어를 사용자 프로파일에 저장하고 이것을 유전자 학습 분류기에 입력하여 사용자 관심 분야를 판단하는 시스템을 제공하기 위한 것이다.
도 1은 본 발명의 일 실시예에 따른 문서 자동 분류 시스템의 전체적인 구성도이고,
도 2a 및 도 2b는 본 발명의 일 실시예에 다른 단어 클러스터의 생성 및 변경 알고리즘을 나타낸 흐름도로서, 도 2a는 단어 클러스터의 생성 알고리즘을 나타낸 흐름도이고, 도 2b는 단어 클러스터의 변경 알고리즘을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따라 유전자 알고리즘을 이용하여 카테고리를 학습하고 이를 이용하여 카테고리에 포함되지 않는 단어 클러스터를 카테고리 별로 분류하는 시스템을 나타낸 구성도이고,
도 4는 본 발명의 일 실시예에 따라 사용자 프로파일을 이용하여 사용자 관심 분야를 추출하는 시스템의 구성도이고,
도 5는 본 발명의 일 실시예에 따라 사용자가 찾을 검색어 대해 검색어와 관련된 카테고리 분야를 제공하는 시스템의 구성도이다.
※ 도면의 주요부분에 대한 부호의 설명 ※
101 : 단어 클러스터 생성기
102 : 유전자 학습 분류기
103 : 형태소 분석기
상기한 목적을 달성하기 위한 본 발명에 따르면, 수집된 문서와 링크 제목을 입력받아 관련 용어들을 추출하는 형태소 분석기; 상기 형태소 분석기에서 추출한 용어들을 입력받아 문서별 핵심어를 추출하여 문서별 핵심어 리스트를 생성하고, 단어 클러스터(Term Cluster)를 생성하는 단어 클러스터 생성기; 및 상기 단어 클러스터 생성기에서 생성한 문서별 핵심어 리스트 및 단어 클러스터를 입력받아 핵심어에 대한 단어 클러스터를 추출하고, 추출된 단어 클러스터에 대하여 관련 분야 카테고리를 추론하는 유전자 학습 분류기를 포함하고, 상기 유전자 학습 분류기는 유전자 알고리즘을 이용하여 분야별 카테고리를 학습하는 것을 특징으로 하는 문서 자동 분류 시스템이 제공된다.
또한, 유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템의 단어 클러스터 생성 및 변경 방법에 있어서, 수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 단계; 상기 제 1 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를 계산하는 제 2 단계; 상기 제 2 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 단계; 및 상기 제 3 단계에서 생성된 단어 클러스터가 신규단어 클러스터이면, 이에 따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는 제 4 단계; 를 포함하여 이루어진 것을 특징으로 하는 단어 클러스터 생성 및 변경 방법이 제공된다.
또한, 수집된 문서와 링크 제목을 입력받아 관련 용어들을 추출하는 제 1 단계; 상기 제 1 단계에서 추출한 용어들을 입력받아 문서별 핵심어를 추출하여 문서별 핵심어 리스트를 생성하고, 단어 클러스터(Term Cluster)를 생성하는 제 2 단계; 및 상기 제 2 단계에서 생성한 문서별 핵심어 리스트 및 단어 클러스터를 입력받아 핵심어에 대한 단어 클러스터를 추출하고, 추출된 단어 클러스터에 대하여 유전자 알고리즘을 이용하여 관련 분야 카테고리를 추론하는 제 3 단계;를 포함하여 이루어진 것을 특징으로 하는 문서 자동 분류 방법이 제공된다.
또한, 유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템의 단어 클러스터 생성 및 변경 방법을 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 있어서, 수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 단계; 상기 제 1 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를 계산하는 제 2 단계; 상기 제 2 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 단계; 및 상기 제 3 단계에서 생성된 단어 클러스터가 신규 단어 클러스터이면, 이에 따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는제 4 단계;를 포함하여 이루어진 것을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체가 제공된다.
또한, 수집된 문서와 링크 제목을 입력받아 관련 용어들을 추출하는 제 1 단계; 상기 제 1 단계에서 추출한 용어들을 입력받아 문서별 핵심어를 추출하여 문서별 핵심어 리스트를 생성하고, 단어 클러스터(Term Cluster)를 생성하는 제 2 단계; 및 상기 제 2 단계에서 생성한 문서별 핵심어 리스트 및 단어 클러스터를 입력받아 핵심어에 대한 단어 클러스터를 추출하고, 추출된 단어 클러스터에 대하여 유전자 알고리즘을 이용하여 관련 분야 카테고리를 추론하는 제 3 단계;를 포함하고, 상기 제 3 단계는, 수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 서브 단계; 상기 제 1 서브 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를 계산하는 제 2 서브 단계; 상기 제 2 서브 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 서브 단계; 및 상기 제 3 서브 단계에서 생성된 단어 클러스터가 신규 단어 클러스터이면, 이에 따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는 제 4 서브 단계;를 포함하여 이루어진 것을 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공된다.
이하, 첨부된 도면을 참조하면서 본 발명의 일 실시예에 따른 유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템 및 그방법을 보다 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 문서 자동 분류 시스템의 전체적인 구성도로서, 이를 상세히 설명하면 다음과 같다.
먼저, 웹문서 수집 부분인 웹 로봇(Web Robot)과 문서 전처리 단계인 형태소분석기(103)가 있으며, 단어 클러스터 생성기(101)와 분야별 카테고리를 학습하는 유전자 학습 분류기(102)가 있다.
상기 웹 로봇을 이용하여 인터넷에서 문서를 수집하며, 상기 웹 로봇이 문서를 수집할 때 웹문서를 연결하는 링크의 제목도 함께 수집한다. 한편, 상기 웹 로봇에 의하여 수집된 정보는 문서 또는 메타 데이터베이스 형태를 갖는다.
이어서, 수집된 문서와 링크 제목은 상기 형태소 분석기(103)에 전달되어 관련 용어들을 추출한다. 이때, 추출 과정에서 상기 형태소 분석기(103)는 미리 구축되어 있는 관련 분야 용어 사전 또는 명사 사전들을 참조할 수 있다.
추출된 용어는 상기 단어 클러스터 생성기(101)에 입력되어 문서별 핵심어를 추출하고, 또한, 단어 클러스터를 구성한다.
분야별 카테고리를 학습한 상기 유전자 학습 분류기(102)는 문서의 핵심어를 입력받아 핵심어에 대한 단어 클러스터를 클러스터 인덱스에서 추출하고, 추출된 단어 클러스터에 대해 상기 유전자 학습 분류기(102)가 추론한 관련 분야 카테고리를 출력한다.(104) 또한, 학습 시스템은 사용자 프로파일에 관심 단어를 입력받아 앞의 과정을 통해 사용자 관심 분야를 판단한다.(105)
특히, 본 시스템에서는 분야별 카테고리만을 학습하여 문서의 자동 분류를수행하므로 상기 유전자 학습 분류기(102)는 분야별 카테고리가 변화하지 않으면 재학습을 수행할 필요가 없어 즉시적인 서비스를 수행할 수 있는 장점을 가진다.
또한, 상기 형태소 분석기(103)는 명사 사전과 관련 분야 용어 사전을 이용하여 링크 제목과 문서에서 명사를 추출한다.
또한, 상기 단어 클러스터 생성기(101)에서는 문서의 총명사의 개수, 각각의 명사의 출현 횟수, 동일 단락에서 출현한 명사와 문서의 핵심어를 출력한다. 추출된 명사는 명사 리스트로 구성되며, 각 문서의 핵심어는 문서별 핵심어 리스트에 포함시킨다.
한편, 핵심어 추출에는 아래의 [수학식 1]을 사용한다.
핵심어 = (문서내 단어 출현 횟수)/(단어의 평균 출현 횟수) * 가중치
여기서 가중치는 링크 제목의 단어에 대한 가중치와 문서 내 단어에 대한 가중치로 구성되며, 링크 제목의 단어에 대한 가중치를 문서 내 단어에 대한 가중치 보다 높게 설정한다.
이때, 상기 [수학식 1]에서 구한 핵심어가 미리 지정한 임계값 α를 넘는 경우에 핵심어 리스트에 추가한다.
도 2a 및 도 2b는 본 발명의 일 실시예에 다른 단어 클러스터의 생성 및 변경 알고리즘으로서, 이를 상세히 설명하면 다음과 같다.
먼저, 스텝 S201에서, 문서에서 처음으로 나오는 단어 중 첫 번째 단어에 대한 단어 클러스터 생성이 시작되면, 스텝 S202에서, 형태소 분석이 수행되어 상기 형태소 분석기(103)가 가지고 있는 단어 리스트의 첫 번째 비교 단어가 선정되고, 스텝 S203에서, 이에 대한 집중도를 계산한다.
이어서, 스텝 S204에서, 가중치를 계산하고, 상기 스텝 S203 내지 스텝 S204에서 구한 집중도와 가중치를 곱함으로써, 단어 클러스터 계수를 계산한다. 이때, 단어 1과 단어 2간의 클러스터 계수의 계산식은 아래의 [수학식 2]와 같다.
가중치 = (단어 1의 출현 횟수 / 전체 단어의 출현 횟수) * (단어 2의 출현 횟수 / 전체 단어의 출현 횟수)
집중도 = sqrt(단어 1과 단어 2가 같은 문장에 출현한 횟수)
클러스터 계수 = 가중치 * 집중도
이어서, 스텝 S206에서, 상기 형태소 분석기(103)가 가지고 있는 단어 리스트의 끝인지 여부를 판단하여, 끝이 아니면, 스텝 S207에서, 다음 비교 단어에 대하여 동일한 과정을 수행하기 위하여, 상기 스텝 S203으로 복귀하고, 끝이면, 스텝 S208에서, 해당 단어의 클러스터를 생성한다.
그 후, 스텝 S209에서, 클러스터를 생성하고자 하는 문서의 단어가 마지막 단어인지 여부를 판단하여, 마지막 단어가 아니면, 스텝 S210에서, 다음 단어에 대하여 동일한 과정을 수행하기 위하여, 상기 스텝 S202로 복귀하고, 마지막 단어이면, 단어 클러스터 생성 알고리즘은 종료하고, 다음 과정인 단어 클러스터 변경 알고리즘으로 진입한다.
상기 단어 클러스터 변경 알고리즘은 도 2b에 도시되어 있는데, 이를 상세히 설명하면 다음과 같다.
먼저, 스텝 S211에서, 상기 단어 클러스터 생성 알고리즘에 의하여 생성된 클러스터가 신규 클러스터인지 여부를 판단하여, 신규 클러스터가 아니면, 스텝 S212에서, 기존 클러스터 계수를 갱신한다. 이때, 갱신하는 방법은 아래의 [수학식 3]에 의하여 계산한다.
갱신 클러스터 계수 = 〔기존의 관계도 * 변경 횟수 + 신규 계수〕 / (변경 횟수 + 1)
이어서, 스텝 S213에서, 상기 스텝 S212에서 계산한 갱신 클러스터 계수를 포함한 클러스터 인덱스를 갱신하고, 스텝 S215에서, 클러스터 변경을 종료시킬 것인지 여부를 판단하여, 종료시킬 것이면, 종료하고, 그러하지 아니하면, 상기 스텝 S211로 복귀한다.
또한, 상기 스텝 S211에서의 판단 결과, 신규 클러스터이면, 기존의 클러스터 계수를 갱신하는 과정을 밟지 않고, 바로 상기 스텝 S213으로 진행한다.
도 3은 본 발명의 일 실시예에 따라 유전자 알고리즘을 이용하여 카테고리를 학습하고 이를 이용하여 카테고리에 포함되지 않는 단어 클러스터를 카테고리 별로분류하는 시스템을 나타낸 구성도로서, 이를 상세히 설명하면 다음과 같다.
분류하려는 문서의 핵심어에 대해 단어 클러스터 인덱스에서 단어 클러스터를 생성한다. 생성된 단어 클러스터는 유전자 학습 분류기(이하 유전자 학습기로 칭함.)에 입력되고, 상기 유전자 학습기는 입력된 단어 클러스터에 대해 관련된 카테고리를 출력한다. 카테고리 분야별 문서 인덱스에는 출력된 카테고리 분야에 문서를 등록한다.
상기 유전자 학습기에는 유전자 알고리즘을 사용한다. 유전자 알고리즘에 사용될 초기 염색체는 카테고리의 계층 구조가 이진 트리 형식으로 표현되므로, 트리의 각 노드들(N)을 사용한다. 노드는 카테고리의 한 분야를 나타내며, 단어 클러스터와 카테고리의 각 노드의 유사도를 측정하기 위해 유전자의 진화를 수행한다. 유전자의 진화 여부는 적합도(Fitness) 값에 의해 결정된다. 적합도 값은 카테고리의 분야와 단어 클러스터의 유사도로서, 아래의 [수학식 4]와 같이 표현된다.
Fitness( CT?? ) = EF( N?? )
여기서, Fitness는 적합도 값이고, CT?? 는 N??에서 분류된 카테고리에 포함되는 단어이며, EF 함수는 카테고리 사이의 관계를 평가하는 함수이고, Ni는 유전자 알고리즘의 각 노드들이다.
다음 세대의 염색체는 임계치 이상의 유사도 값을 가지는 유전자 n/2와 다른카테고리 분야의 염색체 중 유사도 값이 임계치 이상인 유전자를 변이 연산하여 얻게 되는 n/2로 구성하여 균일 교배를 수행한다. 이 과정은 미리 정하여진 최대값 α회를 반복 수행한다. 세대 진화가 종결되면, 세대 별 유사도 값 중 우수한 세대, 즉, 카테고리 분야를 제시한다.
도 4는 본 발명의 일 실시예에 따라 사용자 프로파일을 이용하여 사용자 관심 분야를 추출하는 시스템의 구성도로서, 사용자 프로파일에 저장된 사용자 검색어 리스트에서 조회 날짜, 조회 횟수를 따라 최근에 가장 많이 사용한 검색어를 찾고, 찾은 검색어를 상기 유전자 학습 분류기(102)에 입력하여 사용자가 관심있다고 판단되는 카테고리 분야를 제공한다.
도 5는 본 발명의 일 실시예에 따라 사용자가 찾을 검색어 대해 검색어와 관련된 카테고리 분야를 제공하는 시스템의 구성도로서, 본 시스템은 검색어에 대해 단어 클러스터를 생성하고, 생성된 단어 클러스터를 유전자 학습기에 입력하여 검색어와 관련된 카테고리 분야를 출력한다.
이상, 위에서 상술한 본 발명의 특징을 요약하면 다음과 같다.
첫째, 유전자 알고리즘을 이용한 분야별 카테고리 학습과 단어 클러스터를 사용하여 문서를 자동 분류한다.
둘째, 형태소 분석기에서 문서의 특징을 추출한다.
셋째, 카테고리를 학습하여 학습 시스템의 재학습을 최소화시켰다.
넷째, 학습된 카테고리를 이용하여 사용자의 관심 분야를 판단한다.
다섯째, 학습된 카테고리를 이용하여 사용자가 찾을 검색어에 대한 카테고리별로 구분된 검색 정보를 제공한다.
위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술 사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호 범위는 첨부된 청구 범위에 의해서만 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.
이상과 같이 본 발명은 데이터마이닝의 한 분야로서, 유전자 알고리즘을 이용하여 분야별 카테고리를 학습시키고, 단어 클러스터(Term Clustering)와 연계하여 문서를 자동 분류하고, 사용자 관심 분야를 판단하는 시스템이다.
따라서, 학습 시스템을 이용한 즉시적인 문서 자동 분류 서비스가 가능하며, 사용자는 웹 검색에서 찾고자 하는 정보를 카테고리별로 구별된 문서에 정확한 검색 결과를 얻을 수 있으며, 사용자가 관심을 가지고 있는 분야에 대한 정보를 시스템이 검색하여 제공하므로 정보 획득이 편리한 장점이 있다.
따라서, 기술적인 면에서 인공 지능을 이용한 문서 분류 시스템의 학습에 소비되는 많은 시간을 절약하여, 즉시적인 서비스를 수행할 수 있는 방법을 제시함으로써, 인터넷 정보 검색 시스템의 기반 기술 축적에 기여하는 효과가 있다.

Claims (21)

  1. 수집된 문서와 링크 제목을 입력받아 관련 용어들을 추출하는 형태소 분석기;
    상기 형태소 분석기에서 추출한 용어들을 입력받아 문서별 핵심어를 추출하여 문서별 핵심어 리스트를 생성하고, 단어 클러스터(Term Cluster)를 생성하는 단어 클러스터 생성기; 및
    상기 단어 클러스터 생성기에서 생성한 문서별 핵심어 리스트 및 단어 클러스터를 입력받아 핵심어에 대한 단어 클러스터를 추출하고, 추출된 단어 클러스터에 대하여 관련 분야 카테고리를 추론하는 유전자 학습 분류기를 포함하고,
    상기 유전자 학습 분류기는 유전자 알고리즘을 이용하여 분야별 카테고리를 학습하는 것을 특징으로 하는 문서 자동 분류 시스템.
  2. 제 1 항에 있어서,
    인터넷에서 문서를 수집하고, 수집된 문서에 연결된 링크의 제목도 함께 수집하는 웹 로봇(Web Robot)을 더 포함하여 이루어진 것을 특징으로 하는 문서 자동 분류 시스템.
  3. 제 1 항에 있어서,
    상기 형태소 분석기는,
    미리 구축된 명사 사전과 관련 분야 용어 사전을 이용하여 상기 웹 로봇이 수집한 문서 및 링크 제목에서 명사를 추출하는 것을 특징으로 하는 문서 자동 분류 시스템.
  4. 제 1 항에 있어서,
    상기 단어 클러스터 생성기는,
    입력된 문서의 총 명사수, 각각의 명사의 출현 횟수 및 동일 단락에서 출현한 명사와 문서의 핵심어를 추출하고, 이를 명사 리스트로 작성하며, 각각의 문서의 핵심어는 문서별 핵심어 리스트에 포함시키는 것을 특징으로 하는 문서 자동 분류 시스템.
  5. 제 4 항에 있어서,
    각각의 문서의 단어는 문서내 단어 출현 횟수를 단어의 평균 출현 횟수와 나눈 후, 미리 지정된 가중치를 곱하고, 이 값이 미리 지정한 임계값보다 크면, 핵심어로 결정하는 것을 특징으로 하는 문서 자동 분류 시스템.
  6. 제 1 항에 있어서,
    상기 유전자 학습 분류기는,
    미리 구축된 사용자 프로파일(Profile)에 저장된 사용자 검색어 리스트에서 조회 날짜 및 조회 횟수를 따라 일정한 기간동안 가장 많이 사용된 검색어를 찾음으로써, 사용자의 관심 카테고리 분야를 제공하는 것을 특징으로 하는 문서 자동 분류 시스템.
  7. 제 1 항 또는 제 6 항에 있어서,
    상기 유전자 학습 분류기는,
    사용자가 입력한 검색어와 관련된 카테고리 분야를 출력하는 것을 특징으로 하는 문서 자동 분류 시스템.
  8. 유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템의 단어 클러스터 생성 및 변경 방법에 있어서,
    수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 단계;
    상기 제 1 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를 계산하는 제 2 단계;
    상기 제 2 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 단계; 및
    상기 제 3 단계에서 생성된 단어 클러스터가 신규 단어 클러스터이면, 이에 따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는 제 4 단계;
    를 포함하여 이루어진 것을 특징으로 하는 단어 클러스터 생성 및 변경 방법.
  9. 제 8 항에 있어서,
    상기 제 2 단계는,
    아래의 [식 1]에 따라, 단어 클러스터 계수를 계산하는 것을 특징으로 하는 단어 클러스터 생성 및 변경 방법.
    [식 1]
    클러스터 계수 = 집중도 * 가중치
    집중도 = sqrt(단어 1과 단어 2가 같은 문장에 출현한 횟수)
    가중치 = (단어 1의 출현 횟수/전체 단어의 출현 횟수) * (단어 2의 출현 횟수/전체 단어의 출현 횟수)
  10. 제 8 항에 있어서,
    상기 제 4 단계는,
    아래의 [식 2]에 따라 기존 단어 클러스터 계수를 갱신하는 것을 특징으로 하는 단어 클러스터 생성 및 변경 방법.
    [식 2]
    갱신 클러스터 계수 = (기존의 관계도 * 변경 횟수 + 신규 계수) / (변경 횟수 + 1)
  11. 수집된 문서와 링크 제목을 입력받아 관련 용어들을 추출하는 제 1 단계;
    상기 제 1 단계에서 추출한 용어들을 입력받아 문서별 핵심어를 추출하여 문서별 핵심어 리스트를 생성하고, 단어 클러스터(Term Cluster)를 생성하는 제 2 단계; 및
    상기 제 2 단계에서 생성한 문서별 핵심어 리스트 및 단어 클러스터를 입력받아 핵심어에 대한 단어 클러스터를 추출하고, 추출된 단어 클러스터에 대하여 유전자 알고리즘을 이용하여 관련 분야 카테고리를 추론하는 제 3 단계;
    를 포함하여 이루어진 것을 특징으로 하는 문서 자동 분류 방법.
  12. 제 11 항에 있어서,
    상기 제 1 단계는,
    미리 구축된 명사 사전과 관련 분야 용어 사전을 이용하여 상기 제 1 단계에서 수집한 문서 및 링크 제목에서 명사를 추출하는 것을 특징으로 하는 문서 자동 분류 방법.
  13. 제 11 항에 있어서,
    상기 제 2 단계는,
    입력된 문서의 총 명사수, 각각의 명사의 출현 횟수 및 동일 단락에서 출현한 명사와 문서의 핵심어를 추출하고, 이를 명사 리스트로 작성하며, 각각의 문서의 핵심어는 문서별 핵심어 리스트에 포함시키는 것을 특징으로 하는 문서 자동 분류 방법.
  14. 제 13 항에 있어서,
    각각의 문서의 단어는 문서내 단어 출현 횟수를 단어의 평균 출현 횟수와 나눈 후, 미리 지정된 가중치를 곱하고, 이 값이 미리 지정한 임계값보다 크면, 핵심어로 결정하는 것을 특징으로 하는 문서 자동 분류 방법.
  15. 제 11 항에 있어서,
    상기 제 3 단계는,
    미리 구축된 사용자 프로파일(Profile)에 저장된 사용자 검색어 리스트에서 조회 날짜 및 조회 횟수를 따라 일정한 기간동안 가장 많이 사용된 검색어를 찾음으로써, 사용자의 관심 카테고리 분야를 제공하는 서브 단계를 포함하여 이루어진 것을 특징으로 하는 문서 자동 분류 방법.
  16. 제 11 항 또는 제 15 항에 있어서,
    상기 제 3 단계는,
    사용자가 입력한 검색어와 관련된 카테고리 분야를 출력하는 서브 단계를 포함하여 이루어진 것을 특징으로 하는 문서 자동 분류 방법.
  17. 제 11 항에 있어서,
    상기 제 2 단계는,
    수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 서브 단계;
    상기 제 1 서브 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를계산하는 제 2 서브 단계;
    상기 제 2 서브 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 서브 단계; 및
    상기 제 3 서브 단계에서 생성된 단어 클러스터가 신규 단어 클러스터이면, 이에 따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는 제 4 서브 단계;
    를 포함하여 이루어진 것을 특징으로 하는 문서 자동 분류 방법.
  18. 제 17 항에 있어서,
    상기 제 2 서브 단계는,
    아래의 [식 3]에 따라, 단어 클러스터 계수를 계산하는 것을 특징으로 하는 문서 자동 분류 방법.
    [식 3]
    클러스터 계수 = 집중도 * 가중치
    집중도 = sqrt(단어 1과 단어 2가 같은 문장에 출현한 횟수)
    가중치 = (단어 1의 출현 횟수/전체 단어의 출현 횟수) * (단어 2의 출현 횟수/전체 단어의 출현 횟수)
  19. 제 17 항에 있어서,
    상기 제 4 서브 단계는,
    아래의 [식 4]에 따라 기존 단어 클러스터 계수를 갱신하는 것을 특징으로 하는 단어 클러스터 생성 및 변경 방법.
    [식 4]
    갱신 클러스터 계수 = (기존의 관계도 * 변경 횟수 + 신규 계수) / (변경 횟수 + 1)
  20. 유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템의 단어 클러스터 생성 및 변경 방법을 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 있어서,
    수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 단계;
    상기 제 1 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를 계산하는 제 2 단계;
    상기 제 2 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 단계; 및
    상기 제 3 단계에서 생성된 단어 클러스터가 신규 단어 클러스터이면, 이에따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는 제 4 단계;
    를 포함하여 이루어진 것을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체.
  21. 수집된 문서와 링크 제목을 입력받아 관련 용어들을 추출하는 제 1 단계;
    상기 제 1 단계에서 추출한 용어들을 입력받아 문서별 핵심어를 추출하여 문서별 핵심어 리스트를 생성하고, 단어 클러스터(Term Cluster)를 생성하는 제 2 단계; 및
    상기 제 2 단계에서 생성한 문서별 핵심어 리스트 및 단어 클러스터를 입력받아 핵심어에 대한 단어 클러스터를 추출하고, 추출된 단어 클러스터에 대하여 유전자 알고리즘을 이용하여 관련 분야 카테고리를 추론하는 제 3 단계;를 포함하고,
    상기 제 3 단계는,
    수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 서브 단계;
    상기 제 1 서브 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를 계산하는 제 2 서브 단계;
    상기 제 2 서브 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 서브 단계; 및
    상기 제 3 서브 단계에서 생성된 단어 클러스터가 신규 단어 클러스터이면, 이에 따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는 제 4 서브 단계;를 포함하여 이루어진 것을 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020000078266A 2000-12-19 2000-12-19 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법 KR20020049164A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020000078266A KR20020049164A (ko) 2000-12-19 2000-12-19 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
US09/846,473 US20020078044A1 (en) 2000-12-19 2001-04-30 System for automatically classifying documents by category learning using a genetic algorithm and a term cluster and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000078266A KR20020049164A (ko) 2000-12-19 2000-12-19 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20020049164A true KR20020049164A (ko) 2002-06-26

Family

ID=19703250

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000078266A KR20020049164A (ko) 2000-12-19 2000-12-19 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법

Country Status (2)

Country Link
US (1) US20020078044A1 (ko)
KR (1) KR20020049164A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020054254A (ko) * 2000-12-27 2002-07-06 오길록 사전구조를 이용한 한국어 형태소 분석방법
KR100426341B1 (ko) * 2001-02-27 2004-04-08 김동우 지정 웹 사이트 문서 검색 보고 시스템
KR100847376B1 (ko) * 2006-11-29 2008-07-21 김준홍 질의어 자동 추출을 이용한 검색 방법 및 장치
KR101040094B1 (ko) * 2005-10-07 2011-06-09 노키아 코포레이션 Svg 문서 유사성을 측정하기 위한 시스템 및 방법
WO2012057773A1 (en) * 2010-10-29 2012-05-03 Hewlett-Packard Development Company, L.P. Generating a taxonomy from unstructured information
KR20190061668A (ko) 2017-11-28 2019-06-05 (주)타이거컴퍼니 지식 네트워크 분석 방법

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944610B2 (en) * 2001-10-31 2005-09-13 Bellsouth Intellectual Property Corporation System and method for searching heterogeneous electronic directories
JP2004062479A (ja) * 2002-07-29 2004-02-26 Fujitsu Ltd 情報収集装置、方法及びプログラム
US8090717B1 (en) * 2002-09-20 2012-01-03 Google Inc. Methods and apparatus for ranking documents
US20040078380A1 (en) * 2002-10-18 2004-04-22 Say-Ling Wen Chinese input system with categorized database and method thereof
US7266559B2 (en) * 2002-12-05 2007-09-04 Microsoft Corporation Method and apparatus for adapting a search classifier based on user queries
US7412453B2 (en) * 2002-12-30 2008-08-12 International Business Machines Corporation Document analysis and retrieval
US7409336B2 (en) * 2003-06-19 2008-08-05 Siebel Systems, Inc. Method and system for searching data based on identified subset of categories and relevance-scored text representation-category combinations
US7321880B2 (en) 2003-07-02 2008-01-22 International Business Machines Corporation Web services access to classification engines
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
JP4333409B2 (ja) * 2004-02-27 2009-09-16 ソニー株式会社 情報処理装置および方法、並びにプログラム
WO2005086060A1 (en) * 2004-03-02 2005-09-15 Cloudmark, Inc. Method and apparatus to use a genetic algorithm to generate an improved statistical model
TWI234720B (en) * 2004-04-16 2005-06-21 Via Tech Inc Related document linking managing system, method and recording medium
JP4581520B2 (ja) * 2004-07-09 2010-11-17 富士ゼロックス株式会社 ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
WO2006047407A2 (en) * 2004-10-26 2006-05-04 Yahoo! Inc. Method of indexing gategories for efficient searching and ranking
US8849860B2 (en) 2005-03-30 2014-09-30 Primal Fusion Inc. Systems and methods for applying statistical inference techniques to knowledge representations
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US9177248B2 (en) 2005-03-30 2015-11-03 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
US7844565B2 (en) 2005-03-30 2010-11-30 Primal Fusion Inc. System, method and computer program for using a multi-tiered knowledge representation model
US7606781B2 (en) * 2005-03-30 2009-10-20 Primal Fusion Inc. System, method and computer program for facet analysis
US10002325B2 (en) 2005-03-30 2018-06-19 Primal Fusion Inc. Knowledge representation systems and methods incorporating inference rules
US9104779B2 (en) 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US7596574B2 (en) * 2005-03-30 2009-09-29 Primal Fusion, Inc. Complex-adaptive system for providing a facted classification
US9378203B2 (en) 2008-05-01 2016-06-28 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
JP4524640B2 (ja) * 2005-03-31 2010-08-18 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7630964B2 (en) * 2005-11-14 2009-12-08 Microsoft Corporation Determining relevance of documents to a query based on identifier distance
US7933890B2 (en) 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US7519619B2 (en) * 2006-08-21 2009-04-14 Microsoft Corporation Facilitating document classification using branch associations
US8601598B2 (en) * 2006-09-29 2013-12-03 Microsoft Corporation Off-premise encryption of data storage
US8705746B2 (en) * 2006-09-29 2014-04-22 Microsoft Corporation Data security in an off-premise environment
US8131722B2 (en) * 2006-11-20 2012-03-06 Ebay Inc. Search clustering
US20090119095A1 (en) * 2007-11-05 2009-05-07 Enhanced Medical Decisions. Inc. Machine Learning Systems and Methods for Improved Natural Language Processing
US9082080B2 (en) * 2008-03-05 2015-07-14 Kofax, Inc. Systems and methods for organizing data sets
JP5295605B2 (ja) * 2008-03-27 2013-09-18 株式会社東芝 検索キーワード改良装置、サーバ装置、および方法
CN106845645B (zh) 2008-05-01 2020-08-04 启创互联公司 用于产生语义网络和用于媒体合成的方法及系统
US8676732B2 (en) 2008-05-01 2014-03-18 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US9361365B2 (en) 2008-05-01 2016-06-07 Primal Fusion Inc. Methods and apparatus for searching of content using semantic synthesis
CN106250371A (zh) 2008-08-29 2016-12-21 启创互联公司 用于利用现有的域定义来进行语义概念定义和语义概念关系综合的系统和方法
WO2010048758A1 (en) * 2008-10-31 2010-05-06 Shanghai Hewlett-Packard Co., Ltd Classification of a document according to a weighted search tree created by genetic algorithms
US8572084B2 (en) 2009-07-28 2013-10-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor
CA2772082C (en) 2009-08-24 2019-01-15 William C. Knight Generating a reference set for use during document review
US20110060644A1 (en) * 2009-09-08 2011-03-10 Peter Sweeney Synthesizing messaging using context provided by consumers
US20110060645A1 (en) * 2009-09-08 2011-03-10 Peter Sweeney Synthesizing messaging using context provided by consumers
US9292855B2 (en) 2009-09-08 2016-03-22 Primal Fusion Inc. Synthesizing messaging using context provided by consumers
US9262520B2 (en) 2009-11-10 2016-02-16 Primal Fusion Inc. System, method and computer program for creating and manipulating data structures using an interactive graphical interface
US10474647B2 (en) 2010-06-22 2019-11-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US9235806B2 (en) 2010-06-22 2016-01-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US11294977B2 (en) 2011-06-20 2022-04-05 Primal Fusion Inc. Techniques for presenting content to a user based on the user's preferences
US9542479B2 (en) 2011-02-15 2017-01-10 Telenav, Inc. Navigation system with rule based point of interest classification mechanism and method of operation thereof
CN102646103B (zh) * 2011-02-18 2016-03-16 腾讯科技(深圳)有限公司 检索词的聚类方法和装置
EP2707807A4 (en) * 2011-05-13 2015-10-21 Microsoft Technology Licensing Llc LEARNING FOR MANAGERS OF STATISTICAL DIALOGUES IN VOICE DIALOGUE SYSTEMS WITH WEB DATA
US9098575B2 (en) 2011-06-20 2015-08-04 Primal Fusion Inc. Preference-guided semantic processing
KR101413988B1 (ko) * 2012-04-25 2014-07-01 (주)이스트소프트 문서의 이산분리시스템 및 방법
JP6007784B2 (ja) * 2012-12-21 2016-10-12 富士ゼロックス株式会社 文書分類装置及びプログラム
CN103092979B (zh) * 2013-01-31 2016-01-27 中国科学院对地观测与数字地球科学中心 遥感数据检索自然语言的处理方法
US9495357B1 (en) * 2013-05-02 2016-11-15 Athena Ann Smyros Text extraction
US9558176B2 (en) 2013-12-06 2017-01-31 Microsoft Technology Licensing, Llc Discriminating between natural language and keyword language items
CN104866496B (zh) * 2014-02-22 2019-12-10 腾讯科技(深圳)有限公司 确定词素重要性分析模型的方法及装置
CN106095833B (zh) * 2016-06-01 2019-04-16 竹间智能科技(上海)有限公司 人机对话内容处理方法
AU2017274558B2 (en) 2016-06-02 2021-11-11 Nuix North America Inc. Analyzing clusters of coded documents
US9899038B2 (en) * 2016-06-30 2018-02-20 Karen Elaine Khaleghi Electronic notebook system
WO2018076243A1 (zh) * 2016-10-27 2018-05-03 华为技术有限公司 一种查找方法及装置
CN106776695B (zh) * 2016-11-11 2020-12-04 上海信联信息发展股份有限公司 实现文书档案价值自动鉴定的方法
CN107194815B (zh) * 2016-11-15 2018-06-22 平安科技(深圳)有限公司 客户分类方法及系统
US10235998B1 (en) 2018-02-28 2019-03-19 Karen Elaine Khaleghi Health monitoring system and appliance
US11089024B2 (en) * 2018-03-09 2021-08-10 Microsoft Technology Licensing, Llc System and method for restricting access to web resources
RU2692972C1 (ru) * 2018-07-10 2019-06-28 Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации Способ автоматической классификации электронных документов в системе электронного документооборота с автоматическим формированием реквизита резолюции руководителя
US10559307B1 (en) 2019-02-13 2020-02-11 Karen Elaine Khaleghi Impaired operator detection and interlock apparatus
US10735191B1 (en) 2019-07-25 2020-08-04 The Notebook, Llc Apparatus and methods for secure distributed communications and data access
KR102504319B1 (ko) 2020-02-17 2023-02-28 한국전자통신연구원 영상 객체 속성 분류 장치 및 방법
CN111445968A (zh) * 2020-03-16 2020-07-24 平安国际智慧城市科技股份有限公司 电子病历查询方法、装置、计算机设备和存储介质
RU2759887C1 (ru) * 2020-12-29 2021-11-18 федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации Способ автоматической классификации формализованных электронных графических и текстовых документов в системе электронного документооборота с автоматическим формированием электронных дел

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187754A (ja) * 1996-12-25 1998-07-21 Nec Corp ドキュメント分類装置及び方法
JPH1185796A (ja) * 1997-09-01 1999-03-30 Canon Inc 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体
KR20000043740A (ko) * 1998-12-29 2000-07-15 이계철 문서 자동 분류 시스템에서의 다중 범주 할당 방법
JP2000222431A (ja) * 1999-02-03 2000-08-11 Mitsubishi Electric Corp 文書分類装置
KR20010102687A (ko) * 2000-05-04 2001-11-16 정만원 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템
KR20010108845A (ko) * 2000-05-31 2001-12-08 기민호 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
KR20020016056A (ko) * 2000-08-24 2002-03-04 모리시타 요이찌 문서 검색 및 분류 방법 및 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187754A (ja) * 1996-12-25 1998-07-21 Nec Corp ドキュメント分類装置及び方法
JPH1185796A (ja) * 1997-09-01 1999-03-30 Canon Inc 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体
KR20000043740A (ko) * 1998-12-29 2000-07-15 이계철 문서 자동 분류 시스템에서의 다중 범주 할당 방법
JP2000222431A (ja) * 1999-02-03 2000-08-11 Mitsubishi Electric Corp 文書分類装置
KR20010102687A (ko) * 2000-05-04 2001-11-16 정만원 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템
KR20010108845A (ko) * 2000-05-31 2001-12-08 기민호 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
KR20020016056A (ko) * 2000-08-24 2002-03-04 모리시타 요이찌 문서 검색 및 분류 방법 및 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020054254A (ko) * 2000-12-27 2002-07-06 오길록 사전구조를 이용한 한국어 형태소 분석방법
KR100426341B1 (ko) * 2001-02-27 2004-04-08 김동우 지정 웹 사이트 문서 검색 보고 시스템
KR101040094B1 (ko) * 2005-10-07 2011-06-09 노키아 코포레이션 Svg 문서 유사성을 측정하기 위한 시스템 및 방법
KR100847376B1 (ko) * 2006-11-29 2008-07-21 김준홍 질의어 자동 추출을 이용한 검색 방법 및 장치
WO2012057773A1 (en) * 2010-10-29 2012-05-03 Hewlett-Packard Development Company, L.P. Generating a taxonomy from unstructured information
KR20190061668A (ko) 2017-11-28 2019-06-05 (주)타이거컴퍼니 지식 네트워크 분석 방법

Also Published As

Publication number Publication date
US20020078044A1 (en) 2002-06-20

Similar Documents

Publication Publication Date Title
KR20020049164A (ko) 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
Arotaritei et al. Web mining: a survey in the fuzzy framework
US8341159B2 (en) Creating taxonomies and training data for document categorization
Akter et al. An extractive text summarization technique for Bengali document (s) using K-means clustering algorithm
US5317507A (en) Method for document retrieval and for word sense disambiguation using neural networks
CN110543564B (zh) 基于主题模型的领域标签获取方法
US20090119281A1 (en) Granular knowledge based search engine
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
Turtle et al. Uncertainty in information retrieval systems
CN114706972A (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
Charnine et al. Measuring of" idea-based" influence of scientific papers
Zehtab-Salmasi et al. FRAKE: fusional real-time automatic keyword extraction
Watanabe et al. A paper recommendation mechanism for the research support system papits
Bouakkaz et al. OLAP textual aggregation approach using the Google similarity distance
Singh et al. Feature oriented fuzzy logic based web spam detection
Wahyudi et al. Information retrieval system for searching JSON files with vector space model method
Asa et al. A comprehensive survey on extractive text summarization techniques
Alfarra et al. Graph-based fuzzy logic for extractive text summarization (GFLES)
Sharma et al. Review of features and machine learning techniques for web searching
CN114722304A (zh) 异质信息网络上基于主题的社区搜索方法
Cunningham et al. Applying connectionist models to information retrieval
Abd Allah et al. Contribution to the methods of indexing Arabic textual documents to improve the performance of IRS
Stamou et al. Classifying web data in directory structures
Thambi et al. Graph based document model and its application in keyphrase extraction
He et al. Citation-based retrieval for scholarly publications

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application