KR20030094966A - 통제학습 기반의 문서 자동분류시스템 및 그 방법 - Google Patents

통제학습 기반의 문서 자동분류시스템 및 그 방법 Download PDF

Info

Publication number
KR20030094966A
KR20030094966A KR1020020032451A KR20020032451A KR20030094966A KR 20030094966 A KR20030094966 A KR 20030094966A KR 1020020032451 A KR1020020032451 A KR 1020020032451A KR 20020032451 A KR20020032451 A KR 20020032451A KR 20030094966 A KR20030094966 A KR 20030094966A
Authority
KR
South Korea
Prior art keywords
data
document
documents
classification
words
Prior art date
Application number
KR1020020032451A
Other languages
English (en)
Inventor
문성일
Original Assignee
주식회사 코스모정보통신
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코스모정보통신 filed Critical 주식회사 코스모정보통신
Priority to KR1020020032451A priority Critical patent/KR20030094966A/ko
Publication of KR20030094966A publication Critical patent/KR20030094966A/ko

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60NSEATS SPECIALLY ADAPTED FOR VEHICLES; VEHICLE PASSENGER ACCOMMODATION NOT OTHERWISE PROVIDED FOR
    • B60N2/00Seats specially adapted for vehicles; Arrangement or mounting of seats in vehicles
    • B60N2/24Seats specially adapted for vehicles; Arrangement or mounting of seats in vehicles for particular purposes or particular vehicles
    • B60N2/42Seats specially adapted for vehicles; Arrangement or mounting of seats in vehicles for particular purposes or particular vehicles the seat constructed to protect the occupant from the effect of abnormal g-forces, e.g. crash or safety seats
    • B60N2/427Seats or parts thereof displaced during a crash
    • B60N2/42727Seats or parts thereof displaced during a crash involving substantially rigid displacement
    • B60N2/42745Seats or parts thereof displaced during a crash involving substantially rigid displacement of the back-rest

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 각종 문헌이나 문서 등의 정보를 수집하고, 수집된 정보를 자동분류시스템에 의해 데이터를 분류한 후 관리자의 키워드 질의 및 분류별 질의에 의해 사전 정의된 각종 문헌이나 문서의 가중치와 유사도를 계산하여 유지 관리하고, 이를 제공함으로 사용자별 정보를 개인화 할 수 있도록 하는 통제학습 기반의 문서 자동분류시스템에 관한 것이다.
본 발명의 수단으로는, 데이터 통신이 가능한 사용자 단말기(500)와; 인터넷 및 인트라넷 기반에서 제공되는 문헌이나 문서들의 문장이나 문맥에서 형태소를 분석하여 추출된 단어들의 가중치 및 유사도를 산출하고, 상기 자동 분석된 데이터에서 인덱스를 추출하여 저장하며 상기 사용자 단말기(500)에서 입력되는 키워드에 해당되는 데이터들을 전송하는 문서분류서버(200)와; 상기 문서분류서버(200)의 인덱스 자료들을 주제별로 분류하며 상기 데이터를 유지 관리하는 관리자서버(300)를 포함하는 것을 특징으로 한다.

Description

통제학습 기반의 문서 자동분류시스템 및 그 방법{Rule based document auto taxonomy system and method}
본 발명은 통제학습 기반의 문서 자동분류시스템에 관한 것으로, 더욱 상세하게는 각종 문헌이나 문서 등의 정보를 수집하고, 수집된 정보를 자동분류시스템에 의해 데이터를 분류한 후 사용자의 키워드 질의 및 분류별 질의에 의해 사전 정의된 각종 문헌이나 문서의 가중치와 유사도를 계산하여 이를 제공함으로 개인 사용자별 정보를 개인화 할 수 있도록 하는 통제학습 기반의 문서 자동분류시스템에 관한 것이다.
최근 유무선 통신의 기술의 발달로 인하여, 인터넷 등과 같은 정보의 바다에서 정보를 검색하기 제공되는 검색서비스는 크게 2가지 접근 방식이 이루고 있다. 자연어 처리 기법을 기반으로 문서의 언어적인 의미를 이용하는 방법과, 단순히 문서의 표층적인 현상(예, 빈도수)을 통계 및 확률을 이용하여 모델링하는 방법으로 나누어진다.
상기와 같은 2가지 접근 방법은 모두 인공지능, 정보검색, 계산 언어 처리 등의 다양한 분야에서 연구가 CMU Text Learning Group, IBM, Microsoft Research Lab 등의 많은 대학 및 기업 연구소에서 연구가 진행되고 있다.
이러한, 문서 자동분류 기술을 기반으로 실제 상품화 한 제품으로는 문서분류 엔진의 단독 제품보다는 EDMS, KMS, 검색엔진 등에 컴포넌트 형태로 개발된 제품들이 많으며, 대표적인 것으로는 IBM의 Lotus Notes, Autonomy의 KMS 제품군, Inktomi의 Directory Engine 등이 있다.
상기와 같이, 인터넷 기반에서 문서 자동분류는 주어진 문서가 어떤 카테고리에 속하는 지를 판단하기 위해 사전 정의된 카테고리를 통해 특정 정보(혹은 카테고리)를 찾아내는 것이다. 즉, 기존의 학습방법은 사용자가 카테고리에 대한 학습문서를 자동분류시스템에 제공하면 상기 자동분류시스템은 제공된 카테고리간의기존 문헌이나 문서를 비교하되 각 카테고리의 특정 정보를 추출하고, 추출된 문서를 분류하는 것이다.
그러나, 이와 같은 방법은 사용자가 직접 입력한 카테고리의 특정 정보가 카테고리간의 문서들을 비교하여 추출되어지기 때문에 모든 카테고리의 학습문서가 일괄적으로 제공하게 되어 초기 카테고리 구축과 카테고리 추가 등의 데이터를 관리하기 어려운 문제점을 갖게 되었다.
상기와 같은 문제를 해소하기 위한 것으로, 본 발명은 통제학습방식에 의해 문서를 자동 분류하여 인덱스를 생성하고, 상기 자동 분류된 인덱스 데이터를 상용검색엔진과 연계되도록 하여 관리자로부터 입력되는 키워드 및 분류별 질의를 통해 자동 분류된 데이터를 효율적으로 검색할 수 있도록 하는데 그 목적이 있다.
도 1은 본 발명에 따른 통제학습 기반의 문서 자동분류시스템의 개략적인 구성을 보인 블록도.
도 2는 본 발명에 따른 본 발명에 따른 통제학습 기반의 문서 자동분류방법의 제어 흐름도.
*도면의 주요부분에 대한 부호의 설명*
100,110 : 문헌 및 문서200 : 문서분류서버
210 : 파일변환수단220 : 형태소 분석기
230 : 자동분류 프로그램240 : 데이터서버
300 : 관리자단말기400 : 인터넷/인트라넷
500 : 개인단말기
본 발명을 이루기 위한 수단으로, 데이터 통신이 가능한 사용자 단말기와; 인터넷 및 인트라넷 기반에서 제공되는 문헌이나 문서들의 문장이나 문맥에서 형태소를 분석하여 추출된 단어들의 가중치 및 유사도를 산출하고, 상기 자동 분석된 데이터에서 인덱스를 추출하여 저장하며 상기 사용자 단말기에서 입력되는 키워드에 해당되는 데이터들을 전송하는 문서분류서버와; 상기 문서분류서버의 인덱스 자료들을 주제별로 분류하며 상기 데이터를 유지 관리하는 관리자서버로 이루어진 것을 특징으로 하고, 바람직하게는 상기 문서분류서버는 문헌이나 문서들을 데이터로 변환하는 파일변환수단과; 상기 파일변환수단에 의해 변환된 데이터의 문장이나 문맥에서 사전적 의미를 갖는 단어를 추출하는 형태소 분석기와; 상기 형태소 분석기에 의해 추출된 단어들의 출현 빈도 및 역문헌 빈도를 각각 산출하여 부가된 가중치 값이 1과 0사이에서 최대 값으로 하고, 상기 가중치에 의해 부여된 단어간의 의미관계를 사전에 학습된 학습문서와 사용자가 신규로 등록하는 문서들에 의해 주제별 데이터를 생성하는 자동분류 프로그램과; 상기 자동분류 프로그램에 의해 생성된 데이터에서 인덱스만을 추출하여 저장하는 데이터서버를 더 포함한 것을 특징으로 한다.
그 방법으로는, 인터넷/인트라넷 기반에서 신문기사 및 각종 학술논문 초록 등의 문헌이나 문서들을 사전 정의된 정보로 분류하고, 상기 분류된 문서들을 데이터로 변환하는 제 1단계; 상기 변환된 데이터들은 각 문장이나 문맥 용어들의 형태소 분석하여 각 용어들의 사전적인 의미를 갖는 단어들을 추출하는 제 2단계; 상기 문헌이나 문서들의 내용에서 단어들의 가중치 및 유사도를 산출하는 제 3단계; 상기 단어들의 가중치 및 유사도가 산출되면 각 문헌이나 문서에 분류 정보를 추가하여 데이터를 생성하고, 생성된 데이터에서 인덱스를 추출하여 저장하는 제 4단계; 상기 인덱스 자료들을 학습문서로 분류하기 위해 관리자로부터 입력되는 키워드 및 분류별 질의를 통해 분류대상 문서와 코사인 유사계수를 이용하여 가장 유사한 복수개의 학습문서를 검색하는 제 5단계; 상기 검색된 학습문서가 분류된 각 범주에 대해 입력문서의 적합성을 산출하여 그 적합성 값이 사전 설정된 기준치 1과 0사이에 값인 경우 해당되는 각 범주로 분류하거나 또는 가장 큰 하나의 범주로 분류하는 제 6단계 및; 개인사용자 단말기로부터 입력되는 키워드에 적합한 해당 분류데이터를 전송하는 제 7단계로 이루어진 것을 특징으로 하며, 바람직하게는 상기 제 3단계에서 단어의 가중치 및 유사도를 검출하는 방법은 사전 정의되어 분류된 정치·경제·산업·사회·사건·문화·과학 및 스포츠 등으로 분류하고, 각 문헌이나 문서에서 각 단어의 빈도와 역문헌 빈도를 각각 산출하여 각 도출된 값의 최대 값으로 가중치를 계산하고, 상기 문헌이나 문서에 부여된 가중치를 통하여 단어간의 의미관계를 생성하기 위한 단어간의 유사 도를 산출하는 것을 특징으로 한다.
이하, 본 발명의 바람직한 실시 예를 첨부된 도면을 참조하여 상세하게 살펴보면 다음과 같다.
도 1은 본 발명에 따른 통제학습 기반의 자동 문서분류시스템의 개략적인 구성을 보인 블록도 이다.
도 1에 도시된 바와 같이, 본 발명의 통제학습 기반의 자동 문서분류시스템은 인터넷 및/또는 인트라넷(400) 기반에서 데이터 통신이 가능하도록 네트워크 망으로 구성되며, 상기 본 발명에서 제 1·제 2 검색엔진(310,242)은 상용검색엔진으로서 독립적으로 작동된다.
상기 본 발명의 자동 문서분류시스템은 인터넷/인트라넷(400) 기반에서의 각종 문헌이나 문서(100,110)들과, 문서분류서버(200), 관리자단말기(300) 및 개인단말기(500)로 구성되고, 상기 문서분류서버(200)에는 파일변환수단(210), 형태소 분석기(220), 자동분류 프로그램(230), 데이터서버(240)를 포함한다. 또한, 상기 데이터서버(240)에는 자동 분류된 데이터(241), 제 2검색엔진(242), 데이터베이스(243)로 구성된다.
상기 문헌이나 문서들은 신문기사나 각종 학술논문 초록 등으로서, 정치·경제·산업·사회·사건·문화·과학 및 스포츠 등으로 사전 정의된 분류에 의해 분류된 자료들이다.
상기 문헌이나 문서(100,110)들의 각종 자료들은 문서분류서버(200)에서 입력되며, 상기 문서분류서버(200)의 파일변환수단(210)에서는 각종 자료들을 데이터 또는 파일로 변환되어 형태소 분석기(220)로 출력되고, 상기 형태소 분석기(220)는 데이터 또는 파일로 변환된 문헌이나 문서에서 각 문장단위에서 단어를 꾸며주는 조사들을 뺀 사전적 의미를 갖는 단어들만을 추출하여 자동분류 프로그램(230)으로 출력한다.
상기 자동분류 프로그램(230)은 추출된 단어(용어)들에서 가중치와 유사도 중에서 단어의 가중치를 먼저 산출하고, 유사도를 나중에 산출한다.
먼저, 단어의 가중치에는 단어빈도와 역문헌 빈도를 각각 산출하되 상기 단어빈도는 문헌 내 출연여부만을 반영하는 이진 값이나 출현빈도 자체를 가중치로 사용하는 것이 바람직하며, 상기 단어빈도는 출현빈도를 가지고 가중치를 산출한다. 즉, 각 문헌에서 사전 정의된 단어(정치·경제·환경 등)의 반복 횟수를 산출한다.
한편, 상기 역문헌 빈도는 전체문헌에서 단어의 반복된 횟수 분에 특정 단어의 반복횟수로 각 단어의 가중치를 산출하며, 상기 단어의 가중치는 1과 0사이에서 최대 값을 사용한다. 이어서, 유사도는 상기 단어의 가중치에 의해 부여된 용어간의 의미관계를 생성하기 위해 용어간의 유사도를 산출한다. 상기 유사도는 코사인계수를 사용하며, 코사인 계수는 사전에 학습된 학습문서와 사용자가 신규로 등록하는 문서들간의 적합(유사) 관계를 수치화 한 것이다.
이어서, 자동분류 프로그램(230)은 각종 문헌이나 문서들의 가중치 및 유사도가 각각 산출되면 각 문헌이나 문서에 분류 정보를 추가하여 데이터를 생성하기 위한 데이터들을 데이터 서버(240)로 출력한다.
상기 데이터서버(240)는 각 문헌이나 문서에 자동 분류정보가 추가된 데이터(241)에서 인덱스만을 추출하는 제 2검색엔진(242)에 의해 인덱스만을 추출하고, 추출된 인덱스들은 데이터베이스(243)에 저장한다.
관리자는 단말기(300)의 제 1검색엔진(310)을 통해 임의의 키워드 및 분류별 질의를 통해 상기 데이터베이스(243)에 저장된 인덱스 자료들을 분류하게 된다.
즉, 관리자가 자신의 단말기(300)를 통해 제 1검색엔진(310)에 접속하고, 키워드 및 분류별 질의를 입력하게 되면, 상기 제 1검색엔진(310)은 데이터베이스(243)에 저장된 인덱스에서 코사인 유사계수를 사용하여 일차적으로 유사한 인덱스 자료들을 검색하고, 검색된 인덱스 자료들에서 각 범주에 적합한지를 산출하여 산출된 값이 1과 0사이에 있는 경우 복수 개로 데이터를 분류하거나 가장 큰 하나의 범주에 속하도록 인덱스자료들을 자동 분류하게 되는 것이다.
따라서, 상기 문서분류서버(200)는 관리자단말기(300)의 제 1검색엔진(310)에 의해 인터넷이나 인트라넷 기반에서 대량의 문헌이나 문서들의 빠르고 정확하게 분석/분류하게 된다.
즉, 개인 사용자는 자신의 단말기(500)를 통해 데이터 검색을 위한 키워드(단어)를 입력하면 문서분류서버(200)는 데이터서버(240)에 각 주제별로 저장된 데이터에서 해당 데이터를 개인단말기(500)에 제공하게 되므로 정보 검색이 용이하게 되고, 상기 정보들을 개인화 할 수 있게 되는 것이다.
도 2는 본 발명에 따른 통제학습 기반의 자동 문서분류방법의 제어 흐름도 이다.
도 2에 도시된 바와 같이, 문서 자동 분류서버(200)는 인터넷이나 인트라넷 기반에서 신문기사나 각종 학술논문 초록 등의 문헌이나 문서들을 사전 정의된 정보로 분류(S502)하고, 상기 분류된 문서들은 파일변환수단(201)에 의해 데이터로 변환(S504)된다.
상기 변환된 데이터들은 각 문장이나 문맥 용어들의 형태소 분석하는 분석기(220)에 의해 각 용어들의 사전적인 의미를 갖는 단어들을 추출(S506)하고, 이어서 자동분류 프로그램(230)에 의해서 각 문헌이나 문서의 내용에서 단어들의 가중치 및 유사도를 계산(S508)한다. 즉, 자동분류 프로그램(230)에서의 가중치 및 유사도 산출방법으로는 가장 바람직하게는 전국언론사 기사자료 표준 분류 표에 의해 분류된 정치·경제·산업·사회·사건·문화·과학 및 스포츠 등으로 분류하고, 각 문헌이나 문서에서 각 단어의 빈도와 역문헌 빈도를 각각 산출하여 산출된 값의 최대 값으로 가중치를 계산하고, 상기 문헌이나 문서에 부여된 가중치를 통하여 단어간의 의미관계를 생성하도록 단어간의 유사도를 산출한다.
상기 단어들의 가중치 및 유사도가 각각 산출되면 각 문헌이나 문서에 분류 정보를 추가하여 데이터를 생성(S510)하고, 생성된 데이터에서 인덱스를 추출하여데이터서버(S512)에 저장한다.
이렇게 저장된 데이터들은 관리자가 자신의 단말기(300)를 통해 자동 문서분류서버(200)에 접속한 다음, 제 1검색엔진(310)을 통해 키워드 및 분류별 질의를 입력하게 되면 상기 제 1검색엔진(310)은 데이터서버(240)에 분류정보가 추가된 색인자료를 검색하여 분류대상 문서와 코사인 유사계수를 이용하여 가장 유사한 복수개의 학습문서를 검색(S514)하고, 상기 학습문서가 분류된 각 범주에 대해 입력문서의 적합성을 산출(S516)하여 그 적합성 값이 1과 0사이 값인 경우 해당되는 각 범주로 분류하거나 또는 가장 큰 하나의 범주로 분류(S518)하는 것이다.
따라서, 개인 사용자들은 자동 문서분류서버에 의해 분류된 정보들을 통해 정보들을 검색하고, 검색된 정도를 개인화 할 수 있게 되는 것이다.
한편, 전술된 본 발명은 바람직한 실시 예에 대하여 도시하여 설명하였으나, 상기 본 발명은 상기한 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 기재된 청구범위 내에 있게 된다.
이상에서 살펴본 바와 같이, 본 발명은 인터넷이나 인트라넷 기반에서의 신문기사 및 각종 문헌이나 문서들의 분류를 정의하고, 분류체계별로 통제학습이 가능하도록 문헌이나 문서에서 단어의 가중치 및 유사도에 의해 주제별로 데이터를 추출하여 저장/관리하게 되므로, 개인 사용자들은 주제별 학습 정보를 용이하게 검색할 수 있는 동시에 다양한 정보를 제공받을 수 있는 장점을 갖게 된다.
또한, 분류체계를 기준으로 하여 사용자별 맞춤정보를 제공할 수 있는 효과를 갖는다.

Claims (4)

  1. 데이터 통신이 가능한 사용자 단말기(500)와;
    인터넷 및 인트라넷 기반에서 제공되는 문헌이나 문서(100,110)들의 문장이나 문맥에서 형태소를 분석하여 추출된 단어들의 가중치 및 유사도를 산출하고, 상기 자동 분석된 데이터에서 인덱스를 추출하여 저장하며 상기 사용자 단말기(500)에서 입력되는 키워드에 해당되는 데이터들을 전송하는 문서분류서버(200)와;
    상기 문서분류서버(200)의 인덱스 데이터들을 주제별로 분류하며 상기 데이터를 유지 관리하는 관리자서버(300)로 이루어진 것을 특징으로 하는 학습통제 기반의 자동 문서분류시스템.
  2. 제 1항에 있어서, 상기 문서분류서버(200)는 문헌이나 문서들을 데이터로 변환하는 파일변환수단(210)과;
    상기 파일변환수단(210)에 의해 변환된 데이터의 문장이나 문맥에서 사전적 의미를 갖는 단어를 추출하는 형태소 분석기(220)와;
    상기 형태소 분석기(220)에 의해 추출된 단어들의 출현 빈도 및 역문헌 빈도를 각각 산출하여 부가된 가중치 값이 1과 0사이에서 최대 값으로 하고, 상기 가중치에 의해 부여된 단어간의 의미관계를 사전에 학습된 학습문서와 사용자가 신규로 등록하는 문서들에 의해 주제별 데이터를 생성하는 자동분류 프로그램(230)과;
    상기 자동분류 프로그램(230)에 의해 생성된 데이터에서 인덱스만을 추출하여 저장하는 데이터서버(240)를 더 포함한 것을 특징으로 하는 통제학습 기반의 자동 문서분류시스템.
  3. 인터넷/인트라넷 기반에서 신문기사 및 각종 학술논문 초록들의 문헌이나 문서들을 사전 정의된 정보로 분류하고, 상기 분류된 문서들을 데이터로 변환하는 제 1단계;
    상기 변환된 데이터들은 각 문장이나 문맥 용어들의 형태소 분석하여 각 용어들의 사전적인 의미를 갖는 단어들을 추출하는 제 2단계;
    상기 문헌이나 문서들의 내용에서 단어들의 가중치 및 유사도를 산출하는 제 3단계;
    상기 단어들의 가중치 및 유사도가 산출되면 각 문헌이나 문서에 분류 정보를 추가하여 데이터를 생성하고, 생성된 데이터에서 인덱스를 추출하여 저장하는 제 4단계;
    상기 인덱스 자료들을 학습문서로 분류하기 위해 관리자로부터 입력되는 키워드 및 분류별 질의를 통해 분류대상 문서와 코사인 유사계수를 이용하여 가장 유사한 복수개의 학습문서를 검색하는 제 5단계;
    상기 검색된 학습문서가 분류된 각 범주에 대해 입력문서의 적합성을 산출하여 그 적합성 값이 사전 설정된 기준치 1과 0사이에 값인 경우 해당되는 각 범주로 분류하거나 또는 가장 큰 하나의 범주로 분류하는 제 6단계 및;
    개인사용자 단말기로부터 입력되는 키워드에 적합한 해당 분류데이터를 전송하는 제 7단계로 이루어진 것을 특징으로 하는 통제학습 기반의 자동 문서분류방법.
  4. 제 3항에 있어서, 상기 제 3단계에서 단어의 가중치 및 유사도를 검출하는 방법은 사전 정의되어 분류된 정치·경제·산업·사회·사건·문화·과학 및 스포츠 등으로 분류하고, 각 문헌이나 문서에서 각 단어의 빈도와 역문헌 빈도를 각각 산출하여 각 도출된 값의 최대 값으로 가중치를 계산하고, 상기 문헌이나 문서에 부여된 가중치를 통하여 단어간의 의미관계를 생성하기 위한 단어간의 유사도를 산출하는 것을 특징으로 하는 통제학습 기반의 자동 문서분류방법.
KR1020020032451A 2002-06-11 2002-06-11 통제학습 기반의 문서 자동분류시스템 및 그 방법 KR20030094966A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020032451A KR20030094966A (ko) 2002-06-11 2002-06-11 통제학습 기반의 문서 자동분류시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020032451A KR20030094966A (ko) 2002-06-11 2002-06-11 통제학습 기반의 문서 자동분류시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20030094966A true KR20030094966A (ko) 2003-12-18

Family

ID=32386543

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020032451A KR20030094966A (ko) 2002-06-11 2002-06-11 통제학습 기반의 문서 자동분류시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR20030094966A (ko)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100503950B1 (ko) * 2002-11-09 2005-07-26 삼성에스디에스 주식회사 인터넷 검색엔진을 이용한 커스터마이징 분류 사전 구성시스템 및 방법
KR100505848B1 (ko) * 2002-10-02 2005-08-04 씨씨알 주식회사 검색 시스템
KR100659370B1 (ko) * 2006-02-15 2006-12-19 한국과학기술정보연구원 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
KR100691400B1 (ko) * 2006-03-31 2007-03-12 엔에이치엔(주) 부가 정보를 이용하여 형태소를 분석하는 방법 및 상기방법을 수행하는 형태소 분석기
KR20070035786A (ko) * 2005-09-28 2007-04-02 강기만 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치및 그 방법
KR100756921B1 (ko) * 2006-02-28 2007-09-07 한국과학기술원 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
KR100809751B1 (ko) * 2006-04-13 2008-03-04 엘지전자 주식회사 문서분석 시스템 및 그 방법
KR100816912B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
KR100816923B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법
WO2008070866A3 (en) * 2006-12-07 2008-07-24 Google Inc Interleaving search results
KR100885527B1 (ko) * 2007-10-24 2009-02-26 주식회사 코난테크놀로지 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법
KR101064256B1 (ko) * 2009-12-03 2011-09-14 한국과학기술정보연구원 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
WO2014178859A1 (en) * 2013-05-01 2014-11-06 Hewlett-Packard Development Company, L.P. Content classification
US10419269B2 (en) 2017-02-21 2019-09-17 Entit Software Llc Anomaly detection
US10803074B2 (en) 2015-08-10 2020-10-13 Hewlett Packard Entperprise Development LP Evaluating system behaviour
US10884891B2 (en) 2014-12-11 2021-01-05 Micro Focus Llc Interactive detection of system anomalies
KR20210059954A (ko) * 2019-11-18 2021-05-26 주식회사 메드올스 의료 전문 자료의 과목 분류 시스템 및 방법
KR102294364B1 (ko) * 2021-05-24 2021-08-27 김희대 인공지능 기반 문서 자동 변환 시스템 및 그 방법
CN114205148A (zh) * 2021-12-10 2022-03-18 深圳市亚讯威视数字技术有限公司 一种大数据应用安全管控系统
KR20220087119A (ko) * 2020-12-17 2022-06-24 한국산업기술평가관리원 특허, 논문, 국가연구보고서 통합 정보 산출 및 표시방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010004404A (ko) * 1999-06-28 2001-01-15 정선종 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
KR20010098714A (ko) * 2000-04-18 2001-11-08 이계철 중심용어사전을 이용한 표제어의 중심용어 추출 방법 및그를 이용한 정보 검색 시스템 및 그 방법
KR20010097802A (ko) * 2000-04-26 2001-11-08 신재균 다국어 검색과 검색정보 자동번역/분류 시스템과 그를이용한 다국어 검색방법
KR20020014026A (ko) * 2000-08-14 2002-02-25 (주) 인포마스터 웹 개인화에 바탕한 뉴스 추적 및 분석 서비스
KR20020016056A (ko) * 2000-08-24 2002-03-04 모리시타 요이찌 문서 검색 및 분류 방법 및 장치
KR20020032060A (ko) * 2000-10-25 2002-05-03 전종훈 근접 검색식을 이용한 정보 검색 시스템 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010004404A (ko) * 1999-06-28 2001-01-15 정선종 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
KR20010098714A (ko) * 2000-04-18 2001-11-08 이계철 중심용어사전을 이용한 표제어의 중심용어 추출 방법 및그를 이용한 정보 검색 시스템 및 그 방법
KR20010097802A (ko) * 2000-04-26 2001-11-08 신재균 다국어 검색과 검색정보 자동번역/분류 시스템과 그를이용한 다국어 검색방법
KR20020014026A (ko) * 2000-08-14 2002-02-25 (주) 인포마스터 웹 개인화에 바탕한 뉴스 추적 및 분석 서비스
KR20020016056A (ko) * 2000-08-24 2002-03-04 모리시타 요이찌 문서 검색 및 분류 방법 및 장치
KR20020032060A (ko) * 2000-10-25 2002-05-03 전종훈 근접 검색식을 이용한 정보 검색 시스템 및 방법

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100505848B1 (ko) * 2002-10-02 2005-08-04 씨씨알 주식회사 검색 시스템
KR100503950B1 (ko) * 2002-11-09 2005-07-26 삼성에스디에스 주식회사 인터넷 검색엔진을 이용한 커스터마이징 분류 사전 구성시스템 및 방법
KR20070035786A (ko) * 2005-09-28 2007-04-02 강기만 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치및 그 방법
KR100659370B1 (ko) * 2006-02-15 2006-12-19 한국과학기술정보연구원 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
KR100756921B1 (ko) * 2006-02-28 2007-09-07 한국과학기술원 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
KR100691400B1 (ko) * 2006-03-31 2007-03-12 엔에이치엔(주) 부가 정보를 이용하여 형태소를 분석하는 방법 및 상기방법을 수행하는 형태소 분석기
KR100809751B1 (ko) * 2006-04-13 2008-03-04 엘지전자 주식회사 문서분석 시스템 및 그 방법
KR100816912B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
KR100816923B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서 분류 시스템 및 그 방법
US8086600B2 (en) 2006-12-07 2011-12-27 Google Inc. Interleaving search results
WO2008070866A3 (en) * 2006-12-07 2008-07-24 Google Inc Interleaving search results
US8738597B2 (en) 2006-12-07 2014-05-27 Google Inc. Interleaving search results
KR100885527B1 (ko) * 2007-10-24 2009-02-26 주식회사 코난테크놀로지 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법
KR101064256B1 (ko) * 2009-12-03 2011-09-14 한국과학기술정보연구원 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
WO2014178859A1 (en) * 2013-05-01 2014-11-06 Hewlett-Packard Development Company, L.P. Content classification
US10884891B2 (en) 2014-12-11 2021-01-05 Micro Focus Llc Interactive detection of system anomalies
US10803074B2 (en) 2015-08-10 2020-10-13 Hewlett Packard Entperprise Development LP Evaluating system behaviour
US10419269B2 (en) 2017-02-21 2019-09-17 Entit Software Llc Anomaly detection
KR20210059954A (ko) * 2019-11-18 2021-05-26 주식회사 메드올스 의료 전문 자료의 과목 분류 시스템 및 방법
KR20220087119A (ko) * 2020-12-17 2022-06-24 한국산업기술평가관리원 특허, 논문, 국가연구보고서 통합 정보 산출 및 표시방법
KR102294364B1 (ko) * 2021-05-24 2021-08-27 김희대 인공지능 기반 문서 자동 변환 시스템 및 그 방법
CN114205148A (zh) * 2021-12-10 2022-03-18 深圳市亚讯威视数字技术有限公司 一种大数据应用安全管控系统
CN114205148B (zh) * 2021-12-10 2024-05-28 深圳市亚讯威视数字技术有限公司 一种大数据应用安全管控系统

Similar Documents

Publication Publication Date Title
KR20030094966A (ko) 통제학습 기반의 문서 자동분류시스템 및 그 방법
Bollacker et al. CiteSeer: An autonomous web agent for automatic retrieval and identification of interesting publications
Niwattanakul et al. Using of Jaccard coefficient for keywords similarity
Shu et al. A neural network-based intelligent metasearch engine
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
Liang et al. Patent analysis with text mining for TRIZ
Al-Obaydy et al. Document classification using term frequency-inverse document frequency and K-means clustering
EP0822503A1 (en) Document retrieval system
JP2003271609A (ja) 情報監視装置及び情報監視方法
Cano-Basave et al. Ontology forecasting in scientific literature: Semantic concepts prediction based on innovation-adoption priors
Ramya et al. DRDLC: discovering relevant documents using latent dirichlet allocation and cosine similarity
Bassil A survey on information retrieval, text categorization, and web crawling
Özyirmidokuz Mining unstructured Turkish economy news articles
Desai et al. A comparative study of information retrieval models for short document summaries
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
KR100407081B1 (ko) 문서 검색 및 분류 방법 및 장치
KR20020064821A (ko) 문서 장르 학습 시스템 및 그 방법과 그를 이용한 문서장르 분류시스템 및 그 방법
Rinaldi et al. Web document categorization using knowledge graph and semantic textual topic detection
Chung et al. Developing a specialized directory system by automatically classifying Web documents
CN113590738A (zh) 一种基于内容与情感的网络敏感信息的检测方法
Mallek et al. An Unsupervised Approach for Precise Context Identification from Unstructured Text Documents
Golub Using controlled vocabularies in automated subject classification of textual web pages, in the context of browsing
Liu et al. A Patent recommendation algorithm based on topic classification and semantic similarity
Li et al. Clustering web search results using conceptual grouping
IO et al. Performance evaluation of an improved model for keyphrase extraction in documents

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application