KR20070102035A - 문서 분류 시스템 및 그 방법 - Google Patents

문서 분류 시스템 및 그 방법 Download PDF

Info

Publication number
KR20070102035A
KR20070102035A KR1020060033660A KR20060033660A KR20070102035A KR 20070102035 A KR20070102035 A KR 20070102035A KR 1020060033660 A KR1020060033660 A KR 1020060033660A KR 20060033660 A KR20060033660 A KR 20060033660A KR 20070102035 A KR20070102035 A KR 20070102035A
Authority
KR
South Korea
Prior art keywords
document
documents
database
classification
classifying
Prior art date
Application number
KR1020060033660A
Other languages
English (en)
Other versions
KR100816923B1 (ko
Inventor
차완규
안한준
김정중
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020060033660A priority Critical patent/KR100816923B1/ko
Priority to US11/621,870 priority patent/US8090743B2/en
Priority to CN2007100080684A priority patent/CN101055581B/zh
Publication of KR20070102035A publication Critical patent/KR20070102035A/ko
Application granted granted Critical
Publication of KR100816923B1 publication Critical patent/KR100816923B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시예에 따른 문서 분류 시스템은 문서가 저장된 데이터베이스; 및 상기 데이터베이스에 저장된 문서들을 자동 분류하기 위한 문서 문류부;가 포함되고, 상기 문서 분류부에는 상기 문서의 특성을 도출하여 이를 벡터화하는 특성 추출부와, 상기 특성 추출부에 의해 형성된 벡터들을 이용하여 문서간의 유사도를 판단하는 유사도 판단부와, 상기 데이터베이스에 저장된 문서들을 소정의 분류체계에 따라 분류시키는 분류 체계부가 구비되고, 상기 문서 분류부는 상기 데이터베이스로 제공되는 신규의 문서를 상기 분류체계에 따라 문서분류를 수행하는 것을 특징으로 한다.
문서 분류

Description

문서 분류 시스템 및 그 방법{System and method for classifying document}
도 1은 본 발명의 사상에 따른 문서 분류 시스템을 설명하기 위한 블록도.
도 2는 문서로부터 추출된 특성을 이용한 벡터화된 문서를 설명하는 도면.
도 3은 본 발명의 실시예에 따른 분류코드를 설명하는 도면.
도 4는 본 발명의 실시예에 따른 문서 검색 방법을 설명하기 위한 흐름도.
본 발명은 문서를 분류하기 위한 시스템에 대한 것으로서, 상세하게는, 저장된 문서들로부터 도출되는 특성과 문서간의 유사도를 참조하여 저장된 문서들을 분류체계화하고, 데이터베이스로 제공되는 신규의 문서에 대해서도 분류체계화 작업이 수행되도록 하는 문서 분류 시스템 및 그 방법에 대한 것이다.
최근 인터넷의 급속한 팽창과 보급으로 인해, 조직이 필요로 하는 문서 중에서 인터넷을 통해 획득된 문서와 지식의 양은 그 증가 속도가 갈수록 커지고 있다. 이로 인해 대용량 문서 정보 시스템에서 내용 기반 검색, 필터링, 라우팅 등의 정보 검색을 하기 위해 선행되어야 할 문서 구조화 기법이 매우 중요해지고 있다.
그리고, 문서 도메인 전문가들에 의해 카테고리별로 기초적인 계층 분류 트 리의 구조가 제공되면, 문서 분류자들은 현재 시스템 내에 보관하고 있거나 새로 유입되는 문서들로부터 속성을 추출한 후, 그 속성에 의해 해당 문서들을 상기 계층 분류 트리내의 각 카테고리들로 할당하는 작업을 수행한다.
그리고, 상기 도메인 전문가들에 의해 초기에 주어졌던 상기 계층 분류 트리는 지속적으로 문서가 할당됨에 따라 그 구조가 변화될 필요가 있는데, 이를 위해 도메인 전문가들은 각 카테고리에 할당된 문서들의 내용을 면밀히 검토하여 그 구조를 변형시켜 나간다. 즉, 기존의 계층 분류 트리에 포함되어 있지 않은 문서 집합이 유입되어 그 문서 집합을 포함시킬 수 있는 새로운 카테고리를 생성한 경우 이를 상기 계층 분류 트리의 적당한 위치에 병합시키거나 각 카테고리에 포함된 문서들간 내용의 이질성이 높아져 새로운 카테고리에 의해 묶을 수 있는 문서 집합이 발생한 경우 그 카테고리를 두 개 이상의 카테고리로 분할하는 작업을 수행하여야 한다.
그러나, 이러한 문서의 집합들이 계속적으로 변화하고, 그 문서량도 빠른 속도로 증가하는 최근의 작업 환경에서 문서 분류 및 그 계층 분류 트리의 관리 작업들을 사람의 노력에 의존하는 종래의 문서 관리 방법은 그 활용에 한계가 있다.
또한, 각 문서 분류자가 가지고 있는 경험과 지식이 모두 다르기 때문에 문서 분류가 지속적으로 일관성을 유지하지 못할 가능성도 커진다는 단점이 있다.
본 발명은 상기되는 문제점을 해결하기 위하여 제안되는 것으로서, 데이터베이스에 저장된 문서로부터 특성 및 문서간의 유사도를 독출함으로써 저장된 문서가 소정의 분류체계에 따라 자동적으로 분류될 수 있도록 하는 문서 분류 시스템 및 그 방법을 제안하는 것을 목적으로 한다.
또한, 외부로부터 유입되는 신규의 문서들을 자동으로 분류하고, 그 계층 구조를 지능적으로 관리함으로써 문서의 관리가 효율적으로 수행되도록 하는 문서 관리 시스템 및 그 방법을 제안하는 것을 목적으로 한다.
상기되는 목적을 달성하기 위한 본 발명의 실시예에 따른 문서 분류 시스템은 문서가 저장된 데이터베이스; 및 상기 데이터베이스에 저장된 문서들을 자동 분류하기 위한 문서 문류부;가 포함되고, 상기 문서 분류부에는 상기 문서의 특성을 도출하여 이를 벡터화하는 특성 추출부와, 상기 특성 추출부에 의해 형성된 벡터들을 이용하여 문서간의 유사도를 판단하는 유사도 판단부와, 상기 데이터베이스에 저장된 문서들을 소정의 분류체계에 따라 분류시키는 분류 체계부가 구비되고, 상기 문서 분류부는 상기 데이터베이스로 제공되는 신규의 문서를 상기 분류체계에 따라 문서분류를 수행하는 것을 특징으로 한다.
다른 측면에 따른 본 발명의 문서 분류 방법은 (a) 데이터베이스에 저장된 문서들로부터 특성을 추출하고, 추출된 특성을 이용하여 문서들간의 유사도가 판단되는 단계; (b) 상기 문서들간의 유사도를 기반으로 하여 상기 데이터베이스에 저장된 문서들이 소정의 분류체계에 따라 분류되는 단계; 및 (c) 상기 데이터베이스로 신규의 문서가 제공되는지 여부를 감시하고, 신규의 문서가 제공되는 경우에 상기 신규의 문서에 대하여 상기의 (a) 및 (b)단계가 재수행되는 단계;가 포함된다.
제안되는 바와 같은 본 발명의 사상에 따라 문서 분류 시스템 및 그 방법에 의해서, 데이터베이스에 저장된 문서로부터 특성 및 문서간의 유사도를 독출함으로써 저장된 문서가 소정의 분류체계에 따라 자동적으로 분류될 수 있는 장점이 있다.
또한, 외부로부터 유입되는 신규의 문서들을 자동으로 분류하고, 그 계층 구조를 지능적으로 관리함으로써 문서의 관리가 효율적으로 수행되는 장점이 있다.
이하에서는 본 발명의 바람직한 실시예를 첨부되는 도면을 참조하여 상세하게 설명한다. 다만, 본 발명의 사상이 제시되는 실시예에 제한되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서, 구성 요소의 부가, 변경, 삭제, 추가등에 의해서 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본 발명의 사상의 범위 내에 든다고 할 것이다.
도 1은 본 발명의 사상에 따른 문서 분류 시스템을 설명하기 위한 블록도이고, 도 2는 문서로부터 추출된 특성을 이용한 벡터화된 문서를 설명하는 도면이고, 도 3은 본 발명의 실시예에 따른 분류코드를 설명하는 도면이다.
도 1 내지 도 3을 참조하면, 본 발명에 따른 문서 분류 시스템(100)에는 다수의 문서가 저장되는 데이터베이스(110)와, 상기 데이터베이스(110)에 저장된 문서를 분류하기 위한 문서 분류부(120)가 포함된다.
그리고, 상기 문서 분류부(120)는 상기 데이터베이스(110)에 신규의 문서가 제공되는지 여부를 실시간 또는 사용자에 의해 설정된 주기마다 감시할 수 있으며, 상기 문서 분류부(120)에 의한 문서의 분류는 상기 신규의 문서에 대해서도 수행된 다.
상기 문서 분류부(120)에는 상기 데이터베이스(110)에 저장된 문서로부터 특성을 도출하여 벡터화하는 특성 추출부(121)와, 상기 특성 추출부(121)에 의해 형성된 문서의 벡터들로부터 문서간의 유사도를 판단하기 위한 유사도 판단부(122)와, 상기 유사도 판단부(122)에 의해 판단된 문서간의 유사도에 따라 상기 데이터베이스(110)에 저장된 문서들을 분류하기 위한 분류 체계부(123)가 포함된다.
그리고, 상기 분류 체계부(123)는 상기 유사도 판단부(122)에 의한 문서간의 유사도에 따라 문서들이 분류되도록 하는 것 외에 기술분야별로 각각 구분형성된 분류코드(124)를 참조하여 상기 데이터베이스(110)에 저장된 문서들을 분류시킬 수 있다.
상세히, 상기 특성 추출부(121)는 상기 데이터베이스(110)에 저장된 문서의 특성을 도출하여 이를 벡터화하는 역할을 수행한다.
그리고, 상기 특성 추출부(121)에 의한 문서의 벡터화가 수행되도록 하기 위하여, 상기 데이터베이스(110)에 저장된 문서들은 텍스트 형태의 파일인 doc, hwp, pdf, txt, html, xls, ppt등의 형태일 수 있다.
그리고, 상기 특성 추출부(121)는 문서로부터 특성(예를 들면, 키워드 또는 색인어)을 추출하기 위하여 상기 문서에 기록된 사항으로부터 낱말을 구분하기 위한 형태소 해석(morphological analysis)을 수행할 수 있다.
예를 들면, 영어나 국어등과 같은 낱말과 낱말 사이에 공백이 있는 언어에서는 공백을 단서로 하여 낱말을 결정할 수 있는데, 일본어와 아시아의 많은 언어와 같이 낱말 사이에 구분 기호를 두지 않는 언어에서는 낱말을 색인어 또는 키워드로 이용하기 위하여, 먼저 낱말을 판단하기 위한 프로세싱이 필요하다.
또한, 상기 특성 추출부(121)는 문서로부터 추출되는 특성에 대하여 가중치를 부여하는 기능을 수행할 수 있으며, 이 경우 상기 특성 추출부(121)는 망라성과 특정을 겸비한 특성의 중요도가 높아지도록 가중치를 부여한다.
Figure 112006025746385-PAT00001
상기 행렬에서의 각 행(t1,t2,t3,t4,t5,t6)c은 문서의 특성을, 각 열(d1,d2,d3,d4,d5)은 상기 데이터베이스(110)에 저장된 문서에 대응된다.
행렬 요소 aij는 색인어 ti가 문서 dj에 출현하는 빈도를 나타낸다.
상기와 같은 행렬의 각행은 그 특성이 문서에 나타나는 분포를 나타내고, 각 열은 그 문서에서의 특성 분포를 나타내고 있다.
문서 특성의 빈도에 근거한 가중치 부여에 있어서는, 너무 빈도가 높은 낱말은 문서를 특징짓는데에 그다지 도움이 되지 않으므로, 특정의 문서 즉, 문서의 특성으로서 역할을 수행하는데에 부적합한 단어에 관한 불용어 리스트를 이용할 수 있다.
이와 같은 견지에서, 상기 특성 추출부(121)는 문서로부터 추출되는 키워드의 출현빈도를 문서에 있는 모든 키워드의 출현 수로 상대 빈도를 가중치로 채용할 수 있다.
이에 대한 실시예는 다음과 같은 수학식에 의해 수행될 수 있다.
Figure 112006025746385-PAT00002
여기서, 상기 tf(t,d)는 특정의 문서 d에 출현하는 키워드 t의 빈도를 의미한다.
또한, 상기 특성 추출부(121)는 상기와 같이 문서로부터 도출된 키워드 또는 색인어등의 문서 특성을 이용하여, 도 2에 도시된 바와 같이 각 문서들을 벡터화할 수 있다.
예를 들어, 상기 데이터베이스(110)에 저장된 문서중에서, 문서1에서는 첫번째 특성이 19번, 두번째 특성이 35번, 마지막 특성이 15번의 빈도로 포함된다.
같은 방법으로 분석대상이 되는 문서들에 대해 특성으로 구성되는 벡터가 형성될 수 있다.
그리고, 상기 특성 추출부(121)에 의해 형성된 벡터들을 이용하여 상기 유사도 판단부(122)는 각 문서들간의 유사의 정도를 판단할 수 있으며, 이 경우 상기 유사도 판단부(122)는 문서간의 유사도를 판단하기 위하여 각 벡터간의 코사인값을 이용할 수 있다.
예를 들어, 상기 유사도 판단부(122)는 상기 특성 추출부(121)에 의해 형성되는 문서들의 벡터를 다음의 수학식을 이용하여 문서간의 유사도를 판단할 수 있다.
Figure 112006025746385-PAT00003
또한, 상기 분류 체계부(123)는 상기 유사도 판단부(122)에 의한 문서간의 유사도 판단결과에 따라 상기 데이터베이스(110)에 저장된 문서들이 분류체계화되도록 하는 역할을 수행한다.
그리고, 상기 분류 체계부(123)는 상기 데이터베이스(110)에 저장된 문서들이 소정의 기준이 될 수 있는 분류체계에 따라 문서들이 분류되도록 함으로써, 상기 데이터베이스(110)에 저장된 문서로부터 특정의 문서이 보다 빨리 검색되도록 하며, 저장된 문서들의 군집화가 신속히 수행되도록 한다.
그리고, 상기 유사도 판단부(122) 및 분류 체계부(123)에 의한 문서간의 유사도 판단 및 문서의 분류체계는 상기 데이터베이스(110)에 새롭게 제공되는 문서에 대해서 수행되도록 함으로써, 상기 데이터베이스(110)에 저장되는 문서들이 자동적으로 분류될 수 있다.
그리고, 상기 분류 체계부(123)는 도 3에 도시된 바와 같은 분류코드(124)를 참조할 수 있으며, 사용자는 소정의 입력수단을 통해 상기 데이터베이스(110)에 저장된 문서를 상기 분류코드(124)에 따라 분류되도록 할 수 있다.
즉, 도 3에 도시된 분류코드(124)에는 각 기술분야별로 분류화된 코드들이 포함되며, 사용자가 상기 데이터베이스(110)로부터 OLED에 대한 문서를 검색한 경우에 해당 문서에 대해서 상기 분류코드(124)에 부여된 특정의 코드 예를 들면 DD중에서 OLED를 선택함으로써 상기 분류코드(124)에 따라 문서가 분류되도록 할 수 있다.
그리고, 상기 분류코드(124)에 구비되는 각각의 코드들(예를 들면, CRT,DTV,OLED,PDP,Projection, TV)에는 그들의 분류 기준이 되는 특성값들을 가지고 있으며, 이에 따라 상기 특성 추출부(121)에 의해 추출되는 문서의 특성들을 이용하여 문서를 상기 분류코드(124)에 맵핑시킬 수 있게 된다.
전술한 바와 같은 상기 특성 추출부(121), 유사도 판단부(122) 및 분류 체계부(123)는 상기 데이터베이스(110)로 새롭게 제공되는 문서에 대해서도 동일한 역할을 수행할 수 있으며, 이에 따라 사용자가 수작업으로 신규의 문서를 분류해야 하는 수고스러움을 덜 수 있다.
도 4는 본 발명의 실시예에 따른 문서 검색 방법을 설명하기 위한 흐름도이다.
먼저, 상기 특성 추출부(121)에 의해 데이터베이스(110)에 저장된 문서들 각각으로부터 특성 예컨대, 키워드 또는 색인어를 추출한다(S101). 이 경우, 상기 특 성 추출부(121)에 의해 추출된 특성에 대한 가중치 부여작업이 더 수행될 수 있으며, 추출된 특성에 기반을 둔 벡터화작업이 수행된다.
그리고, 상기 유사도 판단부(122)에 의해 문사들간의 유사도가 판단되고(S103), 문서간의 유사도는 상기 특성 추출부(121)에 의해 형성된 각각의 문서에 대한 벡터들을 이용하여 계산될 수 있다.
그 다음, 상기 분류 체계부(123)에 의해 유사한 문서들끼리 분류되거나 상기 분류코드(124)에 따라 문서들이 분류된다(S105).
앞서 설명한 바와 같이, 상기 데이터베이스(110)로 제공되는 신규의 문서에 대해서도 상기 유사도 판단부(122)에 의해 기저장된 문서와의 유사도가 판단될 수 있으며, 상기 분류코드(124)에 따라 분류될 수 있다.
제안되는 바와 같은 본 발명의 사상에 따라 문서 분류 시스템 및 그 방법에 의해서, 데이터베이스에 저장된 문서로부터 특성 및 문서간의 유사도를 독출함으로써 저장된 문서가 소정의 분류체계에 따라 자동적으로 분류될 수 있는 장점이 있다.
또한, 외부로부터 유입되는 신규의 문서들을 자동으로 분류하고, 그 계층 구조를 지능적으로 관리함으로써 문서의 관리가 효율적으로 수행되는 장점이 있다.

Claims (6)

  1. 문서가 저장된 데이터베이스; 및
    상기 데이터베이스에 저장된 문서들을 자동 분류하기 위한 문서 문류부;가 포함되고,
    상기 문서 분류부에는 상기 문서의 특성을 도출하여 이를 벡터화하는 특성 추출부와, 상기 특성 추출부에 의해 형성된 벡터들을 이용하여 문서간의 유사도를 판단하는 유사도 판단부와, 상기 데이터베이스에 저장된 문서들을 소정의 분류체계에 따라 분류시키는 분류 체계부가 구비되고,
    상기 문서 분류부는 상기 데이터베이스로 제공되는 신규의 문서를 상기 분류체계에 따른 문서분류를 수행하는 것을 특징으로 하는 문서 분류 시스템.
  2. 제 1 항에 있어서,
    상기 문서 분류부에 의한 문서의 분류는 사용자에 의해 설정된 주기마다 수행되는 것을 특징으로 하는 문서 분류 시스템.
  3. 제 1 항에 있어서,
    상기 분류체계는 기술분야별 특성이 분류형성된 분류코드에 의한 것임을 특징으로 하는 문서 분류 시스템.
  4. (a) 데이터베이스에 저장된 문서들로부터 특성을 추출하고, 추출된 특성을 이용하여 문서들간의 유사도가 판단되는 단계;
    (b) 상기 문서들간의 유사도를 기반으로 하여 상기 데이터베이스에 저장된 문서들이 소정의 분류체계에 따라 분류되는 단계; 및
    (c) 상기 데이터베이스로 신규의 문서가 제공되는지 여부를 감시하고, 신규의 문서가 제공되는 경우에 상기 신규의 문서에 대하여 상기의 (a) 및 (b)단계가 재수행되는 단계;가 포함되는 문서 분류 방법.
  5. 제 4 항에 있어서,
    상기의 (b) 단계에서의 분류체계는 기술분야별 특성이 분류형성된 분류코드에 의한 것임을 특징으로 하는 문서 분류 방법.
  6. 제 4 항에 있어서,
    상기 (c) 단계에서의 신규 문서가 제공되는 여부를 감시하는 단계는 사용자에 의해 설정된 주기마다 수행되는 것을 특징으로 하는 문서 분류 방법.
KR1020060033660A 2006-04-13 2006-04-13 문서 분류 시스템 및 그 방법 KR100816923B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020060033660A KR100816923B1 (ko) 2006-04-13 2006-04-13 문서 분류 시스템 및 그 방법
US11/621,870 US8090743B2 (en) 2006-04-13 2007-01-10 Document management system and method
CN2007100080684A CN101055581B (zh) 2006-04-13 2007-02-09 文档管理系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060033660A KR100816923B1 (ko) 2006-04-13 2006-04-13 문서 분류 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20070102035A true KR20070102035A (ko) 2007-10-18
KR100816923B1 KR100816923B1 (ko) 2008-03-26

Family

ID=38795418

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060033660A KR100816923B1 (ko) 2006-04-13 2006-04-13 문서 분류 시스템 및 그 방법

Country Status (2)

Country Link
KR (1) KR100816923B1 (ko)
CN (1) CN101055581B (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012165929A3 (ko) * 2011-06-02 2013-02-07 포항공과대학교 산학협력단 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
EP2101284A3 (de) * 2008-03-11 2013-09-25 Vodafone Holding GmbH Verfahren und Einrichtung zum Analysieren digitaler Bilder
KR101404644B1 (ko) * 2012-01-18 2014-07-01 고려대학교 산학협력단 지식 베이스 확장 장치 및 방법
KR101492016B1 (ko) * 2013-03-15 2015-02-23 한국과학기술원 문서 분석 방법
KR20160099127A (ko) * 2015-02-11 2016-08-22 중앙대학교 산학협력단 다중 레이블을 분류하기 위해 이용되는 특징 셋의 선택 방법 및 장치

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101136037B1 (ko) 2009-11-06 2012-04-18 동국대학교 산학협력단 문서의 색인화 및 검색을 위한 방법 및 장치
KR101064256B1 (ko) 2009-12-03 2011-09-14 한국과학기술정보연구원 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
KR101035038B1 (ko) 2010-10-12 2011-05-19 한국과학기술정보연구원 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법
JP5389130B2 (ja) * 2011-09-15 2014-01-15 株式会社東芝 文書分類装置、方法およびプログラム
KR101339103B1 (ko) * 2011-10-05 2013-12-09 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
KR101458588B1 (ko) * 2012-09-12 2014-11-21 (주)케이테크 분야별 전문가 큐레이션 추천 시스템 및 이를 이용한 분야별 전문가 추천 방법
CN104281603B (zh) * 2013-07-05 2018-01-19 北大方正集团有限公司 字频分级统计方法及系统
JP6623547B2 (ja) * 2015-05-12 2019-12-25 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN107480879A (zh) * 2017-08-09 2017-12-15 郑州星睿水利科技有限公司 水文职工业务知识考评方法及系统
CN107609169A (zh) * 2017-09-27 2018-01-19 合肥博力生产力促进中心有限公司 一种基于数据库的专利名称后台管理分析系统
CN109729126A (zh) * 2017-10-31 2019-05-07 北京国双科技有限公司 文本资源的推送方法、装置、存储介质及处理器
CN111460786A (zh) * 2020-04-09 2020-07-28 南京东大智能化系统有限公司 一种传统文档结构分析的技术方法
CN112507062B (zh) * 2020-12-15 2023-07-25 国能大渡河流域水电开发有限公司 一种文档分类保存管理方法、系统及存储设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09282331A (ja) * 1996-04-09 1997-10-31 Canon Inc 文書類似判定装置および文書類似判定方法
US6055540A (en) * 1997-06-13 2000-04-25 Sun Microsystems, Inc. Method and apparatus for creating a category hierarchy for classification of documents
JP3701197B2 (ja) * 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
KR20020089677A (ko) * 2001-05-24 2002-11-30 주식회사 네오프레스 문서 자동 분류 방법 및 이를 수행하기 위한 시스템
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
JP2004206468A (ja) 2002-12-25 2004-07-22 Ricoh Co Ltd 文書管理システム及び文書管理プログラム
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
KR20060016933A (ko) * 2004-08-19 2006-02-23 함정우 문서분류장치 및 문서분류방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2101284A3 (de) * 2008-03-11 2013-09-25 Vodafone Holding GmbH Verfahren und Einrichtung zum Analysieren digitaler Bilder
WO2012165929A3 (ko) * 2011-06-02 2013-02-07 포항공과대학교 산학협력단 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
US9213746B2 (en) 2011-06-02 2015-12-15 Postech Academy—Industry Foundation Method for searching for information using the web and method for voice conversation using same
KR101404644B1 (ko) * 2012-01-18 2014-07-01 고려대학교 산학협력단 지식 베이스 확장 장치 및 방법
KR101492016B1 (ko) * 2013-03-15 2015-02-23 한국과학기술원 문서 분석 방법
KR20160099127A (ko) * 2015-02-11 2016-08-22 중앙대학교 산학협력단 다중 레이블을 분류하기 위해 이용되는 특징 셋의 선택 방법 및 장치

Also Published As

Publication number Publication date
CN101055581A (zh) 2007-10-17
KR100816923B1 (ko) 2008-03-26
CN101055581B (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
KR100816923B1 (ko) 문서 분류 시스템 및 그 방법
US8090743B2 (en) Document management system and method
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
JP4233836B2 (ja) 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
EP1170674A2 (en) Method and apparatus for ordering electronic data
CN108090216B (zh) 一种标签预测方法、装置及存储介质
JPWO2009133856A1 (ja) 物体認識用画像データベースの作成方法、処理装置および処理用プログラム
CN107506472B (zh) 一种学生浏览网页分类方法
JP2005038386A (ja) 文章分類装置および方法
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
AU2013365452A1 (en) Document classification device and program
KR101976081B1 (ko) 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램
KR20220119745A (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
US20190362187A1 (en) Training data creation method and training data creation apparatus
KR101472451B1 (ko) 디지털 콘텐츠 관리 시스템 및 방법
JP4873739B2 (ja) テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
CN110956271A (zh) 一种海量数据的多级分类方法及装置
JP2006227823A (ja) 情報処理装置及びその制御方法
KR101035037B1 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
CN111475607A (zh) 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法
JP2013101679A (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2004287670A (ja) 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111221

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130226

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee