KR102052315B1 - 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템 - Google Patents

실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템 Download PDF

Info

Publication number
KR102052315B1
KR102052315B1 KR1020180060230A KR20180060230A KR102052315B1 KR 102052315 B1 KR102052315 B1 KR 102052315B1 KR 1020180060230 A KR1020180060230 A KR 1020180060230A KR 20180060230 A KR20180060230 A KR 20180060230A KR 102052315 B1 KR102052315 B1 KR 102052315B1
Authority
KR
South Korea
Prior art keywords
index
item
association
keywords
target
Prior art date
Application number
KR1020180060230A
Other languages
English (en)
Inventor
박기언
이용진
Original Assignee
주식회사 에이브레인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이브레인 filed Critical 주식회사 에이브레인
Priority to KR1020180060230A priority Critical patent/KR102052315B1/ko
Application granted granted Critical
Publication of KR102052315B1 publication Critical patent/KR102052315B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템가 게시된다. 본 발명의 자동 문서 분류 시스템은 다수개의 메인 아이템들 각각과 다수개의 색인어들 각각 사이의 색인어 연관도들을 저장하는 연관도 테이블을 포함하는 상기 연관도 데이터 베이스로서, 상기 다수개의 메인 아이템들 각각은 다수개의 서브 아이템들로 구성되며, 상기 다수개의 색인어들의 적어도 일부는 1차 색인 그룹으로 구분되는 상기 연관도 데이터 베이스; 문서 입력 장치로부터 제공되는 대상 문서의 이미지인 대상 이미지를 수신하는 데이터 수신부; 상기 데이터 수신부에 의하여 수신된 상기 대상 이미지로부터 상기 다수개의 색인어들에 상응하는 다수개의 키워드들을 추출하는 키워드 추출부; 및 추출된 상기 다수개의 키워드들에 해당하는 상기 1차 색인 그룹의 상기 색인어들과 상기 다수개의 메인 아이템들 사이의 상기 색인어 연관도에 기초하여, 상기 대상 이미지를 상기 메인 아이템들 중의 어느 하나인 상위 아이템으로 분류하는 대상 분류 결정부를 구비한다. 상기 대상 분류 결정부는 상기 상위 아이템을 반영하여 상기 연관도 테이블의 상기 색인어 연관도를 업데이트하도록 구동된다. 본 발명의 자동 문서 분류 시스템에 의하면, 분류의 정확도와 사용상의 편리함이 현저히 향상된다.

Description

실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템{ATOMATIC DOCUMENET CLASSIFYING SYSTEM WITH UPDATING INDEX CORRELATION DEGREE IN REAL-TIME}
본 발명은 자동 문서 분류 시스템에 관한 것으로, 특히, 문서 분류의 정확성을 향상시키는 자동 문서 분류 시스템에 관한 것이다.
최근, 전자 기술의 급속한 발달에 따라, 종이 형태의 서류가 전자 파일화되어 저장된다. 이때, 효율적인 저장 및 열람을 위하여, 각종 문서들을 체계적으로 분류하는 것이 필요하다. 현재, 효율적인 문서 분류를 위하여, 대상 문서를 사용자의 목적에 부합하는 적절한 아이템으로 분류하는 자동 문서 분류 장치가 널리 사용되고 있다.
한편, 자동 문서 분류 장치는 문서 수신 장치로부터 제공되는 전자 파일 형태의 대상 문서로부터 키워드를 추출한다. 그리고, 추출된 키워드와 색인어 연관도를 바탕으로, 상기 대상 문서가 적절한 아이템으로 분류된다.
그런데, 기존의 자동 문서 분류 장치에서는, 한번 저장된 색인어 연관도는 외부에서 사용자가 업데이트하지 않는 한 고정된다. 그러므로, 사용자가 이용하는 대상 문서들에서, 색인어 연관도가 변할 수 있음에도 불구하고, 이를 신속히 반영하지 못하게 된다.
그 결과, 기존의 자동 문서 분류 장치는 분류의 정확도의 한계를 가진다.
등록특허번호 제10-0835290호, 공고일 2008년 06월 05일
본 발명의 목적은 상기 기존기술의 문제점을 해결하기 위한 것으로서, 사용자의 실제 사용 형태에 따른 색인어 연관도를 실시간으로 업데이트하여 분류의 정확도를 향상시키는 자동 문서 분류 시스템을 제공하는 데 있다.
상기의 목적을 달성하기 위한 본 발명의 일면은 자동 문서 분류 시스템에 관한 것이다. 본 발명의 자동 문서 분류 시스템은 다수개의 메인 아이템들 각각과 다수개의 색인어들 각각 사이의 색인어 연관도들을 저장하는 연관도 테이블을 포함하는 상기 연관도 데이터 베이스로서, 상기 다수개의 메인 아이템들 각각은 다수개의 서브 아이템들로 구성되며, 상기 다수개의 색인어들의 적어도 일부는 1차 색인 그룹으로 구분되는 상기 연관도 데이터 베이스; 문서 입력 장치로부터 제공되는 대상 문서의 이미지인 대상 이미지를 수신하는 데이터 수신부; 상기 데이터 수신부에 의하여 수신된 상기 대상 이미지로부터 상기 다수개의 색인어들에 상응하는 다수개의 키워드들을 추출하는 키워드 추출부; 및 추출된 상기 다수개의 키워드들에 해당하는 상기 1차 색인 그룹의 상기 색인어들과 상기 다수개의 메인 아이템들 사이의 상기 색인어 연관도에 기초하여, 상기 대상 이미지를 상기 메인 아이템들 중의 어느 하나인 상위 아이템으로 분류하는 대상 분류 결정부를 구비한다. 상기 대상 분류 결정부는 상기 상위 아이템을 반영하여 상기 연관도 테이블의 상기 색인어 연관도를 업데이트하도록 구동된다.
상기와 같은 본 발명의 자동 문서 분류 시스템에서는, 사용자의 실제 사용 형태에 따라 색인어와 분류 대상이 되는 아이템들 사이의 연관도가 실시간으로 업데이트된다. 그 결과, 본 발명의 자동 문서 분류 시스템에 의하면, 분류의 정확도와 사용상의 편리함이 현저히 향상된다.
본 발명에서 사용되는 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일실시예에 따른 자동 문서 분류 시스템의 구성을 설명하기 위한 도면이다.
도 2는 도 1의 연관 데이터 베이스의 연관도 테이블의 예를 나타내는 도면이다.
도 3은 본 발명의 자동 문서 분류 장치를 이용한 자동 문서 분류 방법을 나타내는 순서도이다.
도 4는 본 발명의 자동 문서 분류 장치를 이용한 자동 문서 분류 방법에 따른 상위 아이템 및 확정 아이템의 선정과, 이와 관련된 색인어 연관도의 업데이트를 설명하기 위한 도면이다.
본 발명과 본 발명의 동작상의 잇점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다. 그러나 본 발명은 여기서 설명되어지는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되어지는 것이다.
그리고, 각 도면을 이해함에 있어서, 동일한 부재는 가능한 한 동일한 참조부호로 도시하고자 함에 유의해야 한다. 또한, 하기의 설명에서, 구체적인 처리흐름과 같은 많은 특정 상세들은 본 발명의 보다 전반적인 이해를 제공하기 위해 기술된다. 그러나, 이들 특정 상세들 없이도, 본 발명의 실시될 수 있다는 것은 당해 기술분야에서 통상의 지식을 가진 자에게는 자명한 사실이다. 그리고, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 공지 기능 및 구성에 대한 상세한 기술은 생략된다.
한편, 본 명세서에서는 동일한 구성 및 작용을 수행하는 구성요소들에 대해서는 동일한 참조부호와 함께 < >속에 참조부호가 추가된다. 이때, 이들 구성요소들은 참조부호로 통칭한다. 그리고, 이들을 개별적인 구별이 필요한 경우에는, 참조부호 뒤에 '< >'가 추가된다.
본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 예시적인 실시예를 설명하는 아래의 내용 및 첨부 도면에 기재된 내용을 함께 참조하여야만 한다.
이하, 첨부한 도면들을 참조하여, 본 발명의 실시예를 보다 상세하게 설명하고자 한다.
도 1은 본 발명의 일실시예에 따른 자동 문서 분류 시스템(100)의 구성을 설명하기 위한 도면이다. 이때, 본 발명의 자동 문서 분류 시스템(100)은 문서 입력 장치(200)로부터 제공되는 전자 파일 형태의 대상 이미지(SIMG)를 자동적으로 분류하고, 이에 따른 확정 아이템(FITM)의 정보와 함께 상기 대상 이미지(SIMG)를 문서 저장 장치(300)에 제공한다.
여기서, 상기 문서 입력 장치(200)는 대상 문서(SDOC)의 이미지인 대상 이미지(SIMG)를 수신 또는 획득하여 본 발명의 자동 문서 분류 시스템(100)에 제공한다. 상기 대상 문서(SDOC)는, 예컨대 주민등록증, 운전면허증, 여권, 주민등록등초본 등과 같은 각종 증명서와, 신청서, 청구서, 송장, 신고서, 견적서, 발주서 등이 포함된 업무 협업을 위한 각종 수발신 서식문서를 비롯하여, 문자인식을 통한 문서전자화 및 분류를 요구하는 각종 대상물이 포함될 수 있다.
또한, 상기 문서 입력 장치(200)는, 예컨대 대상 문서(SDOC)로부터 상기 대상 이미지(SIMG)를 획득하는 스캐너(210), 대상 문서(SDOC)의 이미지를 수신 및 송신하는 팩스(220) 등의 다양한 형태의 전자기기들을 포함할 수 있다.
그리고, 상기 문서 입력 장치(200)는 상기 스캐너(210), 상기 팩스(220) 등의 전자기기들로부터 획득되는 대상 이미지(SIMG)를 저장하는 기능을 수행할 수도 있다.
상기 문서 저장 장치(300)는 본 발명의 자동 문서 분류 장치(100)로부터 제공되는 상기 확정 아이템(FITM)의 정보와 상기 대상 이미지(SIMG)를 수신하며, 상기 확정 아이템(FITM)의 정보에 따른 적절한 형태로 상기 대상 이미지(SIMG)를 저장한다.
그리고, 상기 문서 저장 장치(300)는 저장 서버 등의 다양한 형태로 구현될 수 있다.
계속 도 1을 참조하면, 본 발명의 자동 문서 분류 시스템(100)은 연관도 데이터 베이스(110), 데이터 수신부(120), 키워드 추출부(140) 및 대상 분류 결정부(150)를 구비한다.
상기 연관 데이터 베이스(110)는 데이터의 특성에 따른 하나 또는 2 이상의 연관도 테이블(TAB)를 포함한다. 이때, 상기 연관도 테이블(TAB)은, 도 2에 도시되는 바와 같이, 다수개의 메인 아이템(MITM)들 각각과 다수개의 색인어(IDX) 각각 사이의 색인어 연관도(RCID1, RCID2)들을 저장한다.
상기 다수개의 메인 아이템(MITM)들 각각은 다수개의 서브 아이템(SITM)들로 구성된다. 그리고, 상기 다수개의 색인어(IDX)들의 적어도 일부는 1차 색인 그룹(GIDX-1)으로 구분되며, 다른 적어도 일부는 2차 색인 그룹(GIDX-2)으로 구분된다.
예컨데, 상기 메인 아이템(MITM)들은 '삼성', '현대', '엘지'와 같은 회사명이 될 수 있으며, 상기 1차 색인 그룹(GIDX-1)의 상기 색인어(IDX)들은 회사를 식별하는 문자 또는 로고 등의 이미지가 될 수 있다.
그리고, 상기 서브 아이템(SITM)들은 '신청서', '견적서', '발주서'와 같은 문서의 종류가 될 수 있으며, 상기 2차 색인 그룹(GIDX-2)의 상기 색인어(IDX)들은 문서의 종류를 식별하는 문자 또는 로고 등의 이미지가 될 수 있다.
참고로, 도 2에서는, 3개의 메인 아이템들(MITM<1> 내지 MITM<3>)이 도시되어 있으며, 또한, 각 메인 아이템(MITM)에는 3개의 서브 아이템들(SITM)이 포함되는 것으로 도시되었다. 그러나, 상기 메인 아이템의 수와 각 메인 아이템(MITM)에 포함되는 서브 아이템(SITM)의 수는 2 또는 4 이상으로 다양하게 변경될 수 있다.
또한, 본 명세서에서는, 상기 다수개의 색인어(IDX)들은 1차 색인 그룹(GIDX-1) 및 2차 색인 그룹(GIDX-2)으로 구분되는 것으로 가정하고 기술된다.
그러나, 상기 다수개의 색인어(IDX)들은 3개 이상의 색인 그룹으로 구분될 수 있음은 당업자에게는 자명하다.
상기 데이터 수신부(120)는 상기 문서 입력 장치(200)로부터 제공되는 대상 문서(SDOC)의 이미지인 상기 대상 이미지(SIMG)를 수신한다. 바람직하기로는, 상기 데이터 수신부(120)는 구체적으로 데이터 수신 모듈(121) 및 이미지 전처리 모듈(123)를 포함한다.
상기 데이터 수신 모듈(121)은 상기 문서 입력 장치(200)로부터 상기 대상 이미지(SIMG)를 수신 처리한다.
그리고, 이미지 전처리 모듈(123)은 상기 데이터 수신 모듈(121)에 의하여 수신된 상기 대상 이미지(SIMG)에 대하여, 이미지 기울기 조정, 노이즈 제거, 배경 문양 제거, 개별 기울기 보정, 이미지 방향 식별(예를 들면, 90도, 180도 또는 270도), 컬러 문자 영상, 배경 이미지 처리, 컬러 필터링, 테두리 제거 등을 통해서 전처리할 수 있다.
상기 키워드 추출부(140)는 상기 데이터 수신부(120)에 의하여 수신된 상기 대상 이미지(SIMG)로부터 상기 다수개의 색인어(IDX)들에 상응하는 다수개의 키워드(WKY, 본 명세서에서는, '키 이미지(key image)'를 포함함)들을 추출한다.
상기 대상 분류 결정부(150)는 추출된 상기 다수개의 키워드(WKY)들에 해당하는 상기 1차 색인 그룹(GIDX-1)의 상기 색인어(IDX)들과 상기 다수개의 메인 아이템(MITM)들 사이의 상기 색인어 연관도(RCID1)에 기초하여, 상기 대상 이미지(SIMG)를 상기 메인 아이템(MITM)들 중의 어느 하나인 상위 아이템(TITM, 도 4 참조)으로 분류한다.
그리고, 상기 대상 분류 결정부(150)는 상기 상위 아이템(TITM)을 반영하여 상기 연관도 테이블(TAB)의 상기 색인어 연관도(RCID1)를 업데이트하도록 구동된다.
또한, 상기 대상 분류 결정부(150)는 상기 다수개의 키워드(WKY)들에 해당하는 상기 2차 색인 그룹(GIDX-1)의 상기 색인어(IDX)들과 상기 상위 아이템(TITM)의 상기 다수개의 서브 아이템(SITM)들 사이의 상기 색인어 연관도(RCID2)들에 기초하여, 상기 상위 아이템(TITM)의 상기 서브 아이템(SITM)들 중의 어느 하나를 상기 확정 아이템(FITM, 도 4 참조)으로 분류하도록 구동된다.
그리고, 상기 대상 분류 결정부(150)는 상기 확정 아이템(FITM)을 반영하여 상기 연관도 테이블(TAB)의 상기 색인어 연관도(RCID2)를 업데이트하도록 구동된다.
상기 대상 분류 결정부(150)는 구체적으로 연관도 연산 모듈(151), 분류 결정 모듈(153) 및 연관도 업데이트 모듈(155)을 구비한다.
상기 연관도 연산 모듈(151)은 추출된 상기 다수개의 키워드(WKY)들에 해당하는 상기 1차 색인 그룹(GIDX-1)의 상기 색인어(IDX)들과 상기 다수개의 메인 아이템(MITM)들 사이의 상기 색인어 연관도(RCID1)에 기초하여, 상기 다수개의 키워드(WKY)들에 대한 상기 다수개의 메인 아이템(MITM)들 각각의 1차 통합 연관도(TVRC1, 도 4 참조)들을 연산한다.
본 실시예에서, 상기 1차 통합 연관도(TVRC1)들 각각은 상기 1차 색인 그룹(GIDX-1)의 상기 색인어(IDX)들과 해당하는 상기 메인 아이템(MITM) 사이의 상기 색인어 연관도(RCID1)의 합이다.
또한, 상기 연관도 연산 모듈(151)은 추출된 상기 다수개의 키워드(WKY)들에 해당하는 상기 2차 색인 그룹(GIDX-2)의 상기 색인어(IDX)들과 상기 상위 아이템(TITM)의 상기 다수개의 서브 아이템(SITM)들 사이의 상기 색인어 연관도(RCID2)에 기초하여, 상기 다수개의 키워드(WKY)들에 대한 상기 상위 아이템(TITM)의 상기 다수개의 서브 아이템(SITM)들 각각의 2차 통합 연관도(TVRC2, 도 4 참조)들을 연산한다.
본 실시예에서, 상기 2차 통합 연관도(TVRC2)들 각각은 상기 2차 색인 그룹(GIDX-2)의 상기 색인어(IDX)들과 상기 상위 아이템(TITM)의 해당하는 상기 서브 아이템(SITM) 사이의 상기 색인어 연관도(RCID2)의 합이다.
상기 분류 결정 모듈(153)은 상기 1차 통합 연관도(TVRC1)가 가장 높은 상기 메인 아이템(MITM)을 상기 상위 아이템(TITM)으로 결정하도록 구동된다. 또한, 상기 분류 결정 모듈(153)은 상기 2차 통합 연관도(TVRC2)가 가장 높은 상기 상위 아이템(TITM)의 상기 서브 아이템(SITM)을 상기 확정 아이템(FITM)으로 결정하도록 구동된다.
상기 연관도 업데이트 모듈(155)은 상기 상위 아이템(TITM) 및 상기 확정 아이템(FITM)을 반영하여 상기 연관도 테이블(TAB)의 상기 색인어 연관도(RCID1, RCID2)들을 업데이트하도록 구동된다.
그리고, 도 1의 데이터 송신부(160)는 상기 대상 분류 결정부(150)에 의하여 결정된 상기 확정 아이템(FITM)의 정보와 함께 상기 대상 이미지(SIMG)를 상기 문서 저장 장치(300)에 제공한다.
계속하여, 본 발명의 자동 문서 분류 장치(100)를 이용한 자동 문서 분류 방법의 예가 기술된다.
도 3은 본 발명의 자동 문서 분류 장치(100)를 이용한 자동 문서 분류 방법을 나타내는 순서도이다. 그리고, 도 4는 본 발명의 자동 문서 분류 장치(100)를 이용한 자동 문서 분류 방법에 따른 상위 아이템(TITM) 및 확정 아이템(FITM)의 선정과, 이와 관련된 색인어 연관도의 업데이트를 설명하기 위한 도면이다.
먼저, S100 단계에서는, 상기 데이터 수신부(120)에 의하여 상기 대상 이미지(SIMG)가 수신되며, 상기 대상 이미지(SIMG)에 대한 전처리가 수행된다.
S200 단계에서는, 상기 키워드 추출부(140)에 의하여 상기 대상 이미지(SIMG)로부터 상기 다수개의 색인어(IDX)들에 상응하는 다수개의 키워드(WKY)들이 추출된다.
본 실시예에서는, 도 4에 점선으로 표시된 색인어들(IDX<1,1>, IDX<1,3>, IDX<2,1>, IDX<2,3>)에 상응하는 키워드(WKY)들이 추출되는 것으로 한다.
S300 단계에서는, 상기 대상 분류 결정부(150)의 상기 연관도 연산 모듈(151)에 의하여, 상기 다수개의 키워드(WKY)들에 대한 상기 다수개의 메인 아이템(MITM)들 각각의 1차 통합 연관도(TVRC1)들이 연산된다.
본 실시예에서, 메인 아이템(MITM<1>)의 1차 통합 연관도(TVRC1<1>)는 72(=37+35)이고, 메인 아이템(MITM<2>)의 1차 통합 연관도(TVRC1<2>)는 60(=60+0)이며, 상기 메인 아이템(MITM<3>)의 상기 1차 통합 연관도(TVRC1<3>)는 50(=40+10)이다.
S400 단계에서는, 상기 대상 분류 결정부(150)의 상기 분류 결정 모듈(153)에 의하여, 상기 1차 통합 연관도(TVRC1)가 가장 높은 상기 메인 아이템(MITM)이 상기 상위 아이템(TITM)으로 결정된다.
본 실시예에서, 메인 아이템(MITM<1>)이 상기 상위 아이템(TITM)으로 결정된다.
또한, S400 단계에서는, 상기 대상 분류 결정부(150)의 상기 연관도 업데이트 모듈(155)에 의하여, 상기 연관도 테이블(TAB)의 상기 색인어 연관도(RCID1)들이 상기 상위 아이템(TITM)을 반영하여 업데이트된다.
구체적으로 기술하면, 상기 상위 아이템(TITM)에 해당되는 상기 메인 아이템(MITM)과 상기 다수개의 키워드(WKY)들에 상응하는 상기 1차 색인 그룹(GIDX-1)의 상기 색인어(IDX)들 사이의 상기 색인어 연관도(RCID1)들이, 바람직하게는, α의 폭으로 증가된다.
또한, 상기 상위 아이템(TITM)에 해당되는 않는 상기 메인 아이템(MITM)과 상기 다수개의 키워드(WKY)들에 상응하는 상기 1차 색인 그룹(GIDX-1)의 상기 색인어(IDX)들 사이의 상기 색인어 연관도(RCID1)들이, 바람직하게는, β의 폭으로 감소된다.
이때, 상기 α는 상기 β 보다 큰 값인 것이 바람직하다. 이 경우, 색인어(IDX)에 상응하는 키워드(WKY)가 많이 포함될수록, 해당 상기 메인 아이템(MITM)이 상기 상위 아이템(TITM)으로 선정되는데 유리하게 된다.
본 실시예에서는, 상기 상위 아이템(TITM)에 해당되는 상기 메인 아이템(MITM<1>)과 상기 1차 색인 그룹(GIDX-1)의 상기 색인어(IDX<1,1>, IDX<1,3>)들 사이의 상기 색인어 연관도(RCID1)가 2씩 증가된다.(도 4의 t11, t12 참조)
그리고, 상기 상위 아이템(TITM)에 비해당되는 상기 메인 아이템(MITM<2>, MITM<3>)과 상기 1차 색인 그룹(GIDX-1)의 상기 색인어(IDX<1,1>, IDX<1,3>)들 사이의 상기 색인어 연관도(RCID1)는 1씩 감소된다.(도 4의 t13 내지 t15 참조)
다만, 현재 상태의 상기 색인어 연관도(RCID1)가 '0'인 경우에는 감소되는 것이 차단된다(도 4의 t16 참조). 이 경우, 해당 상기 메인 아이템(MITM)이 상기 상위 아이템(TITM)으로 선정됨에 있어서, 색인어(IDX)에 상응하는 키워드(WKY)가 포함됨에 의하여 불리하게 되는 현상이 방지된다.
S600 단계에서는, 상기 대상 분류 결정부(150)의 상기 연관도 연산 모듈(151)에 의하여, 상기 다수개의 키워드(WKY)들에 대한 상기 상위 아이템(TITM)의 상기 다수개의 서브 아이템(SITM)들 각각의 2차 통합 연관도(TVRC2)들이 연산된다.
본 실시예에서, 서브 아이템(SITM<1,1>)의 2차 통합 연관도(TVRC2<1,1>)는 70(=40+30)이고, 서브 아이템(SITM<1,2>)의 2차 통합 연관도(TVRC2<1,2>)는 69(=27+42)이며, 서브 아이템(SITM<1,3>)의 2차 통합 연관도(TVRC2<1,3>)는 90(=70+20)이다.
S700 단계에서는, 상기 대상 분류 결정부(150)의 상기 분류 결정 모듈(153)에 의하여, 상기 2차 통합 연관도(TVRC2)가 가장 높은 상기 서브 아이템(SITM)이 상기 확정 아이템(FITM)으로 결정된다.
본 실시예에서, 상기 상위 아이템(TITM)의 상기 서브 아이템(SITM<1,3>)이 상기 확정 아이템(FITM)으로 결정된다.
또한, S700 단계에서는, 상기 대상 분류 결정부(150)의 상기 연관도 업데이트 모듈(155)에 의하여, 상기 연관도 테이블(TAB)의 상기 색인어 연관도(RCID2)들이 상기 확정 아이템(FITM)을 반영하여 업데이트된다.
본 실시예에서는, 상기 확정 아이템(FITM)에 해당되는 상기 상위 아이템(TITM)의 상기 서브 아이템(SITM<1,3>)과 상기 다수개의 키워드(WKY)들에 상응하는 상기 2차 색인 그룹(GIDX-2)의 상기 색인어(IDX)들 사이의 상기 색인어 연관도(RCID2)들이 2씩 증가된다.(도 4의 t21, t22 참조)
또한, 상기 확정 아이템(FITM)에 해당되는 않는 상기 상위 아이템(TITM)의 상기 서브 아이템(SITM<1,1>, SITM<1,2>)과 상기 다수개의 키워드(WKY)들에 상응하는 상기 2차 색인 그룹(GIDX-2)의 상기 색인어(IDX)들 사이의 상기 색인어 연관도(RCID2)들은 1씩 감소된다.(도 4의 t23 내지 t26 참조)
상기와 같은 본 발명의 자동 문서 분류 시스템에서는, 사용자의 실제 사용 형태에 따라 색인어와 분류 대상이 되는 아이템들 사이의 연관도가 실시간으로 업데이트된다. 그 결과, 본 발명의 자동 문서 분류 시스템에 의하면, 분류의 정확도와 사용상의 편리함이 현저히 향상된다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
그리고, 본 발명의 장치를 구동할 수 있는 소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 모듈을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (9)

  1. 삭제
  2. 삭제
  3. 자동 문서 분류 시스템에 있어서,
    다수개의 메인 아이템들 각각과 다수개의 색인어들 각각 사이의 색인어 연관도들을 저장하는 연관도 테이블을 포함하는 연관도 데이터 베이스로서, 상기 다수개의 메인 아이템들 각각은 다수개의 서브 아이템들로 구성되며, 상기 다수개의 색인어들의 적어도 일부는 1차 색인 그룹으로 구분되는 상기 연관도 데이터 베이스;
    문서 입력 장치로부터 제공되는 대상 문서의 이미지인 대상 이미지를 수신하는 데이터 수신부;
    상기 데이터 수신부에 의하여 수신된 상기 대상 이미지로부터 상기 다수개의 색인어들에 상응하는 다수개의 키워드들을 추출하는 키워드 추출부; 및
    추출된 상기 다수개의 키워드들에 해당하는 상기 1차 색인 그룹의 상기 색인어들과 상기 다수개의 메인 아이템들 사이의 상기 색인어 연관도에 기초하여, 상기 대상 이미지를 상기 메인 아이템들 중의 어느 하나인 상위 아이템으로 분류하는 대상 분류 결정부를 구비하며,
    상기 대상 분류 결정부는
    상기 상위 아이템을 반영하여 상기 연관도 테이블의 상기 색인어 연관도를 업데이트하도록 구동되며,
    상기 대상 분류 결정부는
    추출된 상기 다수개의 키워드들에 해당하는 상기 1차 색인 그룹의 상기 색인어들과 상기 다수개의 메인 아이템들 사이의 상기 색인어 연관도에 기초하여, 상기 다수개의 키워드들에 대한 상기 다수개의 메인 아이템들 각각의 1차 통합 연관도들을 연산하는 연관도 연산 모듈;
    상기 1차 통합 연관도가 가장 높은 상기 메인 아이템을 상기 상위 아이템으로 결정하는 분류 결정 모듈; 및
    상기 상위 아이템을 반영하여 상기 연관도 테이블의 상기 색인어 연관도들을 업데이트하도록 구동되는 연관도 업데이트 모듈을 구비하며,
    상기 연관도 업데이트 모듈은
    상기 상위 아이템에 해당되는 상기 메인 아이템과 상기 다수개의 키워드들에 상응하는 상기 1차 색인 그룹의 상기 색인어들 사이의 상기 색인어 연관도들을 증가시키도록 구동되는 것을 특징으로 하는 자동 문서 분류 시스템.
  4. 제3항에 있어서, 상기 연관도 업데이트 모듈은
    상기 상위 아이템에 비해당되는 상기 메인 아이템과 상기 다수개의 키워드들에 상응하는 상기 1차 색인 그룹의 상기 색인어들 사이의 상기 색인어 연관도들을 감소시키도록 구동되는 것을 특징으로 하는 자동 문서 분류 시스템.
  5. 제4항에 있어서, 상기 연관도 업데이트 모듈은
    상기 상위 아이템에 해당되는 상기 메인 아이템과 상기 다수개의 키워드들에 상응하는 상기 1차 색인 그룹의 상기 색인어들 사이의 상기 색인어 연관도들을 α의 폭으로 증가시키도록 구동되며,
    상기 상위 아이템에 비해당되는 상기 메인 아이템과 상기 다수개의 키워드들에 상응하는 상기 1차 색인 그룹의 상기 색인어들 사이의 상기 색인어 연관도들을 β의 폭으로 감소시키도록 구동되는 것을 특징으로 하는 자동 문서 분류 시스템.
  6. 제5항에 있어서, 상기 α는
    상기 β 보다 큰 값인 것을 특징으로 하는 자동 문서 분류 시스템.
  7. 제6항에 있어서, 상기 색인어 연관도 각각은
    0 보다 작아짐이 차단되는 것을 특징으로 하는 자동 문서 분류 시스템.
  8. 삭제
  9. 자동 문서 분류 시스템에 있어서,
    다수개의 메인 아이템들 각각과 다수개의 색인어들 각각 사이의 색인어 연관도들을 저장하는 연관도 테이블을 포함하는 연관도 데이터 베이스로서, 상기 다수개의 메인 아이템들 각각은 다수개의 서브 아이템들로 구성되며, 상기 다수개의 색인어들의 적어도 일부는 1차 색인 그룹으로 구분되는 상기 연관도 데이터 베이스;
    문서 입력 장치로부터 제공되는 대상 문서의 이미지인 대상 이미지를 수신하는 데이터 수신부;
    상기 데이터 수신부에 의하여 수신된 상기 대상 이미지로부터 상기 다수개의 색인어들에 상응하는 다수개의 키워드들을 추출하는 키워드 추출부; 및
    추출된 상기 다수개의 키워드들에 해당하는 상기 1차 색인 그룹의 상기 색인어들과 상기 다수개의 메인 아이템들 사이의 상기 색인어 연관도에 기초하여, 상기 대상 이미지를 상기 메인 아이템들 중의 어느 하나인 상위 아이템으로 분류하는 대상 분류 결정부를 구비하며,
    상기 다수개의 색인어들 중의 다른 적어도 일부는 2차 색인 그룹으로 구분되며,
    상기 대상 분류 결정부는
    상기 다수개의 키워드들에 해당하는 상기 2차 색인 그룹의 상기 색인어들과 상기 상위 아이템의 상기 다수개의 서브 아이템들 사이의 상기 색인어 연관도들에 기초하여, 상기 상위 아이템의 상기 서브 아이템들 중의 어느 하나를 확정 아이템으로 분류하도록 구동되며,
    상기 확정 아이템을 반영하여 상기 연관도 테이블의 상기 색인어 연관도를 업데이트하도록 구동되며,
    상기 대상 분류 결정부는
    상기 상위 아이템을 반영하여 상기 연관도 테이블의 상기 색인어 연관도를 업데이트하도록 구동되며,
    상기 대상 분류 결정부는
    상기 확정 아이템에 해당되는 상기 상위 아이템의 상기 서브 아이템과 상기 다수개의 키워드들에 상응하는 상기 2차 색인 그룹의 상기 색인어들 사이의 상기 색인어 연관도들을 증가시키도록 구동되는 것을 특징으로 하는 자동 문서 분류 시스템.
KR1020180060230A 2018-05-28 2018-05-28 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템 KR102052315B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180060230A KR102052315B1 (ko) 2018-05-28 2018-05-28 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180060230A KR102052315B1 (ko) 2018-05-28 2018-05-28 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템

Publications (1)

Publication Number Publication Date
KR102052315B1 true KR102052315B1 (ko) 2019-12-04

Family

ID=69004292

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180060230A KR102052315B1 (ko) 2018-05-28 2018-05-28 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템

Country Status (1)

Country Link
KR (1) KR102052315B1 (ko)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231560A (ja) * 1999-02-10 2000-08-22 Ricoh Co Ltd 文書自動分類方式
KR20020067161A (ko) * 2001-02-15 2002-08-22 전석진 문서 색인 시스템 및 그 방법
KR100813170B1 (ko) * 2006-09-27 2008-03-17 삼성전자주식회사 사진 의미 인덱싱 방법 및 그 시스템
KR20080041388A (ko) * 2006-11-07 2008-05-13 엔에이치엔(주) 문서 분류 시스템 및 문서 분류 방법
KR100842080B1 (ko) * 2006-05-03 2008-06-30 중앙대학교 산학협력단 문서의 그룹별 분류방법
KR20100056763A (ko) * 2008-11-20 2010-05-28 서울대학교산학협력단 전자 카탈로그 관리 장치 및 방법
KR20100068532A (ko) * 2008-12-15 2010-06-24 한국전자통신연구원 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
KR20130036863A (ko) * 2011-10-05 2013-04-15 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231560A (ja) * 1999-02-10 2000-08-22 Ricoh Co Ltd 文書自動分類方式
KR20020067161A (ko) * 2001-02-15 2002-08-22 전석진 문서 색인 시스템 및 그 방법
KR100842080B1 (ko) * 2006-05-03 2008-06-30 중앙대학교 산학협력단 문서의 그룹별 분류방법
KR100813170B1 (ko) * 2006-09-27 2008-03-17 삼성전자주식회사 사진 의미 인덱싱 방법 및 그 시스템
KR20080041388A (ko) * 2006-11-07 2008-05-13 엔에이치엔(주) 문서 분류 시스템 및 문서 분류 방법
KR100835290B1 (ko) 2006-11-07 2008-06-05 엔에이치엔(주) 문서 분류 시스템 및 문서 분류 방법
KR20100056763A (ko) * 2008-11-20 2010-05-28 서울대학교산학협력단 전자 카탈로그 관리 장치 및 방법
KR20100068532A (ko) * 2008-12-15 2010-06-24 한국전자통신연구원 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
KR20130036863A (ko) * 2011-10-05 2013-04-15 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법

Similar Documents

Publication Publication Date Title
US10963691B2 (en) Platform for document classification
AU2019216644B2 (en) Automation and digitizalization of document processing systems
Schönberger et al. A vote-and-verify strategy for fast spatial verification in image retrieval
Chamoso et al. A hash based image matching algorithm for social networks
US20210192202A1 (en) Recognizing text in image data
WO2017045443A1 (zh) 一种图像检索方法及系统
US20180018564A1 (en) Artificial intelligence-based prior art document identification system
US20180341866A1 (en) Method of building a sorting model, and application method and apparatus based on the model
US9330329B2 (en) Systems, methods, and devices for image matching and object recognition in images using minimal feature points
US8838657B1 (en) Document fingerprints using block encoding of text
EP2693356B1 (en) Detecting pirated applications
CN111209827B (zh) 一种基于特征检测的ocr识别票据问题的方法及系统
US9760797B2 (en) Protecting specific information
US20170270142A1 (en) Modification of images and associated text
CA3004599A1 (en) System and method for automated address verification
WO2017056312A1 (ja) 画像処理プログラムおよび画像処理装置
CN105637509A (zh) 在图像内搜索和注释
GB2496942A (en) Identifying time context within electronic documents or media objects
US9773047B2 (en) Foreign organization name matching
US20160292502A1 (en) Identifying updated content in images
US20110013806A1 (en) Methods of object search and recognition
CN107918936B (zh) 使用标签跟踪用于分块匹配算法的高频偏移
US20210390126A1 (en) Section-linked document classifiers
KR102052315B1 (ko) 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템
US8903754B2 (en) Programmatically identifying branding within assets

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant