KR102363769B1

KR102363769B1 - 전자화 문서를 단계별로 분류하여 제공하기 위한 시스템 및 방법, 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체

Info

Publication number: KR102363769B1
Application number: KR1020200118918A
Authority: KR
Inventors: 조동희; 신승수; 김용혁
Original assignee: 광운대학교 산학협력단
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-02-16

Abstract

본 발명은 전자화 문서를 단계별로 분류하여 제공하기 위한 시스템 및 방법, 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체가 개시된다.
본 발명에 일 실시예에 따르면, 전자화 문서를 단계별로 분류하여 제공하기 위한 시스템으로서, 오프라인 문서들을 디지털화하여 생성한, 다수의 페이지 묶음으로 구성되는 전자화 문서를 수집하는 전자화 문서부; 수집된 상기 전자화 문서를 단일 페이지의 이미지 문서로 변환하여 순차적으로 배열하고, 변환된 상기 이미지 문서의 왜곡을 보정하는 전처리부; 보정된 상기 이미지 문서 중에서, 표지 정보를 기준으로, 상기 표지 정보를 포함하는 정상 이미지 문서와, 상기 표지 정보를 포함하지 않는 비정상 이미지 문서로 구분하여, 페이지별로 분류하는 페이지별 분류부; 상기 페이지별로 분류된 정상 이미지 문서를, 광학식 문자 판독을 통한 키워드 검색으로, 유형에 따라 분류하는 유형별 분류부; 및 상기 유형별 분류에 따라, 유사한 카테고리로 분류된 정상 이미지 문서와 상기 정상 이미지 문서와 연관된 비정상 이미지 문서를 그룹화하는 파일 정리부를 포함하는 것을 특징으로 한다.

Description

전자화 문서를 단계별로 분류하여 제공하기 위한 시스템 및 방법, 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체{SYSTEM AND METHOD FOR CLASSIFYING AND PROVIDING DIGITALIZED DOCUMENTS IN STAGES AND COMPUTER-READABLE RECORDING MEDIUM THEREOF}

본 발명은 전자화 문서를 단계별로 분류하여 제공하기 위한 시스템 및 방법과, 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 보다 상세하게는, 전자화 문서를 페이지와 유형을 기준으로 단계별로 분류하고, 이를 기반으로 사용자에게 효율적으로 제공할 수 있는 시스템 및 방법과, 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체에 관한 것이다.

오늘날 정보화 사회가 급속하게 발전함에 따라, 온라인상에서는 수많은 문서들(전자 문서)이 문서 작성기에 의해 전자적인 형태로 작성되어 저장되며, 송수신되고 있다. 이와 동시에, 온라인상에서 수신한 일정한 양식의 문서를 출력한 후, 작성한 오프라인 문서(예를 들면, 페이퍼 문서)의 수량과 종류도 증가하고 있는데, 특히 작성자의 서명이나 도장 등 자필이 포함되며, 양식이 정해져 있는 업무관련 문서(예를 들면, 관공서, 공공기관, 기업 등)에서는, 그 수요와 형식이 다양해지고 있다.

이에 따라, 다양한 종류와 많은 수량의 오프라인 문서들을 효율적으로 분류할 수 있는 기술에 대한 필요성이 요구되고 있지만, 종래의 오프라인 문서들은 대부분 담당자가 육안으로 확인한 후, 수작업으로 분류하는 방식이므로, 상당히 많은 시간과 인력이 소요되는 문제점을 가지고 있다. 특히, 인간의 시각에 전적으로 의존하는 수작업 방식의 한계 상, 다양한 종류의 문서들을 대량으로 분류할 경우 담당자의 실수와 착오를 배제할 수 없기 때문에, 작업의 속도와 정확성 측면에서 모두 그 한계가 명확하다.

따라서, 이러한 수작업 방식의 오프라인 문서 분류에서 벗어나기 위하여, 자동 문서분류 기술에 관한 연구가 활발하게 진행되어지고 있는데, 대표적으로 컨볼루션 뉴럴 네트워크(convolution neural network, CNN)을 활용하여 주어진 문서들의 유형을 분류하거나, 기계 번역 자연어 처리 모델인 계층적 어텐션 네트워크(hierarchical attention networks)를 사용하는 문서분류 방식이 활용되고 있다.

특히, 기업, 관공서 및 공공기관 등에서 사용되는 문서는 대부분 정형화된 양식으로 작성하게 되는데, 여기서 고정된 양식의 대부분이 표지 문서에 대한 것이며, 표지 문서 뒤에 이어지는 부가 문서(딸림 자료 및/또는 첨부 자료) 등의 문서들은 일정한 양식을 가지고 있지 않은 경우가 대부분이다. 이와 같은 상황에서 컨볼루션 뉴럴 네트워크(CNN) 등의 분류 모델을 적용한다면, 표지 문서가 아닌 부가 문서가 기존 표지 문서 클래스로 분류되는 현상이 발생할 수 있다. 이를 방지하기 위해서는 기존 분류 모델에 표지 문서 외 클래스(unknown class)를 생성하여 학습시키는 방법도 있지만, 이는 표지 문서 외의 부가 문서에 해당하는 샘플을 다양하게 취득(학습)해야만 하는 번거로움과 한계가 존재한다.

결과적으로, 자동 문서분류 분야의 객체 검출 알고리즘과 관련하여 딥러닝(Deep Learning)을 기반으로 이미지 생성을 하는 생성적 적대 신경망(Generative Adversarial Networks, GAN)을 활용하여, 생성자(Generator)와 구분자(Discriminator)로 적대적(Adversarial)으로 학습시키는 비지도 학습(Unsupervised Learning) 기반 생성모델이 주목 받고 있다.

한국등록특허 제10-2073808호 (등록일자: 2020.01.30.)

따라서, 본 발명은 상기와 같은 종래 기술의 제반 문제점을 해결하기 위한 것으로서, 오프라인 문서(예를 들면, 페이퍼 문서)를 디지털화하여 생성한 다수의 페이지 묶음으로 구성되는 전자화 문서(예를 들면, PDF 스캔 문서)를, 단일 페이지의 이미지 문서(예를 들면, JPG 파일 형식)로 변환하여 순차적으로 배열하고, 변환된 상기 이미지 문서의 왜곡을 보정(문서의 왜곡된 기울기)하는데 그 목적이 있다.

또한, 본 발명은 심층 컨볼루션 생성적 적대 신경망(Deep convolution generative adversarial networks: DCGAN)을 학습시켜 구분자(Discriminator)를 추출하는 방식으로, 이를 기초로 표지 정보를 포함하는 정상 이미지 문서(표지 문서, normal)와, 표지 정보를 포함하지 않는 비정상 이미지 문서(부가 문서, anomaly)로 분류하는 기계학습(Machine Learning) 기반의 준지도 이상 탐지(semi-supervised anomaly detection) 기법으로 페이지별 분류를 구현하는데 다른 목적이 있다.

또한, 본 발명은 순차적으로 배열된 이미지 문서 중에서, 정상 이미지 문서(표지 문서)에서 다음 정상 이미지 문서(다음 표지 문서) 전까지를 하나의 문서 단위로 구분하여 페이지별 분류를 구현하는데 또 다른 목적이 있다.

또한, 본 발명은 페이지별 분류과정에서 구분된 정상 이미지 문서(표지 문서)만을 사용자 인터페이스를 통해 전달받은 키워드를 중심으로, 광학식 문자판독(optical character reader) 기술을 활용한, 키위드 검색으로 유형별로 분류하는데 또 다른 목적이 있다.

또한, 본 발명은 유형별 분류에 따라, 유사한 카테고리로 분류된 정상 이미지 문서(표지 문서)와 상기 정상 이미지 문서와 연관된 비정상 이미지 문서(부가 문서)를 문서단위 내에서 그룹화(각 폴더 마다)하여, 사용자에게 보다 효율적으로 전자화 문서를 제공하는데 또 다른 목적이 있다.

본 발명의 일 실시예에 따른 시스템은, 전자화 문서를 단계별로 분류하여 제공하기 위한 시스템으로서, 오프라인 문서들을 디지털화하여 생성한, 다수의 페이지 묶음으로 구성되는 전자화 문서를 수집하는 전자화 문서부; 수집된 상기 전자화 문서를 단일 페이지의 이미지 문서로 변환하여 순차적으로 배열하고, 변환된 상기 이미지 문서의 왜곡을 보정하는 전처리부; 보정된 상기 이미지 문서 중에서, 표지 정보를 기준으로, 상기 표지 정보를 포함하는 정상 이미지 문서와, 상기 표지 정보를 포함하지 않는 비정상 이미지 문서로 구분하여, 페이지별로 분류하는 페이지별 분류부; 페이지별로 분류된 상기 정상 이미지 문서를, 광학식 문자 판독을 통한 키워드 검색으로, 유형에 따라 분류하는 유형별 분류부; 및 상기 유형별 분류부에 의한 유형별 분류에 따라, 유사한 카테고리로 분류된 상기 정상 이미지 문서와 상기 정상 이미지 문서와 연관된 비정상 이미지 문서를 그룹화하는 파일 정리부;를 포함한다.

또한, 상기 페이지별 분류부는, 순차적으로 배열된 상기 이미지 문서에서, 어느 하나의 정상 이미지 문서에서부터 순차적으로 배열된 다음 정상 이미지 문서 전까지를 하나의 문서단위로 구분하여 페이지별로 분류하며, 상기 파일 정리부는, 상기 문서단위 내에 순차적으로 배열된, 상기 어느 하나의 정상 이미지 문서 및 이와 연관된 하나 또는 다수의 비정상 이미지 문서를 분류하여 그룹화하는 것을 특징으로 한다.

또한, 상기 전처리부는, 왜곡된 상기 이미지 문서의 기울기를 보정하는 것을 특징으로 한다.

또한, 상기 정상 이미지 문서는 표지 문서이고, 상기 비정상 이미지 문서는 부가 문서이며, 이를 분류하는 것은 기계학습(Machine Learning) 기반의 준지도 이상 탐지(semi-supervised anomaly detection) 기법으로 판별하는 것을 특징으로 한다.

또한, 상기 페이지별 분류부 의한 페이지별 분류는, 심층 컨볼루션 생성적 적대 신경망(deep convolution generative adversarial networks) 학습 모델의 구분자(discriminator)를 추출하여 분류되는 것을 특징으로 한다.

본 발명의 다른 실시예에 따른 방법은, 통신망 상에서, 전자화 문서를 단계별로 분류하여 제공하기 위한 방법으로서, 화상정보 입력장치를 통해 오프라인 문서들을 디지털화하여, 다수의 페이지 묶음으로 구성되는 전자화 문서를 생성하는 단계; 생성된 상기 전자화 문서를 수집하고, 수집된 상기 전자화 문서를 단일 페이지의 이미지 문서로 변환하여 순차적으로 배열하고, 변환된 상기 이미지 문서의 왜곡을 보정하는 전처리 단계; 상기 전처리 단계를 수행한 이미지 문서 중에서, 표지 정보를 기준으로, 상기 표지 정보를 포함하는 정상 이미지 문서와, 상기 표지 정보를 포함하지 않는 비정상 이미지 문서로 구분하여, 페이지별로 분류하는 단계; 상기 페이지별로 분류하는 단계에서 구분된 상기 정상 이미지 문서를, 광학식 문자 판독을 통한 키워드 검색으로, 유형에 따라 분류하는 유형별 분류단계; 및 상기 유형별 분류단계에 따라, 유사한 카테고리로 분류된 상기 정상 이미지 문서와 상기 정상 이미지 문서와 연관된 비정상 이미지 문서를 각각 그룹화하여, 사용자 단말장치로 제공하는 단계;를 포함한다.

또한, 상기 페이지별 분류 단계는, 순차적으로 배열된 상기 이미지 문서에서, 어느 하나의 정상 이미지 문서에서부터 순차적으로 배열된 다음 정상 이미지 문서 전까지를 하나의 문서단위로 구분하여 페이지별로 분류하며, 상기 그룹화는, 상기 문서단위 내에 순차적으로 배열된, 상기 어느 하나의 정상 이미지 문서 및 이와 연관된 하나 또는 다수의 비정상 이미지 문서를 분류하여 그룹화 하는 것을 특징으로 한다.

또한, 상기 전처리 단계는, 왜곡된 상기 이미지 문서의 기울기를 보정하는 것을 특징으로 한다.

또한, 상기 페이지별로 분류하는 단계는, 심층 컨볼루션 생성적 적대 신경망(deep convolution generative adversarial networks)학습 모델의 구분자(discriminator)를 추출하여 분류되는 것을 특징으로 한다.

이 외에도, 본 발명을 구현하기 위한 상기 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체에 의해서도 달성된다.

본 발명에 의하면, 오프라인 문서(예를 들면, 페이퍼 문서)를 디지털화하여 생성한 다수의 페이지 묶음으로 구성되는 전자화 문서(예를 들면, PDF 스캔 문서)를, 단일 페이지의 이미지 문서(예를 들면, JPG 파일 형식)로 변환하여 순차적으로 배열하고, 변환된 상기 이미지 문서의 왜곡을 보정(문서의 왜곡된 기울기)하여, 전자화 문서의 분류 단계별 정확도를 향상시킬 수 있다.

또한, 본 발명에 의하면, 심층 컨볼루션 생성적 적대 신경망(Deep convolution generative adversarial networks: DCGAN)을 학습시켜 구분자(Discriminator)를 추출하는 방식으로, 이를 기초로 표지 정보를 포함하는 정상 이미지 문서(표지 문서, normal)와, 표지 정보를 포함하지 않는 비정상 이미지 문서(부가 문서, anomaly)로 분류하는 기계학습(Machine Learning) 기반의 준지도 이상 탐지(semi-supervised anomaly detection) 기법으로 페이지별 분류를 구현할 수 있어, 최소한의 학습과정을 통해서 신속하게 분류할 수 있는 효과가 있다.

또한, 본 발명에 의하면, 순차적으로 배열된 이미지 문서 중에서, 정상 이미지 문서(표지 문서)에서 다음 정상 이미지 문서(다음 표지 문서) 전까지를 하나의 문서단위로 구분하여 페이지별 분류를 구현할 수 있어, 단일 페이지로 구성되는 이미지 문서의 한계를 극복하고, 서로 연관된 이미지 문서의 묶음 효과를 얻을 수 있다.

또한, 본 발명에 의하면, 페이지별 분류과정에서 구분된 정상 이미지 문서(표지 문서)만을 사용자 인터페이스를 통해 전달받은 키워드를 중심으로, 광학식 문자판독(optical character reader) 기술을 활용한, 키위드 검색으로 유형별로 재분류할 수 있어, 사용자는 자신에게 필요한 정상 이미지 문서(표지 문서)만을 분류하여 제공받을 수 있다.

또한, 본 발명에 의하면, 유형별 분류에 따라, 유사한 카테고리로 분류된 정상 이미지 문서(표지 문서)와 상기 정상 이미지 문서와 연관된 비정상 이미지 문서(부가 문서)를 문서단위 내에서 그룹화(각 폴더 마다)하여, 사용자에게 단계별로 분류된 전자화 문서를 보다 편리하고 효율적으로 제공할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 전자화 문서 분류시스템(100)의 내부 구성을 상세하게 도시한 도면이다.　
도 2는 본 발명의 일 실시예에 따른 도 1의 전자화 문서 분류시스템(100)을 기반으로, 통신망 상에서 전자화 문서를 단계별 분류하여 제공하기 위한 전체 시스템의 구성을 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 심층 컨볼루션 생성적 적대 신경망(DCGAN)의 학습을 위한 일정한 양식의 표지 정보를 포함하는 표지 문서의 일례를 나타내는 화면이다.
도 4는 본 발명의 일 실시예에 따른 심층 컨볼루션 생성적 적대 신경망(DCGAN) 모델을 통해, 도 3의 표지 문서를 학습하는 과정을 나타내는 화면이다.
도 5는 본 발명의 일 실시예에 따른 전자화 문서를 단계별로 분류하는 과정의 일례를 나타내는 구성도이다.
도 6은 본 발명의 일 실시예에 따른 정상 이미지 문서와 이와 연관된 비정상 이미지 문서를 그룹화하여 제공하는 과정의 일례를 나타내는 구성도이다.
도 7 및 도 8은 본 발명의 일 실시예에 따른 전자화 문서를 단계별로 분류하여 제공한 과정의 일례를 나타내는 인터페이스 화면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조, 특성 및 기능은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭하며, 그 형태는 편의를 위하여 과장되어 표현될 수도 있다.

또한, 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시된 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 기술되고, 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다. 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리 범위에 포함된다. 또한, 본 발명에서 사용되는 용어들은 본 발명의 바람직한 실시 예를 적절히 표현하기 위해 사용된 용어들로서, 이는 사용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 이해되어야 할 것이다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시 예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

[본 발명의 실시 예]

본 발명에 있어서, "전자화 문서(digitalized document)"란, 종이문서와 그 밖에 전자적 형태로 작성되지 않은 문서를 정보시스템이 처리할 수 있는 형태로 변환한 파일 형식의 문서를 의미하는 것으로, 컴퓨터 등 정보처리능력을 지닌 장치에 의하여 전자적인 형태로 작성되어 송수신되거나 저장되는 “전자문서”와는 구분되어 이해되어야 할 것이다.

또한 본 발명에 있어서, "오프라인 문서(off-line document)"란, 종이문서와 이를 포함하는 디지털화되지 않는 문서를 포괄하는 개념으로, 파일 형식의 ‘전자화문서’, ‘전자문서’와 반대되는 개념으로 이해될 수 있다.

또한 본 발명에 있어서, “표지 문서”란, 일정한 양식의 표지 정보를 포함하는 문서로, 문서묶음(문서단위)의 표지에 해당하는 문서를 의미하는 것으로, 이러한 표지 문서 외의 문서는, 표지 문서 뒤에 이어지는 부가 문서(딸림 자료 및/또는 첨부 자료)로 구분할 수 있다.

전자화 문서 분류시스템(100)의 구성

본 발명의 구현을 위하여 중요한 기능을 수행하는 전자화 문서 분류시스템(100)의 내부 구성 및 각 구성요소의 기능에 대하여 살펴보기로 한다.

도 1은 본 발명의 일 실시예에 따른 전자화 문서 분류시스템(100)의 내부 구성을 상세하게 도시한 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 전자화 문서 분류시스템(100)은, 전자화 문서부(110), 전처리부(120), 페이지별 분류부(130), 유형별 분류부(140), 파일 정리부(150), 데이터베이스(160), 통신부(170) 및 제어부(180)를 포함하여 구성될 수 있다.

이러한 본 발명의 일 실시예에 따르면, 전자화 문서부(110), 전처리부(120), 페이지별 분류부(130), 유형별 분류부(140), 파일 정리부(150), 데이터베이스 (160), 통신부(170) 및 제어부(180)는 그 중 적어도 일부가 도시되지는 않았지만 구비될 수 있는 단말장치(디스플레이 장치, 입력단말장치, 화상정보입력장치, 저장장치, 등) 또는, 이후 설명되는(도 2 참조) 화상정보 입력장치(300), 사용자 단말장치(400) 및/또는 서버(500)와 데이터를 송수신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 전자화 문서 분류시스템(100)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있는데, 하드웨어적인 구성요소 및/또는 소프트웨어적인 구성요소와 이들의 조합으로 구현될 수 있다.

또한, 이러한 프로그램 모듈들은 전자화 문서 분류시스템(100)과 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 본 발명이 이에 한정되는 것은 아니다.

먼저, 본 발명의 일 실시예에 따른 전자화 문서부(110)는, 오프라인 문서들(예를 들면, 페이퍼 문서)을 디지털화(예를 들면, 문서 스캔)하여 생성한 다수의 페이지 묶음으로 구성되는 전자화 문서를 수집하는 기능을 수행할 수 있다.

보다 구체적으로, 전자화 문서부(110)는 종이문서와 이를 포함하는 디지털화되지 않는 문서(전자적 형태로 작성되지 아니한 문서)인 오프라인 문서(off-line document)들을 정보시스템이 처리할 수 있는 형태로 변환하는 과정(디지털화)을 통해 생성된 전자화 문서를 수집할 수 있다.

이와 같이 수집된 상기 전자화 문서는, 정보시스템에서 처리할 수 있는 파일 형식의 문서로, 이후 설명되는 전처리부(120), 페이지별 분류부(130) 및/또는 유형별 분류부(140)로 제공하는 기능을 수행할 수 있다. 이러한 전자화 문서는 다수의 오프라인 문서들을 디지털화하여 하나의 파일로 생성할 수 있기 때문에, 다수의 페이지 묶음으로 구성될 수 있다. 일례로, 전자파일 형식 중 여러 문서 페이지를 하나의 디지털 인쇄물로 변환할 수 있는 PDF(Portable Document Format) 파일 형식(포맷, format)을 사용할 수 있으나, 본 발명이 이에 반드시 한정되는 것은 아니며, 다수의 문서 페이지를 묶음 형식의 파일로 생성할 수 있는 공지된 기술이라면, 제한 없이 본 발명의 의한 전자화 문서로 채택될 수 있을 것이다.

또한, 전자화 문서부(110)는 오프라인 문서를 컴퓨터 화면에서 볼 수 있도록 디지털화된 이미지로 변환하여 읽어 들이는 별도의 화상정보 입력장치[예를 들면, 스캐너(scanner), 도 2의 300]와 연결되거나, 이를 포함하는 개념일 수도 있다.

다음으로, 본 발명의 일 실시예에 따른 전처리부(120)는 전자화 문서부(110)에서 수집된 다수의 페이지 묶음으로 구성되는 상기 전자화 문서를 단일 페이지의 이미지 문서로 변환하여 순차적으로 배열하고, 변환된 상기 이미지 문서의 왜곡을 보정하는 전처리 과정을 수행할 수 있다.

보다 구체적으로, 전처리부(120)는 다수의 페이지 묶음으로 구성되는 전자화 문서를 본 발명에 의한 단계별 분류과정(페이지별 분류 및 유형별 분류)에서 인식할 수 있는 이미지 문서로 변환하는 과정을 수행할 수 있다. 일례로, PDF(Portable Document Format) 파일 형식의 전자화 문서를 JPG 이미지 문서로 변환할 수 있는데, 본 발명에 이에 한정되는 것은 아니며, BMP, TIF, GIF, PNG와 같이 공지된 이미지 파일의 형식이라면, 제한 없이 본 발명에 의한 이미지 문서로 활용될 수 있을 것이다.

이때, 전자화 문서는 별도의 화상정보 입력장치를 통해 디지털화되었기 때문에, 스캔과정에서 문서의 뒤틀림과 같은 왜곡 현상이 발생할 수 있는데, 이러한 왜곡된 이미지 문서의 기울기를 보정하는 전처리 과정을 수행하여, 본 발명에 의한 전자화 문서를 단계별로 분류하는 정확도를 향상시킬 수 있다.

다음으로, 본 발명의 일 실시예에 따른 페이지별 분류부(130)는, 전처리부(120)에 의해 보정된 단일 페이지의 이미지 문서 중에서, 표지 정보(일정한 표지 양식)를 기준으로, 상기 표지 정보를 포함하는 정상 이미지 문서(표지 문서)와, 상기 표지 정보를 포함하지 않는 비정상 이미지 문서[부가 문서(딸림 자료 및/또는 첨부 자료)]로 구분하여, 페이지별로 분류하는 기능을 수행할 수 있다.

또한, 페이지별 분류부(130)는 순차적으로 배열된 이미지 문서에서, 어느 하나의 정상 이미지 문서에서부터 순차적으로 배열된 다음 정상 이미지 문서 전까지를 하나의 문서단위(문서묶음)로 구분하여, 페이지별로 분류하는 기능을 수행할 수도 있다.

보다 구체적으로, 페이지별 분류부(130)는 딥러닝(Deep Learning)을 기반으로 하는 심층 컨볼루션 생성적 적대 신경망(DCGAN: Deep convolution generative adversarial networks) 모델의 생성자(Generator)와 구분자 (Discriminator)로 적대적(Adversarial)으로 학습시키는 비지도 학습(Unsupervised Learning)을 기초로, 페이지별로 분류(정상/비정상 구분)하는 기능을 수행할 수 있다. 이러한, 페이지별 분류부(130)는 페이지별 분류 시, 순차적으로 배열된 이미지 문서들을 진짜‘Real’와 가짜‘Fake’로 구분하는 개념으로, 일정한 양식을 가지는 표지 정보(표지 문서)를 학습시키고, 해당 표지 정보를 포함하는 정상(normal) 데이터와 표지 정보를 포함하지 않는 비정상(anomaly) 데이터로 분류하는 일종의 준지도 이상치 탐지(semi-supervised anomaly detection)를 구현하는 기능을 수행할 수 있다.

여기서, 심층 컨볼루션 생성적 적대 신경망(DCGAN)에서는 생성자 (Generator)와 구분자(Discriminator)라는 두개의 모델이 적대적인 과정을 통해 동시에 훈련되는 기계학습 기법을 의미하는 것이다. 이러한 훈련과정 동안 생성자는 점차적으로 실제와 유사한 이미지를 더 잘 생성하게 되고, 구분자는 점차적으로 진짜와 가짜를 더 잘 구분하게 될 수 있다. 이때, 심층 컨볼루션 생성적 적대 신경망(DCGAN)은 기존의 생성적 적대 신경망(GAN)에서 완전 연결 레이어 (fully-connected layer)을 컨볼루션 레이어(convolution layer)로 대체함으로써, 불안정함을 없애고 안정적인 학습을 추구할 수 있는 모델이다.

따라서, 본 발명에서는 이와 같은 심층 컨볼루션 생성적 적대 신경망(DCGAN)을 학습시켜 구분자(Discriminator)를 추출하는 방식으로, 정상 데이터만(표지 정보를 포함하는 이미지 문서인 표지 문서)을 학습하여 정해진 범주를 최대한 좁힌 후, 범주 밖의 데이터(표지 정보를 포함하지 않는 이미지 문서인 부가 문서)에 대해선 모두 비정상으로 간주하는 준지도 이상치 탐지(semi-supervised anomaly detection) 모델을, 본 발명에 의한 페이지 별 분류에 활용할 수 있다.

이러한 본 발명의 일 실시예에 따른 페이지별 분류과정에 대해서는 도 3 내지 도 5를 참조한 이하의 상세한 설명에 의해 보다 명확하게 이해될 수 있을 것이다.

다음으로, 본 발명의 일 실시예에 따른 유형별 분류부(140)는, 페이지별 분류부(130)에서 페이지별로 분류된 정상 이미지 문서(표지 문서)를, 광학식 문자 판독을 통한 키워드 검색으로, 유형에 따라 분류하는 기능을 수행할 수 있다.

보다 구체적으로, 유형별 분류부(140)는 페이지별로 분류가 끝난 이미지 문서들을 카테고리화 시키는 작업을 의미할 수 있는데, 광학식 문자 판독(OCR: Optical character reader)을 이용하여 이미지 문서의 일정 영역(예를 들면, 문서의 제목 영역) 또는 전체 영역에서 텍스트(예를 들면, 문자)를 추출하여, 키워드 검색을 통해 사용자에게서 입력되는 해당 키워드에 해당하는 문자가 포함된 정상 이미지 문서(표지 문서)만을 분류하는 기능을 수행할 수 있다.

일 예를 들면, 키워드 검색을 통해 사용자로부터 입력되는 키워드를 기초로, 페이지별 분류과정에서 분류된 정상 이미지 문서(표지 문서)의 제목영역에서 추출한 문자와 비교하여, 동일하거나 유사한 유형별로 해당 정상 이미지 문서를 분류할 수 있다.

이러한, 광학식 문자 판독(OCR)은 일정한 영역의 텍스트를 정확하게 추출하는 기술로, 최근 들어서 딥러닝 기반의 OCR을 통해 인식률과 정확도가 상당한 수준으로 향상되었는데, 본 발명에서는 일례로, 오픈 소스인 광학식 문자 판독 엔진인 테서랙트(Tesseract)를 사용하여 유형별 분류과정에 활용할 수 있다. 하지만 본 발명이 이에 한정되는 것은 아니며, 광학식 문자 판독을 수행할 수 있는 공지된 기술이라면 제한 없이 채택할 수 있을 것이다.

다음으로, 본 발명의 일 실시예에 따른 파일 정리부(150)는, 유형별 분류부(140)에서 유형별 분류에 따라, 유사한 카테고리로 분류된 정상 이미지 문서(표지 문서)와 상기 정상 이미지 문서와 연관된 비정상 이미지 문서(부가 문서)를 그룹화하는 기능을 수행할 수 있다.

보다 구체적으로, 파일 정리부(150)는 순차적으로 배열된 이미지 문서에서, 어느 하나의 정상 이미지 문서(표지 문서)에서부터 순차적으로 배열된 다음 정상 이미지 문서(다음 표지 문서) 전까지를 하나의 문서단위로 구분하여 페이지별로 분류할 경우, 상기 문서단위 내에 순차적으로 배열된, 상기 어느 하나의 정상 이미지 문서(표지 문서) 및 이와 연관된 하나 또는 다수의 비정상 이미지 문서(부가 문서)를, 분류하여 그룹화 할 수 있다.

이러한 정상 이미지 문서와 이와 연관된 비정상 이미지 문서를 그룹화하는 과정에 대해서는 도 6을 참조한 이하의 상세한 설명에 의해 보다 명확하게 설명될 것이다.

다음으로, 본 발명의 일 실시예에 따른 데이터베이스(160)는, 다수의 페이지 묶음으로 구성된 전자화 문서, 단일 페이지의 이미지 문서, 페이지별 및/또는 유형별로 분류된 이미지 문서(표지 문서, 부가 문서) 등을 저장할 수 있는 저장장치일 수 있다.

한편, 비록 도 1에서 데이터베이스(160)는 전자화 문서 분류시스템(100)에 포함되어 구성되는 것으로 도시되어 있지만, 본 발명을 구현하는 당업자의 필요에 따라, 데이터베이스(160)는 전자화 문서 분류시스템(100)과 별개로 구성하거나, 이후 설명되는 네트워크상의 별도의 서버(도 2, 500)에 포함되도록 구성할 수도 있다. 이러한, 데이터베이스(160)는 컴퓨터 판독 가능한 기록 매체를 포함하는 개념으로서, 협의의 데이터베이스뿐만 아니라, 파일 시스템에 기반한 데이터 기록 등을 포함하는 넓은 의미의 데이터베이스도 포함하여 지칭하며, 단순한 로그의 집합이라도 이를 검색하여 데이터를 추출할 수 있다면 본 발명에서 말하는 데이터베이스(160)에 포함될 수 있다.

다음으로, 본 발명의 일 실시예에 따른 통신부(170)는, 전자화 문서 분류시스템(100) 내부에 도시되지는 않았지만, 구비될 수 있는 디스플레이 장치, 입력단말장치, 화상정보 입력장치, 저장장치 등과 같은 단말장치와 통신할 수 있도록 하는 기능을 수행할 수 있다.

또한, 통신부(170)는 전자화 문서 분류시스템(100)이, 이후 설명되는 도 2와 같이 네트워크상(온라인상)에서 구성될 경우, 화상정보 입력장치(300), 사용자 단말장치(400) 및/또는 서버(500)와 통신할 수 있도록 하는 기능을 수행할 수 있다.

마지막으로, 본 발명의 일 실시예에 따른 제어부(180)는, 전자화 문서부(110), 전처리부(120), 페이지별 분류부(130), 유형별 분류부(140), 파일 정리부(150), 데이터베이스(160), 통신부(170) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다.

보다 구체적으로, 본 발명에 따른 제어부(180)는 외부로부터의, 또는 전자화 문서 분류시스템(100)의 각 구성요소 간의 데이터의 흐름을 제어함으로써, 전자화 문서부(110), 전처리부(120), 페이지별 분류부(130), 유형별 분류부(140), 파일 정리부(150), 데이터베이스(160) 및 통신부(170)에서 각각 고유 기능을 수행하도록 제어할 수 있다.

이러한 본 발명의 일 실시예에 따른 전자화 문서 분류시스템(100)은 네트워크상(통신망)에서, 보다 효율적으로 활용될 수 있는데, 도 2를 참조한 이하의 상세한 설명에 의해 구체적으로 이해될 수 있을 것이다.

전자화 문서 분류시스템(100)의 통신망 상의 전체 구성

이하의 상세한 설명에서는, 본 발명에 의한 전자화 문서 분류시스템(100)을 네트워크상(통신망)에서 구현한 구성을 일례로 설명하지만, 이는 설명의 편의를 위한 하나의 예시를 설명한 것으로, 본 발명이 이에 한정되는 것은 아니다.

도 2는 본 발명의 일 실시예에 따른 도 1의 전자화 문서 분류시스템(100)을 기반으로, 통신망 상에서 전자화 문서를 단계별 분류하여 제공하기 위한 전체 시스템의 구성을 나타내는 도면이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 통신망 상에서의 전체 시스템 구성은, 전자화 문서 분류시스템(100), 통신망(200), 화상정보 입력장치(300), 사용자 단말장치(400) 및 서버(500)를 포함하여 구성될 수 있다.

먼저, 본 발명의 일 실시예에 따른 전자화 문서 분류시스템(100)은, 도 1을 참조한 이상의 상세한 설명에 의해 구체적으로 설명되었으므로, 중복을 피하기 위해 상세한 설명을 생략한다.

다음으로, 본 발명의 일 실시예에 따른 통신망(200)은, 데이터 전송 및 정보 교환을 위한 일련의 데이터 송수신 동작을 수행할 수 있는 네트워크 망으로, 유선 또는 무선과 같은 그 통신 양태를 가리지 않고 구성될 수 있다.

예를 들면, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network), 종합정보통신망(ISDN: Integrated Services Digital Network), 무선랜(wireless LAN) 또는 이동통신망(mobile telecommunication) 등 중에서 어느 하나이거나, 이들의 조합으로 연결되어 구성되는 다양한 형태의 유/무선 통신망일 수 있다. 바람직하게는, 이러한 본 발명에 의해 구성된 통신망(100)은 월드와이드웹(WWW: World Wide Web) 서비스를 이용할 수 있는 인터넷 망일 수 있다.

다음으로, 본 발명의 일 실시예에 따른 화상정보 입력장치(300)는, 종이문서와 같은 실물 이미지 정보를 직접 디지털 데이터로서 입력하여 통신망(200)을 통해, 전자화 문서 분류시스템(100)으로 전송할 수 있는 이미지 리더 장치(image reader)일 수 있다. 대표적으로는 스캐너(scanner)일 수 있는데, 본 발명에서는 일례로 다수의 페이지 묶음으로 구성되는 PDF 파일의 전자화 문서로 생성하여 전송할 수 있다. 이러한 화상정보 입력장치(300)는 사용자 단말장치(400)와 직접 연결되어 사용될 수도 있는데, 화상정보 입력기술은 당업자에게 이미 공지의 기술이므로 상세한 설명은 생략하도록 한다.

다음으로, 본 발명의 일 실시예에 따른 사용자 단말장치(400)는, 사용자(예를 들면, 문서 업무 담당자)가 통신망(200)을 통해 전자화 문서 분류시스템(100)과 접속하여, 본 발명에 의한 단계별 분류과정(페이지별 및 유형별)을 수행하고, 이와 관련된 정보를 송수신할 수 있는 디지털 기기일 수 있다.

보다 구체적으로, 사용자 단말장치(400)는 전자화 문서 분류시스템(100)에 개인정보를 이용하여 회원가입한 후, 아이디, 비밀번호를 포함하는 로그인(Login) 정보를 전송하여 접속하거나, 사용자가 기존에 이용하고 있는 전용 업무 시스템과 연동하여 접속할 수도 있다. 이러한 사용자 단말장치(400)는 본 발명에 의한 전자화 문서의 단계별 분류(페이지별 및 유형별)를 위한 정보의 입출력과, 유형별 분류를 위한 검색 키워드를 입력할 수 있는 전용 웹(Web) 및/또는 앱(App) 프로그램이 전자화 문서 분류시스템(100)과 연동되도록 더 포함되어 있을 수 있다.

이와 같은, 본 발명의 실시 예에 따른 사용자 단말장치(400)는 정보통신기기, 멀티미디어 단말장치, 유선 단말장치, 무선 단말장치, 이동통신단말장치 및 IP(Internet Protocol) 단말장치 등의 다양한 공지된 디지털 기기가 제한 없이 채택될 수 있다.

구체적으로, 사용자 단말장치(400)는 개인용 컴퓨터(Personal Computer), 노트북 컴퓨터, 태블릿 PC(Tablet PC), 스마트 폰(Smart Phone), 휴대 단말기(Portable Terminal), 이동 단말기(Mobile Terminal), 폴더블 단말기(Foldable Terminal), 개인 정보 단말기(Personal Digital Assistant: PDA), PMP(Portable Multimedia Player) 단말기, 텔레매틱스(Telematics) 단말기, IPTV(Internet Protocol Television) 단말기, 스마트 TV, 디지털방송용 단말기, 디지털 사이니지 장치 등과 같이 메모리 수단을 구비하고 마이크로프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기로, 정보를 입력할 수 있는 키보드, 마우스 등의 입력수단을 구비하면서, 유/무선의 통신기능을 포함하고 있다면 얼마든지 본 발명에 따른 단말장치로서 채택될 수 있을 것이다.

이러한 사용자 단말장치(400)에는 본 발명에 의한 전자화 문서 정보 및 이를 단계별로 분류한 결과정보를 디스플레이 할 수 있는 표시수단을 구비할 수 있다. 예를 들면, 전용 웹(Web) 및/또는 앱(App) 등을 통해 시각적으로 표현되는 것들을 화면에 표시할 수 있다. 여기서, 표시수단은 LCD(Liquid Crystal Display), TFT-LCD(Thin Film Transistor LCD), OLED(Organic Light Emitting Diodes), 발광다이오드(LED), AMOLED(Active Matrix Organic LED), 플렉시블 디스플레이(Flexible display) 및 3차원 디스플레이(3 Dimension) 등으로 구성될 수 있다. 이때, 표시수단에 터치스크린(touch screen) 형태가 포함되어 구성될 수도 있어 입력수단의 기능 중 일부 또는 전부를 수행할 수도 있다.

다음으로, 본 발명의 일 실시예에 따른 서버(500)는, 전자화 문서 분류시스템(100), 화상정보 입력장치(300) 및/또는 사용자 단말장치(400)와 통신망(200)을 통해 통신하는 네트워크의 운영서버 기능을 수행할 수 있다.

보다 구체적으로, 서버(500)는 인터넷 사이트의 운영 서버일 수 있는데, 이때, 서버(500)는 전자화 문서 분류시스템(100)과 사용자 단말장치(400) 사이의 인터페이스를 지원하는 전용 웹(Web) 및/또는 앱(App)을 운영하는 기능을 수행할 수 있다. 이러한 서버(500)에서 제공하는 전용 웹(Web) 및/또는 앱(App)을 통해 사용자(예를 들면, 문서 업무 담당자)의 요청정보와 그 결과정보를 편리하게 브라우징하여 제공할 수 있다.

한편, 본 발명의 일 실시예를 나타내는 도 1에서는 전자화 문서 분류시스템(100)과 서버(500)가 별개로 구성되어 있는 것으로 도시되어 있지만, 본 발명을 구현하는 당업자의 필요에 따라, 전자화 문서 분류시스템(100)을 서버(500)에 포함되도록 구성할 수 있음은 자명할 것이다.

이상에서 설명된 본 발명에 따른 전자화 문서 분류시스템(100)의 보다 구체적인 구성에 대한 이해를 돕기 위해, 이하의 상세한 설명에서는 본 발명의 페이지별 분류과정에서 심층 컨볼루션 생성적 적대 신경망(DCGAN: Deep convolution generative adversarial networks) 학습과 준지도 이상치 탐지(semi-supervised anomaly detection)를 적용하는 과정에 대하여, 일례를 들어 설명한다.

심층 컨볼루션 생성적 적대 신경망 모델의 학습과정

이하의 상세한 설명에서는, 본 발명에 의한 전자화 문서 분류시스템(100)에서 페이지별 분류를 위한 심층 컨볼루션 생성적 적대 신경망 모델을 이용한 학습과정을 세무 서식 16종류를 일례로 설명하지만, 이는 설명의 편의를 위해 가장 대표적인 활용과정을 설명한 것으로, 본 발명이 이에 한정되는 것은 아니다.

도 3은 본 발명의 일 실시예에 따른 심층 컨볼루션 생성적 적대 신경망(DCGAN)의 학습을 위한 일정한 양식의 표지 정보를 포함하는 표지 문서의 일례를 나타내는 화면이다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 심층 컨볼루션 생성적 적대 신경망 모델(DCGAN)을 이용한 학습과정에 사용된 표지 정보의 일례로, 이러한 일정한 양식의 표지 정보를 포함하는 표지 문서는 국세청에서 제공하는 법령 서식, 훈령 및 고시 서식에 해당하는 세무 서식 중에서, 일례로 도시된 바와 같이 16종류를 선택할 수 있다. 이때, 세무 서식 16종류 각각의 항목마다, 100개의 학습데이터를 생성하여 총 1,600개의 표지 정보를 생성하였고, 이 중에서 1,440개를 학습에 사용하고, 나머지 160개를 검증 데이터로 사용하였다.

이와 같은 학습과정을 통해, 본 발명에 의한 전자화 문서 분류시스템(100) 에서 페이지별 분류 시, 표지 정보(일정한 표지 양식)를 기준으로, 상기 표지 정보를 포함하는 정상 이미지 문서(표지 문서)와, 상기 표지 정보를 포함하지 않는 비정상 이미지 문서[부가 문서(딸림 자료 및/또는 첨부 자료)]로 구분하여, 페이지별로 분류하는 기능을 수행할 수 있는데, 도 4를 참조한 이하의 상세한 설명에 의한 보다 명확하게 이해될 수 있다.

도 4는 본 발명의 일 실시예에 따른 심층 컨볼루션 생성적 적대 신경망(DCGAN) 모델을 통해, 도 3의 표지 문서를 학습하는 과정을 나타내는 화면이다.

도 4를 참조하면, 상기 도 3과 같은 일정한 양식의 표지 정보를 포함하는 표지 문서를 딥러닝(Deep Learning) 기반의 심층 컨볼루션 생성적 적대 신경망(DCGAN) 모델로 학습시키고, 구분자(Discriminator)를 추출하여 입력된 표지 문서들에 대한 이진교차 엔트로피 손실을 구하여, 표지 문서와 표지 문서가 아닌 문서(부가 문서)를 구분할 수 있다.

도시된 바와 같이 심층 컨볼루션 생성적 적대 신경망의 모델에서 신경망의 학습 과정을 좌측상단의 (a)에서 우측하단의 (p)까지 순차적으로 보여주고 있으며, 이는 각각의 생성자(Generator)가 생성한 문서들을 8 × 8 가지의 샘플(총 64개)로 표현할 수 있다. 이를 통해, 점차적으로 학습 데이터와 비슷한 문서 이미지로 생성됨을 알 수 있다.

결과적으로, 본 발명에서는 이와 같이 심층 컨볼루션 생성적 적대 신경망(DCGAN) 모델로 정상(normal) 데이터만(표지 정보를 포함하는 이미지 문서인 표지 문서)을 학습하여, 구분자(Discriminator)를 추출하는 방식으로, 정해진 범주를 최대한 좁힌 후, 범주 밖의 데이터(표지 정보를 포함하지 않는 이미지 문서인 부가 문서)에 대해선 모두 비정상(anomaly) 데이터로 간주하는 준지도 이상치 탐지(semi-supervised anomaly detection) 모델을, 본 발명에 의한 페이지 별 분류에 활용할 수 있어, 최소한의 학습과정을 통해서 신속하게 분류할 수 있는 효과가 있다.

이상에서 설명된 본 발명에 따른 전자화 문서 분류시스템(100)의 보다 구체적인 구성에 대한 이해를 돕기 위해, 이하의 상세한 설명에서는 본 발명에 따른 전자화 문서를 단계별로 분류하는 방법에 대하여, 일례를 들어 설명한다.

전자화 문서를 단계별로 분류하는 과정

이하의 상세한 설명에서는, 본 발명에 의한 전자화 문서 분류시스템(100)에서 다수의 페이지 묶음으로 구성된 전자화 문서를 단계별 (페이지별 분류 및 유형별 분류)로 분류하는 과정을 일례로 설명하지만, 이는 설명의 편의를 위해 가장 대표적인 활용과정을 설명한 것으로, 본 발명이 이에 한정되는 것은 아니다.

도 5는 본 발명의 일 실시예에 따른 전자화 문서를 단계별로 분류하는 과정의 일례를 나타내는 구성도이다.

도 5를 참조하면, 먼저 오프라인 문서들(예를 들면, 페이퍼 문서)을 디지털화(스캔 과정)하여 생성한, 다수의 페이지 묶음(n개, 상기 n은 자연수)으로 구성되는 전자화 문서(10)가 수집될 수 있다.

이어서, 수집된 전자화 문서(10)를 단일 페이지의 이미지 문서(Pn)로 변환하여 순차적으로 배열(P₁ 내지 Pn)되고, 변환된 상기 이미지 문서의 왜곡을 보정하는 전처리과정(120)을 수행할 수 있다. 이때, 스캔 과정을 통해 디지털화된 전자화 문서는 스캔 과정에서 왜곡된 기울기를 가지고 있기 때문에, 이를 보정하기 위하여 이미지 문서의 기울기를 보정하는 것이 바람직하다.

이어서, 보정된 상기 이미지 문서 중에서, 표지 정보(T)를 기준으로, 상기 표지 정보를 포함하는 정상 이미지 문서(표지 문서: P₁, P₄, P₆, P₈)와, 상기 표지 정보를 포함하지 않는 비정상 이미지 문서(부가 문서: P₂, P₃, P₅, P₇, P₉,Pn)로 구분하여, 페이지별로 분류하는 페이지별 분류과정(130)을 수행할 수 있다.

이어서, 상기 페이지별로 분류된 정상 이미지 문서(표지 문서: P₁, P₄, P₆, P₈)를, 광학식 문자 판독(OCR)을 통한 키워드 검색으로, 유형에 따라 분류하는 유형별 분류과정(140)을 수행할 수 있는데, 예를 들면, 사용자가 “압류” 키워드를 입력하면 광학식 문자 판독(OCR)을 통해 정상 이미지 문서(표지 문서: P₁, P₄, P₆, P₈)만을 판독하여 텍스트를 추출하고, “압류”키워드를 검색하여 해당 키워드가 검색된 정상 이미지 문서(“압류” 표지 문서: P₁, P₆)를 따로 분류할 수 있다.

이어서, 상기 유형별 분류과정(140)에 따라, 유사한 카테고리(예를 들면, “압류”)로 분류된 정상 이미지 문서(표지 문서: P₁, P₆)를 C₁폴더(“압류” 카테고리)로 그룹화하여 파일을 정리할 수 있고, 다른 정상 이미지 문서(“기타” 표지 문서: P₄, P₈)는 C₂폴더(“기타” 카테고리)에 그룹화하여, 파일을 정리할 수 있다.

이때, 페이지별 분류(130)는, 순차적으로 배열된 이미지 문서에서, 어느 하나의 정상 이미지 문서(표지 문서, P₁)에서부터 순차적으로 배열된 다음 정상 이미지 문서(다음 표지 문서, P₄) 전까지를 하나의 문서단위(U)로 구분하여 페이지별로 분류할 수 있는데, 예를 들면, 정상 이미지 문서(P₁)과 비정상 이미지 문서(P_2,P₃)를 하나의 문서단위(U)로 구분하여 페이지별 분류를 수행할 수 있다. 이와 동일한 원리로 도시된 바와 같이, 다른 정상 이미지 문서(표지 문서)와 비정상 이미지 문서(부가 문서)들도 문서단위로 구분하여 페이지별 분류할 수 있다.

여기서, 일례로 설명된, 문서단위(U) 내에 순차적으로 배열된, 어느 하나의 정상 이미지 문서(표지 문서, P₁) 및 비정상 이미지 문서(부가 문서, P_2,P₃)를, 상기 정상 이미지 문서(표지 문서, P₁)와 이와 연관된 비정상 이미지 문서(부가 문서, P_2,P₃)로 분류하여 그룹화할 수 있는데, 이러한 본 발명의 일 실시예에 따른 정상 이미지 문서와 이와 연관된 비정상 이미지 문서를 그룹화하여 제공하는 과정은, 도 6을 참조한 이하의 상세한 설명에 의해 구체적으로 이해될 수 있을 것이다.

단계별로 분류된 결과를 제공하는 과정

이하의 상세한 설명에서는, 본 발명에 의한 전자화 문서 분류시스템(100)에서 정상 이미지 문서(표지 문서)와 이와 연관된 비정상 이미지 문서(부가 문서)를 그룹화하여 제공하는 과정을 일례로 설명하지만, 이는 설명의 편의를 위해 가장 대표적인 활용과정을 설명한 것으로, 본 발명이 이에 한정되는 것은 아니다.

도 6은 본 발명의 일 실시예에 따른 정상 이미지 문서와 이와 연관된 비정상 이미지 문서를 그룹화하여 제공하는 과정의 일례를 나타내는 구성도이다.

도 6을 참조하면, 화면(A)는 도 5와 같이 본 발명의 일 실시예에 따른 전자화 문서를 단계별로 분류하는 과정을 통해, 유사한 카테고리(예를 들면, “압류”)로 분류된 정상 이미지 문서(표지 문서: P₁, P₆)와 이와 연관된 비정상 이미지 문서비정상 이미지 문서(부가 문서: P₂, P₃, P₇)를 그룹화하여 정리한 유형별 폴더(C₁,“압류” 카테고리)의 구성을 보여주는 화면이다.

먼저, 유형별 폴더(C₁) 내부에는 상술된 도 5와 같이 전자화 문서를 단계별로 분류하는 과정을 통해 분류된 이미지 문서를, 그룹화하는 과정(150)을 수행하여 각각의 이미지 문서가 파일로 정리되어 저장될 수 있다.

이러한 유형별 폴더(C₁)는, 문서단위의 저장공간인 단위폴더(F_1,F₆)로 구성될 수 있는데, 이러한 단위폴더(F₁)는 다시 정상 이미지 문서폴더(F_1-C)와 비정상 이미지 문서폴더(F_1-A)로 구성되며, 이와 동일한 방식으로, 단위폴더(F₆)는 다시 정상 이미지 문서 폴더(F_6-C)와 비정상 이미지 문서 폴더(F_6-A)로 각각 구성될 수 있다.

이어서, 각각의 정상 이미지 문서폴더(F_1-C)에는 정상 이미지 문서(P₁), 비정상 이미지 문서폴더(F_1-A)에는 비정상 이미지 문서(P_2,P₃)가 그룹화되어 저장될 수 있다. 이와 동일한 방식으로, 정상 이미지 문서폴더(F_6-C)에는 정상 이미지 문서(P₆), 비정상 이미지 문서 폴더(F_6-A)에는 비정상 이미지 문서(P₇)가 그룹화되어 저장될 수 있다.

다음으로, 화면(B)는 도 5와 같이 본 발명의 일 실시예에 따른 전자화 문서를 단계별로 분류하는 과정을 통해, 유사한 카테고리 “압류”로 분류되지 않은 정상 이미지 문서(표지 문서: P₄, P₈)와 이와 연관된 비정상 이미지 문서(부가 문서: P_5,P_9,Pn)를 그룹화하여 정리한 유형별 폴더(C_2,“기타” 카테고리)의 구성을 보여주는 화면이다.

이러한 유형별 폴더(C₂) 내부에는 상술된 도 5와 같이 페이지별(130), 유형별 분류과정(140)을 통해 분류된 이미지 문서를, 그룹화하는 과정(150)을 수행하여 각각의 이미지 문서가 파일로 정리되어 저장될 수 있다.

이어서, 유형별 폴더(C₂)는 문서단위의 저장공간인 단위폴더(표지 문서: F₄, F₈)로 구성될 수 있다. 이러한 단위폴더(F₄)는 다시 정상 이미지 문서폴더(F_4-C)와 비정상 이미지 문서폴더(F_4-A)로 구성되며, 이와 동일한 방식으로, 단위폴더(F₈)는 다시 정상 이미지 문서폴더(F_8-C)와 비정상 이미지 문서폴더(F_8-A)로 각각 구성될 수 있다.

이어서, 각각의 정상 이미지 문서 폴더(F_4-C)에는 정상 이미지 문서(P₄), 비정상 이미지 문서폴더(F_4-A)에는 비정상 이미지 문서(P₅)가 그룹화되어 저장될 수 있다. 이와 동일한 방식으로, 정상 이미지 문서폴더(F_8-C)에는 정상 이미지 문서(P₈), 비정상 이미지 문서폴더(F_8-A)에는 비정상 이미지 문서(P_9,Pn)가 그룹화되어 저장될 수 있다. 이상에서, 설명된 본 발명에 의한, 전자화 문서를 단계별로 분류하여 활용하는 실제 과정은, 도 7과 도 8을 참조한 이하의 상세한 설명에 의해 이해될 수 있다.

전자화 문서를 단계별로 분류한 활용 예시

이하의 상세한 설명에서는, 본 발명에 의한 전자화 문서 분류시스템(100)에서 343개의 페이지 묶음으로 구성된 PDF 형식의 전자화 문서를 단계별(페이지별 분류단계 및 유형별 분류단계)로 JPG 형식의 이미지 문서로 분류하는 과정을 일례로 설명하지만, 이는 설명의 편의를 위해 가장 대표적인 활용과정을 설명한 것으로, 본 발명이 이에 한정되는 것은 아니다.

도 7 및 도 8은 본 발명의 일 실시예에 따른 전자화 문서를 단계별로 분류하여 제공한 과정의 일례를 나타내는 인터페이스 화면이다.

도 7을 참조하면, 45장의 표지 정보(표지 문서)와 298장의 부가 정보[부가 문서(딸림 자료 및/또는 첨부 자료)]를 포함하는 총 343장으로 구성된 PDF 파일의 전자화 문서를 기초로, 이를 페이지별로 분류하는 과정을 보여주고 있다.

먼저, 화면(A)와 (B)는 PDF 형식의 전자화 문서(343장)를 JPG 형식의 단일 페이지인 이미지 문서로 변환하여 순차적으로 배열하고, 변환된 상기 이미지 문서의 왜곡(기울기)을 보정하는 과정을 나타내고 있다.

이어서, 화면(C)는 페이지별 분류과정을 통해, 보정된 상기 이미지 문서 중에서, 표지 정보를 기준으로, 상기 표지 정보를 포함하는 정상 이미지 문서(표지 문서)와, 화면(D)는 상기 표지 정보를 포함하지 않는 비정상 이미지 문서(부가 문서)로 구분하는 과정을 나타내고 있다.

다음으로, 도 8을 참조하면, 페이지별로 분류된 45장의 표지 정보(표지 문서)와 298장의 부가 정보(부가 문서)를 포함하는 총 343장으로 배열된 이미지 문서에서, 45장의 표지 정보(표지 문서)만을 기초로 유형별로 분류하는 과정을 보여주고 있다.

먼저, 화면(A)는 유형별 분류과정을 위한 검색 키워드를 입력하는 인터페이스 화면을 나타내고 있다. 이때, 도시되 바와 같이“압류”키워드를 입력하면, 화면(B)와 같이 본 발명에 의한 광학식 문자 판독(OCR)을 통해 45장의 표지 정보(표지 문서) 중에서 해당 키워드와 동일한 정상 이미지 문서(표지 문서)를 검색하여 유형에 따라 분류할 수 있다.

이어서, 화면(C)는 45장의 표지 정보(표지 문서) 중에서 유형에 따라 분류된 5장의 정상 이미지 문서(표지 문서)가 각각 저장된 폴더를 나타내고 있고, 화면(D)는 분류된 5장의 정상 이미지 문서(표지 문서) 중 어느 하나를 선택하여 확인하는 과정을 나타내고 있다. 따라서, 본 발명에 의하면 유사한 카테고리로 분류된 정상 이미지 문서(표지 문서)와 상기 정상 이미지 문서와 연관된 비정상 이미지 문서(부가 문서)를 문서단위 내에서 그룹화(각 폴더 마다)하여, 사용자에게 단계별로 분류된 전자화 문서를 보다 편리하고 효율적으로 제공할 수 있는 효과가 있다.

이상 설명된 본 발명에 따른 실시 예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다.

상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.또한, 본 발명의 상세한 설명에서는 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시 예들에 한정되는 것은 아니며, 본 발명이 속하는 기술 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다. 따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해지는 것은 아니며, 후술하는 특허청구범위뿐만 아니라 그 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

100: 전자화 문서 분류시스템 110: 전자화 문서부
120: 전처리부 130: 페이지별 분류부
140: 유형별 분류부 150: 파일 정리부
160: 데이터베이스 170: 통신부
180: 제어부 200: 통신망
300: 화상정보 입력장치 400: 사용자 단말장치
500: 서버

Claims

전자화 문서를 단계별로 분류하여 제공하기 위한 시스템으로서,
오프라인 문서들을 디지털화하여 생성한, 다수의 페이지 묶음으로 구성되는 전자화 문서를 수집하는 전자화 문서부;
수집된 상기 전자화 문서를 단일 페이지의 이미지 문서로 변환하여 순차적으로 배열하고, 변환된 상기 이미지 문서의 왜곡을 보정하는 전처리부;
보정된 상기 이미지 문서 중에서, 표지 정보를 기준으로, 상기 표지 정보를 포함하는 정상 이미지 문서와, 상기 표지 정보를 포함하지 않는 비정상 이미지 문서로 구분하여, 페이지별로 분류하는 페이지별 분류부;
페이지별로 분류된 상기 정상 이미지 문서를, 광학식 문자 판독을 통한 키워드 검색으로, 유형에 따라 분류하는 유형별 분류부; 및
상기 유형별 분류부에 의한 유형별 분류에 따라, 유사한 카테고리로 분류된 상기 정상 이미지 문서와 상기 정상 이미지 문서와 연관된 비정상 이미지 문서를 그룹화하는 파일 정리부;
를 포함하는 것을 특징으로 하는, 전자화 문서를 단계별로 분류하여 제공하기 위한 시스템.
제 1 항에 있어서,
상기 페이지별 분류부는,
순차적으로 배열된 상기 이미지 문서에서, 어느 하나의 정상 이미지 문서에서부터 순차적으로 배열된 다음 정상 이미지 문서 전까지를 하나의 문서단위로 구분하여 페이지별로 분류하며,
상기 파일 정리부는,
상기 문서단위 내에 순차적으로 배열된, 상기 어느 하나의 정상 이미지 문서 및 이와 연관된 하나 또는 다수의 비정상 이미지 문서를 분류하여 그룹화하는 것을 특징으로 하는, 전자화 문서를 단계별로 분류하여 제공하기 위한 시스템.
제 1 항에 있어서,
상기 전처리부는,
왜곡된 상기 이미지 문서의 기울기를 보정하는 것을 특징으로 하는, 전자화 문서를 단계별로 분류하여 제공하기 위한 시스템.
제 1 항에 있어서,
상기 정상 이미지 문서는 표지 문서이고, 상기 비정상 이미지 문서는 부가 문서이며, 이를 분류하는 것은 기계학습(Machine Learning) 기반의 준지도 이상 탐지(semi-supervised anomaly detection) 기법으로 판별하는 것을 특징으로 하는, 전자화 문서를 단계별로 분류하여 제공하기 위한 시스템.
제 1 항에 있어서,
상기 페이지별 분류부에 의한 페이지별 분류는,
심층 컨볼루션 생성적 적대 신경망(deep convolution generative adversarial networks) 학습 모델의 구분자(discriminator)를 추출하여 분류되는 것을 특징으로 하는, 전자화 문서를 단계별로 분류하여 제공하기 위한 시스템.
통신망 상에서, 전자화 문서를 단계별로 분류하여 제공하기 위한 방법으로서,
화상정보 입력장치를 통해 오프라인 문서들을 디지털화하여, 다수의 페이지 묶음으로 구성되는 전자화 문서를 생성하는 단계;
생성된 상기 전자화 문서를 수집하고, 수집된 상기 전자화 문서를 단일 페이지의 이미지 문서로 변환하여 순차적으로 배열하고, 변환된 상기 이미지 문서의 왜곡을 보정하는 전처리 단계;
상기 전처리 단계를 수행한 이미지 문서 중에서, 표지 정보를 기준으로, 상기 표지 정보를 포함하는 정상 이미지 문서와, 상기 표지 정보를 포함하지 않는 비정상 이미지 문서로 구분하여, 페이지별로 분류하는 단계;
상기 페이지별로 분류하는 단계에서 구분된 상기 정상 이미지 문서를, 광학식 문자 판독을 통한 키워드 검색으로, 유형에 따라 분류하는 유형별 분류단계; 및
상기 유형별 분류단계에 따라, 유사한 카테고리로 분류된 상기 정상 이미지 문서와 상기 정상 이미지 문서와 연관된 비정상 이미지 문서를 각각 그룹화하여, 사용자 단말장치로 제공하는 단계;
를 포함하는 것을 특징으로 하는, 전자화 문서를 단계별로 분류하여 제공하기 위한 방법.
제 6 항에 있어서,
상기 페이지별로 분류하는 단계는,
순차적으로 배열된 상기 이미지 문서에서, 어느 하나의 정상 이미지 문서에서부터 순차적으로 배열된 다음 정상 이미지 문서 전까지를 하나의 문서단위로 구분하여 페이지별로 분류하며,
상기 그룹화는,
상기 문서단위 내에 순차적으로 배열된, 상기 어느 하나의 정상 이미지 문서 및 이와 연관된 하나 또는 다수의 비정상 이미지 문서를 분류하여 그룹화 하는 것을 특징으로 하는, 전자화 문서를 단계별로 분류하여 제공하기 위한 방법.
제 6 항에 있어서,
상기 전처리 단계는,
왜곡된 상기 이미지 문서의 기울기를 보정하는 것을 특징으로 하는, 전자화 문서를 단계별로 분류하여 제공하기 위한 방법.
제 6 항에 있어서,
상기 정상 이미지 문서는 표지 문서이고, 상기 비정상 이미지 문서는 부가 문서이며, 이를 분류하는 것은 기계학습(Machine Learning) 기반의 준지도 이상 탐지(semi-supervised anomaly detection) 기법으로 판별하는 것을 특징으로 하는, 전자화 문서를 단계별로 분류하여 제공하기 위한 방법.
제 6 항에 있어서,
상기 페이지별로 분류하는 단계는,
심층 컨볼루션 생성적 적대 신경망(deep convolution generative adversarial networks)학습 모델의 구분자(discriminator)를 추출하여 분류되는 것을 특징으로 하는, 전자화 문서를 단계별로 분류하여 제공하기 위한 방법.
제 6 항 내지 제 10 항 중 어느 한 항에 따른 전자화 문서를 단계별로 분류하여 제공하기 위한 방법을 컴퓨터에서 실행시키기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체.