KR102425032B1 - 문서종류의 자동 분류장치 및 그 방법 - Google Patents

문서종류의 자동 분류장치 및 그 방법 Download PDF

Info

Publication number
KR102425032B1
KR102425032B1 KR1020200122563A KR20200122563A KR102425032B1 KR 102425032 B1 KR102425032 B1 KR 102425032B1 KR 1020200122563 A KR1020200122563 A KR 1020200122563A KR 20200122563 A KR20200122563 A KR 20200122563A KR 102425032 B1 KR102425032 B1 KR 102425032B1
Authority
KR
South Korea
Prior art keywords
document
unit
sampling
image
information
Prior art date
Application number
KR1020200122563A
Other languages
English (en)
Other versions
KR20220039456A (ko
Inventor
지태창
Original Assignee
엔에이치농협캐피탈 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치농협캐피탈 주식회사 filed Critical 엔에이치농협캐피탈 주식회사
Priority to KR1020200122563A priority Critical patent/KR102425032B1/ko
Publication of KR20220039456A publication Critical patent/KR20220039456A/ko
Application granted granted Critical
Publication of KR102425032B1 publication Critical patent/KR102425032B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/166Normalisation of pattern dimensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Abstract

본 발명은 문서종류의 자동 분류장치 및 그 방법이 개시된다. 본 발명의 문서종류의 자동 분류장치는, 문서 이미지를 획득하는 문서획득부; 획득한 문서 이미지를 저장하고, 인식결과와 재학습 정보를 저장하며 추출된 문서정보를 저장하는 저장부; 및 문서획득부로부터 획득한 문서 이미지를 저장부에 저장하고, 문서 이미지에 대해 특정영역을 샘플링하고, 샘플링한 결과에 대해 머신러닝 기반으로 문서종류를 인식하여 분류하고, 문서인식을 통해 문서정보를 추출하며, 재학습하여 재학습 정보를 저장부에 저장하는 제어부;를 포함하는 것을 특징으로 한다.

Description

문서종류의 자동 분류장치 및 그 방법{APPARATUS FOR AUTOMATIC CLASSIFYING DOCUMENT TYPES AND METHOD THEREOF}
본 발명은 문서종류의 자동 분류장치 및 그 방법에 관한 것으로서, 보다 상세하게는 업무 프로세스에 따라 문서 이미지를 획득하여 특정영역 단위로 샘플링하고, 샘플링 결과에 대해 머신러닝 기반으로 문서종류를 인식하여 자동으로 분류하는 문서 종류의 자동 분류장치 및 그 방법에 관한 것이다.
일반적으로, 자동문서분류는 주어진 문서를 이에 적합한 카테고리로 분류하는 텍스트 마이닝 기술 중의 하나로써 스팸 메일 탐지, 뉴스 분류, 자동응답 등 다양한 분야에 활용되고 있다.
자동문서분류 시스템은 기계학습 알고리즘을 활용하여 특히 Naive Bayes, SVM(Support Vector Machine) 등이 널리 활용되고 있다. 또한 최근에는 머신러닝의 발전에 따라 심층 신경망(Deep Neural Network)을 이용한 자동분류 알고리즘들이 제안되고 있다.
기본적으로 자동분류를 위한 기계학습 기반 분류모델을 구축하기 위해서는 텍스트 데이터를 수치형 데이터로 변환해주어야 한다. 이를 위해 전통적으로 Bag-of-Words 방식을 활용하는데, 이는 개별 문서에 출현하는 단어에 대하여 TF (Term Frequency)를 산출하여 이를 문서 벡터의 성분 값으로 활용한다.
또한, 최근 또 하나의 변환 방법으로서 각 단어를 n차원 공간 벡터로 매핑하는 Word2Vec 등을 활용하는 방안들이 제안되고 있으나, 현재로선 이러한 최신 기법들이 아직 완벽한 수준의 문서분류에는 미치지 못하는 한계가 있다.
본 발명의 배경기술은 대한민국 공개특허공보 제 10-1955056호(2019.05.31. 공고, 특징벡터 기반 전자문서 분류 방법)에 개시되어 있다.
최근들어 전자문서가 대중화되고 정보통신 기술이 발달하면서 매우 많은 전자문서들이 작성되고 공유되고 있으며, 작성 또는 공유되는 전자문서의 양 또한 계속 증가하는 추세이다.
하지만 기존의 전자문서를 분류하는 방법은 많은 연산량이 요구될 수 있었다. 따라서 분류될 전자문서의 수가 많아지면 전자문서 분류 시스템에 과부하가 걸리는 문제점이 있었다.
본 발명은 상기와 같은 문제점들을 개선하기 위하여 안출된 것으로, 일 측면에 따른 본 발명의 목적은 업무 프로세스에 따라 문서 이미지를 획득하여 특정영역 단위로 샘플링하고, 샘플링 결과에 대해 머신러닝 기반으로 문서종류를 인식하여 자동으로 분류하는 문서종류의 자동 분류장치 및 그 방법을 제공하는 것이다.
본 발명의 일 측면에 따른 문서종류의 자동 분류장치는, 문서 이미지를 획득하는 문서획득부; 획득한 문서 이미지를 저장하고, 인식결과와 재학습 정보를 저장하며 추출된 문서정보를 저장하는 저장부; 및 문서획득부로부터 획득한 문서 이미지를 저장부에 저장하고, 문서 이미지에 대해 특정영역을 샘플링하고, 샘플링한 결과에 대해 머신러닝 기반으로 문서종류를 인식하여 분류하고, 문서인식을 통해 문서정보를 추출하며, 재학습하여 재학습 정보를 저장부에 저장하는 제어부;를 포함하는 것을 특징으로 한다.
본 발명에서 제어부는, 문서 이미지의 픽셀값을 정규화하고 사이즈를 조절하여 대상 이미지를 생성하는 이미지 전처리부; 이미지 전처리부에서 생성된 대상이미지에 대해 특정영역을 샘플링하는 샘플링부; 샘플링부에서 샘플링된 특정영역에 대해 머신러닝 기반으로 문서종류를 인식하여 분류하는 문서 분류부; 문서 분류부에서 분류된 문서종류에 대해 검증하는 문서 검증부; 및 문서 분류부에서 분류된 문서종류에 기초하여 문서정보를 추출하는 정보 추출부;를 포함하는 것을 특징으로 한다.
본 발명에서 샘플링부는, 업무처리 시스템으로부터 입력된 업무프로세스에 기초하여 특정영역에 대한 크기와 위치를 기반으로 샘플링하는 것을 특징으로 한다.
본 발명에서 샘플링부는, 특정영역을 복수개 이상 샘플링할 경우 일부를 중첩하여 샘플링하는 것을 특징으로 한다.
본 발명에서 특정영역은, 문서의 제목이 포함되는 영역인 것을 특징으로 한다.
본 발명에서 문서 분류부는, 샘플링된 특정영역들에 대한 문자 인식결과를 더 고려하여 문서종류를 인식하여 분류하는 것을 특징으로 한다.
본 발명에서 문서 분류부는, 문서종류를 인식하여 분류할 때 문서종류를 인식하지 못해 분류하지 못한 미분류 항목을 포함하는 것을 특징으로 한다.
본 발명에서 정보 추출부는, 머신비전을 이용하여 문서종류를 기반으로 표의 형태를 인식하고, 각 행에서 공백을 추출하여 가상 세로선을 추출한 후 각 셀에서 문서정보를 텍스트로 추출하는 것을 특징으로 한다.
본 발명의 일 측면에 따른 문서종류의 자동 분류방법은, 제어부가 문서획득부로부터 획득한 문서 이미지를 저장하고 전처리하여 대상 이미지를 생성하는 단계; 제어부가 대상 이미지에 대해 특정영역을 샘플링하는 단계; 제어부가 샘플링된 특정영역에 대해 머신러닝 기반으로 문서종류를 인식하여 분류하는 단계; 및 제어부가 분류된 문서종류에 기초하여 문서정보를 추출하는 단계를 포함하는 것을 특징으로 한다.
본 발명에서 대상 이미지를 생성하는 단계는, 문서 이미지의 픽셀값을 정규화하고 사이즈를 조절하여 대상 이미지를 생성하는 것을 특징으로 한다.
본 발명에서 샘플링하는 단계는, 제어부가 업무처리 시스템으로부터 입력된 업무프로세스에 기초하여 특정영역에 대한 크기와 위치를 기반으로 샘플링하는 것을 특징으로 한다.
본 발명에서 샘플링하는 단계는, 제어부가 특정영역을 복수개 이상 샘플링할 경우 일부를 중첩하여 샘플링하는 것을 특징으로 한다.
본 발명에서 특정영역은, 문서의 제목이 포함되는 영역인 것을 특징으로 한다.
본 발명에서 문서종류를 인식하여 분류하는 단계는, 제어부가 문서종류를 인식하여 분류할 때 문서종류를 인식하지 못해 분류하지 못한 미분류 항목을 포함하는 것을 특징으로 한다.
본 발명에서 문서정보를 추출하는 단계는, 제어부가 머신비전을 이용하여 문서종류를 기반으로 표의 형태를 인식하고, 각 행에서 공백을 추출하여 가상 세로선을 추출한 후 각 셀에서 문서정보를 텍스트로 추출하는 것을 특징으로 한다.
본 발명의 일 측면에 따른 문서종류의 자동 분류장치 및 그 방법은 업무 프로세스에 따라 문서 이미지를 획득하여 특정영역 단위로 샘플링하고, 샘플링 결과에 대해 머신러닝 기반으로 문서종류를 인식하여 자동으로 분류함으로써, 연산량을 줄일 뿐만 아니라 인식오류를 최소화할 수 있다.
도 1은 본 발명의 일 실시예에 따른 문서종류의 자동 분류장치를 나타낸 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 문서종류의 자동 분류장치의 제어부를 구체적으로 나타낸 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 문서종류의 자동 분류장치에서 특정영역의 샘플링 상태를 나타낸 예시도이다.
도 4는 본 발명의 일 실시예에 따른 문서종류의 자동 분류방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 문서종류의 자동 분류장치 및 그 방법을 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 문서종류의 자동 분류장치를 나타낸 블록 구성도이고, 도 2는 본 발명의 일 실시예에 따른 문서종류의 자동 분류장치의 제어부를 구체적으로 나타낸 블록 구성도이며, 도 3은 본 발명의 일 실시예에 따른 문서종류의 자동 분류장치에서 특정영역의 샘플링 상태를 나타낸 예시도이다.
도 1과 도 2에 도시된 바와 같이 본 발명의 일 실시예에 따른 문서종류의 자동 분류장치는, 문서획득부(10), 저장부(30) 및 제어부(20)를 포함할 수 있다.
문서획득부(10)는 업무처리 시스템(40)으로부터 입력된 업무프로세스에 기초하여 요청된 문서를 촬영하거나 스캔한 문서 이미지를 획득할 수 있다.
예를 들어, 신용대출을 위한 업무프로세스를 위해 본인확인을 위한 신분증, 주민등록등본, 인감증명서, 재직증명서 및 근로소득원천징수를 요청한 경우, 문서 이미지는 요청된 서류 중 하나 이상을 촬영하거나 스캔한 이미지일 수 있다.
저장부(30)는 획득한 문서 이미지를 저장하고, 인식결과와 재학습 정보를 저장하며 추출된 문서정보를 저장할 수 있다.
제어부(20)는 문서획득부(10)로부터 획득한 문서 이미지를 저장부(30)에 저장하고, 문서 이미지에 대해 특정영역을 샘플링하고, 샘플링된 결과에 대해 머신러닝 기반으로 문서종류를 인식하여 분류하고, 문서인식을 통해 문서정보를 추출하며, 재학습하여 재학습 정보를 저장부(30)에 저장할 수 있다.
여기서, 제어부(20)는 도 2에 도시된 바와 같이 이미지 전처리부(210), 샘플링부(220), 문서 분류부(230), 문서 검증부(240) 및 정보 추출부(250)를 포함할 수 있다.
이미지 전처리부(210)는 문서 이미지의 픽셀값을 정규화하고 사이즈를 조절하여 대상 이미지를 생성할 수 있다.
여기서, 문서를 획득할 때 외부에서 이미지 전처리가 수행된 대상 이미지를 획득할 경우에는 이미지 전처리부(210)가 구비되지 않을 수도 있다.
문서획득부(10)로부터 획득한 문서 이미지는 사용자에 따라 문서를 촬영하거나 스캔하는 밝기와 색상이 다를 수 있고, 각도가 다를 수 있어 문서종류의 인식률을 높이기 위해 이미지 전처리부(210)는 문서이미지의 픽셀값을 정규화하고, 문서 이미지 내에 포함된 문서의 사이즈가 상이하기 때문에 사이즈를 조절하여 일정한 대상 이미지를 생성할 수 있다.
샘플링부(220)는 이미지 전처리부(210)에서 생성된 대상 이미지에 대해 특정영역을 샘플링할 수 있다.
여기서, 샘플링부(220)는 업무처리 시스템(40)으로부터 입력된 업무프로세스에 기초하여 문서의 제목이 포함될 수 있는 특정영역에 대한 크기와 위치를 기반으로 분할하여 샘플링할 수 있다.
또는 샘플링부(220)는 설정된 임의의 영역에 대하여 분할하여 샘플링할 수도 있다.
예를 들어, 신용대출을 위한 업무프로세스를 위해 본인확인을 위한 신분증, 주민등록등본, 인감증명서, 재직증명서 및 근로소득원천징수를 요청한 경우, 도 3에 도시된 바와 같이 특정영역은 이들 문서의 제목이 포함될 수 있는 영역으로, 문서종류에 따라 제목의 크기와 위치가 다르기 때문에 이를 기반으로 특정영역을 샘플링할 수 있으며, 복수개 이상의 특정영역을 샘플링할 때는 일부를 중첩하여 샘플링할 수 있다.
문서 분류부(230)는 샘플링부(220)에서 샘플링된 특정영역에 대해 머신러닝 기반으로 문서종류를 인식하여 분류할 수 있다.
예를 들어, 기 학습된 학습 모델을 이용하여 샘플링된 영역별로 문서종류를 인식하되, 동일한 분류로 인식된 영역의 개수가 가장 많은 종류를 해당 문서의 종류로 결정할 수 있다.
여기서, 문서 분류부(230)가, 업무처리 시스템(40)으로부터 입력된 업무프로세스에 기초하여 요청된 문서를 기반으로 문서종류를 인식하여 분류하도록 구성되는 추가적인 실시예도 가능하다.
예를 들어, 요청된 문서의 종류와 인식하여 분류된 문서의 종류가 일치하는 경우에만 해당 문서를 인식된 종류에 해당하는 것으로 분류할 수 있다.
또한, 문서 분류부(230)는 문서종류를 인식하여 분류할 때 데이터가 부족하여 문서종류를 인식하지 못해 분류하지 못하는 미분류 항목을 포함할 수 있다. 즉, 샘플링된 영역들 중 서류의 특징을 포함하고 있지 않은 영역들이 존재할 수 있으므로, 이러한 영역들을 어느 한 종류의 문서로 분류하는 것이 아니라 미분류 항목으로 결정되도록 함으로써, 문서종류에 대한 인식률을 향상시킬 수 있다.
또한, 문서 분류부(230)는 샘플링된 영역들에 대한 문자 인식결과(예: OCR)를 더 고려하여 문서종류를 인식하여 분류할 수도 있다.
예를 들어, 특정영역에 대해 머신러닝을 통해 인식된 문서종류와 해당 영역에서 추출된 문자 인식결과가 일치하는 경우에만 해당 영역이 인식된 문서종류로 분류되는 것으로 결정할 수 있다.
좀 더 구체적으로, 어느 영역에 대해 머신러닝을 통해 인식된 결과가 "주민등록등본"인 경우에, 해당 영역에서 추출된 문자 인식결과가 "주민등록등본"에 포함된 문자(예: "주", "등본", "민등", "본")인 경우에 머신러닝을 통해 인식된 문서종류와 해당 영역에서 추출된 문자 인식결과가 일치하는 것으로 판단할 수 있다.
문서 검증부(240)는 문서 분류부(230)에서 분류된 문서종류에 대해 검증하고 재학습할 수도 있다.
즉, 문서 검증부(240)는 요청된 문서의 종류와 인식하여 분류된 문서의 종류가 일치하는지 여부, 머신러닝을 통해 인식된 문서종류와 해당 영역에서 추출된 문자 인식결과가 일치하는지 여부, 후술할 정보 추출부(250)에서 추출된 문자 인식결과와 문서 분류부(230)에서 분류된 문서종류가 일치하는지 여부 등을 판단하여 문서종류 인식 결과를 검증하고 재학습할 수도 있다.
정보 추출부(250)는 문서 분류부(230)에서 분류된 문서종류에 기초하여 문서정보를 추출할 수 있다.
즉, 정보 추출부(250)는, 머신비전(Machine Vision)을 이용하여 문서종류를 기반으로 표의 시작위치로부터 가로선을 추출하여 표의 형태를 인식하고, 각 행에서 공백을 추출하여 가상 세로선을 추출한 후 각 셀에서 문서정보를 텍스트로 추출할 수 있어 문서의 형태가 변형되더라도 상대적 위치의 변형이 없으면 동일한 텍스트를 추출할 수 있다.
상술한 바와 같이, 본 발명의 실시예에 의한 문서종류의 자동 분류장치에 따르면, 업무 프로세스에 따라 문서 이미지를 획득하여 특정영역 단위로 샘플링하고, 샘플링 결과에 대해 머신러닝 기반으로 문서종류를 인식하여 자동으로 분류함으로써, 연산량을 줄일 뿐만 아니라 인식오류를 최소화할 수 있다.
도 4는 본 발명의 일 실시예에 따른 문서종류의 자동 분류방법을 설명하기 위한 흐름도이다.
도 4에 도시된 바와 같이 본 발명의 일 실시예에 따른 문서종류의 자동 분류방법에서는 먼저, 제어부(20)가 문서획득부(10)로부터 문서 이미지를 획득하여 저장한다(S10).
여기서, 제어부(20)는 업무처리 시스템(40)으로부터 입력된 업무프로세스에 기초하여 요청된 문서를 촬영하거나 스캔한 문서 이미지 형태로 문서획득부(10)를 통해 획득할 수 있다.
예를 들어, 신용대출을 위한 업무프로세스를 위해 본인확인을 위한 신분증, 주민등록등본, 인감증명서, 재직증명서 및 근로소득원천징수를 요청한 경우, 문서 이미지는 요청된 서류 중 하나 이상을 촬영하거나 스캔한 이미지일 수 있다.
S10 단계에서 획득한 문서 이미지에 대해 제어부(20)는 문서 이미지를 전처리하여 대상 이미지를 생성한다(S20).
여기서 제어부(20)는 문서 이미지의 픽셀값을 정규화하고 사이즈를 조절하여 대상 이미지를 생성할 수 있다.
문서획득부(10)로부터 획득한 문서 이미지는 사용자에 따라 문서를 촬영하거나 스캔하는 밝기와 색상이 다를 수 있고, 각도가 다를 수 있어 문서종류의 인식률을 높이기 위해 제어부(20)는 문서이미지의 픽셀값을 정규화하고, 문서 이미지 내에 포함된 문서의 사이즈가 상이하기 때문에 사이즈를 조절하여 일정한 대상 이미지를 생성할 수 있다.
S20 단계에서 생성한 대상 이미지에 대해 제어부는 특정영역을 샘플링한다(S30).
여기서, 제어부(220)는 업무처리 시스템(40)으로부터 입력된 업무프로세스에 기초하여 문서의 제목이 포함될 수 있는 특정영역에 대한 크기와 위치를 기반으로 분할하여 샘플링할 수 있다.
예를 들어, 신용대출을 위한 업무프로세스를 위해 본인확인을 위한 신분증, 주민등록등본, 인감증명서, 재직증명서 및 근로소득원천징수를 요청한 경우, 도 3에 도시된 바와 같이 특정영역은 이들 문서의 제목이 포함될 수 있는 영역으로, 문서종류에 따라 제목의 크기와 위치가 다르기 때문에 이를 기반으로 특정영역을 샘플링할 수 있으며, 복수개 이상의 특정영역을 샘플링할 경우에는 일부를 중첩하여 샘플링할 수 있다.
S30 단계에서 특정영역을 샘플링한 후 제어부(20)는 샘플링된 특정영역에 대해 머신러닝 기반으로 문서종류를 인식하여 분류한다(S40).
여기서, 제어부(20)는 업무처리 시스템(40)으로부터 입력된 업무프로세스에 기초하여 요청된 문서를 기반으로 문서종류를 인식하여 분류할 수도 있다.
또한, 제어부(20)는 문서종류를 인식하여 분류할 때 데이터가 부족하여 문서종류를 인식하지 못해 분류하지 못하는 미분류 항목을 포함할 수 있다. 따라서 문서종류를 인식하기 위해 데이터가 부족한 상태에서 무리하게 문서종류를 인식하지 않고 인식하기 어려운 문서종류에 대해서는 미분류 항목으로 분류함으로써, 문서종류에 대한 인식률을 향상시킬 수 있다.
S40 단계에서 문서종류를 인식하여 분류된 문서종류에 대해 제어부는 검증하고, 재학습할 수도 있다(S50).
즉, 제어부(20)는 요청된 문서의 종류와 인식하여 분류된 문서의 종류가 일치하는지 여부, 머신러닝을 통해 인식된 문서종류와 해당 영역에서 추출된 문자 인식결과가 일치하는지 여부 등을 고려하여 문서종류 인식 결과를 검증하고 재학습할 수도 있다.
SS40 단계에서 분류된 문서종류에 기초하여 제어부(20)는 문서정보를 추출한다(S60).
즉, 제어부(20)는 머신비전(Machine Vision)을 이용하여 문서종류를 기반으로 표의 시작위치로부터 가로선을 추출하여 표의 형태를 인식하고, 각 행에서 공백을 추출하여 가상 세로선을 추출한 후 각 셀에서 문서정보를 텍스트로 추출할 수 있어 문서의 형태가 변형되더라도 상대적 위치의 변형이 없으면 동일한 텍스트를 추출할 수 있다.
상술한 바와 같이, 본 발명의 실시예에 의한 문서종류의 자동 분류방법에 따르면, 업무 프로세스에 따라 문서 이미지를 획득하여 특정영역을 샘플링하고, 샘플링 결과에 대해 머신러닝 기반으로 문서종류를 인식하여 자동으로 분류함으로써, 연산량을 줄일 뿐만 아니라 인식오류를 최소화할 수 있다.
본 명세서에서 설명된 구현은, 예컨대, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의(예컨대, 방법으로서만 논의)되었더라도, 논의된 특징의 구현은 또한 다른 형태(예컨대, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 적절한 하드웨어, 소프트웨어 및 펌웨어 등으로 구현될 수 있다. 방법은, 예컨대, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍 가능한 로직 디바이스 등을 포함하는 프로세싱 디바이스를 일반적으로 지칭하는 프로세서 등과 같은 장치에서 구현될 수 있다. 프로세서는 또한 최종-사용자 사이에 정보의 통신을 용이하게 하는 컴퓨터, 셀 폰, 휴대용/개인용 정보 단말기(personal digital assistant: "PDA") 및 다른 디바이스 등과 같은 통신 디바이스를 포함한다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서 본 발명의 진정한 기술적 보호범위는 아래의 청구범위에 의해서 정하여져야 할 것이다.
10 : 문서획득부 20 : 제어부
20 : 저장부 40 : 업무처리 시스템
210 : 이미지 전처리부 220 : 샘플링부
230 : 문서 분류부 240 : 문서 검증부
250 : 정보 추출부

Claims (15)

  1. 문서 이미지를 획득하는 문서획득부;
    획득한 상기 문서 이미지를 저장하고, 인식결과와 재학습 정보를 저장하며 추출된 문서정보를 저장하는 저장부; 및
    상기 문서획득부로부터 획득한 상기 문서 이미지를 상기 저장부에 저장하고, 상기 문서 이미지에 대해 특정영역을 샘플링하고, 샘플링한 결과에 대해 머신러닝 기반으로 문서종류를 인식하여 분류하고, 문서인식을 통해 상기 문서정보를 추출하며, 재학습하여 재학습 정보를 상기 저장부에 저장하는 제어부;를 포함하되,
    상기 제어부는,
    상기 문서 이미지의 픽셀값을 정규화하고 사이즈를 조절하여 대상 이미지를 생성하는 이미지 전처리부;
    상기 이미지 전처리부에서 생성된 상기 대상 이미지에 대해 상기 특정영역을 샘플링하는 샘플링부;
    상기 샘플링부에서 샘플링된 상기 특정영역에 대해 머신러닝 기반으로 상기 문서종류를 인식하여 분류하는 문서 분류부;
    상기 문서 분류부에서 분류된 상기 문서종류에 대해 검증하고 재학습하는 문서 검증부; 및
    상기 문서 분류부에서 분류된 상기 문서종류에 기초하여 상기 문서정보를 추출하는 정보 추출부;를 포함하고,
    상기 정보 추출부는, 머신비전을 이용하여 상기 문서종류를 기반으로 표의 형태를 인식하고, 각 행에서 공백을 추출하여 가상 세로선을 추출한 후 각 셀에서 상기 문서정보를 텍스트로 추출하는 것을 특징으로 하는 문서종류의 자동 분류장치.
  2. 삭제
  3. 제 1항에 있어서, 상기 샘플링부는, 업무처리 시스템으로부터 입력된 업무프로세스에 기초하여 상기 특정영역에 대한 크기와 위치를 기반으로 샘플링하는 것을 특징으로 하는 문서종류의 자동 분류장치.
  4. 제 1항에 있어서, 상기 샘플링부는, 상기 특정영역을 복수개 이상 샘플링할 경우 일부를 중첩하여 샘플링하는 것을 특징으로 하는 문서종류의 자동 분류장치.
  5. 제 1항에 있어서, 상기 특정영역은, 문서의 제목이 포함되는 영역인 것을 특징으로 하는 문서종류의 자동 분류장치.
  6. 제 1항에 있어서, 상기 문서 분류부는, 샘플링된 특정영역들에 대한 문자 인식결과를 더 고려하여 상기 문서종류를 인식하여 분류하는 것을 특징으로 하는 문서종류의 자동 분류장치.
  7. 제 1항에 있어서, 상기 문서 분류부는, 상기 문서종류를 인식하여 분류할 때 상기 문서종류를 인식하지 못해 분류하지 못한 미분류 항목을 포함하는 것을 특징으로 하는 문서종류의 자동 분류장치.
  8. 삭제
  9. 제어부가 문서획득부로부터 획득한 문서 이미지를 저장하고 전처리하여 대상 이미지를 생성하는 단계;
    상기 제어부가 상기 대상 이미지에 대해 특정영역을 샘플링하는 단계;
    상기 제어부가 샘플링된 상기 특정영역에 대해 머신러닝 기반으로 문서종류를 인식하여 분류하는 단계; 및
    상기 제어부가 분류된 상기 문서종류에 기초하여 문서정보를 추출하는 단계;를 포함하되,
    상기 문서정보를 추출하는 단계는, 상기 제어부가 머신비전을 이용하여 문서종류를 기반으로 표의 형태를 인식하고, 각 행에서 공백을 추출하여 가상 세로선을 추출한 후 각 셀에서 상기 문서정보를 텍스트로 추출하는 것을 특징으로 하는 문서종류의 자동 분류방법.
  10. 제 9항에 있어서, 상기 대상 이미지를 생성하는 단계는, 상기 문서 이미지의 픽셀값을 정규화하고 사이즈를 조절하여 대상 이미지를 생성하는 것을 특징으로 하는 문서종류의 자동 분류방법.
  11. 제 9항에 있어서, 상기 샘플링하는 단계는, 상기 제어부가 업무처리 시스템으로부터 입력된 업무프로세스에 기초하여 특정영역에 대한 크기와 위치를 기반으로 샘플링하는 것을 특징으로 하는 문서종류의 자동 분류방법.
  12. 제 9항에 있어서, 상기 샘플링하는 단계는, 상기 제어부가 상기 특정영역을 복수개 이상 샘플링할 경우 일부를 중첩하여 샘플링하는 것을 특징으로 하는 문서종류의 자동 분류방법.
  13. 제 9항에 있어서, 상기 특정영역은, 문서의 제목이 포함되는 영역인 것을 특징으로 하는 문서종류의 자동 분류방법.
  14. 제 9항에 있어서, 상기 문서종류를 인식하여 분류하는 단계는, 상기 제어부가 상기 문서종류를 인식하여 분류할 때 상기 문서종류를 인식하지 못해 분류하지 못한 미분류 항목을 포함하는 것을 특징으로 하는 문서종류의 자동 분류방법.
  15. 삭제
KR1020200122563A 2020-09-22 2020-09-22 문서종류의 자동 분류장치 및 그 방법 KR102425032B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200122563A KR102425032B1 (ko) 2020-09-22 2020-09-22 문서종류의 자동 분류장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200122563A KR102425032B1 (ko) 2020-09-22 2020-09-22 문서종류의 자동 분류장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20220039456A KR20220039456A (ko) 2022-03-29
KR102425032B1 true KR102425032B1 (ko) 2022-07-25

Family

ID=80995985

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200122563A KR102425032B1 (ko) 2020-09-22 2020-09-22 문서종류의 자동 분류장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102425032B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102063036B1 (ko) * 2018-04-19 2020-01-07 한밭대학교 산학협력단 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법
KR102144464B1 (ko) * 2020-03-04 2020-08-14 주식회사 로민 문서분류장치 및 문서분류방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190091101A (ko) * 2018-01-26 2019-08-05 지의소프트 주식회사 딥러닝을 이용한 문서 종류 자동 분류 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102063036B1 (ko) * 2018-04-19 2020-01-07 한밭대학교 산학협력단 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법
KR102144464B1 (ko) * 2020-03-04 2020-08-14 주식회사 로민 문서분류장치 및 문서분류방법

Also Published As

Publication number Publication date
KR20220039456A (ko) 2022-03-29

Similar Documents

Publication Publication Date Title
Hamad et al. A detailed analysis of optical character recognition technology
US20220012487A1 (en) Systems and methods for classifying payment documents during mobile image processing
US10943105B2 (en) Document field detection and parsing
US11087125B2 (en) Document authenticity determination
US11195006B2 (en) Multi-modal document feature extraction
KR102144464B1 (ko) 문서분류장치 및 문서분류방법
US8867828B2 (en) Text region detection system and method
EP1398726A1 (en) Apparatus and method for recognizing character image from image screen
US10769427B1 (en) Detection and definition of virtual objects in remote screens
US11367310B2 (en) Method and apparatus for identity verification, electronic device, computer program, and storage medium
CN111652223A (zh) 证件识别方法及装置
WO2014160426A1 (en) Classifying objects in digital images captured using mobile devices
US10438083B1 (en) Method and system for processing candidate strings generated by an optical character recognition process
US11144752B1 (en) Physical document verification in uncontrolled environments
CN109376717A (zh) 人脸对比的身份识别方法、装置、电子设备及存储介质
CN111353491A (zh) 一种文字方向确定方法、装置、设备及存储介质
CN112686248B (zh) 证件增减类别检测方法、装置、可读存储介质和终端
CN110717497A (zh) 图像相似度匹配方法、装置及计算机可读存储介质
JP6435934B2 (ja) 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置
CN113111880A (zh) 证件图像校正方法、装置、电子设备及存储介质
CN113792659B (zh) 文档识别方法、装置及电子设备
CN108090728B (zh) 一种基于智能终端的快递信息录入方法及录入系统
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
CN111213157A (zh) 一种基于智能终端的快递信息录入方法及录入系统
Tsimpiris et al. Tesseract OCR evaluation on Greek food menus datasets

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant