KR20230161819A - 문서 이미지의 테이블 검출 시스템 및 방법 - Google Patents

문서 이미지의 테이블 검출 시스템 및 방법 Download PDF

Info

Publication number
KR20230161819A
KR20230161819A KR1020220061655A KR20220061655A KR20230161819A KR 20230161819 A KR20230161819 A KR 20230161819A KR 1020220061655 A KR1020220061655 A KR 1020220061655A KR 20220061655 A KR20220061655 A KR 20220061655A KR 20230161819 A KR20230161819 A KR 20230161819A
Authority
KR
South Korea
Prior art keywords
box
document image
image
document
information
Prior art date
Application number
KR1020220061655A
Other languages
English (en)
Inventor
김수현
여동훈
김부권
Original Assignee
주식회사 하나금융티아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 하나금융티아이 filed Critical 주식회사 하나금융티아이
Priority to KR1020220061655A priority Critical patent/KR20230161819A/ko
Publication of KR20230161819A publication Critical patent/KR20230161819A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 문서 이미지에 포함된 테이블을 검출하는 모델을 학습하기 위한 학습 데이터를 생성하고 학습 데이터를 이용해 테이블 검출 모델을 학습시켜 문서 이미지에 포함된 테이블을 정확히 검출한 후 구조 이해가 쉬운 형태의 데이터로 변환할 수 있는 문서 이미지의 테이블 검출 시스템 및 방법에 관한 것이다.

Description

문서 이미지의 테이블 검출 시스템 및 방법{System and method for detecting table in document image}
본 발명은 문서 이미지에 포함된 테이블을 검출하는 모델을 학습하기 위한 학습 데이터를 생성하고 학습 데이터를 이용해 테이블 검출 모델을 학습시켜 문서 이미지에 포함된 테이블을 정확히 검출한 후 구조 이해가 쉬운 형태의 데이터로 변환할 수 있는 문서 이미지의 테이블 검출 시스템 및 방법에 관한 것이다.
문서 이미지에 들어 있는 문서 내용을 이해하기 위해서는 문서 이미지에서 필요한 정보를 추출해야 한다.
문서를 이해할 때 문서에 포함된 내용의 등장 순서가 중요한데 문서에 테이블이 포함되어 있는 경우 테이블(표)로 인해 등장 순서가 일반적이지 않아서 종래의 등장 순서 알고리즘을 이용해서는 문서를 정확히 이해할 수 없다. 즉, 테이블의 칸을 검출해서 각 칸의 등장 순서를 결정하고 칸 간의 관계도 확인해야 문서의 내용을 이해할 수 있게 된다.
이와 같이 문서 내의 테이블을 정확히 검출하지 않으면 테이블의 등장 빈도가 높은 금융 문서의 경우 그 내용을 전혀 파악할 수 없다.
또한 테이블 검출을 위한 모델을 학습하기 위해서는 문서 이미지에 대한 테이블 정보(셀 위치 및 크기) 레이블링(labeling)이 필요한데, 이러한 레이블링은 사람이 직접 주어진 기준에 맞춰 셀 영역에 박스를 그리는 작업이기 때문에 가이드 라인은 있지만 일관성이 떨어져 학습 데이터의 품질이 떨어진다는 문제점이 있다.
(선행기술문헌 1) 한국공개특허공보 제10-2005-0072699호
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 본 발명의 목적은 문서 이미지 내의 테이블을 정확히 검출하여 구조 이해가 쉬운 형태의 데이터로 변환하는 것이다.
본 발명의 다른 목적은 테이블 검출을 위한 모델을 학습하기 위한 학습 데이터의 품질을 높이고 다양한 형태의 학습 데이터를 생성하는 것이다.
이를 위해, 본 발명에 따른 테이블 검출을 위한 모델을 학습하기 위한 학습 데이터를 생성하는 장치는 PDF 문서를 입력받아 PDF 문서로부터 테이블 정보를 추출하고 PDF 문서를 문서 이미지로 변환하는 문서 변환부와, 상기 테이블 정보 및 문서 이미지를 이용해 상기 문서 이미지에서 오류가 있는 페이지를 삭제하여 정제된 문서 이미지를 출력하는 이미지 정제부와, 상기 정제된 문서 이미지에 여러 형태의 노이즈를 반영하여 문서 이미지의 테이블 검출 학습에 사용할 문서 이미지를 생성하는 학습데이터 생성부를 포함한다.
본 발명에 따른 문서 이미지의 테이블 검출 장치는 앵커 박스의 사전정보를 포함하는 문서 이미지를 입력받아 특징맵을 생성하는 특징 추출부와, 상기 특징맵을 입력받아 앵커 박스의 클래스 및 박스정보를 출력하는 후보 검출부와, 상기 후보 검출부에서 후보 셀로 분류한 박스 이미지를 입력받아 박스 이미지의 클래스 및 박스정보를 출력하는 셀 분류부를 포함한다.
본 발명에 따른 학습 데이터 생성 방법은 컴퓨팅 장치에서 수행되는 문서 이미지의 테이블 검출 학습에 사용할 문서 이미지를 생성하는 방법으로서, PDF 문서를 입력받아 PDF 문서로부터 테이블 정보를 추출하고 PDF 문서를 문서 이미지로 변환하는 단계와, 상기 테이블 정보 및 문서 이미지를 이용해 상기 문서 이미지에서 오류가 있는 페이지를 삭제하여 정제된 문서 이미지를 출력하는 단계와, 상기 정제된 문서 이미지에 여러 형태의 노이즈를 반영하여 문서 이미지의 테이블 검출 학습에 사용할 문서 이미지를 생성하는 단계를 포함한다.
본 발명에 따른 문서 이미지의 테이블 검출 방법은 컴퓨팅 장치에서 수행되는 문서 이미지에 포함된 테이블을 검출하는 방법으로서, 앵커 박스의 사전정보를 포함하는 문서 이미지를 입력받아 특징맵을 생성하는 단계와, 상기 특징맵을 입력받아 앵커 박스의 클래스 및 박스정보를 출력하는 단계와, 상기 앵커 박스의 클래스 값에 따라 후보 셀로 분류한 박스 이미지를 입력받아 박스 이미지의 클래스 및 박스정보를 출력하는 단계를 포함한다.
본 발명에 따른 문서 이미지의 테이블 검출 방법은 컴퓨팅 장치에서 수행되는 문서 이미지에 포함된 테이블을 검출하는 방법으로서, PDF 문서를 입력받아 문서 이미지의 테이블 검출 학습에 사용할 문서 이미지를 생성하는 학습 데이터 생성 단계와, 상기 문서 이미지, 상기 문서 이미지에 포함된 앵커 박스의 사전정보, 각 앵커 박스의 클래스, 앵커 박스와 중첩되는 박스의 좌표 및 크기를 입력 데이터로 사용하여 후보 셀을 분류하는 모델을 학습시키는 제1 모델 학습 단계와, 상기 후보 셀로 분류한 박스 이미지, 해당 박스의 클래스 및 박스정보를 입력 데이터로 사용하여 실제 셀을 분류하는 모델을 학습시키는 제2 모델 학습 단계와, 상기 후보 셀을 분류하는 모델을 이용해 앵커 박스의 사전정보를 포함하는 문서 이미지를 입력받아 앵커 박스의 클래스 및 박스정보를 출력하는 후보 셀 분류 단계와, 상기 실제 셀을 분류하는 모델을 이용해 상기 앵커 박스의 클래스 값에 따라 후보 셀로 분류한 박스 이미지를 입력받아 박스 이미지의 클래스 및 박스정보를 출력하는 셀 분류 단계를 포함한다.
상술한 바와 같이, 본 발명은 PDF 문서에서 문서 이미지 및 테이블 정보를 추출하여 학습 데이터로 사용하기 때문에 종래 사람이 수작업으로 문서 이미지에서 테이블 정보에 대한 레이블링 작업을 할 필요가 없어서 레이블링의 수고를 덜고 대량으로 학습 데이터를 확보할 수 있다.
또한 문서 이미지에서 테이블이 있는 것으로 오인된 페이지를 삭제하여 정제된 문서 이미지를 생성할 수 있어서 학습 데이터의 품질을 높일 수 있다.
또한 정제된 문서 이미지에 다양한 형태의 노이즈를 반영하여 임의성을 극대화함으로써 테이블 검출 모델의 성능을 개선할 수 있는 효과가 있다.
또한 본 발명은 후보 셀 박스들을 획득한 다음 후보 셀 박스 이미지들에서 셀과 배경을 분류하는 과정을 여러 번 거침으로써 실제 셀만을 분류하여 정확하게 테이블을 검출할 수 있는 효과가 있다.
도 1은 본 발명에 따른 문서 이미지의 테이블 검출 시스템의 개략적인 내부 구성을 나타낸 도면.
도 2는 본 발명에 따른 학습 데이터 생성장치의 내부 구성을 나타낸 도면.
도 3은 본 발명에 따른 문서 이미지의 테이블 검출 장치의 내부 구성을 나타낸 도면.
도 4는 본 발명에 따라 문서 이미지의 테이블 검출을 위한 전체적인 과정을 나타낸 순서도.
도 5는 본 발명에 따른 학습 데이터의 생성 과정을 나타낸 순서도.
도 6은 본 발명에 따른 문서 이미지의 테이블 검출 과정을 나타낸 순서도.
도 7은 본 발명에 따른 문서 이미지의 테이블 검출 과정을 도식화한 도면.
도 8은 본 발명에 따라 문서 이미지에서 테이블이 검출되는 모습을 나타낸 도면.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
또한, 명세서에 기재된 "……부", "…… 모듈" 의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하, 도면을 참조로 하여 본 발명의 실시예에 따른 문서 이미지의 테이블 검출 시스템 및 방법에 대하여 상세히 설명한다.
도 1은 본 발명에 따른 문서 이미지의 테이블 검출 시스템의 개략적인 구성을 나타낸 것이다.
본 발명에 따른 문서 이미지의 테이블 검출 시스템은 문서 이미지의 테이블 검출을 위한 모델을 학습하는데 사용하는 문서 이미지들을 생성하고 이 문서 이미지들을 이용해 모델을 학습시켜 모델을 통해 문서 이미지에 포함된 테이블을 검출한다.
본 발명에 따른 문서 이미지의 테이블 검출 시스템은 학습 데이터 생성 장치(100) 및 테이블 검출 장치(200)를 포함하나, 각 장치는 별도로 존재할 수 있고 하나의 장치로 통합될 수 있다. 이에 따라 문서 이미지의 테이블 검출 시스템은 하나의 퍼스널 컴퓨터(PC)이거나 전용 컴퓨팅 장치가 될 수 있고, 또는 각 장치가 퍼스널 컴퓨터이거나 전용 컴퓨팅 장치로 구성될 수 있다.
학습 데이터 생성 장치(100)는 PDF 문서를 입력받아 문서 이미지의 테이블 검출 학습에 사용할 문서 이미지를 생성한다.
테이블 검출 장치(200)는 학습 데이터 생성 장치(100)에서 생성된 문서 이미지를 이용하여 학습되며 학습이 완료되면 학습 데이터 생성 장치(100)와 분리되어 새로운 문서 이미지를 입력받아 문서 이미지에 포함된 테이블을 검출하는 동작을 수행한다.
테이블 검출 장치(200)에는 문서 이미지에 포함된 테이블에서 테이블을 구성하는 셀(cell)들을 1차 추출하는 후보 검출 모델과 1차 추출한 후보 셀에서 실제 셀을 분류하는 모델이 적용되어 있다. 여기서 실제 셀을 분류하는 모델은 복수 개로 구성될 수 있다.
테이블 검출 장치(200)는 문서 이미지에 포함된 테이블을 검출한 후 테이블 정보를 이용해 이미지 테이블을 구조 이해가 쉬운 엑셀 테이블로 변환하는 동작을 수행할 수 있다.
도 2는 본 발명에 따른 학습데이터 생성 장치(100)의 개략적인 내부 구성을 나타낸 것이다.
도 2를 참조하면, 본 발명에 따른 학습데이터 생성 장치(100)는 문서 변환부(102), 이미지 정제부(104), 학습데이터 생성부(106) 등을 포함한다.
문서 변환부(102)는 PDF 문서를 입력 받아 문서 이미지와 테이블 정보를 출력한다. PDF 문서에는 테이블을 이루는 셀의 위치 및 크기에 대한 정보가 포함되어 있어서, 문서 변환부(102)는 PDF 문서로부터 테이블 정보를 추출하고 PDF 문서를 이미지로 변환할 수 있다.
이미지 정제부(104)는 문서 변환부(102)로부터 입력받은 문서 이미지 및 테이블 정보를 이용해 문서 이미지에서 오류가 있는 페이지를 삭제한다. 이미지 정제부(104)는 테이블의 셀 위치 및 크기에 근거해 연산을 수행하고 그 연산 결과가 특정 조건을 만족하면 해당 페이지에 잘못된 정보가 포함된 것으로 인식하여 문서 이미지에서 해당 페이지를 삭제함으로써 학습데이터로 사용될 문서 이미지를 정제하게 된다.
학습데이터 생성부(106)는 상기 정제된 문서 이미지에 대해 여러 형태의 노이즈를 반영하여 다양한 노이즈가 포함된 문서 이미지를 생성한다. 다양한 노이즈가 포함된 문서 이미지와 문서 이미지의 테이블 정보가 학습 데이터가 된다.
PDF 문서로부터 얻은 문서 이미지는 노이즈가 거의 없는 깨끗한 이미지일 가능성이 매우 높기 때문에 다양한 노이즈가 포함된 문서 이미지에 대한 학습 능력이 떨어질 수 있다. 이에 따라 임의성(randomness) 극대화를 위해 문서 이미지에 다양한 형태의 노이즈가 포함될 수 있도록 이미지 처리를 수행한다.
도 3은 본 발명에 따른 문서 이미지의 테이블 검출 장치(200)의 개략적인 내부 구성을 나타낸 것이다.
도 3을 참조하면, 본 발명에 따른 문서 이미지의 테이블 검출 장치(200)는 특징 추출부(202), 후보 검출부(204), 셀 분류부(206), 테이블 변환부(208) 등을 포함한다.
특징 추출부(202)는 문서 이미지를 입력받아 특징맵(feature map)을 생성한다. 특징 추출부(202)는 컨벌루션 신경망(CNN)을 통해 문서 이미지로부터 특징맵을 생성할 수 있다.
문서 이미지에는 앵커 박스(anchor box)의 사전정보(크기 및 비율)가 포함되어 있다. 여기서 앵커 박스란 문서 이미지에 적용된 소정의 입력 박스를 말한다.
후보 검출부(204)는 픽셀 기반 분류 신경망으로서 특징 추출부(202)의 특징맵을 입력받아 앵커 박스의 클래스(class)와 박스정보(box regression)를 출력한다.
여기서 클래스는 앵커 박스가 셀(cell)인지 배경인지를 분류하는 것이고, 박스정보는 셀로 분류된 박스의 좌표(x, y) 및 크기(w, h)를 말한다.
셀 분류부(206)는 후보 검출부(204)에서 출력한 박스 이미지(crop image)를 입력받아 박스 이미지의 클래스와 박스정보를 출력한다. 마찬가지로 클래스는 박스 이미지가 셀인지 배경인지 분류하는 것이고, 박스정보는 셀로 분류된 박스의 좌표 및 크기를 말한다.
테이블 변환부(208)는 문서 이미지의 테이블을 구조 이해가 가능한 형태의 데이터로 변환한다. 본 발명의 실시예에서 테이블 변환부(208)는 셀 분류부(206)에서 출력한 박스정보를 입력받아 엑셀 테이블을 생성할 수 있다. 구체적으로 테이블 변환부(208)는 박스정보에서 상하좌우 각 변을 공유하는 칸들의 집합을 찾고, 각 칸의 열 번호 및 컬럼 번호를 확인하여 칸을 합치면 동일한 모양의 엑셀 테이블을 생성하게 된다.
도 4은 본 발명에 따른 문서 이미지의 테이블 검출 과정의 전체적인 순서도를 나타낸 것이다.
도 4를 참조하면, 먼저 문서 이미지의 테이블 검출 학습에 사용할 문서를 수집한다(S10).
문서 수집 단계(S10)에서, 테이블을 포함할 가능성이 높은 특정 주제와 관련한 단어를 검색어로 사용하여 해당 단어를 포함하는 PDF 문서를 검색할 수 있다. 이때 일반적인 크롤링(crawling) 기법을 사용하여 PDF 문서를 수집할 수 있다.
다음, 수집한 PDF 문서를 이용하여 학습 데이터 생성 단계(S20)를 수행한다.
학습 데이터 생성 단계(S20)에서, PDF 문서로부터 테이블 정보(셀 위치 및 크기)를 추출하고 PDF 문서를 이미지로 변환한 후 이미지에 대한 정제 작업 및 노이즈 적용 작업을 수행한다.
학습 데이터가 만들어지면, 테이블 검출을 위한 모델을 학습시키기 위한 학습 단계(S30)를 수행한다.
학습 단계(S30)에서, 문서 이미지의 테이블을 구성하는 셀(cell)들을 1차 추출하는 후보 검출 모델과 1차 추출한 후보 셀에서 실제 셀을 분류하는 모델을 학습시킨다.
도 7을 참조하여, 후보 검출 모델(204)을 학습시키는 과정과 셀 분류 모델(206)을 학습시키는 과정을 설명한다.
후보 검출 모델(204)은 후보 검출부(204)에 적용되는 학습 모델이며, 셀 분류 모델(204)은 셀 분류부(206)에 적용되는 학습 모델이므로, 각각 동일한 도면부호를 사용하기로 한다.
후보 검출 모델(204)을 학습시키는 과정은 입력 받은 문서 이미지에 포함된 전체 앵커 박스에 대해 정답 데이터(Ground Truth)(클래스, 셀 좌표 및 크기)와의 분류(classification) 및 회귀(regression) 손실 계산을 통해 수행된다.
정답 데이터는 분류 레이블과 회귀 레이블로 구성되는데, 분류 레이블은 앵커 박스(즉, 입력 박스)와 겹치는 박스를 셀로 정의하는 것이고, 회귀 레이블은 셀로 분류된 박스의 좌표(x, y) 및 크기(w, h)를 말한다.
이와 같이 후보 검출 모델(204)은 문서 이미지, 문서 이미지에 포함된 앵커 박스의 사전정보, 각 앵커 박스의 클래스, 앵커 박스와 중첩되는 박스의 좌표 및 크기를 입력 데이터로 사용하고 신경망을 통해 출력되는 데이터(앵커 박스의 클래스, 앵커 박스정보)와의 차이가 최소가 되는 방향으로 학습된다.
셀 분류 모델(206)을 학습시키는 과정도 후보 검출 모델(204)을 통해 후보 셀로 분류한 박스 이미지, 해당 박스의 클래스 및 박스정보를 입력 데이터로 사용하고 신경망을 통해 출력되는 데이터(박스 이미지의 클래스, 박스정보)와의 차이가 최소가 되는 방향으로 학습된다.
학습이 완료되면, 새로운 문서 이미지를 입력받아 문서 이미지에 포함된 테이블을 검출하는 단계(S40)를 수행한다.
테이블 검출 단계(S40)에서, 후보 검출 모델을 이용해 앵커 박스의 사전정보를 포함하는 문서 이미지를 입력받아 앵커 박스의 클래스 및 박스정보를 출력하고, 셀 분류 모델을 이용해 앵커 박스의 클래스 값에 따라 후보 셀로 분류한 박스 이미지를 입력받아 박스 이미지의 클래스 및 박스정보를 출력한다.
도 5는 본 발명에 따른 학습 데이터 생성 과정을 구체적으로 나타낸 순서도이다.
도 5에 도시된 각 단계는 본 발명에 따른 학습 데이터 생성 장치에서 수행된다. 구체적으로 각 단계는 학습 데이터 생성장치의 각 기능(이미지 변환, 이미지 정제, 노이즈 적용)을 가진 해당 소프트웨어 또는 하드웨어에 의해 수행되나, 설명의 편의 상 문서 학습 데이터 생성장치가 각 단계를 수행하는 것으로 설명한다.
도 5를 참조하면, 먼저 학습 데이터 생성장치는 PDF 문서를 입력받아 PDF 문서에 포함된 테이블 정보를 추출하고 PDF 문서를 이미지로 변환한다(S22).
PDF 문서를 이미지로 변환한 후, 학습 데이터 생성장치는 문서 이미지에서 오류가 있는 페이지를 삭제하는 문서 이미지 정제 작업을 수행한다(S24).
즉, 테이블 정보에 포함된 셀 위치 및 크기에 근거해 연산을 수행하고 그 연산 결과가 다음의 조건에 해당하면 그 조건을 갖는 페이지를 문서 이미지에서 삭제한다.
1) 검출된 테이블 내부에 하나의 셀만 존재하는 경우
이 경우는 테이블이라기보다는 텍스트 박스인 경우가 많고, 종종 페이지 전체에 테두리가 둘러져 있어서 테이블로 인식되는 경우가 많기 때문이다.
2) 검출된 테이블 안에 테이블이 또 존재하는 경우
이 경우는 테이블 안에 테이블이 존재하거나 페이지 전체에 테두리가 쳐진 경우로서 검출에 악영향을 줄 수 있기 때문이다.
3) 테이블 안에 검출된 셀 영역의 넓이의 합이 테이블 영역의 넓이보다 큰 경우
이 경우는 테이블이라고 오인한 그림이거나 페이지의 레이아웃을 테이블로 오인하는 경우가 많기 때문이다.
4) 테이블 안에 검출된 셀 영역의 넓이의 합이 테이블 영역의 넓이보다 작은 경우
기본적인 테이블 검출 알고리즘은 테이블의 선을 기반으로 검출하므로 테이블의 선이 생략되면 테이블 안의 셀을 놓치는 경우가 발생하기 때문에 데이터의 일관성을 위해 해당 페이지를 삭제한다.
이와 같이 특정 조건에 해당하는 페이지를 삭제하여 문서 이미지를 정제한 후, 학습 데이터 생성장치는 정제된 문서 이미지에 노이즈를 반영하는 작업을 수행한다(S26).
즉, 학습 데이터 생성장치는 랜덤 극대화를 위해 다양한 형태의 노이즈를 만들어 문서 이미지에 적용한다. 문서 이미지에 노이즈를 적용하는 작업으로는 이미지 전체를 흐리게 하는 블러(blur) 효과를 적용하는 것, 이미지 전체에 흰색 점(salt noise)을 적용하는 것, 이미지 전체에 검은 점(pepper noise)을 적용하는 것, 테이블의 선이 다양한 형태(두께, 색상, 형상)가 되도록 선을 생성하는 것, 테이블의 선이 보이지 않는 상황을 가정하여 임의의 선을 제거하는 것 등이 포함될 수 있다.
도 6은 본 발명에 따른 문서 이미지의 검출 과정을 나타낸 순서도이다.
마찬가지로 도 6에 도시된 각 단계는 본 발명에 따른 문서 이미지의 테이블 검출 장치에서 수행된다. 구체적으로 각 단계는 문서 이미지의 테이블 검출 장치의 각 기능(특징맵 추출, 후보 셀 검출, 셀 분류)을 가진 해당 소프트웨어 또는 하드웨어에 의해 수행되나, 설명의 편의 상 문서 이미지의 테이블 검출 장치가 각 단계를 수행하는 것으로 설명한다.
도 6을 참조하면, 학습이 완료된 문서 이미지의 테이블 검출 장치는 새로운 문서 이미지를 입력받아 문서 이미지로부터 특징 맵을 추출한다(S42).
다음, 문서 이미지의 테이블 검출 장치는 특징 맵으로부터 벡터값을 입력받아 후보 검출 신경망 모델을 통해 문서 이미지에 포함된 앵커 박스의 클래스 및 박스정보를 출력하여 후보 셀을 검출한다(S44).
후보 셀이 검출되면, 문서 이미지의 테이블 검출 장치는 후보 셀에 대응하는 박스 이미지를 입력받아 셀 분류 신경망 모델을 통해 박스 이미지의 클래스 및 박스정보를 출력함으로써 실제 셀을 분류한다(S46).
도 8을 참조하면, (a)는 테이블이 포함된 문서 이미지를 나타내고, (b)는 문서 이미지가 후보 검출 신경망 모델을 통과한 결과로서 문서 이미지에 후보 셀이 정의된 모습을 나타낸 것이고, (c)는 후보 셀이 정의된 문서 이미지가 셀 분류 신경망 모델을 통과한 결과로서 문서 이미지에 실제 셀이 분류되어 테이블이 검출된 모습을 나타낸 것이다.
이와 같이, 실제 셀이 분류되어 문서 이미지에서 테이블이 검출되면, 문서 이미지의 테이블 검출 장치는 검출한 테이블을 엑셀 테이블로 변환한다(S48).
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
100: 학습데이터 생성장치 102: 문서 변환부
104: 이미지 정제부 106: 학습데이터 생성부
200: 테이블 검출장치 202: 특징 추출부
204: 후보 검출부 206: 셀 분류부
208: 테이블 변환부

Claims (22)

  1. PDF 문서를 입력받아 PDF 문서로부터 테이블 정보를 추출하고 PDF 문서를 문서 이미지로 변환하는 문서 변환부와,
    상기 테이블 정보 및 문서 이미지를 이용해 상기 문서 이미지에서 오류가 있는 페이지를 삭제하여 정제된 문서 이미지를 출력하는 이미지 정제부와,
    상기 정제된 문서 이미지에 여러 형태의 노이즈를 반영하여 문서 이미지의 테이블 검출 학습에 사용할 문서 이미지를 생성하는 학습데이터 생성부를 포함하는 학습데이터 생성장치.
  2. 제1항에 있어서,
    상기 테이블 정보는 테이블을 구성하는 셀의 위치 및 크기에 대한 정보인 것을 특징으로 하는 학습데이터 생성장치.
  3. 제1항에 있어서,
    상기 이미지 정제부는 상기 추출한 테이블 내부에 셀이 하나만 존재하는 경우 문서 이미지에서 해당 페이지를 삭제하는 것을 특징으로 하는 학습데이터 생성장치.
  4. 제1항에 있어서,
    상기 이미지 정제부는 상기 추출한 테이블 내부에 테이블이 또 존재하는 경우 문서 이미지에서 해당 페이지를 삭제하는 것을 특징으로 하는 학습데이터 생성장치.
  5. 제1항에 있어서,
    상기 이미지 정제부는 상기 추출한 테이블 내부의 존재하는 셀 영역의 넓이의 합이 테이블 영역의 넓이와 다른 경우 문서 이미지에서 해당 페이지를 삭제하는 것을 특징으로 하는 학습데이터 생성장치.
  6. 제1항에 있어서,
    상기 학습데이터 생성부는 블러(blur) 효과, 이미지 전체의 흰색 점(salt noise), 이미지 전체의 검은 점(pepper noise), 테이블 라인 생성 및 테이블 라인 삭제 중의 적어도 하나를 상기 정제된 문서 이미지에 반영하는 것을 특징으로 하는 학습데이터 생성장치.
  7. 앵커 박스의 사전정보를 포함하는 문서 이미지를 입력받아 특징맵을 생성하는 특징 추출부와,
    상기 특징맵을 입력받아 앵커 박스의 클래스 및 박스정보를 출력하는 후보 검출부와,
    상기 후보 검출부에서 후보 셀로 분류한 박스 이미지를 입력받아 박스 이미지의 클래스 및 박스정보를 출력하는 셀 분류부를 포함하는 문서 이미지의 테이블 검출 장치.
  8. 제7항에 있어서,
    상기 앵커 박스는 문서 이미지 전체에 적용된 소정 크기의 입력 박스이고, 상기 앵커 박스의 사전정보는 입력 박스의 크기 및 비율인 것을 특징으로 하는 문서 이미지의 테이블 검출 장치.
  9. 제7항에 있어서,
    상기 앵커 박스의 클래스는 앵커 박스가 셀인지 배경인지를 나타내는 값이고, 박스정보는 셀로 분류된 박스의 좌표 및 크기인 것을 특징으로 하는 문서 이미지의 테이블 검출 장치.
  10. 제7항에 있어서,
    상기 박스 이미지의 박스정보를 입력받아 박스정보에서 상하좌우 각 변을 공유하는 칸들의 집합을 찾고 각 칸의 열 번호 및 컬럼 번호를 확인하여 칸을 합쳐 엑셀 테이블을 생성하는 테이블 변환부를 더 포함하는 것을 특징으로 하는 문서 이미지의 테이블 검출 장치.
  11. 제7항에 있어서,
    상기 후보 검출부는 상기 앵커 박스의 사전정보를 포함하는 문서 이미지, 각 앵커 박스의 클래스, 앵커 박스와 중첩되는 박스의 좌표 및 크기를 입력 데이터로 사용하여 학습되는 것을 특징으로 하는 문서 이미지의 테이블 검출 장치.
  12. 제7항에 있어서
    상기 셀 분류부는 상기 후보 검출부에서 셀로 분류한 박스 이미지, 해당 박스의 클래스 및 박스정보를 입력 데이터로 사용하여 학습되는 것을 특징으로 하는 문서 이미지의 테이블 검출 장치.
  13. 컴퓨팅 장치에서 수행되는 문서 이미지의 테이블 검출 학습에 사용할 문서 이미지를 생성하는 방법에 있어서,
    PDF 문서를 입력받아 PDF 문서로부터 테이블 정보를 추출하고 PDF 문서를 문서 이미지로 변환하는 단계와,
    상기 테이블 정보 및 문서 이미지를 이용해 상기 문서 이미지에서 오류가 있는 페이지를 삭제하여 정제된 문서 이미지를 출력하는 단계와,
    상기 정제된 문서 이미지에 여러 형태의 노이즈를 반영하여 문서 이미지의 테이블 검출 학습에 사용할 문서 이미지를 생성하는 단계를 포함하는 방법.
  14. 제13항에 있어서,
    상기 정제된 문서 이미지를 출력하는 단계는 상기 추출한 테이블 내부에 셀이 하나만 존재하는 경우 문서 이미지에서 해당 페이지를 삭제하는 것을 특징으로 하는 방법.
  15. 제13항에 있어서,
    상기 정제된 문서 이미지를 출력하는 단계는 상기 추출한 테이블 내부에 테이블이 또 존재하는 경우 문서 이미지에서 해당 페이지를 삭제하는 것을 특징으로 하는 방법.
  16. 제13항에 있어서,
    상기 정제된 문서 이미지를 출력하는 단계는 상기 추출한 테이블 내부의 존재하는 셀 영역의 넓이의 합이 테이블 영역의 넓이와 다른 경우 문서 이미지에서 해당 페이지를 삭제하는 것을 특징으로 하는 방법.
  17. 제13항에 있어서,
    상기 학습에 사용할 문서 이미지를 생성하는 단계는 블러(blur) 효과, 이미지 전체의 흰색 점(salt noise), 이미지 전체의 검은 점(pepper noise), 테이블 라인 생성 및 테이블 라인 삭제 중의 적어도 하나를 상기 정제된 문서 이미지에 반영하는 것을 특징으로 하는 방법.
  18. 컴퓨팅 장치에서 수행되는 문서 이미지에 포함된 테이블을 검출하는 방법에 있어서,
    앵커 박스의 사전정보를 포함하는 문서 이미지를 입력받아 특징맵을 생성하는 단계와,
    상기 특징맵을 입력받아 앵커 박스의 클래스 및 박스정보를 출력하는 단계와,
    상기 앵커 박스의 클래스 값에 따라 후보 셀로 분류한 박스 이미지를 입력받아 박스 이미지의 클래스 및 박스정보를 출력하는 단계를 포함하는 방법.
  19. 제18항에 있어서,
    상기 앵커 박스는 문서 이미지 전체에 적용된 소정 크기의 입력 박스이고, 상기 앵커 박스의 사전정보는 입력 박스의 크기 및 비율인 것을 특징으로 하는 방법.
  20. 제18항에 있어서,
    상기 앵커 박스의 클래스는 앵커 박스가 셀인지 배경인지를 나타내는 값이고, 박스정보는 셀로 분류된 박스의 좌표 및 크기인 것을 특징으로 하는 방법.
  21. 제18항에 있어서,
    상기 박스 이미지의 박스정보를 입력받아 박스정보에서 상하좌우 각 변을 공유하는 칸들의 집합을 찾고 각 칸의 열 번호 및 컬럼 번호를 확인하여 칸을 합쳐 엑셀 테이블을 생성하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  22. 컴퓨팅 장치에서 수행되는 문서 이미지에 포함된 테이블을 검출하는 방법에 있어서,
    PDF 문서를 입력받아 문서 이미지의 테이블 검출 학습에 사용할 문서 이미지를 생성하는 학습 데이터 생성 단계와,
    상기 문서 이미지, 상기 문서 이미지에 포함된 앵커 박스의 사전정보, 각 앵커 박스의 클래스, 앵커 박스와 중첩되는 박스의 좌표 및 크기를 입력 데이터로 사용하여 후보 셀을 분류하는 모델을 학습시키는 제1 모델 학습 단계와,
    상기 후보 셀로 분류한 박스 이미지, 해당 박스의 클래스 및 박스정보를 입력 데이터로 사용하여 실제 셀을 분류하는 모델을 학습시키는 제2 모델 학습 단계와,
    상기 후보 셀을 분류하는 모델을 이용해 앵커 박스의 사전정보를 포함하는 문서 이미지를 입력받아 앵커 박스의 클래스 및 박스정보를 출력하는 후보 셀 분류 단계와,
    상기 실제 셀을 분류하는 모델을 이용해 상기 앵커 박스의 클래스 값에 따라 후보 셀로 분류한 박스 이미지를 입력받아 박스 이미지의 클래스 및 박스정보를 출력하는 셀 분류 단계를 포함하는 방법.
KR1020220061655A 2022-05-19 2022-05-19 문서 이미지의 테이블 검출 시스템 및 방법 KR20230161819A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220061655A KR20230161819A (ko) 2022-05-19 2022-05-19 문서 이미지의 테이블 검출 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220061655A KR20230161819A (ko) 2022-05-19 2022-05-19 문서 이미지의 테이블 검출 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20230161819A true KR20230161819A (ko) 2023-11-28

Family

ID=88957529

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220061655A KR20230161819A (ko) 2022-05-19 2022-05-19 문서 이미지의 테이블 검출 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20230161819A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050072699A (ko) 2004-01-06 2005-07-12 마이크로소프트 코포레이션 위치적으로 인코딩된 문서 이미지 분석 및 레이블링

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050072699A (ko) 2004-01-06 2005-07-12 마이크로소프트 코포레이션 위치적으로 인코딩된 문서 이미지 분석 및 레이블링

Similar Documents

Publication Publication Date Title
Rao et al. OPTICAL CHARACTER RECOGNITION TECHNIQUE ALGORITHMS.
JP5031741B2 (ja) 文書視覚構造の文法的な解析
Jain et al. Document representation and its application to page decomposition
Mithe et al. Optical character recognition
Demilew et al. Ancient Geez script recognition using deep learning
US11494588B2 (en) Ground truth generation for image segmentation
US20220237397A1 (en) Identifying handwritten signatures in digital images using ocr residues
Nguyen et al. Multi-task model for comic book image analysis
Shehzadi et al. Towards end-to-end semi-supervised table detection with deformable transformer
Al Ghamdi A novel approach to printed Arabic optical character recognition
Droettboom et al. Using the Gamera framework for the recognition of cultural heritage materials
Koushik et al. Automated marks entry processing in handwritten answer scripts using character recognition techniques
Ali Nur et al. Handwritten Geez Digit Recognition Using Deep Learning
Fornés et al. The ICDAR/GREC 2013 music scores competition: Staff removal
CN116384344A (zh) 一种文档转换方法、装置及存储介质
Choudhary et al. Offline handwritten mathematical expression evaluator using convolutional neural network
KR20230161819A (ko) 문서 이미지의 테이블 검출 시스템 및 방법
Iskandar et al. The Application of Image Processing for Conversion of Handwritten Mathematical Expression
Duth et al. Recognition of hand written and printed text of cursive writing utilizing optical character recognition
Alzuru et al. Cooperative human-machine data extraction from biological collections
Naga Manisha et al. Glyph segmentation for offline handwritten Telugu characters
Agegnehu et al. Offline Handwritten Amharic Digit and Punctuation Mark Script Recognition using Deep learning
Abhishek et al. Multilingual translational optical character recognition system for printed Telugu text
Gomes Rocha et al. SPEdu: a toolbox for processing digitized historical documents
Hamplová et al. Character Segmentation in the Development of Palmyrene Aramaic OCR