KR101811581B1 - 문서 이미지에서 표 인식을 위한 장치 및 방법 - Google Patents

문서 이미지에서 표 인식을 위한 장치 및 방법 Download PDF

Info

Publication number
KR101811581B1
KR101811581B1 KR1020160152159A KR20160152159A KR101811581B1 KR 101811581 B1 KR101811581 B1 KR 101811581B1 KR 1020160152159 A KR1020160152159 A KR 1020160152159A KR 20160152159 A KR20160152159 A KR 20160152159A KR 101811581 B1 KR101811581 B1 KR 101811581B1
Authority
KR
South Korea
Prior art keywords
image
cell structure
text
line
cell
Prior art date
Application number
KR1020160152159A
Other languages
English (en)
Inventor
김경선
금지수
김수형
이귀상
양형정
나인섭
투안안
홍타이
Original Assignee
주식회사 셀바스에이아이
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀바스에이아이, 전남대학교산학협력단 filed Critical 주식회사 셀바스에이아이
Priority to KR1020160152159A priority Critical patent/KR101811581B1/ko
Application granted granted Critical
Publication of KR101811581B1 publication Critical patent/KR101811581B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • G06K9/00449
    • G06K9/2054
    • G06K9/344
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

본 개시에 일 실시예에 따른 문서 이미지에서 하나 이상의 셀을 포함하는 표를 인식하는 장치가 개시된다. 상기 장치는 상기 문서 이미지에서 표 영역 이미지를 인식하는 이미지 인식 모듈, 상기 인식된 표 영역 이미지에서 라인 성분을 추출한 라인 이미지를 생성하고, 상기 표 영역 이미지에서 텍스트 성분을 추출한 텍스트 이미지를 생성하고, 그리고 상기 텍스트 이미지에 기초하여 텍스트 블록 이미지를 생성하는 전처리 모듈, 상기 라인 이미지에 기초하여 라인 기반 셀 구조를 생성하고, 상기 텍스트 블록 이미지에 기초하여 텍스트 블록 기반 셀 구조를 생성하고, 그리고 상기 라인 기반 셀 구조와 상기 텍스트 블록 기반 셀 구조를 비교하여, 결과 셀 구조를 생성하는 셀 구조 분석 모듈 및 상기 라인 이미지, 상기 텍스트 이미지 및 상기 결과 셀 구조 중 적어도 하나에 기초하여 결과 표를 생성하는 결과 표 생성 모듈을 포함할 수 있다.

Description

문서 이미지에서 표 인식을 위한 장치 및 방법{APARATUS AND METHOD FOR CELL DECOMPOSITION FOR A TABLE RECOGNITION IN DOCUMENT IMAGE}
본 개시는 문서 이미지에서 표 인식 장치 및 방법에 관한 것으로서, 보다 구체적으로는 문서 이미지에서 표의 라인 성분 및 텍스트 성분에 기초하여 표를 인식하기 위한 장치 및 방법에 관한 것이다.
OCR(광학 문자 판독)은 문서의 이미지에서 문서의 레이아웃, 글자 등을 추출하기 위한 기술이다. OCR을 통해 문서의 이미지에 포함된 텍스트가 인식되어 편집 가능한 문서로 변환될 수 있다. 문서 이미지에서 문서의 레이아웃을 분석하여 문서의 표를 인식하는 방법에 관해서는 여러 접근이 있다.
표 분해는 표 구조와 셀 분해 이해에 초점을 두는 문서 레이아웃 분석의 일부이다. 또한, ICDAR(International Conference on Document Analysis and Recognition)에서 직접 다루는 분야 중 하나이기도 하다. 2004년, 2013년, 2015년도 ICDAR에서는 표 분해에 대한 몇가지 눈에 띄는 방법을 보여주었다. 하지만, 동시에 대부분의 방법이 PDF 파일 상에서의 처리에 한계가 있음을 보여주었다.
대한민국 특허공개공보 KR19950012276A(1995-05-16)에는 인쇄된 문서의 광학 문자 인식을 향상시키기 위해 문서의 배치와 내용에 따라 상하, 좌우에 대한 이진값을 검출하여 인식되는 문서의 구조를 이해하는 방법이 개시되어 있다.
하지만, 대부분은 표 분해(또는, 표 구조 이해)를 할 때 PDF 파일에 초점을 두고 있을 뿐, 실생활에서는 많이 사용되는 프린팅 된 문서에서 레이아웃을 분석하여 문서화하는 접근은 드물다.
따라서, 문서를 인식한 이미지에서 라인 성분 및 텍스트 성분을 추출하여 표를 인식할 수 있는 장치 및 방법에 대한 수요가 당 업계에 존재할 수 있다.
본 개시는 전술한 배경기술에 대응하여 안출된 것으로, 문서 이미지에서 라인 성분 및 텍스트 성분에 기초한 표 인식 장치 및 방법을 제공할 수 있다.
전술한 바와 같은 과제를 실현하기 위한 본 개시의 일 실시 예에 따른 문서 이미지에서 하나 이상의 셀을 포함하는 표를 인식하는 장치가 개시된다. 상기 장치는 상기 문서 이미지에서 표 영역 이미지를 인식하는 이미지 인식 모듈, 상기 인식된 표 영역 이미지에서 라인 성분을 추출한 라인 이미지를 생성하고, 상기 표 영역 이미지에서 텍스트 성분을 추출한 텍스트 이미지를 생성하고, 그리고 상기 텍스트 이미지에 기초하여 텍스트 블록 이미지를 생성하는 전처리 모듈, 상기 라인 이미지에 기초하여 라인 기반 셀 구조를 생성하고, 상기 텍스트 블록 이미지에 기초하여 텍스트 블록 기반 셀 구조를 생성하고, 그리고 상기 라인 기반 셀 구조와 상기 텍스트 블록 기반 셀 구조를 비교하여, 결과 셀 구조를 생성하는 셀 구조 분석 모듈 및 상기 라인 이미지, 상기 텍스트 이미지 및 상기 결과 셀 구조 중 적어도 하나에 기초하여 결과 표를 생성하는 결과 표 생성 모듈을 포함할 수 있다.
대안적으로, 상기 텍스트 블록 이미지는 상기 텍스트 이미지 상의 상기 텍스트 성분이 사전 설정된 높이의 블록을 포함하는 텍스트 블록으로 일대일 대체되어 구성되는 이미지를 포함할 수 있다.
대안적으로, 상기 텍스트 블록 이미지는 상기 텍스트 성분의 사전 설정된 수평 거리 이내에 인근 텍스트 성분이 위치하는 경우, 상기 인근 텍스트 성분을 포함하는 상기 텍스트 성분의 일부로 판단하여 상기 텍스트 블록 이미지에 포함할 수 있다.
대안적으로, 상기 전처리 모듈은 상기 표 영역 이미지 상에서 수평 방향, 또는 수직 방향으로 밀집된 픽셀들을 상기 라인 성분으로 판단할 수 있다.
대안적으로, 상기 전처리 모듈은 상기 라인 이미지와 상기 텍스트 이미지를 병합하여 검토 이미지를 생성하고, 상기 검토 이미지 상에서 상기 라인 성분과 상기 텍스트 성분이 동일한 픽셀에 위치하는 경우, 상기 라인 성분을 텍스트 성분의 일부로 판단하는 검토 서브-모듈을 포함할 수 있다.
대안적으로, 상기 셀 구조 분석 모듈은 상기 라인 이미지 상에서 상기 라인 성분이 존재하지 않는 경우, 상기 텍스트 블록 기반 셀 구조에 기초하여 상기 결과 셀 구조를 생성할 수 있다.
대안적으로, 상기 셀 구조 분석 모듈은 상기 텍스트 블록 이미지 상에서 텍스트 블록에 포함되지 않는 수직, 또는 수평 방향으로 연속된 픽셀로 구성되는 라인을 기준으로 상기 텍스트 블록 기반 셀 구조를 생성할 수 있다.
대안적으로, 상기 셀 구조 분석 모듈은 상기 라인 이미지 상의 상기 라인 성분에 기초하여 헤더 영역―상기 헤더 영역은 상기 라인 성분으로 둘러싸인 영역 중 최상단 영역을 포함함―을 그룹화하고, 그리고 상기 헤더 영역에 텍스트 블록이 위치하는지 여부에 기초하여 상기 헤더 영역의 하부 영역을 분할하여 상기 라인 기반 셀 구조를 생성할 수 있다.
대안적으로, 상기 셀 구조 분석 모듈은 상기 하부 영역에 포함되는 분할된 수직 방향 셀 중 상기 텍스트 성분이 위치하는 셀의 비율이 사전 설정된 비율 이하인 경우, 상기 수직 방향 셀을 각각 수평 방향 인접 셀과 병합하는 공백 셀 병합 서브-모듈을 포함할 수 있다.
대안적으로, 상기 셀 구조 분석 모듈은 상기 텍스트 블록 기반 셀 구조의 첫 행에서 타이틀 셀―상기 타이틀 셀은 첫 행에서 텍스트 블록이 위치하는 셀을 포함함―의 수평 방향 인접 셀이 상기 텍스트 블록을 포함하지 않는 경우, 상기 타이틀 셀 및 상기 수평 방향 인접 셀을 병합하는 타이틀 셀 병합 서브-모듈을 포함할 수 있다.
대안적으로, 상기 셀 구조 분석 모듈은 상기 텍스트 블록 기반 셀 구조가 포함하는 하나의 셀 너비, 또는 높이가 상기 텍스트 성분의 높이 중간 값의 절반 이하인 경우, 상기 하나의 셀을 노이즈로 판단하여 인접 셀과 병합하는 노이즈 제거 서브-모듈을 포함할 수 있다.
대안적으로, 상기 셀 구조 분석 모듈은 상기 라인 기반 셀 구조가 포함하는 각각의 셀이 상기 텍스트 블록 기반 셀 구조가 포함하는 각각의 셀과 일대일 대응으로 일치하는 경우, 상기 표의 셀 구조를 폐쇄형 셀 구조로 판단하고, 상기 판단에 기초하여 상기 라인 기반 셀 구조에 기초하여 상기 결과 셀 구조를 생성하고, 그리고 상기 결과 표 생성 모듈은 상기 결과 셀 구조에 상기 텍스트 이미지를 병합한 상기 결과 표를 생성할 수 있다.
대안적으로, 상기 셀 구조 분석 모듈은 상기 라인 기반 셀 구조가 포함하는 각각의 셀이 상기 텍스트 블록 기반 셀 구조가 포함하는 각각의 셀과 일치하지 않는 경우, 상기 표의 셀 구조를 개방형 셀 구조로 판단하고, 상기 판단에 기초하여 상기 라인 기반 셀 구조 및 상기 텍스트 블록 기반 셀 구조에 기초하여 상기 결과 셀 구조를 생성하고, 그리고 상기 결과 표 생성 모듈은 상기 결과 셀 구조에 상기 텍스트 이미지를 병합한 상기 결과 표를 생성할 수 있다.
또한, 본 개시의 일 실시 예에 따른 문서 이미지에서 표를 인식하는 장치가 하나 이상의 셀을 포함하는 상기 표를 인식하는 방법이 개시된다. 상기 방법에 있어서 이미지 인식 모듈이 상기 문서 이미지에서 표 영역 이미지를 인식하는 단계, 전처리 모듈이 상기 표 영역 이미지에 기초하여 라인 이미지, 텍스트 이미지 및 텍스트 블록 이미지를 생성하는 전처리 단계, 상기 전처리 단계는 상기 전처리 모듈이 상기 인식된 표 영역 이미지에서 라인 성분을 추출한 상기 라인 이미지 및 상기 표 영역 이미지에서 텍스트 성분을 추출한 상기 텍스트 이미지를 생성하는 단계 및 상기 전처리 모듈이 상기 텍스트 이미지에 기초하여 상기 텍스트 블록 이미지를 생성하는 단계를 포함하고, 셀 구조 분석 모듈이 상기 표 영역 이미지의 결과 셀 구조를 생성하는 단계 및 상기 결과 셀 구조를 생성하는 단계는 상기 셀 구조 분석 모듈이 상기 라인 이미지에 기초하여 라인 기반 셀 구조 및 상기 텍스트 블록 이미지에 기초하여 텍스트 블록 기반 셀 구조를 생성하는 단계 및 상기 셀 구조 분석 모듈이 상기 라인 기반 셀 구조와 상기 텍스트 블록 기반 셀 구조를 비교하여, 상기 결과 셀 구조를 생성하는 단계를 포함하고, 결과 표 생성 모듈이 상기 라인 이미지, 상기 텍스트 이미지 및 상기 결과 셀 구조 중 적어도 하나에 기초하여 결과 표를 생성하는 단계를 포함할 수 있다.
본 개시는 문서 이미지에서 라인 성분 및 텍스트 성분에 기초한 표 인식 장치 및 방법을 제공할 수 있다.
도 1은 본 개시의 일 실시예에 따른 표 셀 분해 장치의 블록 구성도(Block diagram)이다.
도 2는 본 개시의 일 실시예에 따른 표 영역 이미지에 기초한 라인 이미지, 텍스트 이미지 및 텍스트 블록 이미지의 예시도이다.
도 3은 본 개시의 일 실시예에 따른 라인 이미지 기반 셀 구조에 기초한 결과 표 생성의 예시도이다.
도 4는 본 개시의 일 실시예에 따른 라인 이미지 기반 셀 구조 및 텍스트 블록 이미지 기반 셀 구조에 기초한 결과 표 생성의 예시도이다.
도 5는 본 개시의 일 실시예에 따른 문서 이미지에서 표를 인식하는 장치가 하나 이상의 셀을 포함하는 표를 인식하는 방법의 순서도(Flow-chart)다.
도 6은 본 개시의 일 실시예에 따른 셀 구조 분석 모듈의 동작 예시도이다.
도 7은 본 개시의 일 실시예에 따른 공백 셀 병합 서브-모듈의 동작 예시도이다.
다양한 실시예들이 이제 도면을 참조하여 설명되며, 전체 도면에서 걸쳐 유사한 도면번호는 유사한 구성요소를 나타내기 위해서 사용된다. 본 명세서에서, 다양한 설명들이 본 개시의 이해를 제공하기 위해서 제시된다. 그러나 이러한 실시예들은 이러한 구체적인 설명 없이도 실행될 수 있음이 명백하다. 다른 예들에서, 공지된 구조 및 장치들은 실시예들의 설명을 용이하게 하기 위해서 블록 다이어그램 형태로 제공된다.
본 명세서에서 사용되는 용어 "컴포넌트", "모듈", "시스템" 등은 컴퓨터-관련 엔티티, 하드웨어, 펌웨어, 소프트웨어, 소프트웨어 및 하드웨어의 조합, 또는 소프트웨어의 실행을 지칭한다. 예를 들어, 컴포넌트는 프로세서상에서 실행되는 처리과정, 프로세서, 객체, 실행 스레드, 프로그램, 및/또는 컴퓨터일 수 있지만, 이들로 제한되는 것은 아니다. 예를 들어, 컴퓨팅 장치에서 실행되는 애플리케이션 및 컴퓨팅 장치 모두 컴포넌트일 수 있다. 하나 이상의 컴포넌트는 프로세서 및/또는 실행 스레드 내에 상주할 수 있고, 일 컴포넌트는 하나의 컴퓨터 내에 로컬화될 수 있고, 또는 2개 이상의 컴퓨터들 사이에 분배될 수 있다. 또한, 이러한 컴포넌트들은 그 내부에 저장된 다양한 데이터 구조들을 갖는 다양한 컴퓨터 판독가능한 매체로부터 실행할 수 있다. 컴포넌트들은 예를 들어 하나 이상의 데이터 패킷들을 갖는 신호(예를 들면, 로컬 시스템, 분산 시스템에서 다른 컴포넌트와 상호작용하는 하나의 컴포넌트로부터 데이터 및/또는 신호를 통해 다른 시스템과 인터넷과 같은 네트워크를 통한 데이터)에 따라 로컬 및/또는 원격 처리들을 통해 통신할 수 있다.
제시된 실시예들에 대한 설명은 본 개시의 기술 분야에서 통상의 지식을 가진 자가 본 개시를 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 개시의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 개시의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 개시는 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.
도 1은 본 개시의 일 실시예에 따른 표 셀 분해 장치의 블록 구성도(Block diagram)이다.
본 개시의 일 실시예에 따른 장치(100)는 OCR이나 문서를 이미지로 인식할 수 있는 카메라, 디지털 카메라, 스캐너 및 카메라 모듈을 포함하는 장치를 포함할 수 있다. 전술한 장치(100)의 기재는 예시일뿐, 본 개시는 이에 제한되지 않는다.
본 개시의 일 실시예에 따른 장치(100)는 이미지 인식 모듈(110), 전처리 모듈(130), 셀 구조 분석 모듈(150) 및 결과 표 생성 모듈(170)을 포함할 수 있다.
본 개시의 일 실시예에 따른 이미지 인식 모듈(110)은 문서 이미지에서 표 영역 이미지를 인식할 수 있다. 보다 구체적으로, 이미지 인식 모듈(110)은 장치(100)의 일부분으로부터 문서 이미지를 제공받을 수 있다. 여기서 장치의 일부분은 이미지를 생성 할 수 있도록 구성된 카메라, 스캐너, 광학 문자 판독 모듈을 포함할 수 있다. 또한, 상기 장치의 일부분은 문서 이미지를 저장할 수 있는 메모리, 또는 문서 이미지를 수신할 수 있는 통신 모듈을 포함할 수 있다. 전술한 장치(100)의 일부분의 기재는 예시일뿐, 본 개시는 이에 제한되지 않는다.
그리고, 이미지 인식 모듈(110)은 문서 이미지로부터 정리된 구조를 찾을 수 있는 알고리즘을 통해 표가 있는 영역을 추출할 수 있다. 예를 들어, 이미지 인식 모듈(110)은 문서 이미지에서 텍스트들이 일정한 수평 간격으로 배치되고, 또한, 상기 텍스트들의 일정한 수직 간격으로도 다른 텍스트들이 2회 이상 배치된 경우, 텍스트들이 위치하는 영역을 표 영역으로 인식할 수 있다. 또한, 다른 예시로 이미지 인식 모듈(110)은 수평, 또는 수직 방향으로 배치된 라인들이 있는 경우, 상기 라인들이 배치된 문서 이미지의 영역을 표 영역으로 인식할 수 있다. 전술한 이미지 인식 모듈(110)의 표 영역 이미지 인식은 예시일뿐, 본 개시를 실시하기 위해 임의의 문서 이미지에서 표 영역을 인식하기 위한 다양한 알고리즘이 사용될 수 있어 본 개시는 이에 제한되지 않는다.
본 개시의 일 실시예에 따른 전처리 모듈(130)은 인식된 표 영역 이미지에서 라인 성분을 추출한 라인 이미지를 생성하고, 표 영역 이미지에서 텍스트 성분을 추출한 텍스트 이미지를 생성할 수 있다. 그리고 텍스트 이미지에 기초하여 텍스트 블록 이미지를 생성할 수 있다.
보다 구체적으로, 본 개시의 일 실시예에 따른 전처리 모듈(130)은 표 영역 이미지를 픽셀 단위로 분석하여 텍스트 성분 및 라인 성분을 분류할 수 있다. 그리고, 전처리 모듈(130)은 텍스트 성분으로 분류된 픽셀에 기초하여 텍스트 이미지를 생성하고, 라인 성분으로 분류된 픽셀에 기초하여 라인 이미지를 생성할 수 있다. 예를 들어, 전처리 모듈(130)은 표 영역 이미지에서 고밀도로 집적된 영역을 확대 분석하여 수직, 또는 수평 방향으로 일정한 길이 이상의 픽셀을 라인 성분으로 분류할 수 있다. 또한, 전처리 모듈(130)은 라인 성분이 표 영역 이미지에서의 배치와 동일하게 배치된 라인 이미지를 생성할 수 있다. 전술한 라인 성분의 분류는 예시일뿐, 본 개시는 이에 제한되지 않는다.
그리고, 전처리 모듈(130)은 텍스트 이미지에 기초하여 텍스트 블록 이미지를 생성할 수 있다. 여기서 텍스트 블록은 텍스트 성분과 일대일 대응되는 개수의 사전 설정된 높이의 블록 집합을 포함할 수 있다. 보다 구체적으로, 전처리 모듈(130)은 텍스트 이미지 상의 텍스트 성분이 사전 설정된 높이의 블록을 포함하는 텍스트 블록으로 일대일 대체되어 구성되는 텍스트 블록 이미지를 생성할 수 있다. 즉, 전처리 모듈(130)은 텍스트 이미지 상의 각기 다른 텍스트 성분들을 동일한 개수의 직사각형 텍스트 블록으로 대체한 텍스트 블록 이미지를 생성할 수 있다.
또한, 본 개시의 일 실시예에 따른 전처리 모듈(130)은 텍스트 성분의 사전 설정된 수평 거리 이내에 인근 텍스트 성분이 위치하는 경우, 인근 텍스트 성분을 텍스트 성분의 일부로 판단하고 하나의 텍스트 블록으로 대체한 텍스트 블록 이미지를 생성할 수 있다.
예를 들어, 전처리 모듈(130)은 텍스트 성분 '$'와 인근 텍스트 성분 '120'이 5픽셀 차이로 배치되고, 사전 설정된 수평 거리가 상기 텍스트 성분 '$'의 높이인 100픽셀의 10%인 10픽셀일 경우, 텍스트 성분 '$'와 인근 텍스트 성분 '120'을 동일한 텍스트 블록에 속할 텍스트 성분으로 판단할 수 있고 동일한 텍스트 블록으로 대체할 수 있다. 전술한 사전 설정된 수평 거리의 정확한 수치는 예시일뿐, 본 개시는 이에 제한되지 않는다. 이에 따라, 본 개시의 일 실시예에 따른 장치(100)는 셀 안에서의 띄어쓰기를 모두 분리된 텍스트 블록으로 하여 발생할 수 있는 표 레이아웃 분석의 오차 및 노이즈를 방지할 수 있다.
본 개시의 일 실시예에 따른 전처리 모듈(130)은 라인 이미지와 텍스트 이미지를 병합하여 검토 이미지를 생성하고, 검토 이미지 상에서 라인 성분과 텍스트 성분이 동일한 픽셀에 위치하는 경우, 상기 라인 성분을 텍스트 성분의 일부로 판단하는 검토 서브-모듈(131)을 포함할 수 있다.
예를 들어, 검토 서브-모듈(131)은 수평 또는 수직 방향으로 10픽셀 이상의 연속된 픽셀들을 라인 성분으로 분류한 라인 이미지와 텍스트 이미지를 병합하여 검토 이미지를 생성할 수 있다. 따라서, 검토 서브-모듈(131)은 텍스트 성분 중 수직, 또는 수평 방향으로 10픽셀 이상 연속된 픽셀들을 포함하여 텍스트 성분뿐 아니라 라인 성분으로도 분류된 픽셀을 재 정립할 수 있다. 또한, 다른 예시로, 검토 서브-모듈(131)은 라인 이미지와 텍스트 블록 이미지를 병합한 검토 이미지를 생성할 수도 있다. 따라서, 검토 서브-모듈(131)은 텍스트 블록에 포함되는 픽셀에 대해서는 라인 성분으로 분류하지 않을 수 있다. 전술한 검토 서브-모듈(131)의 자세한 동작 기재는 예시일뿐, 본 개시는 이에 제한되지 않는다. 이에 따라, 본 개시의 일 실시예에 따른 장치(100)는 텍스트 성분이 포함할 수 있는 직선이 라인 성분으로 판단되어 발생될 수 있는 레이아웃의 혼동을 방지할 수 있다.
본 개시의 일 실시예에 따른 셀 구조 분석 모듈(150)은 라인 이미지에 기초하여 라인 기반 셀 구조를 생성하고, 텍스트 블록 이미지에 기초하여 텍스트 블록 기반 셀 구조를 생성할 수 있다. 그리고 상기 라인 기반 셀 구조와 상기 텍스트 블록 기반 셀 구조를 비교하여, 결과 셀 구조를 생성할 수 있다. 상기 결과 셀 구조는 하나 이상의 셀을 포함하는 표 상에서 각각의 셀 구조로서 폐쇄형 및 개방형을 포함할 수 있다.
여기서 폐쇄형은 텍스트 성분이 라인 성분에 의해 닫혀진 구조를 의미할 수 있다. 보다 구체적으로, 폐쇄형은 라인 이미지와 텍스트 블록 이미지를 병합하는 경우, 라인 성분에 의해 형성되는 영역에 하나의 텍스트 블록이 배치되는 셀 구조의 유형일 수 있다. 즉, 폐쇄형은 텍스트 블록 이미지와 라인 이미지를 병합한 이미지 상에서 텍스트 블록의 상하좌우가 라인 성분에 의해 닫혀진 구조를 포함할 수 있다.
또한, 여기서 개방형은 텍스트 성분이 라인 성분에 의해 닫혀지지 않은 구조를 의미할 수 있다. 보다 구체적으로, 개방형은 라인 이미지와 텍스트 블록 이미지를 병합하는 경우, 라인 성분에 의해 형성되는 영역에 하나 이상의 텍스트 블록이 배치되거나, 또는 텍스트 블록 주변에 라인 성분이 존재하지 않는 셀 구조의 유형일 수 있다. 즉, 개방형은 텍스트 블록 이미지와 라인 이미지를 병합한 이미지 상에서 텍스트 블록의 상하좌우 중 적어도 하나의 방향이 라인 성분에 의해 닫혀지지 않은 구조를 포함할 수 있다.
본 개시의 일 실시예에 따른 셀 구조 분석 모듈(150)은 라인 이미지에 기초하여 라인 기반 셀 구조를 생성할 수 있다. 보다 구체적으로, 셀 구조 분석 모듈(150)은 라인 이미지 상의 라인 성분에 기초하여 수평 방향, 또는 수직 방향으로 라인 이미지를 분리할 수 있다. 그리고 상기 셀 구조 분석 모듈(150)은 분리된 이미지 상의 각각의 영역을 셀로 판단하여 라인 기반 셀 구조를 생성할 수 있다.
또한, 본 개시의 일 실시예에 따른 셀 구조 분석 모듈(150)은 텍스트 블록 이미지에 기초하여 텍스트 블록 기반 셀 구조를 생성할 수 있다. 보다 구체적으로, 셀 구조 분석 모듈(150)은 텍스트 블록 이미지 상의 텍스트 블록에 포함되지 않는 수직, 또는 수평 방향으로 연속된 픽셀로 구성되는 가상의 라인을 도출하고, 상기 가상의 라인을 기준으로 수직, 또는 수평 방향으로 텍스트 블록 이미지를 분리할 수 있다. 그리고 상기 셀 구조 분석 모듈(150)은 분리된 이미지 상의 각각의 영역을 셀로 판단하여 텍스트 블록 기반 셀 구조를 생성할 수 있다. 셀 구조 분석 모듈(150)의 텍스트 블록 기반 셀 구조 생성 동작에 대한 상세한 설명은 도 4를 참조하여 후술한다.
본 개시의 일 실시예에 따른 셀 구조 분석 모듈(150)은 하부 영역에 포함되는 분할된 수직 방향 셀 중 텍스트 성분이 위치하는 셀의 비율이 사전설정된 비율 이하인 경우, 수직 방향 셀을 각각 수평 방향 인접 셀과 병합하는 공백 셀 병합 서브-모듈(151)을 포함할 수 있다.
보다 구체적으로, 셀 구조 분석 모듈(150)은 텍스트 블록 이미지 상에서 수직 방향으로 연속적으로 배치되는 텍스트 블록을 하나의 열(column)로 분류 할 수 있다. 그리고, 공백 셀 병합 서브-모듈(151)은 하나의 열에 포함될 수 있는 최대 텍스트 블록의 개수 중 실제로 위치한 텍스트 블록의 비율을 계산하여 사전설정된 비율 이하인지 여부를 판단할 수 있다. 그리고, 공백 셀 병합 서브-모듈(151)은 상기 셀 구조 분석 모듈(150)의 판단에 기초하여 열이 포함하는 텍스트 블록의 비율이 사전설정된 비율 이하인 경우, 상기 열에 포함되고 공백인 셀의 수평 방향 인접 셀과 병합할 수 있다. 공백 셀 병합 서브-모듈(151)의 상세한 동작은 도 6을 참조하여 후술한다.
본 개시의 일 실시예에 따른 셀 구조 분석 모듈(150)은 텍스트 블록 기반 셀 구조의 첫 행에서 타이틀 셀―상기 타이틀 셀은 첫 행에서 텍스트 블록이 위치하는 셀을 포함함―의 수평 방향 인접 셀이 텍스트 블록을 포함하지 않는 경우, 타이틀 셀 및 수평 방향 인접 셀을 병합하는 타이틀 셀 병합 서브-모듈(152)을 포함할 수 있다.
보다 구체적으로, 셀 구조 분석 모듈(150)은 텍스트 블록 기반 셀 구조를 생성하고, 상기 텍스트 블록 기반 셀 구조의 첫 행이 포함하는 텍스트 블록을 타이틀 셀로 분류할 수 있다. 그리고, 타이틀 셀 병합 서브-모듈(152)은 텍스트 블록 셀 구조 상에서 상기 타이틀 셀의 수평 방향으로 인접하는 인접 셀에 텍스트 블록이 존재하지 않는 경우, 타이틀 셀과 상기 인접 셀을 병합하여 타이틀 셀을 확장할 수 있다.
본 개시의 일 실시예에 따른 셀 구조 분석 모듈(150)은 라인 기반 셀 구조의 최상단 행(row)을 헤더 영역으로 분류하고, 상기 헤더 영역에 텍스트 블록이 위치하는지 여부에 기초하여 하부 영역을 분할하는 헤더 하부 영역 분할 서브-모듈(154)을 포함할 수 있다.
보다 구체적으로, 셀 구조 분석 모듈(150)은 라인 기반 셀 구조를 생성할 수 있다. 또한, 헤더 하부 영역 분할 서브-모듈(154)은 상기 라인 기반 셀 구조의 최상단 행에 위치하는 셀을 헤더 영역으로 분류할 수 있다. 여기서 헤더 영역은 라인 기반 셀 구조의 좌우 측면에 가상 라인 성분을 추가하여 막음으로써(Blocking) 생성될 수 있다. 그리고 헤더 하부 영역 분할 서브-모듈(154)은 상기 라인 기반 셀 구조와 텍스트 블록 이미지를 병합하고, 상기 헤더 영역에 포함되는 셀에 텍스트 블록이 위치하는지 여부를 판단할 수 있다. 또한, 헤더 하부 영역 분할 서브-모듈(154)은 상기 판단에 기초하여 헤더 영역에 포함되는 셀 각각의 하부 영역을 분할할 수 있다. 여기서 하부 영역은 이미지 상에서 헤더 영역의 아래 영역일 수 있고, 상기 헤더 하부 영역 분할 서브-모듈(154)에 의해 헤더 영역의 아래 셀 각각이 이등분, 또는 하부 영역의 첫 행에 위치하는 텍스트 블록의 개수에 기초한 임의의 등분으로 분할될 수 있다. 그리고, 헤더 하부 영역 분할 서브-모듈(154)은 분할한 하부 영역의 첫 행을 헤더 영역으로 재설정하고, 하부 영역에 대한 분할 동작을 반복적으로 수행할 수 있다. 헤더 하부 영역 분할 서브-모듈(154)의 상세한 동작은 도 5를 참조하여 후술한다.
본 개시의 일 실시예에 따른 셀 구조 분석 모듈(150)은 텍스트 블록 기반 셀 구조가 포함하는 하나의 셀 너비, 또는 높이가 텍스트 성분의 높이 중간값의 절반 이하인 경우, 하나의 셀을 노이즈로 판단하여 인접 셀과 병합하는 노이즈 제거 서브-모듈(153)을 포함할 수 있다.
보다 구체적으로, 노이즈 제거 서브-모듈(153)은 텍스트 이미지로부터 텍스트 성분의 높이 중간값을 획득할 수 있다. 그리고 노이즈 제거 서브-모듈(153)은 라인 기반 셀 구조 및 텍스트 블록 기반 셀 구조에 포함되는 각각의 셀에 대하여 상기 텍스트 성분의 높이 중간값보다 작은 폭, 또는 높이를 가지는 셀을 노이즈로 판단할 수 있다. 또한, 노이즈 제거 서브-모듈(153)은 노이즈로 판단된 셀을 인접하는 셀과 병합시킬 수 있고, 따라서 새로운 버전의 라인 기반 셀 구조 및 텍스트 블록 기반 셀 구조를 생성할 수 있다.
예를 들어, 노이즈 제거 서브-모듈(153)은 텍스트 이미지로부터 텍스트 성분 21개 중 중간값인 11번째 텍스트성분의 높이가 40 픽셀인 경우, 라인 기반 셀 구조 및 텍스트 블록 기반 셀 구조에서 폭, 또는 높이가 20 픽셀 미만인 셀을 노이즈로 판단할 수 있다. 또한, 노이즈 제거 서브-모듈(153)은 상기 노이즈로 판단된 셀을 인접한 셀과 병합하여, 라인 기반 셀 구조 및 텍스트 블록 기반 셀 구조의 새로운 버전을 생성할 수 있다. 전술한 노이즈 제거 서브-모듈(153)의 동작 기재 및 수치는 예시일뿐, 본 개시는 이에 제한되지 않는다.
본 개시의 일 실시예에 따른 셀 구조 분석 모듈(150)은 라인 기반 셀 구조와 텍스트 블록 기반 셀 구조를 비교하여 결과 셀 구조를 생성할 수 있다. 보다 구체적으로, 셀 구조 분석 모듈(150)은 라인 기반 셀 구조와 텍스트 블록 기반 셀 구조를 병합할 수 있다. 그리고, 셀 구조 분석 모듈(150)은 라인 기반 셀 구조가 포함하는 각각의 셀이 텍스트 블록 기반 셀 구조가 포함하는 각각의 셀과 일대일 대응으로 일치하는 경우, 상기 표의 셀 구조를 폐쇄형 셀 구조로 판단할 수 있다. 그리고, 상기 셀 구조 분석 모듈(150)은 상기 판단에 기초하여 라인 기반 셀 구조를 사용하여 결과 셀 구조로 생성할 수 있다.
또한, 셀 구조 분석 모듈(150)은 라인 기반 셀 구조가 포함하는 각각의 셀이 텍스트 블록 기반 셀 구조가 포함하는 각각의 셀과 일대일 대응으로 일치하지 않는 경우, 상기 표의 셀 구조를 개방형 셀 구조로 판단할 수 있다. 그리고, 상기 셀 구조 분석 모듈(150)은 상기 판단에 기초하여 라인 기반 셀 구조의 최상단, 즉, 1행의 구조와 텍스트 블록 기반 셀 구조의 1행을 제외한 구조를 병합하여 결과 셀 구조를 생성할 수 있다. 또한, 셀 구조 분석 모듈(150)은 일대일 대응하는 셀에 대해서는 라인 기반 셀 구조를 사용하고, 상기 일대일 대응 셀을 제외한 셀에 대해서는 텍스트 블록 기반 셀 구조를 사용한 결과 셀 구조를 생성할 수도 있다.
본 개시의 일 실시예에 따른 결과 표 생성 모듈(170)은 라인 이미지, 텍스트 이미지 및 결과 셀 구조 중 적어도 하나에 기초하여 결과 표를 생성할 수 있다. 보다 구체적으로, 결과 표 생성 모듈(170)은 셀 구조 분석 모듈(150)이 생성한 결과 셀 구조에 텍스트 이미지를 병합하여 결과 표를 생성할 수 있다. 여기서 결과 표는 결과 셀 구조가 포함하는 각각의 셀에 텍스트 성분이 배치될 수 있고, 결과 셀 구조에 따라 라인 성분의 포함 여부가 결정될 수 있다.
따라서, 본 개시의 일 실시예에 따른 문서 이미지에서 표를 인식하는 장치(100)는 라인이 있는 경우엔 라인을 기준으로, 라인이 없는 경우엔 텍스트 블록의 위치 관계를 기준으로 표를 포함하는 문서 이미지에서 정확한 표의 구조를 획득할 수 있다. 그리고, 상기 장치(100)는 획득한 표의 구조의 유형에 따라 결과 표의 생성 방식을 변경할 수 있어 선으로 모든 텍스트가 구분되는 폐쇄형 표뿐만 아니라 선이 생략되어 각각의 셀을 구분해서 인식하기 힘들었던 개방형 표까지 정확하게 인식할 수 있다. 따라서, 본 발명의 실시예에서 표를 구조까지 한번의 작업을 통해 인식하여 광학 문자 판독 후 사용자의 별도의 추가 작업이 필요하지 않을 수 있다.
즉, 본 개시의 일 실시예에 따른 장치(100)는 선의 유무와 상관없이 표의 구조를 인식하고, 정확한 결과 표를 사용자에게 제공할 수 있다. 이에 따라, PDF 문서뿐 아니라 카메라 촬영을 통해 획득된 이미지 및 노이즈가 존재하는 이미지에 대한 광학 문자 판독을 수행하여 표를 인식할 수 있다.
도 2는 본 개시의 일 실시예에 따른 표 영역 이미지에 기초한 라인 이미지, 텍스트 이미지 및 텍스트 블록 이미지의 예시도이다.
본 개시의 일 실시예에 따른 표 영역 이미지(201)는 이미지 인식 모듈(110)에 의해 문서 이미지로부터 추출될 수 있다. 보다 구체적으로, 표 영역 이미지(201)는 이미지 인식 모듈(110)의 정리된 구조를 찾을 수 있는 알고리즘을 통해 문서 이미지 상에서 표가 위치하는 영역이 추출된 이미지를 포함할 수 있다. 즉, 표 영역 이미지(201)는 분류되지 않은 상태의 라인 성분 및 텍스트 성분이 모두 존재하는 이미지를 포함할 수 있다.
본 개시의 일 실시예에 따른 텍스트 이미지(202)는 전처리 모듈(130)에 의해 표 영역 이미지(201)로부터 추출될 수 있다. 보다 구체적으로, 텍스트 이미지(202)는 전처리 모듈(130)이 픽셀 단위로 분석한 표 영역 이미지(201)로부터 추출된 텍스트 성분이 배치된 이미지를 포함할 수 있다. 즉, 텍스트 이미지(202)는 분류된 텍스트 성분들이 표 영역 이미지 상의 배치와 동일하게 존재하는 이미지를 포함할 수 있다.
본 개시의 일 실시예에 따른 텍스트 블록 이미지(203)는 전처리 모듈(130)에 의해 텍스트 이미지(202)로부터 생성될 수 있다. 보다 구체적으로, 텍스트 블록 이미지(203)는 전처리 모듈(130)이 텍스트 이미지(202) 상의 텍스트 성분을 사전 설정된 높이의 블록을 포함하는 텍스트 블록으로 일대일 대체된 이미지를 포함할 수 있다. 즉, 텍스트 블록 이미지(203)는 텍스트 이미지(202) 상의 각기 다른 텍스트 성분들이 동일한 개수의 직사각형 텍스트 블록으로 대체된 이미지를 포함할 수 있다.
또한, 본 개시의 일 실시예에 따른 텍스트 블록 이미지(203)는 전처리 모듈(130)이 텍스트 성분의 사전 설정된 수평 거리 이내에 인근 텍스트 성분이 위치하는 경우, 인근 텍스트 성분을 텍스트 성분의 일부로 판단하고 하나의 텍스트 블록으로 대체하는 과정을 거쳐 재정립될 수 있다.
본 개시의 일 실시예에 따른 라인 이미지(204)는 전처리 모듈(130)에 의해 표 영역 이미지(201)로부터 추출될 수 있다. 보다 구체적으로, 라인 이미지(204)는 전처리 모듈(130)이 픽셀 단위로 분석한 표 영역 이미지(201)로부터 추출된 라인 성분이 배치된 이미지를 포함할 수 있다. 즉, 라인 이미지(204)는 분류된 라인 성분들이 표 영역 이미지 상의 배치와 동일하게 존재하는 이미지를 포함할 수 있다.
또한, 본 개시의 일 실시예에 따른 라인 이미지(204)는 검토 서브-모듈(131)이 라인 이미지(204)와 텍스트 이미지(202)를 병합하여 검토 이미지(미도시)를 생성하고, 검토 이미지(미도시) 상에서 라인 성분과 텍스트 성분이 동일한 픽셀에 위치하는 경우, 상기 라인 성분을 텍스트 성분의 일부로 판단하는 과정을 거쳐 재정립될 수 있다.
도 3은 본 개시의 일 실시예에 따른 라인 이미지 기반 셀 구조에 기초한 결과 표 생성의 예시도이다.
본 개시의 일 실시예에 따른 이미지 인식 모듈(110)은 문서 이미지에서 표 영역 이미지(301)를 인식할 수 있다. 그리고, 전처리 모듈(130)이 표 영역 이미지(301)에 기초하여 라인 이미지, 텍스트 이미지 및 텍스트 블록 이미지를 생성할 수 있다. 그리고, 셀 구조 분석 모듈(150)이 상기 라인 이미지 및 상기 텍스트 블록 이미지에 기초하여 라인 기반 셀 구조 및 텍스트 블록 기반 셀 구조를 생성할 수 있다. 여기서 이미지 인식 모듈(110), 전처리 모듈(130) 및 셀 구조 분석 모듈(150)의 동작은 도 1을 참조하여 상세히 전술하여 생략한다. 또한, 셀 구조 분석 모듈(150)은 라인 기반 셀 구조와 텍스트 블록 기반 셀 구조가 포함하는 각각의 셀이 일대일 대응함에 기초하여 상기 표를 폐쇄형 셀 구조로 판단할 수 있다. 그리고, 상기 셀 구조 분석 모듈(150)은 라인 기반 셀 구조를 결과 셀 구조로써 생성할 수 있다. 또한, 결과 표 생성 모듈(170)은 결과 셀 구조에 기초하여 라인 기반 셀 구조에 텍스트 성분을 배치대로 위치시킨, 즉, 텍스트 이미지를 병합한 결과 표(302)를 생성할 수 있다.
따라서, 본 개시의 일 실시예에 따른 문서 이미지에서 표를 인식하는 장치(100)는 라인이 있는 경우엔 라인을 기준으로, 라인이 없는 경우엔 텍스트 블록의 위치 관계를 기준으로 표를 포함하는 문서 이미지에서 정확한 표의 구조를 획득할 수 있다. 그리고, 상기 장치(100)는 획득한 표의 구조의 유형에 따라 결과 표의 생성 방식을 변경할 수 있어 선으로 모든 텍스트가 구분되는 폐쇄형 표뿐만 아니라 선이 생략되어 각각의 셀을 구분해서 인식하기 힘들었던 개방형 표까지 정확하게 인식할 수 있다. 따라서, 본 발명의 실시예에서 표를 구조까지 한번의 작업을 통해 인식하여 광학 문자 판독 후 사용자의 별도의 추가 작업이 필요하지 않을 수 있다.
즉, 본 개시의 일 실시예에 따른 장치(100)는 선의 유무와 상관없이 표의 구조를 인식하고, 정확한 결과 표를 사용자에게 제공할 수 있다. 이에 따라, PDF 문서뿐 아니라 카메라 촬영을 통해 획득된 이미지 및 노이즈가 존재하는 이미지에 대한 광학 문자 판독을 수행하여 표를 인식할 수 있다.
도 4는 본 개시의 일 실시예에 따른 라인 이미지 기반 셀 구조 및 텍스트 블록 이미지 기반 셀 구조에 기초한 결과 표 생성의 예시도이다.
본 개시의 일 실시예에 따른 이미지 인식 모듈(110)은 문서 이미지에서 표 영역 이미지(401)를 인식할 수 있다. 그리고, 전처리 모듈(130)이 표 영역 이미지(401)에 기초하여 라인 이미지, 텍스트 이미지 및 텍스트 블록 이미지를 생성할 수 있다. 그리고, 셀 구조 분석 모듈(150)이 상기 라인 이미지 및 상기 텍스트 블록 이미지에 기초하여 라인 기반 셀 구조 및 텍스트 블록 기반 셀 구조를 생성할 수 있다. 여기서 이미지 인식 모듈(110), 전처리 모듈(130) 및 셀 구조 분석 모듈(150)의 동작은 도 1을 참조하여 상세히 전술하여 생략한다. 또한, 셀 구조 분석 모듈(150)은 라인 기반 셀 구조와 텍스트 블록 기반 셀 구조가 포함하는 각각의 셀이 일대일 대응하지 않음에 기초하여 상기 표를 개방형 셀 구조로 판단할 수 있다. 그리고, 상기 셀 구조 분석 모듈(150)은 라인 기반 셀 구조 및 텍스트 블록 기반 셀 구조에 기초하여 결과 셀 구조를 생성할 수 있다.
보다 구체적으로, 헤더 하부 영역 분할 서브-모듈(154)은 라인 성분에 의하여 'Women'과 'Men'을 포함하는 최상단 영역을 헤더 영역으로 그룹화할 수 있다. 또한, 헤더 하부 영역 분할 서브-모듈(154)은 상기 헤더 영역의 각각의 셀이 'Women' 및 'Men'의 텍스트 성분을 포함하기 때문에 텍스트 블록을 포함한다고 판단하고, 그에 따라 각 셀의 하부 영역을 분할할 수 있다. 따라서, 헤더 하부 영역 분할 서브-모듈(154)은 'Women' 및 'Men'의 하부 영역을 'Hispanic'과 'Non-Hispanic'으로 2분할한 셀 구조를 생성할 수 있다.
또한, 셀 구조 분석 모듈(150)은 텍스트 블록 사이에 위치하여 텍스트 블록에 포함되지 않은 수평, 또는 수직 방향으로 연속된 공백 픽셀로 구성되는 가상의 라인(410)을 기준으로 텍스트 블록 기반 셀 구조를 생성할 수 있다. 따라서, 셀 구조 분석 모듈(150)은 'No', 'Rate' 및 '95%CI'이하의 영역을 포함하는 텍스트 블록 기반 셀 구조를 생성할 수 있다. 여기서 가상의 라인(410)은 전술한 셀 구조 분석 모듈(150)의 동작을 설명하기 위하여 표시된 것 일뿐, 결과 표(402) 상에 존재하는 라인 성분이 아니다.
그리고, 상기 셀 구조 분석 모듈(150)이 라인 기반 셀 구조와 텍스트 블록 기반 셀 구조가 3행부터 일치하지 않음에 기초하여 표를 개방형 셀 구조로 판단하고, 2행까지의 라인 기반 셀 구조와 3행부터의 텍스트 블록 기반 셀 구조를 병합하여 결과 셀 구조를 생성할 수 있다. 그리고, 결과 표 생성 모듈(170)은 결과 셀 구조에 기초하여 텍스트 성분을 위치시킨, 즉, 텍스트 이미지와 라인 이미지를 병합한 결과 표(402)를 생성할 수 있다.
따라서, 본 개시의 일 실시예에 따른 문서 이미지에서 표를 인식하는 장치(100)는 라인이 있는 경우엔 라인을 기준으로, 라인이 없는 경우엔 텍스트 블록의 위치 관계를 기준으로 표를 포함하는 문서 이미지에서 정확한 표의 구조를 획득할 수 있다. 그리고, 상기 장치(100)는 획득한 표의 구조의 유형에 따라 결과 표의 생성 방식을 변경할 수 있어 선으로 모든 텍스트가 구분되는 폐쇄형 표뿐만 아니라 선이 생략되어 각각의 셀을 구분해서 인식하기 힘들었던 개방형 표까지 정확하게 인식할 수 있다. 따라서, 본 발명의 실시예에서 표를 구조까지 한번의 작업을 통해 인식하여 광학 문자 판독 후 사용자의 별도의 추가 작업이 필요하지 않을 수 있다.
즉, 본 개시의 일 실시예에 따른 장치(100)는 선의 유무와 상관없이 표의 구조를 인식하고, 정확한 결과 표를 사용자에게 제공할 수 있다. 이에 따라, PDF 문서뿐 아니라 카메라 촬영을 통해 획득된 이미지 및 노이즈가 존재하는 이미지에 대한 광학 문자 판독을 수행하여 표를 인식할 수 있다.
도 5는 본 개시의 일 실시예에 따른 셀 구조 분석 모듈의 동작 예시도이다.
본 개시의 일 실시예에 따른 셀 구조 분석 모듈(150)은 라인 기반 셀 구조의 최상단 행을 헤더 영역으로 분류하고, 상기 헤더 영역에 텍스트 블록이 위치하는지 여부에 기초하여 하부 영역을 분할하는 헤더 하부 영역 분할 서브-모듈(154)을 포함할 수 있다.
보다 구체적으로, 헤더 하부 영역 분할 서브-모듈(154)은 표 영역 이미지(501)로부터 라인 성분으로 형성되는 라인 기반 셀 구조의 최상단 행에 위치하는 셀을 헤더 영역으로 분류(502)할 수 있다. 여기서 헤더 영역은 라인 기반 셀 구조의 좌우 측면에 가상 라인 성분을 추가하여 막음으로써(Blocking) 생성될 수 있다. 그리고 상기 헤더 하부 영역 분할 서브-모듈(154)은 라인 기반 셀 구조와 텍스트 블록 이미지를 병합하여, 상기 헤더 영역에 포함되는 셀에 텍스트 블록이 위치함을 판단하고, 상기 판단에 기초하여 헤더 영역의 하부 영역을 2분할(503)할 수 있다. 여기서 하부 영역은 헤더 영역의 아래 영역일 수 있다. 그리고, 헤더 하부 영역 분할 서브-모듈(154)에 의해 생성된 라인 셀 구조는 셀 구조 분석 모듈(150)의 결과 셀 구조의 유형에 따라 텍스트 블록 기반 셀 구조와 병합(504)될 수 있다. 전술한 헤더 하부 영역 분할 서브-모듈(154)의 동작은 예시일뿐, 본 개시는 이에 제한되지 않는다.
다른 예로써, 헤더 하부 영역 분할 서브-모듈(154)은 하부 영역의 첫 행에 위치하는 텍스트 블록의 개수에 기초하여 하부 영역을 상기 텍스트 블록의 개수만큼 등분할 수 있다. 그리고, 헤더 하부 영역 분할 서브-모듈(154)은 분할한 하부 영역의 첫 행을 헤더 영역으로 재설정하고, 하부 영역에 대한 분할 동작을 반복적으로 수행할 수 있다. 또한, 헤더 하부 영역 분할 서브-모듈(154)의 분할 동작이 완료된 이후, 공백 셀 병합 서브-모듈(151)의 동작이 추가적으로 수행될 수 있다. 따라서, 표의 상단에만 라인이 존재하는 표의 경우에도 하부 영역이 포함하는 텍스트 블록의 배치 및 개수에 기초하여 표의 레이아웃을 판단할 수 있다. 전술한 헤더 하부 영역 분할 서브-모듈(154)의 기재는 예시일뿐, 본 개시는 이에 제한되지 않는다.
도 6은 본 개시의 일 실시예에 따른 공백 셀 병합 서브-모듈의 동작 예시도이다.
본 개시의 일 실시예에 따른 셀 구조 분석 모듈(150)은 하부 영역에 포함되는 분할된 수직 방향 셀 중 텍스트 성분이 위치하는 셀의 비율이 사전설정된 비율 이하인 경우, 수직 방향 셀을 각각 수평 방향 인접 셀과 병합하는 공백 셀 병합 서브-모듈(151)을 포함할 수 있다.
도 6에 도시된 바와 같이, 이미지 인식 모듈(110)이 표 영역 이미지(601)를 인식할 수 있고, 전처리 모듈(130)이 텍스트 블록 이미지(602)를 생성할 수 있다. 여기서 표 영역 이미지(601) 및 텍스트 블록 이미지(602, 603)에 위치하는 내부 박스(610)는 주시 해야 하는 부분을 표시한 것일뿐, 각 이미지들에 포함되는 라인 성분이나 텍스트 성분이 아니다. 또한, 셀 구조 분석 모듈(150)은 텍스트 블록 이미지 상에서 수직 방향으로 연속적으로 배치되는 텍스트 블록을 하나의 열로 분류 할 수 있다. 따라서, 셀 구조 분석 모듈(150)은 표 영역 이미지(601)에서 '1991'의 하부 영역은 '$'의 텍스트 성분을 가지는 좌측 열과 '13', '46', '(113)', '71' 및 '13'의 텍스트 성분을 가지는 우측 열로 분류할 수 있다. 그리고, 공백 셀 병합 서브-모듈(151)은 하나의 열에 포함될 수 있는 최대 텍스트 블록의 개수 중 실제로 위치한 텍스트 블록의 비율을 계산하여 사전설정된 비율 이하인지 여부를 판단할 수 있다. 따라서, 공백 셀 병합 서브-모듈(151)은 우측 열의 텍스트 블록 5개와 좌측 열의 텍스트 블록 2개에 기초하여, 좌측 열이 포함하는 텍스트 블록의 비율이 사전설정된 0.8 이하임을 판단할 수 있다. 그리고, 상기 공백 셀 병합 서브-모듈(151)은 상기 판단에 기초하여 좌측 열에 포함되는 셀을 각각 수평 방향 인접 셀인 우측 열과 병합할 수 있다. 즉, 공백 셀 병합 서브-모듈(151)은 열에 기재된 텍스트 중 일부에 단위를 제거한 경우 등에도 텍스트 블록의 크기가 일정한 텍스트 블록 이미지(603)를 생성하여 보다 정확한 표의 레이아웃을 판단할 수 있다. 전술한 공백 셀 병합 서브-모듈(151)의 자세한 동작은 예시일뿐, 본 개시는 이에 제한되지 않는다.
도 7는 본 개시의 일 실시예에 따른 문서 이미지에서 표를 인식하는 장치가 하나 이상의 셀을 포함하는 표를 인식하는 방법의 순서도(Flow-chart)다.
본 개시의 일 실시예에 따른 문서 이미지에서 표를 인식하는 장치가 하나 이상의 셀을 포함하는 표를 인식하는 방법은 문서 이미지에서 표 영역 이미지를 인식하는 단계(710)를 포함할 수 있다.
보다 구체적으로, 본 개시의 일 실시예에 따른 문서 이미지에서 표 영역 이미지를 인식하는 단계(710)는 이미지 인식 모듈(110)이 장치(100)의 일부분으로부터 문서 이미지를 제공받는 단계를 포함할 수 있다. 여기서 장치의 일부분은 이미지를 생성 할 수 있도록 구성된 카메라, 스캐너, 광학 문자 판독 모듈을 포함할 수 있다. 또한, 상기 장치의 일부분은 문서 이미지를 저장할 수 있는 메모리, 또는 문서 이미지를 수신할 수 있는 통신 모듈을 포함할 수 있다. 전술한 장치(100)의 일부분의 기재는 예시일뿐, 본 개시는 이에 제한되지 않는다.
본 개시의 일 실시예에 따른 문서 이미지에서 표를 인식하는 장치가 하나 이상의 셀을 포함하는 표를 인식하는 방법은 전처리 모듈이 상기 표 영역 이미지에 기초하여 라인 이미지, 텍스트 이미지 및 텍스트 블록 이미지를 생성하는 전처리 단계(720)를 포함할 수 있다.
상기 전처리 단계는 상기 전처리 모듈이 상기 인식된 표 영역 이미지에서 라인 성분을 추출한 상기 라인 이미지 및 상기 표 영역 이미지에서 텍스트 성분을 추출한 상기 텍스트 이미지를 생성하는 단계(721, 722)를 포함할 수 있다. 여기서 라인 이미지 생성 단계(721) 및 텍스트 이미지 생성 단계(722)는 순서에 상관없이 직렬적으로 수행될 수 있으며, 또한, 병렬적으로 동시에 수행될 수 있다.
보다 구체적으로, 본 개시의 일 실시예에 따른 전처리 모듈(130)이 표 영역 이미지를 픽셀 단위로 분석하여 텍스트 성분 및 라인 성분을 분류하는 단계를 포함할 수 있다. 그리고, 전처리 모듈(130)이 텍스트 성분으로 분류된 픽셀에 기초하여 텍스트 이미지를 생성하고, 라인 성분으로 분류된 픽셀에 기초하여 라인 이미지를 생성하는 단계를 포함할 수 있다.
그리고, 상기 전처리 단계(720)는 상기 전처리 모듈(130)이 상기 텍스트 이미지에 기초하여 상기 텍스트 블록 이미지를 생성하는 단계(723)를 포함할 수 있다. 보다 구체적으로, 전처리 모듈(130)이 텍스트 이미지 상의 텍스트 성분이 사전 설정된 높이의 블록을 포함하는 텍스트 블록으로 일대일 대체되어 구성되는 텍스트 블록 이미지를 생성하는 단계를 포함할 수 있다. 즉, 전처리 모듈(130)은 텍스트 이미지 상의 각기 다른 텍스트 성분들을 동일한 개수의 직사각형 텍스트 블록으로 대체한 텍스트 블록 이미지를 생성하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따른 전처리 단계(720)는 전처리 모듈(130)이 텍스트 성분의 사전 설정된 수평 거리 이내에 인근 텍스트 성분이 위치하는 경우, 인근 텍스트 성분을 텍스트 성분의 일부로 판단하고 하나의 텍스트 블록으로 대체한 텍스트 블록 이미지를 생성하는 단계를 추가적으로 포함할 수 있다. 이에 따라, 본 개시의 일 실시예에 따른 방법은 셀 안에서의 띄어쓰기를 모두 분리된 텍스트 블록으로 하여 발생할 수 있는 표 레이아웃 분석의 오차 및 노이즈를 방지할 수 있다.
또한, 본 개시의 일 실시예에 따른 전처리 단계(720)는 검토 서브-모듈(131)이 라인 이미지와 텍스트 이미지를 병합하여 검토 이미지를 생성하고, 검토 이미지 상에서 라인 성분과 텍스트 성분이 동일한 픽셀에 위치하는 경우, 상기 라인 성분을 텍스트 성분의 일부로 판단하는 단계를 추가적으로 포함할 수 있다. 이에 따라, 본 개시의 일 실시예에 따른 방법은 텍스트 성분이 포함할 수 있는 직선이 라인 성분으로 판단되어 발생될 수 있는 레이아웃의 혼동을 방지할 수 있다.
본 개시의 일 실시예에 따른 문서 이미지에서 표를 인식하는 장치가 하나 이상의 셀을 포함하는 표를 인식하는 방법은 셀 구조 분석 모듈이 상기 표 영역 이미지의 결과 셀 구조를 생성하는 단계(730)를 포함할 수 있다.
상기 결과 셀 구조를 생성하는 단계는 상기 셀 구조 분석 모듈이 상기 라인 이미지에 기초하여 라인 기반 셀 구조 및 상기 텍스트 블록 이미지에 기초하여 텍스트 블록 기반 셀 구조를 생성하는 단계(731, 732)를 포함할 수 있다. 여기서 라인 기반 셀 구조 생성 단계(731) 및 텍스트 블록 기반 셀 구조 생성 단계(732)는 순서에 상관없이 직렬적으로 수행될 수 있으며, 또한, 병렬적으로 동시에 수행될 수 있다.
보다 구체적으로, 본 개시의 일 실시예에 따른 상기 결과 셀 구조를 생성하는 단계(730)는 셀 구조 분석 모듈(150)이 라인 이미지 상의 라인 성분에 기초하여 수평 방향, 또는 수직 방향으로 라인 이미지를 분리하는 단계를 포함할 수 있다. 그리고 상기 셀 구조 분석 모듈(150)이 분리된 이미지 상의 각각의 영역을 셀로 판단하여 라인 기반 셀 구조를 생성하는 단계를 포함할 수 있다.
또한, 본 개시의 일 실시예에 따른 상기 결과 셀 구조를 생성하는 단계(730)는 셀 구조 분석 모듈(150)이 텍스트 블록 이미지 상의 텍스트 블록에 포함되지 않는 수직, 또는 수평 방향으로 연속된 픽셀로 구성되는 가상의 라인을 도출하고, 상기 가상의 라인을 기준으로 수직, 또는 수평 방향으로 텍스트 블록 이미지를 분리하는 단계를 포함할 수 있다. 그리고 상기 셀 구조 분석 모듈(150)이 분리된 이미지 상의 각각의 영역을 셀로 판단하여 텍스트 블록 기반 셀 구조를 생성하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따른 본 개시의 일 실시예에 따른 상기 결과 셀 구조를 생성하는 단계(730)는 공백 셀 병합 서브-모듈(151)이 셀 구조 분석 모듈(150)이 하부 영역에 포함되는 분할된 수직 방향 셀 중 텍스트 성분이 위치하는 셀의 비율이 사전설정된 비율 이하인 경우, 수직 방향 셀을 각각 수평 방향 인접 셀과 병합하는 단계를 추가적으로 포함할 수 있다.
또한, 본 개시의 일 실시예에 따른 상기 결과 셀 구조를 생성하는 단계(730)는 타이틀 셀 병합 서브-모듈(152)이 텍스트 블록 기반 셀 구조의 첫 행에서 타이틀 셀―상기 타이틀 셀은 첫 행에서 텍스트 블록이 위치하는 셀을 포함함―의 수평 방향 인접 셀이 텍스트 블록을 포함하지 않는 경우, 타이틀 셀 및 수평 방향 인접 셀을 병합하는 단계를 추가적으로 포함할 수 있다.
본 개시의 일 실시예에 따른 상기 결과 셀 구조를 생성하는 단계(730)는 헤더 하부 영역 분할 서브-모듈(154)이 라인 기반 셀 구조의 최상단 행을 헤더 영역으로 분류하고, 상기 헤더 영역에 텍스트 블록이 위치하는지 여부에 기초하여 하부 영역을 분할하는 단계를 추가적으로 포함할 수 있다.
본 개시의 일 실시예에 따른 상기 결과 셀 구조를 생성하는 단계(730)는 노이즈 제거 서브-모듈(153)이 텍스트 블록 기반 셀 구조가 포함하는 하나의 셀 너비, 또는 높이가 텍스트 성분의 높이 중간값의 절반 이하인 경우, 하나의 셀을 노이즈로 판단하여 인접 셀과 병합하는 단계를 포함할 수 있다.
그리고, 상기 결과 셀 구조를 생성하는 단계(730)는 상기 셀 구조 분석 모듈이 상기 라인 기반 셀 구조와 상기 텍스트 블록 기반 셀 구조를 비교하여, 상기 결과 셀 구조를 생성하는 단계(733)를 포함할 수 있다.
보다 구체적으로, 본 개시의 일 실시예에 따른 결과 셀 구조를 생성하는 단계(730)는 셀 구조 분석 모듈(150)이 라인 기반 셀 구조와 텍스트 블록 기반 셀 구조를 병합하는 단계, 그리고, 셀 구조 분석 모듈(150)이 라인 기반 셀 구조가 포함하는 각각의 셀이 텍스트 블록 기반 셀 구조가 포함하는 각각의 셀과 일대일 대응으로 일치하는 경우, 상기 표의 셀 구조를 폐쇄형 셀 구조로 판단하는 단계를 포함할 수 있다.
또한, 본 개시의 일 실시예에 따른 결과 셀 구조를 생성하는 단계(730)는 셀 구조 분석 모듈(150)이 라인 기반 셀 구조가 포함하는 각각의 셀이 텍스트 블록 기반 셀 구조가 포함하는 각각의 셀과 일대일 대응으로 일치하지 않는 경우, 상기 표의 셀 구조를 개방형 셀 구조로 판단하는 단계, 그리고, 상기 셀 구조 분석 모듈(150)이 상기 판단에 기초하여 라인 기반 셀 구조의 최상단, 즉, 1행의 구조와 텍스트 블록 기반 셀 구조의 1행을 제외한 구조를 병합하여 결과 셀 구조를 생성하는 단계를 포함할 수 있다. 여기서 셀 구조 분석 모듈(150)은 일대일 대응하는 셀에 대해서는 라인 기반 셀 구조를 사용하고, 상기 일대일 대응 셀을 제외한 셀에 대해서는 텍스트 블록 기반 셀 구조를 사용한 결과 셀 구조를 생성할 수도 있다.
본 개시의 일 실시예에 따른 문서 이미지에서 표를 인식하는 장치가 하나 이상의 셀을 포함하는 표를 인식하는 방법은 결과 표 생성 모듈이 상기 라인 이미지, 상기 텍스트 이미지 및 상기 결과 셀 구조 중 적어도 하나에 기초하여 결과 표를 생성하는 단계(740)를 포함할 수 있다.
보다 구체적으로, 결과 표 생성 모듈이 상기 라인 이미지, 상기 텍스트 이미지 및 상기 결과 셀 구조 중 적어도 하나에 기초하여 결과 표를 생성하는 단계(740)는 결과 표 생성 모듈(170)이 셀 구조 분석 모듈(150)이 생성한 결과 셀 구조에 텍스트 이미지를 병합하여 결과 표를 생성하는 단계를 포함할 수 있다. 여기서 결과 표는 결과 셀 구조가 포함하는 각각의 셀에 텍스트 성분이 배치될 수 있고, 결과 셀 구조에 따라 라인 성분의 포함 여부가 결정될 수 있다.
따라서, 본 개시의 일 실시예에 따른 문서 이미지에서 표를 인식하는 장치가 표를 인식하는 방법은 라인이 있는 경우엔 라인을 기준으로, 라인이 없는 경우엔 텍스트 블록의 위치 관계를 기준으로 표를 포함하는 문서 이미지에서 정확한 표의 구조를 획득할 수 있다. 그리고, 상기 방법은 획득한 표의 구조의 유형에 따라 결과 표의 생성 방식을 변경할 수 있어 선으로 모든 텍스트가 구분되는 폐쇄형 표뿐만 아니라 선이 생략되어 각각의 셀을 구분해서 인식하기 힘들었던 개방형 표까지 정확하게 인식할 수 있다. 따라서, 본 발명의 실시예에서 표를 구조까지 한번의 작업을 통해 인식하여 광학 문자 판독 후 사용자의 별도의 추가 작업이 필요하지 않을 수 있다.
즉, 본 개시의 일 실시예에 따른 방법은 선의 유무와 상관없이 표의 구조를 인식하고, 정확한 결과 표를 사용자에게 제공할 수 있다. 이에 따라, PDF 문서뿐 아니라 카메라 촬영을 통해 획득된 이미지 및 노이즈가 존재하는 이미지에 대한 광학 문자 판독을 수행하여 표를 인식할 수 있다.
본 개시의 기술 분야에서 통상의 지식을 가진 자는 정보 및 신호들이 임의의 다양한 상이한 기술들 및 기법들을 이용하여 표현될 수 있다는 것을 이해할 것이다. 예를 들어, 위의 설명에서 참조될 수 있는 데이터, 지시들, 명령들, 정보, 신호들, 비트들, 심볼들 및 칩들은 전압들, 전류들, 전자기파들, 자기장들 또는 입자들, 광학장들 또는 입자들, 또는 이들의 임의의 결합에 의해 표현될 수 있다.
본 개시의 기술 분야에서 통상의 지식을 가진 자는 여기에 개시된 실시예들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 프로세서들, 수단들, 회로들 및 알고리즘 단계들이 전자 하드웨어, (편의를 위해, 여기에서 "소프트웨어"로 지칭되는) 다양한 형태들의 프로그램 또는 설계 코드 또는 이들 모두의 결합에 의해 구현될 수 있다는 것을 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호 호환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들이 이들의 기능과 관련하여 위에서 일반적으로 설명되었다. 이러한 기능이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정한 애플리케이션 및 전체 시스템에 대하여 부과되는 설계 제약들에 따라 좌우된다. 본 개시의 기술 분야에서 통상의 지식을 가진 자는 각각의 특정한 애플리케이션에 대하여 다양한 방식들로 설명된 기능을 구현할 수 있으나, 이러한 구현 결정들은 본 개시의 범위를 벗어나는 것으로 해석되어서는 안 될 것이다.
여기서 제시된 다양한 실시예들은 방법, 장치, 또는 표준 프로그래밍 및/또는 엔지니어링 기술을 사용한 제조 물품(article)으로 구현될 수 있다. 용어 "제조 물품"은 임의의 컴퓨터-판독가능 장치로부터 액세스 가능한 컴퓨터 프로그램, 캐리어, 또는 매체(media)를 포함한다. 예를 들어, 컴퓨터-판독가능 매체는 자기 저장 장치(예를 들면, 하드 디스크, 플로피 디스크, 자기 스트립, 등), 광학 디스크(예를 들면, CD, DVD, 등), 스마트 카드, 및 플래쉬 메모리 장치(예를 들면, EEPROM, 카드, 스틱, 키 드라이브, 등)를 포함하지만, 이들로 제한되는 것은 아니다. 또한, 여기서 제시되는 다양한 저장 매체는 정보를 저장하기 위한 하나 이상의 장치 및/또는 다른 기계-판독가능한 매체를 포함한다. 용어 "기계-판독가능 매체"는 명령(들) 및/또는 데이터를 저장, 보유, 및/또는 전달할 수 있는 무선 채널 및 다양한 다른 매체를 포함하지만, 이들로 제한되는 것은 아니다.
제시된 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조는 예시적인 접근들의 일례임을 이해하도록 한다. 설계 우선순위들에 기반하여, 본 개시의 범위 내에서 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조가 재배열될 수 있다는 것을 이해하도록 한다. 첨부된 방법 청구항들은 샘플 순서로 다양한 단계들의 엘리먼트들을 제공하지만 제시된 특정한 순서 또는 계층 구조에 한정되는 것을 의미하지는 않는다.
제시된 실시예들에 대한 설명은 임의의 본 개시의 기술 분야에서 통상의 지식을 가진 자가 본 개시를 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 개시의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 개시의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 개시는 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.

Claims (14)

  1. 문서 이미지에서 하나 이상의 셀을 포함하는 표를 인식하는 장치에 있어서,
    상기 문서 이미지에서 표 영역 이미지를 인식하는 이미지 인식 모듈;
    상기 인식된 표 영역 이미지에서 라인 성분을 추출한 라인 이미지를 생성하고, 상기 표 영역 이미지에서 텍스트 성분을 추출한 텍스트 이미지를 생성하고, 그리고 상기 텍스트 이미지에 기초하여 텍스트 블록 이미지를 생성하는 전처리 모듈;
    상기 라인 이미지에 기초하여 라인 기반 셀 구조를 생성하고, 상기 텍스트 블록 이미지에 기초하여 텍스트 블록 기반 셀 구조를 생성하고, 그리고 상기 라인 기반 셀 구조와 상기 텍스트 블록 기반 셀 구조를 비교하여, 결과 셀 구조를 생성하는 셀 구조 분석 모듈; 및
    상기 라인 이미지, 상기 텍스트 이미지 및 상기 결과 셀 구조 중 적어도 하나에 기초하여 결과 표를 생성하는 결과 표 생성 모듈;
    을 포함하고,
    상기 셀 구조 분석 모듈은,
    상기 라인 이미지 상의 상기 라인 성분에 기초하여 헤더 영역-상기 헤더 영역은 상기 라인 성분으로 둘러싸인 영역 중 최상단 영역을 포함함-을 그룹화하고, 그리고 상기 헤더 영역에 텍스트 블록이 위치하는지 여부에 기초하여 상기 헤더 영역의 하부 영역을 분할하여 상기 라인 기반 셀 구조를 생성하는,
    문서 이미지에서 표를 인식하는 장치.
  2. 제 1 항에 있어서,
    상기 텍스트 블록 이미지는,
    상기 텍스트 이미지 상의 상기 텍스트 성분이 사전 설정된 높이의 블록을 포함하는 텍스트 블록으로 일대일 대체되어 구성되는 이미지를 포함하는,
    문서 이미지에서 표를 인식하는 장치.
  3. 제 1 항에 있어서,
    상기 텍스트 블록 이미지는,
    상기 텍스트 성분의 사전 설정된 수평 거리 이내에 인근 텍스트 성분이 위치하는 경우, 상기 인근 텍스트 성분을 포함하는 상기 텍스트 성분의 일부로 판단하여 상기 텍스트 블록 이미지에 포함하는,
    문서 이미지에서 표를 인식하는 장치.
  4. 제 1 항에 있어서,
    상기 전처리 모듈은,
    상기 표 영역 이미지 상에서 수평 방향, 또는 수직 방향으로 밀집된 픽셀들을 상기 라인 성분으로 판단하는,
    문서 이미지에서 표를 인식하는 장치.
  5. 제 1 항에 있어서,
    상기 전처리 모듈은,
    상기 라인 이미지와 상기 텍스트 이미지를 병합하여 검토 이미지를 생성하고, 상기 검토 이미지 상에서 상기 라인 성분과 상기 텍스트 성분이 동일한 픽셀에 위치하는 경우, 상기 라인 성분을 텍스트 성분의 일부로 판단하는 검토 서브-모듈;
    을 포함하는,
    문서 이미지에서 표를 인식하는 장치.
  6. 제 1 항에 있어서,
    상기 셀 구조 분석 모듈은,
    상기 라인 이미지 상에서 상기 라인 성분이 존재하지 않는 경우, 상기 텍스트 블록 기반 셀 구조에 기초하여 상기 결과 셀 구조를 생성하는,
    문서 이미지에서 표를 인식하는 장치.
  7. 제 1 항에 있어서,
    상기 셀 구조 분석 모듈은,
    상기 텍스트 블록 이미지 상에서 텍스트 블록에 포함되지 않는 수직, 또는 수평 방향으로 연속된 픽셀로 구성되는 라인을 기준으로 상기 텍스트 블록 기반 셀 구조를 생성하는,
    문서 이미지에서 표를 인식하는 장치.
  8. 삭제
  9. 제 1 항에 있어서,
    상기 셀 구조 분석 모듈은,
    상기 하부 영역에 포함되는 분할된 수직 방향 셀 중 상기 텍스트 성분이 위치하는 셀의 비율이 사전설정된 비율 이하인 경우, 상기 수직 방향 셀을 각각 수평 방향 인접 셀과 병합하는 공백 셀 병합 서브-모듈;
    을 포함하는,
    문서 이미지에서 표를 인식하는 장치.
  10. 제 1 항에 있어서,
    상기 셀 구조 분석 모듈은,
    상기 텍스트 블록 기반 셀 구조의 첫 행에서 타이틀 셀―상기 타이틀 셀은 첫 행에서 텍스트 블록이 위치하는 셀을 포함함―의 수평 방향 인접 셀이 상기 텍스트 블록을 포함하지 않는 경우, 상기 타이틀 셀 및 상기 수평 방향 인접 셀을 병합하는 타이틀 셀 병합 서브-모듈;
    을 포함하는,
    문서 이미지에서 표를 인식하는 장치.
  11. 제 1 항에 있어서,
    상기 셀 구조 분석 모듈은,
    상기 텍스트 블록 기반 셀 구조가 포함하는 하나의 셀 너비, 또는 높이가 상기 텍스트 성분의 높이 중간값의 절반 이하인 경우, 상기 하나의 셀을 노이즈로 판단하여 인접 셀과 병합하는 노이즈 제거 서브-모듈;
    을 포함하는,
    문서 이미지에서 표를 인식하는 장치.
  12. 제 1 항에 있어서,
    상기 셀 구조 분석 모듈은,
    상기 라인 기반 셀 구조가 포함하는 각각의 셀이 상기 텍스트 블록 기반 셀 구조가 포함하는 각각의 셀과 일대일 대응으로 일치하는 경우, 상기 표의 셀 구조를 폐쇄형 셀 구조로 판단하고, 상기 판단에 기초하여 상기 라인 기반 셀 구조에 기초하여 상기 결과 셀 구조를 생성하고, 그리고
    상기 결과 표 생성 모듈은,
    상기 결과 셀 구조에 상기 텍스트 이미지를 병합한 상기 결과 표를 생성하는,
    문서 이미지에서 표를 인식하는 장치.
  13. 제 1 항에 있어서,
    상기 셀 구조 분석 모듈은,
    상기 라인 기반 셀 구조가 포함하는 각각의 셀이 상기 텍스트 블록 기반 셀 구조가 포함하는 각각의 셀과 일치하지 않는 경우, 상기 표의 셀 구조를 개방형 셀 구조로 판단하고, 상기 판단에 기초하여 상기 라인 기반 셀 구조 및 상기 텍스트 블록 기반 셀 구조에 기초하여 상기 결과 셀 구조를 생성하고, 그리고
    상기 결과 표 생성 모듈은,
    상기 결과 셀 구조에 상기 텍스트 이미지를 병합한 상기 결과 표를 생성하는,
    문서 이미지에서 표를 인식하는 장치.
  14. 문서 이미지에서 표를 인식하는 장치가 하나 이상의 셀을 포함하는 상기 표를 인식하는 방법에 있어서,
    이미지 인식 모듈이 상기 문서 이미지에서 표 영역 이미지를 인식하는 단계;
    전처리 모듈이 상기 표 영역 이미지에 기초하여 라인 이미지, 텍스트 이미지 및 텍스트 블록 이미지를 생성하는 전처리 단계;
    셀 구조 분석 모듈이 상기 표 영역 이미지의 결과 셀 구조를 생성하는 단계; 및
    결과 표 생성 모듈이 상기 라인 이미지, 상기 텍스트 이미지 및 상기 결과 셀 구조 중 적어도 하나에 기초하여 결과 표를 생성하는 단계;
    를 포함하고,
    상기 전처리 단계는,
    상기 전처리 모듈이 상기 인식된 표 영역 이미지에서 라인 성분을 추출한 상기 라인 이미지 및 상기 표 영역 이미지에서 텍스트 성분을 추출한 상기 텍스트 이미지를 생성하는 단계; 및
    상기 전처리 모듈이 상기 텍스트 이미지에 기초하여 상기 텍스트 블록 이미지를 생성하는 단계;
    를 포함하고, 그리고
    상기 결과 셀 구조를 생성하는 단계는,
    상기 셀 구조 분석 모듈이 상기 라인 이미지에 기초하여 라인 기반 셀 구조 및 상기 텍스트 블록 이미지에 기초하여 텍스트 블록 기반 셀 구조를 생성하는 단계; 및
    상기 셀 구조 분석 모듈이 상기 라인 기반 셀 구조와 상기 텍스트 블록 기반 셀 구조를 비교하여, 상기 결과 셀 구조를 생성하는 단계;
    를 포함하고,
    상기 셀 구조 분석 모듈이 상기 라인 이미지에 기초하여 라인 기반 셀 구조 및 상기 텍스트 블록 이미지에 기초하여 텍스트 블록 기반 셀 구조를 생성하는 단계는,
    상기 셀 구조 분석 모듈이 상기 라인 이미지 상의 상기 라인 성분에 기초하여 헤더 영역-상기 헤더 영역은 상기 라인 성분으로 둘러싸인 영역 중 최상단 영역을 포함함-을 그룹화하고, 그리고 상기 헤더 영역에 텍스트 블록이 위치하는지 여부에 기초하여 상기 헤더 영역의 하부 영역을 분할하여 상기 라인 기반 셀 구조를 생성하는 단계
    를 포함하는,
    문서 이미지에서 표를 인식하는 방법.

KR1020160152159A 2016-11-15 2016-11-15 문서 이미지에서 표 인식을 위한 장치 및 방법 KR101811581B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160152159A KR101811581B1 (ko) 2016-11-15 2016-11-15 문서 이미지에서 표 인식을 위한 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160152159A KR101811581B1 (ko) 2016-11-15 2016-11-15 문서 이미지에서 표 인식을 위한 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101811581B1 true KR101811581B1 (ko) 2017-12-26

Family

ID=60936821

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160152159A KR101811581B1 (ko) 2016-11-15 2016-11-15 문서 이미지에서 표 인식을 위한 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101811581B1 (ko)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020170445A (ja) * 2019-04-05 2020-10-15 株式会社日立製作所 デジタル文書からのデータ抽出方法およびシステム
KR20210011606A (ko) * 2019-07-23 2021-02-02 한국과학기술원 문서 내 테이블 분석방법 및 장치
KR102211516B1 (ko) * 2020-08-21 2021-02-04 주식회사 애자일소다 가상 셀을 이용한 ocr 기반 문서 분석 시스템 및 방법
CN112651331A (zh) * 2020-12-24 2021-04-13 万兴科技集团股份有限公司 文本表格提取方法、系统、计算机设备及存储介质
CN112712014A (zh) * 2020-12-29 2021-04-27 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
CN112818813A (zh) * 2018-12-13 2021-05-18 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN113221743A (zh) * 2021-05-12 2021-08-06 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
KR20210140844A (ko) * 2020-05-14 2021-11-23 지의소프트 주식회사 전자문서 내 테이블 정보 저장 시스템 및 그 방법
KR102347386B1 (ko) * 2021-09-10 2022-01-05 주식회사 애자일소다 단어 정의 기반 헤더 추출 장치 및 방법
KR20220066740A (ko) * 2020-11-16 2022-05-24 주식회사 솔트룩스 표 이미지로부터 구조화된 출력 데이터를 생성하기 위한 표 정보 생성 시스템 및 방법
US11367296B2 (en) 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis
WO2022182104A1 (ko) * 2021-02-23 2022-09-01 네이버 주식회사 테이블 생성 방법 및 시스템, 그리고 테이블이 포함된 이미지 보정 방법 및 시스템
KR20220146209A (ko) * 2021-04-23 2022-11-01 주식회사 티맥스에이아이 이미지 기반 테이블 경계선 생성 방법
KR20220149028A (ko) 2021-04-30 2022-11-08 주식회사 티맥스에이아이 이미지 기반 테이블 정보 생성 방법
KR20220165515A (ko) * 2021-06-08 2022-12-15 고려대학교 산학협력단 카탈로그 이미지의 데이터 추출 시스템 및 카탈로그 이미지의 데이터 추출 방법
KR102502422B1 (ko) 2022-07-01 2023-02-23 주식회사 셀타스퀘어 전자 문서 내 인공지능 기반 정보 추출 방법 및 장치
WO2023087702A1 (zh) * 2021-11-22 2023-05-25 深圳前海微众银行股份有限公司 一种表格证件影像件的文本识别方法及计算设备
KR20230073795A (ko) 2021-11-19 2023-05-26 조남제 문서 분석 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331763A (ja) * 2000-03-17 2001-11-30 Fujitsu Ltd 表認識方法
KR101571681B1 (ko) * 2014-12-29 2015-11-25 주식회사 디오텍 동질 영역을 이용한 문서 구조의 분석 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331763A (ja) * 2000-03-17 2001-11-30 Fujitsu Ltd 表認識方法
KR101571681B1 (ko) * 2014-12-29 2015-11-25 주식회사 디오텍 동질 영역을 이용한 문서 구조의 분석 방법

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818813A (zh) * 2018-12-13 2021-05-18 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
JP2020170445A (ja) * 2019-04-05 2020-10-15 株式会社日立製作所 デジタル文書からのデータ抽出方法およびシステム
KR102379674B1 (ko) 2019-07-23 2022-03-29 한국과학기술원 문서 내 테이블 분석방법 및 장치
KR20210011606A (ko) * 2019-07-23 2021-02-02 한국과학기술원 문서 내 테이블 분석방법 및 장치
KR20210140844A (ko) * 2020-05-14 2021-11-23 지의소프트 주식회사 전자문서 내 테이블 정보 저장 시스템 및 그 방법
KR102364100B1 (ko) * 2020-05-14 2022-02-21 지의소프트 주식회사 전자문서 내 테이블 정보 저장 시스템 및 그 방법
US11367296B2 (en) 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis
KR102211516B1 (ko) * 2020-08-21 2021-02-04 주식회사 애자일소다 가상 셀을 이용한 ocr 기반 문서 분석 시스템 및 방법
WO2022039330A1 (ko) * 2020-08-21 2022-02-24 주식회사 애자일소다 가상 셀을 이용한 ocr 기반 문서 분석 시스템 및 방법
KR102614760B1 (ko) * 2020-11-16 2023-12-19 주식회사 솔트룩스 표 이미지로부터 구조화된 출력 데이터를 생성하기 위한 표 정보 생성 시스템 및 방법
KR20220066740A (ko) * 2020-11-16 2022-05-24 주식회사 솔트룩스 표 이미지로부터 구조화된 출력 데이터를 생성하기 위한 표 정보 생성 시스템 및 방법
CN112651331A (zh) * 2020-12-24 2021-04-13 万兴科技集团股份有限公司 文本表格提取方法、系统、计算机设备及存储介质
CN112651331B (zh) * 2020-12-24 2024-04-16 万兴科技集团股份有限公司 文本表格提取方法、系统、计算机设备及存储介质
CN112712014B (zh) * 2020-12-29 2024-04-30 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
CN112712014A (zh) * 2020-12-29 2021-04-27 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
WO2022182104A1 (ko) * 2021-02-23 2022-09-01 네이버 주식회사 테이블 생성 방법 및 시스템, 그리고 테이블이 포함된 이미지 보정 방법 및 시스템
KR102508654B1 (ko) * 2021-04-23 2023-03-10 주식회사 티맥스에이아이 이미지 기반 테이블 경계선 생성 방법
KR20220146209A (ko) * 2021-04-23 2022-11-01 주식회사 티맥스에이아이 이미지 기반 테이블 경계선 생성 방법
KR102490486B1 (ko) * 2021-04-30 2023-01-19 주식회사 티맥스에이아이 이미지 기반 테이블 정보 생성 방법
KR20230012651A (ko) 2021-04-30 2023-01-26 주식회사 티맥스에이아이 이미지 기반 테이블 정보 생성 방법
KR20220149028A (ko) 2021-04-30 2022-11-08 주식회사 티맥스에이아이 이미지 기반 테이블 정보 생성 방법
CN113221743B (zh) * 2021-05-12 2024-01-12 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113221743A (zh) * 2021-05-12 2021-08-06 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
KR20220165515A (ko) * 2021-06-08 2022-12-15 고려대학교 산학협력단 카탈로그 이미지의 데이터 추출 시스템 및 카탈로그 이미지의 데이터 추출 방법
KR102347386B1 (ko) * 2021-09-10 2022-01-05 주식회사 애자일소다 단어 정의 기반 헤더 추출 장치 및 방법
KR20230073795A (ko) 2021-11-19 2023-05-26 조남제 문서 분석 시스템
WO2023087702A1 (zh) * 2021-11-22 2023-05-25 深圳前海微众银行股份有限公司 一种表格证件影像件的文本识别方法及计算设备
WO2024005413A1 (ko) * 2022-07-01 2024-01-04 주식회사 셀타스퀘어 전자 문서 내 인공지능 기반 정보 추출 방법 및 장치
KR102502422B1 (ko) 2022-07-01 2023-02-23 주식회사 셀타스퀘어 전자 문서 내 인공지능 기반 정보 추출 방법 및 장치

Similar Documents

Publication Publication Date Title
KR101811581B1 (ko) 문서 이미지에서 표 인식을 위한 장치 및 방법
CN105868758B (zh) 图像中文本区域检测方法、装置及电子设备
Lyu et al. A comprehensive method for multilingual video text detection, localization, and extraction
US20170293824A1 (en) Method and device for recognizing subject area of image
US8693790B2 (en) Form template definition method and form template definition apparatus
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
EP3203417B1 (en) Method for detecting texts included in an image and apparatus using the same
CN106940799A (zh) 文本图像处理方法和装置
CN102782703A (zh) 经历光学字符识别的图像的页面布局确定
JP3995185B2 (ja) 枠認識装置及び記録媒体
Harit et al. Table detection in document images using header and trailer patterns
Zuyev Table image segmentation
Shivakumara et al. A novel mutual nearest neighbor based symmetry for text frame classification in video
Bansal et al. Table extraction from document images using fixed point model
Iwata et al. Recognition and transition frame detection of Arabic news captions for video retrieval
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
US9965678B2 (en) Method for recognizing table and flowchart in document images
KR101571681B1 (ko) 동질 영역을 이용한 문서 구조의 분석 방법
US8787676B2 (en) Image processing apparatus, computer readable medium storing program, and image processing method
JP2008108114A (ja) 文書処理装置および文書処理方法
Lue et al. A novel character segmentation method for text images captured by cameras
Tran et al. A deep learning-based system for document layout analysis
Arai et al. Text extraction from TV commercial using blob extraction method
Wu et al. A machine-learning approach for analyzing document layout structures with two reading orders
Berriche et al. Seam carving-based Arabic handwritten sub-word segmentation

Legal Events

Date Code Title Description
GRNT Written decision to grant