KR102575085B1 - 문서 분석 시스템 - Google Patents

문서 분석 시스템 Download PDF

Info

Publication number
KR102575085B1
KR102575085B1 KR1020210160552A KR20210160552A KR102575085B1 KR 102575085 B1 KR102575085 B1 KR 102575085B1 KR 1020210160552 A KR1020210160552 A KR 1020210160552A KR 20210160552 A KR20210160552 A KR 20210160552A KR 102575085 B1 KR102575085 B1 KR 102575085B1
Authority
KR
South Korea
Prior art keywords
text
cell
module
coordinates
area
Prior art date
Application number
KR1020210160552A
Other languages
English (en)
Other versions
KR20230073795A (ko
Inventor
조남제
Original Assignee
조남제
주식회사 오르비스파브리카
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조남제, 주식회사 오르비스파브리카 filed Critical 조남제
Priority to KR1020210160552A priority Critical patent/KR102575085B1/ko
Publication of KR20230073795A publication Critical patent/KR20230073795A/ko
Application granted granted Critical
Publication of KR102575085B1 publication Critical patent/KR102575085B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

문서 분석 시스템이 개시된다. 본 발명의 일 측면에 따르면, 문서 이미지에서 표 영역을 인식하여 표 영역 이미지를 추출하는 표 추출 모듈; 상기 표 영역 이미지에서 표를 구성하는 복수의 셀 영역을 인식하여 상기 복수의 셀 영역 각각에 대하여 상기 셀 영역의 꼭지점에서의 좌표 데이터를 생성하는 셀 인식 모듈; 상기 복수의 셀 영역 각각에 대하여 상기 셀 영역 내에 위치한 텍스트를 인식하여 텍스트의 의미를 분석한 텍스트 데이터를 생성하는 텍스트 데이터 생성 모듈; 상기 좌표 데이터를 기초로 상기 복수의 셀 영역 간의 계층 구조를 분석하는 구조 분석 모듈; 및 상기 구조 분석 모듈에서 분석한 계층 구조를 기초로 상기 텍스트 데이터 생성 모듈에서 생성한 복수의 텍스트 데이터를 구조화한 데이터베이스를 생성하는 데이터베이스 생성 모듈을 포함하는 문서 분석 시스템이 제공될 수 있다.

Description

문서 분석 시스템{DOCUMENT ANALYZING SYSTEM}
본 발명은 문서 분석 시스템에 관한 것으로, 보다 상세하게는 문서 이미지 중 표에 기재된 텍스트를 분석하여 데이터베이스를 생성하는 문서 분석 시스템에 관한 것이다.
문서에 기재되어 있는 방대한 데이터는 텍스트(text), 표(table), 그래프(graph), 그림(figure) 등의 형태로 존재하고 있다. 이러한 데이터들은 모두 문서의 저자가 독자들에게 가치 있는 정보를 전달하기 위해 가장 적합한 형태로 표현되어 문서에 기재되어 있다.
이 중에서 텍스트는 저자가 전달하려고 하는 정보의 상당 부분을 표현하고 있지만, 데이터 분류와 중요 정보를 제공하기 위한 목적으로 표가 자주 사용되고 있다.
즉, 표에 기재된 데이터는 저자가 독자들에게 제공하고자 하는 가장 함축적이고 중요한 정보 중 하나라고 볼 수 있다.
하지만, 종래 문서 이미지에서 표에 기재된 텍스트를 분석하는 기술은 매우 한정적이어서 대부분의 경우 표 전체를 이미지 형태로만 제공하고 있는 것이 현실이다.
또한, 최근 인터넷, 네트워크, 클라우드 서비스 등과 같이 대용량의 데이터를 동시에 처리할 수 있는 인프라 기술들이 비약적으로 발전함에 따라, 모든 형태의 데이터들을 데이터베이스화할 수 있는 기술의 필요성이 더욱 높아진 상황이다. 특히, 빅데이터와 인공지능 분야에서 이러한 기술에 대한 요구가 크게 증가하고 있다.
대한민국 등록특허공보 제10-1811581호(2017.12.26, 문서 이미지에서 표 인식을 위한 장치 및 방법)
본 발명의 실시 예는 문서 이미지 중 표에 기재된 텍스트를 분석하여 데이터베이스를 생성하는 문서 분석 시스템을 제공한다.
본 발명의 일 측면에 따르면, 문서 이미지에서 표 영역을 인식하여 표 영역 이미지를 추출하는 표 추출 모듈; 상기 표 영역 이미지에서 표를 구성하는 복수의 셀 영역을 인식하여 상기 복수의 셀 영역 각각에 대하여 상기 셀 영역의 꼭지점에서의 좌표 데이터를 생성하는 셀 인식 모듈; 상기 복수의 셀 영역 각각에 대하여 상기 셀 영역 내에 위치한 텍스트를 인식하여 텍스트의 의미를 분석한 텍스트 데이터를 생성하는 텍스트 데이터 생성 모듈; 상기 좌표 데이터를 기초로 상기 복수의 셀 영역 간의 계층 구조를 분석하는 구조 분석 모듈; 및 상기 구조 분석 모듈에서 분석한 계층 구조를 기초로 상기 텍스트 데이터 생성 모듈에서 생성한 복수의 텍스트 데이터를 구조화한 데이터베이스를 생성하는 데이터베이스 생성 모듈을 포함하는 문서 분석 시스템이 제공될 수 있다.
상기 표 추출 모듈은 딥러닝 방식의 학습 결과를 기초로 표 영역을 인식할 수 있다.
상기 표 추출 모듈에서 표 영역 이미지를 추출하기 전의 문서 이미지에서 노이즈를 제거하는 노이즈 제거 모듈을 더 포함할 수 있다.
상기 텍스트 데이터 생성 모듈은, 상기 복수의 셀 영역 중 하나에 위치한 텍스트를 인식하는 텍스트 인식 모듈; 상기 텍스트 인식 모듈에서 인식한 텍스트의 의미를 분석하여 텍스트의 의미 유무를 판단하는 제1 텍스트 분석 모듈; 상기 제1 텍스트 분석 모듈에서의 분석 결과 텍스트의 의미가 없는 것으로 판단되면 상기 텍스트 인식 모듈에서 인식한 텍스트를 회전시키는 텍스트 회전 모듈; 및 상기 제1 텍스트 분석 모듈에서 분석한 텍스트의 의미를 기초로 텍스트 데이터를 생성하되, 상기 텍스트 회전 모듈에 의해 텍스트가 회전한 경우에는 상기 텍스트 회전 모듈에 의해 회전한 텍스트의 의미를 분석하여 텍스트 데이터를 생성하는 제2 텍스트 분석 모듈을 포함할 수 있다.
상기 텍스트 회전 모듈에 의해 회전한 텍스트는, 상기 텍스트 인식 모듈에서 인식한 제1 텍스트를 시계 방향으로 90도 회전시킨 제2 텍스트, 및 상기 텍스트 인식 모듈에서 인식한 제1 텍스트를 반 시계 방향으로 90도 회전시킨 제3 텍스트를 포함하고, 상기 제2 텍스트 분석 모듈은 상기 제2 텍스트와 상기 제3 텍스트 중 의미 있는 것을 기초로 텍스트 데이터를 생성할 수 있다.
상기 제1 텍스트 분석 모듈 및 상기 제2 텍스트 분석 모듈은 딥러닝 방식의 학습 결과를 기초로 텍스트의 의미 유무를 판단할 수 있다.
상기 문서 이미지에서 표 영역을 제외한 나머지 텍스트 영역에 위치한 텍스트를 기초로 텍스트의 의미를 딥러닝 방식으로 학습하는 딥러닝 학습 모듈을 더 포함하고, 상기 딥러닝 학습 모듈은 상기 텍스트 데이터 생성 모듈에 텍스트의 의미 유무를 판단하기 위한 학습 결과를 제공할 수 있다.
상기 구조 분석 모듈은, 상기 복수의 셀 영역 중에서 동일한 행 내에 배치되는 셀 영역 간에는 상기 좌표 데이터 중 y 좌표를 비교하여 계층 구조를 판단하되, 상기 복수의 셀 영역 중에서 동일한 열 내에 배치되는 셀 영역 간에는 상기 좌표 데이터 중 x 좌표를 비교하여 계층 구조를 판단할 수 있다.
상기 구조 분석 모듈은, 상기 복수의 셀 영역 중에서 동일한 행 내에 배치되는 제1 셀 영역과 제2 셀 영역에 있어서는 제1 셀 영역의 2개의 y 좌표가 제2 셀 영역의 2개의 y 좌표 사이에 배치되거나 제1 셀 영역의 2개의 y 좌표 중 하나는 제2 셀 영역의 2개의 y 좌표 중 하나와 동일하되 제1 셀 영역의 2개의 y 좌표 중 나머지 하나는 제2 셀 영역의 2개의 y 좌표 사이에 배치되면 제1 셀 영역은 제2 셀 영역을 상위 계층으로 하는 하위 계층 중 하나로 분류하고, 상기 복수의 셀 영역 중에서 동일한 열 내에 배치되는 제3 셀 영역과 제4 셀 영역에 있어서는 제3 셀 영역의 2개의 x 좌표가 제4 셀 영역의 2개의 x 좌표 사이에 배치되거나 제3 셀 영역의 2개의 x 좌표 중 하나는 제4 셀 영역의 2개의 x 좌표 중 하나와 동일하되 제3 셀 영역의 2개의 x 좌표 중 나머지 하나는 제4 셀 영역의 2개의 x 좌표 사이에 배치되면 제3 셀 영역은 제4 셀 영역을 상위 계층으로 하는 하위 계층 중 하나로 분류할 수 있다.
본 발명의 실시 예에 따르면, 문서 이미지 중 표에 기재된 텍스트를 분석하여 데이터베이스를 생성할 수 있고, 특히 계층 구조 분석을 통해 유의미한 형태의 데이터베이스를 생성함으로써 데이터베이스의 활용도를 높일 수 있다.
도 1은 본 발명의 일 실시 예에 따른 문서 분석 시스템을 도시한 블록도이고,
도 2는 도 1의 텍스트 데이터 생성 모듈을 도시한 블록도이고,
도 3은 도 1의 문서 분석 시스템에 의한 문서 분석 방법을 도시한 순서도이고,
도 4는 도 1의 표 추출 모듈에 의해 추출된 표 영역 이미지를 도시한 도면이고,
도 5 및 도 6은 도 4의 표 영역 이미지를 이용한 문서 분석 원리를 설명하기 위한 도면이고,
도 7은 도 1의 문서 분석 시스템에 의해 생성되는 데이터베이스의 일 부분을 예시적으로 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한다.
본 발명의 실시 예에서 사용되는 용어는, 명백히 다른 의미로 정의되어 있지 않는 한, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 일반적으로 이해될 수 있는 의미로 해석될 수 있으며, 단지 특정 실시 예를 설명하기 위한 것으로 볼 것이지 본 발명을 제한하고자 하는 의도가 있는 것은 아니다.
본 명세서에서 사용하는 "모듈", "시스템" 등은 컴퓨터 관련 소프트웨어, 하드웨어, 또는 소프트웨어와 하드웨어의 조합을 포함하거나 이들에 의해 구현될 수 있다.
본 명세서에서, 단수형은 특별한 기재가 없는 한 복수형도 포함하는 것으로 볼 것이다.
또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 기재된 경우, 해당 부분은 다른 구성요소를 더 포함할 수도 있다는 것을 의미한다.
또한, 어떤 구성요소를 설명하는데 있어서 제1, 제2 등의 용어를 사용할 수 있지만, 이러한 용어는 해당 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등을 한정하고자 하는 것은 아니다.
도 1은 본 발명의 일 실시 예에 따른 문서 분석 시스템을 도시한 블록도이고, 도 2는 도 1의 텍스트 데이터 생성 모듈을 도시한 블록도이고, 도 3은 도 1의 문서 분석 시스템에 의한 문서 분석 방법을 도시한 순서도이고, 도 4는 도 1의 표 추출 모듈에 의해 추출된 표 영역 이미지를 도시한 도면이고, 도 5 및 도 6은 도 4의 표 영역 이미지를 이용한 문서 분석 원리를 설명하기 위한 도면이고, 도 7은 도 1의 문서 분석 시스템에 의해 생성되는 데이터베이스의 일 부분을 예시적으로 도시한 도면이다.
도 1 내지 도 7을 참조하면, 본 발명의 일 실시 예에 따른 문서 분석 시스템(10)은 표 추출 모듈(200), 셀 인식 모듈(300), 텍스트 데이터 생성 모듈(400), 구조 분석 모듈(500) 및 데이터베이스 생성 모듈(600)을 포함할 수 있고, 노이즈 제거 모듈(100) 및/또는 딥러닝 학습 모듈(700)을 더 포함할 수도 있다.
노이즈 제거 모듈(100)은 문서 이미지에서 점과 얼룩 등과 같은 노이즈를 제거할 수 있다. 여기서, 문서 이미지는 예를 들어 문서 스캔 파일 등과 같은 이미지파일 형태일 수 있다.
예를 들어, 노이즈 제거 모듈(100)은 1단계로 이미지 필터링(Low Pass Filter, High Pass Filter)을 수행할 수 있고, 2단계로 이미지 형태변환(Opening, Closing)을 수행할 수 있다.
특히, 노이즈 제거 모듈(100)은 표 추출 모듈(200)에서 표 영역 이미지를 추출하기 전의 문서 이미지 전체에서 노이즈를 제거할 수 있다. 따라서, 문서 이미지의 표 영역에 대한 분석 작업에서 발생할 수 있는 오류와 문서 이미지의 텍스트 영역에 대한 딥러닝 학습에서 발생할 수 있는 오류를 동시에 예방할 수 있다.
표 추출 모듈(200)은 문서 이미지에서 표 영역을 인식하여 표 영역 이미지를 추출할 수 있다. 여기서, 표 영역 이미지란 표 영역만으로 구성된 이미지를 의미할 수 있다.
예를 들어, 표 추출 모듈(200)은 딥러닝 방식의 학습 결과를 기초로 표 영역을 인식할 수 있다.
셀 인식 모듈(300)은 표 영역 이미지에서 표를 구성하는 복수의 셀 영역을 인식하여 복수의 셀 영역 각각에 대하여 셀 영역의 꼭지점에서의 좌표 데이터를 생성할 수 있다. 여기서, 좌표 데이터는 x 좌표와 y 좌표를 포함할 수 있다. 예를 들어, 제1 셀 영역(S1)에 대하여는 (x2, y2), (x2, y8), (x3, y2) 및 (x3, y8)의 4개 좌표 데이터가 생성될 수 있다.
이를 위해, 셀 인식 모듈(300)은 수학적 영상처리(Open CV) 기술을 활용할 수 있다.
텍스트 데이터 생성 모듈(400)은 복수의 셀 영역 각각에 대하여 셀 영역 내에 위치한 텍스트를 인식하여 텍스트의 의미를 분석한 텍스트 데이터를 생성할 수 있다. 여기서, 텍스트는 텍스트 이미지 그 자체인 반면, 텍스트 데이터는 텍스트 이미지의 문자 판독 결과물을 의미할 수 있다.
텍스트 데이터 생성 모듈(400)은 텍스트의 의미 분석을 위해 광학식 문자판독장치(OCR, Optical Character Reader)를 포함할 수 있다.
구체적으로, 텍스트 데이터 생성 모듈(400)은 텍스트 인식 모듈(410), 제1 텍스트 분석 모듈(420), 텍스트 회전 모듈(430) 및 제2 텍스트 분석 모듈(440)을 포함할 수 있다.
텍스트 인식 모듈(410)은 복수의 셀 영역 중 하나에 위치한 텍스트를 인식할 수 있다.
제1 텍스트 분석 모듈(420)은 텍스트 인식 모듈(410)에서 인식한 텍스트의 의미를 분석하여 텍스트의 의미 유무를 판단할 수 있다.
예를 들어, 텍스트의 의미 분석은 텍스트의 좌측 단에서 우측 단까지 문자들을 순차적으로 판독함으로써 텍스트 전체의 의미를 분석하는 방식으로 이루어질 수 있다.
일 예로, 제1 셀 영역(S1) 내의 텍스트와 제2 셀 영역(S2) 내의 텍스트는 의미가 없는 것으로 판단될 수 있다.
다른 예로, 제3 셀 영역(S3) 내의 텍스트와 제4 셀 영역(S4) 내의 텍스트는 각각 "Horizontal"과 "Orientation"이라는 의미를 가지는 것으로 판단될 수 있다.
텍스트 회전 모듈(430)은 제1 텍스트 분석 모듈(420)에서의 분석 결과 텍스트의 의미가 없는 것으로 판단되면 텍스트 인식 모듈(410)에서 인식한 텍스트를 회전시킬 수 있다.
텍스트 회전 모듈(430)은 텍스트를 시계 방향으로 90도만큼 회전시키거나 반 시계 방향으로 90도만큼 회전시킬 수 있다.
따라서, 텍스트 회전 모듈(430)에 의해 회전한 텍스트는 제2 텍스트와 제3 텍스트를 포함할 수 있다.
여기서, 제2 텍스트는 텍스트 인식 모듈(410)에서 인식한 제1 텍스트를 시계 방향으로 90도만큼 회전시킨 것을 의미할 수 있고, 제3 텍스트는 텍스트 인식 모듈(410)에서 인식한 제1 텍스트를 반 시계 방향으로 90도만큼 회전시킨 것을 의미할 수 있다.
제2 텍스트 분석 모듈(440)은 제1 텍스트 분석 모듈(420)에서 분석한 텍스트의 의미를 기초로 텍스트 데이터를 생성하되, 텍스트 회전 모듈(430)에 의해 텍스트가 회전한 경우에는 텍스트 회전 모듈에 의해 회전한 텍스트의 의미를 분석하여 텍스트 데이터를 생성할 수 있다.
일 예로, 제2 텍스트 분석 모듈(440)은 제1 셀 영역(S1)과 제2 셀 영역(S2)에 대해서는 각각 텍스트 회전 모듈(430)에 의해 시계 방향으로 90도만큼 회전한 텍스트의 의미를 분석하여 "Overhung"과 "Centrifugal pumps"라는 내용의 텍스트 데이터를 생성할 수 있다.
다른 예로, 제2 텍스트 분석 모듈(440)은 제3 셀 영역(S3)과 제4 셀 영역(S4)에 대해서는 각각 제1 텍스트 분석 모듈(420)에서 분석한 텍스트의 의미를 기초로 "Horizontal"과 "Orientation"이라는 내용의 텍스트 데이터를 생성할 수 있다.
제1 텍스트 분석 모듈(420) 및 제2 텍스트 분석 모듈(440)은 딥러닝 방식의 학습 결과를 기초로 텍스트의 의미 유무를 판단할 수 있다. 예를 들어, 문자 판독 결과물이 딥러닝 방식의 학습 결과물에서 찾을 수 있는 단어이면 텍스트의 의미가 있는 것으로 판단하되, 찾을 수 없는 단어이면 텍스트의 의미가 없는 것으로 판단할 수 있다.
구조 분석 모듈(500)은 셀 인식 모듈(300)에서 생성한 좌표 데이터를 기초로 복수의 셀 영역 간의 계층 구조를 분석할 수 있다.
일 예로, 구조 분석 모듈(500)은 복수의 셀 영역 중에서 동일한 행 내에 배치되는 셀 영역 간에는 좌표 데이터 중 y 좌표를 비교하여 계층 구조를 판단할 수 있다.
예를 들어, 구조 분석 모듈(500)은 복수의 셀 영역 중에서 동일한 행(row)(R) 내에 배치되는 제1 셀 영역(S1)과 제2 셀 영역(S2)에 있어서, 제1 셀 영역(S1)의 2개의 y 좌표(y2, y8) 중 하나(y2)는 제2 셀 영역(S2)의 2개의 y 좌표(y2, y20) 중 하나(y2)와 동일하되 제1 셀 영역(S1)의 2개의 y 좌표(y2, y8) 중 나머지 하나(y8)는 제2 셀 영역(S2)의 2개의 y 좌표(y2, y20) 사이에 배치되면, 제1 셀 영역(S1)을 제2 셀 영역(S2)의 하위 계층 중 하나로 분류할 수 있고, 제2 셀 영역(S2)을 제1 셀 영역(S1)의 상위 계층으로 분류할 수 있다. 제1 셀 영역(S1)의 2개의 y 좌표 모두가 제2 셀 영역(S2)의 2개의 y 좌표 사이에 배치되는 경우에도 마찬가지일 수 있다.
다른 예로, 구조 분석 모듈(500)은 복수의 셀 영역 중에서 동일한 열 내에 배치되는 셀 영역 간에는 좌표 데이터 중 x 좌표를 비교하여 계층 구조를 판단할 수 있다.
예를 들어, 구조 분석 모듈(500)은 복수의 셀 영역 중에서 동일한 행(column)(C) 내에 배치되는 제3 셀 영역(S3)과 제4 셀 영역(S4)에 있어서, 제3 셀 영역(S3)의 2개의 x 좌표(x4, x5) 중 하나(x4)는 제4 셀 영역(S4)의 2개의 x 좌표(x4, x6) 중 하나(x4)와 동일하되 제3 셀 영역(S3)의 2개의 x 좌표(x4, x5) 중 나머지 하나(x5)는 제4 셀 영역(S4)의 2개의 x 좌표(x4, x6) 사이에 배치되면, 제3 셀 영역(S3)을 제4 셀 영역(S4)의 하위 계층 중 하나로 분류할 수 있고, 제4 셀 영역(S4)을 제3 셀 영역(S3)의 상위 계층으로 분류할 수 있다. 제3 셀 영역(S3)의 2개의 x 좌표 모두가 제4 셀 영역(S4)의 2개의 x 좌표 사이에 배치되는 경우에도 마찬가지일 수 있다.
데이터베이스 생성 모듈(600)은 구조 분석 모듈(500)에서 분석한 계층 구조를 기초로 텍스트 데이터 생성 모듈(400)에서 생성한 복수의 텍스트 데이터를 구조화한 데이터베이스를 생성할 수 있다. 예를 들어, 데이터베이스는 도면에서와 같이 트리 구조일 수 있다.
딥러닝 학습 모듈(700)은 문서 이미지에서 표 영역을 제외한 나머지 텍스트 영역에 위치한 텍스트를 기초로 텍스트의 의미를 딥러닝 방식으로 학습할 수 있고, 학습 결과를 텍스트 데이터 생성 모듈(400)에 텍스트의 의미 유무를 판단하기 위한 기초 자료로 제공할 수 있다.
따라서, 문서 이미지의 표 영역에 기재된 텍스트의 대부분은 문서 이미지의 텍스트 영역에서 적어도 한번 이상은 언급될 가능성이 있기 때문에 딥러닝 학습의 효율을 높일 수 있다. 문서 이미지가 표준 특허와 같이 해당 기술에 대해 새로운 전문 용어를 제안하는 경우에 특히 그러할 수 있다.
이상에서 본 발명의 바람직한 실시 예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 청구범위에 기재된 본 발명의 기술사상으로부터 벗어나지 않는 범위 내에서 구성요소의 부가, 변경, 삭제 또는 추가 등에 의해 실시 예를 다양하게 수정 및 변경시킬 수 있을 것이며, 이 또한 본 발명의 권리범위 내에 포함된다고 할 것이다.
10: 문서 분석 시스템 100: 노이즈 제거 모듈
200: 표 추출 모듈 300: 셀 인식 모듈
400: 텍스트 데이터 생성 모듈 410: 텍스트 인식 모듈
420: 제1 텍스트 분석 모듈 430: 텍스트 회전 모듈
440: 제2 텍스트 분석 모듈 500: 구조 분석 모듈
600: 데이터베이스 생성 모듈 700: 딥러닝 학습 모듈

Claims (9)

  1. 문서 이미지에서 표 영역을 인식하여 표 영역 이미지를 추출하는 표 추출 모듈;
    상기 표 영역 이미지에서 표를 구성하는 복수의 셀 영역을 인식하여 상기 복수의 셀 영역 각각에 대하여 상기 셀 영역의 꼭지점에서의 좌표 데이터를 생성하는 셀 인식 모듈;
    상기 복수의 셀 영역 각각에 대하여 상기 셀 영역 내에 위치한 텍스트를 인식하여 텍스트의 의미를 분석한 텍스트 데이터를 생성하는 텍스트 데이터 생성 모듈;
    상기 좌표 데이터를 기초로 상기 복수의 셀 영역 간의 계층 구조를 분석하는 구조 분석 모듈; 및
    상기 구조 분석 모듈에서 분석한 계층 구조를 기초로 상기 텍스트 데이터 생성 모듈에서 생성한 복수의 텍스트 데이터를 구조화한 데이터베이스를 생성하는 데이터베이스 생성 모듈을 포함하고,

    상기 표 추출 모듈에서 표 영역 이미지를 추출하기 전의 문서 이미지에서 노이즈를 제거하는 노이즈 제거 모듈; 및
    상기 문서 이미지에서 표 영역을 제외한 나머지 텍스트 영역에 위치한 텍스트를 기초로 텍스트의 의미를 딥러닝 방식으로 학습하는 딥러닝 학습 모듈;을 더 포함하고,

    상기 노이즈 제거 모듈은,
    이미지 필터링을 수행하는 1단계; 및
    이미지 형태변환을 수행하는 2단계;를 포함하며

    상기 표 추출 모듈은, 딥러닝 방식의 학습 결과를 기초로 표 영역을 인식하며,

    상기 텍스트 데이터 생성 모듈은,
    상기 복수의 셀 영역 중 하나에 위치한 텍스트를 인식하는 텍스트 인식 모듈;
    상기 텍스트 인식 모듈에서 인식한 텍스트의 의미를 분석하여 텍스트의 의미 유무를 판단하는 제1 텍스트 분석 모듈;
    상기 제1 텍스트 분석 모듈에서의 분석 결과 텍스트의 의미가 없는 것으로 판단되면 상기 텍스트 인식 모듈에서 인식한 텍스트를 회전시키는 텍스트 회전 모듈; 및
    상기 제1 텍스트 분석 모듈에서 분석한 텍스트의 의미를 기초로 텍스트 데이터를 생성하되, 상기 텍스트 회전 모듈에 의해 텍스트가 회전한 경우에는 상기 텍스트 회전 모듈에 의해 회전한 텍스트의 의미를 분석하여 텍스트 데이터를 생성하는 제2 텍스트 분석 모듈;을 포함하며,

    상기 텍스트 회전 모듈에 의해 회전한 텍스트는, 상기 텍스트 인식 모듈에서 인식한 제1 텍스트를 시계 방향으로 90도 회전시킨 제2 텍스트, 및 상기 텍스트 인식 모듈에서 인식한 제1 텍스트를 반 시계 방향으로 90도 회전시킨 제3 텍스트를 포함하고,

    상기 제2 텍스트 분석 모듈은 상기 제2 텍스트와 상기 제3 텍스트 중 의미 있는 것을 기초로 텍스트 데이터를 생성하며,

    상기 제1 텍스트 분석 모듈 및 상기 제2 텍스트 분석 모듈은 딥러닝 방식의 학습 결과를 기초로 텍스트의 의미 유무를 판단하고,

    상기 딥러닝 학습 모듈은 상기 텍스트 데이터 생성 모듈에 텍스트의 의미 유무를 판단하기 위한 학습 결과를 제공하며,

    상기 구조 분석 모듈은, 상기 복수의 셀 영역 중에서 동일한 행 내에 배치되는 셀 영역 간에는 상기 좌표 데이터 중 y 좌표를 비교하여 계층 구조를 판단하되, 상기 복수의 셀 영역 중에서 동일한 열 내에 배치되는 셀 영역 간에는 상기 좌표 데이터 중 x 좌표를 비교하여 계층 구조를 판단하고,

    상기 구조 분석 모듈은, 상기 복수의 셀 영역 중에서 동일한 행 내에 배치되는 제1 셀 영역과 제2 셀 영역에 있어서는 제1 셀 영역의 2개의 y 좌표가 제2 셀 영역의 2개의 y 좌표 사이에 배치되거나 제1 셀 영역의 2개의 y 좌표 중 하나는 제2 셀 영역의 2개의 y 좌표 중 하나와 동일하되 제1 셀 영역의 2개의 y 좌표 중 나머지 하나는 제2 셀 영역의 2개의 y 좌표 사이에 배치되면 제1 셀 영역은 제2 셀 영역을 상위 계층으로 하는 하위 계층 중 하나로 분류하고, 상기 복수의 셀 영역 중에서 동일한 열 내에 배치되는 제3 셀 영역과 제4 셀 영역에 있어서는 제3 셀 영역의 2개의 x 좌표가 제4 셀 영역의 2개의 x 좌표 사이에 배치되거나 제3 셀 영역의 2개의 x 좌표 중 하나는 제4 셀 영역의 2개의 x 좌표 중 하나와 동일하되 제3 셀 영역의 2개의 x 좌표 중 나머지 하나는 제4 셀 영역의 2개의 x 좌표 사이에 배치되면 제3 셀 영역은 제4 셀 영역을 상위 계층으로 하는 하위 계층 중 하나로 분류하는 것을 특징으로 하는 문서 분석 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
KR1020210160552A 2021-11-19 2021-11-19 문서 분석 시스템 KR102575085B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210160552A KR102575085B1 (ko) 2021-11-19 2021-11-19 문서 분석 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210160552A KR102575085B1 (ko) 2021-11-19 2021-11-19 문서 분석 시스템

Publications (2)

Publication Number Publication Date
KR20230073795A KR20230073795A (ko) 2023-05-26
KR102575085B1 true KR102575085B1 (ko) 2023-09-06

Family

ID=86536931

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210160552A KR102575085B1 (ko) 2021-11-19 2021-11-19 문서 분석 시스템

Country Status (1)

Country Link
KR (1) KR102575085B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204226A (ja) * 2007-02-21 2008-09-04 Hitachi Computer Peripherals Co Ltd 帳票認識装置およびそのプログラム
JP2019082814A (ja) * 2017-10-30 2019-05-30 株式会社インフォディオ 紙帳票データ化システム、ocrエンジン学習用画像生成装置および画像分析装置
JP2021152924A (ja) * 2016-07-21 2021-09-30 株式会社ミラボ 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101811581B1 (ko) 2016-11-15 2017-12-26 주식회사 셀바스에이아이 문서 이미지에서 표 인식을 위한 장치 및 방법
CA3056775A1 (en) * 2017-03-22 2018-09-27 Drilling Info, Inc. Extracting data from electronic documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204226A (ja) * 2007-02-21 2008-09-04 Hitachi Computer Peripherals Co Ltd 帳票認識装置およびそのプログラム
JP2021152924A (ja) * 2016-07-21 2021-09-30 株式会社ミラボ 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム
JP2019082814A (ja) * 2017-10-30 2019-05-30 株式会社インフォディオ 紙帳票データ化システム、ocrエンジン学習用画像生成装置および画像分析装置

Also Published As

Publication number Publication date
KR20230073795A (ko) 2023-05-26

Similar Documents

Publication Publication Date Title
Namboodiri et al. Document structure and layout analysis
Bhowmik et al. Text and non-text separation in offline document images: a survey
Hochuli et al. Handwritten digit segmentation: Is it still necessary?
US6006240A (en) Cell identification in table analysis
Kumar et al. Segmentation of isolated and touching characters in offline handwritten Gurmukhi script recognition
Tran et al. Separation of text and non-text in document layout analysis using a recursive filter
Bansal et al. Table extraction from document images using fixed point model
Dhanikonda et al. An efficient deep learning model with interrelated tagging prototype with segmentation for telugu optical character recognition
Rajyagor et al. Tri-level handwritten text segmentation techniques for Gujarati language
Lehal A complete machine-printed Gurmukhi OCR system
KR102575085B1 (ko) 문서 분석 시스템
Ablameyko et al. Recognition of engineering drawing entities: review of approaches
Song et al. Recognition of merged characters based on forepart prediction, necessity-sufficiency matching, and character-adaptive masking
JP3720892B2 (ja) 画像処理方法および画像処理装置
Swaileh et al. Versailles-FP dataset: wall detection in ancient floor plans
Yuan et al. A novel figure panel classification and extraction method for document image understanding
Jia et al. Detecting text baselines in historical documents with baseline primitives
Makridis et al. An efficient word segmentation technique for historical and degraded machine-printed documents
Jia et al. Grayscale-projection based optimal character segmentation for camera-captured faint text recognition
Duth et al. Recognition of hand written and printed text of cursive writing utilizing optical character recognition
Babalola Automatic recognition and interpretation of finite state automata diagrams
JP2020119291A (ja) 情報処理装置及びプログラム
García-Calderón et al. Unsupervised multi-language handwritten text line segmentation
Swaileh et al. Versailles-FP dataset: Wall Detection in Ancient
Stewart Fully Convolutional Neural Networks for Pixel Classification in Historical Document Images

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant