KR102575085B1

KR102575085B1 - 문서 분석 시스템

Info

Publication number: KR102575085B1
Application number: KR1020210160552A
Authority: KR
Inventors: 조남제
Original assignee: 조남제; 주식회사 오르비스파브리카
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2023-09-06
Also published as: KR20230073795A

Abstract

문서 분석 시스템이 개시된다. 본 발명의 일 측면에 따르면, 문서 이미지에서 표 영역을 인식하여 표 영역 이미지를 추출하는 표 추출 모듈; 상기 표 영역 이미지에서 표를 구성하는 복수의 셀 영역을 인식하여 상기 복수의 셀 영역 각각에 대하여 상기 셀 영역의 꼭지점에서의 좌표 데이터를 생성하는 셀 인식 모듈; 상기 복수의 셀 영역 각각에 대하여 상기 셀 영역 내에 위치한 텍스트를 인식하여 텍스트의 의미를 분석한 텍스트 데이터를 생성하는 텍스트 데이터 생성 모듈; 상기 좌표 데이터를 기초로 상기 복수의 셀 영역 간의 계층 구조를 분석하는 구조 분석 모듈; 및 상기 구조 분석 모듈에서 분석한 계층 구조를 기초로 상기 텍스트 데이터 생성 모듈에서 생성한 복수의 텍스트 데이터를 구조화한 데이터베이스를 생성하는 데이터베이스 생성 모듈을 포함하는 문서 분석 시스템이 제공될 수 있다.

Description

문서 분석 시스템{DOCUMENT ANALYZING SYSTEM}

본 발명은 문서 분석 시스템에 관한 것으로, 보다 상세하게는 문서 이미지 중 표에 기재된 텍스트를 분석하여 데이터베이스를 생성하는 문서 분석 시스템에 관한 것이다.

문서에 기재되어 있는 방대한 데이터는 텍스트(text), 표(table), 그래프(graph), 그림(figure) 등의 형태로 존재하고 있다. 이러한 데이터들은 모두 문서의 저자가 독자들에게 가치 있는 정보를 전달하기 위해 가장 적합한 형태로 표현되어 문서에 기재되어 있다.

이 중에서 텍스트는 저자가 전달하려고 하는 정보의 상당 부분을 표현하고 있지만, 데이터 분류와 중요 정보를 제공하기 위한 목적으로 표가 자주 사용되고 있다.

즉, 표에 기재된 데이터는 저자가 독자들에게 제공하고자 하는 가장 함축적이고 중요한 정보 중 하나라고 볼 수 있다.

하지만, 종래 문서 이미지에서 표에 기재된 텍스트를 분석하는 기술은 매우 한정적이어서 대부분의 경우 표 전체를 이미지 형태로만 제공하고 있는 것이 현실이다.

또한, 최근 인터넷, 네트워크, 클라우드 서비스 등과 같이 대용량의 데이터를 동시에 처리할 수 있는 인프라 기술들이 비약적으로 발전함에 따라, 모든 형태의 데이터들을 데이터베이스화할 수 있는 기술의 필요성이 더욱 높아진 상황이다. 특히, 빅데이터와 인공지능 분야에서 이러한 기술에 대한 요구가 크게 증가하고 있다.

대한민국 등록특허공보 제10-1811581호(2017.12.26, 문서 이미지에서 표 인식을 위한 장치 및 방법)

본 발명의 실시 예는 문서 이미지 중 표에 기재된 텍스트를 분석하여 데이터베이스를 생성하는 문서 분석 시스템을 제공한다.

본 발명의 일 측면에 따르면, 문서 이미지에서 표 영역을 인식하여 표 영역 이미지를 추출하는 표 추출 모듈; 상기 표 영역 이미지에서 표를 구성하는 복수의 셀 영역을 인식하여 상기 복수의 셀 영역 각각에 대하여 상기 셀 영역의 꼭지점에서의 좌표 데이터를 생성하는 셀 인식 모듈; 상기 복수의 셀 영역 각각에 대하여 상기 셀 영역 내에 위치한 텍스트를 인식하여 텍스트의 의미를 분석한 텍스트 데이터를 생성하는 텍스트 데이터 생성 모듈; 상기 좌표 데이터를 기초로 상기 복수의 셀 영역 간의 계층 구조를 분석하는 구조 분석 모듈; 및 상기 구조 분석 모듈에서 분석한 계층 구조를 기초로 상기 텍스트 데이터 생성 모듈에서 생성한 복수의 텍스트 데이터를 구조화한 데이터베이스를 생성하는 데이터베이스 생성 모듈을 포함하는 문서 분석 시스템이 제공될 수 있다.

상기 표 추출 모듈은 딥러닝 방식의 학습 결과를 기초로 표 영역을 인식할 수 있다.

상기 표 추출 모듈에서 표 영역 이미지를 추출하기 전의 문서 이미지에서 노이즈를 제거하는 노이즈 제거 모듈을 더 포함할 수 있다.

상기 텍스트 데이터 생성 모듈은, 상기 복수의 셀 영역 중 하나에 위치한 텍스트를 인식하는 텍스트 인식 모듈; 상기 텍스트 인식 모듈에서 인식한 텍스트의 의미를 분석하여 텍스트의 의미 유무를 판단하는 제1 텍스트 분석 모듈; 상기 제1 텍스트 분석 모듈에서의 분석 결과 텍스트의 의미가 없는 것으로 판단되면 상기 텍스트 인식 모듈에서 인식한 텍스트를 회전시키는 텍스트 회전 모듈; 및 상기 제1 텍스트 분석 모듈에서 분석한 텍스트의 의미를 기초로 텍스트 데이터를 생성하되, 상기 텍스트 회전 모듈에 의해 텍스트가 회전한 경우에는 상기 텍스트 회전 모듈에 의해 회전한 텍스트의 의미를 분석하여 텍스트 데이터를 생성하는 제2 텍스트 분석 모듈을 포함할 수 있다.

상기 텍스트 회전 모듈에 의해 회전한 텍스트는, 상기 텍스트 인식 모듈에서 인식한 제1 텍스트를 시계 방향으로 90도 회전시킨 제2 텍스트, 및 상기 텍스트 인식 모듈에서 인식한 제1 텍스트를 반 시계 방향으로 90도 회전시킨 제3 텍스트를 포함하고, 상기 제2 텍스트 분석 모듈은 상기 제2 텍스트와 상기 제3 텍스트 중 의미 있는 것을 기초로 텍스트 데이터를 생성할 수 있다.

상기 제1 텍스트 분석 모듈 및 상기 제2 텍스트 분석 모듈은 딥러닝 방식의 학습 결과를 기초로 텍스트의 의미 유무를 판단할 수 있다.

상기 문서 이미지에서 표 영역을 제외한 나머지 텍스트 영역에 위치한 텍스트를 기초로 텍스트의 의미를 딥러닝 방식으로 학습하는 딥러닝 학습 모듈을 더 포함하고, 상기 딥러닝 학습 모듈은 상기 텍스트 데이터 생성 모듈에 텍스트의 의미 유무를 판단하기 위한 학습 결과를 제공할 수 있다.

상기 구조 분석 모듈은, 상기 복수의 셀 영역 중에서 동일한 행 내에 배치되는 셀 영역 간에는 상기 좌표 데이터 중 y 좌표를 비교하여 계층 구조를 판단하되, 상기 복수의 셀 영역 중에서 동일한 열 내에 배치되는 셀 영역 간에는 상기 좌표 데이터 중 x 좌표를 비교하여 계층 구조를 판단할 수 있다.

상기 구조 분석 모듈은, 상기 복수의 셀 영역 중에서 동일한 행 내에 배치되는 제1 셀 영역과 제2 셀 영역에 있어서는 제1 셀 영역의 2개의 y 좌표가 제2 셀 영역의 2개의 y 좌표 사이에 배치되거나 제1 셀 영역의 2개의 y 좌표 중 하나는 제2 셀 영역의 2개의 y 좌표 중 하나와 동일하되 제1 셀 영역의 2개의 y 좌표 중 나머지 하나는 제2 셀 영역의 2개의 y 좌표 사이에 배치되면 제1 셀 영역은 제2 셀 영역을 상위 계층으로 하는 하위 계층 중 하나로 분류하고, 상기 복수의 셀 영역 중에서 동일한 열 내에 배치되는 제3 셀 영역과 제4 셀 영역에 있어서는 제3 셀 영역의 2개의 x 좌표가 제4 셀 영역의 2개의 x 좌표 사이에 배치되거나 제3 셀 영역의 2개의 x 좌표 중 하나는 제4 셀 영역의 2개의 x 좌표 중 하나와 동일하되 제3 셀 영역의 2개의 x 좌표 중 나머지 하나는 제4 셀 영역의 2개의 x 좌표 사이에 배치되면 제3 셀 영역은 제4 셀 영역을 상위 계층으로 하는 하위 계층 중 하나로 분류할 수 있다.

본 발명의 실시 예에 따르면, 문서 이미지 중 표에 기재된 텍스트를 분석하여 데이터베이스를 생성할 수 있고, 특히 계층 구조 분석을 통해 유의미한 형태의 데이터베이스를 생성함으로써 데이터베이스의 활용도를 높일 수 있다.

도 1은 본 발명의 일 실시 예에 따른 문서 분석 시스템을 도시한 블록도이고,
도 2는 도 1의 텍스트 데이터 생성 모듈을 도시한 블록도이고,
도 3은 도 1의 문서 분석 시스템에 의한 문서 분석 방법을 도시한 순서도이고,
도 4는 도 1의 표 추출 모듈에 의해 추출된 표 영역 이미지를 도시한 도면이고,
도 5 및 도 6은 도 4의 표 영역 이미지를 이용한 문서 분석 원리를 설명하기 위한 도면이고,
도 7은 도 1의 문서 분석 시스템에 의해 생성되는 데이터베이스의 일 부분을 예시적으로 도시한 도면이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한다.

본 발명의 실시 예에서 사용되는 용어는, 명백히 다른 의미로 정의되어 있지 않는 한, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 일반적으로 이해될 수 있는 의미로 해석될 수 있으며, 단지 특정 실시 예를 설명하기 위한 것으로 볼 것이지 본 발명을 제한하고자 하는 의도가 있는 것은 아니다.

본 명세서에서 사용하는 "모듈", "시스템" 등은 컴퓨터 관련 소프트웨어, 하드웨어, 또는 소프트웨어와 하드웨어의 조합을 포함하거나 이들에 의해 구현될 수 있다.

본 명세서에서, 단수형은 특별한 기재가 없는 한 복수형도 포함하는 것으로 볼 것이다.

또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 기재된 경우, 해당 부분은 다른 구성요소를 더 포함할 수도 있다는 것을 의미한다.

또한, 어떤 구성요소를 설명하는데 있어서 제1, 제2 등의 용어를 사용할 수 있지만, 이러한 용어는 해당 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등을 한정하고자 하는 것은 아니다.

도 1 내지 도 7을 참조하면, 본 발명의 일 실시 예에 따른 문서 분석 시스템(10)은 표 추출 모듈(200), 셀 인식 모듈(300), 텍스트 데이터 생성 모듈(400), 구조 분석 모듈(500) 및 데이터베이스 생성 모듈(600)을 포함할 수 있고, 노이즈 제거 모듈(100) 및/또는 딥러닝 학습 모듈(700)을 더 포함할 수도 있다.

노이즈 제거 모듈(100)은 문서 이미지에서 점과 얼룩 등과 같은 노이즈를 제거할 수 있다. 여기서, 문서 이미지는 예를 들어 문서 스캔 파일 등과 같은 이미지파일 형태일 수 있다.

예를 들어, 노이즈 제거 모듈(100)은 1단계로 이미지 필터링(Low Pass Filter, High Pass Filter)을 수행할 수 있고, 2단계로 이미지 형태변환(Opening, Closing)을 수행할 수 있다.

특히, 노이즈 제거 모듈(100)은 표 추출 모듈(200)에서 표 영역 이미지를 추출하기 전의 문서 이미지 전체에서 노이즈를 제거할 수 있다. 따라서, 문서 이미지의 표 영역에 대한 분석 작업에서 발생할 수 있는 오류와 문서 이미지의 텍스트 영역에 대한 딥러닝 학습에서 발생할 수 있는 오류를 동시에 예방할 수 있다.

표 추출 모듈(200)은 문서 이미지에서 표 영역을 인식하여 표 영역 이미지를 추출할 수 있다. 여기서, 표 영역 이미지란 표 영역만으로 구성된 이미지를 의미할 수 있다.

예를 들어, 표 추출 모듈(200)은 딥러닝 방식의 학습 결과를 기초로 표 영역을 인식할 수 있다.

셀 인식 모듈(300)은 표 영역 이미지에서 표를 구성하는 복수의 셀 영역을 인식하여 복수의 셀 영역 각각에 대하여 셀 영역의 꼭지점에서의 좌표 데이터를 생성할 수 있다. 여기서, 좌표 데이터는 x 좌표와 y 좌표를 포함할 수 있다. 예를 들어, 제1 셀 영역(S1)에 대하여는 (x2, y2), (x2, y8), (x3, y2) 및 (x3, y8)의 4개 좌표 데이터가 생성될 수 있다.

이를 위해, 셀 인식 모듈(300)은 수학적 영상처리(Open CV) 기술을 활용할 수 있다.

텍스트 데이터 생성 모듈(400)은 복수의 셀 영역 각각에 대하여 셀 영역 내에 위치한 텍스트를 인식하여 텍스트의 의미를 분석한 텍스트 데이터를 생성할 수 있다. 여기서, 텍스트는 텍스트 이미지 그 자체인 반면, 텍스트 데이터는 텍스트 이미지의 문자 판독 결과물을 의미할 수 있다.

텍스트 데이터 생성 모듈(400)은 텍스트의 의미 분석을 위해 광학식 문자판독장치(OCR, Optical Character Reader)를 포함할 수 있다.

구체적으로, 텍스트 데이터 생성 모듈(400)은 텍스트 인식 모듈(410), 제1 텍스트 분석 모듈(420), 텍스트 회전 모듈(430) 및 제2 텍스트 분석 모듈(440)을 포함할 수 있다.

텍스트 인식 모듈(410)은 복수의 셀 영역 중 하나에 위치한 텍스트를 인식할 수 있다.

제1 텍스트 분석 모듈(420)은 텍스트 인식 모듈(410)에서 인식한 텍스트의 의미를 분석하여 텍스트의 의미 유무를 판단할 수 있다.

예를 들어, 텍스트의 의미 분석은 텍스트의 좌측 단에서 우측 단까지 문자들을 순차적으로 판독함으로써 텍스트 전체의 의미를 분석하는 방식으로 이루어질 수 있다.

일 예로, 제1 셀 영역(S1) 내의 텍스트와 제2 셀 영역(S2) 내의 텍스트는 의미가 없는 것으로 판단될 수 있다.

다른 예로, 제3 셀 영역(S3) 내의 텍스트와 제4 셀 영역(S4) 내의 텍스트는 각각 "Horizontal"과 "Orientation"이라는 의미를 가지는 것으로 판단될 수 있다.

텍스트 회전 모듈(430)은 제1 텍스트 분석 모듈(420)에서의 분석 결과 텍스트의 의미가 없는 것으로 판단되면 텍스트 인식 모듈(410)에서 인식한 텍스트를 회전시킬 수 있다.

텍스트 회전 모듈(430)은 텍스트를 시계 방향으로 90도만큼 회전시키거나 반 시계 방향으로 90도만큼 회전시킬 수 있다.

따라서, 텍스트 회전 모듈(430)에 의해 회전한 텍스트는 제2 텍스트와 제3 텍스트를 포함할 수 있다.

여기서, 제2 텍스트는 텍스트 인식 모듈(410)에서 인식한 제1 텍스트를 시계 방향으로 90도만큼 회전시킨 것을 의미할 수 있고, 제3 텍스트는 텍스트 인식 모듈(410)에서 인식한 제1 텍스트를 반 시계 방향으로 90도만큼 회전시킨 것을 의미할 수 있다.

제2 텍스트 분석 모듈(440)은 제1 텍스트 분석 모듈(420)에서 분석한 텍스트의 의미를 기초로 텍스트 데이터를 생성하되, 텍스트 회전 모듈(430)에 의해 텍스트가 회전한 경우에는 텍스트 회전 모듈에 의해 회전한 텍스트의 의미를 분석하여 텍스트 데이터를 생성할 수 있다.

일 예로, 제2 텍스트 분석 모듈(440)은 제1 셀 영역(S1)과 제2 셀 영역(S2)에 대해서는 각각 텍스트 회전 모듈(430)에 의해 시계 방향으로 90도만큼 회전한 텍스트의 의미를 분석하여 "Overhung"과 "Centrifugal pumps"라는 내용의 텍스트 데이터를 생성할 수 있다.

다른 예로, 제2 텍스트 분석 모듈(440)은 제3 셀 영역(S3)과 제4 셀 영역(S4)에 대해서는 각각 제1 텍스트 분석 모듈(420)에서 분석한 텍스트의 의미를 기초로 "Horizontal"과 "Orientation"이라는 내용의 텍스트 데이터를 생성할 수 있다.

제1 텍스트 분석 모듈(420) 및 제2 텍스트 분석 모듈(440)은 딥러닝 방식의 학습 결과를 기초로 텍스트의 의미 유무를 판단할 수 있다. 예를 들어, 문자 판독 결과물이 딥러닝 방식의 학습 결과물에서 찾을 수 있는 단어이면 텍스트의 의미가 있는 것으로 판단하되, 찾을 수 없는 단어이면 텍스트의 의미가 없는 것으로 판단할 수 있다.

구조 분석 모듈(500)은 셀 인식 모듈(300)에서 생성한 좌표 데이터를 기초로 복수의 셀 영역 간의 계층 구조를 분석할 수 있다.

일 예로, 구조 분석 모듈(500)은 복수의 셀 영역 중에서 동일한 행 내에 배치되는 셀 영역 간에는 좌표 데이터 중 y 좌표를 비교하여 계층 구조를 판단할 수 있다.

예를 들어, 구조 분석 모듈(500)은 복수의 셀 영역 중에서 동일한 행(row)(R) 내에 배치되는 제1 셀 영역(S1)과 제2 셀 영역(S2)에 있어서, 제1 셀 영역(S1)의 2개의 y 좌표(y2, y8) 중 하나(y2)는 제2 셀 영역(S2)의 2개의 y 좌표(y2, y20) 중 하나(y2)와 동일하되 제1 셀 영역(S1)의 2개의 y 좌표(y2, y8) 중 나머지 하나(y8)는 제2 셀 영역(S2)의 2개의 y 좌표(y2, y20) 사이에 배치되면, 제1 셀 영역(S1)을 제2 셀 영역(S2)의 하위 계층 중 하나로 분류할 수 있고, 제2 셀 영역(S2)을 제1 셀 영역(S1)의 상위 계층으로 분류할 수 있다. 제1 셀 영역(S1)의 2개의 y 좌표 모두가 제2 셀 영역(S2)의 2개의 y 좌표 사이에 배치되는 경우에도 마찬가지일 수 있다.

다른 예로, 구조 분석 모듈(500)은 복수의 셀 영역 중에서 동일한 열 내에 배치되는 셀 영역 간에는 좌표 데이터 중 x 좌표를 비교하여 계층 구조를 판단할 수 있다.

예를 들어, 구조 분석 모듈(500)은 복수의 셀 영역 중에서 동일한 행(column)(C) 내에 배치되는 제3 셀 영역(S3)과 제4 셀 영역(S4)에 있어서, 제3 셀 영역(S3)의 2개의 x 좌표(x4, x5) 중 하나(x4)는 제4 셀 영역(S4)의 2개의 x 좌표(x4, x6) 중 하나(x4)와 동일하되 제3 셀 영역(S3)의 2개의 x 좌표(x4, x5) 중 나머지 하나(x5)는 제4 셀 영역(S4)의 2개의 x 좌표(x4, x6) 사이에 배치되면, 제3 셀 영역(S3)을 제4 셀 영역(S4)의 하위 계층 중 하나로 분류할 수 있고, 제4 셀 영역(S4)을 제3 셀 영역(S3)의 상위 계층으로 분류할 수 있다. 제3 셀 영역(S3)의 2개의 x 좌표 모두가 제4 셀 영역(S4)의 2개의 x 좌표 사이에 배치되는 경우에도 마찬가지일 수 있다.

데이터베이스 생성 모듈(600)은 구조 분석 모듈(500)에서 분석한 계층 구조를 기초로 텍스트 데이터 생성 모듈(400)에서 생성한 복수의 텍스트 데이터를 구조화한 데이터베이스를 생성할 수 있다. 예를 들어, 데이터베이스는 도면에서와 같이 트리 구조일 수 있다.

딥러닝 학습 모듈(700)은 문서 이미지에서 표 영역을 제외한 나머지 텍스트 영역에 위치한 텍스트를 기초로 텍스트의 의미를 딥러닝 방식으로 학습할 수 있고, 학습 결과를 텍스트 데이터 생성 모듈(400)에 텍스트의 의미 유무를 판단하기 위한 기초 자료로 제공할 수 있다.

따라서, 문서 이미지의 표 영역에 기재된 텍스트의 대부분은 문서 이미지의 텍스트 영역에서 적어도 한번 이상은 언급될 가능성이 있기 때문에 딥러닝 학습의 효율을 높일 수 있다. 문서 이미지가 표준 특허와 같이 해당 기술에 대해 새로운 전문 용어를 제안하는 경우에 특히 그러할 수 있다.

이상에서 본 발명의 바람직한 실시 예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 청구범위에 기재된 본 발명의 기술사상으로부터 벗어나지 않는 범위 내에서 구성요소의 부가, 변경, 삭제 또는 추가 등에 의해 실시 예를 다양하게 수정 및 변경시킬 수 있을 것이며, 이 또한 본 발명의 권리범위 내에 포함된다고 할 것이다.

10: 문서 분석 시스템 100: 노이즈 제거 모듈
200: 표 추출 모듈 300: 셀 인식 모듈
400: 텍스트 데이터 생성 모듈 410: 텍스트 인식 모듈
420: 제1 텍스트 분석 모듈 430: 텍스트 회전 모듈
440: 제2 텍스트 분석 모듈 500: 구조 분석 모듈
600: 데이터베이스 생성 모듈 700: 딥러닝 학습 모듈

Claims

문서 이미지에서 표 영역을 인식하여 표 영역 이미지를 추출하는 표 추출 모듈;
상기 표 영역 이미지에서 표를 구성하는 복수의 셀 영역을 인식하여 상기 복수의 셀 영역 각각에 대하여 상기 셀 영역의 꼭지점에서의 좌표 데이터를 생성하는 셀 인식 모듈;
상기 복수의 셀 영역 각각에 대하여 상기 셀 영역 내에 위치한 텍스트를 인식하여 텍스트의 의미를 분석한 텍스트 데이터를 생성하는 텍스트 데이터 생성 모듈;
상기 좌표 데이터를 기초로 상기 복수의 셀 영역 간의 계층 구조를 분석하는 구조 분석 모듈; 및
상기 구조 분석 모듈에서 분석한 계층 구조를 기초로 상기 텍스트 데이터 생성 모듈에서 생성한 복수의 텍스트 데이터를 구조화한 데이터베이스를 생성하는 데이터베이스 생성 모듈을 포함하고,

상기 표 추출 모듈에서 표 영역 이미지를 추출하기 전의 문서 이미지에서 노이즈를 제거하는 노이즈 제거 모듈; 및
상기 문서 이미지에서 표 영역을 제외한 나머지 텍스트 영역에 위치한 텍스트를 기초로 텍스트의 의미를 딥러닝 방식으로 학습하는 딥러닝 학습 모듈;을 더 포함하고,

상기 노이즈 제거 모듈은,
이미지 필터링을 수행하는 1단계; 및
이미지 형태변환을 수행하는 2단계;를 포함하며

상기 표 추출 모듈은, 딥러닝 방식의 학습 결과를 기초로 표 영역을 인식하며,

상기 텍스트 데이터 생성 모듈은,
상기 복수의 셀 영역 중 하나에 위치한 텍스트를 인식하는 텍스트 인식 모듈;
상기 텍스트 인식 모듈에서 인식한 텍스트의 의미를 분석하여 텍스트의 의미 유무를 판단하는 제1 텍스트 분석 모듈;
상기 제1 텍스트 분석 모듈에서의 분석 결과 텍스트의 의미가 없는 것으로 판단되면 상기 텍스트 인식 모듈에서 인식한 텍스트를 회전시키는 텍스트 회전 모듈; 및
상기 제1 텍스트 분석 모듈에서 분석한 텍스트의 의미를 기초로 텍스트 데이터를 생성하되, 상기 텍스트 회전 모듈에 의해 텍스트가 회전한 경우에는 상기 텍스트 회전 모듈에 의해 회전한 텍스트의 의미를 분석하여 텍스트 데이터를 생성하는 제2 텍스트 분석 모듈;을 포함하며,

상기 텍스트 회전 모듈에 의해 회전한 텍스트는, 상기 텍스트 인식 모듈에서 인식한 제1 텍스트를 시계 방향으로 90도 회전시킨 제2 텍스트, 및 상기 텍스트 인식 모듈에서 인식한 제1 텍스트를 반 시계 방향으로 90도 회전시킨 제3 텍스트를 포함하고,

상기 제2 텍스트 분석 모듈은 상기 제2 텍스트와 상기 제3 텍스트 중 의미 있는 것을 기초로 텍스트 데이터를 생성하며,

상기 제1 텍스트 분석 모듈 및 상기 제2 텍스트 분석 모듈은 딥러닝 방식의 학습 결과를 기초로 텍스트의 의미 유무를 판단하고,

상기 딥러닝 학습 모듈은 상기 텍스트 데이터 생성 모듈에 텍스트의 의미 유무를 판단하기 위한 학습 결과를 제공하며,

상기 구조 분석 모듈은, 상기 복수의 셀 영역 중에서 동일한 행 내에 배치되는 셀 영역 간에는 상기 좌표 데이터 중 y 좌표를 비교하여 계층 구조를 판단하되, 상기 복수의 셀 영역 중에서 동일한 열 내에 배치되는 셀 영역 간에는 상기 좌표 데이터 중 x 좌표를 비교하여 계층 구조를 판단하고,

상기 구조 분석 모듈은, 상기 복수의 셀 영역 중에서 동일한 행 내에 배치되는 제1 셀 영역과 제2 셀 영역에 있어서는 제1 셀 영역의 2개의 y 좌표가 제2 셀 영역의 2개의 y 좌표 사이에 배치되거나 제1 셀 영역의 2개의 y 좌표 중 하나는 제2 셀 영역의 2개의 y 좌표 중 하나와 동일하되 제1 셀 영역의 2개의 y 좌표 중 나머지 하나는 제2 셀 영역의 2개의 y 좌표 사이에 배치되면 제1 셀 영역은 제2 셀 영역을 상위 계층으로 하는 하위 계층 중 하나로 분류하고, 상기 복수의 셀 영역 중에서 동일한 열 내에 배치되는 제3 셀 영역과 제4 셀 영역에 있어서는 제3 셀 영역의 2개의 x 좌표가 제4 셀 영역의 2개의 x 좌표 사이에 배치되거나 제3 셀 영역의 2개의 x 좌표 중 하나는 제4 셀 영역의 2개의 x 좌표 중 하나와 동일하되 제3 셀 영역의 2개의 x 좌표 중 나머지 하나는 제4 셀 영역의 2개의 x 좌표 사이에 배치되면 제3 셀 영역은 제4 셀 영역을 상위 계층으로 하는 하위 계층 중 하나로 분류하는 것을 특징으로 하는 문서 분석 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제