WO2021215589A1

WO2021215589A1 - Ocr 기반 문서 분석 시스템 및 방법

Info

Publication number: WO2021215589A1
Application number: PCT/KR2020/011210
Authority: WO
Inventors: 이병철; 서광일; 김상헌; 어진솔; 황장현; 정안재; 최주영
Original assignee: 주식회사 애자일소다
Priority date: 2020-04-24
Filing date: 2020-08-21
Publication date: 2021-10-28
Also published as: JP2023522360A; JP7444495B2

Abstract

OCR 기반 문서 분석 시스템 및 방법을 개시한다. 본 발명은 OCR 인식에 기반하여 인식된 글자에 대한 상대적인 위치 정보, 인식된 항목 간의 연결, 인식된 정보에 대한 신뢰 점수를 제공함으로써, 데이터 테이블의 재구성, 예측 정확도 검사자에 의한 확인 작업시간을 감소시킬 수 있다.

Description

OCR 기반 문서 분석 시스템 및 방법

본 발명은 OCR 기반 문서 분석 시스템 및 방법에 관한 발명으로서, 더욱 상세하게는 OCR 인식에 기반하여 인식된 글자에 대한 상대적인 위치 정보, 인식된 항목 간의 연결, 인식된 정보에 대한 신뢰 점수를 제공함으로써, 데이터 테이블의 재구성, 예측 정확도 검사자에 의한 확인 작업시간을 감소시킬 수 있는 OCR 기반 문서 분석 시스템 및 방법에 관한 것이다.

개인이나 기업은 경제 활동 중에 수집하는 영수증을 경비보고, 지출결의 등의 회계 처리 혹은 종합소득세 신고 등의 세무 처리를 위한 사후 증빙 서류로 보관하여 관리한다.

이렇게 보관 및 관리되는 영수증은 종이로 되어 있기 때문에 근본적으로 원본의 훼손 위험이 있으며, 오손, 분실, 부패에 대한 노출을 예방해야 하는 기술적, 경제적 부담이 있고, 영수증 보관량의 증대에 비례하여 영수증 보관 공간을 늘려야 하는 문제점이 있다.

또한, 개인이나 기업의 담당자는 수기 입력 방식으로 종래의 영수증으로부터 상기한 회계 처리 혹은 세무 처리에 필요한 정보를 추출하고 분류하여 장부에 기입하거나 회계관리 프로그램이 설치된 PC에 입력, 저장하기 때문에 정보 추출 작업이 불편한 문제점이 있다.

한편, 문서에 포함된 글자(텍스트) 이미지는 기계 인코딩을 통해 변환할 수 있는 데, 기계 인코딩을 통해 변환된 글자는 전자적으로 편집, 검색 등이 가능하고, 변환된 글자는 파일 등의 형태로 데이터베이스에 저장할 수도 있게 된다.

이러한 기계 인코딩은 주로 광학문자인식(OCR)을 통해 수행될 수 있고, 컴퓨터 등을 이용하여 이미지 기반의 텍스트 문서를 자동으로 감지, 식별 및 인코딩할 수 있다.

한국 등록특허공보 등록번호 제10-1139801호(발명의 명칭: 영수증 판독을 통한 자동 정보 수집 시스템 및 방법)에는 종래의 영수증에 인쇄된 구매 물품, 구매 수량, 사용 금액 등을 OCR을 통해 판독하여 저장함으로써 해당 영수증의 사용자의 구매 정보를 자동으로 수집, 관리하는 구성이 개시되어 있다.

그러나, 종래 기술에 따른 OCR은 저품질의 프린터 또는 팩스 등에서 인쇄되거나, 해상도가 낮은 촬영수단에서 이미지화되거나, 구겨지거나, 또는 기울어진 상태에서 촬영된 이미지의 경우 OCR의 인식 정확도가 떨어지는 문제점이 있다.

또한, 종래 기술에 따른 정보 수집 시스템은 단순히 물품, 수량, 사용 금액등에 대한 인식만 가능하여 인식된 항목들 간의 연결 관계는 알 수 없는 문제점이 있다.

또한, 종래 기술에 따른 정보 수집 시스템은 바코드가 포함된 영수증, 특히 별도의 스캐너 장치를 통해 디지털 데이터화된 영수증을 인식하도록 구성되어 일반적인 영수증의 인식은 어려운 문제점이 있다.

또한, 종래 기술에 따른 정보 수집 시스템은 문서에서 글자들만 인식하기 때문에 인식된 글자와 글자 사이의 관계를 알 수 없는 문제점이 있다.

또한, 종래 기술에 따른 정보 수집 시스템은 OCR을 통해 인식되더라도, 인식된 글자를 알맞은 DB의 필드에 저장할 수 없는 문제점이 있다.

또한, 종래 기술에 따른 정보 수집 시스템은 새로운 항목에 대한 인식이 어렵고, 인식된 항목을 포함한 재구성 폼을 생성할 수 없는 문제점이 있다.

또한, 종래 기술에 따른 정보 수집 시스템 및 방법은 OCR을 통해 수집된 정보에 대하여 검사자가 인식된 정보에 대하여 이상 유/무를 모두 확인해야만 하는 문제점이 있다.

이러한 문제점을 해결하기 위하여, 본 발명은 OCR 인식에 기반하여 인식된 글자에 대한 상대적인 위치 정보, 인식된 항목 간의 연결, 인식된 정보에 대한 신뢰 점수를 제공함으로써, 데이터 테이블의 재구성, 예측 정확도 검사자에 의한 확인 작업시간을 감소시킬 수 있는 OCR 기반 문서 분석 시스템 및 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 OCR 기반 문서 분석 시스템으로서, 객체 탐지 모델을 이용하여 인식 대상 이미지에서 임의의 형식(form), 글자 및 숫자 중 적어도 하나의 객체의 위치를 탐지하되, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 값을 생성하고, OCR 모델을 이용하여 상기 사각형상의 픽셀 안에서 인식되는 글자 및 숫자 정보를 출력하고, 상기 생성된 사각형상의 픽셀 위치 값을 기반으로 인접한 모든 사각형상의 픽셀들을 연결하며, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보를 매칭시켜 디스플레이하는 문서 분석 장치로 이루어진 것을 특징으로 한다.

또한, 상기 실시 예에 따른 문서 분석 장치는 임의의 문서에서 사용되는 글자(항목) 정보를 정의한 항목 DB를 생성 및 저장하고,

상기 인식된 글자에 대하여 항목 DB의 글자 정보와 비교를 통해 교정 여부를 결정하며, 인식된 글자가 교정됨에 따라 상기 인식된 글자, 교정된 글자 및 숫자 정보를 반영하여 디스플레이 하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 문서 분석 장치는 OCR 모델을 이용한 인식률에 기반한 인식된 글자 및 숫자의 신뢰 점수를 산출하고, 산출된 신뢰 점수를 상기 디스플레이 정보에 반영하여 시각적으로 표시되도록 하고, 상기 신뢰 점수는 보정 모델을 이용하여 폼, 형상, 위치 중 적어도 하나의 보정 수행에 따라 산출되는 재건율이 추가 반영되는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 문서 분석 장치는 인식 대상 이미지를 수신하는 입력부; 상기 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 임의의 형식(form), 글자 및 숫자 객체 중 적어도 하나의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레에 사각형상을 표시하며, 표시된 사각형상의 픽셀 위치 값을 생성하는 객체 탐지 모델링부; OCR 모델을 이용하여 상기 사각형상의 픽셀 내에서 인식되는 글자 및 숫자 정보를 출력하는 OCR 모델링부; 상기 생성된 사각형상의 픽셀 위치 값과, 상기 인식된 글자 및 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하고, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보를 매칭시켜 디스플레이되도록 하는 폼 구성 모델링부; 및 상기 생성된 사각형상의 픽셀 위치 값, 인식된 글자, 숫자 정보 및 매칭 결과와, 특정 기관에서 사용하는 문서 데이터의 폼을 저장하는 데이터베이스;를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 객체 탐지 모델은 PSENet(Progressive Scale Expansion Network) 기반의 딥러닝 모델을 이용하여 문서 이미지를 포함한 학습 데이터로부터 형식, 글자 및 숫자 객체의 위치 탐지와, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하고, 상기 표시된 사각형상의 픽셀 위치 값 생성을 학습하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 객체 탐지 모델은 원본 이미지, 문서의 임의의 부분이 접혀진 이미지, 문서의 위치가 임의의 각도로 기울어진 이미지, 임의의 조도를 갖는 밝기가 조절된 이미지, 문서에 표시된 내용이 선명하지 않고 끊어진 연결선을 갖는 이미지, 문서의 임의의 부분이 굴곡진 이미지, 숫자와 연결선이 겹쳐진 이미지를 기반으로 학습 데이터를 학습하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 폼 구성 모델링부는 상기 생성된 사각형상의 픽셀 위치 값과, 상기 인식된 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동할 수 있다.

또한, 상기 실시 예에 따른 폼 구성 모델링부는 이동중에 검색되는 모든 사각형상의 픽셀들을 연결하고, 상기 연결된 사각형상의 배열 정보를 분석하여 미리 저장된 특정 기관 문서의 배열 정보와 비교하며, 상기 비교 결과, 특정 기관 문서의 배열 정보가 매칭되면, 상기 특정 기관 문서의 사각형상 픽셀 위치에 인식된 숫자 정보를 매칭시켜 디스플레이되도록 하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 폼 구성 모델링는 생성된 사각형상의 픽셀 중심점에 마커를 표시하고, 상기 인식된 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동할 수 있다.

또한, 상기 실시 예에 따른 폼 구성 모델링부는 이동중에 검색되는 모든 사각형상의 픽셀들을 연결하고, 연결된 사각형상의 마커 위치 정보를 분석하여 미리 저장된 특정 기관 문서의 배열 정보와 비교하며, 상기 비교 결과, 특정 기관 문서의 배열 정보가 매칭되면, 상기 특정 기관 문서의 사각형상 픽셀 위치에 인식된 숫자 정보를 매칭시켜 디스플레이되도록 하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 문서 분석 장치는 인식 대상 이미지를 수신하는 입력부; 상기 인식 대상 이미지에서 인식되는 글자 정보와 비교하기 위해, 임의의 문서에서 사용되는 글자(항목) 정보를 정의한 항목 DB를 생성하는 항목 DB 생성부; 상기 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 임의의 형식(form), 글자 및 숫자 객체 중 적어도 하나의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레에 사각형상을 표시하며, 표시된 사각형상의 픽셀 위치 값을 생성하는 객체 탐지 모델링부; OCR 모델을 이용하여 상기 사각형상의 픽셀 내에서 인식되는 글자 및 숫자 정보를 출력하는 OCR 모델링부; 상기 인식된 글자 정보를 항목 DB와 비교하고, 인식된 글자를 항목 DB의 글자 정보로 교정함에 따라 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하고, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 교정된 글자 및 숫자 정보를 매칭시켜 디스플레이되도록 하는 폼 구성 모델링부; 및 상기 생성된 사각형상의 픽셀 위치 값, 교정된 글자 및 숫자 정보 및 매칭 결과와, 특정 기관에서 사용하는 문서 데이터의 폼을 저장하는 데이터베이스를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 폼 구성 모델링부는 자연어 처리(Natural Language Processing, NLP)를 통해 탐지된 글자에 대하여 분석하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 폼 구성 모델링부는 인식된 글자와 항목 DB 정보 사이를 비교하여 인식된 글자에 대한 신뢰 점수를 산출하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 폼 구성 모델링부는 숫자 객체의 사각형상 픽셀 크기에 대하여 가로, 세로 길이가 인접한 다른 사각형상 픽셀의 가로, 세로 길이와 동일하거나 또는 다른 박스의 가로, 세로 길이에 포함되면 연결되도록 하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 폼 구성 모델링부는 가장 가까운 좌측 및 상측의 사각형상 픽셀 중 적어도 하나를 연결하되, 연결된 사각형상 픽셀 내의 글자 객체를 찾을 때까지 연결하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 폼 구성 모델링부는 검색된 사각형상의 픽셀이 빈 칸이면, 좌측방향에 위치한 다음 사각형상의 픽셀과 연결하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 문서 분석 장치는 신뢰 점수에 따라 정상 인식 영역과, 틀린 영역 및 보정 영역을 포함한 오류발생 영역이 서로 다른 색상의 시각화 정보로 표시되도록 하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 문서 분석 장치는 인식 대상 이미지를 수신하는 입력부; 상기 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 형식, 글자 및 숫자 객체 중 적어도 하나의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레에 사각형상을 표시하며, 표시된 사각형상의 픽셀 위치 값을 생성하는 객체 탐지 모델링부; OCR 모델을 이용하여 상기 사각형상의 픽셀 내에서 인식되는 글자 및 숫자 정보를 출력하는 OCR 모델링부; 상기 인식된 글자를 항목 DB의 글자 정보로 교정함에 따라 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하고, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 교정된 글자 및 숫자 정보를 매칭시켜 디스플레이되도록 하는 폼 구성 모델링부; 보정 모델을 이용하여 상기 인식된 글자 및 숫자의 신뢰 점수를 산출하고, 산출된 신뢰 점수를 기반으로 상기 디스플레이에 반영하여 시각적으로 표시되도록 하는 신뢰도 평가부; 및 상기 생성된 사각형상의 픽셀 위치 값, 인식된 글자, 숫자 정보, 신뢰 정보와, 특정 기관에서 사용하는 문서 데이터의 폼을 저장하는 데이터베이스;를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 문서 분석 장치는 인식 대상 이미지에 포함된 글자에 대하여 임의의 문서로부터 미리 설정된 글자에 대한 항목 DB 정보를 생성하는 항목 DB 생성부;를 더 포함할 수 있다.

또한, 상기 폼 구성 모델링부는 상기 탐지된 글자 객체에 대하여 항목 DB 정보와 매칭시키고, 매칭 결과에 따라 인식된 글자가 교정되면, 상기 교정된 글자가 반영되도록 하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 폼 구성 모델링부는 글자 및 숫자의 사각형상 박스의 색상을 정상 인식 영역과, 틀린 영역 및 보정 영역을 포함한 오류발생 영역이 서로 다른 색상으로 표시되는 것을 특징으로 한다.

또한, 본 발명의 일 실시 예에 따른 문서 분석 방법은 a) 문서 분석 장치가 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 임의의 형식, 글자 및 숫자 객체 중 적어도 하나의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레에 사각형상을 표시하여 사각형상의 픽셀 위치 값을 생성하는 단계; b) 상기 문서 분석 장치가 OCR 모델을 이용하여 탐지된 사각형상 픽셀 안에서 인식되는 글자 및 숫자 정보를 출력하는 단계; 및 c) 상기 문서 분석 장치가 상기 생성된 사각형상의 픽셀 위치 값과, 상기 인식된 글자 및 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하고, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보를 매칭시켜 디스플레이되도록 하는 단계;를 포함한다.

또한, 상기 실시 예는 a) 단계의 객체 탐지 모델이 PSENet(Progressive Scale Expansion Network) 기반의 딥러닝 모델을 이용하여 문서 이미지를 포함한 학습 데이터로부터 형상, 글자 및 숫자 객체의 위치 탐지와, 탐지된 형상, 글자 및 숫자 객체의 둘레를 따라 사각형상의 박스와 상기 사각형상의 픽셀 위치 값 생성을 학습하는 것을 특징으로 한다.

또한, 상기 실시 예는 상기 a) 단계의 객체 탐지 모델이 원본 이미지, 문서의 임의의 부분이 접혀진 이미지, 문서의 위치가 임의의 각도로 기울어진 이미지, 임의의 조도를 갖는 밝기가 조절된 이미지, 문서에 표시된 내용이 선명하지 않고 끊어진 연결선을 갖는 이미지, 문서의 임의의 부분이 굴곡진 이미지, 숫자와 연결선이 겹쳐진 이미지를 기반으로 학습 데이터를 학습하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 c) 단계는 c-1) 생성된 사각형상의 픽셀 위치 값과, 상기 인식된 글자 및 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 글자 정보가 검색될 때까지 좌측 방향과 상측 방향으로 이동하는 단계; c-2) 상기 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하는 단계; 및 c-3) 상기 사각형상의 픽셀 위치에는 인식된 글자와 숫자 정보를 매칭시켜 디스플레이하는 단계;를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 c) 단계는 c'-1) 상기 생성된 사각형상의 픽셀 위치 값과, 상기 인식된 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하는 단계; c'-2) 상기 이동중에 검색되는 모든 사각형상의 픽셀들을 연결하는 단계; 및 c'-3) 상기 연결된 사각형상의 배열 정보를 분석하여 미리 저장된 특정 기관 문서의 배열 정보와 비교하며, 상기 비교 결과, 특정 기관 문서의 배열 정보가 매칭되면, 상기 특정 기관 문서의 사각형상 픽셀 위치에 인식된 숫자 정보를 매칭시켜 디스플레이하는 단계;를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 c) 단계는 c"-1) 생성된 사각형상의 픽셀의 중심점에 마커(520)를 표시하는 단계; c"-2) 상기 인식된 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하고, 이동중에 검색되는 모든 사각형상의 픽셀들을 연결하는 단계; c"-3) 연결된 사각형상의 마커(520) 위치 정보를 분석하여 미리 저장된 특정 기관 문서의 배열 정보와 비교하는 단계; 및 c"-4) 상기 비교 결과, 특정 기관 문서의 배열 정보가 매칭되면, 상기 특정 기관 문서의 사각형상 픽셀 위치에 인식된 숫자 정보를 매칭시켜 디스플레이하는 단계;를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 b) 단계는 문서 분석 장치가 상기 인식 대상 이미지에서 인식되는 글자 정보와 비교하기 위해, 임의의 문서에서 사용되는 글자(항목) 정보를 정의한 항목 DB를 생성하는 단계; 및 문서 분석 장치가 탐지된 글자 객체에 대하여 항목 DB 정보와 매칭시키고, 매칭 결과에 따라 인식된 글자를 교정하는 단계;를 더 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 문서 분석 탐지 장치는 탐지된 글자 객체에 대하여 자연어 처리(Natural Language Processing, NLP)를 통해 글자를 분석하고, 분석된 글자와 항목 DB 정보 사이의 비교를 기반으로 분석된 글자에 대한 신뢰 점수를 산출하여 인식된 글자의 교정 여부를 판단하며, 상기 인식된 글자의 교정을 수행함에 따라 NLP 기반의 교정을 수행하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 문서 분석 장치는 사각형상의 픽셀이 빈칸이면, 좌측방향에 위치한 다음 사각형상의 픽셀과 연결하는 것을 특징으로 한다.

또한, 상기 실시 예는 d) 상기 문서 분석 장치가 보정 모델을 이용하여 상기 인식된 글자 및 숫자의 신뢰 점수를 산출하고, 산출된 신뢰 점수를 기반으로 디스플레이에 반영하여 시각적으로 표시하는 단계;를 더 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 d) 단계의 보정 모델은 폼, 형상, 위치 중 적어도 하나의 보정 수행에 따른 재건율과, 항목 DB 정보와의 매칭 결과에 따른 교정된 글자의 반영 여부에 기반하여 신뢰 점수를 산출하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 문서 분석 장치는 상기 생성된 글자 객체의 픽셀 위치 값을 기반으로 좌측 영역에 글자 객체가 배치되는 좌측 헤더 영역과 상측 영역에 글자 객체가 배치되는 상측 헤더 영역으로 구분하되, 상기 좌측 헤더 영역과 상측 헤더 영역을 기준으로 가상 셀 객체를 생성하여 배치하고, 상기 배치된 가상 셀 객체와 숫자 객체를 매칭시켜 행렬 정보를 기반으로 연결하여 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보가 디스플레이되도록 하는 특징으로 한다.

또한, 상기 실시 예에 따른 문서 분석 장치는 인식 대상 이미지를 수신하는 입력부; 상기 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 임의의 형식(form), 글자 및 숫자 객체 중 적어도 하나의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레에 사각형상을 표시하며, 표시된 글자 및 숫자 객체의 픽셀 위치 값을 생성하는 객체 탐지 모델링부; OCR 모델을 이용하여 상기 사각형상의 픽셀 내에서 인식되는 글자 및 숫자 정보를 출력하는 OCR 모델링부; 상기 생성된 글자 객체의 픽셀 위치 값을 기반으로 좌측 영역에 글자 객체가 배치되는 좌측 헤더 영역과 상측 영역에 글자 객체가 배치되는 상측 헤더 영역으로 구분하고, 상기 좌측 헤더 영역과 상측 헤더 영역을 기준으로 M×N 크기의 가상 셀 객체를 생성하여 배치하며, 상기 배치된 가상 셀 객체와 숫자 객체를 매칭시켜 행렬 정보를 기반으로 연결하여 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보가 디스플레이되도록 하는 가상 셀 폼 구성 모델링부; 및 상기 생성된 사각형상의 픽셀 위치 값, 인식된 글자, 숫자 정보 및 매칭 결과와, 특정 기관에서 사용하는 문서 데이터의 폼을 저장하는 데이터베이스;를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 가상 셀 폼 구성 모델링부는 글자 객체의 좌측 헤더 영역과 상측 헤더 영역을 구분하되, 상기 구분된 좌측 헤더 영역과 상측 헤더 영역에 포함된 글자 객체 사이의 간격 및 크기를 산출하고, 상기 구분된 좌측 헤더 영역과 상측 헤더 영역을 기준으로 가상 셀 객체를 배치하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 가상 셀 폼 구성 모델링부는 좌측 상단에 배치된 가상 셀 객체와 숫자 객체를 매칭하되, 상기 매칭된 숫자 객체와 가상 셀 객체 사이의 기울기를 산출하고, 상기 산출된 기울기는 우측 하단에 배치된 가상 셀 객체와 숫자 객체의 매칭까지 반영되도록 하는 것을 특징으로 한다.

또한, 본 발명의 일 실시 예는 OCR 기반 문서 분석 방법으로서, i) 문서 분석 장치가 인식 대상 이미지를 수신하는 단계; ii) 상기 문서 분석 장치가 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 임의의 형식, 글자 및 숫자 객체 중 적어도 하나의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레에 사각형상을 표시하여 글자 및 숫자 객체의 픽셀 위치 값을 생성하는 단계; iii) 상기 문서 분석 장치가 OCR 모델을 이용하여 탐지된 사각형상 픽셀 안에서 인식되는 글자 및 숫자 정보를 출력하는 단계; 및 iv) 상기 문서 분석 장치가 상기 생성된 글자 객체의 픽셀 위치 값을 기반으로 좌측 영역에 글자 객체가 배치되는 좌측 헤더 영역과 상측 영역에 글자 객체가 배치되는 상측 헤더 영역으로 구분하고, 상기 좌측 헤더 영역과 상측 헤더 영역을 기준으로 가상 셀 객체를 생성하여 배치하고, 상기 배치된 가상 셀 객체와 숫자 객체를 매칭시켜 행렬 정보를 기반으로 연결하여 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보가 디스플레이되도록 최종 결과를 출력하는 단계;를 포함한다.

또한, 상기 실시 예에 따른 iv) 단계의 글자 객체의 좌측 및 상측 픽셀 위치를 기준으로 배치하는 단계는 iv-1) 문서 분석 장치가 글자 객체의 좌측 헤더 영역과 상측 헤더 영역을 구분하는 단계; iv-2) 상기 구분된 좌측 헤더 영역과 상측 헤더 영역에 포함된 글자 객체 사이의 간격 및 크기를 산출하는 단계; 및 iv-3) 상기 구분된 좌측 헤더 영역과 상측 헤더 영역을 기준으로 가상 셀 객체를 배치하는 단계를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 iv) 단계의 배치된 가상 셀 객체와 숫자 객체를 매칭시켜 행렬 정보를 기반으로 연결하는 단계는 iv-4) 상기 문서 분석 장치가 좌측 상단에 배치된 가상 셀 객체와 숫자 객체를 매칭하여 숫자 객체와 가상 셀 객체 사이의 기울기를 산출하는 단계; 및 iv-5) 상기 문서 분석 장치가 행렬 정보에 따라 순차적으로 이동하며 상기 산출된 기울기를 우측 하단에 배치된 가상 셀 객체와 숫자 객체의 매칭까지 반영하여 연결하는 단계를 포함하는 것을 특징으로 한다.

본 발명은 문서 상의 항목에 기재된 문자 및 숫자를 포함한 글자를 인식하고, 인식된 글자에 대한 상대적인 위치 정보에 기반하여 항목들 간의 연결관계를 분석함으로써, 인식된 숫자를 해당 항목에 매칭시킬 수 있는 장점이 있다.

또한, 본 발명은 인식된 항목들 간의 연결 및 상대적인 위치 관계를 기반으로 글자가 배치된 패턴을 분석하여 특정 문서 또는 영수증 등을 사용하는 병원, 보험사 등의 기관에서 사용한 폼 패턴과 비교함으로써, 신속하고 정확한 매칭이 가능한 장점이 있다.

또한, 본 발명은 병원, 보험사 등의 기관에서 사용한 폼 패턴과 비교하여 사용함으로써, OCR은 숫자만의 인식으로 단순화 시킬 수 있는 장점이 있다.

또한, 본 발명은 표준화된 이미지가 아니어도 다양한 학습 데이터를 이용한 딥러닝 학습을 통해 인식의 정확도를 향상시킬 수 있는 장점이 있다.

또한, 본 발명은 인식 대상 이미지가 기울진 상태로 입력되도 정확한 인식을 수행할 수 있는 장점이 있다.

또한, 본 발명은 OCR을 통해 인식된 정보에 대하여 신뢰 점수를 기반으로 정상 인식된 부분과, 틀린 부분 또는 의심되는 부분을 서로 다른 색상의 시각화 정보로 제공함으로써 검사자에 의한 확인 작업시간을 감소시킬 수 있는 장점이 있다.

또한, 본 발명은 병원, 약국 등에서 사용하는 다양한 포맷의 영수증에 대하여 정확한 정보의 인식이 가능한 장점이 있다.

또한, 본 발명은 병원, 보험사 등의 기관에서 사용하는 다양한 포맷의 영수증에 대하여 정확하고, 신뢰할 수 있는 사용정보를 제공할 수 있는 장점이 있다.

도 1은 본 발명의 제1 실시 예에 따른 OCR 기반 문서 분석 시스템의 구성을 나타낸 블록도.

도 2는 도 1의 실시 예에 따른 OCR 기반 문서 분석 시스템의 글자 위치 탐지를 설명하기 위한 예시도.

도 3은 도 2에 따른 글자 위치 탐지 결과를 나타낸 예시도.

도 4는 도 1의 실시 예에 따른 OCR 기반 문서 분석 시스템의 OCR 인식 결과를 나타낸 예시도.

도 5는 도 1의 실시 예에 따른 OCR 기반 문서 분석 시스템의 글자 위치 탐지 모델의 결과와 OCR 모델의 결과를 나타낸 예시도.

도 6은 도 1의 실시 예에 따른 OCR 기반 문서 분석 시스템의 연결 과정을 설명하기 위한 예시도.

도 7은 도 1의 실시 예에 따른 OCR 기반 문서 분석 시스템의 사각형상 연결을 나타낸 예시도.

도 8 내지 도 13은 도 1의 실시 예에 따른 OCR 기반 문서 분석 시스템의 자동 증강 모델링을 위한 학습 데이터를 나타낸 예시도.

도 14는 본 발명의 일 실시 예에 따른 OCR 기반 문서 분석 과정을 나타낸 흐름도.

도 15는 도 14의 실시 예에 따른 항목 매칭 과정을 나타낸 흐름도.

도 16은 도 14의 실시 예에 따른 항목 매칭 과정을 나타낸 다른 흐름도.

도 17은 도 14의 실시 예에 따른 항목 매칭 과정을 나타낸 또 다른 흐름도.

도 18은 본 발명의 제2 실시 예에 따른 OCR 기반 문서 분석 시스템의 구성을 나타낸 블록도.

도 19는 도 18의 실시 예에 따른 OCR 기반 문서 분석 시스템의 항목 DB 생성을 설명하기 위한 예시도.

도 20은 도 18의 실시 예에 따른 OCR 기반 문서 분석 시스템의 항목 DB를 나타낸 예시도.

도 21은 도 18의 실시 예에 따른 OCR 기반 문서 분석 시스템의글자 위치 탐지를 설명하기 위한 예시도.

도 22는 도 21의 실시 예에 따른 글자 위치 탐지 결과를 나타낸 예시도.

도 23은 도 18의 실시 예에 따른 OCR 기반 문서 분석 시스템의 NLP 과정을 나타낸 예시도.

도 24는 도 18의 실시 예에 따른 OCR 기반 문서 분석 시스템의OCR 인식 결과를 나타낸 예시도.

도 25는 도 18의 실시 예에 따른 OCR 기반 문서 분석 시스템의 연결을 통한 재구성 이미지를 나타낸 예시도.

도 26은 도 18의 실시 예에 따른 OCR 기반 문서 분석 시스템의 객체 탐지 박스의 연결 과정을 설명하기 위한 예시도.

도 27은 도 18의 실시 예에 따른 OCR 기반 문서 분석 시스템의 객체 탐지 박스의 연결 과정을 설명하기 위한 다른 예시도.

도 28은 본 발명의 제2 실시 예에 따른 OCR 기반 문서 분석 과정을 나타낸 흐름도.

도 29는 본 발명의 제3 실시 예에 따른 OCR 기반 문서 분석 시스템을 나타낸 블록도.

도 30은 제3 실시예에 따른 연결 과정을 설명하기 위한 예시도.

도 31은 도 30의 실시 예에 따른 OCR 기반 문서 분석 시스템의 재구성 이미지를 나타낸 예시도.

도 32는 본 발명의 제3 실시 예에 따른 OCR 기반 문서 분석 과정을 나타낸 흐름도.

도 33은 본 발명의 제4 실시 예에 따른 OCR 기반 문석 시스템을 나타낸 블록도.

도 34는 도 33의 실시 예에 따른 OCR 기반 문서 분석 시스템의 가상 셀 연결 과정을 설명하기 위한 예시도.

도 35는 도 33의 실시 예에 따른 OCR 기반 문서 분석 시스템의 가상 셀 연결 과정을 설명하기 위한 다른 예시도.

도 36은 도 33의 실시 예에 따른 OCR 기반 문서 분석 시스템의 위치 좌료를 기반으로 가상 셀을 연결 과정을 설명하기 위한 예시도.

도 37은 도 33의 실시 예에 따른 OCR 기반 문서 분석 시스템의 가상 셀을 이용한 최종 연결 상태를 나타낸 예시도.

도 38은 도 33의 실시 예에 따른 OCR 기반 문서 분석 시스템을 이용하여 밀린 문자 연결 상태를 나타낸 예시도.

도 39는 도 33의 실시 예에 따른 OCR 기반 문서 분석 시스템을 이용하여 휘어진 문자 연결 상태를 나타낸 예시도.

도 40은 본 발명의 제4 실시 예에 따른 OCR 기반 문서 분석 과정을 나타낸 흐름도.

도 41은 도 40의 실시 예에 따른 가상 셀 기반 항목 매칭 과정을 나타낸 흐름도.

이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.

또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.

또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.

또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 OCR 기반 문서 분석 시스템 및 방법의 바람직한 실시예를 상세하게 설명한다.

(제1 실시 예)

도 1은 본 발명의 제1 실시 예에 따른 OCR 기반 문서 분석 시스템의 구성을 나타낸 블록도이고, 도 2는 도 1의 실시 예에 따른 OCR 기반 문서 분석 시스템의 글자 위치 탐지를 설명하기 위한 예시도이며, 도 3은 도 2에 따른 글자 위치 탐지 결과를 나타낸 예시도이고, 도 4는 도 1의 실시 예에 따른 OCR 기반 문서 분석 시스템의 OCR 인식 결과를 나타낸 예시도이며, 도 5는 도 1의 실시 예에 따른 OCR 기반 문서 분석 시스템의 글자 위치 탐지 모델의 결과와 OCR 모델의 결과를 나타낸 예시도이고, 도 6은 도 1의 실시 예에 따른 OCR 기반 문서 분석 시스템의 연결 과정을 설명하기 위한 예시도이며, 도 7은 도 1의 실시 예에 따른 OCR 기반 문서 분석 시스템의 사각형상 연결을 나타낸 예시도이다.

도 1 내지 도 7을 참조하여 설명하면, 본 발명의 제1 실시 예에 따른 OCR 기반 문서 분석 시스템은 객체 탐지 모델을 이용하여 인식 대상 이미지에서 임의의 형식(form), 글자 및 숫자 중 적어도 하나의 객체의 위치를 탐지하되, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 값을 생성하고, OCR 모델을 이용하여 상기 사각형상의 픽셀 안에서 인식되는 글자 및 숫자 정보를 출력하고, 상기 생성된 사각형상의 픽셀 위치 값을 기반으로 인접한 모든 사각형상의 픽셀들을 연결하며, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보를 매칭시켜 디스플레이하는 문서 분석 장치(100)로 이루어질 수 있다.

또한, 문서 분석 장치(100)는 외부로부터 전송되는 인식 대상 이미지를 수신하는 입력부(110)를 포함하여 구성될 수 있다.

입력부(110)는 네트워크를 통해 접속된 외부 단말로부터 전송되는 이미지 또는 스캐너 등을 통해 스캐닝된 이미지 등을 수신하는 데이터 통신 수단으로 구성될 수 있다.

또한, 문서 분석 장치(100)는 입력부(110)를 통해 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 이미지에 포함된 임의의 형식(form), 글자 및 숫자 객체의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성하는 객체 탐지 모델링부(120)를 포함하여 구성될 수 있다.

즉, 객체 탐지 모델링부(120)는 형식, 글자 및 숫자 객체에 대한 상대적인 위치의 인식을 수행하고, 형식, 글자 및 숫자 객체의 위치에 따른 배열을 확인할 수 있도록 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하며, 표시된 사각형상의 픽셀 위치 값(좌표 정보)을 생성한다.

여기서, 객체 탐지 모델은 PSENet(Progressive Scale Expansion Network) 기반의 딥러닝 모델을 이용하여 문서 이미지를 포함한 학습 데이터로부터 형식, 글자 및 숫자 객체와, 그 위치를 탐지하고, 탐지율의 향상을 위해 학습을 수행할 수 있다.

또한, 객체 탐지 모델은 영수증의 원본 이미지를 기반으로 도 8과 같이, 문서의 임의의 부분이 접혀진 이미지, 도 9와 같이 문서의 위치가 임의의 각도로 기울어진 이미지, 도 10과 같이 임의의 조도를 갖는 밝기가 조절된 이미지, 도 11과 같이 문서에 표시된 내용이 선명하지 않고 끊어진 연결선을 갖는 이미지, 도 12와 같이 문서의 임의의 부분이 굴곡진 이미지, 도 13과 같이 숫자와 연결선이 겹쳐진 이미지 등을 기반으로 하는 학습 데이터를 이용하여 학습할 수 있다.

이와 같이, 다양한 환경, 예를 들어, 조명, 촬영각도, 촬영시 흔들림, 촬영구도, 사진 해상도 등 다양한 여건에서 촬영될 수 있는 이미지를 감안하여 원본 이미지와 비교하여 다양한 변화를 준 이미지들을 사전에 학습함으로써, 실제 환경에서 수신되는 이미지들에 대한 탐지율 또는 인식율을 향상시킬 수 있다.

한편, 본 발명에서는 설명의 편의를 위해, 인식 대상 이미지를 병원 영수증과 관련된 이미지를 실시 예로 설명하지만 이에 한정되는 것은 아니고, 약국 영수증, 세금계산서, 견적서, 청구서, 거래 명세서, 각종 계산서 및 영수증 등을 포함할 수 있다.

또한, 객체 탐지 모델은 자동 증강(Auto Augmentation)을 통해 다양한 변화를 준 이미지들을 기반으로 탐지를 수행함에 있어서 최적의 규칙을 찾을 수도 있다.

또한, 객체 탐지 모델은 탐지된 형식, 글자 및 숫자의 객체에 대하여 사각형상의 픽셀을 설정하고, 설정된 픽셀의 위치 값을 생성할 수 있다.

즉, 입력된 문서 이미지(200)에서 임의의 탐지 영역(210)으로부터 탐지된 예를 들면, 글자 객체(211)에 대하여 외부면에 사각형상의 박스(212)로 구성된 픽셀 위치 값을 생성하고, 인식된 객체(213)에 대한 정보를 글자 탐지 결과(220)에 표시함으로써, 사각형상 기반의 패턴 인식이 가능하도록 한다.

본 실시 예에서는 설명의 편의를 위해 글자 객체로 설명하지만, 이에 한정되는 것은 아니고, 숫자, 영수증의 폼을 구성하는 형식(form)을 객체로 포함할 수 있음은 당업자에게 있어서 자명할 것이다.

또한, 사각형상의 박스(212)는 바람직하게는 직사각형(rectangular)으로 구성될 수 있다.

또한, 형식의 둘레를 따라 표시된 사각형상의 구성(또는 배열) 패턴에 근거하여 후술되는 폼 구성 모델링부(140)가 미리 저장된 기관(병원)의 영수증 구성과 비교하여 어떤 기관의 영수증인지 구분할 수도 있다.

여기서, 형식은 문서 테이블을 구성하는 폼에서 하나의 셀(Cell)로서, 직사각형으로 이루어질 수 있다.

또한, 문서 분석 장치(100)는 객체 탐지 모델링부(120)에서 탐지된 형식, 글자 및 숫자 객체에 대해 OCR 모델을 이용하여 글자 및 숫자를 인식하는 OCR 모델링부(130)를 포함하여 구성될 수 있다.

여기서, OCR 모델링부(130)는 이미지 기반의 텍스트 문서를 자동으로 감지하여 인식하는 구성으로서, 공지의 OCR 모델을 사용하여 구성될 수 있다.

또한, OCR 모델링부(130)는 OCR 인식 결과(300)에 대하여 인식된 예측 정보(310)와, 예측 정보(310)에 대한 신뢰 점수(320)를 산출하여 함께 제공할 수 있다.

여기서, 예측 정보(310)는 인식된 객체에 포함될 글자 및 숫자를 나타낸 것이고, 신뢰 점수(320)는 OCR을 통해 인식하는 과정에서 내용이 선명하지 않거나, 연결된 부분이 끊어진 경우 등을 반영하여 전체부분에서 인식된 부분의 비율을 산출한 인식률일 수 있다.

또한, 문서 분석 장치(100)는 탐지된 형식, 글자 및 숫자 객체의 위치를 기반으로 인접한 형식, 모든 글자 및 숫자 객체들의 사각형상 픽셀들을 연결하고, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보를 매칭시켜 디스플레이되도록 하는 폼 구성 모델링부(140)를 포함하여 구성될 수 있다.

즉, 폼 구성 모델링부(140)는 객체 탐지 모델링부(120)의 탐지 결과(220)와, OCR 모델링부(130)의 예측 정보(310)를 기반으로 하여 인식한 예측 정보들이 어떤 항목인지 매칭되도록 한다.

또한, 폼 구성 모델링부(140)는 객체 탐지 모델링부(120)의 탐지 결과(220)와, OCR 모델링부(130)의 예측 정보(310)를 매칭하기 위해, 인접한 모든 글자 및 숫자 객체들의 사각형상 픽셀들을 연결한다.

또한, 일반적인 영수증 등의 회계 관련 문서는 글자로 이루어진 항목이 주로 상측과 좌측에 배치되므로, 형식의 둘레를 따라 표시한 사각형상의 픽셀들에 대한 연결을 위해, 시작 위치를 임의의 숫자 정보를 갖는 사각형상의 픽셀로 하고, 사각형상의 픽셀 위치를 시작위치로 하여 좌측 방향과 상측 방향으로 이동하며 모든 사각형상의 픽셀(위치)들을 검색한다.

또한, 폼 구성 모델링부(140)는 시작 위치로부터 가장 가까운 좌측의 사각형상 픽셀과 상측의 사각형상 픽셀을 우선 연결하고, 이후, 인접한 모든 객체들을 연결하는 것이 바람직하다.

또한, 폼 구성 모델링부(140)는 상술된 이동 및 검색 과정을 반복하여 모든 사각형상 픽셀들의 검색을 진행하고, 좌측과 상측에 텍스트, 예를 들면, 글자 정보(항목)가 포함된 사각형상 픽셀이 나올때까지 이동, 검색을 수행한다.

또한, 폼 구성 모델링부(140)는 글자 정보가 포함된 사각형상 픽셀이 나오면, 검색된 모든 사각형상 픽셀을 연결한다.

즉, 도 6을 참조하면, 문서 이미지(400)에서 기준 객체 박스(410)의 좌측과 상측으로 이동 및 검색을 수행하여 다음 객체의 사각형상 박스와 연결을 수행하고, 좌측에 위치한 좌측 객체 박스(420)가 글자이거나 또는 숫자이면 좌측 연결선(440)을 통해 연결한다.

또한, 상측으로 이동, 검색 및 연결을 통해 상측 객체 사각형상 박스와 연결을 수행하고, 상측에 위치한 상측 객체 박스(430)가 글자 정보(항목) 또는 숫자이면, 상측 연결선(441)을 통해 연결한다.

계속해서, 폼 구성 모델링부(140)는 인접한 사각형상 픽셀들의 연결 후, 숫자 정보로부터 시작하여 좌측과 상측의 글자 정보(항목)를 찾으면, 상기 사각형상의 픽셀 위치에는 인식된 글자와 숫자 정보를 매칭시켜 디스플레이되도록 한다.

이때, 폼 구성 모델링부(140)는 데이터베이스(150)에 저장된 특정 기관 문서의 박스 배열 정보와 비교하여 매칭되는지 확인할 수 있다.

여기서, 특정 기관은 병원, 약국, 회사 등, 영수증 및 회계 관련 문서를 임의의 폼으로 발행하는 모든 곳을 포함할 수 있다.

또한, 도 7은 사각형상 픽셀의 연결상태를 나타낸 도면으로서, 문서에 포함된 사각형상을 객체로 인식하여 연결한 것을 나타낸다.

즉, 폼 구성 모델링부(140)는 객체 탐지 모델을 통해 탐지된 형식과 상기 탐지된 형식의 상대적 위치를 기반으로 생성한 사각형상의 픽셀 위치 값과, OCR 모델을 통해 인식된 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하고, 이동을 통해 검색되는 모든 사각형상의 픽셀들을 연결한다.

또한, 폼 구성 모델링부(140)는 연결된 사각형상의 배열 정보를 분석하여 데이터베이스(150)에 저장된 특정 기관 문서의 배열 정보와 비교한다.

비교 결과, 분석된 배열 정보가 특정 기관 문서의 배열 정보와 매칭되면, 폼 구성 모델링부(140)는 특정 기관 문서의 사각형상 픽셀 위치에 OCR 모델에서 인식된 숫자 정보를 매칭시켜 디스플레이되도록 한다.

또한, 폼 구성 모델링부(140)는 객체 탐지 모델을 통해 탐지된 형식과 상기 탐지된 형식의 상대적 위치를 기반으로 생성한 사각형상의 픽셀 중심점에 마커(520)를 표시하고, OCR 모델을 통해 인식된 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하고, 이동을 통해 검색되는 모든 사각형상의 픽셀들을 연결한다.

또한, 폼 구성 모델링부(140)는 연결된 사각형상의 픽셀 중심점에 마커(520)를 표시하고, 각 마커(520)의 위치 정보를 분석하여 데이터베이스(150)에 저장된 특정 기관 문서의 배열 정보와 비교한다.

비교 결과, 특정 기관 문서의 배열 정보가 매칭되면, 폼 구성 모델링부(140)는 특정 기관 문서의 사각형상 픽셀 위치에 OCR 모델에서 인식된 숫자 정보를 매칭시켜 디스플레이되도록 한다.

또한, 문서 분석 장치(100)는 폼 구성 모델링부(140)에서 출력되는 재구성 이미지, 특정 기관에서 사용하는 문서 데이터의 폼(또는 형식) 등을 저장하는 데이터 베이스(150)를 포함하여 구성될 수 있다.

다음은 본 발명의 제1 실시 예에 따른 OCR 기반 문서 분석 방법을 설명한다.

도 14는 본 발명의 제1 실시 예에 따른 OCR 기반 문서 분석 과정을 나타낸 흐름도이고, 도 15는 도 14의 실시 예에 따른 항목 매칭 과정을 나타낸 흐름도이다.

도 1, 도 14 및 도 15를 참조하면, 문서 분석 장치(100)는 네트워크를 통해 연결된 외부 단말 또는 팩스 등을 통해 인식 대상 영수증의 이미지를 수신(S100)한다.

문서 분석 장치(100)는 수신된 인식 대상 영수증의 이미지에서 객체 탐지 모델을 이용하여 임의의 형식, 글자 및 숫자 객체와 그 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성하는 글자 탐지 단계를 수행(S200)한다.

또한, S200 단계에서, 객체 탐지 모델은 PSENet(Progressive Scale Expansion Network) 기반의 딥러닝 모델을 이용하여 문서 이미지를 포함한 학습 데이터로부터 형식, 글자 및 숫자 객체와, 그 위치를 탐지하고, 탐지율의 향상을 위해 학습을 수행할 수 있다.

또한, 객체 탐지 모델은 원본 이미지, 문서의 임의의 부분이 접혀진 이미지, 문서의 위치가 임의의 각도로 기울어진 이미지, 임의의 조도를 갖는 밝기가 조절된 이미지, 문서에 표시된 내용이 선명하지 않고 끊어진 연결선을 갖는 이미지, 문서의 임의의 부분이 굴곡진 이미지, 숫자와 연결선이 겹쳐진 이미지를 기반으로 학습 데이터를 학습할 수 있다.

계속해서, 문서 분석 장치(100)는 탐지된 형식, 글자 및 숫자 객체에 대한 사각형상 픽셀 안에서, OCR 모델을 이용하여 글자 및 숫자 정보를 인식하는 OCR 인식 단계(S300)를 수행한다.

S300 단계를 수행한 다음, 문서 분석 장치(100)는 탐지된 형식, 글자 및 숫자 객체의 사각형상 픽셀 위치를 기반으로 인접한 모든 사각형상 픽셀들을 연결하고, 연결된 사각형상 픽셀들의 글자 및 숫자 정보를 매칭하는 단계(S400)를 수행한다.

S400 단계를 더욱 상세하게 설명하면, 문서 분석 장치(100)는 생성된 사각형상의 픽셀 위치 값과, 상기 인식된 글자 및 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 글자 정보가 검색될 때까지 좌측 방향과 상측 방향으로 이동(S410)한다.

이때, 시작 위치로부터 가장 가까운 좌측의 사각형상 픽셀과 상측의 사각형상 픽셀을 우선 연결하고, 이후, 인접한 모든 사각형상 픽셀들을 좌측방향 또는 우측방향으로 이동하며, 글자 정보(항목)가 나올때 까지 숫자 객체들을 검색한다.

계속해서, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결(S411)한다.

또한, 문서 분석 장치(100)는 연결된 사각형상의 픽셀 위치에 OCR 모델을 통해 인식된 글자와 숫자 정보를 매칭시켜 디스플레이(S412)되도록 하고, 데이터베이스(150)에 저장한다.

한편, S400 단계에서, 문서 분석 장치(100)는 연결된 사각형상에 대한 배열 정보를 분석할 수도 있다.

즉, 생성된 사각형상의 픽셀 위치 값과, 인식된 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하고, 이동중에 검색되는 모든 사각형상의 픽셀들을 연결(S420)한다.

S420 단계를 통해 연결된 사각형상의 배열 정보를 분석하여 미리 저장된 특정 기관 문서의 배열 정보와 비교(S421)한다.

S421 단계에서의 비교를 통해, 특정 기관 문서의 배열 정보와 매칭되는지 판단(S422)하고, 분석된 사각형상의 배열 정보가 매칭되면, 특정 기관 문서의 사각형상 픽셀 위치에 인식된 숫자 정보를 매칭시켜 디스플레이(S423)되도록 한다.

한편, S422의 판단 결과, 매칭되는 문서의 배열 정보가 없으면, S410 단계를 수행할 수 있다.

또한, S400 단계에서, 문서 분석 장치(100)는 연결된 사각형상 픽셀의 배열 정보를 마커를 통해 분석할 수도 있다.

즉, 문서 분석 장치(100)는 생성된 사각형상의 픽셀의 중심점에 마커(520)를 표시(S430)한다.

또한, 문서 분석 장치(100)는 인식된 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하고, 이동중에 검색되는 모든 사각형상의 픽셀들을 연결(S431)한다.

또한, 문서 분석 장치(100)는 마커(520)를 이용한 위치 정보를 기반으로 사각형상 픽셀의 구조 정보를 분석(S432)한다.

S430 단계의 분석을 통해 사각형상 픽셀의 배열(또는 구조)이 데이터베이스(150)에 저장된 특정 기관 문서의 배열 정보와 매칭되는 문서가 있는지 판단(S433)한다.

S433 단계의 판단 결과, 마커의 배열 정보와 특정 기관 문서의 마커 배열 정보가 매칭되면, 특정 기관 문서의 항목을 검색(S434)하고, 검색된 항목의 위치에 OCR 모델에서 인식된 숫자 정보를 매칭시켜 디스플레이(S435)되도록 한다.

한편, S433의 판단 결과, 매칭되는 문서의 배열 정보가 없으면, S410 단계를 수행할 수 있다.

따라서, 문서 상의 항목에 기재된 사각형상, 문자 및 숫자를 포함한 글자를 인식하고, 인식된 사각형상, 글자에 대한 상대적인 위치 정보에 기반하여 항목들 간의 연결관계를 분석함으로써, 인식된 숫자를 해당 항목에 매칭시킬 수 있다.

또한,인식된 항목들 간의 연결 및 상대적인 위치 관계를 기반으로 글자가 배치된 패턴을 분석하여 특정 문서 또는 영수증 등을 사용하는 병원, 보험사 등의 기관에서 사용한 폼 패턴과 비교함으로써, 신속하고 정확한 매칭이 가능하다.

또한, 병원, 보험사 등의 기관에서 사용한 폼 패턴과 비교하여 사용함으로써, OCR은 숫자만의 인식으로 단순화 시킬 수 있다.

(제2 실시 예)

도 18은 본 발명의 제2 실시 예에 따른 OCR 기반 문서 분석 시스템의 구성을 나타낸 블록도이다.

도 18을 참조하면, 본 발명의 제2 실시 예에 따른 OCR 기반 문서 분석 시스템은 임의의 문서로부터 미리 설정된 글자에 대한 항목 DB(300') 정보를 생성 및 저장하고, 객체 탐지 모델을 이용하여 인식 대상 이미지로부터 글자 및 숫자의 객체와 위치를 탐지하며, 탐지된 글자 및 숫자의 객체에 대해 OCR 모델을 이용하여 글자 및 숫자를 인식하고, 인식된 글자에 대하여 항목 DB(300') 정보와 비교를 통해 교정 여부를 결정하며, 인식된 글자가 교정됨에 따라 상기 인식된 글자, 교정된 글자 및 숫자가 반영된 재구성 폼을 구성하는 문서 분석 장치(100')로 이루어질 수 있다.

또한, 문서 분석 장치(100')는 인식 대상 이미지를 수신하는 입력부(110')를 포함하여 구성될 수 있다.

입력부(110')는 네트워크를 통해 접속된 외부 단말로부터 전송되는 이미지 또는 스캐너 등을 통해 스캐닝된 이미지 등을 수신하는 데이터 통신 수단으로 구성될 수 있다.

또한, 문서 분석 장치(100')는 인식 대상 이미지에 포함된 글자에 대하여 임의의 문서로부터 미리 설정된 글자에 대한 항목 DB(300', 도 20 참조)정보를 생성하는 항목 DB 생성부(120')를 포함하여 구성될 수 있다.

항목 DB 생성부(120')는 도 19와 같이, 예를 들어 병원 영수증 등의 문서(200')에 고정으로 포함되어, 청구 내역, 진료 내역 등의 텍스트로 표시된 항목(210')에 대한 정보를 분석한다.

또한, 항목 DB 생성부(120')는 도 19에서 분석된 항목에 대하여 도 20과 같은 항목 DB(300')를 생성하여 데이터베이스(160')에 저장되도록 한다.

본 발명에서는 설명의 편의를 위해, 인식 대상 이미지를 병원 영수증과 관련된 이미지를 실시 예로 설명하지만 이에 한정되는 것은 아니고, 약국 영수증, 세금계산서, 견적서, 청구서, 거래 명세서, 각종 계산서 및 영수증 등을 포함할 수 있다.

또한, 문서 분석 장치(100')는 입력부(110')를 통해 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 이미지에 포함된 임의의 형식(form), 글자 및 숫자 객체의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성하는 객체 탐지 모델링부(130')를 포함하여 구성될 수 있다.

즉, 객체 탐지 모델링부(130')는 형식, 글자 및 숫자 객체에 대한 상대적인 위치의 인식을 수행하고, 형식, 글자 및 숫자 객체의 위치에 따른 배열을 확인할 수 있도록 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하며, 표시된 사각형상의 픽셀 위치 값(좌표 정보)을 생성한다.

즉, 영수증의 원본 이미지를 기반으로 문서의 임의의 부분이 n 등분으로 접혀진 이미지, 문서의 위치가 임의의 각도로 기울어진 이미지, 임의의 조도를 갖는 밝기가 조절된 이미지, 문서에 표시된 내용이 선명하지 않고 끊어진 연결선을 갖는 이미지, 문서의 임의의 부분이 굴곡진 이미지, 숫자와 연결선이 겹쳐진 이미지 등을 기반으로 학습 데이터를 학습할 수 있다.

즉, 도 21과 같이, 입력된 문서 이미지(400')에서 임의의 탐지 영역(410')으로부터 탐지된 글자 객체(411')에 대하여 외부 둘레면을 따라 사각형상의 박스로 표시한다.

또한, 객체 탐지 모델은 인식된 객체에 대한 정보를 도 22와 같이, 객체 탐지 결과(420')로 표시함으로써, 사각형상 기반의 패턴 인식도 가능하다.

또한, 형식의 둘레를 따라 표시된 사각형상의 구성(또는 배열) 패턴에 근거하여 후술되는 폼 구성 모델링부(150)가 미리 저장된 기관(병원)의 영수증 구성과 비교하여 어떤 기관의 영수증인지 구분할 수도 있다.

또한, 문서 분석 장치(100')는 객체 탐지 모델링부(130)에서 탐지된 형식, 글자 및 숫자 객체에 대해 OCR 모델을 이용하여 글자 및 숫자를 인식하는 OCR 모델링부(140')를 포함하여 구성될 수 있다.

여기서, OCR 모델링부(140')는 이미지 기반의 텍스트 문서를 자동으로 감지하여 인식하는 구성으로서, 공지의 OCR 모델을 사용하여 구성될 수 있다.

또한, OCR 모델링부(140')는 OCR 모델을 통한 OCR 인식 결과에 대하여 인식된 예측 정보와, 예측 정보에 대하여 후술되는 폼 구성 모델링부에서 산출된 신뢰 점수에 기반한 신뢰 점수를 함께 제공할 수 있다.

여기서, 예측 정보는 인식된 객체에 포함될 글자 및 숫자를 나타낸 것이고, 신뢰 점수는 OCR을 통해 인식하는 과정에서 내용이 선명하지 않거나, 연결된 부분이 끊어진 경우 등을 반영하여 전체부분에서 인식된 부분의 비율을 산출한 인식률일 수 있다.

또한, 문서 분석 장치(100')는 인식된 글자 정보를 항목 DB(300')와 비교하고, 인식된 글자를 항목 DB(300')의 글자 정보로 교정함에 따라 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하고, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 교정된 글자 및 숫자 정보를 매칭시켜 디스플레이되도록 하는 폼 구성 모델링부(150')를 포함하여 구성될 수 있다.

폼 구성 모델링부(150')는 인식 대상 이미지에서 인식되는 글자 정보와 비교하기 위해, 임의의 문서, 예를 들면, 병원 영수증, 약국 영수증, 거래명세서, 세금 계산서 등에서 사용되는 글자(항목) 정보를 정의한 항목 DB(300')를 생성할 수 있다.

또한, 폼 구성 모델링부(150')는 도 23과 같이, 인식된 글자 객체(411')에 대한 자연어 처리(Natural Language Processing, NLP)를 통해 인식된 글자에 대하여 형태소, 또는 분절음 별로, NLP 객체(411a')를 분석하고, 분석된 결과와 항목 DB(300') 정보 사이의 비교를 기반으로 인식된 글자에 대한 신뢰 점수를 산출하여 출력한다.

예를 들어, 인식된 글자가 "MRI 진단-"인 경우, 항목 DB(300')에 저장된 항목에 대한 정보를 검색한 다음, 검색된 항목에 대응하는 항목 DB(300') 정보와의 비교를 통해 신뢰 점수를 산출한다.

즉, 폼 구성 모델링부(150')는 병원 영수증에 새로운 항목이 인식되거나 OCR의 실수로 인해 오탈자, 미인식자 등이 발생하더라도, NLP를 이용하여 상황에 맞게 처리할 수 있도록 한다.

또한, 폼 구성 모델링부(150')에서 산출된 글자에 대한 신뢰 점수는 도 24와 같이, OCR 인식 결과(420')에 인식된 예측 정보(421')와, 폼 구성 모델링부(150')에서 예측 정보(421')에 대하여 산출된 신뢰 점수(422')를 제공할 수도 있다.

신뢰 점수(422')가 일정 값 이상이면, 사용자가 인식이 잘 이루어진 것으로 판단할 수 있도록 하고, 신뢰 점수(422')가 일정 값 이하이면, 사용자가 인식된 결과에 대하여 잘못 인식된 것으로 판단할 수 있도록 한다.

또한, 폼 구성 모델링부(150')는 인식된 사각형상 픽셀의 위치를 기반으로 임의의 시작 위치에서 좌측방향 및 상측방향으로 인접한 모든 글자 및 숫자들의 사각형상 픽셀들을 연결하여 도 25와 같이, 재구성된 폼(500')을 생성한다.

한편, 폼 구성 모델링부(150')는 숫자 객체의 박스 크기에 대하여 가로, 세로 길이가 인접한 다른 박스의 가로, 세로 길이와 동일하거나 또는 다른 박스의 가로, 세로 길이에 포함되면 연결되도록 한다.

도 26을 참조하여 더욱 상세하게 설명하면, 숫자로 인식된 시작 객체 박스(600)를 기준으로 시작 객체 박스(600)의 횡방향 크기(700) 및 종방향 크기(710)를 좌측 객체 박스(610)와 상측 객체 박스(620)의 횡방향 크기(700a) 및 종방향 크기(710a)와 비교하여 동일하거나 또는 좌측 객체 박스(610)와 상측 객체 박스(620)의 횡방향 크기 및 종방향 크기에 포함되면 좌측 연결선(800) 및 상측 연결선(810)으로 연결하여 표시될 수 있도록 한다.

본 실시 예에서는 설명의 편의를 위해 시작 위치를 중앙부분에 위치한 숫자 객체를 시작 객체 박스(600)로 설명하였지만, 시작 객체 박스(600)의 우측에 위치한 우측 객체 박스(600a), 시작 객체 박스(600)의 하측에 위치한 하측 객체 박스(630)를 시작 위치로 설정할 수 있고, 예를 들어 우측 객체 박스(600a)를 시작 위치로 설정하면, "공단 부담금"이 인식된 글자 객체가 상측 객체 박스(620a)가 될 수 있다.

또한, 폼 구성 모델링부(150')는 상기된 과정을 반복하여 가장 가까운 좌측과 상측만을 연결하고, 연결 후 숫자로부터 시작하여 좌측과 상측에 텍스트, 예를 들면, 글자 객체(항목)가 나올때까지 이동 및 검색을 통해 연결한다.

또한, 폼 구성 모델링부(150')는 재구성 폼의 항목이 교정된 글자, 즉 항목 DB(300')에서 선택된 글자들로만 구성되면, OCR 모델링부(140')의 OCR 모델을 통해 인식된 숫자만 인식하고, 인식된 숫자와 항목을 매칭시킬 수도 있다.

또한, 문서 분석 장치(100')는 폼 구성 모델링부(150')에서 재구성 폼과, 재구성된 폼으로 이루어진 재구성 이미지와, 특정 기관에서 사용하는 문서 데이터의 폼과 항목 DB를 저장하는 데이터 베이스(160')를 포함하여 구성될 수 있다.

또한, 폼 구성 모델링부(150')는 도 27과 같이 기울어진 상태의 이미지가 입력된 경우, 기울어진 상태에서 좌측으로 계속 이동할 경우 다른 라인의 항목과 연결될 수 있으므로, 빈칸 감지 모델을 이용하여 사각형상 픽셀에 정보가 있는지 여부를 확인할 수 있다.

즉, 폼 구성 모델링부(150')는 임의의 숫자 정보를 포함한 제1 사각형상 픽셀(910)로부터 좌측방향으로 이동하고, 이때, 제2 사각형상 픽셀(920)이 빈칸이면, 사각형상 픽셀 간에 연결이 이루어지도록 하여 사각형상 픽셀 간에 잘못 연결되는 것을 방지할 수 있도록 한다.

다음은 본 발명의 제2 실시 예에 따른 OCR 기반 문서 분석 방법을 설명한다.

도 28은 본 발명의 제2 실시 예에 따른 OCR 기반 문서 분석 과정을 나타낸 흐름도이다.

도 18 내지 도 28을 참조하면, 문서 분석 장치(100')는 네트워크를 통해 연결된 외부 단말 또는 팩스 등을 통해 인식 대상 영수증의 이미지를 수신(S100')한다.

또한, 문서 분석 장치(100')는 수신된 인식 대상 영수증의 이미지에서 객체 탐지 모델을 이용하여 임의의 형식, 글자 및 숫자 객체와 그 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성하는 객체 탐지 단계를 수행(S200')한다.

또한, S200' 단계에서, 객체 탐지 모델은 PSENet(Progressive Scale Expansion Network) 기반의 딥러닝 모델을 이용하여 문서 이미지를 포함한 학습 데이터로부터 형식, 글자 및 숫자 객체와, 그 위치를 탐지하고, 탐지율의 향상을 위해 학습을 수행할 수 있다.

계속해서, 문서 분석 장치(100')는 탐지된 형식, 글자 및 숫자 객체에 대한 사각형상 픽셀 안에서, OCR 모델을 이용하여 글자 및 숫자 정보를 인식하는 OCR 인식 단계(S300')를 수행한다.

S300' 단계를 수행한 다음, 문서 분석 장치(100')는 임의의 문서로부터 고정화 되어 있는 텍스트 정보 즉, 항목에 대한 글자 정보를 항목 DB(300) 정보로 생성하고, 생성된 항목 DB(300') 정보는 데이터베이스(160')에 저장(S400')한다.

상기 인식된 글자 정보를 항목 DB(300')와 비교(S500')하고, 인식된 글자를 항목 DB(300')의 글자 정보로 교정함에 따라 교정 여부를 결정하기 위한 오탈자 또는 미인식자의 유무를 판단(S600')한다.

S600' 단계의 판단 결과, 오탈자 또는 미인식자가 있으면, 문서 분석 장치(100')는 NLP 기반의 교정을 수행(S700')한다.

즉, S700' 단계에서 문서 분석 장치(100')는 자연어 처리(Natural Language Processing, NLP)를 통해 탐지된 글자에 대하여 분석한다.

또한, S700' 단계에서 문서 분석 장치(100')는 분석된 글자와 항목 DB(300') 정보 사이의 비교를 기반으로 분석된 글자에 대한 신뢰 점수를 산출하여 출력할 수도 있다.

계속해서, 문서 분석 장치(100')는 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하고, 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 교정된 글자 및 숫자 정보가 매칭되도록(S800')한다.

즉, 문서 분석 장치(100')는 시작 위치를 숫자 객체로 하여 시작 위치의 좌측 방향과 상측 방향으로 이동 및 연결한다.

이때, 시작 위치로부터 가장 가까운 좌측과 상측만을 우선 연결하고, 이후, 인접한 모든 객체들을 연결하며, 글자 객체(항목)가 나올때 까지 숫자 객체들을 검색하며 이동한다.

또한, 글자 객체를 포함한 항목 검색이 완료되면, 문서 분석 장치(100')는 인식된 글자 및 교정된 글자와 숫자를 항목 별로 대응하여 매칭되도록 한다.

또한, 문서 분석 장치(100')는 인식된 글자 및 교정된 글자를 반영하여 재구성된 폼을 기반으로 재구성 이미지의 최종 결과를 출력(S900')하고, 재구성된 폼과 재구성 이미지는 데이터베이스(150')에 저장되도록 한다.

따라서, 문서 상의 항목에 기재된 문자 및 숫자를 포함한 글자를 인식하고, 인식된 글자에 대한 상대적인 위치 정보에 기반하여 문서에 고정화되어 있는 글자를 포함한 항목들 간의 매칭을 통해 신속 속도를 증가시킬 수 있다.

또한, 병원, 보험사 등의 기관에서 사용한 고정화된 용어들과 비교하여 사용함으로써, OCR은 숫자만의 인식으로 단순화 시킬 수 있다.

또한, 표준화된 이미지가 아니어도 다양한 학습 데이터를 이용한 딥러닝 학습을 통해 인식의 정확도를 향상시킬 수 있고, 병원, 약국 등에서 사용하는 다양한 포맷의 영수증에 대하여 정확한 정보의 인식이 가능하며, 새로운 항목에 대한 인식과 예측값의 정확도를 제공함으로써, 신뢰도를 향상 시킬 수 있다.

(제3 실시 예)

도 29를 참조하면, 본 발명의 제3 일 실시 예에 따른 OCR 기반 문서 분석 시스템은 객체 탐지 모델을 이용하여 인식 대상 이미지에서 임의의 형식(form), 글자 및 숫자 중 적어도 하나의 객체의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 값을 생성하며, OCR 모델을 이용하여 상기 사각형상의 픽셀 안에서 인식되는 글자 및 숫자 정보를 인식하며, 상기 생성된 사각형상의 픽셀 위치 값을 기반으로 인접한 모든 사각형상의 픽셀들을 연결하며, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보를 매칭시켜 디스플레이 하는 문서 분석 장치(100")를 포함하여 구성될 수 있다.

또한, 문서 분석 장치(100")는 인식률에 따라 인식된 글자 및 숫자의 신뢰 점수를 산출하고, 산출된 신뢰 점수를 디스플레이에 반영하여 시각적으로 표시되도록 할 수 있다.

또한, 문서 분석 장치(100")는 재구성 폼이 신뢰 점수에 따라 정상 인식 영역과, 틀린 영역 및 보정 영역을 포함한 오류발생 영역이 서로 다른 색상의 시각화 정보로 표시되도록 할 수 있다.

또한, 문서 분석 장치(100")는 신뢰 점수가 보정 모델을 이용하여 폼, 형상, 위치 중 적어도 하나의 보정 수행에 따라 산출되는 재건율이 추가 반영될 수 있도록 한다.

이를 위해, 문서 분석 장치(100")는 인식 대상 이미지를 수신하는 입력부(110")를 포함하여 구성될 수 있다.

입력부(110")는 네트워크를 통해 접속된 외부 단말로부터 전송되는 이미지 또는 스캐너 등을 통해 스캐닝된 이미지 등을 수신하는 데이터 통신 수단으로 구성될 수 있다.

또한, 문서 분석 장치(100")는 인식 대상 이미지에 포함된 글자에 대하여 임의의 문서로부터 미리 설정된 글자에 대한 항목 DB(300', 도 20 참조) 정보를 생성하는 항목 DB 생성부(120")를 포함하여 구성될 수 있다.

항목 DB 생성부(120")는 도 19와 같이, 예를 들어 병원 영수증 등의 문서(200')에 고정으로 포함되어, 청구 내역, 진료 내역 등의 텍스트로 표시된 항목(210')에 대한 정보를 분석한다.

또한, 항목 DB 생성부(120")는 도 19에서 분석된 항목에 대하여 도 20과 같은 항목 DB(300')를 생성하여 데이터베이스(170")에 저장되도록 한다.

또한, 문서 분석 장치(100")는 입력부(110")를 통해 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 이미지에 포함된 임의의 형식(form), 글자 및 숫자 객체의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성하는 객체 탐지 모델링부(130")를 포함하여 구성될 수 있다.

즉, 객체 탐지 모델링부(130")는 형식, 글자 및 숫자 객체에 대한 상대적인 위치의 인식을 수행하고, 형식, 글자 및 숫자 객체의 위치에 따른 배열을 확인할 수 있도록 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하며, 표시된 사각형상의 픽셀 위치 값(좌표 정보)을 생성한다.

또한, 형식의 둘레를 따라 표시된 사각형상의 구성(또는 배열) 패턴에 근거하여 후술되는 폼 구성 모델링부(150")가 미리 저장된 기관(병원)의 영수증 구성과 비교하여 어떤 기관의 영수증인지 구분할 수도 있다.

또한, 문서 분석 장치(100")는 객체 탐지 모델링부(130")에서 탐지된 형식, 글자 및 숫자 객체에 대해 OCR 모델을 이용하여 글자 및 숫자를 인식하는 OCR 모델링부(140")를 포함하여 구성될 수 있다.

여기서, OCR 모델링부(140")는 이미지 기반의 텍스트 문서를 자동으로 감지하여 인식하는 구성으로서, 공지의 OCR 모델을 사용하여 구성될 수 있다.

또한, OCR 모델링부(140")는 OCR 모델을 통해 도 24와 같이 인식된 OCR 인식 결과(430')에 대하여 인식된 예측 정보(431')와, 예측 정보(431')에 대하여 후술되는 폼 구성 모델링부에서 산출된 신뢰 점수(432')에 기반한 신뢰 점수를 함께 제공할 수 있다.

여기서, 예측 정보(431')는 인식된 객체에 포함될 글자 및 숫자를 나타낸 것이고, 신뢰 점수(432')는 OCR을 통해 인식하는 과정에서 내용이 선명하지 않거나, 연결된 부분이 끊어진 경우 등을 반영하여 전체부분에서 인식된 부분의 비율을 산출한 인식률일 수 있다.

또한, 문서 분석 장치(100")는 인식된 글자 정보를 항목 DB(300')와 비교하고, 인식된 글자를 항목 DB(300")의 글자 정보로 교정함에 따라 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하고, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 교정된 글자 및 숫자 정보를 매칭시켜 디스플레이되도록 하는 폼 구성 모델링부(150")를 포함하여 구성될 수 있다.

폼 구성 모델링부(150")는 인식 대상 이미지에서 인식되는 글자 정보와 비교하기 위해, 임의의 문서, 예를 들면, 병원 영수증, 약국 영수증, 거래명세서, 세금 계산서 등에서 사용되는 글자(항목) 정보를 정의한 항목 DB(300')를 생성할 수 있다.

또한, 폼 구성 모델링부(150")는 도 23과 같이, 인식된 글자 객체(411')에 대한 자연어 처리(Natural Language Processing, NLP)를 통해 탐지된 글자에 대하여 형태소, 또는 분절음 별로, NLP 객체(411a')를 분석하고, 분석된 결과와 항목 DB(300') 정보 사이의 비교를 기반으로 인식된 글자에 대한 신뢰 점수를 산출할 수도 있다.

즉, 폼 구성 모델링부(150")는 병원 영수증에 새로운 항목이 인식되거나 OCR의 실수로 인해 오탈자, 미인식자 등이 발생하더라도, NLP를 이용하여 상황에 맞게 처리할 수 있도록 한다.

또한, 폼 구성 모델링부(150")에서 산출된 글자에 대한 신뢰 점수는 도 24와 같이, OCR 인식 결과(430')에 인식된 예측 정보(431')와, 폼 구성 모델링부(150")에서 예측 정보(431')에 대하여 산출된 신뢰 점수(432')를 제공할 수 있다.

또한, 폼 구성 모델링부(150")는 탐지된 글자 및 객체의 위치를 기반으로 임의의 시작 위치에서 좌측방향 및 상측방향으로 인접한 모든 글자 및 숫자들의 객체 위치들을 연결하여 재구성된 폼을 생성한다.

한편, 폼 구성 모델링부(150")는 새로운 항목이 인식된 경우, 숫자 객체의 박스 크기에 대하여 가로, 세로 길이가 인접한 다른 박스의 가로, 세로 길이와 동일하거나 또는 다른 박스의 가로, 세로 길이에 포함되면 연결되도록 한다.

도 25를 참조하여 더욱 상세하게 설명하면, 숫자로 인식된 시작 객체 박스(600)를 기준으로 시작 객체 박스(600)의 횡방향 크기(600) 및 종방향 크기(710)를 좌측 객체 박스(610)와 상측 객체 박스(620)의 횡방향 크기(700a) 및 종방향 크기(710a)와 비교하여 동일하거나 또는 좌측 객체 박스(610)와 상측 객체 박스(620)의 횡방향 크기 및 종방향 크기에 포함되면 좌측 연결선(800) 및 상측 연결선(810)으로 연결하여 표시한다.

본 실시 예에서는 설명의 편의를 위해 시작 위치를 중앙부분에 위치한 숫자 객체를 시작 객체 박스(600)로 설명하였지만, 시작 객체 박스(600)의 우측에 위치한 우측 객체 박스(600a), 시작 객체 박스(600)의 하측에 위치한 하측 객체 박스를 시작 위치로 설정할 수도 있다.

예를 들어, 우측 객체 박스(600a)를 시작 위치로 설정하면, "공단 부담금"이 인식(또는 탐지)된 글자 객체는 상측 객체 박스(620a)가 될 수 있다.

또한, 폼 구성 모델링부(150")는 상기된 과정을 반복하여 가장 가까운 좌측과 상측만을 연결하고, 연결 후 숫자로부터 시작하여 좌측과 상측에 텍스트, 예를 들면, 글자 객체(항목)가 나올때까지 이동 및 검색을 통해 연결한다.

즉, 도 30에 나타낸 바와 같이, 문서 이미지(900')에서 기준 객체 박스(910')의 좌측과 상측으로 이동 및 검색을 통해 다음 객체와 연결을 수행하는데 있어서, 좌측에 위치한 좌측 객체 박스(920')가 글자이면 좌측 연결선(940')을 통해 연결한다.

또한, 상측으로 이동 및 검색을 통해 상측 객체 박스(930')가 글자 객체(항목)이면, 상측 연결선(941')을 통해 계속해서 연결한다.

또한, 폼 구성 모델링부(150")는 재구성 폼의 항목이 교정된 글자, 즉 항목 DB(300')에서 선택된 글자들로만 구성되면, 오탈자 또는 미인식된 글자가 없는 것으로 판단하여 OCR 모델링부(140")의 OCR 모델을 통해 인식된 숫자만 인식하고, 인식된 숫자와 항목을 매칭시킬 수도 있다.

상기 폼 구성 모델링부(150")는 탐지된 글자 객체에 대하여 항목 DB(300') 정보와 매칭시키고, 매칭 결과에 따라 인식된 글자가 교정되면, 교정된 글자가 반영되도록 한다.

또한, 폼 구성 모델링부(150")는 직사각형 인식을 통한 글자 객체 및 숫자 객체를 찾을 뿐만 아니라, 문서 이미지가 기울어진 상태의 이미지인 경우, 꼭지점에 의한 재건을 통해 수평 상태의 문서 이미지로 보정할 수도 있다.

또한, 폼 구성 모델링부(150")는 촬영 각도에 의해 문서 이미지가 사다리꼴 형상의 이미지인 경우, 사다리꼴 보정을 통한 재건을 통해 사각형상의 문서 이미지로 변환할 수도 있다.

또한, 폼 구성 모델링부(150")는 문서 이미지가 구겨지거나 또는 접혀진 부분을 포함하여 촬영된 경우, 형상 또는 폼을 보정하기 위한 프로그램을 이용하여 사각형상의 문서 이미지로 변환할 수도 있다.

한편, 폼 구성 모델링부(150")가 인식 정확도의 제고를 위한 보정을 수행하여 직사각형상의 충실한 재건과 이를 기반으로 하여 정확한 인식이 이루질 수 있도록 동작하지만, 그에 따른 보정 및 재건을 통해 오류의 발생 가능성도 함께 증가할 수 있다.

이를 위해, 문서 분석 장치(100")는 보정 모델을 이용하여 보정 및 재건으로 인한 판단 오류의 위험성 정보, 예를 들면, 보정 및 재건 유형과 갯수 등을 수치화시킨 정보와, 인식된 글자 및 숫자의 신뢰도를 기반으로 신뢰 점수를 산출하고, 산출된 신뢰 점수를 기반으로 사용자가 확인할 수 있도록 폼 구성 모델링부(150")를 통해 디스플레이에 반영함으로써, 시각적으로 표시되도록 하는 신뢰도 평가부(160")를 포함하여 구성될 수 있다.

즉, 신뢰도 평가부(160")는 보정 및 재건으로 인한 판단 오류의 위험성 정보, 예를 들면, 보정 및 재건의 유형과, 갯수 등을 수치화시킨 신뢰 점수를 폼 구성 모델링부(150")로 제공한다.

폼 구성 모델링부(150")는 글자 및 숫자의 사각형상 박스의 색상이 정상 객체 영역과, 틀린 객체 영역 및 보정 영역을 포함한 오류발생 객체 영역이 서로 다른 색상으로 표시한다.

즉, 폼 구성 모델링부(150")는 신뢰도 평가부(160")를 통해 제공되는 신뢰 점수에 기반하여 도 31과 같이, 신뢰 점수가 미리 설정된 기준 값 이상인 객체 영역은 재구성 이미지(900")에서 청색으로 표시하여 정상 객체 영역(910", 911")이 확인될 수 있도록 표시한다.

또한, 폼 구성 모델링부(150")는 신뢰도 평가부(160")를 통해 제공된 신뢰 점수가 기준 값 이하인 객체 영역은 재구성 이미지(900")에서 임의의 색상(예를 들면, 적색)으로 표시하여 오류발생 객체 영역(920", 921", 922", 923", 924")이 확인될 수 있도록 표시한다.

이러한 폼 구성 모델링부(150")의 서로 다른 색상 표시를 통해 사용자는 신속하고 정확하게 확인할 수 있다.

또한, 문서 분석 장치(100")는 상기 생성된 사각형상의 픽셀 위치 값, 인식된 글자, 숫자 정보, 신뢰 정보와, 특정 기관에서 사용하는 문서 데이터의 폼을 저장하는 데이터베이스(170")를 포함하여 구성될 수 있다.

다음은 본 발명의 제3 실시 예에 따른 OCR 기반 문서 분석 방법을 설명한다.

도 32는 본 발명의 제3 실시 예에 따른 OCR 기반 문서 분석 과정을 나타낸 흐름도이다.

도 29 및 도 32를 참조하면, 문서 분석 장치(100")는 네트워크를 통해 연결된 외부 단말 또는 팩스 등을 통해 인식 대상 영수증의 이미지를 수신(S100")한다.

또한, 문서 분석 장치(100")는 수신된 인식 대상 영수증의 이미지에서 객체 탐지 모델을 이용하여 글자 및 숫자의 객체와 위치를 탐지하고, 탐지된 글자 및 숫자의 객체에 사각형상의 박스를 형성하는 객체 탐지 단계를 수행(S200")한다.

계속해서, 문서 분석 장치(100")는 탐지된 형식, 글자 및 숫자 객체에 대한 사각형상 픽셀 안에서, OCR 모델을 이용하여 글자 및 숫자 정보를 인식하는 OCR 인식 단계(S300")를 수행한다.

S300" 단계를 수행한 다음, 문서 분석 장치(100")는 임의의 문서로부터 고정화 되어 있는 텍스트 정보 즉, 항목에 대한 글자 정보를 항목 DB(300') 정보로 생성하고, 생성된 항목 DB(300', 도 20 참조) 정보는 데이터베이스(170")에 저장(S400")한다.

상기 인식된 글자 정보를 항목 DB(300')와 비교하고, 인식된 글자를 항목 DB(300')의 글자 정보로 교정함에 따라 교정 여부를 결정하기 위한 오탈자 또는 미인식자의 유무를 판단하여 문서 분석 장치(100)는 NLP 기반의 교정을 수행(S500")한다.

즉, S500" 단계에서 문서 분석 장치(100")는 자연어 처리(Natural Language Processing, NLP)를 통해 탐지된 글자에 대하여 분석한다.

또한, S500" 단계에서 문서 분석 장치(100")는 분석된 글자와 항목 DB(300') 정보 사이의 비교를 기반으로 분석된 글자에 대한 신뢰 점수를 산출하여 출력할 수도 있다.

계속해서, 문서 분석 장치(100")는 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하고, 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 교정된 글자 및 숫자 정보가 매칭되도록(S600")한다.

즉, 문서 분석 장치(100")는 시작 위치를 숫자 객체로 하여 시작 위치의 좌측 방향과 상측 방향으로 이동 및 연결한다.

또한, 글자 객체를 포함한 항목 검색이 완료되면, 문서 분석 장치(100")는 인식된 글자 및 교정된 글자와 숫자를 항목 별로 대응하여 매칭되도록 한다.

또한, 문서 분석 장치(100")는 인식 정확도의 제고를 위한 보정을 수행하여 직사각형상의 충실한 재건과 이를 기반으로 하는 정확한 인식이 이루질 수 있도록 처리된 보정 및 재건 유형과 갯수 등을 수치화시킨 정보와, 인식된 글자 및 숫자의 신뢰도를 기반으로 신뢰 점수를 산출하고, 산출된 신뢰 점수를 기반으로 사용자가 확인할 수 있도록 디스플레이에 반영하여 시각적으로 표시(S700")되도록 한다.

또한, S700" 단계에서 문서 분석 장치(100")는 문서 이미지가 기울어진 상태이면, 꼭지점에 의한 재건을 통해 수평 상태의 문서 이미지로 보정하고, 문서 이미지가 사다리꼴 형상의 이미지이면, 사다리꼴 보정을 통한 재건을 통해 사각형상의 문서 이미지로 변환할 수도 있다.

또한, 문서 이미지가 구겨지거나 또는 접혀진 부분을 포함하면, 형상 또는 폼을 보정하기 위한 프로그램을 이용하여 사각형상의 문서 이미지로 변환함으로써, 폼, 형상, 위치 중 적어도 하나의 보정 수행에 따른 재건율과, 신뢰 점수를 산출할 수 있다.

또한 S700" 단계에서 문서 분석 장치(100")는 신뢰 점수에 따라 글자 및 숫자의 사각형상 박스의 색상이 정상 객체 영역과, 틀린 객체 영역 및 보정 영역을 포함한 오류발생 객체 영역이 서로 다른 색상으로 표시되도록 한다.

즉, 도 31과 같이, 신뢰 점수가 미리 설정된 기준 값 이상인 객체 영역은 재구성 이미지(900")에서 예를 들면, 청색으로 표시하여 정상 객체 영역(910", 911")이 확인될 수 있도록 표시하고, 신뢰 점수가 기준 값 이하인 객체 영역은 재구성 이미지(900")에서 예를 들면, 적색으로 표시하여 오류발생 객체 영역(920", 921", 922", 923", 924")이 확인될 수 있도록 표시되도록 한다.

또한, 인식된 글자, 교정된 글자, 보정 및 재건을 통해 재구성된 폼을 재구성 이미지로 변환하여 최종 결과를 출력(S800")하고, 데이터베이스(170")에 저장되도록 한다.

(제4 실시 예)

도 33은 본 발명의 제4 실시 예에 따른 OCR 기반 문석 시스템을 나타낸 블록도이다.

도 33을 참조하여 설명하면, 본 발명의 제4 실시 예에 따른 OCR 기반 문서 분석 시스템은 객체 탐지 모델을 이용하여 인식 대상 이미지에서 임의의 형식(form), 글자 및 숫자 중 적어도 하나의 객체 위치를 탐지하되, 상기 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하여 글자 및 숫자 객체의 픽셀 위치 값을 생성하며, OCR 모델을 이용하여 상기 사각형상의 픽셀 안에서 인식되는 글자 및 숫자 정보를 출력하고, 상기 생성된 사각형상의 픽셀 위치 값을 기반으로 인접한 모든 사각형상의 픽셀들을 연결하며, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보를 매칭시켜 디스플레이하는 문서 분석 장치(100"')를 포함하여 구성된다.

또한, 문서 분석 장치(100"')는 생성된 글자 객체의 픽셀 위치 값을 기반으로 이미지의 좌측 영역에 글자 객체가 배치되는 좌측 헤더 영역과, 이미지의 상측 영역에 글자 객체가 배치되는 상측 헤더 영역으로 구분하고, 구분된 좌측 헤더 영역과 상측 헤더 영역을 기준으로 가상 셀 객체를 생성하여 배치할 수 있다.

또한, 문서 분석 장치(100"')는 배치된 가상 셀 객체와 숫자 객체를 매칭시켜 행/열(row/column) 정보를 기반으로 연결하여 OCR 모델을 통해 인식된 글자 및 숫자 정보가 디스플레이되도록 구성될 수 있다.

또한, 문서 분석 장치(100"')는 외부로부터 전송되는 인식 대상 이미지를 수신하는 입력부(110"')를 포함하여 구성될 수 있다.

입력부(110"')는 네트워크를 통해 접속된 외부 단말로부터 전송되는 이미지 또는 스캐너 등을 통해 스캐닝된 이미지 등을 수신하는 데이터 통신 수단으로 구성될 수 있다.

또한, 문서 분석 장치(100"')는 입력부(110"')를 통해 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 이미지에 포함된 임의의 형식(form), 글자 및 숫자 객체의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성하는 객체 탐지 모델링부(120"')를 포함하여 구성될 수 있다.

즉, 객체 탐지 모델링부(120"')는 형식, 글자 및 숫자 객체에 대한 상대적인 위치의 인식을 수행하고, 형식, 글자 및 숫자 객체의 위치에 따른 배열을 확인할 수 있도록 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하며, 표시된 사각형상의 픽셀 위치 값(좌표 정보)을 생성한다.

또한, 객체 탐지 모델은 원본 이미지, 문서의 임의의 부분이 접혀진 이미지, 문서의 위치가 임의의 각도로 기울어진 이미지, 임의의 조도를 갖는 밝기가 조절된 이미지, 문서에 표시된 내용이 선명하지 않고 끊어진 연결선을 갖는 이미지, 문서의 임의의 부분이 굴곡진 이미지, 숫자와 연결선이 겹쳐진 이미지를 기반으로 하는 학습 데이터를 이용하여 학습할 수 있다.

즉, 입력된 문서 이미지(200, 도 2 참조)에서 임의의 탐지 영역(210, 도 2 참조)으로부터 탐지된 예를 들면, 글자 객체(211)에 대하여 외부면에 사각형상의 박스(212, 도 2 참조)로 구성된 픽셀 위치 값을 생성하고, 인식된 객체(213, 도 2 참조)에 대한 정보를 글자 탐지 결과(220, 도 3 참조)에 표시함으로써, 사각형상 기반의 패턴 인식이 가능하도록 한다.

또한, 사각형상의 박스(212, 도 2 참조)는 바람직하게는 직사각형(rectangular)으로 구성될 수 있다.

또한, 형식의 둘레를 따라 표시된 사각형상의 구성(또는 배열) 패턴에 근거하여 미리 저장된 기관(병원)의 영수증 구성과 비교를 통해 어떤 기관의 영수증인지 구분할 수도 있다.

또한, 문서 분석 장치(100"')는 객체 탐지 모델링부(120"')에서 탐지된 형식, 글자 및 숫자 객체에 대해 OCR 모델을 이용하여 글자 및 숫자를 인식하는 OCR 모델링부(130"')를 포함하여 구성될 수 있다.

여기서, OCR 모델링부(130"')는 이미지 기반의 텍스트 문서를 자동으로 감지하여 인식하는 구성으로서, 공지의 OCR 모델을 사용하여 구성될 수 있다.

또한, OCR 모델링부(130"')는 OCR 인식 결과(300, , 도 4 참조)에 대하여 인식된 예측 정보(310, 도 4 참조)와, 예측 정보(310)에 대한 신뢰 점수(320, 도 2 참조)를 산출하여 함께 제공할 수 있다.

또한, 문서 분석 장치(100"')는 생성된 글자 객체의 픽셀 위치 값을 기반으로 이미지의 좌측 영역에 글자 객체가 배치되는 좌측 헤더 영역과, 이미지의 상측 영역에 글자 객체가 배치되는 상측 헤더 영역으로 구분하되, 상기 좌측 헤더 영역과 상측 헤더 영역을 기준으로 M×N 크기의 가상 셀 객체를 생성하여 배치하며, 상기 배치된 가상 셀 객체와 숫자 객체를 매칭시켜 행/열 정보를 기반으로 연결하여 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보가 디스플레이되도록 하는 가상 셀 폼 구성 모델링부(140"')를 포함하여 구성될 수 있다.

즉, 가상 셀 폼 구성 모델링부(140"')는 객체 탐지 모델링부(120"')의 탐지 결과와 OCR 모델링부(130"')의 예측 정보를 기반으로 하여 인식한 예측 정보들이 어떤 항목인지 매칭되도록 한다.

또한, 가상 셀 폼 구성 모델링부(140"')는 객체 탐지 모델링부(120"')의 탐지 결과(220)와, OCR 모델링부(130"')의 예측 정보(310)를 매칭하기 위해, 인접한 모든 글자 및 숫자 객체들의 사각형상 픽셀들을 연결한다.

또한, 일반적인 영수증 등의 회계 관련 문서는 글자로 이루어진 항목이 주로 문서의 좌측가 상측에 배치된다.

즉, 도 34에 나타낸 바와 같이, 문서 이미지(400"') 상의 좌측 영역에는 복수의 좌측 객체(410"')가 탐지되고, 문서 이미지(400"') 상의 상측 영역에는 복수의 상측 객체(420"')가 탐지되며, 개별 좌측 객체(410"')와 상측 객체(420"')와 연동하여 숫자 객체(430"')가 탐지된다.

숫자 객체(430"')는 해당 숫자 객체(430"')에 대응하는 좌측 객체(410"')와 상측 객체(420"')에 의해 해당 숫자 객체(430"')가 가지는 속성(attribute)이 정의된다.

그러나 숫자 객체(430"')를 인접한 객체들과 연결할 때 입력된 문서 이미지에 포함된 숫자 객체들이 수평방향이 아닌 기울어진 상태로 배치된 경우, 좌측 방향에 배치된 글자 객체와 연결하는 과정에서 수평방향이 아닌 기울어진 방향의 연장선에 배치된 다른 글자 객체와 연결될 수 있다.

본 발명의 일 실시 예에 따른 가상 셀 폼 구성 모델링부(140"')는 가상 셀 객체를 생성하여 글자 객체 및 숫자 객체가 연결되도록 한다.

이를 위해 가상 셀 폼 구성 모델링부(140"')는 객체 탐지 모델링부(120"')를 통해 추출된 글자 객체의 위치 좌표를 기반으로 문서 이미지(400"') 상에서 도 35와 같이, 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')을 분리하여 구분한다.

또한, 가상 셀 폼 구성 모델링부(140"')는 구분된 좌측 헤더 영역(500"')에 포함된 글자 객체 즉, 도면 상에서 좌측 헤더 영역(500"')의 수직방향 하부방향으로 배치된 복수의 좌측 헤더 객체(501"')와, 상측 헤더 영역(510"')에 포함된 글자 객체 즉, 도면 상에서 상측 헤더 영역(510"')의 수평방향 우측방향으로 배치된 상측 헤더 객체(511"', 512"') 별로 사각형상 픽셀의 위치 좌표 값을 추출한다.

또한, 가상 셀 폼 구성 모델링부(140"')는 글자 객체의 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')에 포함된 글자 객체 사이의 간격 및 크기 즉, 좌측 헤더 객체(501"'), 상측 헤더 객체(511"'), 상측 헤더 객체 1(512"') 사이의 간격 및 크기를 산출하고, 구분된 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')을 기준으로 복수의 가상 셀 그룹(530"', 530"'a)이 행/열 정보에 따라 배치된다.

즉, 가상 셀 그룹(530"', 530"'a)에 포함된 복수의 가상 셀 객체(531"', 532"')가 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')의 행/열 정보에 따라 배치된다.

여기서, 배치되는 가상 셀 객체(531"', 532"')의 갯수는 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')에서 탐지된 좌측 헤더 객체(501"')와 상측 헤더 객체(511"')의 갯수인 M×N 개 만큼 형성된다.

또한, 가상 셀 폼 구성 모델링부(140"')는 숫자 객체 영역(520"')과 가상 셀 그룹(530"', 530"'a)을 매칭시키는데, 좌측 상단에 배치된 가상 셀 객체(531"')와 숫자 객체(521"')가 우선 매칭되도록 한다.

이때, 좌측 헤더 및 상측 헤더의 정보와 가장 밀접하게 연관된 정보는 좌측 상단이므로, 가장 정확도가 높은 좌측 상단의 가상 셀 객체(531"')와 숫자 객체(521"')를 우선 매칭 시킨다.

또한, 가상 셀 폼 구성 모델링부(140"')는 도 36과 같이, 좌측 상단에 배치된 가상 셀 객체(531"')와 숫자 객체(521"')를 매칭하면, 매칭된 숫자 객체(521"')와 가상 셀 객체(531"') 사이의 기울기를 산출한다.

즉, 가상 셀 폼 구성 모델링부(140"')는 문서 이미지에 포함된 숫자 객체(521"')들이 수평방향이 아닌 기울어진 상태로 배치된 경우 잘못 매칭되는 것을 방지하기 위해 문서 이미지 상에 설정된 기준 좌표계에서, 좌표계 내의 해당 벡터의 기울기를 산출하고, 산출된 기울기에 기반하여 이미지의 전체적인 기울기를 산출한다.

또한, 가상 셀 폼 구성 모델링부(140"')는 이미지의 전체적인 기울기가 반영되도록 좌측 상단에서 매칭된 숫자 객체(521"')와 가상 셀 객체(531"') 사이의 기울기 정보를 우측 하단에 배치된 가상 셀 객체와 숫자 객체 n(523"')의 매칭까지 반영되도록 한다.

또한, 가상 셀 폼 구성 모델링부(140"')는 가상 셀 객체를 좌측, 상단, 하단의 객체와 기울기 라인(540"') 및 상측 헤더 라인(541"')을 통해 연결하는데, 좌측 헤더 객체(501"'), 상측 헤더 객체(511"'), 상측 헤더 객체 1(512"') 등에서 산출한 객체 사이의 간격 및 크기에 기반하여 IoU(Intersection over Union)가 미리 설정된 기준 값 이상이면, 연결되도록 한다.

또한, 가상 셀 폼 구성 모델링부(140"')는 가상 셀 객체를 이용한 연결이 완료되면, 도 37과 같이, 가상 셀 객체를 제거하여 최종 연결 이미지(600"')를 생성하여 출력한다.

이때, 가상 셀 폼 구성 모델링부(140"')는 최종 연결 이미지(600"')를 데이터베이스(150"')에 저장된 특정 기관 문서의 박스 배열 정보와 비교하여 매칭되는지 확인할 수 있다.

또한, 가상 셀 폼 구성 모델링부(140"')는 도 38과 같이, 숫자 객체(730"')가 밀린 문자 이미지(700"')가 입력되어도, 좌측 헤더 객체(710"')와, 상측 헤더 객체(720"')를 기반으로 가상 셀 객체를 생성한 다음 예를 들면, 하단으로 밀린 숫자 객체(730"')를 가상 셀 객체와 매칭시켜 기울기에 기반한 연결을 통해 글자 객체와 숫자 객체의 정확한 연결이 이루어질 수 있도록 한다.

또한, 가상 셀 폼 구성 모델링부(140"')는 도 39과 같이, 도면 상 한쪽으로 휘어진(또는 기울어진) 문자 이미지(800)가 입력되어도, 좌측 헤더 객체(810"')와, 상측 헤더 객체(820"')를 기반으로 가상 셀 객체를 생성한 다음 숫자 객체(830"')를 가상 셀 객체와 매칭시켜 기울기에 기반한 연결을 통해 글자 객체와 숫자 객체의 정확한 연결이 이루어질 수 있도록 한다.

또한, 문서 분석 장치(100"')는 가상 셀 폼 구성 모델링부(140)에서 출력되는 재구성 이미지, 특정 기관에서 사용하는 문서 데이터의 폼(또는 형식), 생성된 사각형상의 픽셀 위치 값, 인식된 글자, 숫자 정보 및 매칭 결과 등을 저장하는 데이터 베이스(150)를 포함하여 구성될 수 있다.

다음은 본 발명의 제4 실시 예에 따른 OCR 기반 문서 분석 방법을 설명한다.

도 40은 본 발명의 제4 실시 예에 따른 OCR 기반 문서 분석 과정을 나타낸 흐름도이고, 도 41은 도 40의 실시 예에 따른 가상 셀 기반 항목 매칭 과정을 나타낸 흐름도이다.

도 33, 도 40 및 도 41을 참조하면, 문서 분석 장치(100"')는 네트워크를 통해 연결된 외부 단말 또는 팩스 등을 통해 인식 대상 영수증의 이미지를 수신(S100"')한다.

문서 분석 장치(100"')는 수신된 인식 대상 영수증의 이미지에서 객체 탐지 모델을 이용하여 임의의 형식, 글자 및 숫자 객체와 그 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 정보를 생성하는 글자 탐지 단계를 수행(S200"')한다.

계속해서, 문서 분석 장치(100"')는 탐지된 형식, 글자 및 숫자 객체에 대한 사각형상 픽셀 안에서, OCR 모델을 이용하여 글자 및 숫자 정보를 인식하는 OCR 인식 단계(S300"')를 수행한다.

S300"' 단계를 수행한 다음, 문서 분석 장치(100"')는 생성된 글자 객체의 픽셀 위치 값을 기반으로 이미지의 좌측 영역에 글자 객체가 배치되는 좌측 헤더 영역(500)과, 이미지의 상측 영역에 글자 객체가 배치되는 상측 헤더 영역(510)으로 구분하고, 상기 좌측 헤더 영역(500)과 상측 헤더 영역(510)을 기준으로 가상 셀 객체를 생성하여 배치하고, 배치된 가상 셀 객체와 숫자 객체를 매칭시켜 행/열 정보를 기반으로 연결(S400"')한다.

S400"' 단계를 더욱 상세하게 설명하면, 문서 분석 장치(100"')는 글자 객체의 좌측 및 상측 픽셀 위치를 기준으로 가상 셀 객체를 배치하되, 글자 객체의 좌측 헤더 영역(500"', 도 35 참조)과 상측 헤더 영역(510"', 도 35 참조)을 구분(S410"')한다.

또한, 문서 분석 장치(100"')는 구분된 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')에 포함된 글자 객체 사이의 간격 및 크기를 산출(S420"')한다.

계속해서, 문서 분석 장치(100"')는 구분된 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')을 기준으로 탐지된 좌측 헤더 객체(501"')와 상측 헤더 객체(511"')의 갯수인 M×N 개 만큼 가상 셀 객체를 배치(S430"')한다.

S430"' 단계의 가상 셀 객체 배치가 완료되면, 문서 분석 장치(100"')는 좌측 상단에 배치된 가상 셀 객체와 숫자 객체를 매칭하여 숫자 객체와 가상 셀 객체 사이의 기울기를 산출(S440"')한다.

즉, S440"' 단계에서 문서 분석 장치(100"')는 문서 이미지에 포함된 숫자 객체들이 수평방향이 아닌 기울어진 상태로 배치된 경우 잘못 매칭되는 것을 방지하기 위해 문서 이미지 상에 설정된 기준 좌표계에서, 좌표계 내의 해당 벡터의 기울기를 산출하고, 산출된 기울기에 기반하여 이미지의 전체적인 기울기를 산출한다.

계속해서, 문서 분석 장치(100"')가 행/열 정보에 따라 순차적으로 이동하며 상기 산출된 기울기를 우측 하단에 배치된 가상 셀 객체와 숫자 객체의 매칭까지 반영하여 연결(S450"')한다.

즉, 문서 분석 장치(100"')는 이미지의 전체적인 기울기가 반영되도록 좌측 상단에서 매칭된 숫자 객체와 가상 셀 객체 사이의 기울기 정보를 우측 하단에 배치된 가상 셀 객체와 숫자 객체 n의 매칭까지 반영되도록 하고, 반영 결과에 따라 배치된 가상 셀 객체와 숫자 객체를 매칭시켜 좌측 헤더 객체(501"')와 상측 헤더 객체(511"')의 행/열 정보를 기반으로 연결한다.

S450"' 단계의 연결이 완료되면, 문서 분석 장치(100"')는 OCR 모델을 통해 인식된 글자 및 숫자 정보가 디스플레이되도록 최종 연결 이미지(600"')를 생성하여 출력(S500"')한다.

따라서, OCR을 통해 인식된 정보에 대하여 신뢰 점수를 기반으로 정상 인식된 부분과, 틀린 부분 또는 의심되는 부분을 서로 다른 색상의 시각화 정보로 제공함으로써 사용자에 의한 신속하고 정확한 확인 가능하며, 사용자의 확인 작업시간을 감소시킬 수 있다.

또한, 문서 상의 항목에 기재된 문자 및 숫자를 포함한 글자를 인식하고, 인식된 글자의 상대적인 위치를 기반으로 가상 셀을 생성하여 숫자에 대한 상대적인 위치 정보를 매칭시킬 수 있다.

또한, 인식된 항목들 간의 연결 및 상대적인 위치 관계를 기반으로 글자가 배치된 패턴을 분석하여 특정 문서 또는 영수증 등을 사용하는 병원, 보험사 등의 기관에서 사용한 폼 패턴과 비교함으로써, 신속하고 정확한 매칭이 가능하다.

또한, 병원, 보험사 등의 기관에서 사용하는 다양한 포맷의 영수증에 대하여 정확하고, 신뢰할 수 있는 사용정보를 제공할 수 있으며, 표준화된 이미지가 아니어도 다양한 학습 데이터를 이용한 딥러닝 학습을 통해 인식의 정확도를 향상시킬 수 있다.

또한, 병원, 약국 등에서 사용하는 다양한 포맷의 영수증에 대하여 정확한 정보의 인식이 가능하고, 특정 양식(폼)이 없는 서류의 디지털화가 가능하다.

상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.

또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.

또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.

[부호의 설명]

100, 100', 100", 100"' : 문서 분석 장치

110, 110', 110", 110"' : 입력부

120, 120"', 130', 130", 120"' : 객체 탐지 모델링부

120', 120" : 항목 DB 생성부

130, 130"', 140', 140" : OCR 모델링부

140 : 폼 구성 모델링부

140"' : 가상 셀 폼 구성 모델링부

150, 150"', 160', 170" : 데이터베이스

150', 150" : 폼 구성 모델링부

160" : 신뢰도 평가부

200, 200' : 문서 이미지

Claims

객체 탐지 모델을 이용하여 인식 대상 이미지에서 임의의 형식(form), 글자 및 숫자 중 적어도 하나의 객체의 위치를 탐지하되, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하여 사각형상의 픽셀 위치 값을 생성하며,

OCR 모델을 이용하여 상기 사각형상의 픽셀 안에서 인식되는 글자 및 숫자 정보를 출력하고, 상기 생성된 사각형상의 픽셀 위치 값을 기반으로 인접한 모든 사각형상의 픽셀들을 연결하며, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보를 매칭시켜 디스플레이하는 문서 분석 장치(100, 100', 100", 100"')로 이루어진 OCR 기반 문서 분석 시스템.
제 1 항에 있어서,

상기 문서 분석 장치(100')는 임의의 문서에서 사용되는 글자(항목) 정보를 정의한 항목 DB(300')를 생성 및 저장하고,

상기 인식된 글자에 대하여 항목 DB(300')의 글자 정보와 비교를 통해 교정 여부를 결정하며, 인식된 글자가 교정됨에 따라 상기 인식된 글자, 교정된 글자 및 숫자 정보를 반영하여 디스플레이 하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 1 항에 있어서,

상기 문서 분석 장치(100")는 OCR 모델을 이용한 인식률에 기반한 인식된 글자 및 숫자의 신뢰 점수를 산출하고, 산출된 신뢰 점수를 상기 디스플레이 정보에 반영하여 시각적으로 표시되도록 하고,

상기 신뢰 점수는 보정 모델을 이용하여 폼, 형상, 위치 중 적어도 하나의 보정 수행에 따라 산출되는 재건율이 추가 반영되는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 1 항에 있어서,

상기 문서 분석 장치(100)는 인식 대상 이미지를 수신하는 입력부(110);

상기 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 임의의 형식(form), 글자 및 숫자 객체 중 적어도 하나의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레에 사각형상을 표시하며, 표시된 사각형상의 픽셀 위치 값을 생성하는 객체 탐지 모델링부(120);

OCR 모델을 이용하여 상기 사각형상의 픽셀 내에서 인식되는 글자 및 숫자 정보를 출력하는 OCR 모델링부(130);

상기 생성된 사각형상의 픽셀 위치 값과, 상기 인식된 글자 및 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하고, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보를 매칭시켜 디스플레이되도록 하는 폼 구성 모델링부(140); 및

상기 생성된 사각형상의 픽셀 위치 값, 인식된 글자, 숫자 정보 및 매칭 결과와, 특정 기관에서 사용하는 문서 데이터의 폼을 저장하는 데이터베이스(150);를 포함하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 4 항에 있어서,

상기 객체 탐지 모델은 PSENet(Progressive Scale Expansion Network) 기반의 딥러닝 모델을 이용하여 문서 이미지를 포함한 학습 데이터로부터 형식, 글자 및 숫자 객체의 위치 탐지와, 탐지된 형식, 글자 및 숫자 객체의 둘레를 따라 사각형상을 표시하고, 상기 표시된 사각형상의 픽셀 위치 값 생성을 학습하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 5 항에 있어서,

상기 객체 탐지 모델은 원본 이미지, 문서의 임의의 부분이 접혀진 이미지, 문서의 위치가 임의의 각도로 기울어진 이미지, 임의의 조도를 갖는 밝기가 조절된 이미지, 문서에 표시된 내용이 선명하지 않고 끊어진 연결선을 갖는 이미지, 문서의 임의의 부분이 굴곡진 이미지, 숫자와 연결선이 겹쳐진 이미지를 기반으로 학습 데이터를 학습하는 것을 특징으로 OCR 기반 문서 분석 시스템.
제 4 항에 있어서,

상기 폼 구성 모델링부(140)는 상기 생성된 사각형상의 픽셀 위치 값과, 상기 인식된 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되,

이동중에 검색되는 모든 사각형상의 픽셀들을 연결하고, 상기 연결된 사각형상의 배열 정보를 분석하여 미리 저장된 특정 기관 문서의 배열 정보와 비교하며, 상기 비교 결과, 특정 기관 문서의 배열 정보가 매칭되면, 상기 특정 기관 문서의 사각형상 픽셀 위치에 인식된 숫자 정보를 매칭시켜 디스플레이되도록 하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 4 항에 있어서,

상기 폼 구성 모델링부(140)는 생성된 사각형상의 픽셀 중심점에 마커(520)를 표시하고, 상기 인식된 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되,

이동중에 검색되는 모든 사각형상의 픽셀들을 연결하고, 연결된 사각형상의 마커(520) 위치 정보를 분석하여 미리 저장된 특정 기관 문서의 배열 정보와 비교하며, 상기 비교 결과, 특정 기관 문서의 배열 정보가 매칭되면, 상기 특정 기관 문서의 사각형상 픽셀 위치에 인식된 숫자 정보를 매칭시켜 디스플레이되도록 하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 1 항 또는 제 2 항에 있어서,

상기 문서 분석 장치(100')는 인식 대상 이미지를 수신하는 입력부(110');

상기 인식 대상 이미지에서 인식되는 글자 정보와 비교하기 위해, 임의의 문서에서 사용되는 글자(항목) 정보를 정의한 항목 DB(300')를 생성하는 항목 DB 생성부(120');

상기 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 임의의 형식(form), 글자 및 숫자 객체 중 적어도 하나의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레에 사각형상을 표시하며, 표시된 사각형상의 픽셀 위치 값을 생성하는 객체 탐지 모델링부(130');

OCR 모델을 이용하여 상기 사각형상의 픽셀 내에서 인식되는 글자 및 숫자 정보를 출력하는 OCR 모델링부(140');

상기 인식된 글자 정보를 항목 DB(300')와 비교하고, 인식된 글자를 항목 DB(300')의 글자 정보로 교정함에 따라 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하고, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 교정된 글자 및 숫자 정보를 매칭시켜 디스플레이되도록 하는 폼 구성 모델링부(150'); 및

상기 생성된 사각형상의 픽셀 위치 값, 교정된 글자 및 숫자 정보 및 매칭 결과와, 특정 기관에서 사용하는 문서 데이터의 폼을 저장하는 데이터베이스(160');를 포함하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 9 항에 있어서,

상기 폼 구성 모델링부(150')는 자연어 처리(Natural Language Processing, NLP)를 통해 탐지된 글자에 대하여 분석하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 10 항에 있어서,

상기 폼 구성 모델링부(150')는 인식된 글자와 항목 DB(300') 정보 사이를 비교하여 인식된 글자에 대한 신뢰 점수를 산출하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 11 항에 있어서,

상기 폼 구성 모델링부(150')는 숫자 객체의 사각형상 픽셀 크기에 대하여 가로, 세로 길이가 인접한 다른 사각형상 픽셀의 가로, 세로 길이와 동일하거나 또는 다른 박스의 가로, 세로 길이에 포함되면 연결되도록 하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 12 항에 있어서,

상기 폼 구성 모델링부(150')는 가장 가까운 좌측 및 상측의 사각형상 픽셀 중 적어도 하나를 연결하되, 연결된 사각형상 픽셀 내의 글자 객체를 찾을 때까지 연결하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 11 항에 있어서,

상기 폼 구성 모델링부(150')는 검색된 사각형상의 픽셀(920')이 빈 칸이면, 좌측방향에 위치한 다음 사각형상의 픽셀과 연결하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 1 항 또는 제 3 항에 있어서,

상기 문서 분석 장치(100')는 신뢰 점수에 따라 정상 인식 영역과, 틀린 영역 및 보정 영역을 포함한 오류발생 영역이 서로 다른 색상의 시각화 정보로 표시되도록 하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 1 항 또는 제 3 항에 있어서,

인식 대상 이미지를 수신하는 입력부(110");

상기 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 형식, 글자 및 숫자 객체 중 적어도 하나의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레에 사각형상을 표시하며, 표시된 사각형상의 픽셀 위치 값을 생성하는 객체 탐지 모델링부(130");

OCR 모델을 이용하여 상기 사각형상의 픽셀 내에서 인식되는 글자 및 숫자 정보를 출력하는 OCR 모델링부(140");

상기 인식된 글자를 항목 DB(300')의 글자 정보로 교정함에 따라 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하고, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 교정된 글자 및 숫자 정보를 매칭시켜 디스플레이되도록 하는 폼 구성 모델링부(150");

보정 모델을 이용하여 상기 인식된 글자 및 숫자의 신뢰 점수를 산출하고, 산출된 신뢰 점수를 기반으로 상기 디스플레이에 반영하여 시각적으로 표시되도록 하는 신뢰도 평가부(160"); 및

상기 생성된 사각형상의 픽셀 위치 값, 인식된 글자, 숫자 정보, 신뢰 정보와, 특정 기관에서 사용하는 문서 데이터의 폼을 저장하는 데이터베이스(170");를 포함하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 16 항에 있어서,

상기 인식 대상 이미지에 포함된 글자에 대하여 임의의 문서로부터 미리 설정된 글자에 대한 항목 DB(300') 정보를 생성하는 항목 DB 생성부(120");를 더 포함하고,

상기 폼 구성 모델링부(150")는 상기 탐지된 글자 객체에 대하여 항목 DB(300') 정보와 매칭시키고, 매칭 결과에 따라 인식된 글자가 교정되면, 상기 교정된 글자가 반영되도록 하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 16 항에 있어서,

상기 폼 구성 모델링부(150")는 글자 및 숫자의 사각형상 박스의 색상을 정상 인식 영역과, 틀린 영역 및 보정 영역을 포함한 오류발생 영역이 서로 다른 색상으로 표시되는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 1 항에 있어서,

상기 문서 분석 장치(100"')는 상기 생성된 글자 객체의 픽셀 위치 값을 기반으로 이미지의 좌측 영역에 글자 객체가 배치되는 좌측 헤더 영역(500"')과, 이미지의 상측 영역에 글자 객체가 배치되는 상측 헤더 영역(510"')으로 구분하되, 상기 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')을 기준으로 가상 셀 객체를 생성하여 배치하고, 상기 배치된 가상 셀 객체와 숫자 객체를 매칭시켜 행/열(row/column) 정보를 기반으로 연결하여 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보가 디스플레이되도록 하는 특징으로 하는 OCR 기반 문서 분석 시스템.
제 19 항에 있어서,

상기 문서 분석 장치(100"')는 인식 대상 이미지를 수신하는 입력부(110"');

상기 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 임의의 형식(form), 글자 및 숫자 객체 중 적어도 하나의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레에 사각형상을 표시하며, 표시된 글자 및 숫자 객체의 픽셀 위치 값을 생성하는 객체 탐지 모델링부(120"');

OCR 모델을 이용하여 상기 사각형상의 픽셀 내에서 인식되는 글자 및 숫자 정보를 출력하는 OCR 모델링부(130"');

상기 생성된 글자 객체의 픽셀 위치 값을 기반으로 이미지의 좌측 영역에 글자 객체가 배치되는 좌측 헤더 영역(500"')과, 이미지의 상측 영역에 글자 객체가 배치되는 상측 헤더 영역(510"')으로 구분하고, 상기 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')을 기준으로 M×N 크기의 가상 셀 객체를 생성하여 배치하며, 상기 배치된 가상 셀 객체와 숫자 객체를 매칭시켜 행/열 정보를 기반으로 연결하여 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보가 디스플레이되도록 하는 가상 셀 폼 구성 모델링부(140"'); 및

상기 생성된 사각형상의 픽셀 위치 값, 인식된 글자, 숫자 정보 및 매칭 결과와, 특정 기관에서 사용하는 문서 데이터의 폼을 저장하는 데이터베이스(150"');를 포함하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 19 항에 있어서,

상기 가상 셀 폼 구성 모델링부(140"')는 글자 객체의 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')을 구분하되,

상기 구분된 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')에 포함된 글자 객체 사이의 간격 및 크기를 산출하고, 상기 구분된 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')을 기준으로 가상 셀 객체를 배치하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
제 19 항에 있어서,

상기 가상 셀 폼 구성 모델링부(140"')는 좌측 상단에 배치된 가상 셀 객체와 숫자 객체를 매칭하되,

상기 매칭된 숫자 객체와 가상 셀 객체 사이의 기울기를 산출하고, 상기 산출된 기울기는 우측 하단에 배치된 가상 셀 객체와 숫자 객체의 매칭까지 반영되도록 하는 것을 특징으로 하는 OCR 기반 문서 분석 시스템.
a) 문서 분석 장치(100, 100', 100")가 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 임의의 형식, 글자 및 숫자 객체 중 적어도 하나의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레에 사각형상을 표시하여 사각형상의 픽셀 위치 값을 생성하는 단계;

b) 상기 문서 분석 장치(100, 100', 100")가 OCR 모델을 이용하여 탐지된 사각형상 픽셀 안에서 인식되는 글자 및 숫자 정보를 출력하는 단계; 및

c) 상기 문서 분석 장치(100, 100', 100")가 상기 생성된 사각형상의 픽셀 위치 값과, 상기 인식된 글자 및 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하되, 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하고, 상기 연결된 사각형상의 픽셀 위치에 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보를 매칭시켜 디스플레이되도록 하는 단계;를 포함하는 OCR 기반 문서 분석 방법.
제 23 항에 있어서,

상기 a) 단계의 객체 탐지 모델은 PSENet(Progressive Scale Expansion Network) 기반의 딥러닝 모델을 이용하여 문서 이미지를 포함한 학습 데이터로부터 형상, 글자 및 숫자 객체의 위치 탐지와, 탐지된 형상, 글자 및 숫자 객체의 둘레를 따라 사각형상의 박스와 상기 사각형상의 픽셀 위치 값 생성을 학습하는 것을 특징으로 하는 OCR 기반 문서 분석 방법.
제 23 항에 있어서,

상기 a) 단계의 객체 탐지 모델은 원본 이미지, 문서의 임의의 부분이 접혀진 이미지, 문서의 위치가 임의의 각도로 기울어진 이미지, 임의의 조도를 갖는 밝기가 조절된 이미지, 문서에 표시된 내용이 선명하지 않고 끊어진 연결선을 갖는 이미지, 문서의 임의의 부분이 굴곡진 이미지, 숫자와 연결선이 겹쳐진 이미지를 기반으로 학습 데이터를 학습하는 것을 특징으로 하는 OCR 기반 문서 분석 방법.
제 23 항에 있어서,

상기 c) 단계는 c-1) 생성된 사각형상의 픽셀 위치 값과, 상기 인식된 글자 및 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 글자 정보가 검색될 때까지 좌측 방향과 상측 방향으로 이동하는 단계;

c-2) 상기 글자 정보가 검색되면 이동중에 검색된 모든 사각형상의 픽셀들을 연결하는 단계; 및

c-3) 상기 사각형상의 픽셀 위치에는 인식된 글자와 숫자 정보를 매칭시켜 디스플레이하는 단계;를 포함하는 것을 특징으로 하는 OCR 기반 문서 분석 방법.
제 23 항에 있어서,

상기 c) 단계는 c'-1) 상기 생성된 사각형상의 픽셀 위치 값과, 상기 인식된 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하는 단계;

c'-2) 상기 이동중에 검색되는 모든 사각형상의 픽셀들을 연결하는 단계; 및

c'-3) 상기 연결된 사각형상의 배열 정보를 분석하여 미리 저장된 특정 기관 문서의 배열 정보와 비교하며, 상기 비교 결과, 특정 기관 문서의 배열 정보가 매칭되면, 상기 특정 기관 문서의 사각형상 픽셀 위치에 인식된 숫자 정보를 매칭시켜 디스플레이하는 단계;를 포함하는 것을 특징으로 하는 OCR 기반 문서 분석 방법.
제 23 항에 있어서,

상기 c) 단계는 c"-1) 생성된 사각형상의 픽셀의 중심점에 마커(520)를 표시하는 단계;

c"-2) 상기 인식된 숫자 정보를 기반으로 숫자 정보를 갖는 임의의 사각형상의 픽셀 위치를 시작 위치로 하여 좌측 방향과 상측 방향으로 이동하고, 이동중에 검색되는 모든 사각형상의 픽셀들을 연결하는 단계;

c"-3) 연결된 사각형상의 마커(520) 위치 정보를 분석하여 미리 저장된 특정 기관 문서의 배열 정보와 비교하는 단계; 및

c"-4) 상기 비교 결과, 특정 기관 문서의 배열 정보가 매칭되면, 상기 특정 기관 문서의 사각형상 픽셀 위치에 인식된 숫자 정보를 매칭시켜 디스플레이하는 단계;를 포함하는 것을 특징으로 하는 OCR 기반 문서 분석 방법.
제 23 항에 있어서,

상기 b) 단계는 문서 분석 장치(100', 100")가 상기 인식 대상 이미지에서 인식되는 글자 정보와 비교하기 위해, 임의의 문서에서 사용되는 글자(항목) 정보를 정의한 항목 DB(300')를 생성하는 단계; 및

문서 분석 장치(100', 100")가 탐지된 글자 객체에 대하여 항목 DB(300') 정보와 매칭시키고, 매칭 결과에 따라 인식된 글자를 교정하는 단계;를 더 포함하는 것을 특징으로 하는 OCR 기반 문서 분석 방법.
제 29 항에 있어서,

상기 문서 분석 탐지 장치(100')는 탐지된 글자 객체에 대하여 자연어 처리(Natural Language Processing, NLP)를 통해 글자를 분석하고,

분석된 글자와 항목 DB(300') 정보 사이의 비교를 기반으로 분석된 글자에 대한 신뢰 점수를 산출하여 인식된 글자의 교정 여부를 판단하며, 상기 인식된 글자의교정을 수행함에 따라 NLP 기반의 교정을 수행하는 것을 특징으로 하는 OCT 기반 문서 분석 방법.
제 29 항에 있어서,

문서 분석 장치(100')는 사각형상의 픽셀이 빈칸이면, 좌측방향에 위치한 다음 사각형상의 픽셀과 연결하는 것을 특징으로 하는 OCR 기반 문서 분석 방법.
제 23 항 또는 제 29 항에 있어서,

d) 상기 문서 분석 장치(100")가 보정 모델을 이용하여 상기 인식된 글자 및 숫자의 신뢰 점수를 산출하고, 산출된 신뢰 점수를 기반으로 디스플레이에 반영하여 시각적으로 표시하는 단계;를 더 포함하는 것을 특징으로 하는 OCR 기반 문서 분석 방법.
제 32 항에 있어서,

상기 d) 단계의 보정 모델은 폼, 형상, 위치 중 적어도 하나의 보정 수행에 따른 재건율과, 항목 DB(300') 정보와의 매칭 결과에 따른 교정된 글자의 반영 여부에 기반하여 신뢰 점수를 산출하는 것을 특징으로 하는 OCR 기반 문서 분석 방법.
i) 문서 분석 장치(100"')가 인식 대상 이미지를 수신하는 단계;

ii) 상기 문서 분석 장치(100"')가 수신된 인식 대상 이미지에서 객체 탐지 모델을 이용하여 임의의 형식, 글자 및 숫자 객체 중 적어도 하나의 위치를 탐지하고, 탐지된 형식, 글자 및 숫자 객체의 둘레에 사각형상을 표시하여 글자 및 숫자 객체의 픽셀 위치 값을 생성하는 단계;

iii) 상기 문서 분석 장치(100"')가 OCR 모델을 이용하여 탐지된 사각형상 픽셀 안에서 인식되는 글자 및 숫자 정보를 출력하는 단계; 및

iv) 상기 문서 분석 장치(100"')가 상기 생성된 글자 객체의 픽셀 위치 값을 기반으로 이미지의 좌측 영역에 글자 객체가 배치되는 좌측 헤더 영역(500"')과, 이미지의 상측 영역에 글자 객체가 배치되는 상측 헤더 영역(510"')으로 구분하고, 상기 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')을 기준으로 가상 셀 객체를 생성하여 배치하고, 상기 배치된 가상 셀 객체와 숫자 객체를 매칭시켜 행/열 정보를 기반으로 연결하여 상기 OCR 모델을 통해 인식된 글자 및 숫자 정보가 디스플레이되도록 최종 결과를 출력하는 단계;를 포함하는 OCR 기반 문서 분석 방법.
제 34 항에 있어서,

상기 iv) 단계의 글자 객체의 좌측 및 상측 픽셀 위치를 기준으로 배치하는 단계는 iv-1) 문서 분석 장치(100"')가 글자 객체의 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')을 구분하는 단계;

iv-2) 상기 구분된 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')에 포함된 글자 객체 사이의 간격 및 크기를 산출하는 단계; 및

iv-3) 상기 구분된 좌측 헤더 영역(500"')과 상측 헤더 영역(510"')을 기준으로 가상 셀 객체를 배치하는 단계를 포함하는 것을 특징으로 하는 OCR 기반 문서 분석 방법.
제 34 항에 있어서,

상기 iv) 단계의 배치된 가상 셀 객체와 숫자 객체를 매칭시켜 행/열 정보를 기반으로 연결하는 단계는 iv-4) 상기 문서 분석 장치(100"')가 좌측 상단에 배치된 가상 셀 객체와 숫자 객체를 매칭하여 숫자 객체와 가상 셀 객체 사이의 기울기를 산출하는 단계; 및

iv-5) 상기 문서 분석 장치(100"')가 행/열 정보에 따라 순차적으로 이동하며 상기 산출된 기울기를 우측 하단에 배치된 가상 셀 객체와 숫자 객체의 매칭까지 반영하여 연결하는 단계를 포함하는 것을 특징으로 하는 OCR 기반 문서 분석 방법.