KR20230062240A

KR20230062240A - 문서 인식 방법 및 장치

Info

Publication number: KR20230062240A
Application number: KR1020210147301A
Authority: KR
Inventors: 송성학; 김남욱; 송효섭; 조성호; 권영준
Original assignee: 삼성에스디에스 주식회사
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2023-05-09

Abstract

본 발명은 문서 인식 방법 및 장치에 관한 것으로서, 본 발명의 문서 인식 장치에서의 문서 인식 방법은, 입력 문서의 전체 이미지로부터 하나 이상의 크롭(crop)된 개별 이미지를 추출하는 단계, 상기 전체 이미지의 임베딩(embedding) 결과와 상기 크롭된 개별 이미지의 임베딩 결과를 연결(concatenation)하는 단계 및 상기 연결 결과를, 학습된 문서회전탐지 모델에 입력하여 상기 입력 문서의 회전 각도를 탐지하는 단계를 포함한다.

Description

문서 인식 방법 및 장치 {Document Recognition Method and Apparatus}

본 발명은 문서 인식 방법 및 장치에 관한 것으로서, 특히, 전자 문서 이미지의 회전을 탐지하는, 학습에 기반한 문서 인식 방법 및 장치에 관한 것이다.

종래의 OCR(Optical Character Reader) 인식 기술 중 하나는, 전자 문서 이미지의 회전을 보정하기 위해, 이미지를 바이너리화한 후 이미지 프로세싱에 의해 문서 내의 직선 선분이 기울어진 정도를 파악하여 기울어진 각도만큼 회전 보정을 수행하였다. 그러나, 이와 같은 종래 기술은 직선 선분의 회전 여부를 판단할 때 좌우로 회전된 부분이 90도 이상이 되면 좌우 중 어느 쪽으로 회전된 것인지가 정확히 파악되기 어려워 문서나 문자 인식 등에서 많은 오탐(false positive)이 발생하는 문제점이 있다.

또한, 다른 종래의 OCR 인식 기술 중 하나는, 도 1과 같이, 회전 정도(0~360도)에 따라 직선 선분 등의 전자 문서 전체 이미지의 피처에 대한 딥 러닝(Deep Learning) 학습을 통해 회전 정도를 산출하였다. 그러나, 이와 같은 종래 기술에서는 이미지 피처만을 고려하므로, 90도나 180도 등 90도 이상 회전된 문서에 대해 문서나 문자 인식 등에서 오탐이 쉽게 발생하는 문제점이 있다.

따라서, 본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은, 전자 문서(이하 문서라 함) 전체 이미지의 피처와, 추가적인 보조 파라미터로서 문서를 구성하는 개별 피처(예, 타이틀, 그림, 바코드, 테이블, 로고, 텍스트 문단 등)를 결합하여 회전 각도에 무관하게 0~360도 회전에 대하여 문서의 회전을 탐지하도록 학습시킴으로써 오탐을 개선하고 문서나 문자 인식 성공률을 높일 수 있는 문서 인식 방법 및 장치를 제공하는 데 있다.

또한, 본 발명의 다른 목적은, 문서 구조 분석을 통해 획득되는, 전체 이미지의 피처 및 특징 정보를 갖는 좌상우하(x1, y1, x2, y2)로 크롭된(crop) 이미지들의 개별 피처(예, 타이틀, 그림, 바코드, 테이블, 로고, 텍스트 문단 등)에 대해 딥 러닝 학습을 수행함으로써, 전체 이미지에 대한 피처만으로 회전 판단을 하는 것이 아니라 구조 분석 결과의 부분 이미지까지도 이미지 회전 판단에 활용하여, 유사 이미지에 대한 오탐 가능성을 낮추고 문서나 문자 인식 성공률을 더욱 높일 수 있는 문서 인식 방법 및 장치를 제공하는 데 있다.

나아가, 본 발명의 또 다른 목적은, 1차로 이미지 프로세싱을 사용하여 90도 이내의 회전 탐지가 가능하고, 90도, 180도 등의 90도 이상 큰 범위 문서 회전 탐지에 대해서는 딥 러닝 학습 모델을 사용하여 2차로 회전 탐지가 가능한 이중회전 탐지 구조를 적용하여 회전 탐지의 정확도를 더욱 높이고 문서나 문자 인식 성능을 향상시킬 수 있는 문서 인식 방법 및 장치를 제공하는 데 있다.

먼저, 본 발명의 특징을 요약하면, 상기의 목적을 달성하기 위한 본 발명의 일면에 따른 문서 인식 장치에서의 문서 인식 방법은, 입력 문서의 전체 이미지로부터 하나 이상의 크롭(crop)된 개별 이미지를 추출하는 단계; 상기 전체 이미지와 상기 하나 이상의 크롭된 개별 이미지를 함께 학습된 문서회전탐지 모델에 입력하는 단계; 및 상기 학습된 문서회전탐지 모델이 상기 입력 문서의 회전 각도를 탐지하는 단계를 포함할 수 있다.

상기 학습된 문서회전탐지 모델에 입력하는 단계는, 상기 전체 이미지와의 임베딩(embedding) 결과와 상기 크롭된 개별 이미지의 임베딩 결과를 연결(concatenation)하는 단계; 및 상기 연결 결과를 상기 학습된 문서회전탐지 모델에 입력하는 단계를 포함할 수 있다.

상기 개별 이미지를 추출하는 단계에서, 구조분석모델에 기반하여 상기 입력 문서의 전체 이미지를 분석한 결과를 기초로 하여 상기 입력 문서의 전체 이미지로부터 상기 하나 이상의 크롭(crop)된 개별 이미지를 추출할 수 있다.

상기 개별 이미지를 추출하는 단계에서, 상기 크롭된 개별 이미지는, 상기 입력 문서의 전체 이미지에 포함된 타이틀, 그림, 바코드, 테이블, 로고, 또는 텍스트 문단에 대한 부분 이미지일 수 있다.

상기 연결하는 단계는, 상기 하나 이상의 크롭(crop)된 개별 이미지를 어텐션(attention) 처리하는 단계를 포함할 수 있다.

상기 문서 인식 방법은, 상기 탐지된 회전 각도를 기초로 상기 문서에 대하여 회전 보정을 수행하는 단계; 상기 회전 보정된 상기 문서에 대하여 문자 인식을 수행하는 단계; 상기 문자 인식의 결과에 대한 인식율을 기초로 상기 회전 보정의 오류 여부를 판단하는 단계; 및 상기 회전 보정의 오류로 판단되는 경우, 상기 문서를 상기 학습된 문서회전탐지 모델의 추가 학습을 위한 학습데이터로 분류하는 단계를 더 포함할 수 있다.

상기 하나 이상의 크롭(crop)된 개별 이미지를 추출하는 단계 이전에, 이미지 프로세싱을 통해 1차적으로 상기 입력 문서의 회전 각도를 탐지하는 단계를 더 포함하는 할 수 있다.

상기 이미지 프로세싱을 통해 1차적으로 상기 입력 문서의 회전 각도를 탐지하는 단계는 미리 정해진 제1각도(예, 90도) 미만의 회전 각도 탐지에 대해 적용될 수 있다.

상기 학습된 문서회전탐지 모델은, 학습데이터인 문서 이미지를 정상 각도로부터 일정 각도만큼 회전시키고, 상기 일정 각도를 실제 값(Ground truth)으로서 레이블링(labeling)하여 학습된 모델일 수 있다.

상기 정상 각도는, 상기 문서 이미지에 대해, 복수의 회전 각도 각각에서 문자 인식을 수행하여, 상기 복수의 회전 각도 중, 정상적으로 인식된 문자의 개수가 가장 많은 각도일 수 있다.

또한, 본 발명의 다른 일면에 따른 실시예는, 하드웨어와 결합되어 위와 같은 문서 인식 방법을 수행하기 위하여 매체에 저장된 컴퓨터 프로그램을 포함할 수 있다.

그리고, 본 발명의 또 다른 일면에 따른 실시예에 따른 문서 인식 장치는, 프로세서; 및 상기 프로세서에 커플링된 메모리를 포함하는 것으로서, 상기 메모리는 상기 프로세서에 의하여 실행되도록 구성되는 하나 이상의 모듈을 포함하고, 상기 하나 이상의 모듈은, 입력 문서의 전체 이미지로부터 하나 이상의 크롭(crop)된 개별 이미지를 추출하고, 상기 전체 이미지와 상기 하나 이상의 크롭된 개별 이미지를 함께 학습된 문서회전탐지 모델에 입력하고, 상기 학습된 문서회전탐지 모델이 상기 입력 문서의 회전 각도를 탐지하는, 명령어를 포함할 수 있다.

상기 하나 이상의 모듈은, 상기 전체 이미지와 상기 하나 이상의 크롭된 개별 이미지를 함께 상기 학습된 문서회전탐지 모델에 입력할 때, 상기 전체 이미지와의 임베딩(embedding) 결과와 상기 크롭된 개별 이미지의 임베딩 결과를 연결(concatenation)하고, 상기 연결 결과를 상기 학습된 문서회전탐지 모델에 입력하는 명령어를 더 포함할 수 있다.

상기 하나 이상의 모듈은, 상기 개별 이미지를 추출할 때, 구조분석모델에 기반하여 상기 입력 문서의 전체 이미지를 분석한 결과를 기초로 하여 상기 입력 문서의 전체 이미지로부터 상기 하나 이상의 크롭(crop)된 개별 이미지를 추출하는 명령어를 더 포함할 수 있다.

상기 하나 이상의 모듈은, 상기 전체 이미지와의 임베딩(embedding) 결과와 상기 크롭된 개별 이미지의 임베딩 결과의 연결에서, 상기 하나 이상의 크롭(crop)된 개별 이미지를 어텐션(attention) 처리하는 명령어를 더 포함할 수 있다.

상기 하나 이상의 모듈은, 상기 탐지된 회전 각도를 기초로 상기 문서에 대하여 회전 보정을 수행하고, 상기 회전 보정된 상기 문서에 대하여 문자 인식을 수행하며, 상기 문자 인식의 결과에 대한 인식율을 기초로 상기 회전 보정의 오류 여부를 판단하고, 상기 회전 보정의 오류로 판단되는 경우, 상기 문서를 상기 학습된 문서회전탐지 모델의 추가 학습을 위한 학습데이터로 분류하는 명령어를 더 포함할 수 있다.

상기 하나 이상의 모듈은, 상기 하나 이상의 크롭(crop)된 개별 이미지를 추출하기 이전에, 이미지 프로세싱을 통해 1차적으로 상기 입력 문서의 회전 각도를 탐지하는 명령어를 더 포함할 수 있다.

본 발명에 따른 문서 인식 방법 및 장치에 따르면,

문서 전체 이미지의 피처와, 추가적인 보조 파라미터로서 문서를 구성하는 개별 피처(예, 타이틀, 그림, 바코드, 테이블, 로고, 텍스트 문단 등)를 결합하여 회전 각도에 무관하게 0~360도 회전에 대하여 문서의 회전을 탐지하도록 학습시킴으로써 오탐을 개선하고 문서나 문자 인식 성공률을 높일 수 있다.

또한, 본 발명에 따른 문서 인식 방법 및 장치에 따르면, 문서 구조 분석을 통해 획득되는, 전체 이미지의 피처 및 특징 정보를 갖는 좌상우하(x1, y1, x2, y2)로 크롭된(crop) 이미지들의 개별 피처(예, 타이틀, 그림, 바코드, 테이블, 로고, 텍스트 문단 등)에 대해 딥 러닝 학습을 수행함으로써, 전체 이미지에 대한 피처로 회전 판단을 하는 것이 아니라 구조 분석 결과의 부분 이미지까지도 이미지 회전 판단에 활용함으로써 유사 이미지에 대한 오탐 가능성을 낮추고 문서나 문자 인식 성공률을 더욱 높일 수 있다.

그리고, 본 발명에 따른 문서 인식 방법 및 장치에 따르면, 1차로 이미지 프로세싱을 사용하여 90도 이내의 회전 탐지가 가능하고, 90도, 180도 등의 90도 이상 큰 범위 문서 회전 탐지에 대해서는 딥 러닝 학습 모델을 사용하여 2차로 회전 탐지가 가능한 이중회전 탐지 구조를 적용하여 회전 탐지의 정확도를 더욱 높이고 문서나 문자 인식 성능을 향상시킬 수 있다.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는 첨부도면은, 본 발명에 대한 실시예를 제공하고 상세한 설명과 함께 본 발명의 기술적 사상을 설명한다.
도 1은 종래의 딥 러닝에 의한 문서 회전 인식 기술을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 문서 인식 장치를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 문서 인식 장치의 동작 설명을 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 문서 인식 시스템에서 문서 인식을 위한 학습 데이터 생성 방법을 설명하기 위한 흐름도이다.
도 5는 도 4의 후속 과정을 설명하기 위한 흐름도이다.
도 6은 본 발명의 일 실시예에 따라 운영되는 문서 인식 시스템에서 문서 이미지의 회전 보정 오류를 개선하기 위해 문서 인식 학습 결과를 적용하는 과정을 설명하기 위한 흐름도이다.
도 7은 일반적인 문서 이미지의 회전과 구성 요소들을 설명하기 위한 예시이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예들을 상세히 설명한다. 본 발명의 목적, 특정한 장점들 및 신규한 특징들은 첨부된 도면들과 연관되어지는 이하의 상세한 설명과 바람직한 실시예들로부터 더욱 명확해질 것이다.

이에 앞서 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 개념을 적절하게 정의한 것으로 본 발명의 기술적 사상에 부합되는 의미와 개념으로 해석되어야 하며, 단지 실시예들을 설명하기 위한 것일 뿐, 본 발명을 제한하는 것으로 해석되지 않아야 한다.

구성요소들에 참조 부호를 부여함에 있어, 참조 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함을 고려하여 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니며, 소프트웨어 또는 하드웨어 구성요소를 의미할 수 있다.

본 발명의 구성요소를 설명하는데 있어서, 단수 형태로 구성요소가 표현되는 경우 특별히 언급하지 않는 한 그 구성요소가 복수 형태도 포함하는 것으로 이해되어야 한다. 또한, "제1", "제2", 등의 용어는, 하나의 구성요소를 다른 구성요소와 구별하기 위해 사용되는 것으로, 구성요소가 상기 용어들에 의해 제한되는 것은 아니다. 또한, 어떤 구성요소가 다른 구성요소에 연결되는 경우, 구성요소와 다른 구성요소 사이에 또 다른 구성요소가 연결될 수도 있다는 것을 의미한다.

또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

도 2는 본 발명의 일 실시예에 따른 문서 인식 장치(100)를 설명하기 위한 도면이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 문서 인식 장치(100)는, 입력 문서 (이미지)의 전체 이미지로부터 하나 이상의 크롭(crop)된 개별 이미지를 추출하는 구조 분석부(110), 상기 전체 이미지와 상기 하나 이상의 크롭된 개별 이미지를 함께 학습된 문서회전탐지 모델에 입력하기 위하여, 예컨대, 상기 전체 이미지의 임베딩 결과와 상기 크롭된 개별 이미지의 임베딩 결과를 연결(concatenation)하는 연결부(120), 상기 연결 결과를 학습된 문서회전탐지 모델에 입력하여 상기 입력 문서의 회전 각도를 탐지하는 회전 탐지부(130)를 포함한다.

본 발명의 일 실시예에 따른 문서 인식 장치(100)는, 도 7과 같이 정방향이 아닌 임의의 각도로 틀어져 입력되는 문서(700)에 대해 회전 보정을 통해 정방향의 문서(900)로 보정되도록 문서의 회전을 탐지한다. 이에 따라 문서 인식 장치(100)를 포함하는 본 발명의 문서 인식 시스템은, 정방향(미리 정해진 좌표계 상의 기준방향)으로 보정된 문서(900)의 전체 이미지에 포함된 테이블(910), 타이틀(920), 그림(930), 텍스트 문단(940), 로고(950), 바코드(960) 등을 오탐없이 정확하게 인식할 수 있게 된다.

도 3은 본 발명의 일 실시예에 따른 문서 인식 장치(100)의 동작 설명을 위한 흐름도이다.

도 3을 참조하면, 문서(이미지)가 입력되면(S110), 구조 분석부(110)는 소정의 구조분석모델을 이용하여 입력 문서의 전체 이미지(정보)를 분석하고 상기 전체 이미지를 분석한 결과를 기초로 상기 전체 이미지로부터 하나 이상의 크롭된 개별 이미지(정보)를 추출할 수 있다(S120). 상기 전체 이미지 피처는 도 7의 예에서 해당 문서 전체에 대한 이미지 데이터(예, RGB 픽셀 데이터)일 수 있다. 상기 크롭된 이미지는 도 7의 예에서 테이블(910), 타이틀(920), 그림(930), 텍스트 문단(940), 로고(950), 바코드(960) 등의 개별적인 부분 이미지에 대한 이미지 데이터(예, RGB 픽셀 데이터)일 수 있다.

연결부(120)는, 문서의 정방향 여부 판단에 기초가 되도록, 상기 전체 이미지와 상기 하나 이상의 크롭된 개별 이미지를 함께 학습된 문서회전탐지 모델에 입력하기 위하여, 예컨대, 상기 전체 이미지에 대하여 소정의 이미지 임베딩 알고리즘을 이용하여 임베딩 처리해 벡터화하고, 크롭된 이미지에 대하여 소정의 이미지 임베딩 알고리즘을 이용하여 임베딩 처리해 벡터화할 수 있다. 이때, 연결부(120)는 상기 전체 이미지의 임베딩 결과와 상기 크롭된 이미지의 임베딩 결과를 연결(concatenation)하여 합성 벡터를 생성할 수 있다(S130). 연결부(120)는 문서 내의 테이블(910), 타이틀(920), 그림(930), 텍스트 문단(940), 로고(950), 바코드(960) 등의 하나 이상의 크롭된 이미지에 대해 가중치를 부여하기 위한 어텐션(attention) 처리를 수행할 수 있다. 어느 크롭된 이미지에 대해 어텐션(attention)을 부여할 것인가는, 사용자가 수동으로 설정할 수도 있고, 소정의 조건(예, 주기, 학습 결과 등)따라 자동으로 설정되도록 운영될 수도 있다. 즉, 문서 내의 테이블(910), 타이틀(920), 그림(930), 텍스트 문단(940), 로고(950), 바코드(960) 등의 하나 이상의 크롭된 이미지에 대해 어텐션(attention)이 부여되도록 액티브될 수 있고, 연결부(120)는 상기 합성 벡터에 해당 크롭된 이미지들 중 하나 이상에 대한 상기 크롭된 이미지의 임베딩 결과에 대한 가중치가 포함되도록 제어한다. 상기 가중치에 따라 상기 크롭된 이미지의 개별 피처에 대한 중요도가 가감된다.

회전 탐지부(130)는 연결부(120)로부터 출력된 상기 합성 벡터를, 학습된 문서회전탐지 모델에 입력하여, 상기 문서의 회전 각도를 탐지한다(S140). 학습 과정은 정답(그라운드 트루스)이 주어진다는 점 외에는 학습된 모델을 적용한 탐지 과정과 유사한데, 상기 학습된 문서회전탐지 모델은, 해당 문서의 회전 각도 탐지 이전에, 타 문서들의 전체 이미지와 하나 이상의 크롭된 개별 이미지를 함께 학습 데이터로 입력하여 이미 학습된 것이며, 예컨대, 해당 타 문서들의 전체 이미지에 대하여 소정의 이미지 임베딩 알고리즘을 이용하여 임베딩 처리해 벡터화하고, 해당 타 문서들의 크롭된 이미지에 대하여 소정의 이미지 임베딩 알고리즘을 이용하여 임베딩 처리해 벡터화하고, 전체 이미지의 임베딩 결과와 크롭된 이미지의 임베딩 결과를 연결(concatenation)하여 생성된 합성 벡터에 기초하여 학습된 것일 수 있다.

또한, 상기 학습된 문서회전탐지 모델은, 학습데이터인 문서 이미지를 정상 각도로부터 일정 각도만큼 회전시켜서, 상기 일정 각도(예, 1도, 5도, 10도...)를 실제 값(Ground truth)으로서 레이블링(labeling)한 학습 데이터를 기초로 학습된 모델일 수 있다. 상기 정상 각도는, 상기 문서 이미지에 대해, 복수의 회전 각도 각각에서 문자 인식을 수행하여, 상기 복수의 회전 각도 중, 정상적으로 인식된 문자의 개수가 가장 많은 각도, 즉, 정방향 각도(예, 화면에서 문서가 사용자에게 기울어지지 않고 올바르게 서 있는 것으로 보여지는 문서의 각도)일 수 있다.

또한, 예를 들어, 문서 인식 시스템을 통해 이미지 프로세싱을 기초로 상기 전체 이미지만을 기초로 그에 대한 0에서 90도 미만의 1차 회전 각도의 탐지를 수행할 수 있다. 이에 따라, 상기 1차 회전 각도의 탐지 결과 0에서 90도 미만의 정방향 각도가 결정될 수 있다. 상기 1차 회전 각도의 탐지 결과 0에서 90도 미만의 정방향 각도가 결정되지 않은 경우에(예, 90도 이상이라는 판단 등), 구조 분석부(110)로부터의 하나 이상의 크롭된 개별 이미지에 기초하고, 연결부(120)로부터의 임베딩 결과의 연결(concatenation) 결과에 기초하여, 위와 같이 상기 전체 이미지에 상기 크롭된 이미지들의 어텐션(attention)을 주어 합성한 상기 합성 벡터에 따라, 회전 탐지부(130)는 90도 이상 360도까지의 2차 회전 각도의 탐지를 수행하여 정방향 각도를 결정함으로써, 탐지율을 높일 수 있다.

회전 탐지부(130)는 상기와 같은 문서의 상기 전체 이미지 및 상기 크롭된 이미지들에 대하여 판단된 상기 회전 각도에 기초한 신경망을 이용한 (딥 러닝) 학습을 수행할 수 있다. 회전 탐지부(130)는 다양한 문서들에 대하여 위와 같은 학습을 수행하여, 연결부(120)로부터의 상기 합성 정보에 대해 문서의 회전별 정방향 여부를 판단해 상기 문서의 회전 각도를 탐지할 수 있다. 여기서 딥 러닝 학습을 위한 신경망으로서, CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), GAN (Generative Adversarial Network, 생성적 적대 신경망) 등이 이용될 수 있다.

도 4는 본 발명의 일 실시예에 따른 문서 인식 시스템에서 문서 인식을 위한 학습 데이터 생성 방법을 설명하기 위한 흐름도이다.

도 4를 참조하면, 본 발명의 문서 인식 장치(100)를 포함하는 문서 인식 시스템은, 문서 인식 장치(100)에 제공할 문서 인식을 위한 학습 데이터를 생성하기 위하여, 먼저, 각각의 문서(이미지)가 입력되면(S210), 학습된 문서회전탐지 모델에 기반하여 회전을 보정하여(S220) 문서의 정방향을 맞추고, 문서의 정방향에서 문서에 포함된 문자를 인식할 수 있다(S230).

이때, 상기 문서 인식 시스템은, 상기 문자 인식의 결과에 대한 인식율을 기초로 상기 회전 보정의 오류 여부를 판단한다(S240). 즉, 문자 인식률을 기초로 문서가 정방향으로 올바르게 회전되었는지 여부를 판단하는 것이다. 인식율 R은 예를 들어 [수학식1]과 같이 정의될 수 있다.

[수학식1]

R = (문서에서 정상적으로 인식된 2자 이상 단어의 개수/(문서에서 인식된 2자 이상 단어의 전체 개수)

이와 같이 정의된 인식률에 따라, 문자의 인식률, 즉, 문서에서 인식된 2자 이상 단어의 전체 개수에 대하여 정상적으로 인식된 2자 이상 단어의 개수의 비율이, 임계값(예, 70%) 이상인 경우는, 상기 문서 인식 시스템은, 위와 같은 문서의 인식과 문서 내의 문자의 인식 등(S220~S230)을 포함하는 OCR 프로세스를 정상적으로 수행한 것으로 판단한다(S250). 문서에서 인식된 2자 이상 단어의 전체 개수와 정상적으로 인식된 2자 이상 단어의 개수는, 사용자에 의해 수동으로 산출될 수도 있고, 소정의 알고리즘을 이용하여 전자적으로 자동 산출하는 것도 가능하다. 예를 들어, 회전 보정 후 인식된 2자 이상 연속된 글자의 집합이, “> 보 에 0건 -”와 같다면, 형태소 분석기나 이미 학습된 단어 분석 모델 등을 수행하는 시스템을 통해 정상적인 단어인지 여부를 판단할 수 있다. 다만, 위와 같이 정의된 인식률에 따라, 문자의 인식률 R이 임계값(예, 70%) 미만인 경우, 즉, 상기 문서 인식 시스템은, 상기 회전 보정의 오류로 판단되는 경우, 상기 문서를 상기 학습된 문서회전탐지 모델의 추가 학습을 위한 학습데이터로 분류하여, 해당 문서의 이미지 정보를 메모리 등 소정의 추가학습저장소에 수집한다(S260).

상기 문서 인식 시스템은, 상기 추가학습저장소에 저장된 하나 이상의 문서의 이미지 정보를 문서 인식 장치(100)에서의 문서 인식 학습을 위한 데이터 증강(augmentation) 정보로 생성할 수 있다. 즉, 도 3에서 상술한 바와 같이, 문서 인식 장치(100)에서의 문서 인식 학습은, 문서의 이미지 정보에 대해, 전체 이미지로부터 하나 이상의 크롭된 개별 이미지를 추출하고(S120), 상기 전체 이미지와 임베딩 결과와 상기 크롭된 개별 이미지의 임베딩 결과를 연결하며(S130), 상기 연결 결과를 학습된 문서회전탐지 모델에 입력하여 상기 문서의 회전 각도를 탐지하는 과정(S140)을 포함한다.

상기 문서 인식 시스템이 추가학습저장소에 수집한 하나 이상의 문서의 이미지 정보는, 문서 인식 장치(100)에서의 문서 인식 학습을 위한 데이터 증강(augmentation) 정보로 생성할 수 있지만, 이외에도 도 5와 같은 추가적인 판단을 수행하여 추가학습저장소에 수집한 하나 이상의 문서의 이미지 정보 중에서 선택하여 데이터 증강(augmentation) 정보로 활용할 수도 있다.

도 5는 도 4의 후속 과정을 설명하기 위한 흐름도이다.

도 5를 참조하면, 상기 문서 인식 시스템은, 상기와 같은 추가학습저장소에 저장된 각각의 문서의 이미지 정보에 대해(S310), 예를 들어, 복수의 회전 각도(예, 90, 180, 270, 360도) 각각에서 문자를 인식할 수 있다(S320).

이와 같이 시작 각도(예, 90도)에서 90도씩 순차 증가하는 4개의 각도(예, 90, 180, 270, 360도)에 대해, 해당 문서에 포함된 문자를 인식하고 회전 오류 여부를 판단할 수 있다(S330).

예를 들어, 상기 복수의 회전 각도 중, 문서 내에서 정상적으로 인식된 문자의 개수가 소정의 수 이상으로 가장 크게 나온 해당 각도를 정상 각도로 결정해, 해당 정상 각도에서의 해당 문서의 이미지 정보를 데이터 증강 정보로 선택할 수 있다(S340).

상기 문서 인식 시스템은, 이와 같이 증강 정보로 결정된 문서들의 이미지 정보가 임계 값 이상 생성된 경우 추가 학습을 수행한다(S350). 상기 문서 인식 시스템은, 증강 정보로 선택된 문서들의 이미지 정보에 대해, 도 3에서 상술한 바와 같이, 전체 이미지로부터 하나 이상의 크롭된 개별 이미지를 추출하고(S120), 상기 전체 이미지의 임베딩 결과와 상기 크롭된 개별 이미지의 임베딩 결과를 연결하며(S130), 상기 연결 결과를 학습된 문서회전탐지 모델에 입력하여 상기 입력 문서의 회전 각도를 탐지하는 과정(S140)을 기초로, 학습을 수행할 수 있다.

학습 결과에 대하여는 소정의 테스트 데이터 셋에 대하여 문서의 정방향 탐지 결과가 임계값 이상을 가지는 경우, 상기와 같은 딥 러닝 학습 모델을 가지는 문서 인식 장치(100)가 상기 문서 인식 시스템에 탑재되어, OCR 프로세스를 정상적으로 수행하도록 운영될 수 있다. 상기 테스트 데이터 셋에는 상기와 같이 데이터 증강 정보로 결정된 문서들의 이미지 정보가 포함될 수 있다.

이하 도 6을 참조하여 본 발명의 일 실시예에 따라 운영되는 문서 인식 시스템에서 입력 문서에 대해 회전 탐지 및 문자 인식을 수행하고 인식 오류에 대한 학습 데이터의 수집과 학습을 통한 시스템에의 반영 과정을 다시 한번 더 설명한다.

도 6은 본 발명의 일 실시예에 따라 운영되는 문서 인식 시스템에서 문서 이미지의 회전 보정 오류를 개선하기 위해 문서 인식 학습 결과를 적용하는 과정을 설명하기 위한 흐름도이다.

도 6을 참조하면, 본 발명의 문서 인식 장치(100)를 포함하는 문서 인식 시스템은, 각각의 문서(이미지)가 입력되면(S410), 학습된 문서회전탐지 모델을 이용하여, 각각의 입력 문서의 전체 이미지에 대한 피처(예, 문서 내의 직선 선분(990) 등 문서의 기울어진 정도를 파악하기 위한 특징 정보로서, 선분의 좌상우하(x1, y1, x2, y2) 좌표 등)를 기초로 회전을 보정하여 문서의 정방향을 찾고(S420), 문서의 정방향으로 보정된 회전 보정 이미지에서 문서에 포함된 문자를 인식할 수 있다(S430).

상기 문서 인식 시스템은, 상기 문자의 인식 결과에 대해 [수학식1]과 같은 문자의 인식율 R을 이용하여 문서가 정방향으로 올바르게 회전되었는지 여부를 판단한다(S440). 이와 같은 인식률 R에 따라, 문자의 인식률, 즉, 문서에서 인식된 2자 이상 단어의 전체 개수에 대하여 정상적으로 인식된 2자 이상 단어의 개수의 비율이, 임계값(예, 70%) 이상인 경우는, 상기 문서 인식 시스템은, 위와 같은 문서의 인식과 문서 내의 문자의 인식 등(S220~S230)을 포함하는 OCR 프로세스를 정상적으로 수행한다. 다만, 위와 같이 정의된 인식률 R에 따라, 문자의 인식률 R이 임계값(예, 70%) 미만인 경우, 상기 문서 인식 시스템은, 해당 문서의 이미지 정보를 메모리 등 소정의 추가학습저장소에 수집한다(S450). 상기 문서 인식 시스템은, 상기 추가학습저장소에 저장된 하나 이상의 문서의 이미지 정보를 문서 인식 장치(100)에서의 문서 인식 학습을 위한 데이터 증강(augmentation) 정보로 생성할 수 있다.

상기 문서 인식 시스템이 추가학습저장소에 수집한 하나 이상의 문서의 이미지 정보는, 문서 인식 장치(100)에서의 문서 인식 학습을 위한 데이터 증강(augmentation) 정보로 생성할 수 있지만, 이외에도 도 5와 같은 추가적인 판단을 수행하여 추가학습저장소에 수집한 하나 이상의 문서의 이미지 정보 중에서 선택하여 데이터 증강(augmentation) 정보로 활용할 수도 있다(S460). 상기 문서 인식 시스템은, 이와 같이 증강 정보로 결정된 문서들의 이미지 정보가 임계 값 이상 생성된 경우 추가 학습을 수행한다(S460).

학습 결과에 대하여는 소정의 테스트 데이터 셋에 대하여 문서의 정방향 탐지 결과가 임계값 이상을 가지는 경우, 상기와 같은 딥 러닝 학습 모델을 가지는 문서 인식 장치(100)가 상기 문서 인식 시스템에 탑재되어, OCR 프로세스를 정상적으로 수행하도록 운영될 수 있다(S470).

상술한 바와 같이, 본 발명에 따른 문서 인식 장치(100)를 포함하는 문서 인식 시스템은, 문서 전체 이미지의 피처 및 추가적인 보조 파라미터로서 문서를 구성하는 개별 피처(예, 타이틀, 그림, 바코드, 테이블, 로고, 텍스트 문단 등)를 결합하여 회전 각도에 무관하게 0~360도 회전에 대하여 문서의 회전을 탐지함으로써 오탐을 개선하고 문서나 문자 인식 성공률을 높일 수 있다. 또한, 문서 구조 분석을 통해 획득되는, 전체 이미지의 피처 및 특징 정보를 갖는 좌상우하(x1, y1, x2, y2)로 크롭된(crop) 이미지들의 개별 피처(예, 타이틀, 그림, 바코드, 테이블, 로고, 텍스트 문단 등)에 대해 딥 러닝 학습을 수행함으로써, 전체 이미지에 대한 피처로 회전 판단을 하는 것이 아니라 구조 분석 결과의 부분 이미지까지 모두 이미지 회전판단에 활용함으로써 유사 이미지에 대한 오탐 가능성을 낮추고 문서나 문자 인식 성공률을 더욱 높일 수 있다. 그리고, 1차로 이미지 프로세싱을 사용하여 90도 이내의 회전 탐지가 가능하고, 90도, 180도 등의 90도 이상 큰 범위 문서 회전 탐지는 딥 러닝 학습 모델을 사용하여 2차로 회전 탐지가 가능한 이중회전 탐지 구조를 적용하여 문서나 문자 인식 성능을 향상시킬 수 있다.

또한, 본 발명의 일 실시예에 따른 문서 인식 장치(100) 또는 이를 포함하는 문서인식 시스템은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 복수의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

본 발명은 전술한 실시예들 및 첨부된 도면들에 의해 한정되는 것이 아니라 다른 구체적인 형태로 구현될 수도 있다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소들을 치환, 변형 및 변경할 수 있다는 것은 명백할 것이다.

예를 들어, 상기 하드웨어와 결합되어 상기 매체에 저장된 컴퓨터 프로그램에 의하여, 본 발명의 일 실시예에 따른 문서 인식 장치(100) 또는 이를 포함하는 문서인식 시스템에서 수행되는 방법, 기능 또는 알고리즘이 수행되도록 구현될 수 있다.

또한, 예를 들어, 본 발명의 문서 인식 시스템은, 프로세서, 및 상기 프로세서에 커플링된 메모리를 포함하는 컴퓨팅 장치를 포함하도록 구현될 수 있다. 상기 메모리는 상기 프로세서에 의하여 실행되도록 명령어를 포함하여 구성되는 하나 이상의 모듈들을 포함하고, 예를 들어, 상기 프로세서는 상기 모듈들을 동작을 제어하여, 상기 명령어에 의해, 입력 문서의 전체 이미지로부터 하나 이상의 크롭(crop)된 개별 이미지를 추출하고, 상기 전체 이미지와 상기 하나 이상의 크롭된 개별 이미지를 함께 학습된 문서회전탐지 모델에 입력하고, 상기 학습된 문서회전탐지 모델이 상기 입력 문서의 회전 각도를 탐지하도록 제어할 수 있다.

110: 구조 분석부
120: 연결부
130: 회전 탐지부

Claims

문서 인식 장치에서의 문서 인식 방법에 있어서,
입력 문서의 전체 이미지로부터 하나 이상의 크롭(crop)된 개별 이미지를 추출하는 단계;
상기 전체 이미지와 상기 하나 이상의 크롭된 개별 이미지를 함께 학습된 문서회전탐지 모델에 입력하는 단계; 및
상기 학습된 문서회전탐지 모델이 상기 입력 문서의 회전 각도를 탐지하는 단계를 포함하는 문서 인식 방법.
제1항에 있어서,
상기 학습된 문서회전탐지 모델에 입력하는 단계는,
상기 전체 이미지와의 임베딩(embedding) 결과와 상기 크롭된 개별 이미지의 임베딩 결과를 연결(concatenation)하는 단계; 및
상기 연결 결과를 상기 학습된 문서회전탐지 모델에 입력하는 단계를 포함하는 문서 인식 방법.
제1항에 있어서,
상기 개별 이미지를 추출하는 단계에서,
구조분석모델에 기반하여 상기 입력 문서의 전체 이미지를 분석한 결과를 기초로 하여 상기 입력 문서의 전체 이미지로부터 상기 하나 이상의 크롭(crop)된 개별 이미지를 추출하는 것을 특징으로 하는 문서 인식 방법.
제1항에 있어서,
상기 개별 이미지를 추출하는 단계에서, 상기 크롭된 개별 이미지는, 상기 입력 문서의 전체 이미지에 포함된 타이틀, 그림, 바코드, 테이블, 로고, 또는 텍스트 문단에 대한 부분 이미지인 것을 특징으로 하는 문서 인식 방법.
제2항에 있어서,
상기 연결하는 단계는, 상기 하나 이상의 크롭(crop)된 개별 이미지를 어텐션(attention) 처리하는 단계를 포함하는 문서 인식 방법.
제1항에 있어서,
상기 탐지된 회전 각도를 기초로 상기 문서에 대하여 회전 보정을 수행하는 단계;
상기 회전 보정된 상기 문서에 대하여 문자 인식을 수행하는 단계;
상기 문자 인식의 결과에 대한 인식율을 기초로 상기 회전 보정의 오류 여부를 판단하는 단계; 및
상기 회전 보정의 오류로 판단되는 경우, 상기 문서를 상기 학습된 문서회전탐지 모델의 추가 학습을 위한 학습데이터로 분류하는 단계를 더 포함하는 문서 인식 방법.
제1항에 있어서,
상기 하나 이상의 크롭(crop)된 개별 이미지를 추출하는 단계 이전에, 이미지 프로세싱을 통해 1차적으로 상기 입력 문서의 회전 각도를 탐지하는 단계를 더 포함하는 문서 인식 방법.
제7항에 있어서,
상기 이미지 프로세싱을 통해 1차적으로 상기 입력 문서의 회전 각도를 탐지하는 단계는 미리 정해진 제1각도 미만의 회전 각도 탐지에 대해 적용되는 것인 문서 인식 방법.
제1항에 있어서,
상기 학습된 문서회전탐지 모델은,
학습데이터인 문서 이미지를 정상 각도로부터 일정 각도만큼 회전시키고, 상기 일정 각도를 실제 값(Ground truth)으로서 레이블링(labeling)하여 학습된 것임을 특징으로 하는 문서 인식 방법.
제9항에 있어서,
상기 정상 각도는, 상기 문서 이미지에 대해, 복수의 회전 각도 각각에서 문자 인식을 수행하여, 상기 복수의 회전 각도 중, 정상적으로 인식된 문자의 개수가 가장 많은 각도인, 문서 인식 방법.
하드웨어와 결합되어 제1항 내지 제10항 중 어느 한 항의 문서 인식 방법을 수행하기 위하여 매체에 저장된 컴퓨터 프로그램.
프로세서; 및
상기 프로세서에 커플링된 메모리를 포함하는 것으로서,
상기 메모리는 상기 프로세서에 의하여 실행되도록 구성되는 하나 이상의 모듈을 포함하고,
상기 하나 이상의 모듈은,
입력 문서의 전체 이미지로부터 하나 이상의 크롭(crop)된 개별 이미지를 추출하고,
상기 전체 이미지와 상기 하나 이상의 크롭된 개별 이미지를 함께 학습된 문서회전탐지 모델에 입력하고,
상기 학습된 문서회전탐지 모델이 상기 입력 문서의 회전 각도를 탐지하는,
명령어를 포함하는 문서 인식 장치.
제12항에 있어서,
상기 하나 이상의 모듈은,
상기 전체 이미지와 상기 하나 이상의 크롭된 개별 이미지를 함께 상기 학습된 문서회전탐지 모델에 입력할 때, 상기 전체 이미지와의 임베딩(embedding) 결과와 상기 크롭된 개별 이미지의 임베딩 결과를 연결(concatenation)하고, 상기 연결 결과를 상기 학습된 문서회전탐지 모델에 입력하는 명령어를 더 포함하는 문서 인식 장치.
제12항에 있어서,
상기 하나 이상의 모듈은,
상기 개별 이미지를 추출할 때, 구조분석모델에 기반하여 상기 입력 문서의 전체 이미지를 분석한 결과를 기초로 하여 상기 입력 문서의 전체 이미지로부터 상기 하나 이상의 크롭(crop)된 개별 이미지를 추출하는 명령어를 더 포함하는 문서 인식 장치.
제13항에 있어서,
상기 하나 이상의 모듈은,
상기 전체 이미지와의 임베딩(embedding) 결과와 상기 크롭된 개별 이미지의 임베딩 결과의 연결에서, 상기 하나 이상의 크롭(crop)된 개별 이미지를 어텐션(attention) 처리하는 명령어를 더 포함하는 문서 인식 장치.
제12항에 있어서,
상기 하나 이상의 모듈은,
상기 탐지된 회전 각도를 기초로 상기 문서에 대하여 회전 보정을 수행하고,
상기 회전 보정된 상기 문서에 대하여 문자 인식을 수행하며,
상기 문자 인식의 결과에 대한 인식율을 기초로 상기 회전 보정의 오류 여부를 판단하고,
상기 회전 보정의 오류로 판단되는 경우, 상기 문서를 상기 학습된 문서회전탐지 모델의 추가 학습을 위한 학습데이터로 분류하는 명령어를 더 포함하는 문서 인식 장치.
제12항에 있어서,
상기 하나 이상의 모듈은,
상기 하나 이상의 크롭(crop)된 개별 이미지를 추출하기 이전에, 이미지 프로세싱을 통해 1차적으로 상기 입력 문서의 회전 각도를 탐지하는 명령어를 더 포함하는 문서 인식 장치.