KR20230123449A

KR20230123449A - 문서 이미지의 인식 방법, 장치, 저장 매체 및 전자 기기

Info

Publication number: KR20230123449A
Application number: KR1020230020484A
Authority: KR
Inventors: 웨천 위; 청취안 장; 쿤 야오
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2022-02-16
Filing date: 2023-02-16
Publication date: 2023-08-23
Also published as: CN114519858A; CN114519858B; US20230260306A1; JP2023119593A

Abstract

본 개시는 인공지능 인식 기술 분야에 관한 것으로, 특히 딥러닝, 컴퓨터 비전 기술 분야에 관한 것이고, 이미지 처리, 광학 문자 인식(OCR) 장면에 적용될 수 있는 문서 이미지의 인식 방법, 장치, 저장 매체 및 전자 기기를 제공한다. 구체적인 실현 방안은, 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하되, 상기 문서 이미지는 적어도 하나의 텍스트 박스 및 복수의 문자를 포함하는 텍스트 정보를 포함하고; 상기 이미지 특징맵, 상기 문자 및 상기 텍스트 박스에 기반하여, 상기 인식 대상인 문서 이미지의 제1 인식 컨텐츠를 예측하여 획득하고; 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득하며; 상기 제1 인식 컨텐츠 및 상기 제2 인식 컨텐츠를 매칭하여, 타깃 인식 컨텐츠를 획득한다.

Description

문서 이미지의 인식 방법, 장치, 저장 매체 및 전자 기기{METHOD AND APPARATUS FOR RECOGNIZING DOCUMENT IMAGE, STORAGE MEDIUM AND ELECTRONIC DEVICE}

본 개시는 인공지능 인식 기술 분야에 관한 것으로, 특히 딥러닝, 컴퓨터 비전 기술 분야에 관한 것이고, 이미지 처리, 광학 문자 인식(OCR) 장면에 적용될 수 있으며, 구체적으로 문서 이미지의 인식 방법, 장치, 저장 매체 및 전자 기기에 관한 것이다.

기존 기술에서의 문서 이미지의 인식 방법은 주로 광학 문자 인식(OCR) 기술에 의해 실현되지만, 기존의 문서 이미지의 인식 방법이 광학 문자 인식 기술을 적용하여 실현될 경우, 복잡한 이미지 처리 흐름을 거쳐야 하며, 상기 인식 방법은 품질이 좋지 않은 문서 이미지 또는 잡음이 존재하는 문서 스캔 파일(즉 콘트라스트가 약하고, 명암 분포가 균일하지 않으며, 또한 배경이 흐릿한 상황이 존재하는 문서 이미지 또는 문서 스캔 파일)에 대해, 인식 정확성이 낮고, 시간이 많이 소모된다.

상기 문제에 대해, 현재 아직 효과적인 해결 방안이 제시되지 않았다.

본 개시는 문서 이미지의 인식 방법, 장치, 저장 매체 및 전자 기기를 제공한다.

본 개시의 일 측면에 따르면, 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하되, 상기 문서 이미지는 적어도 하나의 텍스트 박스 및 복수의 문자를 포함하는 텍스트 정보를 포함하는 단계; 상기 이미지 특징맵, 상기 문자 및 상기 텍스트 박스에 기반하여, 상기 인식 대상인 문서 이미지의 제1 인식 컨텐츠를 예측하여 획득하는 단계; 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득하는 단계; 상기 제1 인식 컨텐츠 및 상기 제2 인식 컨텐츠를 매칭하여, 타깃 인식 컨텐츠를 획득하는 단계; 를 포함하는 문서 이미지의 인식 방법을 제공한다.

본 개시의 다른 일 측면에 따르면, 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하되, 상기 문서 이미지는 적어도 하나의 텍스트 박스 및 복수의 문자를 포함하는 텍스트 정보를 포함하는 변환 모듈; 상기 이미지 특징맵, 상기 문자 및 상기 텍스트 박스에 기반하여, 상기 인식 대상인 문서 이미지의 제1 인식 컨텐츠를 예측하여 획득하는 제1 예측 모듈; 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득하는 제2 예측 모듈; 상기 제1 인식 컨텐츠 및 상기 제2 인식 컨텐츠를 매칭하여, 타깃 인식 컨텐츠를 획득하는 매칭 모듈; 을 포함하는 문서 이미지의 인식 장치를 제공한다.

본 개시의 다른 일 측면에 따르면, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신가능하게 연결되는 메모리; 를 포함하며, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 상술한 어느 한 항에 따른 문서 이미지의 인식 방법을 실행할 수 있도록 하는 전자 기기를 제공한다.

본 개시의 다른 일 측면에 따르면, 컴퓨터가 상술한 어느 한 항에 따른 문서 이미지의 인식 방법을 실행하도록 하기 위한 컴퓨터 명령어가 저장된 비휘발성 컴퓨터 판독가능 저장 매체를 제공한다.

본 개시의 다른 일 측면에 따르면, 프로세서에 의해 실행되면, 어느 한 항에 따른 문서 이미지의 인식 방법을 실현하는 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 제공한다.

본 개시의 다른 일 측면에 따르면, 상기 전자 기기를 포함하는 문서 이미지의 인식 제품을 제공한다.

본 개시의 실시예에서는, 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하되, 상기 문서 이미지는 적어도 하나의 텍스트 박스 및 복수의 문자를 포함하는 텍스트 정보를 포함하는 단계; 상기 이미지 특징맵, 상기 문자 및 상기 텍스트 박스에 기반하여, 상기 인식 대상인 문서 이미지의 제1 인식 컨텐츠를 예측하여 획득하는 단계; 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득하는 단계; 상기 제1 인식 컨텐츠 및 상기 제2 인식 컨텐츠를 매칭하여, 타깃 인식 컨텐츠를 획득하는 단계; 를 통해, 문서 이미지 중의 컨텐츠 정보를 정확하게 인식하는 목적을 달성함으로써, 문서 이미지의 인식 정확도 및 인식 효율을 향상시키고, 이미지 인식 알고리즘의 계산량을 감소하는 기술적 효과를 실현하므로, 관련 기술에서의 문서 이미지 인식 방법이 품질이 좋지 않은 문서 이미지에 대한 인식 정확도가 낮고 알고리즘 계산량이 큰 기술적 과제를 해결한다.

이해해야 할 것은, 본 부분에서 설명되는 내용은 본 개시의 실시예의 핵심적인 특징 또는 중요한 특징을 표시하기 위한 것이 아니며, 본 개시의 범위를 한정하기 위한 것도 아니다. 본 개시의 다른 특징은 아래의 명세서를 통해 쉽게 이해하게 될 것이다.

도면은 본 기술방안을 더 잘 이해하기 위한 것이며, 본 개시를 한정하기 위한 것은 아니다.
도 1은 본 개시의 제1 실시예에 따른 문서 이미지의 인식 방법의 흐름도이다.
도 2는 본 개시의 제1 실시예에 따른 선택적인 문서 이미지의 인식 방법의 흐름도이다.
도 3은 본 개시의 제1 실시예에 따른 다른 한가지 선택적인 문서 이미지의 인식 방법의 흐름도이다.
도 4는 본 개시의 제1 실시예에 따른 다른 한가지 선택적인 문서 이미지의 인식 방법의 흐름도이다.
도 5는 본 개시의 제1 실시예에 따른 다른 한가지 선택적인 문서 이미지의 인식 방법의 흐름도이다.
도 6은 본 개시의 제2 실시예에 따른 문서 이미지의 인식 장치의 구조의 예시도이다.
도 7은 본 개시 실시예의 문서 이미지의 인식 방법을 실현하기 위한 전자 기기의 블록도이다.

이하, 도면을 참조하여 본 개시의 예시적인 실시예에 대해 설명한다. 이해를 돕기 위해, 상기 설명에는 본 개시 실시예의 다양한 세부사항을 포함하며, 이를 단지 예시적인 것으로 간주해야 한다. 따라서, 당업자는 본 개시의 범위 및 사상을 벗어나지 않고, 여기에서 설명되는 실시예에 대해 다양한 변경 및 수정을 진행할 수 있음을 인식해야 한다. 마찬가지로, 명확하고 간명한 설명을 위해, 아래의 설명에서는 공지의 기능 및 구조에 대한 설명은 생략한다.

설명해야 할 것은, 본 개시의 명세서, 특허청구범위 및 상기 도면에서의 "제1", "제2" 등 용어는 유사한 대상을 구분하기 위해 사용하며, 반드시 특정된 순서 또는 선후순서를 설명하기 위해 사용되는 것은 아니다. 이해해야 할 것은, 여기에서 설명되는 본 개시의 실시예를 여기에서 도시되거나 설명되는 것들 이외의 순서로 용이하게 실시할 수 있도록, 상기 사용되는 용어는 적합한 상황에서 서로 교환될 수 있다. 또한, "포함", "구비" 등 용어 및 이들의 임의의 변형은, 비배타적인 포함을 커버하기 위한 것이다. 예를 들면, 일련의 단계 또는 유닛을 포함하는 과정, 방법, 시스템, 제품 및 기기는 명확하게 나열된 단계 또는 유닛에 제한될 필요 없이, 명확하게 나열되지 않은 또는 이러한 과정, 방법, 제품 및 기기의 고유한 다른 단계 또는 유닛도 포함할 수 있다.

실시예1

네트워크 정보화 및 이미지 인식 처리 기술의 지속적인 발전으로, 광학 문자 인식 기술(Optical Character Recognition, OCR)은 교육, 금융, 의료, 교통 및 보험 등 다양한 산업에서 광범위하게 주목받고 응용되고 있으며, 오피스 전자화 정도가 향상됨에 따라, 원래 종이 형식으로 저장되던 문서 자료는 점점 스캐너 등 전자화 방법을 통해 이미지 형식으로 저장되고 있다. 특정의 기록된 이미지를 조회하거나 호출할 수 있도록, 영상 및 영상 컨텐츠 데이터에 대해 인덱스를 설정해야 한다. 인데스를 설정하기 위해, 일반적으로 스캔하여 얻은 영상을 광학 문자 인식 기술(OCR)로 분류 처리한 다음, 다시 인식하여 그의 컨텐츠를 획득한다.

업계 주류의 이미지 처리 알고리즘의 문서 이미지 인식 방안은, 복잡한 이미지 처리 흐름을 통해 해결해야 하므로, 품질이 좋지 않은 문서 이미지 또는 잡음이 존재하는 스캔 파일(즉 콘트라스트가 약하고, 명암 분포가 균일하지 않으며, 또한 배경이 흐릿한 상황이 존재하는 문서 이미지 또는 문서 스캔 파일)에 대해, 인식 정확률이 낮고, 시간이 많이 소모된다.

기존의 광학 문자 인식(OCR) 기술을 사용하여 문서 이미지 인식(예를 들면, 테이블 인식)을 진행할 시, 광학 문자 인식 기술을 적용하여 문서 이미지 인식을 진행하는 구체적인 실현 과정은, 먼저 문서 이미지에 대한 이진화 처리, 이미지에 대한 경사 보정 처리 및 이미지에 대한 분할 처리 등을 진행하여 문서 이미지에서의 단일 문자를 추출한 다음, 기존의 문자 인식 툴을 호출하거나 범용의 신경망 분류기를 훈련하여 문자 인식을 진행하는 것을 포함한다.

구체적으로, 먼저 문서 이미지에 대해 이진화 처리를 진행하되, 상기 이진화 처리 방법은 주로, 전역 임계값 방법, 로컬 임계값 방법, 영역 성장 방법, 분수령 알고리즘, 최소 설명 길이 방법, 마르코프 랜덤 필드에 기반하는 방법 등등을 포함한다. 그 다음 분할 처리 후의 문서 이미지에 대해 경사 보정 처리를 진행하되, 상기 경사 보정 처리의 방법은 주로, 투영도에 기반하는 방법, 허프(Hough) 변환에 기반하는 방법, 최근접 이웃 클러스터 방법 및 벡터화 방법 등을 포함한다. 그 다음, 경사 보정 처리 후의 문서 이미지에 대해 분할 처리를 진행하고, 문서 이미지에서의 단일 문자를 추출하며, 기존의 문자 인식 툴을 호출하거나 범용의 신경망 분류기를 훈련하여 문자 인식을 진행한다.

이와 같이, 상기 방법은 복잡한 이미지 처리 흐름을 통해 실현해야 하고, 소정의 단점이 존재한다. 예를 들면, 상기 전역 임계값 방법은 이미지에서의 공간 정보를 무시하고, 단지 이미지의 그레이 스케일 정보만 고려하며, 모든 픽셀에 대해 동일한 그레이 스케일 임계값을 적용하는 것은, 휘도가 모두 균일하고 이미지 히스토그램이 명확한 쌍봉을 구비하는 이상적인 상황에만 적합하며, 이미지에 명확한 그레이 스케일 차이가 존재하지 않거나 각 물체의 그레이 스케일 값 범위가 크게 겹칠 경우, 일반적으로 만족스러운 효과를 획득할 수 없고; 상기 로컬 임계값 방법은 전역 임계값 방법에 존재하는 휘도 분포가 균일하지 않은 결함을 극복할 수 있지만, 윈도우 크기를 설정하는 문제가 존재하며, 즉 너무 작은 윈도우는 선이 쉽게 파단되고, 너무 큰 윈도는 이미지가 구비되어야 할 로컬 디테일을 쉽게 잃게 되며; 상기 투영 방법은 각 경사 각도의 투영 형태를 계산해야 하고, 경사 추정 정확도를 높게 하려고 할 경우, 이러한 방법의 계산량은 아주 크게 되며, 또한 상기 방법은 일반적으로 텍스트 문서의 경사 보정에 적용되고, 복잡한 구조를 구비하는 테이블 보정에 대해, 상기 방법의 효과는 좋지 않으며; 최근접 이웃 클러스터 방법은, 서로 인접하는 많은 구성 부분을 구비할 시, 상기 방법은 시간이 많이 소모되고, 전체적인 성능이 이상적이지 않으며; 벡터화 알고리즘은 래스터 이미지의 각 픽셀을 직접 처리해야 하므로, 저장량이 크고, 보정 결과의 좋고 나쁨, 알고리즘의 성능 및 이미지 처리의 시간, 공간 비용은 모두 벡터 프리미티브의 선택을 크게 의존하며; 상기 Hough 변환 방법은 계산량이 크고, 시간이 많이 소모되며, 직선의 시작점 및 끝점을 결정하기 어렵고, 보통 텍스트 문서에만 효과적이며, 그래프가 있는 복잡한 구조의 문서 이지미의 경우, 도면 및 테이블의 간섭으로, 만족스러운 결과를 얻을 수 없으므로, 구체적인 엔지니어링 실천에서의 응용은 제한을 받는다. 또한, 상기 방법은 품질이 좋지 않은 문서 이미지 또는 잡음이 존재하는 문서 스캔 파일(즉 콘트라스트가 약하고, 명암 분포가 균일하지 않으며, 또한 배경이 흐릿한 상황이 존재하는 문서 이미지 또는 문서 스캔 파일)에 대해, 인식 정확성이 낮고, 시간이 많이 소모된다.

상기 문제에 기반하여, 본 개시의 실시예는 문서 이미지의 인식 방법의 실시예를 제공한다. 설명해야 할 것은, 도면의 흐름도에 도시되는 단계는 컴퓨터에 의해 실행될 수 있는 한세트의 명령어와 같이 컴퓨터 시스템에서 실행될 수 있으며, 또한, 흐름도에 로직 순서가 도시되지만, 어떠한 상황에서 도시되거나 설명되는 단계는 여기와 다른 순서로 실행될 수 있다.

도 1은 본 개시의 제1 실시예에 따른 문서 이미지의 인식 방법의 흐름도이다. 도 1에 도시된 바와 같이, 상기 방법은 하기 단계 S102, S104, S106, S108을 포함한다.

단계S102에서, 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하되, 상기 문서 이미지는 적어도 하나의 텍스트 박스 및 복수의 문자를 포함하는 텍스트 정보를 포함한다.

단계S104에서, 상기 이미지 특징맵, 상기 문자 및 상기 텍스트 박스에 기반하여, 상기 인식 대상인 문서 이미지의 제1 인식 컨텐츠를 예측하여 획득한다.

단계S106에서, 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득한다.

단계S108에서, 상기 제1 인식 컨텐츠 및 상기 제2 인식 컨텐츠를 매칭하여, 타깃 인식 컨텐츠를 획득한다.

선택적으로, 합성곱 신경망 알고리즘을 통해 인식 대상인 문서 이미지를 이미지 특징맵으로 변환한다. 즉 인식 대상인 문서 이미지를 교환기 신경망 모델에 입력하여, 상기 이미지 특징맵을 획득한다. 여기서, 상기 합성곱 신경망 알고리즘은 ResNet, VGG, MobileNet 등 알고리즘을 포함할 수 있되, 이에 한정되지 않는다.

선택적으로, 상기 제1 인식 컨텐츠는 예측 방법을 통해 인식되는 상기 문서 이미지에서의 텍스트 인식 컨텐츠 및 텍스트 영역의 위치 정보를 포함할 수 있되, 이에 한정되지 않고; 상기 제2 인식 컨텐츠는 광학 문자 인식(OCR) 알고리즘을 통해 인식되는 상기 문서 이미지 중의 텍스트 인식 컨텐츠 및 텍스트 영역의 위치 정보를 포함할 수 있되, 이에 한정되지 않으며; 상기 제1 인식 컨텐츠 및 상기 제2 인식 컨텐츠를 매칭하는 것은, 상기 제1 인식 컨텐츠 및 상기 제2 인식 컨텐츠 중의 텍스트 인식 컨텐츠 및 텍스트 영역의 위치 정보를 매칭하는 것을 포함할 수 있되, 이에 한정되지 않는다.

설명해야 할 것은, 본 개시 실시예의 문서 이미지의 인식 방법은, 주로 문서 및/또는 그래프 중의 텍스트 정보를 정확하게 인식하기 위한 것이므로, 상기 문서 이미지는 적어도 하나의 텍스트 박스 및 복수의 문자를 포함하는 텍스트 정보를 포함한다.

본 개시의 실시예에서는, 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하되, 상기 문서 이미지는 적어도 하나의 텍스트 박스 및 복수의 문자를 포함하는 텍스트 정보를 포함하는 단계; 상기 이미지 특징맵, 상기 문자 및 상기 텍스트 박스에 기반하여, 상기 인식 대상인 문서 이미지의 제1 인식 컨텐츠를 예측하여 획득하는 단계; 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득하는 단계; 상기 제1 인식 컨텐츠 및 상기 제2 인식 컨텐츠를 매칭하여, 타깃 인식 컨텐츠를 획득하는 단계; 를 통해 문서 이미지 중의 컨텐츠 정보를 정확하게 인식하는 목적을 달성함으로써, 문서 이미지의 인식 정확도 및 인식 효율을 향상시키고, 이미지 인식 알고리즘의 계산량을 감소하는 기술적 효과를 실현하므로, 관련 기술에서의 문서 이미지 인식 방법이 품질이 좋지 않은 문서 이미지에 대한, 인식 정확도가 낮고, 알고리즘 계산량이 큰 기술적 과제를 해결한다.

선택적인 실시예로서, 도 2는 본 개시의 제1 실시예에 따른 선택적인 문서 이미지의 인식 방법의 흐름도이다. 도 2에 도시된 바와 같이, 상기 이미지 특징맵, 상기 문자 및 상기 텍스트 박스에 기반하여, 상기 인식 대상인 문서 이미지의 제1 인식 컨텐츠를 예측하여 획득하는 단계는, 하기 단계 S202, S204, S206, S208을 포함한다.

단계S202에서, 각 상기 텍스트 박스의 크기에 따라, 상기 이미지 특징맵을 복수의 특징 서브 맵으로 나눈다.

단계S204에서, 상기 문자에서 자연 언어 단어에 대응되는 제1 벡터를 결정하되, 서로 다른 상기 문자의 자연 언어 단어는 길이가 서로 같으며 길이가 고정된 벡터로 변환된다.

단계S206에서, 상기 텍스트 박스의 제1 좌표 정보에 대응되는 제2 벡터, 및 상기 문자의 제2 좌표 정보에 대응되는 제3 벡터를 각각 결정하되, 상기 제2 벡터와 제3 벡터는 벡터 길이가 서로 같으며 고정된 것이다.

단계S208에서, 문서 구성 복호기를 이용하여 상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터를 복호화 처리하여, 상기 제1 인식 컨텐츠를 획득한다.

선택적으로, 텍스트 박스의 위치 정보에 따라 각 상기 텍스트 박스의 크기를 결정하고, 각 상기 텍스트 박스의 크기에 따라 상기 이미지 특징맵을 복수의 특징 서브 맵으로 나누되, 각 상기 텍스트 박스는 하나의 특징 서브 맵에 대응되고, 또한 특징 서브 맵의 크기는 대응되는 텍스트 박스의 크기와 동일하다.

선택적으로, 상기 이미지 특징맵(즉 인식 대상인 문서 이미지의 전반 도면의 특징맵)을 획득한 후, 상기 이미지 특징맵을 ROI 합성곱층에 입력하여, 상기 인식 대상인 문서 이미지 중의 각 상기 텍스트 박스에 대응되는 특징 서브 맵을 획득한다. 여기서, 상기 ROI 합성곱층은 각 상기 텍스트 박스의 핵심 특징(예를 들면, 문자 특징)을 추출하여, 텍스트 박스와 동일한 크기의 특징 서브 맵을 생성하기 위한 것이다.

선택적으로, 각 문자를 워드투벡터(Word2Vec) 모델에 입력하여 상기 각 문자 내의 자연 언어 단어를 인식하고, 상기 문자에서 자연 언어 단어를 길이가 서로 같으며 길이가 고정된 벡터로 변환하여, 상기 제1 벡터를 획득함으로써, 쉽게 배치의 형식으로 상기 각 문자를 처리하여, 상기 제1 인식 컨텐츠를 획득할 수 있되, 이에 한정되지 않는다.

선택적으로, 상기 텍스트 박스의 제1 좌표 정보 및 상기 문자의 제2 좌표 정보(즉 [x1, y1, x2, y2])를 획득하고, 상기 제1 좌표 정보 및 상기 제2 좌표 정보를 Word2Vec 모델에 각각 입력하는 방식으로, 상기 제1 좌표 정보 및 상기 제2 좌표 정보를 벡터 길이가 서로 같으며 고정된 벡터(즉 상기 제2 벡터 및 상기 제3 벡터)로 각각 변환할 수 있되, 이에 한정되지 않는다.

설명해야 할 것은, 상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터는 서로 다른 복수의 모달 특징에 대응되고, 상기 문서 구성 복호기를 통해 상기 서로 다른 복수의 모달 특징을 복호화 처리하여, 상기 제1 인식 컨텐츠를 획득할 수 있어, 텍스트 정보 특징을 돌출하게 하고, 인식 대상인 문서 이미지 중의 제1 인식 컨텐츠를 더 정확하게 인식하는 목적을 달성할 수 있다.

선택적인 실시예로서, 도 3은 본 개시의 제1 실시예에 따른 다른 한가지 선택적인 문서 이미지의 인식 방법의 흐름도이다. 도 3에 도시된 바와 같이, 상기 문서 구성 복호기를 이용하여 상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터를 복호화 처리하여, 상기 제1 인식 컨텐츠를 획득하는 단계는 하기 단계 S302, S304, S306, S308을 포함한다.

단계S302에서, 상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터를 다중 모달 변환 모델에 입력하여, 상기 다중 모달 변환 모델에서 대응하여 출력되는 다중 모달 특징을 획득한다.

단계S304에서, 상기 문서 구성 복호기를 이용하여 상기 다중 모달 특징을 복호화 처리하여, 상기 인식 대상인 문서 이미지의 테이블 특징 시퀀스를 획득한다.

단계S306에서, 링크 관계 예측 알고리즘을 이용하여 상기 테이블 특징 시퀀스와 상기 텍스트 정보 중의 문자 행 사이의 링크 관계를 예측하여, 예측 링크 매트릭스를 획득한다.

단계S308에서, 상기 테이블 특징 시퀀스 및 상기 예측 링크 매트릭스에 기반하여 상기 제1 인식 컨텐츠를 결정한다.

선택적으로, 상기 다중 모달 변환 모델은 복수층의 셀프 어텐션 네트워크를 구비하는 트랜스포머(Transformer) 모델일 수 있되, 이에 한정되지 않는다. 여기서, 상기 Transformer는 어텐션 메커니즘을 이용하여 모델 훈련 속도를 향상시킬 수 있다.

선택적으로, 상기 다중 모달 변환 모델은 서로 다른 모달의 정보를 동일한 특징 공간으로 변환하고, 융합하여 다중 모달 특징을 획득하기 위한 것이다. 즉 상기 다중 모달 변환 모델을 통해 상기 서로 다른 복수의 모달 특징을 동일한 특징 공간으로 변환한 다음, 상기 서로 다른 복수의 모달 특징을 융합처리하고, 상기 서로 다른 복수의 모달 특징을 하나의 다중 모달 정보를 동시에 구비하는 특징(즉 상기 다중 모달 특징)으로 융합한다.

선택적으로, 상기 문서 구성 복호기를 이용하여 상기 다중 모달 특징을 복호화 처리하여, 상기 인식 대상인 문서 이미지의 테이블 특징 시퀀스, 예를 들면, "<thead><tr><td></td></tr></thead>" 등 시퀀스를 획득한다.

선택적으로, 상기 링크 관계 예측 알고리즘은 링킹(linking) 알고리즘일 수 있되, 이에 한정되지 않는다. 예를 들면, 도 4에 도시된 바와 같이, linking 브랜치를 통해, 테이블 특징 시퀀스 <td></td>와 상기 텍스트 정보 중의 문자 행 사이의 링크 관계를 예측하여, 예측 링크 매트릭스를 획득하며; 상기 예측 링크 매트릭스는 상기 테이블 특징 시퀀스가 상기 인식 대상인 문서 이미지에서의 위치 정보를 결정하기 위한 것이다.

설명해야 할 것은, 상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터는 서로 다른 복수의 모달 특징에 대응되고, 상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터를 다중 모달 변환 모델에 입력하여, 상기 다중 모달 변환 모델에서 대응하여 출력되는 다중 모달 특징을 획득하며; 상기 문서 구성 복호기를 이용하여 상기 다중 모달 특징을 복호화 처리하여, 상기 인식 대상인 문서 이미지의 테이블 특징 시퀀스를 획득하고; 링크 관계 예측 알고리즘을 이용하여 상기 테이블 특징 시퀀스와 상기 텍스트 정보 중의 문자 행 사이의 링크 관계를 예측하여, 예측 링크 매트릭스를 획득하며; 상기 테이블 특징 시퀀스 및 상기 예측 링크 매트릭스에 기반하여 상기 제1 인식 컨텐츠를 결정하는 방식으로, 문서 이미지 중의 텍스트 정보 특징을 돌출하게 하고, 인식 대상인 문서 이미지의 텍스트 정보 및 위치 정보를 더 정확하게 인식하는 목적을 달성할 수 있다.

선택적인 실시예로서, 도 5는 본 개시의 제1 실시예에 따른 다른 한가지 선택적인 문서 이미지의 인식 방법의 흐름도이다. 도 5에 도시된 바와 같이, 상기 문서 구성 복호기를 이용하여 상기 다중 모달 특징을 복호화 처리하여, 상기 인식 대상인 문서 이미지의 테이블 특징 시퀀스를 획득하는 단계는 하기 단계 S502, S504, S506을 포함한다.

단계S502에서, 상기 문서 구성 복호기를 이용하여 상기 다중 모달 특징을 복호화 처리하여, 상기 인식 대상인 문서 이미지 중의 각 테이블의 테이블 태그를 획득한다.

단계S504에서, 상기 테이블 태그를 상기 테이블 특징 시퀀스로 변환한다.

단계S506에서, 상기 테이블 특징 시퀀스를 출력하여 표시한다.

선택적으로, 상기 모달 변환 모델에 의해 출력되는 다중 모달 특징을 인출하여, 상기 문서 구성 복호기에 입력하고, 상기 문서 구성 복호기는 문서 이미지 중의 각 테이블의 테이블 태그, 예를 들면, "<td>"를 순서대로 출력하며, 상기 테이블 태그를 상기 테이블 특징 시퀀스로 변환하고, 최종적으로 문서 이미지 중의 각 테이블의 특징 시퀀스를 출력하여 표시한다.

선택적인 실시예에서는, 상기 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하는 단계는, 합성곱 신경망 모델을 이용하여 상기 인식 대상인 문서 이미지를 상기 이미지 특징맵으로 변환하는 단계를 포함한다.

선택적으로, 상기 합성곱 신경망 모델은 ResNet, VGG, MobileNet 등 합성곱 신경망 모델일 수 있되, 이에 한정되지 않는다.

설명해야 할 것은, 합성곱 신경망 모델을 이용하여 상기 인식 대상인 문서 이미지를 상기 이미지 특징맵으로 변환함으로써, 이미지 특징맵에 대한 인식 정확성을 향상시키는 목적을 달성할 수 있다.

선택적인 실시예에서는, 상기 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득하는 단계는, 상기 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 각 상기 텍스트 박스의 제1 정보 및 각 상기 문자의 제2 정보를 획득하는 단계를 포함한다.

선택적으로, 상기 제1 정보와 제2 정보는 모두 텍스트 정보 및 좌표 정보를 포함한다.

설명해야 할 것은, 본 개시의 실시예에서는, 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득할 시, 인식 대상인 문서 이미지 중의 텍스트 박스 및 문자의 텍스트 정보를 획득해야 할 뿐만 아니라, 동시에 상기 텍스트 정보에 대응되는 위치 정보도 획득해야 하며, 텍스트 정보와 위치 정보를 서로 결합하는 방식을 통해, 문서 이미지 중의 텍스트 정보에 대한 인식 정확성을 향상시키는 목적을 달성한다.

설명해야 할 것은, 본 실시예의 선택적이거나 바람직한 실시형태는 상기 문서 이미지의 인식 방법 실시예에서의 관련 설명을 참조할 수 있으며, 여기에서는 설명을 생략한다. 본 개시의 기술방안에서, 언급되는 사용자 개인 정보의 획득, 저장 및 응용 등은, 모두 관련 법율 법규의 규정에 부합되며, 또한 공서양속에 어긋나지 않는다.

실시예2

본 개시의 실시예에 따르면, 상기 문서 이미지의 인식 방법을 실시하기 위한 장치 실시예를 더 제공한다. 도 6은 본 개시의 제2 실시예에 따른 문서 이미지의 인식 장치의 구조의 예시도이다. 도 6에 도시된 바와 같이, 상기 문서 이미지의 인식 장치는, 변환 모듈(600), 제1 예측 모듈(602), 제2 예측 모듈(604) 및 매칭 모듈(606)을 포함한다.

상기 변환 모듈(600)은, 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하되, 상기 문서 이미지는 적어도 하나의 텍스트 박스 및 복수의 문자를 포함하는 텍스트 정보를 포함한다.

상기 제1 예측 모듈(602)은, 상기 이미지 특징맵, 상기 문자 및 상기 텍스트 박스에 기반하여, 상기 인식 대상인 문서 이미지의 제1 인식 컨텐츠를 예측하여 획득하는 것이다.

상기 제2 예측 모듈(604)은, 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득하는 것이다.

상기 매칭 모듈(606)은, 상기 제1 인식 컨텐츠 및 상기 제2 인식 컨텐츠를 매칭하여, 타깃 인식 컨텐츠를 획득하는 것이다.

본 개시의 실시예에서는, 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하되, 상기 문서 이미지는 적어도 하나의 텍스트 박스 및 복수의 문자를 포함하는 텍스트 정보를 포함하는 상기 변환 모듈(600); 상기 이미지 특징맵, 상기 문자 및 상기 텍스트 박스에 기반하여, 상기 인식 대상인 문서 이미지의 제1 인식 컨텐츠를 예측하여 획득하는 상기 제1 예측 모듈(602); 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득하는 상기 제2 예측 모듈(604); 상기 제1 인식 컨텐츠 및 상기 제2 인식 컨텐츠를 매칭하여, 타깃 인식 컨텐츠를 획득하는 상기 매칭 모듈(606); 을 통해, 문서 이미지에서의 컨텐츠 정보를 정확하게 인식하는 목적을 달성함으로써, 문서 이미지의 인식 정확도 및 인식 효율을 향상시키고, 이미지 인식 알고리즘의 계산량을 감소하는 기술적 효과를 실현하므로, 관련 기술에서의 문서 이미지 인식 방법이 품질이 좋지 않은 문서 이미지에 대한 인식 정확도가 낮고, 알고리즘 계산량이 큰 기술적 과제를 해결한다.

설명해야 할 것은, 상기 각 모듈은 소프트웨어 또는 하드웨어를 통해 실현할 수 있으며, 예를 들면, 후자의 경우, 상기 각 모듈은 동일한 프로세서에 위치할 수 있거나, 또는, 상기 각 모듈은 임의로 조합하는 방식으로 서로 다른 프로세서에 위치하는 등 방식을 통해 실현할 수 있다.

여기서 설명해야 할 것은, 상기 변환 모듈(600), 제1 예측 모듈(602), 제2 예측 모듈(604) 및 매칭 모듈(606)은 실시예1에서의 단계 S102 내지 단계 S108에 대응되고, 상기 모듈은 대응되는 단계와 실현되는 실시예 및 적용 장면이 동일하며, 상기 실시예1에 의해 개시되는 내용에 한정되지 않는다. 설명해야 할 것은, 상기 모델은 장치의 일부분으로서 컴퓨터 단말기에서 실행될 수 있다.

선택적으로, 상기 제1 예측 모듈은, 각 상기 텍스트 박스의 크기에 따라, 상기 이미지 특징맵을 복수의 특징 서브 맵으로 나누는 제1 나눔 모듈; 상기 문자에서 자연 언어 단어에 대응되는 제1 벡터를 결정하되, 서로 다른 상기 문자의 자연 언어 단어는 길이가 서로 같으며 길이가 고정된 벡터로 변환되는 제1 결정 모듈; 상기 텍스트 박스의 제1 좌표 정보에 대응되는 제2 벡터, 및 상기 문자의 제2 좌표 정보에 대응되는 제3 벡터를 각각 결정하되, 상기 제2 벡터와 제3 벡터는 벡터 길이가 서로 같으며 고정된 것인 제2 결정 모듈; 문서 구성 복호기를 이용하여 상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터를 복호화 처리하여, 상기 제1 인식 컨텐츠를 획득하는 제1 복호화 모듈; 을 더 포함한다.

선택적으로, 상기 제1 복호화 모듈은, 상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터를 다중 모달 변환 모델에 입력하여, 상기 다중 모달 변환 모델에서 대응하여 출력되는 다중 모달 특징을 획득하되, 상기 다중 모달 변환 모델은 서로 다른 모달의 정보를 동일한 특징 공간으로 변환하고, 융합하여 다중 모달 특징을 획득하기 위한 것인 입력 모듈; 상기 문서 구성 복호기를 이용하여 상기 다중 모달 특징을 복호화 처리하여, 상기 인식 대상인 문서 이미지의 테이블 특징 시퀀스를 획득하는 제2 복호화 모듈; 링크 관계 예측 알고리즘을 이용하여 상기 테이블 특징 시퀀스와 상기 텍스트 정보 중의 문자 행 사이의 링크 관계를 예측하여, 예측 링크 매트릭스를 획득하되, 상기 예측 링크 매트릭스는 상기 테이블 특징 시퀀스가 상기 인식 대상인 문서 이미지에서의 위치 정보를 결정하기 위한 것인 제1 예측 서브 모듈; 상기 테이블 특징 시퀀스 및 상기 예측 링크 매트릭스에 기반하여 상기 제1 인식 컨텐츠를 결정하는 제3 결정 모듈; 을 더 포함한다.

선택적으로, 상기 제2 복호화 모듈은, 상기 문서 구성 복호기를 이용하여 상기 다중 모달 특징을 복호화 처리하여, 상기 인식 대상인 문서 이미지 중의 각 테이블의 테이블 태그를 획득하는 제3 복호화 모듈; 상기 테이블 태그를 상기 테이블 특징 시퀀스로 변환하는 제1 변환 서브 모듈; 상기 테이블 특징 시퀀스를 출력하여 표시하는 표시 모듈; 을 더 포함한다.

선택적으로, 상기 변환 모듈은, 합성곱 신경망 모델을 이용하여 상기 인식 대상인 문서 이미지를 상기 이미지 특징맵으로 변환하는 제2 변환 서브 모듈을 더 포함한다.

선택적으로, 상기 변환 모듈은, 상기 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 각 상기 텍스트 박스의 제1 정보 및 각 상기 문자의 제2 정보를 획득하되, 상기 제1 정보와 제2 정보는 모두 텍스트 정보 및 좌표 정보를 포함하는 인식 모듈을 더 포함한다.

설명해야 할 것은, 본 실시예의 선택적이거나 바람직한 실시형태는 실시예1에서의 관련 설명을 참조할 수 있으며, 여기에서는 설명을 생략한다. 본 개시의 기술방안에서, 언급되는 사용자 개인 정보의 획득, 저장 및 응용 등은, 모두 관련 법율 법규의 규정에 부합되며, 또한 공서양속에 어긋나지 않는다.

실시예3

본 개시의 실시예에 따르면, 본 개시는 전자 기기, 판독 가능 저장 매체, 컴퓨터 프로그램 제품 및 상기 전자 기기를 포함하는 문서 이미지의 인식 제품을 더 제공한다.

도 7은 본 개시의 실시예를 실현할 수 있는 전자 기기(700)의 블록도를 예시적으로 도시하는 것이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터 등 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 프로세서, 셀룰러 전화, 스마트 폰, 웨어러블 디바이스 및 다른 유형의 컴퓨팅 장치 등 다양한 형태의 이동 장치를 의미할 수도 있다. 본 문장에 개시되는 부품, 이들의 연결과 관계 및 이들의 기능은 오직 예시일 뿐이고, 본 문장에서 설명 및/또는 요구되는 본 개시의 실현을 제한하는 것은 아니다.

도 7에 도시된 바와 같이, 전자 기기(700)에는 리드 온리 메모리(ROM, 702)에 저장된 컴퓨터 프로그램 또는 저장 유닛(708)으로부터 랜덤 액세스 메모리(RAM, 703)로 로딩되는 컴퓨터 프로그램에 근거하여 여러가지 적합한 동작과 처리를 실행할 수 있는 컴퓨팅 유닛(701)이 포함된다. RAM(703)에는, 전자 기기(700)의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장될 수 있다. 컴퓨팅 유닛(701), ROM(702) 및 RAM(703)은 버스(704)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(705)도 버스(704)에 연결된다.

전자 기기(700)에서의 복수의 부품은 I/O 인터페이스(705)에 연결되며, 상기 부품에는, 예를 들면 키보드, 마우스 등과 같은 입력 유닛(706), 예를 들면 다양한 유형의 디스플레이, 스피커 등과 같은 출력 유닛(707), 예를 들면 자기 디스크, 광 디스크 등과 같은 저장 유닛(708); 및 예를 들면 네트워크 카드, 모뎀(modem), 무선통신 송수신기 등과 같은 통신 유닛(709)이 포함된다. 통신 유닛(709)은 전자 기기(700)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 텔레콤 네트워크를 통해 기타 기기와 정보/데이터를 교환할 수 있도록 한다.

컴퓨팅 유닛(701)은 처리 능력과 컴퓨팅 능력을 가진 다양한 범용 및/또는 전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(701)의 일부 예시에는, 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 다양한 전용 인공지능(AI) 컴퓨팅 칩, 머신 러닝 모델 알고리즘을 실행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적합한 프로세서, 컨트롤러, 마이크로 컨트롤러 등이 포함되지만 이에 한정되는 것은 아니다. 컴퓨팅 유닛(701)은, 예를 들면, 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하는 방법과 같은 위에서 설명된 각 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서는, 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하는 방법은 컴퓨터 소프트웨어 프로그램으로 구현되어, 저장 유닛(708)과 같은 기계 판독가능 매체에 유형적으로 포함될 수 있다. 일부 실시예에서는, 컴퓨터 프로그램의 일부 또는 전부는 ROM(702) 및/또는 통신 유닛(709)을 거쳐 전자 기기(700)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(703)에 로딩되어 컴퓨팅 유닛(701)에 의해 실행될 경우, 위에서 설명한 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하는 방법의 하나 또는 복수의 단계를 실행할 수 있다. 선택적으로, 기타 실시예에서는, 컴퓨팅 유닛(701)은 기타 임의의 적합한 방식(예를 들면, 펌웨어를 이용함)을 통해 인식 대상인 문서 이미지를 이미지 특징맵으로 변환하는 방법을 실행하도록 구성될 수 있다.

본 문에서 상기 설명한 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 현장 프로그래밍 가능 게이트 어레이(FPGA), 전용 집적 회로(ASIC), 전용 표준 제품(ASSP), 시스템 온 칩 시스템(SOC), 복합 프로그래밍 가능 로직 디바이스(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 상기 다양한 실시형태는 다음과 같은 내용을 포함할 수 있다. 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 실행 및/또는 해석될 수 있다. 상기 프로그래밍 가능 프로세서는 전용 또는 범용 프로그래밍 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신하며, 또한 상기 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에 데이터 및 명령어를 전송할 수 있다.

본 개시의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합을 적용하여 작성할 수 있다. 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 시 흐름도 및/또는 블록도에서 규정된 기능/동작이 실시되도록, 이러한 프로그램 코드를 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 개별적인 소프트웨어 패키지(Software Package)로서 부분적으로 기계에서 실행되며, 부분적으로 원격 기계에서 실행되거나, 완전히 원격 기계 또는 서버에서 실행될 수 있다.

본 개시의 콘텍스트에서, 기계 판독가능 매체는 유형적인 매체일 수 있다. 상기 기계 판독가능 매체에는, 명령어 실행 시스템, 장치 또는 기기에 사용되거나 또는 명령어 실행 시스템, 장치 또는 기기와 결합하여 사용되도록 제공되는 프로그램이 포함되거나 저장될 수 있다. 기계 판독가능 매체는 기계 판독가능 신호 매체 또는 기계 판독가능 저장 매체일 수 있다. 기계 판독가능 매체에는, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적합한 조합이 포함될 수 있지만 이에 한정되는 것은 아니다. 기계 판독가능 저장 매체의 더 구체적인 예시에는 하나 또는 복수의 와이어에 의한 전기적인 연결, 휴대용 컴퓨터 디스크, 하드디스크, 랜덤 액세스 메모리(RAM), 리드 온리 메모리(ROM), 소거 가능 및 프로그램 가능 리드 온리 메모리(EPROM 또는 플래시 메모리), 광섬유，휴대용 콤팩트 디스크 리드 온리 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상기 내용의 임의의 적합한 조합이 포함될 수 있다.

사용자와의 인터랙션을 제공하기 위해, 여기에서 설명하는 시스템과 기술을 컴퓨터에서 실행할 수 있다. 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들면, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드, 포인팅 장치(예를 들면, 마우스 또는 트랙 볼)를 포함한다. 사용자는 상기 키보드 및 포인팅 장치를 통해 입력을 컴퓨터에 제공한다. 기타 종류의 장치는 사용자와의 인터랙션을 제공하기 위해 사용될 수도 있다. 예를 들면, 사용자에게 제공하는 피드백은 임의의 형태의 센싱 피드백(예를 들면, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있으며, 또한 사용자로부터의 입력은 임의의 형태(소리 입력, 음성 입력 또는 촉각 입력을 포함)로 수신될 수 있다.

여기에서 설명하는 시스템 및 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들면, 데이터 서버), 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들면, 애플리케이션 서버), 또는 프론트 부품을 포함하는 컴퓨팅 시스템(예를 들면, 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터, 사용자는 상기 그래픽 유저 인터페이스 또는 웹 브라우저를 통해 여기에서 설명하는 시스템 및 기술의 실시형태와 인터랙션을 진행할 수 있음), 또는 상기 백그라운드 부품, 미들웨어 부품 또는 프론트 부품의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실행할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)을 통해 시스템의 부품을 서로 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망（LAN）, 광대역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함한다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있으며, 통신망을 통해 인터랙션을 진행한다. 해당 컴퓨터에서 실행되고, 또한 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있으며, 분산 시스템의 서버, 또는 블록체인을 결합한 서버일 수도 있다.

상기의 다양한 형태의 프로세스를 이용하여, 단계를 다시 순서 배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 개시에 기재된 각 단계는 병행하여 실행할 수 있고, 순서대로 실행할 수도 있으며, 서로 다른 순서로 실행할 수도 있는데, 본 개시에 의해 개시되는 기술방안이 기대하는 결과를 실현할 수만 있다면, 이에 대해 제한하지 않는다.

상기 구체적인 실시형태는 본 개시의 보호 범위에 대해 제한하지 않는다. 당업자는 설계 요구와 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 개시의 사상 및 원칙 내에서 진행되는 수정, 균등한 교체 및 개선 등은 모두 본 개시의 보호 범위에 포함되어야 한다.

Claims

인식 대상인 문서 이미지를 이미지 특징맵으로 변환하되, 상기 문서 이미지는 적어도 하나의 텍스트 박스 및 복수의 문자를 포함하는 텍스트 정보를 포함하는 단계;
상기 이미지 특징맵, 상기 문자 및 상기 텍스트 박스에 기반하여, 상기 인식 대상인 문서 이미지의 제1 인식 컨텐츠를 예측하여 획득하는 단계;
광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득하는 단계;
상기 제1 인식 컨텐츠 및 상기 제2 인식 컨텐츠를 매칭하여, 타깃 인식 컨텐츠를 획득하는 단계; 를 포함하는, 문서 이미지의 인식 방법.
제1항에 있어서,
상기 이미지 특징맵, 상기 문자 및 상기 텍스트 박스에 기반하여, 상기 인식 대상인 문서 이미지의 제1 인식 컨텐츠를 예측하여 획득하는 상기 단계는,
각 상기 텍스트 박스의 크기에 따라, 상기 이미지 특징맵을 복수의 특징 서브 맵으로 나누는 단계;
상기 문자에서 자연 언어 단어에 대응되는 제1 벡터를 결정하되, 서로 다른 상기 문자의 자연 언어 단어는 길이가 서로 같으며 길이가 고정된 벡터로 변환되는 단계;
상기 텍스트 박스의 제1 좌표 정보에 대응되는 제2 벡터, 및 상기 문자의 제2 좌표 정보에 대응되는 제3 벡터를 각각 결정하되, 상기 제2 벡터와 제3 벡터는 벡터 길이가 서로 같으며 고정된 것인 단계;
문서 구성 복호기를 이용하여 상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터를 복호화 처리하여, 상기 제1 인식 컨텐츠를 획득하는 단계; 를 포함하는, 문서 이미지의 인식 방법.
제2항에 있어서,
문서 구성 복호기를 이용하여 상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터를 복호화 처리하여, 상기 제1 인식 컨텐츠를 획득하는 상기 단계는,
상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터를 다중 모달 변환 모델에 입력하여, 상기 다중 모달 변환 모델에서 대응하여 출력되는 다중 모달 특징을 획득하되, 상기 다중 모달 변환 모델은 서로 다른 모달의 정보를 동일한 특징 공간으로 변환하고, 융합하여 다중 모달 특징을 획득하기 위한 것인 단계;
상기 문서 구성 복호기를 이용하여 상기 다중 모달 특징을 복호화 처리하여, 상기 인식 대상인 문서 이미지의 테이블 특징 시퀀스를 획득하는 단계;
링크 관계 예측 알고리즘을 이용하여 상기 테이블 특징 시퀀스와 상기 텍스트 정보 중의 문자 행 사이의 링크 관계를 예측하여, 예측 링크 매트릭스를 획득하되, 상기 예측 링크 매트릭스는 상기 테이블 특징 시퀀스가 상기 인식 대상인 문서 이미지에서의 위치 정보를 결정하기 위한 것인 단계;
상기 테이블 특징 시퀀스 및 상기 예측 링크 매트릭스에 기반하여 상기 제1 인식 컨텐츠를 결정하는 단계; 를 포함하는, 문서 이미지의 인식 방법.
제3항에 있어서,
상기 문서 구성 복호기를 이용하여 상기 다중 모달 특징을 복호화 처리하여, 상기 인식 대상인 문서 이미지의 테이블 특징 시퀀스를 획득하는 상기 단계는,
상기 문서 구성 복호기를 이용하여 상기 다중 모달 특징을 복호화 처리하여, 상기 인식 대상인 문서 이미지 중의 각 테이블의 테이블 태그를 획득하는 단계;
상기 테이블 태그를 상기 테이블 특징 시퀀스로 변환하는 단계;
상기 테이블 특징 시퀀스를 출력하여 표시하는 단계; 를 포함하는, 문서 이미지의 인식 방법.
제1항에 있어서,
인식 대상인 문서 이미지를 이미지 특징맵으로 변환하는 상기 단계는,
합성곱 신경망 모델을 이용하여 상기 인식 대상인 문서 이미지를 상기 이미지 특징맵으로 변환하는 단계를 포함하는, 문서 이미지의 인식 방법.
제1항에 있어서,
상기 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득하는 상기 단계는,
상기 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 각 상기 텍스트 박스의 제1 정보 및 각 상기 문자의 제2 정보를 획득하되, 상기 제1 정보와 제2 정보는 모두 텍스트 정보 및 좌표 정보를 포함하는 단계를 포함하는, 문서 이미지의 인식 방법.
인식 대상인 문서 이미지를 이미지 특징맵으로 변환하되, 상기 문서 이미지는 적어도 하나의 텍스트 박스 및 복수의 문자를 포함하는 텍스트 정보를 포함하는 변환 모듈;
상기 이미지 특징맵, 상기 문자 및 상기 텍스트 박스에 기반하여, 상기 인식 대상인 문서 이미지의 제1 인식 컨텐츠를 예측하여 획득하는 제1 예측 모듈;
광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 제2 인식 컨텐츠를 획득하는 제2 예측 모듈;
상기 제1 인식 컨텐츠 및 상기 제2 인식 컨텐츠를 매칭하여, 타깃 인식 컨텐츠를 획득하는 매칭 모듈; 을 포함하는, 문서 이미지의 인식 장치.
제7항에 있어서,
상기 제1 예측 모듈은,
각 상기 텍스트 박스의 크기에 따라, 상기 이미지 특징맵을 복수의 특징 서브 맵으로 나누는 제1 나눔 모듈;
상기 문자에서 자연 언어 단어에 대응되는 제1 벡터를 결정하되, 서로 다른 상기 문자의 자연 언어 단어는 길이가 서로 같으며 길이가 고정된 벡터로 변환되는 제1 결정 모듈;
상기 텍스트 박스의 제1 좌표 정보에 대응되는 제2 벡터, 및 상기 문자의 제2 좌표 정보에 대응되는 제3 벡터를 각각 결정하되, 상기 제2 벡터와 제3 벡터는 벡터 길이가 서로 같으며 고정된 것인 제2 결정 모듈;
문서 구성 복호기를 이용하여 상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터를 복호화 처리하여, 상기 제1 인식 컨텐츠를 획득하는 제1 복호화 모듈; 을 더 포함하는, 문서 이미지의 인식 장치.
제8항에 있어서,
상기 제1 복호화 모듈은,
상기 복수의 특징 서브 맵, 상기 제1 벡터, 상기 제2 벡터, 및 상기 제3 벡터를 다중 모달 변환 모델에 입력하여, 상기 다중 모달 변환 모델에서 대응하여 출력되는 다중 모달 특징을 획득하되, 상기 다중 모달 변환 모델은 서로 다른 모달의 정보를 동일한 특징 공간으로 변환하고, 융합하여 다중 모달 특징을 획득하기 위한 것인 입력 모듈;
상기 문서 구성 복호기를 이용하여 상기 다중 모달 특징을 복호화 처리하여, 상기 인식 대상인 문서 이미지의 테이블 특징 시퀀스를 획득하는 제2 복호화 모듈;
링크 관계 예측 알고리즘을 이용하여 상기 테이블 특징 시퀀스와 상기 텍스트 정보 중의 문자 행 사이의 링크 관계를 예측하여, 예측 링크 매트릭스를 획득하되, 상기 예측 링크 매트릭스는 상기 테이블 특징 시퀀스가 상기 인식 대상인 문서 이미지에서의 위치 정보를 결정하기 위한 것인 제1 예측 서브 모듈;
상기 테이블 특징 시퀀스 및 상기 예측 링크 매트릭스에 기반하여 상기 제1 인식 컨텐츠를 결정하는 제3 결정 모듈; 을 더 포함하는, 문서 이미지의 인식 장치.
제9항에 있어서,
상기 제2 복호화 모듈은,
상기 문서 구성 복호기를 이용하여 상기 다중 모달 특징을 복호화 처리하여, 상기 인식 대상인 문서 이미지 중의 각 테이블의 테이블 태그를 획득하는 제3 복호화 모듈;
상기 테이블 태그를 상기 테이블 특징 시퀀스로 변환하는 제1 변환 서브 모듈;
상기 테이블 특징 시퀀스를 출력하여 표시하는 표시 모듈; 을 더 포함하는, 문서 이미지의 인식 장치.
제7항에 있어서,
상기 변환 모듈은,
합성곱 신경망 모델을 이용하여 상기 인식 대상인 문서 이미지를 상기 이미지 특징맵으로 변환하는 제2 변환 서브 모듈을 더 포함하는, 문서 이미지의 인식 장치.
제7항에 있어서,
상기 변환 모듈은,
상기 광학 문자 인식 알고리즘을 이용하여 상기 인식 대상인 문서 이미지를 인식하여, 각 상기 텍스트 박스의 제1 정보 및 각 상기 문자의 제2 정보를 획득하되, 상기 제1 정보와 제2 정보는 모두 텍스트 정보 및 좌표 정보를 포함하는 인식 모듈을 더 포함하는, 문서 이미지의 인식 장치.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신가능하게 연결되는 메모리; 를 포함하며,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되면, 상기 적어도 하나의 프로세서가 제1항 내지 제6항 중 어느 한 항에 따른 문서 이미지의 인식 방법을 실행할 수 있도록 하는, 전자 기기.
컴퓨터가 제1항 내지 제6항 중 어느 한 항에 따른 문서 이미지의 인식 방법을 실행하도록 하기 위한 컴퓨터 명령어가 저장된, 비휘발성 컴퓨터 판독가능 저장 매체.
프로세서에 의해 실행되면, 제1항 내지 제6항 중 어느 한 항에 따른 문서 이미지의 인식 방법을 실현하는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
제13항에 따른 전자 기기를 포함하는, 문서 이미지의 인식 제품.