KR20210128907A

KR20210128907A - 정보 추출 방법, 장치, 기기 및 저장 매체

Info

Publication number: KR20210128907A
Application number: KR1020210033307A
Authority: KR
Inventors: 푸 추; 민후이 팡; 구앙야오 한; 저칭 지앙
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-04-17
Filing date: 2021-03-15
Publication date: 2021-10-27
Also published as: US20210326628A1; EP3816855A3; US11468655B2; CN111507354A; KR102634484B1; JP2021103578A; EP3816855A2; CN111507354B; JP7273087B2

Abstract

본 출원의 실시예는 이미지 처리 기술 분야에 관한 것으로 정보 추출 방법, 장치, 기기 및 저장 매체를 개시한다. 상기 정보 추출 방법은, 대상 문서 이미지의 카테고리에 대응되는 위치 템플릿을 획득하는 단계; 대상 문서 이미지 상에서의 제1 키포인트 위치를 결정하는 단계; 제1 키포인트 위치 및 위치 템플릿 상에서의 제2 키포인트 위치에 기반하여, 변환 행렬을 생성하는 단계; 위치 템플릿 상에서의 정보 위치 및 변환 행렬에 기반하여, 대상 문서 이미지에 대응되는 정보 위치를 결정하는 단계; 및 대상 문서 이미지에 대응되는 정보 위치에 위치한 정보를 추출하여, 대상 문서 이미지에 포함된 정보를 획득하는 단계를 포함한다. 상기 실시형태는, 특정 카테고리의 문서 이미지의 위치 템플릿을 생성하여, 상기 카테고리의 문서 이미지에 대응되는 정보 위치를 결정하고, 문서 이미지에 대응되는 정보 위치에서 해당 정보를 추출함으로써, 간단하고 신속한 정보 추출을 구현한다.

Description

정보 추출 방법, 장치, 기기 및 저장 매체{A METHOD, A DEVICE, AN ELECTRONIC EQUIPMENT AND A STORAGE MEDIUM FOR EXTRACTING INFORMATION}

본 출원의 실시예는 컴퓨터 기술 분야에 관한 것으로, 구체적으로 이미지 처리 기술 분야에 관한 것이다.

AI(Artificial Intelligence, 인공 지능) 기술의 지속적인 발전과 함께, AI는 문서 이미지의 지능적 분석을 수행하는데 점점 더 많이 사용되고 있다. AI는 문서 이미지의 방향 및 왜곡 보정, 레이아웃 분석, 콘텐츠 인식 등을 수행할 수 있고, 이러한 기능은 문서 이미지에 대한 입력, 심사와 관련된 각 유형의 작업자에게 매우 큰 편이를 제공해주며, 각 유형의 서비스 프로세스의 지능화를 크게 향상시킬 수 있다.

문서 이미지로부터 정보를 추출하는 경우, 특히 다양한 폼(form)에 대한 정보 추출을 수행하는 응용 상황은 매우 보편적이다. 현재, 문서 이미지의 정보를 추출하는 주요 방식으로는, 우선 전체 문서 이미지에 대해 광학 문자 인식(optical character recognition, OCR)을 수행한 다음, 획득한 결과에 대해 구조화를 수행하여 상응한 정보를 추출하는 것이다. 테이블을 포함한 문서 이미지의 경우, 우선 테이블 범위를 재구축하여, 각각의 셀의 위치를 획득한 다음, 각각의 셀에 대해 광학 문자 인식을 수행하고, 마지막에 테이블 헤더 등 상황에 따라 구조화를 수행하여 상응한 정보를 추출한다.

본 출원의 실시예는 정보 추출 방법, 장치, 기기 및 저장 매체를 제공한다.

일 측면에 따른 정보 추출 방법은, 대상 문서 이미지의 카테고리에 대응되는 위치 템플릿을 획득하는 단계; 대상 문서 이미지 상에서의 제1 키포인트 위치를 결정하는 단계; 제1 키포인트 위치 및 위치 템플릿 상에서의 제2 키포인트 위치에 기반하여, 변환 행렬을 생성하는 단계; 위치 템플릿 상에서의 정보 위치 및 변환 행렬에 기반하여, 대상 문서 이미지에 대응되는 정보 위치를 결정하는 단계; 및 대상 문서 이미지에 대응되는 정보 위치에 위치한 정보를 추출하여, 대상 문서 이미지에 포함된 정보를 획득하는 단계를 포함한다.

다른 측면에 따른 정보 추출 장치는, 대상 문서 이미지의 카테고리에 대응되는 위치 템플릿을 획득하는 위치 템플릿 획득 모듈; 대상 문서 이미지 상에서의 제1 키포인트 위치를 결정하는 키포인트 위치 결정 모듈; 제1 키포인트 위치 및 위치 템플릿 상에서의 제2 키포인트 위치에 기반하여, 변환 행렬을 생성하는 변환 행렬 생성 모듈; 위치 템플릿 상에서의 정보 위치 및 변환 행렬에 기반하여, 대상 문서 이미지에 대응되는 정보 위치를 결정하는 키포인트 위치 결정 모듈; 및 대상 문서 이미지에 대응되는 정보 위치에 위치한 정보를 추출하여, 대상 문서 이미지에 포함된 정보를 획득하는 정보 추출 모듈을 포함한다.

또 다른 측면에 따른 전자 기기는, 적어도 하나의 프로세서; 및 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하는 전자 기기를 제공하며, 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되고, 명령어는 적어도 하나의 프로세서에 의해 실행되어, 적어도 하나의 프로세서가 상술한 방법을 수행한다.

또 다른 측면에 따른 컴퓨터 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체는, 컴퓨터 명령어에 의하여 컴퓨터가 상술한 방법을 수행하도록 한다.

또 다른 측면에 따른 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램은, 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 상술한 방법을 수행하도록 한다.

본 출원의 실시예에서 제공된 정보 추출 방법, 장치, 기기 및 저장 매체에 있어서, 우선, 대상 문서 이미지의 카테고리에 대응되는 위치 템플릿을 획득하고; 그 다음으로, 대상 문서 이미지 상 키포인트 위치를 결정하며; 그 다음, 대상 문서 이미지 상 키포인트 위치 및 위치 템플릿 상 키포인트 위치에 기반하여, 변환 행렬을 생성하고; 다음, 위치 템플릿 상 정보 위치 및 변환 행렬에 기반하여, 대상 문서 이미지에 대응되는 정보 위치를 결정하며; 마지막으로, 대상 문서 이미지에 대응되는 정보 위치에 위치한 정보를 추출하여, 대상 문서 이미지 속 정보를 획득한다. 특정 카테고리의 문서 이미지의 위치 템플릿을 생성하여, 상기 카테고리의 문서 이미지에 대응되는 정보 위치를 결정하고, 문서 이미지에 대응되는 정보 위치 부분으로부터 정보를 추출함으로써, 간단하고 신속한 정보 추출을 구현한다.

본 부분에서 설명된 내용은 본 출원의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 출원의 범위를 한정하려는 의도도 아님을 이해할 것이다. 본 출원의 다른 특징들은 아래 명세서에 의해 쉽게 이해될 것이다.

아래 첨부 도면에 도시된 비 제한적인 실시예의 상세한 설명에 대한 열독 및 참조를 통해 본 출원의 다른 특징, 목적 및 장점이 보다 명백해질 것이다. 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 출원에 대해 한정하는 것으로 구성되지 않는다.
도 1은 본 출원이 적용될 수 있는 예시적 시스템 아키텍처이다.
도 2는 본 출원에 따른 정보 추출 방법의 일 실시예의 흐름도이다.
도 3은 본 출원에 따른 정보 추출 방법의 다른 일 실시예의 흐름도이다.
도 4a는 문서 이미지의 일 개략도를 도시한다.
도 4b는 변환된 문서 이미지의 일 개략도를 도시한다.
도 5는 본 출원에 따른 정보 추출 장치의 일 실시예의 구조 개략도이다.
도 6은 본 출원의 실시예의 정보 추출 방법을 구현하기 위한 전자 기기의 블록도이다.

아래 도면과 결부시켜 본 출원의 예시적 실시예를 설명하되, 본 명세서에 이해를 돕기 위한 본 출원의 실시예의 다양한 세부사항들이 포함되어 있으나, 이들은 단지 예시적인 것으로만 이해해야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 출원의 범위 및 정신을 벗어나지 않는 전제 하에 본 명세서에서 설명된 실시예에 대해 다양한 변형 및 수정을 진행할 수 있음을 이해해야 한다. 마찬가지로, 명확하고 간략한 설명을 위해, 아래의 설명에서 공지 기능 및 구조에 대한 설명을 생략한다.

본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들 전반에 걸친 내용을 토대로 정의되어야 한다.

본 실시예들은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 일부 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 실시예들을 특정한 개시형태에 대해 한정하려는 것이 아니며, 본 실시예들의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 명세서에서 사용한 용어들은 단지 실시예들의 설명을 위해 사용된 것으로, 본 실시예들을 한정하려는 의도가 아니다.

본 실시예들에 사용되는 용어들은 다르게 정의되지 않는 한, 본 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 실시예들에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.

한편, 본 명세서에서 하나의 도면 내에서 개별적으로 설명되는 기술적 특징은 개별적으로 구현될 수도 있고, 동시에 구현될 수도 있다.

본 명세서에서, "~모듈(module)"은 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.

모순되지 않는 한, 본 출원의 실시예 및 실시예의 특징은 서로 조합될 수 있음을 유의해야 한다. 아래 첨부 도면을 참조하고 실시예를 참조하여 본 출원을 상세히 설명하기로 한다.

도 1은 본 출원이 적용될 수 있는 예시적 시스템 아키텍처이다.

도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말 기기(101), 네트워크(102) 및 서버(103)를 포함할 수 있다. 네트워크(102)는 단말 기기(101)와 서버(103) 사이에서 통신 링크로서 매체 역할을 한다. 네트워크(102)는 다양한 연결 유형을 포함할 수 있는 바, 예를 들어 유선, 무선 통신 링크 또는 광섬유 케이블 등이 있다.

사용자는 단말 기기(101)를 사용하여 네트워크(102)를 통해 서버(103)와 인터랙션함으로써 메시지 등을 수신 또는 발송할 수 있다. 단말 기기(101)에는 다양한 클라이언트 애플리케이션이 설치될 수 있는 바, 예를 들어 문서 지능형 처리 애플리케이션, 이미지 처리 애플리케이션 등이 있다.

단말 기기(101)는 하드웨어일 수도 있고 소프트웨어일 수도 있다. 단말 기기(101)가 하드웨어인 경우, 다양한 전자 기기일 수 있으며, 스마트폰, 태블릿 PC, 휴대형 랩톱 컴퓨터 및 데스크톱 컴퓨터 등을 포함하나 이에 한정되는 것은 아니다. 단말 기기(101)가 소프트웨인 경우, 다양한 전자 기기에 설치될 수 있다. 단말 기기(101)가 소프트웨어인 경우, 복수의 소프트웨어 또는 소프트웨어 모듈로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있다. 본 명세서에서는 구체적으로 한정하지 않는다.

서버(103)는 다양한 서비스를 제공할 수 있다. 예를 들어, 서버(103)는 단말 기기(101)로부터 획득한 대상 문서 이미지 등 데이터에 대해 분석 등 처리를 진행하고, 처리 결과(예를 들어 대상 문서 이미지 속 정보)를 생성한다.

서버(103)는 하드웨어 또는 소프트웨어일 수 있다. 서버(103)가 하드웨어인 경우, 복수의 서버로 구성된 분산형 서버 클러스터로 구현될 수도 있고, 하나의 서버로 구현될 수도 있다. 서버(103)가 소프트웨어인 경우, 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들어 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있다. 본 명세서에서는 구체적으로 한정하지 않는다.

본 출원의 실시예에서 제공된 정보 추출 방법은 일반적으로 서버(103)에 의해 수행되고, 따라서, 정보 추출 장치는 일반적으로 서버(103)에 설치될 수 있다.

도 1 중의 단말 기기(101), 네트워크(102) 및 서버(103)의 개수는 예시적인 것일 뿐이다. 실제 필요에 따라, 시스템 아키텍쳐(100)는 임의의 개수의 단말 기기(101), 네트워크(102) 및 서버(103)를 구비할 수 있다. 서버(103)에 대상 문서 이미지가 저장된 경우, 시스템 아키텍처(100)는 단말 기기(101) 및 네트워크(102)를 설치하지 않을 수도 있다.

도 2는 본 출원에 따른 정보 추출 방법의 일 실시예의 흐름도이다.

상기 정보 추출 방법은 하기와 같은 단계를 포함한다.

단계 201에서, 대상 문서 이미지의 카테고리에 대응되는 위치 템플릿을 획득한다.

본 실시예에서, 정보 추출 방법의 수행 주체(예를 들어, 도 1에 도시된 서버(103))는 우선 대상 문서 이미지의 카테고리를 결정할 수 있고; 다음 대상 문서 이미지의 카테고리에 기반하여 대응되는 위치 템플릿을 획득한다. 본 명세서에서, 대상 문서 이미지는 정보 추출이 필요한 문서 이미지이다. 일부 실시예에서, 상기 수행 주체 로컬에 대상 문서 이미지가 저장되면, 상기 수행 주체는 로컬로부터 대상 문서 이미지를 직접 획득할 수 있다. 일부 실시예에서, 단말 기기(예를 들어, 도 1에 도시된 단말 기기(101))에 대상 문서 이미지가 저장되면, 사용자는 단말 기기를 사용하여 대상 문서 이미지를 상기 수행 주체에 발송할 수 있다.

일반적으로, 동일한 카테고리의 문서 이미지는 동일한 위치 템플릿에 대응된다. 동일한 카테고리의 문서 이미지는 동일한 레이아웃을 구비할 수 있고, 동일한 카테고리의 상이한 문서 이미지는 상이한 정보 콘텐츠를 구비할 수 있다. 이밖에, 동일한 카테고리의 상이한 문서 이미지는 상이한 방향, 경사 등을 구비할 수 있다. 예를 들어, 동일한 은행의 동일한 버전의 예금 이자 리스트의 이미지는 동일한 카테고리에 속한다. 상이한 은행의 예금 이자 리스트 또는 동일한 은행의 상이한 버전의 예금 이자 리스트의 이미지는 상이한 카테고리에 속한다. 문서 이미지에는 다양한 카테고리의 정보가 존재하는 바, 예를 들어, 은행의 동일한 버전의 예금 이자 리스트에는 성명, 계좌/카드 번호, 실제 원금 이자, 원금, 이자, 세율, 과세이자, 원천과세, 세후 이자와 같은 다양한 카테고리의 정보가 존재할 수 있다.

본 명세서에서, 카테고리의 문서 이미지에 대응되는 위치 템플릿에 상기 카테고리의 표준 문서 이미지 상 키포인트 위치, 이의 다양한 카테고리의 정보 위치가 설치될 수 있다. 동일한 카테고리의 문서 이미지는 하나의 표준 문서 이미지에 대응된다. 표준 문서 이미지는 고정 사이즈, 고정 방향, 고정 경사도(일반적으로 경사가 없음) 등의 문서 이미지이다.

문서 이미지의 키포인트는 상기 문서 이미지의 모든 정보를 포함하는 프레임의 포인트일 수 있다. 일반적으로, 문서 이미지의 키포인트는 반드시 프레임의 4개의 꼭짓점을 포함하고, 이밖에, 문서 이미지의 키포인트는 프레임의 다른 포인트도 포함할 수 있다. 따라서, 문서 이미지는 적어도 4개의 키포인트를 포함한다. 예를 들어, 프레임이 있는 카테고리의 문서 이미지의 경우, 그의 키포인트는 프레임의 4개의 꼭짓점을 포함할 수 있다. 도트 프린트 카테고리의 문서 이미지의 경우, 이의 키포인트는 도트 프린트 시 4개의 마크 포인트를 포함할 수 있다.

문서 이미지 상 정보 위치는 상기 정보가 포함된 프레임의 대각점일 수 있고, 예를 들어, 상기 정보가 포함된 프레임의 좌측 상단 꼭짓점 및 우측 하단 꼭짓점일 수 있다.

테이블을 포함한 문서 이미지를 예로, 테이블의 4개의 꼭짓점은 상기 문서 이미지 상 키포인트 위치일 수 있고, 셀의 좌측 상단 꼭짓점 및 우측 하단 꼭짓점은 상기 문서 이미지 상 정보 위치일 수 있다.

본 명세서에서, 다양한 카테고리의 문서 이미지에 대응되는 위치 템플릿은 미리 생성될 수 있다. 대상 문서 이미지에 대응되는 위치 템플릿을 예로, 이의 생성 단계는 하기와 같다.

우선, 대상 문서 이미지의 카테고리와 동일한 표준 문서 이미지, 및 표준 문서 이미지 상 키포인트 위치 및 정보 위치를 획득한다.

다음, 표준 문서 이미지 상 키포인트 위치 및 정보 위치에 기반하여 표준 문서 이미지를 라벨링하여, 위치 템플릿을 생성한다.

단계 202에서, 대상 문서 이미지 상에서의 제1 키포인트 위치를 결정한다.

본 실시예에서, 상기 수행 주체는 제1 키포인트 위치를 결정할 수 있다. 본 명세서에서, 키포인트 위치는 키포인트의 좌표일 수 있다.

일반적으로, 상기 수행 주체는 기존 또는 딥러닝 키포인트 감지 기술에 기반하여, 제1 키포인트 위치를 결정할 수 있다. 본 명세서에서, 기존의 키포인트 감지 기술은 프레임을 가진 카테고리의 문서 이미지에 대해 키포인트 감지를 수행하는데 사용될 수 있다. 구체적으로, 상기 수행 주체는 우선 문서 이미지 중 프레임의 윤곽점을 감지한 다음, 일정한 전략에 기반하여 윤곽점으로부터 키포인트를 결정한다. 예를 들어, 윤곽점에 외접원을 추가하면, 외접원에 있는 윤곽점이 키포인트이다. 딥러닝 기반의 키포인트 감지 기술은 임의의 카테고리의 문서 이미지에 대해 키포인트 감지를 수행하는데 적용될 수 있다. 예를 들어, 다층 콘볼루션 신경망을 사용하여 문서 이미지의 키포인트를 감지할 수 있다. 다층 콘볼루션 신경망은 완전 연결 계층을 포함하거나 포함하지 않을 수 있다. 완전 연결 계층을 포함한 경우, 출력은 키포인트의 좌표일 수 있다. 완전 연결 계층을 포함하지 않은 경우, 출력은 히트맵(heat map)일 수 있다. 히트맵의 각각의 포인트의 히트 값은 각각의 포인트가 키포인트일 확률을 나타낼 수 있으며, 히트 값이 클수록, 대응되는 포인트가 키포인트일 확률이 더 크다.

단계 203에서, 제1 키포인트 위치 및 위치 템플릿 상에서의 제2 키포인트 위치에 기반하여, 변환 행렬을 생성한다.

본 실시예에서, 상기 수행 주체는 제1 키포인트 위치 및 제2 키포인트 위치에 기반하여, 변환 행렬을 생성할 수 있다.

일반적으로, 변환 행렬은 대상 문서 이미지와 위치 템플릿 사이의 매핑을 구현할 수 있는 행렬일 수 있고, 이는 대상 문서 이미지의 포인트와 위치 템플릿의 포인트 사이의 매핑 관계를 저장한다. 본 명세서에서, 변환 행렬은 제1 변환 행렬 또는 제2 변환 행렬일 수 있다. 제1 변환 행렬은 대상 문서 이미지로부터 위치 템플릿에 매핑되는 행렬일 수 있고, 대상 문서 이미지의 포인트부터 위치 템플릿의 포인트로의 매핑 관계를 저장한다. 제1 키포인트 위치 및 제2 키포인트 위치에 기반하여, 대상 문서 이미지로부터 위치 템플릿으로의 매핑 관계를 결정함으로써, 제1 변환 행렬을 생성한다. 제2 변환 행렬은 위치 템플릿으로부터 대상 문서 이미지에 매핑되는 행렬일 수 있고, 위치 템플릿의 포인트에서부터 대상 문서 이미지의 포인트로의 매핑 관계를 저장한다. 제2 키포인트 위치 및 제1 키포인트 위치에 기반하여, 위치 템플릿으로부터 대상 문서 이미지로의 매핑 관계를 결정함으로써, 제2 변환 행렬을 생성한다.

단계 204에서, 위치 템플릿 상에서의 정보 위치 및 변환 행렬에 기반하여, 대상 문서 이미지에 대응되는 정보 위치를 결정한다.

본 실시예에서, 상기 수행 주체는 위치 템플릿 상에서의 정보 위치 및 변환 행렬에 기반하여, 대상 문서 이미지에 대응되는 정보 위치를 결정할 수 있다.

일부 실시예에서, 변환 행렬이 제1 변환 행렬이면, 상기 수행 주체는 우선 제1 변환 행렬에 기반하여 대상 문서 이미지를 변환하여, 변환된 문서 이미지를 획득하고; 다음 위치 템플릿 상 정보 위치를 변환된 문서 이미지 상 정보 위치로 사용한다. 제1 변환 행렬이 대상 문서 이미지로부터 위치 템플릿에 매핑되는 행렬이므로, 제1 변환 행렬에 기반하여 대상 문서 이미지를 변환하여, 대상 문서 이미지를 변환된 문서 이미지로 표준화할 수 있다. 변환된 문서 이미지의 사이즈, 방향, 경사 등이 위치 템플릿과 일치하도록 표준화되므로, 변환된 문서 이미지 상에서의 정보 위치와 위치 템플릿 상에서의 정보 위치는 일치한다.

일부 실시예에서, 변환 행렬이 제2 변환 행렬이면, 상기 수행 주체는 제2 변환 행렬에 기반하여 위치 템플릿 상 정보 위치를 변환하여, 대상 문서 이미지 상 정보 위치를 획득할 수 있다. 제2 변환 행렬이 위치 템플릿으로부터 대상 문서 이미지에 매핑되는 행렬이므로, 제2 변환 행렬에 기반하여 위치 템플릿 상에서의 정보 위치를 변환하여, 위치 템플릿 상에서의 정보 위치를 대상 문서 이미지 상에서의 정보 위치로 변환할 수 있다.

단계 205에서, 대상 문서 이미지에 대응되는 정보 위치에 위치한 정보를 추출하여, 대상 문서 이미지에 포함된 정보를 획득한다.

본 실시예에서, 상기 수행 주체는 대상 문서 이미지에 대응되는 정보 위치에 위치한 정보를 추출하여, 대상 문서 이미지에 포함된 정보를 획득할 수 있다. 예를 들어, 대상 문서 이미지에 대응되는 정보 위치 부분에 대해 광학 문자 인식을 수행할 경우, 이의 인식 결과는 즉 대상 문서 이미지에서의 정보가 된다.

본 출원의 실시예에서 제공된 정보 추출 방법에 있어서, 우선, 대상 문서 이미지의 카테고리에 대응되는 위치 템플릿을 획득하고; 그 다음으로, 제1 키포인트 위치를 결정하며; 다음, 제1 키포인트 위치 및 제2 키포인트 위치에 기반하여, 변환 행렬을 생성하고; 다음, 위치 템플릿 상에서의 정보 위치 및 변환 행렬에 기반하여, 대상 문서 이미지에 대응되는 정보 위치를 결정하며; 마지막으로에, 대상 문서 이미지에 대응되는 정보 위치에 위치한 정보를 추출하여, 대상 문서 이미지에 포함된 정보를 획득한다. 특정 카테고리의 문서 이미지의 위치 템플릿을 생성하여, 상기 카테고리의 문서 이미지에 대응되는 정보 위치를 결정하고, 문서 이미지에 대응되는 정보 위치 부분으로부터 정보를 추출함으로써, 간단하고 신속한 정보 추출을 구현한다. 종래의 기술에서 구조화 효과가 바람직하지 않는 기술적 문제를 해결하고, 종래의 기술에서 구조화 효과가 특히 떨어지는 손글씨 사이즈가 크고, 도트 프린트 콘텐츠가 오프셋하는 등 문제를 포함하는 상황에 적용될 수 있다.

또한, 본 출원의 실시예에서 제공하는 정보 추출 방법은 다양한 문서 지능형 처리 플랫폼에 통합되어, 플랫폼 기능의 확장으로 사용될 수 있으며, 플랫폼이 관련 문서 이미지의 정보를 추출하는 등 작업에서 보다 양호한 효과를 획득하는데 도움이 된다.

도 3은 본 출원에 따른 정보 추출 방법의 다른 일 실시예의 흐름도이다.

상기 정보 추출 방법은 하기와 같은 단계를 포함한다.

단계 301에서, 대상 문서 이미지의 카테고리에 대응되는 위치 템플릿을 획득한다.

본 실시예에서, 단계 301의 구체적인 동작은 도 2에 도시된 실시예의 단계 201에서 이미 상세하게 소개하였으므로, 본 명세서에서 더이상 설명하지 않는다.

단계 302에서, 대상 문서 이미지의 카테고리에 대응되는 키포인트 감지 모델을 획득한다.

본 실시예에서, 정보 추출 방법의 수행 주체(예를 들어, 도 1에 도시된 서버(103))는 대상 문서 이미지의 카테고리에 대응되는 키포인트 감지 모델을 획득할 수 있다.

일반적으로, 동일한 카테고리의 문서 이미지는 동일한 키포인트 감지 모델에 대응된다. 키포인트 감지 모델은 해당 카테고리의 문서 이미지 상 키포인트 위치를 감지할 수 있다. 키포인트 감지 모델은 딥러닝 트레이닝을 통해 획득될 수 있는 딥러닝 기반의 키포인트 감지 기술이다.

대상 문서 이미지의 카테고리에 대응되는 키포인트 감지 모델을 예로, 이의 트레이닝 단계는 하기와 같다.

우선, 대상 문서 이미지의 카테고리와 동일한 문서 이미지 집합, 및 문서 이미지 집합 중 문서 이미지 상에서의 제3 키포인트 위치를 획득한다.

본 명세서에서, 문서 이미지 집합는 대상 문서 이미지의 카테고리와 동일한 대량의 문서 이미지를 포함할 수 있다.

다음, 제3 키포인트 위치에 기반하여 해당 문서 이미지를 라벨링함으로써, 샘플 문서 이미지 집합을 생성한다.

마지막으로, 샘플 문서 이미지 집합으로 트레이닝하여 키포인트 감지 모델을 획득한다.

일반적으로, 샘플 문서 이미지 집합 중 샘플 문서 이미지를 입력으로 사용하고, 입력된 샘플 문서 이미지에 라벨링된 키포인트 위치를 출력으로 사용하여, 다층 콘볼루션 신경망에 대해 트레이닝함으로써, 키포인트 감지 모델을 획득할 수 있다.

단계 303에서, 대상 문서 이미지를 키포인트 감지 모델에 입력하여, 제1 키포인트 위치를 획득한다.

본 실시예에서, 상기 수행 주체는 대상 문서 이미지를 키포인트 감지 모델에 입력하여, 제1 키포인트 위치를 획득할 수 있다.

일반적으로, 키포인트 감지 모델은 임의의 카테고리의 문서 이미지가 키포인트 감지를 수행하는데 적용될 수 있다. 키포인트 감지 모델은 완전 연결 계층을 포함하거나 포함하지 않을 수 있다. 완전 연결 계층을 포함한 경우, 출력은 키포인트의 좌표일 수 있다. 완전 연결 계층을 포함하지 않은 경우, 출력은 히트맵일 수 있다. 히트맵의 각각의 포인트의 히트 값은 각각의 포인트가 키포인트일 확률을 나타낼 수 있으며, 히트 값이 클수록, 대응되는 포인트가 키포인트일 확률이 더 크다.

단계 304에서, 제1 키포인트 위치에서부터 제2 키포인트 위치로의 제1 변환 행렬을 생성한다.

본 실시예에서, 상기 수행 주체는 제1 키포인트 위치에서부터 제2 키포인트 위치로의 제1 변환 행렬을 생성할 수 있다.

일반적으로, 제1 변환 행렬은 대상 문서 이미지로부터 위치 템플릿에 매핑되는 행렬일 수 있고, 대상 문서 이미지의 포인트에서부터 위치 템플릿의 포인트로의 매핑 관계를 저장한다. 제1 키포인트 위치 및 제2 키포인트 위치에 기반하여, 대상 문서 이미지로부터 위치 템플릿까지의 매핑 관계를 결정할 수 있음으로써, 제1 변환 행렬을 생성한다.

단계 305에서, 제1 변환 행렬에 기반하여 대상 문서 이미지를 변환하여, 변환된 문서 이미지를 획득한다.

본 실시예에서, 상기 수행 주체는 제1 변환 행렬에 기반하여 대상 문서 이미지를 변환하여, 변환된 문서 이미지를 획득할 수 있다. 제1 변환 행렬이 대상 문서 이미지로부터 위치 템플릿에 매핑되는 행렬이므로, 제1 변환 행렬에 기반하여 대상 문서 이미지를 변환하여, 대상 문서 이미지를 변환된 문서 이미지로 표준화할 수 있다. 본 명세서에서, 변환된 문서 이미지의 사이즈, 방향, 경사 등이 표준 문서 이미지와 일치하도록 표준화된다.

단계 306에서, 위치 템플릿 상에서의 정보 위치를 변환된 문서 이미지 상에서의 정보 위치로 사용한다.

본 실시예에서, 상기 수행 주체는 위치 템플릿 상에서의 정보 위치를 변환된 문서 이미지 상에서의 정보 위치로 사용할 수 있다. 변환된 문서 이미지의 사이즈, 방향, 경사 등이 위치 템플릿과 일치하도록 표준화되므로, 변환된 문서 이미지 상에서의 정보 위치와 위치 템플릿 상에서의 정보 위치는 일치한다.

단계 307에서, 변환된 문서 이미지 상에서의 정보 위치에 위치한 정보를 추출하여, 변환된 문서 이미지 상에서의 정보 위치를 획득한다.

본 실시예에서, 상기 수행 주체는 변환된 문서 이미지 상 정보 위치에 위치한 정보를 추출하여, 변환된 문서 이미지 상 정보 위치를 획득할 수 있다. 예를 들어, 변환된 문서 이미지 상에서의 정보 위치 부분에 대해 광학 문자 인식을 수행하면, 이의 인식 결과는 즉 대상 문서 이미지에 포함된 정보가 된다.

도 3으로부터 보다시피, 도 2에 대응되는 실시예와 비교해보면, 본 실시예에서의 정보 추출 방법의 흐름(300)은 키포인트 위치 결정 단계 및 위치 정보 변환 단계를 강조한다. 이로써, 본 실시예에서 설명한 해결수단에서, 키포인트 감지 모델을 사용하여 대응 카테고리의 문서 이미지 상에서의 키포인트 위치를 감지하는데, 이는 임의의 카테고리의 문서 이미지에 대해 키포인트 감지를 수행하는데 적용되어, 정보 추출의 견고성을 향상시킬 수 있다. 특정 카테고리의 문서 이미지의 키포인트 감지 모델 및 위치 템플릿을 생성하여, 문서 이미지에 대해 위치 정렬을 통해 표준화하여, 간단하고, 신속한 정보 추출을 구현하고, 견고하고 효율적이며 정확한 등 특징을 갖는다.

이해의 편의를 위해, 아래에 본 출원의 실시예의 정보 추출 방법을 구현할 수 있는 상황을 제공한다.

도 4a는 문서 이미지의 일 개략도를 도시한다. 또한, 도 4b는 변환된 문서 이미지의 일 개략도를 도시한다.

도 4a는 중국 XX 은행의 어느 한 버전의 예금 이자 리스트의 문서 이미지를 도시한다. 문서 이미지는 성명, 계좌/카드 번호, 실제 원금 이자, 원금, 이자, 세율, 과세이자, 원천과세, 세후 이자와 같은 다양한 카테고리의 정보를 포함한다. 도트 프린트 시, 정보 콘텐츠가 전체적으로 위로 오프셋한다. 이밖에, 문서 이미지의 예금 이자 리스트는 전체적으로 우측으로 경사진다. 도 4a 중 문서 이미지의 실제 지불 원리를 추출해야 할 경우, 우선 도 4a 중 이미지에 대응되는 위치 템플릿 및 키포인트 감지 모델을 획득한다. 이후, 도 4a 중 이미지를 키포인트 감지 모델에 입력하고, 도 4a 중 문서 이미지를 도트 프린팅할 때의 4개의 마크 포인트 A, B, C, D의 좌표를 출력한다. 그 후에, 도 4a 중 문서 이미지의 마크 포인트의 좌표 및 위치 템플릿의 마크 포인트의 좌표에 기반하여, 도 4a 중 문서 이미지로부터 위치 템플릿에 매핑될 수 있는 제1 변환 행렬을 생성한다. 그리고, 제1 변환 행렬에 기반하여 도 4a 중 문서 이미지를 변환하여, 변환된 문서 이미지를 획득하고, 이는 구체적으로 도 4b에 도시된 바와 같다. 마지막으로, 도 4b 중 변환된 문서 이미지에 위치 템플릿의 실제 지불 원리의 좌측 상단 포인트 E 및 우측 하단 F를 라벨링하고, 좌측 상단 포인트 E 및 우측 하단 F에 대해 한정된 셀을 추출하여, 실제 지불 원리 RMB20,988.65를 획득한다.

도 5는 본 출원에 따른 정보 추출 장치의 일 실시예의 구조 개략도이다.

도 5를 참조하면, 장치 실시예는 도 2에 도시된 방법의 실시예와 대응되고, 상기 장치는 다양한 전자 기기에 적용될 수 있다.

도 5에 도시된 바와 같이, 본 실시예의 정보 추출 장치(500)는, 위치 템플릿 획득 모듈(501), 키포인트 위치 결정 모듈(502), 변환 행렬 생성 모듈(503), 정보 위치 결정 모듈(504) 및 정보 추출 모듈(505)을 포함할 수 있다. 본 명세서에서, 위치 템플릿 획득 모듈(501)은 대상 문서 이미지의 카테고리에 대응되는 위치 템플릿을 획득하고; 키포인트 위치 결정 모듈(502)은 대상 문서 이미지 상에서의 제1 키포인트 위치를 결정하며; 변환 행렬 생성 모듈(503)은 제1 키포인트 위치 및 위치 템플릿 상에서의 제2 키포인트 위치에 기반하여, 변환 행렬을 생성하고; 정보 위치 결정 모듈(504)은 위치 템플릿 상에서의 정보 위치 및 변환 행렬에 기반하여, 대상 문서 이미지에 대응되는 정보 위치를 결정하며; 정보 추출 모듈(505)은 대상 문서 이미지에 대응되는 정보 위치에 위치한 정보를 추출하여, 대상 문서 이미지에 포함된 정보를 획득한다.

본 실시예에서, 정보 추출 장치(500)에서, 위치 템플릿 획득 모듈(501), 키포인트 위치 결정 모듈(502), 변환 행렬 생성 모듈(503), 정보 위치 결정 모듈(504) 및 정보 추출 모듈(505)의 구체적인 처리 및 이에 의해 이루어진 기술적 효과는 각각 도 2의 대응 실시예 중 단계 201 ~ 단계 205의 관련 설명을 참조할 수 있으며, 본 명세서에서 더이상 설명하지 않는다.

본 실시예의 일부 선택 가능한 구현 방식에서, 키포인트 위치 결정 모듈(502)은, 대상 문서 이미지의 카테고리에 대응되는 키포인트 감지 모델을 획득하고; 대상 문서 이미지를 키포인트 감지 모델에 입력하여, 제1 키포인트 위치를 획득한다.

본 실시예의 일부 선택 가능한 구현 방식에서, 변환 행렬 생성 모듈(503)은, 제1 키포인트 위치에서부터 제2 키포인트 위치로의 제1 변환 행렬을 생성하고; 정보 위치 결정 모듈(504)은, 제1 변환 행렬에 기반하여 대상 문서 이미지를 변환하여, 변환된 문서 이미지를 획득하며; 위치 템플릿 상에서의 정보 위치를 변환된 문서 이미지 상에서의 정보 위치로 사용한다.

본 실시예의 일부 선택 가능한 구현 방식에서, 변환 행렬 생성 모듈(503)은, 제2 키포인트 위치에서 제1 키포인트 위치까지의 제2 변환 행렬을 생성하도록 더 구성되고; 정보 위치 결정 모듈(504)은, 제2 변환 행렬에 기반하여 위치 템플릿 상 정보 위치를 변환하여, 대상 문서 이미지 상에서의 정보 위치를 획득한다.

본 실시예의 일부 선택 가능한 구현 방식에서, 정보 추출 장치(500)는, 모델 트레이닝 모듈(미도시)을 더 포함하며, 모델 트레이닝 모듈은, 대상 문서 이미지의 카테고리와 동일한 문서 이미지 집합, 및 문서 이미지 집합 중 문서 이미지 상에서의 제3 키포인트 위치를 획득하고; 제3 키포인트 위치에 기반하여 해당 문서 이미지를 라벨링함으로써, 샘플 문서 이미지 집합을 생성하며; 샘플 문서 이미지 집합으로 트레이닝하여 키포인트 감지 모델을 획득한다.

본 실시예의 일부 선택 가능한 구현 방식에서, 정보 추출 장치(500)는 템플릿 생성 모듈(미도시)을 더 포함하며, 템플릿 생성 모듈은, 대상 문서 이미지의 카테고리와 동일한 표준 문서 이미지, 및 표준 문서 이미지 상에서의 제4 키포인트 위치 및 정보 위치를 획득하고; 제4 키포인트 위치 및 정보 위치에 기반하여 표준 문서 이미지를 라벨링하여, 위치 템플릿을 생성한다.

본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능 저장 매체를 더 제공한다.

도 6은 본 출원의 실시예의 정보 추출 방법을 구현하기 위한 전자 기기의 블록도이다.

도 6에 도시된 바와 같이, 본 출원의 실시예의 정보 추출 방법에 따른 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 개인용 디지털 처리, 셀룰러 폰, 스마트 폰, 웨어러블 기기, 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본 명세서에 표시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것으로서, 본 명세서에서 설명되거나 및/또는 요구되는 본 출원의 구현을 한정하려는 의도가 아니다.

도 6에 도시된 바와 같이, 상기 전자 기기는, 하나 또는 다수의 프로세서(601), 메모리(602), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각각의 부재는 상이한 버스를 사용하여 상호 연결되고, 또한 공통 마더보드에 설치되거나 수요에 따라 다른 방식으로 설치될 수 있다. 프로세서(601)는 전자 기기 내에서 실행되는 명령어를 처리할 수 있고, 상기 명령어는, 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 기기)에 GUI의 그래픽 정보를 디스플레이하기 위해 메모리(602) 내 또는 메모리(602)에 저장되는 명령어를 포함한다. 다른 실시형태에서, 필요에 따라, 다수의 프로세서 및/또는 다수의 버스는 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있으며, 각각의 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중 프로세서 시스템으로 사용됨)을 제공한다. 도 6에서는 하나의 프로세서(601)를 예로 한다.

메모리(602)는 본 출원에서 제공된 비일시적 컴퓨터 판독 가능 저장 매체이다. 본 명세서에서, 상기 메모리(602)에는 적어도 하나의 프로세서(601)에 의해 실행 가능한 명령어가 저장되어, 상기 적어도 하나의 프로세서(601)가 본 출원에서 제공된 정보 추출 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령어를 저장하며, 상기 컴퓨터 명령어는 컴퓨터가 본 출원에서 제공된 정보 추출 방법을 수행하도록 한다.

메모리(602)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 본 출원의 실시예에서의 정보 추출 방법에 대응되는 프로그램 명령어/모듈(예를 들어, 도 5에 도시된 위치 템플릿 획득 모듈(501), 키포인트 위치 결정 모듈(502), 변환 행렬 생성 모듈(503), 정보 위치 결정 모듈(504) 및 정보 추출 모듈(505))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(601)는 메모리(602)에 저장된 비일시적 소프트웨어 프로그램, 명령어 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상기 방법의 실시예에서의 정보 추출 방법을 구현한다.

메모리(602)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있는 바, 본 명세서에서 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고; 데이터 저장 영역은 정보 추출 방법에 따른 전자 기기를 사용하여 구축된 데이터 등을 저장할 수 있다. 이밖에, 메모리(602)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 소자, 플래시 소자, 또는 다른 비일시적 솔리드 스테이트 저장 소자와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(602)는 프로세서(601)에 대해 원격으로 설치되는 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 정보 추출 방법의 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신망, 및 이들의 조합을 포함하지만 이에 한정되지 않는다.

정보 추출 방법의 전자 기기는, 입력 장치(603) 및 출력 장치(604)를 더 포함할 수 있다. 프로세서(601), 메모리(602), 입력 장치(603) 및 출력 장치(604)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 6에서는 버스를 통한 연결을 예로 한다.

입력 장치(603)는 입력된 숫자 또는 문자 정보를 수신할 수 있고, 정보 추출 방법의 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 다수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치일 수 있다. 출력 장치(604)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 기기는 액정 디스플레이 장치(LCD), 발광 다이오드(LED) 디스플레이 장치 및 플라즈마 디스플레이 장치를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.

본 명세서에서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 주문형 또는 일반 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신할 수 있으며, 또한, 데이터 및 명령어를 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램 가능 프로세서의 기계 명령어를 포함하고, 또한 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본 명세서에 사용된 바와 같이, 용어 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 의미하고, 기계 판독 가능 신호인 기계 명령어를 수신하는 기계 판독 가능 매체를 포함한다. 용어 “기계 판독 가능 신호”는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

사용자와의 인터랙션을 제공하기 위해, 컴퓨터에서 여기에 설명된 시스템 및 기술을 구현할 수 있고, 상기 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 센서 피드백(예를 들어, 예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.

본 명세서에서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 본 명세서에서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.

본 출원의 기술적 해결수단에 따르면, 우선, 대상 문서 이미지의 카테고리에 대응되는 위치 템플릿을 획득하고; 그 다음으로, 제1 키포인트 위치를 결정하며; 이후, 제1 키포인트 위치 및 제2 키포인트 위치에 기반하여, 변환 행렬을 생성하고; 다음, 위치 템플릿 상 정보 위치 및 변환 행렬에 기반하여, 대상 문서 이미지에 대응되는 정보 위치를 결정하며; 마지막에, 대상 문서 이미지에 대응되는 정보 위치에 위치한 정보를 추출하여, 대상 문서 이미지 속 정보를 획득한다. 특정 카테고리의 문서 이미지의 위치 템플릿을 생성하여, 상기 카테고리의 문서 이미지에 대응되는 정보 위치를 결정함으로써, 문서 이미지에 대응되는 정보 위치 부분으로부터 정보를 추출하여, 간단하고 신속한 정보 추출을 구현한다.

위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본 명세서은 본 명세서에서 한정되지 않는다.

상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 출원의 보호 범위 내에 포함되어야 한다.

Claims

대상 문서 이미지의 카테고리에 대응되는 위치 템플릿을 획득하는 단계;
상기 대상 문서 이미지 상에서의 제1 키포인트 위치를 결정하는 단계;
상기 제1 키포인트 위치 및 상기 위치 템플릿 상에서의 제2 키포인트 위치에 기반하여, 변환 행렬을 생성하는 단계;
상기 위치 템플릿 상에서의 정보 위치 및 상기 변환 행렬에 기반하여, 상기 대상 문서 이미지에 대응되는 정보 위치를 결정하는 단계; 및
상기 대상 문서 이미지에 대응되는 정보 위치에 위치한 정보를 추출하여, 상기 대상 문서 이미지에 포함된 정보를 획득하는 단계를 포함하는 정보 추출 방법.
제1항에 있어서,
상기 제1 키포인트 위치를 결정하는 단계는,
상기 대상 문서 이미지의 카테고리에 대응되는 키포인트 감지 모델을 획득하는 단계; 및
상기 대상 문서 이미지를 상기 키포인트 감지 모델에 입력하여, 상기 제1 키포인트 위치를 획득하는 단계를 포함하는 정보 추출 방법.
제1항에 있어서,
상기 변환 행렬을 생성하는 단계는,
상기 제1 키포인트 위치에서부터 상기 제2 키포인트 위치로의 제1 변환 행렬을 생성하는 단계를 포함하고,
상기 대상 문서 이미지에 대응되는 정보 위치를 결정하는 단계는,
상기 제1 변환 행렬에 기반하여 상기 대상 문서 이미지를 변환하여 변환된 문서 이미지를 획득하는 단계; 및
상기 위치 템플릿 상에서의 정보 위치를 상기 변환된 문서 이미지 상에서의 정보 위치로 사용하는 단계를 포함하는 정보 추출 방법.
제1항에 있어서,
상기 변환 행렬을 생성하는 단계는,
상기 제2 키포인트 위치에서부터 상기 제1 키포인트 위치로의 제2 변환 행렬을 생성하는 단계를 포함하고,
상기 대상 문서 이미지에 대응되는 정보 위치를 결정하는 단계는,
상기 제2 변환 행렬에 기반하여 상기 위치 템플릿 상 정보 위치를 변환하여, 상기 대상 문서 이미지 상에서의 정보 위치를 획득하는 단계를 포함하는 정보 추출 방법.
제2항에 있어서,
상기 키포인트 감지 모델을 획득하는 단계는,
상기 대상 문서 이미지의 카테고리와 동일한 문서 이미지 집합 및 상기 문서 이미지 집합 중 문서 이미지 상에서의 제3 키포인트 위치를 획득하는 단계;
상기 제3 키포인트 위치에 기반하여 해당 문서 이미지를 라벨링함으로써, 샘플 문서 이미지 집합을 생성하는 단계; 및
상기 샘플 문서 이미지 집합으로 트레이닝하여 상기 키포인트 감지 모델을 획득하는 단계를 포함하는 정보 추출 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 위치 템플릿을 획득하는 단계는,
상기 대상 문서 이미지의 카테고리와 동일한 표준 문서 이미지 및 상기 표준 문서 이미지 상에서의 제4 키포인트 위치 및 정보 위치를 획득하는 단계; 및
상기 제4 키포인트 위치 및 정보 위치에 기반하여 상기 표준 문서 이미지를 라벨링함으로써, 상기 위치 템플릿을 생성하는 단계를 포함하는 정보 추출 방법.
대상 문서 이미지의 카테고리에 대응되는 위치 템플릿을 획득하는 위치 템플릿 획득 모듈;
상기 대상 문서 이미지 상에서의 제1 키포인트 위치를 결정하는 키포인트 위치 결정 모듈;
상기 제1 키포인트 위치 및 상기 위치 템플릿 상에서의 제2 키포인트 위치에 기반하여, 변환 행렬을 생성하는 변환 행렬 생성 모듈;
상기 위치 템플릿 상에서의 정보 위치 및 상기 변환 행렬에 기반하여, 상기 대상 문서 이미지에 대응되는 정보 위치를 결정하는 정보 위치 결정 모듈; 및
상기 대상 문서 이미지에 대응되는 정보 위치에 위치한 정보를 추출하여, 상기 대상 문서 이미지에 포함된 정보를 획득하는 정보 추출 모듈을 포함하는 정보 추출 장치.
제7항에 있어서,
상기 키포인트 위치 결정 모듈은,
상기 대상 문서 이미지의 카테고리에 대응되는 키포인트 감지 모델을 획득하고;
상기 대상 문서 이미지를 상기 키포인트 감지 모델에 입력하여, 상기 제1 키포인트 위치를 획득하는 정보 추출 장치.
제7항에 있어서,
상기 변환 행렬 생성 모듈은,
상기 제1 키포인트 위치에서부터 상기 제2 키포인트 위치로의 제1 변환 행렬을 생성하고;
상기 정보 위치 결정 모듈은,
상기 제1 변환 행렬에 기반하여 상기 대상 문서 이미지를 변환하여 변환된 문서 이미지를 획득하며;
상기 위치 템플릿 상에서의 정보 위치를 상기 변환된 문서 이미지 상에서의 정보 위치로 사용하는 정보 추출 장치.
제7항에 있어서,
상기 변환 행렬 생성 모듈은,
상기 제2 키포인트 위치에서부터 상기 제1 키포인트 위치로의 제2 변환 행렬을 생성하고;
상기 정보 위치 결정 모듈은,
상기 제2 변환 행렬에 기반하여 상기 위치 템플릿 상 정보 위치를 변환하여, 상기 대상 문서 이미지 상에서의 정보 위치를 획득하는 정보 추출 장치.
제8항에 있어서,
모델 트레이닝 모듈을 더 포함하고,
상기 모델 트레이닝 모듈은,
상기 대상 문서 이미지의 카테고리와 동일한 문서 이미지 집합 및 상기 문서 이미지 집합 중 문서 이미지 상에서의 제3 키포인트 위치를 획득하고;
상기 제3 키포인트 위치에 기반하여 해당 문서 이미지를 라벨링함으로써, 샘플 문서 이미지 집합을 생성하며;
상기 샘플 문서 이미지 집합으로 트레이닝하여 상기 키포인트 감지 모델을 획득하는 정보 추출 장치.
제7항 내지 제11항 중 어느 한 항에 있어서,
템플릿 생성 모듈을 더 포함하고,
상기 템플릿 생성 모듈은,
상기 대상 문서 이미지의 카테고리와 동일한 표준 문서 이미지, 및 상기 표준 문서 이미지 상에서의 제4 키포인트 위치 및 정보 위치를 획득하며;
상기 제4 키포인트 위치 및 정보 위치에 기반하여 상기 표준 문서 이미지를 라벨링함으로써, 상기 위치 템플릿을 생성하는 정보 추출 장치.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항에 따른 방법을 수행하는 전자 기기.
컴퓨터 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 명령어는 컴퓨터가 제1항에 따른 방법을 수행하는 비일시적 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항에 따른 방법을 수행하는 컴퓨터 프로그램.