KR20220133141A

KR20220133141A - 텍스트 추출 방법, 텍스트 추출 모델 트레이닝 방법, 장치 및 기기

Info

Publication number: KR20220133141A
Application number: KR1020220115367A
Authority: KR
Inventors: 샤멍 친; 샤오창 장; 쥐 황; 위린 리; 췬이 셰; 쿤 야오; 쥔위 한
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2022-03-10
Filing date: 2022-09-14
Publication date: 2022-10-04
Also published as: CN114821622A; US20230106873A1; CN114821622B; JP2022172381A; JP7423715B2

Abstract

본 발명은 텍스트 추출 방법, 텍스트 추출 모델 트레이닝 방법, 장치 및 기기를 제공하고, 인공지능 기술분야, 특히는 컴퓨터 비전 기술분야에 관한 것이다. 구체적인 구현 방식은 다음과 같다. 검출할 이미지의 시각적 코딩 특징을 획득하고; 검출할 이미지에서 다수개 세트의 멀티 모달 특징을 추출하되, 각 세트의 멀티 모달 특징은 검출할 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함하고; 시각적 코딩 특징, 추출할 속성 및 다수개 세트의 멀티 모달 특징을 기반으로 다수개 세트의 멀티 모달 특징에 포함된 제1 텍스트 정보에서 추출할 속성에 매칭되는 제2 텍스트 정보를 획득하되, 추출할 속성은 추출해야 할 텍스트 정보의 속성이다. 상기 방식은 다양한 포맷의 증명서, 영수증에 대해 텍스트 정보 추출을 수행할 수 있어 추출 효율을 높인다.

Description

텍스트 추출 방법, 텍스트 추출 모델 트레이닝 방법, 장치 및 기기{TEXT EXTRACTION METHOD, TEXT EXTRACTION MODEL TRAINING METHOD, APPARATUS AND DEVICE}

본 발명은 인공지능 기술분야, 특히는 컴퓨터 비전 기술분야에 관한 것이다.

정보 전달의 효율을 향상시키기 위해, 구조화된 텍스트(Structured Text)는 일반적인 정보 운반체로서 디지털화 및 자동화 사무 장면에 널리 사용되고 있다. 현재 실체 문서에 기록된 많은 양의 정보들은 전자화되어 구조화된 텍스트로 기록되어야 한다. 예를 들어, 기업 사무의 지능화를 지원하기 위해 실체 영수증에 있는 대량의 정보는 추출되어 구조화된 데이터로 저장할 필요가 있다.

본 발명은 텍스트 추출 방법, 텍스트 추출 모델 트레이닝 방법, 장치 및 기기를 제공한다.

본 발명의 제1양태에 따르면, 텍스트 추출 방법을 제공하고, 상기 방법은,

검출할 이미지의 시각적 코딩 특징을 획득하는 단계;

상기 검출할 이미지에서 다수개 세트의 멀티 모달(Multimodality) 특징을 추출하되, 여기서, 각 세트의 멀티 모달 특징은 상기 검출할 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함하는 단계; 및

상기 시각적 코딩 특징, 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 기반으로 상기 다수개 세트의 멀티 모달 특징에 포함된 제1 텍스트 정보에서 상기 추출할 속성에 매칭되는 제2 텍스트 정보를 획득하되, 상기 추출할 속성은 추출해야 할 텍스트 정보의 속성인 단계를 포함한다.

본 발명의 제2양태에 따르면, 텍스트 추출 모델 트레이닝 방법을 제공하고, 여기서, 상기 텍스트 추출 모델은 시각적 코딩 서브 모델, 검출 서브 모델 및 출력 서브 모델을 포함하고, 상기 방법은,

상기 시각적 코딩 서브 모델에서 추출한 샘플 이미지의 시각적 코딩 특징을 획득하는 단계;

상기 검출 서브 모델이 상기 샘플 이미지에서 추출한 다수개 세트의 멀티 모달 특징을 획득하되, 여기서, 각 세트의 멀티 모달 특징은 상기 샘플 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함하는 단계;

상기 시각적 코딩 특징, 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 상기 출력 서브 모델에 입력하여 상기 출력 서브 모델에서 출력된 상기 추출할 속성에 매칭되는 제2 텍스트 정보를 얻되, 상기 추출할 속성은 추출해야 할 텍스트 정보의 속성인 단계; 및

상기 출력 서브 모델에서 출력된 상기 추출할 속성에 매칭되는 제2 텍스트 정보 및 상기 샘플 이미지에서 실제로 추출해야 할 텍스트 정보를 기반으로 상기 텍스트 추출 모델을 트레이닝하는 단계를 포함한다.

본 발명의 제3양태에 따르면, 텍스트 추출 장치를 제공하고, 상기 장치는,

검출할 이미지의 시각적 코딩 특징을 획득하는 제1 획득 모듈;

상기 검출할 이미지에서 다수개 세트의 멀티 모달 특징을 추출하되, 각 세트의 멀티 모달 특징은 상기 검출할 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함하는 추출 모듈; 및

상기 시각적 코딩 특징, 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 기반으로 상기 다수개 세트의 멀티 모달 특징에 포함된 제1 텍스트 정보에서 상기 추출할 속성에 매칭되는 제2 텍스트 정보를 획득하는 제2 획득 모듈을 포함하고, 상기 추출할 속성은 추출해야 할 텍스트 정보의 속성이다.

본 발명의 제4양태에 따르면, 텍스트 추출 모델 트레이닝 장치를 제공하고, 여기서, 상기 텍스트 추출 모델은 시각적 코딩 서브 모델, 검출 서브 모델 및 출력 서브 모델을 포함하고, 상기 장치는,

상기 시각적 코딩 서브 모델에서 추출한 샘플 이미지의 시각적 코딩 특징을 획득하는 제1 획득 모듈;

상기 검출 서브 모델이 상기 샘플 이미지에서 추출한 다수개 세트의 멀티 모달 특징을 획득하되, 각 세트의 멀티 모달 특징은 상기 샘플 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함하는 제2 획득 모듈;

상기 시각적 코딩 특징, 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 상기 출력 서브 모델에 입력하여 상기 출력 서브 모델에서 출력된 상기 추출할 속성에 매칭되는 제2 텍스트 정보를 얻되, 상기 추출할 속성은 추출해야 할 텍스트 정보의 속성인 텍스트 추출 모듈; 및

상기 출력 서브 모델에서 출력된 상기 추출할 속성에 매칭되는 제2 텍스트 정보 및 상기 샘플 이미지에서 실제로 추출해야 할 텍스트 정보를 기반으로 상기 텍스트 추출 모델을 트레이닝하는 트레이닝 모듈을 포함한다.

본 발명의 제5양태에 따르면, 전자 기기를 제공하고, 상기 전자 기기는,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되, 여기서,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 상기 제1양태 또는 제2양태 중 어느 하나에 따른 방법을 구현하도록 한다.

본 발명의 제6양태에 따르면, 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 여기서, 상기 컴퓨터 명령은 컴퓨터가 상기 제1양태 또는 제2양태 중 어느 하나에 따른 방법을 구현하도록 한다.

본 발명의 제7양태에 따르면, 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 프로그램은 명령을 포함하되, 여기서, 상기 명령은 적어도 하나의 프로세서에 의해 실행될 경우 상기 제1양태 또는 제2양태 중 어느 하나에 따른 방법을 구현한다.

이해해야 할 것은, 이 부분에서 설명한 내용은 본 발명의 실시예의 핵심적 또는 중요한 특징을 표시하기 위한 것이 아니며, 본 발명의 범위를 제한하기 위한 것도 아니다. 본 발명의 다른 특징들은 아래의 명세서를 통해 쉽게 이해될 수 있을 것이다.

첨부된 도면은 본 해결방안을 더 잘 이해하도록 하기 위한 것으로, 본 발명을 제한하지 않는다. 여기서,
도 1은 본 발명의 실시예에서 제공하는 텍스트 추출 방법의 흐름도이다.
도 2는 본 발명의 실시예에서 제공하는 다른 텍스트 추출 방법의 흐름도이다.
도 3은 본 발명의 실시예에서 제공하는 다른 텍스트 추출 방법의 흐름도이다.
도 4는 본 발명의 실시예에서 제공하는 다른 텍스트 추출 방법의 흐름도이다.
도 5는 본 발명의 실시예에서 제공하는 텍스트 추출 모델 트레이닝 방법의 흐름도이다.
도 6은 본 발명의 실시예에서 제공하는 다른 텍스트 추출 모델 트레이닝 방법의 흐름도이다.
도 7은 본 발명의 실시예에서 제공하는 다른 텍스트 추출 모델 트레이닝 방법의 흐름도이다.
도 8은 본 발명의 실시예에서 제공하는 텍스트 추출 모델의 예시적 모식도이다.
도 9는 본 발명의 실시예에서 제공하는 텍스트 추출 장치의 구조 모식도이다.
도 10은 본 발명의 실시예에서 제공하는 텍스트 추출 모델 트레이닝 장치의 구조 모식도이다.
도 11은 본 발명의 실시예에 따른 텍스트 추출 방법 또는 텍스트 추출 모델 트레이닝 방법을 구현하기 위한 전자 기기의 블록도이다.

이하 첨부된 도면과 결부하여 본 발명의 예시적 실시예에 대해 설명하되, 이중에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부 사항이 포함되어 있으며, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 지식을 가진 자는 본 발명의 범위와 정신에 위배되지 않는 전제하에 여기에 기술된 실시예에 대해 다양한 변경과 수정이 이루어질 수 있음을 인식할 것이다. 또한, 명료함과 간결함을 위해 이하 설명에서는 공지의 기능 및 구성에 대한 설명은 생략하였다.

본 발명의 기술적 해결방안에서 언급된 사용자의 개인정보의 수집, 저장, 사용, 가공, 전송, 제공 및 공개 등의 처리는 모두 관련 법률과 법규의 규정에 부합되며, 공서양속을 위반하지 않는다.

현재 다양한 장면에서 구조화된 텍스트를 생성하기 위해, 실체 문서에서 정보를 추출하고 구조화하여 저장할 수 있으며, 여기서 실체 문서는 종이 문서, 각종 영수증, 증명서, 카드 등일 수 있다.

현재 일반적으로 사용되는 구조화된 정보의 추출 방식에는 수동 입력 방식이 있으며, 수동 입력 방식은 실체 문서에서 추출해야 할 정보를 수동으로 가져와 구조화된 텍스트에 입력하는 것이다.

또는 탬플릿을 기반으로 매칭하는 방법을 사용할 수도 있다. 즉 단순한 구조를 가진 증명서에 대해, 이러한 증명서의 각 부분은 일반적으로 고정된 기하학적 포맷을 가지므로 동일한 구조의 증명서에 대해 표준 탬플릿을 만들 수 있으며, 상기 표준 탬플릿은 증명서의 어떤 기하학적 영역에서 텍스트 정보를 추출할 것인지를 지정하며, 표준 탬플릿을 기반으로 각 증명서의 고정된 위치에서 텍스트 정보를 추출한 후, 광학 문자 인식(Optical Character Recognition, OCR)을 통해 추출된 텍스트 정보를 식별하고, 추출한 텍스트 정보를 구조화하여 저장하는 것이다.

또는 핵심 부호를 기반으로 검색하는 방법을 사용할 수도 있다. 즉 검색 규칙을 미리 설정하고, 핵심 부호의 앞이나 뒤의 지정된 길이의 영역에서 텍스트를 검색하는 것이다. 예를 들어, 핵심 부호 "날짜" 뒤에서 "XX년 XX월 XX일"의 형식에 부합하는 텍스트를 검색하고, 검색하여 얻은 텍스트를 구조화된 텍스트 중 "날짜" 필드의 속성 값으로 하는 것이다.

상술한 방법들은 모두 대량의 수동 작업, 즉 수동으로 정보를 추출하거나, 수동으로 각 구조의 증명서를 위해 탬플릿을 만들거나, 또는 수동으로 검색 규칙을 설정해야 하므로 많은 인력이 소요되며, 다양한 포맷의 실체 문서 추출에는 적용될 수 없고, 추출 효율도 낮다.

이러한 문제를 해결하기 위해, 본 발명의 실시예에서는 전자 기기에서 실행될 수 있는 텍스트 추출 방법을 제공하며, 상기 전자 기기는 스마트폰, 태블릿 PC, 데스크탑, 서버 등 기기일 수 있다.

이하 본 발명의 실시예에서 제공하는 텍스트 추출 방법에 대해 상세히 설명한다.

도1에 도시된 바와 같이, 본 발명의 실시예에서는 텍스트 추출 방법을 제공하고, 상기 방법은 아래의 단계를 포함한다.

단계 S101에서, 검출할 이미지의 시각적 코딩 특징을 획득한다.

여기서, 검출할 이미지는 상기 실체 문서의 이미지, 예를 들어 종이 문서의 이미지, 각종 영수증, 증명서 또는 카드의 이미지일 수 있다.

검출할 이미지의 시각적 코딩 특징은 검출할 이미지에 대해 특징 추출을 수행하고, 추출하여 얻은 특징을 코딩하여 얻은 특징이며, 시각적 코딩 특징을 획득하는 방법은 아래의 실시예에서 상세히 설명한다.

시각적 코딩 특징은 검출할 이미지 중의 텍스트의 컨텍스트 정보를 나타낼 수 있다.

단계 S102에서, 검출할 이미지에서 다수개 세트의 멀티 모달 특징을 추출한다.

여기서, 각 세트의 멀티 모달 특징은 검출할 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함한다.

본 발명의 실시예에서, 검출 프레임은 직사각형일 수 있고, 검출 프레임의 위치 정보는 (x, y, w, h)로 표현될 수 있으며, 여기서 x와 y는 검출 프레임의 임의의 모서리가 검출할 이미지에서 위치한 좌표를 나타내며, 예를 들어 검출 프레임의 왼쪽 상단 모서리가 검출할 이미지에서 위치한 좌표일 수 있으며, w와 h는 각각 검출 프레임의 폭과 높이를 나타낸다. 예를 들어 검출 프레임의 위치 정보가 (3, 5, 6, 7)로 표현되면 상기 검출 프레임의 왼쪽 상단 모서리가 검출할 이미지에서 위치한 좌표는 (3, 5)이고 상기 검출 프레임의 폭은 6, 높이는 7이다.

본 발명의 실시예는 검출 프레임의 위치 정보의 표현 방식에 대해 제한하지 않으며, 검출 프레임의 위치 정보를 표시할 수 있는 다른 방식, 예를 들어 검출 프레임의 네 모서리의 좌표일 수도 있다.

검출 프레임의 검출 특징은 검출할 이미지에서 상기 검출 프레임 부분의 이미지의 특징이다.

단계 S103에서, 시각적 코딩 특징, 추출할 속성 및 다수개 세트의 멀티 모달 특징을 기반으로 다수개 세트의 멀티 모달 특징에 포함된 제1 텍스트 정보에서 추출할 속성에 매칭되는 제2 텍스트 정보를 획득한다.

여기서, 추출할 속성은 추출해야 할 텍스트 정보의 속성이다.

예를 들어, 검출할 이미지가 승차권 이미지이고 추출해야 할 텍스트 정보가 상기 승차권에 있는 시작역의 역 이름이면, 추출할 속성은 시작역 이름이다. 예를 들어, 승차권에 있는 시작역의 역 이름이 "북경"이면 "북경"이 바로 추출해야 할 텍스트 정보이다.

시각적 코딩 특징, 추출할 속성 및 다수개 세트의 멀티 모달 특징을 통해 각 세트의 멀티 모달 특징에 포함된 제1 텍스트 정보가 추출할 속성과 대응되는지 결정하여 추출할 속성에 매칭되는 제2 텍스트 정보를 획득할 수 있다.

본 발명의 실시예를 사용하면 시각적 코딩 특징 및 다수개 세트의 멀티 모달 특징을 통하여 다수개 세트의 멀티 모달 특징에 포함된 제1 텍스트 정보에서 추출할 속성에 매칭되는 제2 텍스트 정보를 획득할 수 있다. 다수개 세트의 멀티 모달 특징에는 검출할 이미지 중의 다수개의 제1 텍스트 정보를 포함하므로, 이중에는 추출할 속성에 매칭되는 텍스트 정보와 추출할 속성에 매칭되지 않는 텍스트 정보가 존재하며, 시각적 코딩 특징은 검출할 이미지 중의 텍스트의 전체 컨텍스트 정보를 나타낼 수 있으므로, 시각적 코딩 특징을 기반으로 하면 다수개 세트의 멀티 모달 특징에서 추출할 속성에 매칭되는 제2 텍스트 정보를 획득할 수 있다. 상기 과정에서는 수동 작업이 필요 없고, 검출할 이미지에 대한 특징 추출이 검출할 이미지의 포맷에 국한되지 않기에 각 포맷의 실체 문서에 대해 각각 탬플릿을 만들거나 검색 규칙을 설정할 필요가 없으므로 정보 추출의 효율을 높일 수 있다.

본 발명의 다른 실시예에서 시각적 코딩 특징을 획득하는 과정에 대해 설명하며, 도 2에 도시된 바와 같이, 상술한 실시예에 기초하여, 검출할 이미지의 시각적 코딩 특징을 획득하는 단계 S101은 구체적으로 아래의 단계를 포함할 수 있다.

단계 S1011에서, 검출할 이미지를 백본망에 입력하여 백본망에서 출력된 이미지 특징을 획득한다.

여기서, 백본망(Backbone)은 컨볼루션 신경망 (Convolutional Neural Networks, CNN), 예를 들어 구체적으로 심층 잔차 신경망(Deep residual network, ResNet)일 수 있다. 또는 백본망은 Transformer 기반의 신경망일 수도 있다.

Transformer 기반의 백본망을 사용하는 경우를 예로 들면, 상기 백본망은 계층적 디자인, 예를 들어 순차적으로 연결된 4개의 특징 추출 계층을 포함할 수 있다. 즉 상기 백본망은 4개의 특징 추출 단계(stage)를 구현할 수 있다. 각 특징 추출 계층에서 출력된 특징 맵의 해상도는 순차적으로 낮아지며, 컨볼루션 신경망과 유사하게, 계층에 따라 점진적으로 수용 필드를 확장할 수 있다.

여기서, 제1 특징 추출 계층은 토큰 임베딩(Token Embedding) 모듈 및 Transformer 아키텍처 중의 코딩 블록(Transformer Block)을 포함하고, 이어지는 3개의 특징 추출 계층은 모두 토큰 융합(Token Merging) 모듈 및 코딩 블록(Transformer Block)을 포함한다. 제1 특징 추출 계층의 토큰 임베딩 모듈은 이미지 분할 및 위치 정보의 임베딩 작업을 수행할 수 있으며, 다른 계층의 토큰 융합 모듈은 주로 하위 계층 샘플링 역할을 하며, 각 계층 중의 코딩 블록은 특징을 코딩하기 위해 사용되고, 각 코딩 블록은 2개의 Transformer 인코더를 포함할 수 있다. 여기서, 첫 번째 Transformer 인코더의 셀프 어텐션 계층은 윈도우 셀프 어텐션 계층으로, 연산량을 줄이기 위해 어텐션 연산을 고정된 크기의 윈도우 내부에 집중시킨다. 두 번째 Transformer 인코더의 셀프 어텐션 계층은 서로 다른 윈도우 간의 정보 교류를 보장할 수 있어 로컬에서부터 전체로의 특징 추출을 구현함으로써 전체 백본망의 특징 추출 능력을 현저히 향상시킬 수 있다.

단계 S1012에서, 이미지 특징과 기 설정된 위치 코딩 특징을 서로 더한 후 코딩 작업을 수행하여 검출할 이미지의 시각적 코딩 특징을 얻는다.

여기서, 기 설정된 위치 벡터에 위치 임베딩(position Embedding)을 수행하여 기 설정된 위치 코딩 특징을 얻는다. 상기 기 설정된 위치 벡터는 실제 요구에 따라 설정할 수 있으며, 이미지 특징과 기 설정된 위치 코딩 특징을 서로 더함으로써 2차원 공간의 위치 정보를 반영할 수 있는 시각적 특징을 얻을 수 있다.

본 발명의 실시예에서는 융합망을 통해 이미지 특징 및 기 설정된 위치 코딩 특징을 서로 더함으로써 시각적 특징을 얻을 수 있다. 그 다음 시각적 특징을 하나의 Transformer 인코더 또는 기타 유형의 인코더에 입력하여 코딩 작업을 수행함으로써 시각적 코딩 특징을 얻는다.

Transformer 인코더를 사용하여 코딩 작업을 수행하는 경우, 우선 시각적 특징을 1차원 벡터로 전환할 수 있다. 예를 들어, 1*1의 컨볼루션 계층을 통해 더한 결과에 대해 차원을 낮추어 Transformer 인코더의 직렬화 입력 요구 사항을 충족한 다음, 상기 1차원 벡터를 Transformer 인코더에 입력하여 코딩 작업을 수행함으로써 인코더의 연산량을 줄일 수 있다.

설명해야 할 것은, 상기 단계 S1011 내지 단계 S1012은 미리 트레이닝된 텍스트 추출 모델에 포함된 시각적 코딩 서브 모델을 통해 구현될 수 있으며, 텍스트 추출 모델을 트레이닝하는 과정에 대해서는 아래의 실시예에서 설명한다.

상기 방법을 사용하면 백본망을 통해 검출할 이미지의 이미지 특징을 획득한 후 상기 이미지 특징과 기 설정된 위치 코딩 특징을 서로 더함으로써, 획득한 시각적 특징이 텍스트의 컨텍스트 정보에 대한 표현 능력을 향상시킬 수 있고, 이후 획득하게 될 시각적 코딩 특징이 검출할 이미지에 대한 표현의 정확성을 향상시키고, 상기 시각적 코딩 특징을 통하여 이후 추출하게 될 제2 텍스트 정보의 정확성도 향상시킬 수 있다.

본 발명의 다른 실시예에서 멀티 모달 특징을 추출하는 과정에 대해 설명하며, 여기서, 멀티 모달 특징은 검출 프레임의 위치 정보, 검출 프레임의 검출 특징 및 검출 프레임 중의 텍스트 내용 이 세 부분을 포함한다. 도 3에 도시된 바와 같이, 검출할 이미지에서 다수개 세트의 멀티 모달 특징을 추출하는 상기 단계 S102는 구체적으로 아래의 단계로 구현된다.

단계 S1021에서, 검출할 이미지를 기 설정된 검출 모델에 입력하여 검출할 이미지의 특징 맵 및 다수개의 검출 프레임의 위치 정보를 얻는다.

여기서, 기 설정된 검출 모델은 이미지 중의 텍스트 정보를 포함하는 검출 프레임을 추출하기 위한 모델일 수 있다. 상기 모델은 OCR 모델일 수도 있고 관련 기술의 기타 모델, 예를 들어 신경망 모델일 수도 있으며, 본 발명의 실시예는 이에 대해 제한하지 않는다.

검출할 이미지를 기 설정된 검출 모델에 입력한 후, 기 설정된 검출 모델은 검출할 이미지의 특징 맵(feature map) 및 검출할 이미지에서 텍스트 정보를 포함하는 검출 프레임의 위치 정보를 출력할 수 있다. 위치 정보의 표현 방식은 상기 단계 S102의 관련 설명을 참조할 수 있으며, 여기서 더 이상 설명하지 않는다.

단계 S1022에서, 다수개의 검출 프레임의 위치 정보를 이용하여 특징 맵을 절단하여 각 검출 프레임의 검출 특징을 얻는다.

이해할 수 있는 것은, 검출할 이미지의 특징 맵 및 각 검출 프레임의 위치 정보를 얻은 후, 각 검출 프레임의 위치 정보를 기반으로 특징 맵에서 상기 검출 프레임의 위치에 대응되는 특징을 각각 잘라내어(crop) 상기 검출 프레임에 대응되는 검출 특징으로 할 수 있다.

단계 S1023에서, 다수개의 검출 프레임의 위치 정보를 이용하여 검출할 이미지를 절단하여 각 검출 프레임 중의 검출할 서브 이미지를 얻는다.

여기서, 검출 프레임의 위치 정보는 검출 프레임이 검출할 이미지에서의 위치를 나타내므로, 각 검출 프레임의 위치 정보를 기반으로 검출할 이미지에서 검출 프레임의 위치에 있는 이미지를 절단하고, 절단하여 얻은 서브 이미지를 검출할 서브 이미지로 할 수 있다.

단계 S1024에서, 기 설정된 식별 모델을 이용하여 각 검출할 서브 이미지 중의 텍스트 정보를 식별하여 각 검출 프레임 중의 제1 텍스트 정보를 얻는다.

여기서, 기 설정된 식별 모델은 관련 기술 중 임의의 텍스트 식별 모델, 예를 들어 OCR모델일 수 있다.

단계 S1025에서, 각 검출 프레임에 대하여 상기 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 스플라이싱하여 상기 검출 프레임에 대응되는 한 세트의 멀티 모달 특징을 얻는다.

본 발명의 실시예에서, 각 검출 프레임에 대하여 상기 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보에 대해 각각 임베딩(embedding) 작업을 수행하여 특징 벡터의 형태로 변환한 후 조합함으로써 상기 검출 프레임의 멀티 모달 특징을 얻을 수 있다.

설명해야 할 것은, 상기 단계 S1021 내지 단계 S1025는 미리 트레이닝된 텍스트 추출 모델에 포함된 검출 서브 모델을 통해 구현될 수 있으며, 상기 검출 서브 모델은 상기 기 설정된 검출 모델 및 기 설정된 식별 모델을 포함한다. 텍스트 추출 모델을 트레이닝하는 과정에 대해서는 아래의 실시예에서 설명한다.

상기 방법을 사용하면 검출할 이미지에서 각 검출 프레임의 위치 정보, 검출 특징 및 제1 텍스트 정보를 정확하게 추출하여 이후 추출된 제1 텍스트 정보에서 추출할 속성에 매칭되는 제2 텍스트 정보를 획득할 수 있다. 본 발명의 실시예에서는 멀티 모달 특징을 추출할 때 탬플릿의 지정된 위치 또는 키워드의 위치에 의존하지 않으므로, 검출할 이미지 중의 제1 텍스트 정보가 왜곡, 변형되거나 인쇄 편이 등 문제가 존재하는 경우에도 검출할 이미지에서 멀티 모달 특징을 추출해낼 수 있다.

본 발명의 다른 실시예에서, 도 4에 도시된 바와 같이, 상술한 실시예에 기초하여 단계 S103은 구체적으로 아래의 단계로 구현된다.

단계 S1031에서, 시각적 코딩 특징, 추출할 속성 및 다수개 세트의 멀티 모달 특징을 디코더에 입력하여 디코더에서 출력된 시퀀스 벡터를 얻는다.

여기서, 상기 디코더는 Transformer 디코더일 수 있고, 디코더는 셀프 어텐션 계층(Self-attention layer) 및 인코더-디코더 어텐션 계층(Encoder-decoder attention layer)을 포함하며, 단계 S1031은 구체적으로 아래의 단계로 구현된다.

단계 1에서, 추출할 속성 및 다수개 세트의 멀티 모달 특징을 디코더의 셀프 어텐션 계층에 입력하여 다수개의 융합 특징을 얻는다. 여기서, 각 융합 특징은 한 세트의 멀티 모달 특징과 추출할 속성을 융합하여 얻은 특징이다.

본 발명의 실시예에서, 멀티 모달 특징은 Transformer 망 중의 멀티 모달 queries로, 추출할 속성은 key query로 할 수 있다. 추출할 속성에 대해 임베딩(embedding) 작업을 수행한 후 디코더의 셀프 어텐션 계층에 입력하고, 다수개 세트의 멀티 모달 특징을 셀프 어텐션 계층에 입력하여, 셀프 어텐션 계층이 각 세트의 멀티 모달 특징과 추출할 속성을 각각 융합하여 각 세트의 멀티 모달 특징에 대응되는 융합 특징을 출력할 수 있다.

key query를 셀프 어텐션 계층을 통해 멀티 모달 특징 queries에 융합하면, Transformer 망이 key query와 멀티 모달 특징 중의 제1 텍스트 정보(value)를 동시에 이해하여 key-value 사이 관계를 이해할 수 있다.

단계 2에서, 다수개의 융합 특징 및 시각적 코딩 특징을 디코더의 인코더-디코더 어텐션 계층에 입력하여 인코더-디코더 어텐션 계층에서 출력된 시퀀스 벡터를 얻는다.

셀프 어텐션 매커니즘을 통해 추출할 속성과 멀티 모달 특징을 융합함으로써 추출할 속성과 다수개 세트의 멀티 모달 특징에 포함된 제1 텍스트 정보 사이 연관성을 얻고, 그와 동시에 Transformer 디코더의 어텐션 매커니즘은 검출할 이미지의 컨텍스트 정보를 나타내는 시각적 코딩 특징을 획득하여, 디코더가 시각적 코딩 특징을 기반으로 멀티 모달 특징과 추출할 속성 사이 관계를 얻을 수 있다. 즉 시퀀스 벡터가 각 세트의 멀티 모달 특징과 추출할 속성 사이 관계를 반영하여 이후 다층 퍼셉트론 네트워크가 시퀀스 벡터를 기반으로 각 세트의 멀티 모달 특징의 카테고리를 정확하게 결정할 수 있게 된다.

단계 S1032에서, 디코더에서 출력된 시퀀스 벡터를 다층 퍼셉트론 네트워크에 입력하여 다층 퍼셉트론 네트워크에서 출력된 각 제1 텍스트 정보가 속한 카테고리를 얻는다.

여기서, 다층 퍼셉트론 네트워크에서 출력된 카테고리는 정확한 카테고리(right answer) 및 오류 카테고리(wrong answer)를 포함한다. 정확한 카테고리는 멀티 모달 특징 중의 제1 텍스트 정보의 속성이 추출할 속성이 맞다는 것을 나타내고, 오류 카테고리는 멀티 모달 특징 중의 제1 텍스트 정보의 속성이 추출할 속성이 아니라는 것을 나타낸다.

본 발명의 실시예에서 다층 퍼셉트론 네트워크는 다층 퍼셉트론(Multilayer Perceptron, MLP) 망이다. MLP 망은 구체적으로 각 세트의 멀티 모달 queries의 카테고리를 출력할 수 있다. 즉, MLP에서 출력된 한 세트의 멀티 모달 queries의 카테고리가 right answer이면 상기 세트의 멀티 모달 queries에 포함된 제1 텍스트 정보가 추출할 제2 텍스트 정보가 맞다는 것을 나타내고, MLP에서 출력된 한 세트의 멀티 모달 quereis의 카테고리가 wrong answer이면 상기 세트의 멀티 모달 queries에 포함된 제1 텍스트 정보가 추출할 제2 텍스트 정보가 아니라는 것을 나타낸다.

설명해야 할 것은, 본 발명의 실시예에서 디코더 및 다층 퍼셉트론 네트워크는 모두 트레이닝을 거친 것으로, 구체적인 트레이닝 방법은 아래 실시예에서 설명한다.

단계 S1033에서, 정확한 카테고리에 속한 제1 텍스트 정보를 추출할 속성에 매칭되는 제2 텍스트 정보로 한다.

설명해야 할 것은, 상기 단계 S1031 내지 단계 S1033은 미리 트레이닝된 텍스트 추출 모델에 포함된 출력 서브 모델을 통해 구현될 수 있으며, 상기 출력 서브 모델은 상기 디코더 및 다층 퍼셉트론 네트워크를 포함한다. 텍스트 추출 모델을 트레이닝하는 과정에 대해서는 아래의 실시예에서 설명한다.

본 발명의 실시예를 사용하면 디코더 중의 어텐션 매커니즘을 통해 다수개 세트의 멀티 모달 특징, 추출할 속성 및 시각적 코딩 특징을 디코딩하여 시퀀스 벡터를 얻음으로써, 다층 퍼셉트론 네트워크는 시퀀스 벡터에 따라 각 제1 텍스트 정보의 카테고리를 출력하고, 정확한 카테고리의 제1 텍스트 정보를 추출할 속성에 매칭되는 제2 텍스트 정보로 결정함으로써 다양한 포맷의 증명서 및 영수증의 텍스트 추출을 구현하여 인력 비용을 절감하고 추출 효율도 높일 수 있다.

동일한 기술 구상에 기초하여, 본 발명의 실시예는 텍스트 추출 모델 트레이닝 방법을 더 제공하고, 상기 텍스트 추출 모델은 시각적 코딩 서브 모델, 검출 서브 모델 및 출력 서브 모델을 포함하며, 도 5에 도시된 바와 같이, 상기 방법은 아래의 단계를 포함한다.

단계 S501에서, 시각적 코딩 서브 모델에서 추출한 샘플 이미지의 시각적 코딩 특징을 획득한다.

여기서, 샘플 이미지는 상기 실체 문서의 이미지, 예를 들어 종이 문서의 이미지, 각종 영수증, 증명서 또는 카드의 이미지 등이다.

시각적 코딩 특징은 샘플 이미지 중의 텍스트의 컨텍스트 정보를 나타낼 수 있다.

단계 S502에서, 검출 서브 모델이 샘플 이미지에서 추출한 다수개 세트의 멀티 모달 특징을 획득한다.

여기서, 각 세트의 멀티 모달 특징은 샘플 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함한다.

여기서, 검출 프레임의 위치 정보 및 검출 프레임의 검출 특징에 관한 내용은 상기 단계 S102의 관련 설명을 참조할 수 있으며, 여기서 더 이상 설명하지 않는다.

단계 S503에서, 시각적 코딩 특징, 추출할 속성 및 다수개 세트의 멀티 모달 특징을 출력 서브 모델에 입력하여 출력 서브 모델에서 출력된 추출할 속성에 매칭되는 제2 텍스트 정보를 얻는다.

예를 들어, 샘플 이미지가 승차권 이미지이고 추출해야 할 텍스트 정보가 상기 승차권에 있는 시작역의 역 이름이면, 추출할 속성은 시작역 이름이다. 예를 들어, 승차권에 있는 시작역의 역 이름이 "북경"이면 "북경"이 바로 추출해야 할 텍스트 정보이다.

단계 S504에서, 출력 서브 모델에서 출력된 제2 텍스트 정보 및 샘플 이미지에서 실제로 추출해야 할 텍스트 정보를 기반으로 텍스트 추출 모델을 트레이닝한다.

본 발명의 실시예에서, 샘플 이미지의 어노테이션(annotation)은 샘플 이미지에서 실제로 추출해야 할 스트 정보이다. 추출할 속성에 매칭되는 제2 텍스트 정보 및 샘플 이미지에서 실제로 추출해야 할 텍스트 정보를 기반으로 손실 함수 값을 계산할 수 있으며, 손실 함수 값에 따라 텍스트 추출 모델의 매개변수를 조정하고 텍스트 추출 모델의 수렴 여부를 판단할 수 있다. 수렴하지 않을 경우, 다음 샘플 이미지를 기반으로 단계 S501 내지 단계 S503을 계속 수행하고, 손실 함수 값에 기초하여 텍스트 추출 모델이 수렴으로 판단될 때까지 손실 함수 값을 계산하여 트레이닝 완료된 텍스트 추출 모델을 얻는다.

본 발명의 실시예를 사용하면, 텍스트 추출 모델은 샘플 이미지의 시각적 코딩 특징 및 다수개 세트의 멀티 모달 특징을 통하여 다수개 세트의 멀티 모달 특징에 포함된 제1 텍스트 정보에서 추출할 속성에 매칭되는 제2 텍스트 정보를 획득할 수 있다. 다수개 세트의 멀티 모달 특징에는 검출할 이미지 중의 다수개의 제1 텍스트 정보를 포함하므로, 이중에는 추출할 속성에 매칭되는 텍스트 정보와 추출할 속성에 매칭되지 않는 텍스트 정보가 존재하며, 시각적 코딩 특징은 검출할 이미지 중의 텍스트의 전체 컨텍스트 정보를 나타낼 수 있으므로, 텍스트 추출 모델은 시각적 코딩 특징을 기반으로 다수개 세트의 멀티 모달 특징에서 추출할 속성에 매칭되는 제2 텍스트 정보를 획득할 수 있다. 상기 텍스트 추출 모델을 트레이닝하면 이후 직접적으로 상기 텍스트 추출 모델을 통하여 제2 텍스트 정보를 추출할 수 있어 수동 작업이 필요 없고, 텍스트 정보를 추출해야 할 실체 문서의 포맷에 국한되지 않으므로 정보 추출의 효율을 높일 수 있다.

본 발명의 다른 실시예에서, 상기 시각적 코딩 서브 모델은 백본망 및 인코더를 포함하고, 도 6에 도시된 바와 같이, 상기 단계 S501은 구체적으로 아래의 단계를 포함한다.

단계 S5011에서, 샘플 이미지를 백본망에 입력하여 백본망에서 출력된 이미지 특징을 획득한다.

여기서, 시각적 코딩 서브 블록에 포함된 백본망은 상기 실시예에서 설명한 백본망과 동일하므로, 상기 실시예 중 백본망에 관련된 설명을 참조할 수 있으며, 여기서 더 이상 설명하지 않는다.

단계 S5012에서, 이미지 특징과 기 설정된 위치 코딩 특징을 서로 더한 후, 인코더에 입력하여 코딩 작업을 수행하여 샘플 이미지의 시각적 코딩 특징을 얻는다.

본 단계에서 샘플 이미지에 대한 이미지 특징의 처리는 상기 단계 S1012에서 검출할 이미지에 대한 이미지 특징의 처리 과정과 동일하므로, 상기 단계 S1012의 관련 설명을 참조할 수 있으며, 여기서 더 이상 설명하지 않는다.

상기 방법을 사용하면, 시각적 코딩 서브 모델의 백본망을 통해 검출할 이미지의 이미지 특징을 획득한 후 상기 이미지 특징과 기 설정된 위치 코딩 특징을 서로 더함으로써, 획득한 시각적 특징이 텍스트의 컨텍스트 정보에 대한 표현 능력을 향상시킬 수 있고, 이후 인코더가 획득하게 될 시각적 코딩 특징이 검출할 이미지에 대한 표현의 정확성을 향상시키고, 상기 시각적 코딩 특징을 통하여 이후 추출하게 될 제2 텍스트 정보의 정확성도 향상시킬 수 있다.

본 발명의 다른 실시예에서, 상기 검출 서브 모델은 기 설정된 검출 모델 및 기 설정된 식별 모델을 포함하고, 이에 기초하여, 검출 서브 모델이 샘플 이미지에서 추출한 다수개 세트의 멀티 모달 특징을 획득하는 상기 단계 S502는 구체적으로 아래의 단계로 구현될 수 있다.

단계 1에서, 샘플 이미지를 기 설정된 검출 모델에 입력하여 샘플 이미지의 특징 맵 및 다수개의 검출 프레임의 위치 정보를 얻는다.

단계 2에서, 다수개의 검출 프레임의 위치 정보를 이용하여 특징 맵을 절단하여 각 검출 프레임의 검출 특징을 얻는다.

단계 3에서, 다수개의 검출 프레임의 위치 정보를 이용하여 샘플 이미지를 절단하여 각 검출 프레임 중의 샘플 서브 이미지를 얻는다.

단계 4에서, 기 설정된 식별 모델을 이용하여 각 샘플 서브 이미지 중의 제1 텍스트 정보를 식별하여 각 검출 프레임 중의 제1 텍스트 정보를 얻는다.

단계 5에서, 각 검출 프레임에 대하여 상기 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 스플라이싱하여 상기 검출 프레임에 대응되는 한 세트의 멀티 모달 특징을 얻는다.

상기 단계 1 내지 단계 5의 샘플 이미지에서 다수개 세트의 멀티 모달 특징을 추출하는 방법은 상기 도 3에 대응되는 실시예에서 설명한 검출할 이미지에서 멀티 모달 특징을 추출하는 방법과 동일하므로, 상기 실시예의 관련 설명을 참조할 수 있으며, 여기서 더 이상 설명하지 않는다.

상기 방법을 사용하면, 트레이닝 완료된 검출 서브 모델을 사용하여 샘플 이미지에서 각 검출 프레임의 위치 정보, 검출 특징 및 제1 텍스트 정보를 정확하게 추출하여 이후 추출된 제1 텍스트 정보에서 추출할 속성에 매칭되는 제2 텍스트 정보를 획득할 수 있다. 본 발명의 실시예는 멀티 모달 특징을 추출할 때 탬플릿의 지정된 위치 또는 키워드의 위치에 의존하지 않으므로, 검출할 이미지 중의 제1 텍스트 정보가 왜곡, 변형되거나 인쇄 편이 등 문제가 존재하는 경우에도 검출할 이미지에서 멀티 모달 특징을 추출해낼 수 있다.

본 발명의 다른 실시예에서, 출력 서브 모델은 디코더 및 다층 퍼셉트론 네트워크를 포함하고, 도 7에 도시된 바와 같이, 단계 S503은 아래의 단계를 포함할 수 있다.

단계 S5031에서, 시각적 코딩 특징, 추출할 속성 및 다수개 세트의 멀티 모달 특징을 디코더에 입력하여 디코더에서 출력된 시퀀스 벡터를 얻는다.

여기서, 디코더는 셀프 어텐션 계층 및 인코더-디코더 어텐션 계층을 포함하며, 단계 S5031는 아래의 단계로 구현될 수 있다.

추출할 속성 및 다수개 세트의 멀티 모달 특징을 셀프 어텐션 계층에 입력하여 다수개의 융합 특징을 얻는다. 그 다음, 다수개의 융합 특징 및 시각적 코딩 특징을 인코더-디코더 어텐션 계층에 입력하여 인코더-디코더 어텐션 계층에서 출력된 시퀀스 벡터를 얻는다. 여기서, 각 융합 특징은 한 세트의 멀티 모달 특징과 추출할 속성을 융합하여 얻은 특징이다.

단계 S5032에서, 디코더에서 출력된 시퀀스 벡터를 다층 퍼셉트론 네트워크에 입력하여 다층 퍼셉트론 네트워크에서 출력된 각 제1 텍스트 정보가 속한 카테고리를 얻는다.

여기서, 다층 퍼셉트론 네트워크에서 출력된 카테고리는 정확한 카테고리 및 오류 카테고리를 포함하고, 정확한 카테고리는 멀티 모달 특징 중의 제1 텍스트 정보의 속성이 추출할 속성이 맞다는 것을 나타내고, 오류 카테고리는 멀티 모달 특징 중의 제1 텍스트 정보의 속성이 추출할 속성이 아니라는 것을 나타낸다.

단계 S5033에서, 정확한 카테고리에 속한 제1 텍스트 정보를 추출할 속성에 매칭되는 제2 텍스트 정보로 한다.

본 발명의 실시예를 사용하면, 디코더 중의 어텐션 매커니즘을 통해 다수개 세트의 멀티 모달 특징, 추출할 속성 및 시각적 코딩 특징을 디코딩하여 시퀀스 벡터를 얻음으로써, 다층 퍼셉트론 네트워크는 시퀀스 벡터에 따라 각 제1 텍스트 정보의 카테고리를 출력하고, 정확한 카테고리의 제1 텍스트 정보를 추출할 속성에 매칭되는 제2 텍스트 정보로 결정함으로써 다양한 포맷의 증명서 및 영수증의 텍스트 추출을 구현하여 인력 비용을 절감하고 추출 효율도 높일 수 있다.

이하 도 8에 도시된 텍스트 추출 모델과 결부하여 본 발명의 실시예에서 제공하는 텍스트 추출 방법에 대해 설명하고, 검출할 이미지가 승차권인 것을 예로 들어, 도 8에 도시된 바와 같이, 검출할 이미지에서 다수개 세트의 멀티 모달 특징 queries를 추출할 수 있으며, 멀티 모달 특징은 검출 프레임의 위치 정보Bbox(x, y, w, h), 검출 특징(Detection Features) 및 제1 텍스트 정보(Text)를 포함한다.

본 발명의 실시예에서, 원래 key였던 추출할 속성을 query로 하고, 추출할 속성을 Key Query라 칭할 수 있다. 일례로, 추출할 속성은 구체적으로 시작역일 수 있다.

검출할 이미지(Image)를 백본망(Backbone)에 입력하여 이미지 특징을 추출하고, 이미지 특징에 대해 위치 임베딩(Position embedding)을 수행하고 1차원 벡터로 변환한다.

1차원 벡터를 Transformer 인코더(Transformer Encoder)에 입력하여 코딩를 수행하여 시각적 코딩 특징을 얻는다.

시각적 코딩 특징, 멀티 모달 특징 queries 및 추출할 속성(Key Query)을 Transformer 디코더(Transformer Decoder)에 입력하여 시퀀스 벡터를 얻는다.

시퀀스 벡터를 MLP에 입력하여 각 멀티 모달 특징에 포함된 제1 텍스트 정보의 카테고리를 얻고, 카테고리는 정확한 카테고리(right answer, 또는 Right Value이라고 칭함) 또는 오류 카테고리(wrong answer, 또는 Wrong Value이라고 칭함)이다.

여기서, 제1 텍스트 정보가 정확한 카테고리라는 것은 상기 제1 텍스트 정보의 속성이 추출할 속성이 맞고, 상기 제1 텍스트 정보가 추출하려는 텍스트라는 것을 나타내며, 도 7에서 추출할 속성은 시작역이므로, "천진서역" 카테고리는 정확한 카테고리이며, "천진서역"이 바로 추출하려는 제2 텍스트 정보이다.

본 발명의 실시예를 사용하면, key(추출할 속성)를 Query로 정의하고 Transformer 디코더의 셀프 어텐션 계층에 입력하여, 각 세트의 멀티 모달 특징 Queries를 추출할 속성과 각각 융합, 즉 Transformer 인코더를 사용하여 멀티 모달 특징 및 추출할 속성 사이 관계를 구축한다. 또한 그 다음 Transformer 인코더의 인코더-디코더 어텐션 계층을 사용하여 멀티 모달 특징, 추출할 속성과 시각적 코딩 특징의 융합을 구현하여, 결국 MLP가 key query에 대응되는 value answers를 출력하도록 함으로써 엔드-투-엔드의 구조화된 정보 추출을 구현한다. key-value를 question-answer로 정의하는 방식을 통해 텍스트 추출 모델에 대한 트레이닝이 다양한 포맷의 증명서 및 영수증과 호환되도록 하여, 트레이닝하여 얻은 텍스트 추출 모델이 다양한 고정된 포맷 및 고정되지 않은 포맷의 증명서 및 영수증에 대해 정확하게 구조화된 텍스트를 추출함으로써, 영수증 식별의 서비스 범위를 확장하고 영수증 왜곡, 변형 및 인쇄 편이 등 요소의 영향에 반하여 특정된 텍스트 정보를 정확하게 추출할 수 있다.

상기 방법 실시예에 대응하여, 도 9에 도시된 바와 같이, 본 발명의 실시예는 텍스트 추출 장치를 더 포함하고, 상기 장치는,

검출할 이미지의 시각적 코딩 특징을 획득하는 제1 획득 모듈(901);

검출할 이미지에서 다수개 세트의 멀티 모달 특징을 추출하되, 각 세트의 멀티 모달 특징은 상기 검출할 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함하는 추출 모듈(902); 및

시각적 코딩 특징, 추출할 속성 및 다수개 세트의 멀티 모달 특징을 기반으로 다수개 세트의 멀티 모달 특징에 포함된 제1 텍스트 정보에서 추출할 속성에 매칭되는 제2 텍스트 정보를 획득하는 제2 획득 모듈(903)을 포함하되, 추출할 속성은 추출해야 할 텍스트 정보의 속성이다.

본 발명의 다른 실시예에서, 제2 획득 모듈(903)은 구체적으로,

시각적 코딩 특징, 추출할 속성 및 다수개 세트의 멀티 모달 특징을 디코더에 입력하여 디코더에서 출력된 시퀀스 벡터를 얻고;

디코더에서 출력된 시퀀스 벡터를 다층 퍼셉트론 네트워크에 입력하여 다층 퍼셉트론 네트워크에서 출력된 각 제1 텍스트 정보가 속한 카테고리를 얻되, 다층 퍼셉트론 네트워크에서 출력된 카테고리는 정확한 카테고리와 오류 카테고리를 포함하고;

정확한 카테고리에 속한 제1 텍스트 정보를 추출할 속성에 매칭되는 제2 텍스트 정보로 하도록 사용된다.

추출할 속성 및 다수개 세트의 멀티 모달 특징을 디코더의 셀프 어텐션 계층에 입력하여 다수개의 융합 특징을 얻되 여기서, 각 융합 특징은 한 세트의 멀티 모달 특징과 추출할 속성을 융합하여 얻은 특징이고;

다수개의 융합 특징 및 시각적 코딩 특징을 디코더의 인코더-디코더 어텐션 계층에 입력하여 인코더-디코더 어텐션 계층에서 출력된 시퀀스 벡터를 얻도록 사용된다.

본 발명의 다른 실시예에서, 제1 획득 모듈(901)은 구체적으로,

검출할 이미지를 백본망에 입력하여 백본망에서 출력된 이미지 특징을 획득하고;

이미지 특징과 기 설정된 위치 코딩 특징을 서로 더한 후 코딩 작업을 수행하여 검출할 이미지의 시각적 코딩 특징을 얻도록 사용된다.

본 발명의 다른 실시예에서, 추출 모듈(902)은 구체적으로,

검출할 이미지를 기 설정된 검출 모델에 입력하여 검출할 이미지의 특징 맵 및 다수개의 검출 프레임의 위치 정보를 얻고;

다수개의 검출 프레임의 위치 정보를 이용하여 특징 맵을 절단하여 각 검출 프레임의 검출 특징을 얻고;

다수개의 검출 프레임의 위치 정보를 이용하여 검출할 이미지를 절단하여, 각 검출 프레임 중의 검출할 서브 이미지를 얻고;

기 설정된 식별 모델을 이용하여 각 검출할 서브 이미지 중의 텍스트 정보를 식별하여 각 검출 프레임 중의 제1 텍스트 정보를 얻고;

각 검출 프레임에 대하여 상기 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 스플라이싱하여 상기 검출 프레임에 대응되는 한 세트의 멀티 모달 특징을 얻도록 사용된다.

상기 방법 실시예에 대응하여, 본 발명의 실시예는 텍스트 추출 모델 트레이닝 장치를 더 제공하고, 여기서, 텍스트 추출 모델은 시각적 코딩 서브 모델, 검출 서브 모델 및 출력 서브 모델을 포함하며, 도 10에 도시된 바와 같이, 상기 장치는,

시각적 코딩 서브 모델에서 추출한 샘플 이미지의 시각적 코딩 특징을 획득하는 제1 획득 모듈(1001);

검출 서브 모델이 샘플 이미지에서 추출한 다수개 세트의 멀티 모달 특징을 획득하되, 각 세트의 멀티 모달 특징은 샘플 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함하는 제2 획득 모듈(1002);

시각적 코딩 특징, 추출할 속성 및 다수개 세트의 멀티 모달 특징을 출력 서브 모델에 입력하여 출력 서브 모델에서 출력된 추출할 속성에 매칭되는 제2 텍스트 정보를 얻되, 추출할 속성은 추출해야 할 텍스트 정보의 속성인 텍스트 추출 모듈(1003); 및

출력 서브 모델에서 출력된 제2 텍스트 정보 및 샘플 이미지에서 실제로 추출해야 할 텍스트 정보를 기반으로 텍스트 추출 모델을 트레이닝하는 트레이닝 모듈(1004)을 포함한다.

본 발명의 다른 실시예에서, 출력 서브 모델은 디코더 및 다층 퍼셉트론 네트워크를 포함하고, 텍스트 추출 모듈(1003)은 구체적으로,

본 발명의 다른 실시예에서, 디코더는 셀프 어텐션 계층 및 인코더-디코더 어텐션 계층을 포함하고, 텍스트 추출 모듈(1003)은 구체적으로,

추출할 속성 및 다수개 세트의 멀티 모달 특징을 셀프 어텐션 계층에 입력하여 다수개의 융합 특징을 얻되, 여기서, 각 융합 특징은 한 세트의 멀티 모달 특징과 추출할 속성을 융합하여 얻은 특징이고;

다수개의 융합 특징 및 시각적 코딩 특징을 인코더-디코더 어텐션 계층에 입력하여 인코더-디코더 어텐션 계층에서 출력된 시퀀스 벡터를 얻도록 사용된다.

본 발명의 다른 실시예에서, 시각적 코딩 서브 모델은 백본망 및 인코더를 포함하고, 제1 획득 모듈(1001)은 구체적으로,

샘플 이미지를 백본망에 입력하여 백본망에서 출력된 이미지 특징을 획득하고;

이미지 특징과 기 설정된 위치 코딩 특징을 서로 더한 후 인코더에 입력하여 코딩 작업을 수행하여 샘플 이미지의 시각적 코딩 특징을 얻도록 사용된다.

본 발명의 다른 실시예에서, 상기 검출 서브 모델은 기 설정된 검출 모델 및 기 설정된 식별 모델을 포함하고, 제2 획득 모듈(1002)은 구체적으로,

샘플 이미지를 기 설정된 검출 모델에 입력하여 샘플 이미지의 특징 맵 및 다수개의 검출 프레임의 위치 정보를 얻고;

다수개의 검출 프레임의 위치 정보를 이용하여 샘플 이미지를 절단하여 각 검출 프레임 중의 샘플 서브 이미지를 얻고;

기 설정된 식별 모델을 이용하여 각 샘플 서브 이미지 중의 텍스트 정보를 식별하여 각 검출 프레임 중의 텍스트 정보를 얻고;

본 발명의 실시예에 따르면, 본 발명은 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램을 더 제공한다.

도 11은 본 발명의 실시예의 예시적 전자 기기(1100)를 구현하기 위한 예시적 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크탑, 워크스테이션, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적절한 컴퓨터 등과 같은 다양한 형태의 디지털 컴퓨터를 표시한다. 전자 기기는 또한 개인용 디지털 프로세서, 셀룰러폰, 스마트폰, 웨어러블 장치 및 기타 유사한 컴퓨팅 장치 등과 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본문에 표시된 부재, 이들의 연결과 관계 및 이들의 기능은 단지 예시일 뿐, 본문에서 설명 및/또는 청구된 본 발명의 구현을 제한하기 위한 것이 아니다.

도 11에 도시된 바와 같이, 전자 기기(1100)는 컴퓨팅 유닛(1101)을 포함하고, 상기 컴퓨팅 유닛(1101)은 판독 전용 메모리(ROM)(1102)에 저장된 컴퓨터 프로그램 또는 저장 유닛(1108)으로부터 랜덤 액세스 메모리(RAM)(1103)에 로딩된 컴퓨터 프로그램에 따라 다양한 적절한 동작 및 처리를 수행할 수 있다. RAM(1103)에는 또한 전자 기기(1100)의 동작에 필요한 각종 프로그램 및 데이터가 저장될 수 있다. 컴퓨팅 유닛(1101), ROM(1102) 및 RAM(1103)은 버스(1104)를 통해 서로 연결된다. 입/출력(I/O) 인터페이스(1105)도 버스(1104)에 연결된다.

전자 기기(1100) 중의 키보드, 마우스 등과 같은 입력 유닛(1106); 각종 유형의 디스플레이, 스피커 등과 같은 출력 유닛(1107); 자기 디스크, 광 디스크 등과 같은 저장 유닛(1108); 및 네트워크 카드, 모뎀, 무선 통신 트랜시버 등과 같은 통신 유닛(1109) 등을 포함하는 다수의 부재는 I/O 인터페이스(1105)에 연결된다. 통신 유닛(1109)은 전자 기기(1100)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 통신 네트워크를 통해 다른 기기와 정보/데이터를 교환할 수 있도록 한다.

컴퓨팅 유닛(1101)은 프로세싱 및 컴퓨팅 능력을 갖춘 각종 범용 및/또는 전용 프로세싱 컴포넌트일 수 있다. 컴퓨팅 유닛(1101)의 일부 예시에는, 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 각종 전용 인공지능(AI) 컴퓨팅 칩, 머신 러닝 모델 알고리즘을 실행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로컨트롤러 등을 포함하지만 이에 한정되지는 않는다. 컴퓨팅 유닛(1101)은 위에서 설명된 각 방법 및 처리, 예를 들어 텍스트 추출 방법 또는 텍스트 추출 모델 트레이닝 방법을 구현한다. 예를 들어, 일부 실시예에서, 텍스트 추출 방법 또는 텍스트 추출 모델 트레이닝 방법은 저장 유닛(1108)과 같은 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(1102) 및/또는 통신 유닛(1109)을 통해 전자 기기(1100)에 로드 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(1103)에 로드되고 컴퓨팅 유닛(1101)에 의해 실행될 경우, 위에서 설명된 텍스트 추출 방법 또는 텍스트 추출 모델 트레이닝 방법의 하나 이상의 단계가 수행될 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(1101)은 다른 임의의 적절한 방식(예를 들어, 펌웨어를 통하여)을 통해 텍스트 추출 방법 또는 텍스트 추출 모델 트레이닝 방법을 구현하도록 구성될 수 있다.

본문에서 설명된 시스템 및 기술의 각 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 현장 프로그래머블 게이트 어레이(FPGA), 전용 집적 회로(ASIC), 전용 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그래머블 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 구현될 수 있다. 이런 다양한 실시형태는 다음과 같은 방법을 포함할 수 있다. 즉, 하나 이상의 컴퓨터 프로그램에서 구현되고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능한 프로세서의 프로그램 가능한 시스템에서 실행 및/또는 해석될 수 있고, 상기 프로그램 가능한 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있으며, 스토리지 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신하고, 데이터 및 명령어를 상기 스토리지 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치로 전송할 수 있다.

본 발명의 방법을 구현하기 위한 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 이런 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그램 가능한 데이터 처리 장치 또는 데이터 처리 시스템의 프로세서 또는 컨트롤러에 제공되어, 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때 흐름도 및/또는 블록도에서 지정된 기능/동작이 실현될 수 있다. 프로그램 코드는 완전히 기계에서 실행될 수도 있고, 부분적으로 기계에서 실행될 수도 있으며, 독립형 소프트웨어 패키지로 부분적으로 기계에서 실행되고 부분적으로는 원격 기계에서 실행되거나 전체적으로 원격 기계 또는 서버에서 실행될 수도 있다.

본 발명의 컨텍스트에서, 기계 판독 가능 매체는 명령어 실행 시스템, 장치, 또는 기기에 의해 또는 이와 결부하여 사용하기 위한 프로그램이 포함되거나 저장될 수 있는 유형적 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기이거나 이들의 임의의 적절한 조합을 포함할 수 있지만 이에 한정되지는 않는다. 기계 판독 가능 매체의 보다 구체적인 예시는, 하나 이상의 라인을 기반으로 한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치, 또는 이들의 임의의 적절한 조합이 있다.

사용자와의 상호 작용을 위해, 여기서 설명된 시스템 및 기술은 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터); 및 사용자가 컴퓨터에 입력할 수 있도록 키보드 및 포인팅 장치를 구비한 컴퓨터에서 구현될 수 있다. 사용자와의 상호 작용을 위해 다른 종류의 장치도 사용될 수 있으며; 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각적 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있으며; 사용자의 입력은 임의의 형태(소리 입력, 음성 입력 또는 촉각적 입력)로 수신될 수 있다.

여기서 설명한 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비한 사용자 컴퓨터, 사용자는 상기 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기서 설명한 시스템 및 기술의 실시형태와 상호 작용할 수 있음), 또는 이런 백엔드 부재, 미들웨어 부재 또는 프론트엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 부재는 임의의 방식 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)를 통해 서로 연결될 수 있다. 통신 네트워크의 예시로는 근거리 통신망(LAN), 광대역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 상응한 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램을 통해 발생한다. 서버는 클라우드 서버일 수도 있고, 분산 시스템의 서버일 수도 있으며, 또는 블록체인을 결합한 서버일 수도 있다.

이해해야 할 것은, 위에 표시된 각종 형태의 프로세스를 사용하여 단계를 재정렬, 추가 또는 삭제할 수 있다. 예를 들어, 본 발명에 기술된 각 단계는 본 발명에 개시된 기술적 해결방안의 원하는 결과를 달성할 수 있는 한, 병렬, 순차적 또는 다른 순서로 수행될 수 있으며, 본문은 이에 대해 제한하지 않는다.

상술한 발명을 실시하기 위한 구체적인 내용은 본 발명의 보호 범위를 제한하지 않는다. 본 기술분야의 기술자는 설계 요구 및 기타 요인에 따라 다양한 수정, 조합, 하위 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙을 벗어나지 않는 범위에서 이루어진 모든 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims

텍스트 추출 방법으로서,
검출할 이미지의 시각적 코딩 특징을 획득하는 단계;
상기 검출할 이미지에서 다수개 세트의 멀티 모달(Multi modal) 특징을 추출하되, 각 세트의 멀티 모달 특징은 상기 검출할 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함하는 단계; 및
상기 시각적 코딩 특징, 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 기반으로 상기 다수개 세트의 멀티 모달 특징에 포함된 제1 텍스트 정보에서 상기 추출할 속성에 매칭되는 제2 텍스트 정보를 획득하되, 상기 추출할 속성은 추출해야 할 텍스트 정보의 속성인 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 시각적 코딩 특징, 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 기반으로 상기 다수개 세트의 멀티 모달 특징에 포함된 제1 텍스트 정보에서 상기 추출할 속성에 매칭되는 제2 텍스트 정보를 획득하는 상기 단계는,
상기 시각적 코딩 특징, 상기 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 디코더에 입력하여 상기 디코더에서 출력된 시퀀스 벡터를 얻는 단계;
상기 디코더에서 출력된 시퀀스 벡터를 다층 퍼셉트론 네트워크에 입력하여 상기 다층 퍼셉트론 네트워크에서 출력된 각 제1 텍스트 정보가 속한 카테고리를 얻되, 상기 다층 퍼셉트론 네트워크에서 출력된 카테고리는 정확한 카테고리와 오류 카테고리를 포함하는 단계; 및
정확한 카테고리에 속한 제1 텍스트 정보를 상기 추출할 속성에 매칭되는 제2 텍스트 정보로 하는 단계를 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 시각적 코딩 특징, 상기 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 디코더에 입력하여 상기 디코더에서 출력된 시퀀스 벡터를 얻는 상기 단계는,
상기 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 상기 디코더의 셀프 어텐션 계층(Self-attention layer)에 입력하여 다수개의 융합 특징을 얻되, 각 융합 특징은 한 세트의 멀티 모달 특징과 상기 추출할 속성을 융합하여 얻은 특징인 단계; 및
상기 다수개의 융합 특징 및 상기 시각적 코딩 특징을 상기 디코더의 인코더-디코더 어텐션 계층(Encoder-decoder attention layer)에 입력하여 상기 인코더-디코더 어텐션 계층에서 출력된 상기 시퀀스 벡터를 얻는 단계를 포함하는 것을 특징으로 하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
검출할 이미지의 시각적 코딩 특징을 획득하는 상기 단계는,
상기 검출할 이미지를 백본망에 입력하여 상기 백본망에서 출력된 이미지 특징을 획득하는 단계; 및
상기 이미지 특징과 기 설정된 위치 코딩 특징을 서로 더한 후 코딩 작업을 수행하여 상기 검출할 이미지의 시각적 코딩 특징을 얻는 단계를 포함하는 것을 특징으로 하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 검출할 이미지에서 다수개 세트의 멀티 모달 특징을 추출하는 상기 단계는,
상기 검출할 이미지를 기 설정된 검출 모델에 입력하여 상기 검출할 이미지의 특징 맵 및 다수개의 검출 프레임의 위치 정보를 얻는 단계;
상기 다수개의 검출 프레임의 위치 정보를 이용하여 상기 특징 맵을 절단하여 각 검출 프레임의 검출 특징을 얻는 단계;
상기 다수개의 검출 프레임의 위치 정보를 이용하여 상기 검출할 이미지를 절단하여 각 검출 프레임 중의 검출할 서브 이미지를 얻는 단계;
기 설정된 식별 모델을 이용하여 각 검출할 서브 이미지 중의 텍스트 정보를 식별하여 각 검출 프레임 중의 제1 텍스트 정보를 얻는 단계; 및
각 검출 프레임에 대하여 상기 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 스플라이싱하여 상기 검출 프레임에 대응되는 한 세트의 멀티 모달 특징을 얻는 단계를 포함하는 것을 특징으로 하는 방법.
텍스트 추출 모델 트레이닝 방법으로서,
상기 텍스트 추출 모델은 시각적 코딩 서브 모델, 검출 서브 모델 및 출력 서브 모델을 포함하고,
상기 방법은,
상기 시각적 코딩 서브 모델에서 추출한 샘플 이미지의 시각적 코딩 특징을 획득하는 단계;
상기 검출 서브 모델이 상기 샘플 이미지에서 추출한 다수개 세트의 멀티 모달 특징을 획득하되, 각 세트의 멀티 모달 특징은 상기 샘플 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함하는 단계;
상기 시각적 코딩 특징, 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 상기 출력 서브 모델에 입력하여 상기 출력 서브 모델에서 출력된 상기 추출할 속성에 매칭되는 제2 텍스트 정보를 얻되, 상기 추출할 속성은 추출해야 할 텍스트 정보의 속성인 단계; 및
상기 출력 서브 모델에서 출력된 제2 텍스트 정보 및 상기 샘플 이미지에서 실제로 추출해야 할 텍스트 정보를 기반으로 상기 텍스트 추출 모델을 트레이닝하는 단계를 포함하는 것을 특징으로 하는 방법.
제6항에 있어서,
상기 출력 서브 모델은 디코더 및 다층 퍼셉트론 네트워크를 포함하고,
상기 시각적 코딩 특징, 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 상기 출력 서브 모델에 입력하여 상기 출력 서브 모델에서 출력된 상기 추출할 속성에 매칭되는 제2 텍스트 정보를 얻는 상기 단계는,
상기 시각적 코딩 특징, 상기 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 상기 디코더에 입력하여 상기 디코더에서 출력된 시퀀스 벡터를 얻는 단계;
상기 디코더에서 출력된 시퀀스 벡터를 상기 다층 퍼셉트론 네트워크에 입력하여 상기 다층 퍼셉트론 네트워크에서 출력된 각 제1 텍스트 정보가 속한 카테고리를 얻되, 상기 다층 퍼셉트론 네트워크에서 출력된 카테고리는 정확한 카테고리와 오류 카테고리를 포함하는 단계; 및
정확한 카테고리에 속한 제1 텍스트 정보를 상기 추출할 속성에 매칭되는 제2 텍스트 정보로 하는 단계를 포함하는 것을 특징으로 하는 방법.
제7항에 있어서,
상기 디코더는 셀프 어텐션 계층 및 인코더-디코더 어텐션 계층을 포함하고,
상기 시각적 코딩 특징, 상기 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 상기 디코더에 입력하여 상기 디코더에서 출력된 시퀀스 벡터를 얻는 상기 단계는,
상기 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 상기 셀프 어텐션 계층에 입력하여 다수개의 융합 특징을 얻되, 각 융합 특징은 한 세트의 멀티 모달 특징과 상기 추출할 속성을 융합하여 얻은 특징인 단계; 및
상기 다수개의 융합 특징 및 상기 시각적 코딩 특징을 상기 인코더-디코더 어텐션 계층에 입력하여 상기 인코더-디코더 어텐션 계층에서 출력된 상기 시퀀스 벡터를 얻는 단계를 포함하는 것을 특징으로 하는 방법.
제6항 내지 제8항 중 어느 한 항에 있어서,
상기 시각적 코딩 서브 모델은 백본망 및 인코더를 포함하고,
상기 시각적 코딩 서브 모델에서 추출한 샘플 이미지의 시각적 코딩 특징을 획득하는 상기 단계는,
상기 샘플 이미지를 상기 백본망에 입력하여 상기 백본망에서 출력된 이미지 특징을 획득하는 단계; 및
상기 이미지 특징과 기 설정된 위치 코딩 특징을 서로 더한 후 상기 인코더에 입력하여 코딩 작업을 수행하여 상기 샘플 이미지의 시각적 코딩 특징을 얻는 단계를 포함하는 것을 특징으로 하는 방법.
제6항 내지 제8항 중 어느 한 항에 있어서,
상기 검출 서브 모델은 기 설정된 검출 모델 및 기 설정된 식별 모델을 포함하고,
상기 검출 서브 모델이 상기 샘플 이미지에서 추출한 다수개 세트의 멀티 모달 특징을 획득하는 상기 단계는,
상기 샘플 이미지를 상기 기 설정된 검출 모델에 입력하여 상기 샘플 이미지의 특징 맵 및 다수개의 검출 프레임의 위치 정보를 얻는 단계;
상기 다수개의 검출 프레임의 위치 정보를 이용하여 상기 특징 맵을 절단하여, 각 검출 프레임의 검출 특징을 얻는 단계;
상기 다수개의 검출 프레임의 위치 정보를 이용하여 상기 샘플 이미지를 절단하여, 각 검출 프레임 중의 샘플 서브 이미지를 얻는 단계;
상기 기 설정된 식별 모델을 이용하여 각 샘플 서브 이미지 중의 텍스트 정보를 식별하여 각 검출 프레임 중의 제1 텍스트 정보를 얻는 단계; 및
각 검출 프레임에 대하여 상기 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 스플라이싱하여 상기 검출 프레임에 대응되는 한 세트의 멀티 모달 특징을 얻는 단계를 포함하는 것을 특징으로 하는 방법.
텍스트 추출 장치로서,
검출할 이미지의 시각적 코딩 특징을 획득하는 제1 획득 모듈;
상기 검출할 이미지에서 다수개 세트의 멀티 모달 특징을 추출하되, 각 세트의 멀티 모달 특징은 상기 검출할 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함하는 추출 모듈; 및
상기 시각적 코딩 특징, 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 기반으로 상기 다수개 세트의 멀티 모달 특징에 포함된 제1 텍스트 정보에서 상기 추출할 속성에 매칭되는 제2 텍스트 정보를 획득하는 제2 획득 모듈을 포함하되, 상기 추출할 속성은 추출해야 할 텍스트 정보의 속성인 것을 것을 특징으로 하는 장치.
제11항에 있어서
상기 제2 획득 모듈은 구체적으로,
상기 시각적 코딩 특징, 상기 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 디코더에 입력하여 상기 디코더에서 출력된 시퀀스 벡터를 얻고;
상기 디코더에서 출력된 시퀀스 벡터를 다층 퍼셉트론 네트워크에 입력하여 상기 다층 퍼셉트론 네트워크에서 출력된 각 제1 텍스트 정보가 속한 카테고리를 얻되, 상기 다층 퍼셉트론 네트워크에서 출력된 카테고리는 정확한 카테고리와 오류 카테고리를 포함하고;
정확한 카테고리에 속한 제1 텍스트 정보를 상기 추출할 속성에 매칭되는 제2 텍스트 정보로 하도록 사용되는 것을 특징으로 하는 장치.
제12항에 있어서,
상기 제2 획득 모듈은 구체적으로,
상기 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 상기 디코더의 셀프 어텐션 계층에 입력하여 다수개의 융합 특징을 얻되, 각 융합 특징은 한 세트의 멀티 모달 특징과 상기 추출할 속성을 융합하여 얻은 특징이고;
상기 다수개의 융합 특징 및 상기 시각적 코딩 특징을 상기 디코더의 인코더-디코더 어텐션 계층에 입력하여 상기 인코더-디코더 어텐션 계층에서 출력된 상기 시퀀스 벡터를 얻도록 사용되는 것을 특징으로 하는 장치.
제11항 내지 제13항 중 어느 한 항에 있어서,
상기 제1 획득 모듈은 구체적으로,
상기 검출할 이미지를 백본망에 입력하여 상기 백본망에서 출력된 이미지 특징을 획득하고;
상기 이미지 특징과 기 설정된 위치 코딩 특징을 서로 더한 후 코딩 작업을 수행하여 상기 검출할 이미지의 시각적 코딩 특징을 얻도록 사용되는 것을 특징으로 하는 장치.
제11항 내지 제13항 중 어느 한 항에 있어서,
상기 추출 모듈은 구체적으로,
상기 검출할 이미지를 기 설정된 검출 모델에 입력하여 상기 검출할 이미지의 특징 맵 및 다수개의 검출 프레임의 위치 정보를 얻고;
상기 다수개의 검출 프레임의 위치 정보를 이용하여 상기 특징 맵을 절단하여 각 검출 프레임의 검출 특징을 얻고;
상기 다수개의 검출 프레임의 위치 정보를 이용하여 상기 검출할 이미지를 절단하여 각 검출 프레임 중의 검출할 서브 이미지를 얻고;
기 설정된 식별 모델을 이용하여 각 검출할 서브 이미지 중의 텍스트 정보를 식별하여 각 검출 프레임 중의 제1 텍스트 정보를 얻고;
각 검출 프레임에 대하여 상기 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 스플라이싱하여 상기 검출 프레임에 대응되는 한 세트의 멀티 모달 특징을 얻도록 사용되는 것을 특징으로 하는 장치.
텍스트 추출 모델 트레이닝 장치로서,
상기 텍스트 추출 모델은 시각적 코딩 서브 모델, 검출 서브 모델 및 출력 서브 모델을 포함하고,
상기 장치는,
상기 시각적 코딩 서브 모델에서 추출한 샘플 이미지의 시각적 코딩 특징을 획득하는 제1 획득 모듈;
상기 검출 서브 모델이 상기 샘플 이미지에서 추출한 다수개 세트의 멀티 모달 특징을 획득하되, 각 세트의 멀티 모달 특징은 상기 샘플 이미지에서 추출한 하나의 검출 프레임의 위치 정보, 상기 검출 프레임의 검출 특징 및 상기 검출 프레임 중의 제1 텍스트 정보를 포함하는 제2 획득 모듈;
상기 시각적 코딩 특징, 추출할 속성 및 상기 다수개 세트의 멀티 모달 특징을 상기 출력 서브 모델에 입력하여 상기 출력 서브 모델에서 출력된 상기 추출할 속성에 매칭되는 제2 텍스트 정보를 얻되, 상기 추출할 속성은 추출해야 할 텍스트 정보의 속성인 텍스트 추출 모듈; 및
상기 출력 서브 모델에서 출력된 제2 텍스트 정보 및 상기 샘플 이미지에서 실제로 추출해야 할 텍스트 정보를 기반으로 상기 텍스트 추출 모델을 트레이닝하는 트레이닝 모듈을 포함하는 것을 특징으로 하는 장치.
전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 제1항 내지 제3항 또는 제6항 내지 제8항 중 어느 한 항에 따른 방법을 구현하도록 하는 것을 특징으로 하는 전자 기기.
컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제3항 또는 제6항 내지 제8항 중 어느 한 항에 따른 방법을 구현하도록 하는 것을 특징으로 하는 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은 명령을 포함하되, 상기 명령은 적어도 하나의 프로세서에 의해 실행될 경우 제1항 내지 제3항 또는 제6항 내지 제8항 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.