KR20220125712A - 이미지 처리 방법, 텍스트 인식 방법 및 장치 - Google Patents

이미지 처리 방법, 텍스트 인식 방법 및 장치 Download PDF

Info

Publication number
KR20220125712A
KR20220125712A KR1020220107491A KR20220107491A KR20220125712A KR 20220125712 A KR20220125712 A KR 20220125712A KR 1020220107491 A KR1020220107491 A KR 1020220107491A KR 20220107491 A KR20220107491 A KR 20220107491A KR 20220125712 A KR20220125712 A KR 20220125712A
Authority
KR
South Korea
Prior art keywords
field
feature
image
text
location
Prior art date
Application number
KR1020220107491A
Other languages
English (en)
Inventor
징투어 리우
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220125712A publication Critical patent/KR20220125712A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/199Arrangements for recognition using optical reference masks, e.g. holographic masks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/20Combination of acquisition, preprocessing or recognition functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Abstract

본 출원은 이미지 처리 방법, 텍스트 인식 방법 및 장치를 제공하며, 인공지능 기술분야에 관한 것으로, 구체적으로 딥 러닝, 컴퓨터 비전 기술분야에 관한 것이다. 이미지 처리 방법은, 획득된 샘플 이미지에 대해 사전 처리하여, 샘플 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득하는 단계, 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 기초로, 필드의 위치 정보에 대하여 마스크 예측을 수행하여, 예측 결과를 획득하는 단계, 예측 결과를 기초로 훈련하여 텍스트 인식 모델을 획득하되, 텍스트 인식 모델은 인식될 이미지에 대해 텍스트 인식을 수행하기 위한 것인 단계를 포함하여, 샘플 이미지의 여러 차원의 내용을 융합하여 "사전 훈련"을 수행함으로써, "사전 훈련"이 보다 높은 전면성과 신뢰성을 구비하도록 하고, 예측 결과를 기초로 텍스트 인식 모델을 생성할 경우, 텍스트 인식 모델이 보다 높은 정확성을 가지도록 하며, 나아가 텍스트 인식 모델을 기초로 텍스트 인식을 수행할 경우, 텍스트 인식의 신뢰성을 향상시킨다.

Description

이미지 처리 방법, 텍스트 인식 방법 및 장치{IMAGE PROCESSING METHOD, TEXT RECOGNITION METHOD AND DEVICE}
본 출원은 인공지능 기술분야에 관한 것으로, 구체적으로는 딥 러닝, 컴퓨터 비전 기술분야에 관한 것이며, 광학 캐릭터 인식(OCR, Optical Character Recognition) 등 시나리오에 응용될 수 있고, 특히 이미지 처리 방법, 텍스트 인식 방법 및 장치에 관한 것이다.
인공지능(Artificial Intelligence, AI) 기술의 발전에 따라, 네트워크 모델은 다양한 분야에 광범위하게 응용되고 있으며, 예컨대 텍스트 인식 모델을 훈련하여 텍스트 인식 모델을 기초로 이미지 중의 문자에 대해 인식하여 텍스트 내용 등을 획득한다.
관련 기술에서, 일반적으로 표기된 샘플 이미지를 사용하여 기초 네트워크 모델에 대해 훈련하여, 기초 네트워크 모델이 샘플 이미지 중의 텍스트 내용에 대해 인식하는 능력을 학습하도록 함으로써, 텍스트 인식 모델을 획득한다.
하지만, 상술한 방법을 사용하면 텍스트 인식 모델의 신뢰성이 낮은 기술문제가 있다.
본 출원은 이미지 처리 신뢰성을 향상시키기 위한 이미지 처리 방법, 텍스트 인식 방법 및 장치를 제공한다.
본 출원의 제1 측면에 따르면, 이미지 처리 방법을 제공하는 바,
획득된 샘플 이미지에 대해 사전 처리하여, 상기 샘플 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득하는 단계;
상기 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 기초로, 상기 필드의 위치 정보에 대해 마스크 예측을 수행하여, 예측 결과를 획득하는 단계;
상기 예측 결과를 기초로 훈련하여 텍스트 인식 모델을 획득하되, 여기서, 상기 텍스트 인식 모델은 인식될 이미지에 대해 텍스트 인식을 수행하기 위한 것인 단계를 포함한다.
본 출원의 제2 측면에 따르면, 텍스트 인식 방법을 제공하는 바,
인식될 이미지를 획득하는 단계;
사전 훈련된 텍스트 인식 모델에 기반하여 상기 인식될 이미지에 대해 텍스트 인식을 수행하여, 상기 인식될 이미지의 텍스트 내용을 획득하는 단계를 포함하고;
여기서, 상기 텍스트 인식 모델은 제1 측면에 따른 방법으로 획득된 것이다.
본 출원의 제3 측면에 따르면, 이미지 처리 장치를 제공하는 바,
획득된 샘플 이미지에 대해 사전 처리하여, 상기 샘플 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득하는 제1 처리 유닛;
상기 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 기초로, 상기 필드의 위치 정보에 대해 마스크 예측을 수행하여, 예측 결과를 획득하는 예측 유닛;
상기 예측 결과를 기초로 훈련하여 텍스트 인식 모델을 획득하되, 여기서, 상기 텍스트 인식 모델은 인식될 이미지에 대해 텍스트 인식을 수행하기 위한 것인 훈련 유닛을 포함한다.
본 출원의 제4 측면에 따르면, 텍스트 인식 장치를 제공하는 바,
인식될 이미지를 획득하는 획득 유닛;
사전 훈련된 텍스트 인식 모델에 기반하여 상기 인식될 이미지에 대해 텍스트 인식을 수행하여, 상기 인식될 이미지의 텍스트 내용을 획득하는 인식 유닛을 포함하며;
여기서, 상기 텍스트 인식 모델은 제1 측면에 따른 방법으로 훈련된 것이다.
본 출원의 제5 측면에 따르면, 전자기기를 제공하는 바,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하되; 여기서,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1 측면 또는 제2 측면에 따른 방법을 실행할 수 있도록 한다.
본 출원의 제6 측면에 따르면, 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체를 제공하는 바, 여기서, 상기 컴퓨터 명령은 컴퓨터가 제1 측면 또는 제2 측면에 따른 방법을 실행하도록 하기 위한 것이다.
본 출원의 제7 측면에 따르면, 컴퓨터 프로그램 제품을 제공하는 바, 상기 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램은 판독 가능 저장매체에 저장되고, 전자기기의 적어도 하나의 프로세서는 상기 판독 가능 저장매체로부터 상기 컴퓨터 프로그램을 판독할 수 있고, 상기 적어도 하나의 프로세서는 상기 컴퓨터 프로그램을 실행하여 전자기기가 제1 측면 또는 제2 측면에 따른 방법을 실행하도록 한다.
본 출원의 제8 측면에 따르면, 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 제1 측면 또는 제2 측면에 따른 방법을 구현한다.
본 출원의 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 결합하여, 필드의 위치 정보에 대하여 마스크 예측을 수행하여, "사전 훈련"을 완성하고, "사전 훈련"된 예측 결과에 기반하여 훈련하여 텍스트 인식 모델을 획득하는 기술방안에 따르면, 샘플 이미지의 여러 차원의 내용을 융합하여 "사전 훈련"을 수행하였기에, "사전 훈련"이 보다 높은 전면성과 신뢰성을 구비하도록 할 수 있고, 이로부터 예측 결과에 기반하여 텍스트 인식 모델(즉, "트리밍"을 완성)을 생성할 경우, 텍스트 인식 모델이 보다 높은 정확성과 신뢰성을 가지도록 할 수 있으며, 나아가 텍스트 인식 모델을 기초로 텍스트 인식을 수행할 경우, 텍스트 인식의 정확성을 향상시킬 수 있다.
본 부분에 기재되는 내용은 본 출원의 실시예의 핵심 또는 중요 특징을 표시하려는 목적이 아니며, 본 출원의 범위를 한정하는 것도 아닌 것으로 이해하여야 한다. 본 출원의 기타 특징은 아래의 명세서로부터 쉽게 이해할 수 있다.
첨부되는 도면은 본 방안을 더 충분히 이해하도록 제공되는 것으로서, 본 출원에 대한 한정은 아니다.
도 1은 본 출원의 실시예의 이미지 처리 방법, 텍스트 인식 방법을 구현할 수 있는 시나리오 도면이다.
도 2는 본 출원의 제1 실시예의 도면이다.
도 3은 본 출원의 제2 실시예의 도면이다.
도 4는 본 출원의 제3 실시예의 도면이다.
도 5는 본 출원의 원리를 나타내는 도면 1이다.
도 6은 본 출원의 원리를 나타내는 도면 2이다.
도 7은 본 출원의 제4 실시예의 도면이다.
도 8은 본 출원의 제5 실시예의 도면이다.
도 9는 본 출원의 제6 실시예의 도면이다.
도 10은 본 출원의 제7 실시예의 도면이다.
도 11은 본 출원의 제8 실시예의 도면이다.
도 12는 본 출원의 제9 실시예의 도면이다.
도 13은 본 출원의 제10 실시예의 도면이다.
도 14는 본 출원의 실시예의 이미지 처리 방법, 텍스트 인식 방법을 구현하기 위한 전자기기의 블록도이다.
아래에서는 첨부 도면과 결합하여 본 출원의 예시적인 실시예에 대해 설명하며, 이해를 돕기 위하여 본 출원의 실시예의 다양한 세부 사항을 포함하며, 이들은 단지 예시적인 것으로만 간주되어야 한다. 따라서, 본 분야의 통상적인 지식을 가진 자라면, 여기에 설명된 실시예에 대하여 다양한 변경과 수정을 가할 수 있으며, 이는 본 출원의 범위와 정신을 벗어나지 않음을 이해해야 한다. 마찬가지로, 명확성과 간결성을 위하여, 아래의 설명에서 공지 기능과 구조에 대한 설명을 생략한다.
문서 이미지 구조화는 이미지 중의 텍스트 내용(이미지 중의 모든 문자 정보를 의미함), 핵심 정보(수요 등에 따라 확정될 수 있는 관심받는 부분의 정보를 의미함)를 추출하여 이미지 중의 내용을 디지털화 및 구조화하는 것을 말한다.
상응하게, 텍스트 구조화 정보는 문서 이미지 구조화를 거쳐 얻어지는 텍스트 구조화 정보, 즉 텍스트 내용으로 이해될 수 있다.
예를 들어, 도 1에 도시된 바와 같은 영수증에 대해 문서 이미지 구조화를 수행할 경우, 도 1에 도시된 바와 같은 영수증을 촬영하여 영수증 이미지를 획득하여 영수증 번호, 금액, 날짜 등과 같은 영수증 이미지 중의 정보를 추출할 수 있다.
이해해야 할 것은, 도 1은 단지 문서 이미지의 가능한 형태를 예시적으로 설명하기 위한 것일 뿐, 문서 이미지에 대한 제한으로 해석되어서는 안되며, 문서 이미지는 예컨대 차배표 이미지와 같은 텍스트 내용을 포함하는 이미지로 이해될 수 있으며, 간판 이미지 등이 될 수도 있다.
문서 이미지 구조화는 텍스트 내용을 포함하는 이미지 중의 텍스트 내용을 획득하는 과정으로 이해될 수 있으며, 인공지능 기술의 발전에 따라 네트워크 모델을 기초로 구현할 수 있으며, 예컨대 텍스트 인식 모델을 훈련하여 텍스트 인식 모델을 기초로 인식될 이미지에 대해 문자 인식을 수행하여 인식될 이미지 중의 텍스트 내용을 획득할 수 있다.
일부 실시예에서, 샘플 이미지를 기초로 기초 네트워크 모델을 훈련하여 텍스트 인식 모델을 획득할 수 있다.
예를 들어, 서로 다른 응용 시나리오에 대해, 응용 시나리오에 대응되는 샘플 이미지(텍스트 내용 포함)를 선택하고, 샘플 이미지에 대해 표기하고, 표기된 후의 샘플 이미지를 기초로 기초 네트워크 모델을 훈련하여 텍스트 인식 모델을 획득한다.
상술한 분석을 결합하여, 서로 다른 응용 시나리오의 텍스트 인식 모델은 서로 다른 유형의 문서 이미지의 텍스트 내용을 검출하는데 사용될 수 있으며, 예컨대 영수증 응용 시나리오에 있어서, 영수증 이미지에 대해 인식하는 텍스트 인식 모델을 훈련할 때, 샘플 영수증 이미지를 획득하고, 샘플 영수증 이미지를 표기하고, 표기된 후의 샘플 영수증 이미지를 기초로 기초 네트워크 모델에 대해 훈련하여 인식될 이미지가 영수증 이미지인 것에 대해 인식하기 위한 텍스트 인식 모델을 획득한다.
다른 예로, 차표 응용 시나리오의 경우, 차표 이미지를 인식하기 위한 텍스트 인식 모델을 훈련시킬 때, 샘플 차표 이미지를 획득하고, 샘플 차표 이미지를 표기하고, 표기된 샘플 차표 이미지를 기초로 기초 네트워크 모델을 훈련시켜 인식될 이미지가 차표 이미지인 것에 대해 인식하기 위한 텍스트 인식 모델을 획득한다.
하지만, 이러한 방법을 기초로 서로 다른 응용 시나리오에 대해, 표기된 후에 훈련시키기 위해 해당 응용 시나리오의 샘플 이미지를 전문적으로 수집해야 하므로, 표기 양이 많고 훈련 시간이 길고 범용성이 낮다.
다른 일부 실시예에서, "사전 훈련 + 트리밍" 방식을 사용하여 훈련하여 텍스트 인식 모델을 획득할 수 있다.
여기서, "사전 훈련"은, 응용 시나리오를 구분할 필요가 없이, 샘플 이미지를 기초로 사전 훈련 모델을 생성하는 것으로 이해할 수 있으며, 그 본질은 히든 레이어로 이해할 수 있다. "트리밍"은 히든 레이어의 기초 상에서 응용 시나리오를 결합하여 훈련하여 응용 시나리오에 적용되는 텍스트 인식 모델을 획득하는 것으로 이해할 수 있다.
예시적으로, 상술한 분석을 결합하면, 텍스트 인식 모델의 훈련은 두 개 단계를 포함할 수 있으며, 하나는 "사전 훈련" 단계이고, 하나는 "트리밍" 단계이며, 영수증 응용 시나리오와 차표 응용 시나리오의 경우, "사전 훈련" 단계를 기초로 두 개의 응용 시나리오가 공동으로 사용할 수 있는 히든 레이어를 획득할 수 있고, "트리밍 단계"에서는, 영수증 응용 시나리오에 대하여, 샘플 영수증 이미지와 히든 레이어를 결합하여 훈련하여 영수증 응용 시나리오에 적용되는 텍스트 인식 모델을 획득할 수 있고, 차표 응용 시나리오에 대하여, 샘플 차표 이미지와 히든 레이어를 결합하여 훈련하여 차표 응용 시나리오에 적용되는 텍스트 인식 모델을 획득할 수 있다.
일 예시에서, 마스킹된 비전 언어 모델(Masked Visual-Language Model, MVLM)을 기초로 "사전 훈련"을 완성할 수 있다.
예를 들어, 마스킹된 비전 언어 모델을 기초로 샘플 이미지 중의 부분 문자에 대해 마스크(mask) 처리를 수행할 수 있으며, 즉, 샘플 이미지 중의 부분 문자를 가리고, 샘플 이미지 중의 가려지지 않은 부분 문자를 기초로 가려진 부분 문자를 복원한다.
여기서, 구체적으로 샘플 이미지 중의 가려지지 않은 부분 문자의 문맥을 기초로 가려진 부분 문자를 확정할 수 있다. 샘플 이미지의 부분 문자를 가릴 때, 가려진 것은 부분 문자의 텍스트 자체와 샘플 이미지 중의 가려진 부분 문자가 위치한 영역일 수 있다.
다른 예시에서, 텍스트 길이 예측 방식을 사용하여 "사전 훈련"을 완성할 수 있다.
예를 들어, 샘플 이미지의 비전 특징을 획득하고, 비전 특징을 기초로 예측하여 샘플 이미지 중의 텍스트 내용의 캐릭터 길이를 획득하고, 예측된 캐릭터 길이와 실제 캐릭터 길이(미리 표기한 것)를 기초로 "사전 훈련"을 완성할 수 있다.
다른 예시에서, 필드 사이의 위치 정보를 기초로 "사전 훈련"을 완성할 수 있다.
예를 들어, 샘플 이미지의 상이한 필드(예컨대 두 필드) 각자가 대응하는 비전 특징을 획득하고, 각 비전 특징을 기초로 상이한 필드의 위치 관계를 예측하여, 예측하여 획득된 상이한 필드의 위치 관계로 "사전 훈련"을 완성할 수 있다.
다른 예시에서, 샘플 이미지 중의 부분 텍스트를 가리고, 부분 텍스트의 출력에 대해 단어 레벨 이진 분류를 수행하여, 각 단어가 가려졌는지 여부를 예측하고, 예측 결과를 기초로 "사전 훈련"을 완성할 수 있다.
다른 예시에서, 샘플 이미지의 부분 이미지를 대체하거나 버려서, 네거티브 샘플을 획득하고, 이진 분류 방식을 기초로 샘플 이미지와 부분 이미지 중의 텍스트 내용이 매칭되는지 여부를 예측하여, 예측 결과를 기초로 "사전 훈련"을 완성할 수 있다.
하지만, 상술한 분석을 결합하면, 상술한 방식을 사용하여 "사전 훈련"을 완성할 때, 일반적으로 텍스트 특징의 차원으로부터 출발하는 것으로, 융합된 샘플 이미지 중의 특징이 상대적으로 전면적이지 못하므로, "사전 훈련"의 신뢰성과 정확성이 보다 낮은 문제가 존재할 수 있다.
상술한 문제 중의 적어도 하나를 방지하기 위하여, 본 출원의 발명자는 창조적 노력을 거쳐, 본 출원의 발명 아이디어를 얻었으며, 즉, 샘플 이미지의 여러 차원의 특징을 결합하여 "사전 훈련"을 완성하고, "트리밍"을 통해 텍스트 인식 모델을 획득하는 것이다.
상술한 발명 아이디어에 기반하여, 본 출원은 인공지능 기술분야, 구체적으로는 딥 러닝, 컴퓨터 비전 기술분야에 응용되는 이미지 처리 방법, 텍스트 인식 방법 및 장치를 제공하며, OCR 등 시나리오에 응용되어 훈련 효율과 신뢰성을 향상시킬 수 있다.
도 2는 본 출원의 제1 실시예의 도면이고, 도 2에 도시된 바와 같이, 본 실시예의 이미지 처리 방법은 아래의 단계를 포함한다.
S201: 획득된 샘플 이미지에 대해 사전 처리하여, 샘플 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득한다.
예시적으로, 본 실시예의 실행 주체는 이미지 처리 장치일 수 있고, 이미지 처리 장치는 서버(예컨대 클라우드단 서버, 또는, 로컬 서버, 또는, 서버 클러스터)일 수 있고, 컴퓨터일 수도 있고, 단말기일 수도 있고, 프로세서일 수도 있고, 칩 등일 수도 있으며, 본 실시예는 한정하지 않는다.
본 실시예는 사전 처리 방식에 대해 한정하지 않으며, 예컨대 문자 검출 기술을 사용하여 구현할 수 있고, 문자 인식 기술을 사용하여 구현할 수도 있다.
해당 단계는, 샘플 이미지를 획득하고, 샘플 이미지에는 필드가 포함되며, 즉 샘플 이미지는 문자를 포함하고, 필드에 대해 사전 처리를 수행하여, 필드의 위치 정보, 예컨대 문자의 픽셀 좌표를 획득할 수 있고, 필드의 이미지 블록, 예컨대 필드를 박스 선택하기 위한 직사각형 박스를 획득할 수도 있고, 필드의 텍스트 내용, 즉, 샘플 이미지의 텍스트 내용을 포함할 수도 있다.
S202: 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 기초로, 필드의 위치 정보에 대하여 마스크 예측을 수행하여, 예측 결과를 획득한다.
여기서, 마스크 예측은, 필드의 위치 정보에 대해 마스크 처리하고, 마스크 전의 위치 정보를 예측하는 것을 말한다.
본 실시예에서, 3개 차원의 내용(즉, 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용)을 결합하여 마스크 예측을 수행하여, 마스크 예측이 보다 높은 신뢰성을 구비하도록 하고, 마스크 예측의 정확성을 향상시킬 수 있으며, 나아가 예측 결과를 결합하여 훈련하여 텍스트 인식 모델을 획득할 경우, 텍스트 인식 모델이 보다 높은 정확성과 신뢰성을 가지도록 할 수 있다.
S203: 예측 결과를 기초로 훈련하여 텍스트 인식 모델을 획득한다.
여기서, 텍스트 인식 모델은 인식될 이미지에 대해 텍스트 인식을 수행하기 위한 것이다.
상술한 실시예를 결합하면, S201-202를 "사전 훈련" 단계로 이해하고, S203을 "트리밍" 단계로 이해할 수 있다.
상술한 분석으로부터, 본 출원은 획득된 샘플 이미지에 대해 사전 처리하여, 샘플 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득하는 단계, 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 기초로, 필드의 위치 정보에 대하여 마스크 예측을 수행하여, 예측 결과를 획득하는 단계, 예측 결과를 기초로 훈련하여 텍스트 인식 모델을 획득하되, 여기서, 텍스트 인식 모델은 인식될 이미지에 대해 텍스트 인식을 수행하기 위한 것인 단계를 포함하는 이미지 처리 방법을 제공함을 알 수 있으며, 본 실시예에서, 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 결합하여, 필드의 위치 정보에 대하여 마스크 예측을 수행하여, "사전 훈련"을 완성하고, "사전 훈련"된 예측 결과를 기초로 훈련하여 텍스트 인식 모델을 획득하는 기술 특징을 통해, 샘플 이미지의 여러 차원의 내용을 융합하여 "사전 훈련"을 수행하였으므로, "사전 훈련"이 보다 높은 전면성과 신뢰성을 구비하도록 하고, 이로부터 예측 결과를 기초로 텍스트 인식 모델(즉, "트리밍"을 완성)을 생성할 경우, 텍스트 인식 모델이 보다 높은 정확성 및 신뢰성을 가지도록 하며, 나아가 텍스트 인식 모델을 기초로 텍스트 인식을 수행할 때, 텍스트 인식의 정확성을 향상시킬 수 있다.
도 3은 본 출원의 제2 실시예의 도면이고, 도 3에 도시된 바와 같이, 본 실시예의 이미지 처리 방법은 아래의 단계를 포함한다.
S301: 획득된 샘플 이미지에 대해 사전 처리하여, 샘플 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득한다.
이해해야 할 바로는, 번거로은 진술을 방지히기 위하여, 본 실시예와 상술한 실시예의 동일한 기술특징에 대하여, 본 실시예는 중복 설명을 생략한다.
S302: 필드의 위치 정보에 대응되는 위치 특징을 획득하고, 이미지 블록에 대응되는 비전 특징을 획득하고, 텍스트 내용에 대응되는 텍스트 특징을 획득한다.
본 실시예는 상술한 3개 차원의 특징을 획득하는 방식에 대하여 한정하지 않으며, 예를 들어, 모델의 방식을 통해 구현할 수 있고, 알고리즘의 방식을 통해 구현할 수도 있다.
여기서, 위치 특징은 샘플 이미지에서의 픽셀 좌표 차원에서 필드를 나타내는 특징 벡터일 수 있고, 비전 특징은 비전 차원(예컨대 색상과 텍스쳐 등)에서 필드를 나타내는 특징 벡터일 수 있고, 텍스트 특징은 문자 특색 차원(예컨대 필획과 구조 등)에서 필드를 나타내는 특징 벡터일 수 있다.
S303: 필드의 위치 특징, 비전 특징, 및 텍스트 특징을 기초로, 필드의 위치 특징에 대해 마스크 예측을 수행하여, 사전 훈련 모델을 획득한다.
다시 말하면, 예측 결과는 사전 훈련 모델일 수 있다. 상술한 분석을 결합하면, 예측 결과는 본질적으로 히든 레이어이다는 것을 알 수 있다.
본 실시예에서, 3개 차원의 특징은 샘플 이미지의 특징을 상대적으로 보다 강하게 표현할 수 있으므로, 3개 차원의 특징을 결합하여 필드의 위치 특징에 대해 마스크 예측을 수행할 경우, 마스크 예측이 보다 높은 정확성과 신뢰성을 구비하도록 할 수 있다.
일부 실시예에서, S303은 아래의 단계를 포함할 수 있다.
제1 단계: 필드의 위치 특징 중의 부분 위치 특징을 랜덤으로 제거한다.
여기서, 모델의 훈련 과정은 반복적인 훈련 과정이며, 일부 실시예에서, 수요, 과거 기록, 및 실험 등 방식으로 제거 비례를 설정하고, 제거 비례에 따라 필드의 위치 특징 중의 부분 위치 특징을 랜덤으로 제거할 수 있다. 다른 일부 실시예에서, 다른 제거 비례에 따라, 필드의 위치 특징 중의 부분 위치 특징을 제거할 수도 있다.
제2 단계: 비전 특징, 텍스트 특징, 및 필드의 위치 특징 중 보류된 부분 위치 특징을 기초로, 필드의 위치 특징 중 제거된 부분 위치 특징에 대해 마스크 예측을 수행하여, 사전 훈련 모델을 획득한다.
본 실시예에서, 랜덤 제거 방식을 통해 부분 위치 특징을 제거하여, 사전 훈련 모델이 상이한 위치 특징을 복원할 수 있도록 함으로써, 사전 훈련 모델이 보다 높은 정확성과 신뢰성을 가지도록 하고, 미제거된 3개 차원의 특징을 결합하여, 제거된 부분 위치 특징에 대해 마스크 예측을 수행하여, 마스크 예측이 픽셀 좌표의 차원으로부터 제거된 부분 위치 특징에 대해 복원할 수 있고, 텍스트 내용의 차원으로부터 제거된 부분 위치 특징에 대해 복원할 수도 있고, 문자의 비전 차원으로부터 제거된 부분 위치 특징에 대해 복원할 수도 있도록 할 수 있어, 복원된 부분 위치 특징과 제거된 부분 위치 특징이 고도로 동일하도록 한다.
일부 실시예에서, 제2 단계는 아래와 같은 서브 단계를 포함할 수 있다.
제1 서브 단계: 비전 특징, 텍스트 특징, 및 필드의 위치 특징 중 보류된 부분 위치 특징을 기초로, 예측하여 필드의 위치 특징 중의 제거된 부분 위치 특징을 획득한다.
상술한 분석을 결합하면, 본 실시예에서, 미제거된 3개 차원의 특징을 통해, 예측하여 제거된 부분 위치 특징을 획득하고, 즉, 제거된 부분 위치 특징과 보류된 부분 위치 특징 사이의 픽셀 좌표 상에서의 연관 관계를 고려하고, 문맥 기반 시맨틱 사이의 연관 관계도 고려할 수도 있고, 비전 문맥 간의 연관 관계도 더 고려하여, 예측하여 획득된 제거된 부분 위치 특징이 보다 높은 정확성과 신뢰성을 가지도록 한다.
제2 서브 단계: 필드의 위치 특징 중 제거된 부분 위치 특징에 대응되는 위치 정보를 획득한다.
제3 서브 단계: 필드의 위치 정보, 및 획득된 위치 정보를 기초로, 사전 훈련 모델을 생성한다.
예시적으로, 해당 실시예는, 보류된 3개 차원의 특징을 기초로 예측하여 제거된 부분 위치 특징에 대응되는 위치 정보를 획득하여, 제거되기 전의 위치 정보와 제거된 후의 위치 정보를 기초로 사전 훈련 모델을 생성하는 것을 이해할 수 있다.
일부 실시예에서, 필드의 위치 정보, 및 획득된 위치 정보 사이의 손실 함수를 계산하여, 손실 함수를 기초로 사전 훈련 모델을 획득할 수 있다.
여기서, 손실 함수는, 필드의 위치 정보, 및 획득된 위치 정보 사이의 차이 정보를 표시하기 위한 것이다. 다시 말하면, 제거 전의 위치 정보와 제거 후의 위치 정보 사이의 차이 정보를 결합하여, 사전 훈련 모델을 생성함으로써, 사전 훈련 모델의 생성이 목적성이 있도록 하고, 사전 훈련 모델의 생성의 수렴 속도를 향상시킨다.
S304: 사전 훈련 모델을 기초로 훈련하여 텍스트 인식 모델을 획득한다.
여기서, 텍스트 인식 모델은 인식될 이미지에 대해 텍스트 인식을 수행하기 위한 것이다.
도 4는 본 출원의 제3 실시예의 도면이고, 도 4에 도시된 바와 같이, 본 실시예의 이미지 처리 방법은 아래의 단계를 포함한다.
S401: 샘플 이미지에 대해 문자 검출 처리를 수행하여, 이미지 블록, 및 필드의 위치 정보를 획득한다.
여기서, 이미지 블록은 필드의 위치 정보에 대응되는 영역을 박스 선택하기 위한 바운딩 박스이다.
마찬가지로, 번거로은 진술을 방지히기 위하여, 본 실시예의 상술한 실시예와 동일한 기술 특징은, 본 실시예에서는 중복 설명을 생략한다.
다시 말하면, 문자 검출 기술에 기반하여 샘플 이미지에 대해 사전 처리를 수행하여, 샘플 이미지의 비전 차원에서의 이미지 블록, 및 샘플 이미지의 위치 상에서의 위치 정보를 획득할 수 있다.
S402: 샘플 이미지에 대해 문자 인식 처리를 수행하여, 텍스트 내용을 획득한다.
다시 말하면, 문자 인식 기술을 사용하여 샘플 이미지에 대해 사전 처리를 수행하여, 샘플 이미지의 텍스트 내용을 획득할 수 있다.
예시적으로, 도 5와 결합하면, 사전 처리는 문자 검출 처리와 문자 인식 처리를 포함하고, 샘플 이미지에 대해 문자 검출 처리를 수행하여, 이미지 블록과 위치 정보를 획득하고, 샘플 이미지에 대해 문자 인식 처리를 수행하여, 텍스트 내용을 획득함을 알 수 있다.
본 실시예에서, 서로 다른 사전 처리 방식(즉, 문자 검출 처리와 문자 인식 처리)을 통해 샘플 이미지에 대해 사전 처리를 수행하여, 샘플 이미지의 서로 다른 차원의 내용을 획득함으로써, 샘플 이미지에 대한 사전 처리의 유연성과 다양성을 향상시킨다.
S403: 필드의 위치 정보를 제1 네트워크 모델에 입력하여 필드의 위치 특징을 출력한다.
예시적으로, 도 5에 도시된 바와 같이, 제1 네트워크 모델이 출력하는 것은 위치 특징이다.
S404: 이미지 블록을 제2 네트워크 모델에 입력하여, 비전 특징을 출력한다.
S405: 텍스트 내용을 제3 네트워크 모델에 입력하여, 텍스트 특징을 출력한다.
여기서, 본 실시예는 제1 네트워크 모델, 제2 네트워크 모델, 제3 네트워크 모델의 네트워크 프레임워크, 구조, 및 파라미터 등에 대해 한정하지 않는다. 각 네트워크 모델에 기반하여 각자에 대응되는 특징을 추출하는 구현 원리는, 관련 기술을 참조할 수 있으며, 본 실시예는 한정하지 않는다.
본 실시예에서, 병행 방식을 통해 샘플 이미지의 3개 차원의 특징을 확정하여, 각 특징 간의 간섭을 방지하고, 각 특징을 확정하는 효율과 정확성을 향상시킬 수 있다.
S406: 필드의 위치 특징 중의 부분 위치 특징을 랜덤으로 제거하여, 보류된 부분 위치 특징을 획득한다.
예시적으로, 도 5에 도시된 바와 같이, 제1 네트워크 모델로부터 출력된 위치 특징, 제2 네트워크 모델로부터 출력된 비전 특징, 및 제3 네트워크 모델로부터 출력된 텍스트 특징에 대해, 랜덤 위치 특징 제거를 수행하여, 보류된 특징을 획득한다.
여기서, 보류된 특징은 제2 네트워크 모델이 출력한 비전 특징, 제3 네트워크 모델이 출력한 텍스트 특징, 및 제1 네트워크 모델이 출력한 위치 특징 중에서 랜덤으로 제거되지 않은 위치 특징을 포함한다.
S407: 비전 특징, 텍스트 특징, 및 필드의 위치 특징 중에서 보류된 부분 위치 특징을 제4 네트워크 모델에 입력하여, 필드의 위치 특징 중 제거된 부분 위치 특징의 위치 정보를 출력한다.
마찬가지로, 본 실시예는 제4 네트워크 모델에 대해 한정하지 않는다.
예시적으로, 도 5에 도시된 바와 같이, 보류된 특징(비전 특징, 텍스트 특징, 및 필드의 위치 특징 중 보류된 부분 위치 특징을 포함)을 제4 네트워크 모델에 입력하여, 랜덤으로 위치 특징이 제거된 위치 특징의 위치 정보를 예측하여 획득한다.
마찬가지로, 본 실시예에서, 3개 차원의 특징을 결합하여 랜덤으로 위치 특징이 제거된 위치 특징의 위치 정보를 예측하여 획득함으로써, 예측하여 획득된 위치 정보가 보다 높은 정확성과 신뢰성을 가지도록 할 수 있으며, 즉 제거된 위치 특징에 대응되는 위치 정보를 상대적으로 보다 정확하게 복원할 수 있다.
S408: 필드의 위치 정보, 및 출력된 위치 정보 사이의 손실 함수를 계산한다.
예시적으로, 도 5에 도시된 바와 같이, 문자 검출 처리를 거쳐 획득된 위치 정보, 제4 네트워크 모델이 예측하여 획득된 위치 정보의 손실 함수를 계산한다.
여기서, 손실 함수는 필드의 위치 정보, 및 출력된 위치 정보 사이의 거리 손실을 포함할 수 있다.
예시적으로, 필드의 위치 정보, 및 획득된 위치 정보 사이의 거리 손실을 계산하고, 거리 손실을 손실 함수로 확정할 수 있다.
상술한 분석을 결합하면, 본 실시예에서, 위치 특징에 대해 마스크 예측을 수행하여 사전 훈련 모델을 획득하기에, 거리 손실을 손실 함수로 확정하여, 손실 함수가 목적성 있게 마스크 처리 전 후의 위치 정보 사이의 차이 정보를 표시하도록 하여, 거리 손실 함수를 결합하여 사전 훈련 모델을 생성할 경우, 사전 훈련 모델의 신뢰성과 정확성을 향상시킬 수 있다.
일부 실시예에서, 필드의 위치 정보는 필드의 픽셀 좌표계를 기준으로 하는 검출 횡좌표와 검출 종좌표를 포함하고; 출력된 위치 정보는 픽셀 좌표계를 기준으로 하는 필드의 예측 횡좌표와 예측 종좌표를 포함하며; 거리 손실의 계산은 아래의 단계를 포함할 수 있다.
제1 단계: 예측 횡좌표와 검출 횡좌표 사이의 횡좌표 차이 정보, 및 예측 종좌표와 검출 종좌표 사이의 종좌표 차이 정보를 계산한다.
제2 단계: 횡좌표 차이 정보와 종좌표 차이 정보를 기초로, 거리 손실을 확정한다.
예시적으로, 위치 정보는 픽셀 좌표(x1,y1,x2,y2)로 표시할 수 있으며, 여기서 (x1, y1)는 위치 정보의 왼쪽 상단 좌표이고, (x2, y2)는 위치 정보의 오른쪽 하단 좌표이며, 물론, 기타 형태의 방식으로 위치 정보를 표시할 수도 있으며, 예컨대 (x,y,w,h) 등이 있다.
여기서, x, x1, x2는 횡좌표이고, y, y1, y2는 종좌표이고, w은 폭이고, h는 높이이다.
위치 정보를 픽셀 좌표(x1,y1,x2,y2)로 표시하면, 일부 실시예에서는, 수식 1에 따라 거리 손실()을 확정할 수 있으며, 수식 1:
Figure pat00001
다른 일부 실시예에서, 수식 2에 따라 거리 손실()을 확정할 수 있으며, 수식2:
Figure pat00002
여기서, 윗첨자()는 예측 횡좌표이고, 윗첨자()는 검출 횡좌표(즉 실제 값)이다.
본 실시예에서, 두 차원(즉, 횡좌표 차이 정보와 종좌표 차이 정보)으로부터 거리 손실을 확정하여, 전체적으로 거리 손실의 확정을 구현할 수 있기에, 확정된 거리 손실이 보다 높은 전면성과 신뢰성을 가진다.
S409: 손실 함수를 기초로 제1 네트워크 모델, 제2 네트워크 모델, 제3 네트워크 모델, 및 제4 네트워크 모델 각자에 대응되는 모델 파라미터에 대해 조정하여, 사전 훈련 모델을 획득한다.
본 실시예에서, 제1 네트워크 모델, 제2 네트워크 모델, 제3 네트워크 모델, 및 제4 네트워크 모델을 하나의 전반적인 네트워크 모델로 하고, 손실 함수를 결합하여 전반적인 네트워크 모델에 대해 훈련하여, 각 네트워크 모델 사이에 긴밀하게 결합하도록 하여 오차를 줄인다.
S410: 사전 훈련 모델을 기초로 훈련하여 텍스트 인식 모델을 획득한다.
여기서, 텍스트 인식 모델은 인식될 이미지에 대해 텍스트 인식을 수행하기 위한 것이다.
여기서, 해당 단계는 "트리밍" 단계로 이해할 수 있다.
다시 말하면, 도 6에 도시된 바와 같이, 본 실시예에서, 훈련하여 텍스트 인식 모델을 획득하는 것은 두 단계를 포함하고, 하나는 "사전 훈련" 단계이고, 구체적으로 S401 내지 S409를 참조하고, 다른 하나는 "트리밍" 단계이며, 구체적으로 S410을 참조한다.
그리고 도 6에 도시된 바와 같이, "사전 훈련" 단계는 두 개의 서브 단계를 포함하고, 하나는 "훈련 데이터 사전 처리" 서브 단계이고, 구체적으로 S401-S402를 참조하고, 샘플 이미지는 훈련 데이터이며, 다른 하나는 "위치 특징 마스크 예측" 서브 단계이며, 구체적으로 S403-S409를 참조한다.
"사전 훈련" 단계를 거쳐 획득된 사전 훈련 모델은 서로 다른 응용 시나리오에 대해, 또는 서로 다른 유형의 인식 수요에 대해 범용되는 범용 모델이며, 서로 다른 응용 시나리오 또는 서로 다른 유형의 인식 수요에 대하여, 해당 범용 모델의 기초상에서 목적성 있는 훈련을 수행하여 상응한 응용 시나리오에 응용되는 최종 뉴럴 네트워크 모델을 획득할 수 있다. 예를 들어, 영수증에 대해 텍스트 인식하기 위한 뉴럴 네트워크 모델, 또는 계약서에 대해 인식하기 위한 뉴럴 네트워크 모델이 있다.
여기서, 사전 훈련 모델의 기초 상에서 표기된 훈련 데이터를 사용하여 재훈련을 수행하여 상응한 응용 시나리오에 응용되는 최종 뉴럴 네트워크 모델을 획득할 수 있다.
대응되게, 상응한 응용 시나리오에 응용되는 최종 뉴럴 네트워크 모델을 기초로 인식될 이미지의 텍스트 구조화 정보(즉 텍스트 내용)를 출력할 수 있다.
도 7은 본 출원의 제4 실시예의 도면이고, 도 7에 도시된 바와 같이, 본 실시예의 이미지 처리 장치(700)는,
획득된 샘플 이미지에 대해 사전 처리하여, 샘플 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득하는 제1 처리 유닛(701);
필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 기초로, 필드의 위치 정보에 대하여 마스크 예측을 수행하여, 예측 결과를 획득하는 예측 유닛(702);
예측 결과를 기초로 훈련하여 텍스트 인식 모델을 획득하되, 여기서, 텍스트 인식 모델은 인식될 이미지에 대해 텍스트 인식을 수행하기 위한 것인 훈련 유닛(703)을 포함한다.
도 8은 본 출원의 제5 실시예의 도면이고, 도 8에 도시된 바와 같이, 본 실시예의 이미지 처리 장치(800)는 제1 처리 유닛(801), 예측 유닛(802), 훈련 유닛(803)을 포함한다.
제1 처리 유닛(801)은, 획득된 샘플 이미지에 대해 사전 처리하여, 샘플 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득한다.
일부 실시예에서, 사전 처리는 문자 검출 처리와 문자 인식 처리를 포함하고; 도 8을 결합하면, 제1 처리 유닛(801)은,
샘플 이미지에 대해 문자 검출 처리를 수행하여, 이미지 블록, 및 필드의 위치 정보를 획득하되, 여기서, 이미지 블록은 필드의 위치 정보에 대응되는 영역을 박스 선택하기 위한 바운딩 박스인 제1 처리 서브 유닛(8011);
샘플 이미지에 대해 문자 인식 처리를 수행하여, 텍스트 내용을 획득하는 제2 처리 서브 유닛(8012)을 포함함을 알 수 있다.
예측 유닛(802)은, 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 기초로, 필드의 위치 정보에 대하여 마스크 예측을 수행하여, 예측 결과를 획득한다.
도 8을 결합하면, 일부 실시예에서, 예측 결과는 사전 훈련 모델이고; 예측 유닛(802)은, 획득 서브 유닛(8021), 예측 서브 유닛(8022)을 포함함을 알 수 있다.
획득 서브 유닛(8021)은 필드의 위치 정보에 대응되는 위치 특징을 획득하고, 이미지 블록에 대응되는 비전 특징을 획득하고, 텍스트 내용에 대응되는 텍스트 특징을 획득한다.
일부 실시예에서, 획득 서브 유닛(8021)은,
필드의 위치 정보를 제1 네트워크 모델에 입력하는 제1 입력 모듈;
필드의 위치 정보에 대응되는 위치 특징을 출력하는 제1 출력 모듈;
이미지 블록을 제2 네트워크 모델에 입력하는 제2 입력 모듈;
비전 특징을 출력하는 제2 출력 모듈;
텍스트 내용을 제3 네트워크 모델에 입력하는 제3 입력 모듈;
텍스트 특징을 출력하는 제3 출력 모듈을 포함한다.
예측 서브 유닛(8022)은 필드의 위치 특징, 비전 특징, 및 텍스트 특징을 기초로, 필드의 위치 특징에 대해 마스크 예측을 수행하여, 사전 훈련 모델을 획득한다.
일부 실시예에서, 예측 서브 유닛(8022)은,
필드의 위치 특징 중의 부분 위치 특징을 랜덤으로 제거하는 제거 모듈;
비전 특징, 텍스트 특징, 및 필드의 위치 특징 중 보류된 부분 위치 특징을 기초로, 필드의 위치 특징 중 제거된 부분 위치 특징에 대해 마스크 예측을 수행하여, 사전 훈련 모델을 획득하는 예측 모듈을 포함한다.
일부 실시예에서, 예측 모듈은,
비전 특징, 텍스트 특징, 및 필드의 위치 특징 중 보류된 부분 위치 특징을 제4 네트워크 모델에 입력하는 입력 서브 모듈;
필드의 위치 특징 중 제거된 부분 위치 특징의 위치 정보를 출력하는 출력 서브 모듈;
필드의 위치 정보, 및 출력되는 위치 정보를 기초로, 사전 훈련 모델을 생성하는 제2 생성 서브 모듈을 포함한다.
일부 실시예에서, 제2 생성 서브 모듈은, 필드의 위치 정보, 및 출력된 위치 정보 사이의 손실 함수를 계산하고, 손실 함수를 기초로 상기 제1 네트워크 모델, 제2 네트워크 모델, 제3 네트워크 모델, 및 제4 네트워크 모델 각자에 대응되는 모델 파라미터를 조정하여, 사전 훈련 모델을 획득한다.
일부 실시예에서, 제2 생성 서브 모듈은, 필드의 위치 정보, 및 출력된 위치 정보 사이의 거리 손실을 계산하고, 거리 손실을 손실 함수로 확정한다.
일부 실시예에서, 필드의 위치 정보는 픽셀 좌표계를 기준으로 하는 필드의 검출 횡좌표와 검출 종좌표를 포함하고; 획득된 위치 정보는 픽셀 좌표계를 기준으로 하는 필드의 예측 횡좌표와 예측 종좌표를 포함하고; 제2 생성 서브 모듈은, 예측 횡좌표와 검출 횡좌표 사이의 횡좌표 차이 정보, 및 예측 종좌표와 검출 종좌표 사이의 종좌표 차이 정보를 계산하고, 횡좌표 차이 정보와 종좌표 차이 정보를 기초로, 거리 손실을 확정한다.
일부 실시예에서, 예측 모듈은,
비전 특징, 텍스트 특징, 및 필드의 위치 특징 중 보류된 부분 위치 특징을 기초로, 필드의 위치 특징 중의 제거된 부분 위치 특징을 예측하여 획득하는 예측 서브 모듈;
필드의 위치 특징 중 제거된 부분 위치 특징에 대응되는 위치 정보를 획득하는 획득 서브 모듈;
필드의 위치 정보, 및 획득된 위치 정보를 기초로, 사전 훈련 모델을 생성하는 제1 생성 서브 모듈을 포함한다.
일부 실시예에서, 제1 생성 서브 모듈은, 필드의 위치 정보, 및 획득된 위치 정보 사이의 손실 함수를 계산하고, 손실 함수를 기초로 훈련하여 사전 훈련 모델을 획득한다.
훈련 유닛(803)은, 예측 결과를 기초로 훈련하여 텍스트 인식 모델을 획득하되, 여기서, 텍스트 인식 모델은 인식될 이미지에 대해 텍스트 인식을 수행하기 위한 것이다.
도 9는 본 출원의 제6 실시예의 도면이고, 도 9에 도시된 바와 같이, 본 실시예의 텍스트 인식 방법은 아래의 단계를 포함한다.
S901: 인식될 이미지를 획득한다.
예시적으로, 본 실시예의 실행 주체는 텍스트 인식 장치일 수 있고, 텍스트 인식 장치와 상술한 실시예의 이미지 처리 장치는 동일한 장치일 수 있고 서로 다른 장치일 수도 있으며, 본 실시예는 한정하지 않는다.
인식될 이미지를 획득하는 단계는 아래의 예시를 사용하여 구현할 수 있다.
일 예시에서, 텍스트 인식 장치는 이미지 수집 장치와 연결되어, 이미지 수집 장치에서 발송한 이미지를 수신할 수 있다.
여기서, 이미지 수집 장치는 이미지 수집 기능을 구비한 장치, 예컨대 카메라 등일 수 있다.
다른 예시에서, 텍스트 인식 장치는 이미지 로딩 툴을 제공할 수 있고, 사용자는 해당 이미지 로딩 툴을 통해 인식될 이미지를 텍스트 인식 장치에 전송할 수 있다.
여기서, 이미지 로딩 툴은 주변 기기와 연결하기 위한 인터페이스, 예컨대 기타 저장 기기와 연결하기 위한 인터페이스일 수 있으며, 해당 인터페이스를 통해 주변 기기에서 전송된 인식될 이미지를 획득하고; 이미지 로딩 툴은 디스플레이 장치일 수 있고, 예컨대 텍스트 인식 장치는 디스플레이 장치에 이미지 로딩 기능의 인터페이스를 입력할 수 있으며, 사용자는 해당 인터페이스를 통해 인식될 이미지를 텍스트 인식 장치에 입력하고, 텍스트 인식 장치는 입력된 인식될 이미지를 획득한다.
S902: 사전 훈련된 텍스트 인식 모델을 기초로 인식될 이미지에 대해 텍스트 인식을 수행하여, 인식될 이미지의 텍스트 내용을 획득한다.
여기서, 텍스트 인식 모델은 상술한 임의의 실시예에 따른 이미지 처리 방법을 기초로 획득된 것이다.
도 10은 본 출원의 제7 실시예의 도면이고, 도 10에 도시된 바와 같이, 본 실시예의 텍스트 인식 방법은 아래의 단계를 포함한다.
S1001: 인식될 이미지를 획득한다.
마찬가지로, 번거로은 진술을 방지히기 위하여, 본 실시예의 상술한 실시예와 동일한 기술 특징은, 본 실시예는 중복 설명을 생략한다.
S1002: 인식될 이미지에 대해 사전 처리하여, 인식될 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득한다.
마찬가지로, 상술한 분석을 결합하면, 사전 처리는 문자 검출 처리와 문자 인식 처리를 포함할 수 있고; S1002는 아래의 단계를 포함할 수 있음을 알 수 있다.
제1 단계: 인식될 이미지에 대해 문자 검출 처리를 수행하여, 인식될 이미지 중 필드가 각각 대응하는 이미지 블록, 위치 정보를 획득한다.
여기서, 인식될 이미지 중 필드가 대응하는 이미지 블록은 인식될 이미지 중 필드의 위치 정보에 대응되는 영역을 박스 선택하기 위한 바운딩 박스이다.
제2 단계: 인식될 이미지에 대해 문자 인식 처리를 수행하여, 인식될 이미지에 대응되는 텍스트 내용을 획득한다.
S1003: 인식될 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 텍스트 인식 모델에 입력하여, 인식될 이미지의 텍스트 내용을 출력한다.
여기서, 텍스트 인식 모델은 상술한 임의의 실시예에 따른 이미지 처리 방법을 기초로 획득된 것이다.
도 11은 본 출원의 제8 실시예의 도면이고, 도 11에 도시된 바와 같이, 본 실시예의 텍스트 인식 장치(1100)는,
인식될 이미지를 획득하는 획득 유닛(1101);
사전 훈련된 텍스트 인식 모델을 기초로 인식될 이미지에 대해 텍스트 인식을 수행하여, 인식될 이미지의 텍스트 내용을 획득하는 인식 유닛(1102)을 포함한다.
여기서, 텍스트 인식 모델은 상술한 임의의 실시예에 따른 이미지 처리 방법을 기초로 획득된 것이다.
도 12는 본 출원의 제9 실시예의 도면이고, 도 12에 도시된 바와 같이, 본 실시예의 텍스트 인식 장치(1200)는,
인식될 이미지를 획득하는 획득 유닛(1201);
인식될 이미지에 대해 사전 처리하여, 인식될 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득하는 제2 처리 유닛(1202);
인식될 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 텍스트 인식 모델에 입력하여, 인식될 이미지의 텍스트 내용을 출력하는 인식 유닛(1203)을 포함한다.
여기서, 텍스트 인식 모델은 상술한 임의의 실시예에 따른 이미지 처리 방법을 기초로 획득된 것이다.
도 13은 본 출원의 제10 실시예의 도면이고, 도 13에 도시된 바와 같이, 본 출원의 전자기기(1300)는 프로세서(1301)와 메모리(1302)를 포함할 수 있다.
메모리(1302)는 프로그램을 저장하기 위한 것이고; 메모리(1302)는, 예를 들어, 정적 랜덤 액세스 메모리(영어: static random-access memory, 약자: SRAM), 2배속 데이터 레이트 동기화 동적 랜덤 액세스 메모리(영어: Double Data Rate Synchronous Dynamic Random Access Memory, 약자: DDR SDRAM) 등의 랜덤 액세스 메모리(영어: random-access memory, 약자: RAM)와 같은 휘발성 메모리(volatile memory)를 포함할 수 있고; 메모리는 예를 들어 플래쉬 메모리(영어: flash memory)와 같은 비휘발성 메모리(영어: non-volatile memory)를 포함할 수도 있다. 메모리(1302)는 컴퓨터 프로그램(예컨대 상술한 방법을 구현하는 애플리케이션, 기능 모듈 등), 컴퓨터 명령 등을 저장하기 위한 것이고, 상술한 컴퓨터 프로그램, 컴퓨터 명령 등은 섹션을 나누어 하나 또는 복수의 메모리(1302)에 저장될 수 있다. 또한 상술한 컴퓨터 프로그램, 컴퓨터 명령, 데이터 등은 프로세서(1301)에 의해 호출될 수 있다.
프로세서(1301)는 메모리(1302)에 저장된 컴퓨터 프로그램을 실행하여, 상술한 실시예에 따른 방법의 각각의 단계를 구현하기 위한 것이다.
구체적으로 상술한 방법 실시예의 관련 기재를 참조할 수 있다.
프로세서(1301)와 메모리(1302)는 별도의 구성일 수 있고, 일체로 통합될 수도 있다. 프로세서(1301)와 메모리(1302)가 별도의 구성일 때, 메모리(1302), 프로세서(1301)는 버스(1303)를 통해 커플링 연결될 수 있다.
본 실시예의 전자기기는 상술한 방법의 기술방안을 수행할 수 있으며, 그 구체적인 구현 과정과 기술 원리는 동일하므로, 여기서는 반복되는 설명을 생략한다.
본 출원의 기술방안에서, 관련되는 사용자의 개인 정보에 대한 수집, 저장, 사용, 가공, 전송, 제공과 공개 등 처리는, 모두 관련 법률 법규의 규정에 부합하고, 공서미속을 어기지 않는다.
본 출원의 실시예에 따르면, 본 출원은 전자기기, 판독 가능 저장매체와 컴퓨터 프로그램 제품를 더 제공한다.
본 출원의 실시예에 따르면, 본 출원은 컴퓨터 프로그램 제품을 더 제공하는 바, 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램은 판독 가능 저장매체에 저장되고, 전자기기의 적어도 하나의 프로세서는 판독 가능 저장매체로부터 컴퓨터 프로그램을 판독할 수 있고, 적어도 하나의 프로세서가 컴퓨터 프로그램을 실행함으로써 전자기기가 상술한 임의의 실시예에 따른 방안을 실행하도록 한다.
본 출원의 실시예에 따르면, 본 출원은 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 상술한 임의의 실시예에 따른 방법을 구현한다.
도 14는 본 출원의 실시예를 실시하기 위한 예시적인 전자기기(1400)를 나타내는 블럭도이다. 전자기기는 다양한 형태의 디지털 컴퓨터, 예컨대, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 정보 단말, 서버, 블레이드 서버, 대형 컴퓨터, 및 기타 적합한 컴퓨터를 나타내기 위한 것이다. 전자기기는 다양한 형태의 이동 장치, 예컨대, 개인 정보 단말, 셀폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치를 더 나타낼 수 있다. 본문에 개시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것이며, 본문에 개시된 것 및/또는 요구하는 본 출원의 구현을 한정하려는 의도가 아니다.
도 14에 도시된 바와 같이, 전자기기(1400)는 컴퓨팅 유닛(1401)을 포함하여, 읽기 전용 메모리(1402, ROM)에 저장된 컴퓨터 프로그램 또는 저장 유닛(1408)으로부터 랜덤 액세스 메모리(1403, RAM)에 로딩된 컴퓨터 프로그램을 기초로, 다양한 적합한 동작 및 처리를 수행할 수 있다. RAM(1403)에는, 전자기기(1400)의 조작에 필요한 다양한 프로그램과 데이터가 더 저장될 수 있다. 컴퓨팅 유닛(1401), ROM(1402) 및 RAM(1403)은 버스(1404)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(1405)도 버스(1404)에 연결된다.
전자기기(1400)의 복수의 부재는 I/O 인터페이스(1405)에 연결되고, 예를 들어 키보드, 마우스 등과 같은 입력 유닛(1406); 예를 들어 다양한 유형의 디스플레이, 스피커 등과 같은 출력 유닛(1407); 예를 들어 자기 디스크, 광 디스크 등과 같은 저장 유닛(1408); 및 예를 들어 네트워크 카드, 모뎀, 무선 통신 트랜시버 등과 같은 통신 유닛(1409)을 포함한다. 통신 유닛(1409)은 전자기기(1400)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 전자통신 네트워크를 통해 기타 기기와 정보/데이터를 교환하는 것을 허용한다.
컴퓨팅 유닛(1401)은 처리 및 연산 능력을 갖춘 다양한 범용 및/또는 전용 처리 모듈일 수 있다. 컴퓨팅 유닛(1401)의 일부 예시로서 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 다양한 전용 인공지능(AI) 연산 칩, 다양한 기계 학습 모델 알고리즘을 실행하는 컴퓨팅 유닛, 디지털 신호 프로세서(DSP), 및 임의의 적합한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만 이에 한정되는 것은 아니다. 컴퓨팅 유닛(1401)은 상술한 각각의 방법 및 처리를 수행하는 바, 예를 들어 이미지 처리 방법, 텍스트 인식 방법을 들 수 있다. 예를 들어, 일부 실시예에서, 이미지 처리 방법, 텍스트 인식 방법은 컴퓨터 소프트웨어 프로그램으로 구현되어, 명시적으로 저장 유닛(1408)과 같은 기계 판독 가능 매체에 저장될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 부분 또는 전부는 ROM(1402) 및/또는 통신 유닛(1409)을 통해 전자기기(1400) 상에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(1403)에 로딩되어 컴퓨팅 유닛(1401)에 의해 실행될 때, 상술한 이미지 처리 방법, 텍스트 인식 방법의 하나 또는 복수의 단계를 수행할 수 있다. 선택적으로, 기타 실시예에서, 컴퓨팅 유닛(1401)은 기타 임의의 적합한 방식(예를 들어, 펌웨어를 통해)을 통해 이미지 처리 방법, 텍스트 인식 방법을 수행하도록 구성될 수 있다.
본 명세서에 기재되는 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래머블 어레이(FPGA), 전용 집적 회로(ASIC), 전용 표준 제품(ASSP), 시스템 온 칩 시스템(SOC), 컴플랙스 프로그래머블 논리 장치(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 구현되는 것을 포함할 수 있고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행 및/또는 해석될 수 있으며, 해당 프로그래머블 프로세서는 전용 또는 범용 프로그래머블 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터와 명령을 수신할 수 있으며, 데이터와 명령을 해당 저장 시스템, 해당 적어도 하나의 입력 장치, 및 해당 적어도 하나의 출력 장치로 전송한다.
본 출원의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로래밍 언어의 임의의 조합으로 작성될 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공되어, 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때 흐름도 및/또는 블록도에서 규정하는 기능/조작이 실시되도록 할 수 있다. 프로그램 코드는 완전히 기계 상에서 실행되거나, 부분적으로 기계 상에서 실행될 수 있으며, 독립 소프트웨어 패키지로서 부분적으로 기계 상에서 실행되고 부분적으로 원격 기계 상에서 실행되거나 완전히 원격 기계 또는 서버 상에서 실행될 수도 있다.
본 출원의 문맥에서, 기계 판독 가능 매체는 유형의 매체일 수 있고, 명령 실행 시스템, 장치 또는 기기에 의해 사용되거나 명령 실행 시스템, 장치 또는 기기와 결합되어 사용되는 프로그램을 포함하거나 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체이거나 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자적, 자기적, 광학적, 전자기적, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적합한 조합을 포함할 수 있지만 이에 한정되는 것은 아니다. 기계 판독 가능 저장매체의 더 구체적인 예시로서 하나 또는 복수의 와이어를 기반으로 하는 전기적 연결, 휴대형 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 가능 및 프로그래머블 읽기 전용 메모리(EPROM 또는 플래쉬 메모리), 광섬유, 휴대용 컴팩트 읽기 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치, 또는 상술한 내용의 임의의 조합을 포함한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터 상에서 본 명세서에 기재되는 시스템 및 기술을 실시할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 표시하기 위한 표시장치(예를 들어, CRT(캐소드레이 튜브) 또는 LCD(액정 디스플레이) 모니터); 및 키보드와 지향 장치(예를 들어, 마우스 또는 트랙볼)를 구비하고, 사용자는 해당 키보드와 해당 지향 장치를 통해 입력을 컴퓨터로 제공할 수 있다. 기타 종류의 장치는 사용자와의 인터랙션을 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고; 임의의 형태(사운드 입력, 음성 입력 또는 촉각 입력)을 통해 사용자로부터의 입력을 수신할 수 있다.
여기에 기재되는 시스템과 기술은 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 중간부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 유저 인터페이스 또는 인터넷 브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 유저 인터페이스 또는 해당 인터넷 브라우저를 통해 여기에 기재되는 시스템 및 기술의 실시형태와 인터랙션할 수 있다), 또는 이러한 백그라운드 부재, 중간 부재, 또는 프론트 엔드 부재를 포함하는 임의의 조합의 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로서, 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터 상에서 실행되며 서로 클라이언트 - 서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 불리우며, 클라우드 컴퓨팅 서비스 시스템 중의 일 호스트 제품으로서, 기존의 물리 호스트와 가상 사설 서버("Virtual Private Server", 또는 "VPS"로 약칭)에 존재하는 관리 상의 어려움이 크고, 서비스 확장이 약한 흠결을 해결한다. 서버는 분포식 시스템의 서버, 또는 블록 체인이 결합된 서버일 수도 있다.
상술한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병열로 수행될 수 있고 순차적으로 수행될 수도 있고 서로 다른 순서로 수행될 수도 있으며, 본 출원에 따른 기술방안이 원하는 결과를 얻을 수만 있다면, 본문에서는 여기서 한정하지 않는다.
상술한 구체적인 실시형태는, 본 출원의 보호범위에 대한 한정이 아니다. 본 분야의 통상의 지식을 가진 자라면, 설계 수요와 기타 요소를 기초로, 다양한 수정, 조합, 서브 조합 및 대체를 가할 수 있음을 이해하여야 한다. 본 출원의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체와 개선 등은 모두 본 출원의 보호 범위 내에 속한다.

Claims (29)

  1. 획득된 샘플 이미지에 대해 사전 처리하여, 상기 샘플 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득하는 단계;
    상기 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 기초로, 상기 필드의 위치 정보에 대해 마스크 예측을 수행하여, 예측 결과를 획득하는 단계;
    상기 예측 결과를 기초로 훈련하여 텍스트 인식 모델을 획득하되, 여기서, 상기 텍스트 인식 모델은 인식될 이미지에 대해 텍스트 인식을 수행하기 위한 것인 단계를 포함하는 이미지 처리 방법.
  2. 제1항에 있어서, 상기 예측 결과는 사전 훈련 모델이고;
    상기 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 기초로, 상기 필드의 위치 정보에 대해 마스크 예측을 수행하여, 예측 결과를 획득하는 상기 단계는,
    상기 필드의 위치 정보에 대응되는 위치 특징을 획득하고, 상기 이미지 블록에 대응되는 비전 특징을 획득하고, 상기 텍스트 내용에 대응되는 텍스트 특징을 획득하는 단계;
    상기 필드의 위치 특징, 상기 비전 특징, 및 상기 텍스트 특징을 기초로, 상기 필드의 위치 특징에 대해 마스크 예측하여, 상기 사전 훈련 모델을 획득하는 단계를 포함하는 이미지 처리 방법.
  3. 제2항에 있어서, 상기 필드의 위치 특징, 상기 비전 특징, 및 상기 텍스트 특징을 기초로, 상기 필드의 위치 특징에 대해 마스크 예측하여, 상기 사전 훈련 모델을 획득하는 상기 단계는,
    상기 필드의 위치 특징 중의 부분 위치 특징을 랜덤으로 제거하는 단계;
    상기 비전 특징, 상기 텍스트 특징, 및 상기 필드의 위치 특징 중 보류된 부분 위치 특징을 기초로, 상기 필드의 위치 특징 중 제거된 부분 위치 특징에 대해 마스크 예측하여, 상기 사전 훈련 모델을 획득하는 단계를 포함하는 이미지 처리 방법.
  4. 제3 항에 있어서, 상기 비전 특징, 상기 텍스트 특징, 및 상기 필드의 위치 특징 중 보류된 부분 위치 특징을 기초로, 상기 필드의 위치 특징 중 제거된 부분 위치 특징에 대해 마스크 예측하여, 상기 사전 훈련 모델을 획득하는 상기 단계는,
    상기 비전 특징, 상기 텍스트 특징, 및 상기 필드의 위치 특징 중 보류된 부분 위치 특징을 기초로, 상기 필드의 위치 특징 중 제거된 부분 위치 특징을 예측하여 획득하는 단계;
    상기 필드의 위치 특징 중 제거된 부분 위치 특징에 대응되는 위치 정보를 획득하는 단계;
    상기 필드의 위치 정보, 및 획득된 위치 정보를 기초로, 상기 사전 훈련 모델을 생성하는 단계를 포함하는 이미지 처리 방법.
  5. 제4항에 있어서, 상기 필드의 위치 정보, 및 획득된 위치 정보를 기초로, 상기 사전 훈련 모델을 생성하는 상기 단계는,
    상기 필드의 위치 정보, 및 획득된 위치 정보 사이의 손실 함수를 계산하고, 상기 손실 함수를 기초로 훈련하여 상기 사전 훈련 모델을 획득하는 단계를 포함하는 이미지 처리 방법.
  6. 제3 항에 있어서, 상기 필드의 위치 정보에 대응되는 위치 특징을 획득하고, 상기 이미지 블록에 대응되는 비전 특징을 획득하고, 상기 텍스트 내용에 대응되는 텍스트 특징을 획득하는 상기 단계는,
    상기 필드의 위치 정보를 제1 네트워크 모델에 입력하여, 상기 필드의 위치 정보에 대응되는 위치 특징을 출력하는 단계;
    상기 이미지 블록을 제2 네트워크 모델에 입력하여, 상기 비전 특징을 출력하는 단계;
    상기 텍스트 내용을 제3 네트워크 모델에 입력하여, 상기 텍스트 특징을 출력하는 단계를 포함하는 이미지 처리 방법.
  7. 제6항에 있어서, 상기 비전 특징, 상기 텍스트 특징, 및 상기 필드의 위치 특징 중 보류된 부분 위치 특징을 기초로, 상기 필드의 위치 특징 중 제거된 부분 위치 특징에 대해 마스크 예측하여, 상기 사전 훈련 모델을 획득하는 상기 단계는,
    상기 비전 특징, 상기 텍스트 특징, 및 상기 필드의 위치 특징 중 보류된 부분 위치 특징을 제4 네트워크 모델에 입력하여, 상기 필드의 위치 특징 중 제거된 부분 위치 특징의 위치 정보를 출력하는 단계;
    상기 필드의 위치 정보, 및 출력된 위치 정보를 기초로, 상기 사전 훈련 모델을 생성하는 단계를 포함하는 이미지 처리 방법.
  8. 제7항에 있어서, 상기 필드의 위치 정보, 및 출력된 위치 정보를 기초로, 상기 사전 훈련 모델을 생성하는 상기 단계는,
    상기 필드의 위치 정보, 및 출력된 위치 정보 사이의 손실 함수를 계산하는 단계;
    상기 손실 함수를 기초로 상기 제1 네트워크 모델, 상기 제2 네트워크 모델, 상기 제3 네트워크 모델, 및 상기 제4 네트워크 모델 각자에 대응되는 모델 파라미터에 대해 조정하여, 상기 사전 훈련 모델을 획득하는 단계를 포함하는 이미지 처리 방법.
  9. 제8항에 있어서, 상기 필드의 위치 정보, 및 출력된 위치 정보 사이의 손실 함수를 계산하는 상기 단계는,
    상기 필드의 위치 정보, 및 출력된 위치 정보 사이의 거리 손실을 계산하고, 상기 거리 손실을 상기 손실 함수로 확정하는 단계를 포함하는 이미지 처리 방법.
  10. 제9항에 있어서, 상기 필드의 위치 정보는 픽셀 좌표계를 기준으로 하는 상기 필드의 검출 횡좌표와 검출 종좌표를 포함하고; 출력된 위치 정보는 픽셀 좌표계를 기준으로 하는 상기 필드의 예측 횡좌표와 예측 종좌표를 포함하고;
    상기 필드의 위치 정보, 및 출력된 위치 정보 사이의 거리 손실을 계산하는 상기 단계는,
    상기 예측 횡좌표와 상기 검출 횡좌표 사이의 횡좌표 차이 정보, 및 상기 예측 종좌표와 상기 검출 종좌표 사이의 종좌표 차이 정보를 계산하는 단계;
    상기 횡좌표 차이 정보와 상기 종좌표 차이 정보를 기초로, 상기 거리 손실을 확정하는 단계를 포함하는 이미지 처리 방법.
  11. 제1항에 있어서, 상기 사전 처리는 문자 검출 처리와 문자 인식 처리를 포함하고;
    획득된 샘플 이미지에 대해 사전 처리하여, 상기 샘플 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득하는 상기 단계는,
    상기 샘플 이미지에 대해 문자 검출 처리를 수행하여, 상기 이미지 블록, 및 상기 필드의 위치 정보를 획득하되, 여기서, 상기 이미지 블록은 상기 필드의 위치 정보에 대응되는 영역을 박스 선택하기 위한 바운딩 박스인 단계;
    상기 샘플 이미지에 대해 문자 인식 처리를 수행하여, 상기 텍스트 내용을 획득하는 단계를 포함하는 이미지 처리 방법.
  12. 인식될 이미지를 획득하는 단계;
    사전 훈련된 텍스트 인식 모델에 기반하여 상기 인식될 이미지에 대해 텍스트 인식을 수행하여, 상기 인식될 이미지의 텍스트 내용을 획득하는 단계를 포함하고;
    여기서, 상기 텍스트 인식 모델은 제1항 내지 제11항 중 어느 한 항에 따른 방법으로 획득된 것인 텍스트 인식 방법.
  13. 제12항에 있어서, 상기 방법은,
    인식될 이미지에 대해 사전 처리하여, 상기 인식될 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득하는 단계를 더 포함하고;
    사전 훈련된 텍스트 인식 모델에 기반하여 상기 인식될 이미지에 대해 텍스트 인식을 수행하여, 상기 인식될 이미지의 텍스트 내용을 획득하는 단계는,
    상기 인식될 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 상기 텍스트 인식 모델에 입력하여, 상기 인식될 이미지의 텍스트 내용을 출력하는 단계를 포함하는 텍스트 인식 방법.
  14. 획득된 샘플 이미지에 대해 사전 처리하여, 상기 샘플 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득하는 제1 처리 유닛;
    상기 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 기초로, 상기 필드의 위치 정보에 대해 마스크 예측을 수행하여, 예측 결과를 획득하는 예측 유닛;
    상기 예측 결과를 기초로 훈련하여 텍스트 인식 모델을 획득하되, 여기서, 상기 텍스트 인식 모델은 인식될 이미지에 대해 텍스트 인식을 수행하기 위한 것인 훈련 유닛을 포함하는 이미지 처리 장치.
  15. 제14항에 있어서, 상기 예측 결과는 사전 훈련 모델이고; 상기 예측 유닛은,
    상기 필드의 위치 정보에 대응되는 위치 특징을 획득하고, 상기 이미지 블록에 대응되는 비전 특징을 획득하고, 상기 텍스트 내용에 대응되는 텍스트 특징을 획득하는 획득 서브 유닛;
    상기 필드의 위치 특징, 상기 비전 특징, 및 상기 텍스트 특징을 기초로, 상기 필드의 위치 특징에 대해 마스크 예측하여, 상기 사전 훈련 모델을 획득하는 예측 서브 유닛을 포함하는 이미지 처리 장치.
  16. 제15항에 있어서, 상기 예측 서브 유닛은,
    상기 필드의 위치 특징 중의 부분 위치 특징을 랜덤으로 제거하는 제거 모듈;
    상기 비전 특징, 상기 텍스트 특징, 및 상기 필드의 위치 특징 중 보류된 부분 위치 특징을 기초로, 상기 필드의 위치 특징 중 제거된 부분 위치 특징에 대해 마스크 예측하여, 상기 사전 훈련 모델을 획득하는 예측 모듈을 포함하는 이미지 처리 장치.
  17. 제16항에 있어서, 상기 예측 모듈은,
    상기 비전 특징, 상기 텍스트 특징, 및 상기 필드의 위치 특징 중 보류된 부분 위치 특징을 기초로, 상기 필드의 위치 특징 중 제거된 부분 위치 특징을 예측하여 획득하는 예측 서브 모듈;
    상기 필드의 위치 특징 중 제거된 부분 위치 특징에 대응되는 위치 정보를 획득하는 획득 서브 모듈;
    상기 필드의 위치 정보, 및 획득된 위치 정보를 기초로, 상기 사전 훈련 모델을 생성하는 제1 생성 서브 모듈을 포함하는 이미지 처리 장치.
  18. 제17항에 있어서, 상기 제1 생성 서브 모듈은, 상기 필드의 위치 정보, 및 획득된 위치 정보 사이의 손실 함수를 계산하고, 상기 손실 함수를 기초로 훈련하여 상기 사전 훈련 모델을 획득하는 이미지 처리 장치.
  19. 제16항에 있어서, 상기 획득 서브 유닛은,
    상기 필드의 위치 정보를 제1 네트워크 모델에 입력하는 제1 입력 모듈;
    상기 필드의 위치 정보에 대응되는 위치 특징을 출력하는 제1 출력 모듈;
    상기 이미지 블록을 제2 네트워크 모델에 입력하는 제2 입력 모듈;
    상기 비전 특징을 출력하는 제2 출력 모듈;
    상기 텍스트 내용을 제3 네트워크 모델에 입력하는 제3 입력 모듈;
    상기 텍스트 특징을 출력하는 제3 출력 모듈을 포함하는 이미지 처리 장치.
  20. 제19항에 있어서, 상기 예측 모듈은,
    상기 비전 특징, 상기 텍스트 특징, 및 상기 필드의 위치 특징 중 보류된 부분 위치 특징을 제4 네트워크 모델에 입력하는 입력 서브 모듈;
    상기 필드의 위치 특징 중 제거된 부분 위치 특징의 위치 정보를 출력하는 출력 서브 모듈;
    상기 필드의 위치 정보, 및 출력된 위치 정보를 기초로, 상기 사전 훈련 모델을 생성하는 제2 생성 서브 모듈을 포함하는 이미지 처리 장치.
  21. 제20항에 있어서, 상기 제2 생성 서브 모듈은, 상기 필드의 위치 정보, 및 출력된 위치 정보 사이의 손실 함수를 계산하고, 상기 손실 함수를 기초로 상기 제1 네트워크 모델, 상기 제2 네트워크 모델, 상기 제3 네트워크 모델, 및 상기 제4 네트워크 모델 각자에 대응되는 모델 파라미터에 대해 조정하여, 상기 사전 훈련 모델을 획득하는 이미지 처리 장치.
  22. 제21항에 있어서, 상기 제2 생성 서브 모듈은, 상기 필드의 위치 정보, 및 출력된 위치 정보 사이의 거리 손실을 계산하고, 상기 거리 손실을 상기 손실 함수로 확정하는 이미지 처리 장치.
  23. 제22항에 있어서, 상기 필드의 위치 정보는 픽셀 좌표계를 기준으로 하는 상기 필드의 검출 횡좌표와 검출 종좌표를 포함하고; 출력된 위치 정보는 픽셀 좌표계를 기준으로 하는 상기 필드의 예측 횡좌표와 예측 종좌표를 포함하고; 상기 제2 생성 서브 모듈은, 상기 예측 횡좌표와 상기 검출 횡좌표 사이의 횡좌표 차이 정보, 및 상기 예측 종좌표와 상기 검출 종좌표 사이의 종좌표 차이 정보를 계산하고, 상기 횡좌표 차이 정보와 상기 종좌표 차이 정보를 기초로, 상기 거리 손실을 확정하는 이미지 처리 장치.
  24. 제14항 내지 제23항 중 어느 한 항에 있어서, 상기 사전 처리는 문자 검출 처리와 문자 인식 처리를 포함하고; 상기 제1 처리 유닛은,
    상기 샘플 이미지에 대해 문자 검출 처리를 수행하여, 상기 이미지 블록, 및 상기 필드의 위치 정보를 획득하되, 여기서, 상기 이미지 블록은 상기 필드의 위치 정보에 대응되는 영역을 박스 선택하기 위한 바운딩 박스인 제1 처리 서브 유닛;
    상기 샘플 이미지에 대해 문자 인식 처리를 수행하여, 상기 텍스트 내용을 획득하는 제2 처리 서브 유닛을 포함하는 이미지 처리 장치.
  25. 인식될 이미지를 획득하는 획득 유닛;
    사전 훈련된 텍스트 인식 모델에 기반하여 상기 인식될 이미지에 대해 텍스트 인식을 수행하여, 상기 인식될 이미지의 텍스트 내용을 획득하는 인식 유닛을 포함하고;
    여기서, 상기 텍스트 인식 모델은 제1항 내지 제11항 중 어느 한 항에 따른 방법으로 획득된 것인 텍스트 인식 장치.
  26. 제25항에 있어서, 상기 장치는,
    인식될 이미지에 대해 사전 처리하여, 상기 인식될 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 획득하는 제2 처리 유닛을 더 포함하고;
    상기 인식 유닛은, 상기 인식될 이미지 중 필드가 각각 대응하는 위치 정보, 이미지 블록, 및 텍스트 내용을 상기 텍스트 인식 모델에 입력하여, 상기 인식될 이미지의 텍스트 내용을 출력하는 텍스트 인식 장치.
  27. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하고, 여기서,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제11항 중 어느 한 항에 따른 방법을 실행할 수 있도록 하거나, 또는 상기 적어도 하나의 프로세서가 제12항 또는 제13항에 따른 방법을 실행할 수 있도록 하는 전자기기.
  28. 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체에 있어서,
    상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제11항 중 어느 한 항에 따른 방법을 실행하도록 하거나; 또는, 상기 컴퓨터 명령은 상기 컴퓨터가 제12항 또는 제13항에 따른 방법을 실행하도록 하는 비일시적 컴퓨터 판독 가능 저장매체.
  29. 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램에 있어서, 해당 컴퓨터 프로그램이 프로세서에 의해 실행될 때 제1항 내지 제11항 중 어느 한 항에 따른 방법을 구현하거나; 또는, 해당 컴퓨터 프로그램이 프로세서에 의해 실행될 때 제12항 또는 제13항에 따른 방법을 구현하는 컴퓨터 프로그램.
KR1020220107491A 2022-02-25 2022-08-26 이미지 처리 방법, 텍스트 인식 방법 및 장치 KR20220125712A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210182337.3 2022-02-25
CN202210182337.3A CN114550177B (zh) 2022-02-25 2022-02-25 图像处理的方法、文本识别方法及装置

Publications (1)

Publication Number Publication Date
KR20220125712A true KR20220125712A (ko) 2022-09-14

Family

ID=81679070

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220107491A KR20220125712A (ko) 2022-02-25 2022-08-26 이미지 처리 방법, 텍스트 인식 방법 및 장치

Country Status (4)

Country Link
US (1) US20220415072A1 (ko)
JP (1) JP7425147B2 (ko)
KR (1) KR20220125712A (ko)
CN (1) CN114550177B (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115346074B (zh) * 2022-09-02 2023-06-16 北京百度网讯科技有限公司 训练方法、图像处理方法、装置、电子设备以及存储介质
CN116052186A (zh) * 2023-01-30 2023-05-02 无锡容智技术有限公司 多模态发票自动分类识别方法、校验方法及系统
CN116152577B (zh) * 2023-04-19 2023-08-29 深圳须弥云图空间科技有限公司 图像分类方法及装置
CN116188632A (zh) * 2023-04-24 2023-05-30 之江实验室 一种图像的生成方法、装置、存储介质及电子设备
CN116597454A (zh) * 2023-05-24 2023-08-15 北京百度网讯科技有限公司 图像处理方法、图像处理模型的训练方法和装置
CN117292384A (zh) * 2023-08-30 2023-12-26 北京瑞莱智慧科技有限公司 文字识别方法、相关装置及存储介质
CN116912856A (zh) * 2023-09-14 2023-10-20 深圳市贝铂智能科技有限公司 一种智能扫描笔的图像识别方法、装置以及智能扫描笔

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919014B (zh) * 2019-01-28 2023-11-03 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN110874618B (zh) * 2020-01-19 2020-11-27 同盾控股有限公司 基于小样本的ocr模板学习方法、装置、电子设备及介质
JP2021149452A (ja) 2020-03-18 2021-09-27 株式会社Pfu 画像処理装置、制御方法及び制御プログラム
CN111832292B (zh) * 2020-06-03 2024-02-02 北京百度网讯科技有限公司 文本识别处理方法、装置、电子设备和存储介质
CN111860479B (zh) * 2020-06-16 2024-03-26 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质
CN113435529B (zh) * 2021-07-06 2023-11-07 北京百度网讯科技有限公司 模型预训练方法、模型训练方法及图像处理方法
CN113657395B (zh) * 2021-08-17 2024-02-13 北京百度网讯科技有限公司 文本识别方法、视觉特征提取模型的训练方法及装置
CN113705733A (zh) 2021-09-29 2021-11-26 平安医疗健康管理股份有限公司 医疗票据图像处理方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
JP7425147B2 (ja) 2024-01-30
JP2022177232A (ja) 2022-11-30
CN114550177A (zh) 2022-05-27
US20220415072A1 (en) 2022-12-29
CN114550177B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
KR20220125712A (ko) 이미지 처리 방법, 텍스트 인식 방법 및 장치
EP4040401A1 (en) Image processing method and apparatus, device and storage medium
WO2022227769A1 (zh) 车道线检测模型的训练方法、装置、电子设备及存储介质
KR20220122566A (ko) 텍스트 인식 모델의 트레이닝 방법, 텍스트 인식 방법 및 장치
CN115063875B (zh) 模型训练方法、图像处理方法、装置和电子设备
EP4012564A1 (en) Data processing method, data processing device, and storage medium
CN114429637B (zh) 一种文档分类方法、装置、设备及存储介质
WO2022257614A1 (zh) 物体检测模型的训练方法、图像检测方法及其装置
CN112580666A (zh) 图像特征的提取方法、训练方法、装置、电子设备及介质
KR20220122567A (ko) 텍스트 검출 방법, 텍스트 인식 방법 및 장치
KR20220117341A (ko) 차선 검출 모델의 트레이닝 방법, 장치, 전자 기기 및 저장 매체
CN114266937A (zh) 模型训练、图像处理方法,装置,设备以及存储介质
EP4086853A2 (en) Method and apparatus for generating object model, electronic device and storage medium
EP4187504A1 (en) Method for training text classification model, apparatus, storage medium and computer program product
CN114881227B (zh) 模型压缩方法、图像处理方法、装置和电子设备
EP4083938A2 (en) Method and apparatus for image annotation, electronic device and storage medium
CN114863450B (zh) 图像处理方法、装置、电子设备及存储介质
CN114972910B (zh) 图文识别模型的训练方法、装置、电子设备及存储介质
CN113762109B (zh) 一种文字定位模型的训练方法及文字定位方法
CN112560848B (zh) 兴趣点poi预训练模型的训练方法、装置及电子设备
CN114663886A (zh) 文本识别方法、模型的训练方法及装置
CN114639107B (zh) 表格图像处理方法、装置和存储介质
EP3929866A2 (en) Inpainting method and apparatus for human image, and electronic device
US20220335737A1 (en) Method and apparatus for image annotation, and storage medium
EP3879445A2 (en) Method and apparatus for digitizing paper data, electronic device and storage medium