KR20230030005A - Training method, apparatus and system of text recognition model framework - Google Patents

Training method, apparatus and system of text recognition model framework Download PDF

Info

Publication number
KR20230030005A
KR20230030005A KR1020237005116A KR20237005116A KR20230030005A KR 20230030005 A KR20230030005 A KR 20230030005A KR 1020237005116 A KR1020237005116 A KR 1020237005116A KR 20237005116 A KR20237005116 A KR 20237005116A KR 20230030005 A KR20230030005 A KR 20230030005A
Authority
KR
South Korea
Prior art keywords
feature
text
model
fusion
features
Prior art date
Application number
KR1020237005116A
Other languages
Korean (ko)
Inventor
청추안 창
펑유안 엘뷔
유린 리
유이첸 유
쿤 야오
준유 한
칭투오 리우
얼루이 딩
티안 우
하이펑 왕
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20230030005A publication Critical patent/KR20230030005A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

본 발명은 텍스트 인식 모델 프레임워크의 훈련 방법, 장치 및 시스템을 제공하고, 인공지능 기술 분야에 관한 것으로, 구체적으로 컴퓨터 비전 및 딥러닝 기술 분야에 관한 것으고, 스마트 시티 및 스마트 금융 장면에 적용될 수 있다. 상기 방법은, 미리 설정된 텍스트 검출 모델을 기반으로 샘플 이미지에 대해 특징 처리를 하여, 샘플 이미지의 텍스트 정보와 관련된 적어도 두 가지의 특징 정보를 획득하는 단계; 미리 설정된 특징 융합 모델을 기반으로 샘플 이미지의 적어도 두 가지의 특징 정보에 대해 융합 처리하여, 샘플 이미지의 융합 특징을 획득하는 단계; 및 융합 특징을 특징 융합 모델에 입력하고, 융합 특징 모델을 기반으로 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득하는 단계; 를 포함하고, 텍스트 인식 모델 프레임워크의 텍스트 검출 모델과 특징 융합 모델 사이는 비교적 높은 연관성을 구비함으로, 훈련 프로세스의 완전성 및 전면성을 구현하고, 텍스트 인식 모델 프레임워크의 정확성 및 신뢰성을 향상시킨다.The present invention provides a training method, apparatus and system for a text recognition model framework, and relates to the field of artificial intelligence technology, specifically to the field of computer vision and deep learning technology, and can be applied to smart city and smart finance scenes. there is. The method may include performing feature processing on a sample image based on a preset text detection model to obtain at least two pieces of feature information related to text information of the sample image; obtaining a fusion feature of the sample image by performing fusion processing on at least two pieces of feature information of the sample image based on a preset feature fusion model; and inputting fusion features into a feature fusion model and adjusting parameters of the text detection model and the feature fusion model based on the fusion feature model, respectively, to obtain a text recognition model framework; Including, the text detection model of the text recognition model framework and the feature fusion model have a relatively high correlation, thereby realizing the completeness and fullness of the training process and improving the accuracy and reliability of the text recognition model framework.

Description

텍스트 인식 모델 프레임워크의 훈련 방법, 장치 및 시스템Training method, apparatus and system of text recognition model framework

본 발명은 2021년 07월 28일에 중국 특허청에 제출되고, 출원번호가 CN202110858410.X이고, 출원명칭이 "텍스트 인식 모델 프레임워크의 훈련 방법, 장치 및 시스템"인 중국 특허 출원의 우선권을 청구한다, 당해 모든 내용은 인용을 통해 본 출원에 결합된다. The present invention claims priority of a Chinese patent application filed with the Chinese Intellectual Property Office on July 28, 2021, with the application number CN202110858410.X, and the application title "Training Method, Apparatus and System for Text Recognition Model Framework". , all contents of which are hereby incorporated into this application by reference.

본 발명은 인공 지능 기술 분야에 관한 것으로, 구체적으로 컴퓨터 비전 및 딥러닝 기술 분야에 관한 것이고, 특히 텍스트 인식 모델 프레임워크의 훈련 방법, 장치 및 시스템에 관한 것으로, 스마트 시티 및 스마트 금융 장면에 적용될 수 있다.The present invention relates to the field of artificial intelligence technology, specifically to the field of computer vision and deep learning technology, and particularly to a method, apparatus and system for training a text recognition model framework, which can be applied to smart city and smart finance scenes. there is.

인공지능 기술의 발전에 따라, 이미지의 텍스트 정보에 대한 인식은 인공 인식에서 자동 인식으로 발전된다. 예를 들면 텍스트 인식 모델을 보조하는 텍스트 인식 모델 프레임워크(텍스트 인식 모델의 훈련을 보조하는 구조화 해석 프레임워크 모델라고도 함)를 사전 훈련하고, 당해 구조화 프레임워크 모델의 기반에서, 인식할 이미지의 텍스트 정보를 인식하는 텍스트 인식 모델을 훈련하고 생성한다. With the development of artificial intelligence technology, the recognition of text information in images develops from artificial recognition to automatic recognition. For example, a text recognition model framework assisting a text recognition model (also referred to as a structured interpretation framework model assisting text recognition model training) is pre-trained, and the text of the image to be recognized is based on the structured framework model. Train and create a text recognition model that recognizes information.

종래의 기술에서, 통상적으로 텍스트 검출 모델 및 특징 융합 모델을 기반으로 훈련하여 텍스트 인식 모델 프레임워크를 획득하고, 텍스트 검출 모델과 특징 융합 모델은 2개의 서로 독립된 모델이고, 특징 융합 모델은 구체적으로 텍스트 검출 모델의 오프라인 인식 결과를 기반으로 훈련을 완료한다. In the prior art, it is usually trained based on a text detection model and a feature fusion model to obtain a text recognition model framework, the text detection model and the feature fusion model are two independent models, and the feature fusion model is specifically text-recognized. Training is completed based on the offline recognition results of the detection model.

그러나, 텍스트 검출 모델과 특징 융합 모델은 훈련 프로세스에서 서로 독립됨으로, 훈련하여 획득된 텍스트 인식 모델 프레임워크의 정확성이 지나치게 낮은 기술 과제를 초래할 수 있다. However, since the text detection model and the feature fusion model are independent of each other in the training process, the accuracy of the text recognition model framework obtained through training may cause a technical problem with excessively low accuracy.

본 발명은 텍스트 인식 모델 프레임워크의 정확성을 향상시키는 텍스트 인식 모델 프레임워크의 훈련 방법 및 장치를 제공한다. The present invention provides a text recognition model framework training method and apparatus for improving the accuracy of the text recognition model framework.

본 발명의 제1 측면에 따르면, 텍스트 인식 모델 프레임워크의 훈련 방법을 제공하고, 상기 방법은, 미리 설정된 텍스트 검출 모델을 기반으로 샘플 이미지에 대해 특징 처리를 하여, 상기 샘플 이미지의 텍스트 정보와 관련된 적어도 두 가지의 특징 정보를 획득하는 단계; According to a first aspect of the present invention, a method for training a text recognition model framework is provided, wherein the method performs feature processing on a sample image based on a preset text detection model to obtain information related to text information of the sample image. obtaining at least two pieces of feature information;

미리 설정된 특징 융합 모델을 기반으로 상기 샘플 이미지의 적어도 두 가지의 특징 정보에 대해 융합 처리하여, 상기 샘플 이미지의 융합 특징을 획득하는 단계; 및obtaining a fusion feature of the sample image by performing fusion processing on at least two pieces of feature information of the sample image based on a preset feature fusion model; and

상기 융합 특징을 상기 특징 융합 모델에 입력하고, 상기 융합 특징 모델을 기반으로 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득하는 단계 - 상기 텍스트 인식 모델 프레임워크는 조정된 텍스트 검출 모델 및 조정된 특징 융합 모델을 포함함 - ; 를 포함한다. obtaining a text recognition model framework by inputting the fusion features into the feature fusion model and adjusting parameters of the text detection model and the feature fusion model, respectively, based on the fusion feature model - the text recognition model frame The work includes a tuned text detection model and a tuned feature fusion model; includes

본 발명의 제2 측면에 따르면, 텍스트 인식 방법을 제공하고, 상기 방법은, According to a second aspect of the present invention, there is provided a text recognition method, the method comprising:

인식할 이미지를 획득하는 단계; 및obtaining an image to be recognized; and

상기 인식할 이미지를 사전 훈련된 텍스트 인식 모델로 입력하여, 상기 인식할 이미지의 텍스트 정보를 획득하는 단계 - 상기 텍스트 인식 모델은 사전 훈련된 텍스트 인식 모델 프레임워크를 기반으로 훈련할 이미지를 훈련하여 생성된 것이고, 상기 텍스트 인식 모델 프레임워크는 제1 측면의 상기 훈련 방법에 의해 훈련하여 획득된 것이고, 상기 훈련할 이미지는 텍스트 정보를 포함함 - ; 를 포함한다. Acquiring text information of the image to be recognized by inputting the image to be recognized into a pretrained text recognition model - The text recognition model is generated by training the image to be trained based on a pretrained text recognition model framework the text recognition model framework is obtained by training by the training method of the first aspect, and the image to be trained includes text information; includes

본 발명의 제3 측면에 따르면, 텍스트 인식 모델 프레임워크의 훈련 장치를 제공하고, 상기 장치는, According to a third aspect of the present invention, an apparatus for training a text recognition model framework is provided, the apparatus comprising:

미리 설정된 텍스트 검출 모델을 기반으로 샘플 이미지에 대해 특징 처리를 하여, 상기 샘플 이미지의 텍스트 정보와 관련된 적어도 두 가지의 특징 정보를 획득하는 처리 유닛; a processing unit configured to perform feature processing on a sample image based on a preset text detection model to obtain at least two pieces of feature information related to text information of the sample image;

미리 설정된 특징 융합 모델을 기반으로 상기 샘플 이미지의 적어도 두 가지의 특징 정보에 대해 융합 처리하여, 상기 샘플 이미지의 융합 특징을 획득하는 융합 유닛; 및a fusion unit configured to obtain a fusion feature of the sample image by performing fusion processing on at least two pieces of feature information of the sample image based on a preset feature fusion model; and

상기 융합 특징을 상기 특징 융합 모델에 입력하고, 상기 융합 특징 모델을 기반으로 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득하는 훈련 유닛 - 상기 텍스트 인식 모델 프레임워크는 조정된 텍스트 검출 모델 및 조정된 특징 융합 모델을 포함함 - ; 을 포함한다. A training unit configured to input the fusion features into the feature fusion model and adjust parameters of the text detection model and the feature fusion model based on the fusion feature model, respectively, to obtain a text recognition model framework - the text recognition model - The framework includes a tuned text detection model and a tuned feature fusion model; includes

본 발명의 제4 측면에 따르면, 텍스트 인식 장치를 제공하고, 상기 장치는, According to a fourth aspect of the present invention, a text recognition device is provided, the device comprising:

인식할 이미지를 획득하는 획득 유닛; 및an acquiring unit acquiring an image to be recognized; and

상기 인식할 이미지를 사전 훈련된 텍스트 인식 모델로 입력하여, 상기 인식할 이미지의 텍스트 정보를 획득하는 인식 유닛 - 상기 텍스트 인식 모델은 사전 훈련된 텍스트 인식 모델 프레임워크를 기반으로 훈련할 이미지를 훈련하여 생성된 것이고, 상기 텍스트 인식 모델 프레임워크는 제1 측면의 훈련 방법에 의해 훈련하여 획득된 것이고, 상기 훈련할 이미지는 텍스트 정보를 포함함 - ; 을 포함한다. A recognition unit for obtaining text information of the image to be recognized by inputting the image to be recognized into a pretrained text recognition model, wherein the text recognition model trains the image to be trained based on a pretrained text recognition model framework generated, the text recognition model framework is obtained by training by the training method of the first aspect, and the image to be trained includes text information; includes

본 발명의 제5 측면에 따르면, 전자 기기를 포함하고, 상기 전자 기기는,According to a fifth aspect of the present invention, it includes an electronic device, wherein the electronic device,

적어도 하나의 프로세서; 및 at least one processor; and

상기 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리; 를 포함하고,a memory communicatively coupled to the at least one processor; including,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서는 제1 측면의 상기 방법을 수행하거나; 또는, 상기 적어도 하나의 프로세서가 제2 측면의 상기 방법을 수행한다. Instructions executable by the at least one processor are stored in the memory, and when the instructions are executed by the at least one processor, the at least one processor performs the method of the first aspect; Alternatively, the at least one processor performs the method of the second aspect.

본 발명의 제6 측면에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 명령은 컴퓨터가 제1 측면의 상기 방법을 수행하거나; 또는, 상기 컴퓨터 명령은 컴퓨터가 제2 측면의 상기 방법을 수행하도록 한다. According to a sixth aspect of the present invention, there is provided a non-transitory computer-readable storage medium storing computer instructions, wherein the computer instructions cause a computer to perform the method of the first aspect; Alternatively, the computer instructions cause a computer to perform the method of the second aspect.

본 발명의 제7 측면에 따르면, 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 제공하고, 전자 기기의 적어도 하나의 프로세서는 상기 판독 가능 저장 매체에서 상기 컴퓨터 프로그램을 판독할 수 있고, 상기 적어도 하나의 프로세서는 상기 컴퓨터 프로그램을 수행하여 전자 기기가 제1 측면의 상기 방법을 수행하거나; 또는, 상기 적어도 하나의 프로세서는 상기 컴퓨터 프로그램을 수행하여 전자 기기가 제2 측면의 상기 방법을 수행한다. According to a seventh aspect of the present invention, there is provided a computer program product including a computer program stored in a readable storage medium, wherein at least one processor of an electronic device can read the computer program from the readable storage medium, The at least one processor executes the computer program so that the electronic device performs the method of the first aspect; Alternatively, the at least one processor executes the computer program so that the electronic device performs the method of the second aspect.

본 발명의 제8 측면에 따르면, 텍스트 인식 모델 프레임워크의 훈련 시스템을 제공하고, 상기 시스템은,According to an eighth aspect of the present invention, a training system for a text recognition model framework is provided, the system comprising:

샘플 이미지에 대해 특징 처리를 하여, 상기 샘플 이미지의 텍스트 정보와 관련된 적어도 두 가지의 특징 정보를 획득하는 텍스트 검출 모델; 및a text detection model for obtaining at least two pieces of feature information related to text information of the sample image by performing feature processing on the sample image; and

상기 샘플 이미지의 적어도 두 가지의 특징 정보에 대해 융합 처리하여, 상기 샘플 이미지의 융합 특징을 획득하는 특징 융합 모델; 을 포함한다.a feature fusion model for obtaining a fusion feature of the sample image by performing fusion processing on at least two pieces of feature information of the sample image; includes

상기 특징 융합 모델은 또한, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득하는데 사용되고, 상기 텍스트 인식 모델 프레임워크는 조정된 텍스트 검출 모델 및 조정된 특징 융합 모델을 포함한다. The feature fusion model is further used to obtain a text recognition model framework by adjusting parameters of the text detection model and the feature fusion model respectively, wherein the text recognition model framework is adjusted text detection model and adjusted feature fusion model. include the model

제9 측면에 따르면, 본 출원의 실시예는 컴퓨터 프로그램을 제공하고, 프로그램 코드를 포함하고, 컴퓨터가 상기 컴퓨터 프로그램을 운행할 경우, 상기 프로그램 코드는 제1 측면 또는 제2 측면의 상기 방법을 수행한다. According to a ninth aspect, embodiments of the present application provide a computer program, including program code, when a computer runs the computer program, the program code performs the method of the first aspect or the second aspect. do.

이해해야 할 것은, 본 발명의 내용 부분에서 설명하는 내용은 본 발명의 실시예의 관건 또는 중요한 특징을 식별하기 위한 것이 아니고, 본 발명의 범위를 한정하기 위한 것도 아니다. 본 발명의 기타 특징은 이하의 명세서를 통해 용이하게 이해된다.It should be understood that the content set forth in the Summary of the Invention section is not intended to identify key or important features of the embodiments of the present invention, nor is it intended to limit the scope of the present invention. Other features of the present invention are readily understood through the following specification.

도면은 본 기술적 수단을 더 잘 이해하는데 사용되고, 본 발명을 한정하려는 것은 아니다.
도1은 본 발명의 제1 실시예에 따른 개략도이다.
도2는 본 발명의 제2 실시예에 따른 개략도이다.
도3은 본 발명의 실시예에 따른 텍스트 인식 모델 프레임워크의 훈련 방법의 장면 개략도이다.
도4는 본 발명의 제3 실시예에 따른 개략도이다.
도5는 본 발명의 제4 실시예에 따른 개략도이다.
도6은 본 발명의 제5 실시예에 따른 개략도이다.
도7은 본 발명의 제6 실시예에 따른 개략도이다.
도8은 본 발명 실시예의 텍스트 인식 모델 프레임워크의 훈련 방법, 텍스트 인식 방법을 구현하는 전자 기기의 블록도이다.
도9는 본 발명의 제7 실시예에 따른 개략도이다.
The drawings are used to better understand the present technical means and are not intended to limit the present invention.
1 is a schematic diagram according to a first embodiment of the present invention.
Fig. 2 is a schematic diagram according to a second embodiment of the present invention.
Fig. 3 is a scene schematic diagram of a method for training a text recognition model framework according to an embodiment of the present invention;
Fig. 4 is a schematic diagram according to a third embodiment of the present invention.
Fig. 5 is a schematic diagram according to a fourth embodiment of the present invention.
Fig. 6 is a schematic diagram according to a fifth embodiment of the present invention.
Fig. 7 is a schematic diagram according to a sixth embodiment of the present invention.
Fig. 8 is a block diagram of an electronic device implementing the training method and text recognition method of the text recognition model framework according to an embodiment of the present invention.
Fig. 9 is a schematic diagram according to a seventh embodiment of the present invention.

이하, 도면과 결합하여 본 발명의 예시적인 실시예를 설명한다. 여기에는 이해를 돕기 위해 본 발명의 실시예의 다양한 세부 사항을 포함하고, 실시예들은 단지 예시적인 것으로 간주되어야 한다. 때문에 본 발명에 속하는 기술 분야의 통상의 기술자는 본 발명의 범위 및 사상을 벗어나지 않고 실시예에 여러가지 변경과 수정을 할 수 있다는 것을 인식해야 한다. 동시에 정확성과 간결성을 위해 하기의 설명에서 공지 기능과 구조에 대한 설명은 생략한다. Hereinafter, exemplary embodiments of the present invention will be described in conjunction with the drawings. It contains various details of embodiments of the present invention for purposes of understanding, and the embodiments are to be regarded as illustrative only. Therefore, it should be recognized that those skilled in the art belonging to the present invention can make various changes and modifications to the embodiments without departing from the scope and spirit of the present invention. At the same time, for accuracy and conciseness, descriptions of well-known functions and structures are omitted in the following description.

텍스트 인식 기술은 이미지의 텍스트 정보에 대한 인식을 가리키고, 텍스트 인식 기술은 교육 분야, 금융 분야, 의료 분야, 교통 분야 및 보험 분야 등과 같은 각 분야에 광범히 응용되고 있다. Text recognition technology refers to recognition of text information in an image, and text recognition technology is widely applied to various fields such as education, finance, medical, transportation, and insurance.

예를 들면, 텍스트 인식 기술이 의료 분야에 적용될 경우, 텍스트 인식 기술을 기반으로 진료 차트 이미지의 텍스트 정보를 인식한다. 또 예를 들면, 텍스트 인식 기술이 보험 분야에 적용될 경우, 텍스트 인식 기술을 기반으로 보험 증서 이미지의 텍스트 정보를 인식하는 등, 여기서 더는 일일이 열거하지 않는다. For example, when text recognition technology is applied to the medical field, text information of a medical chart image is recognized based on the text recognition technology. Also, for example, when text recognition technology is applied to the insurance field, text information of an insurance certificate image is recognized based on the text recognition technology, etc., which are not enumerated here.

인공지능 기술에서 딥러닝 기술의 반전에 따라, 딥러닝 기술은 기타 기술과 결합될 수 있다. 예를 들면, 딥러닝 기술을 텍스트 인식 기술에 적용함으로, 텍스트 정보에 대한 인식의 정확성 및 신뢰성을 향상시킬 수 있다. Following the reversal of deep learning technology in artificial intelligence technology, deep learning technology can be combined with other technologies. For example, by applying deep learning technology to text recognition technology, accuracy and reliability of text information recognition can be improved.

예를 들면, 딥러닝 기술을 기반으로 텍스트 정보를 인식하는 텍스트 인식 모델을 훈련시킬 수 있다. 그러나 텍스트 인식 모델에 대한 훈련은 통상적으로 텍스트 인식 모델 프레임워크을 기반으로 해야 한다. 즉, 통상적으로, 먼저 훈련하여 텍스트 인식 모델 프레임워크를 획득한 후, 텍스트 인식 모델 프레임워크의 기반에서, 훈련하여 텍스트 인식 모델을 획득한다. For example, a text recognition model that recognizes text information based on deep learning technology can be trained. However, training of a text recognition model should typically be based on a text recognition model framework. That is, usually, a text recognition model framework is first trained to obtain a text recognition model framework, and then a text recognition model is trained to obtain a text recognition model framework on the basis of the text recognition model framework.

관련 기술에서, 통상적으로 2개의 서로 독립된 모델에 의해 훈련하여 텍스트 인식 모델 프레임워크를 획득하고, 2개의 서로 독립된 모델은 각각 텍스트 검출 모델 및 특징 융합 모델이고, 텍스트 인식 모델 프레임워크를 훈련할 경우, 특징 융합 모델은 텍스트 검출 모델을 기반으로 하는 오프라인 인식 결과이다. In related art, it is usually trained by two independent models to obtain a text recognition model framework, and the two independent models are a text detection model and a feature fusion model, respectively, and to train the text recognition model framework, The feature fusion model is an offline recognition result based on a text detection model.

구체적으로, 텍스트 검출 모델은 광학적 문자 인식(Optical Character Recognition, OCR) 모델일 수 있고, 특징 융합 모델은 transfromer 모델일 수 있고, transfromer 모델은 구체적으로 광학적 문자 인식 모델의 오프라인 인식 결과를 기반으로 훈련을 완료하고, 텍스트 인식 모델 프레임워크를 획득한다. Specifically, the text detection model may be an optical character recognition (OCR) model, the feature fusion model may be a transfromer model, and the transfromer model is specifically trained based on offline recognition results of the optical character recognition model. complete, and acquire the text recognition model framework.

그러나, 광학적 문자 인식과 transfromer 모델은 훈련 프로세스에서 서로 독립되어, 훈련하여 획득된 텍스트 인식 모델 프레임워크의 정확성이 지나치게 낮은 기술 과제를 초래할 수 있다. However, since the optical character recognition and the transformer model are independent of each other in the training process, the accuracy of the text recognition model framework obtained through training may result in technical challenges that are too low.

상기 기술 과제를 방지하기 위해, 본 발명의 발명인은 창조적인 노동을 거쳐, 본 발명의 발명 구상을 획득한다. 텍스트 검출 모델 및 특징 융합 모델을 기반으로, 융합 특징을 획득하고, 특징 융합 모델이 융합 특징을 기반으로, 텍스트 인식 모델 및 특징 인식 모델에 대해 전체적인 훈련을 하여, 텍스트 인식 모델 프레임워크를 획득한다. In order to avoid the above technical problem, the inventor of the present invention obtains the inventive concept of the present invention through creative labor. Based on the text detection model and the feature fusion model, fusion features are obtained, and the feature fusion model is trained on the text recognition model and the feature recognition model as a whole based on the fusion features to obtain a text recognition model framework.

상기 발명 구상을 기반으로, 본 발명은 텍스트 인식 모델 프레임워크의 훈련 방법, 장치 및 시스템을 제공하고, 인공지능 기술 분야의 컴퓨터 비전 및 딥러닝 기술 분야에 적용되고, 스마트 시티 및 스마트 금융 장면에 적용되어, 텍스트 인식 모델 프레임워크의 정확성을 향상시킨다. Based on the above invention concept, the present invention provides a text recognition model framework training method, apparatus and system, applied to the field of computer vision and deep learning technology in the field of artificial intelligence technology, and applied to smart city and smart finance scenes. and improve the accuracy of the text recognition model framework.

도1을 참조하면, 도1은 본 발명의 제1 실시예에 따른 개략도이다. Referring to Fig. 1, Fig. 1 is a schematic diagram according to a first embodiment of the present invention.

도1에 도시된 바와 같이, 본 발명의 실시예에서 제공하는 텍스트 인식 모델 프레임워크의 훈련 방법은 단계S101 내지 S103을 포함한다.As shown in Fig. 1, the training method of the text recognition model framework provided by the embodiment of the present invention includes steps S101 to S103.

S101에서, 미리 설정된 텍스트 검출 모델을 기반으로 샘플 이미지에 대해 특징 처리를 하여, 샘플 이미지의 텍스트 정보와 관련된 적어도 두 가지의 특징 정보를 획득한다. In operation S101, at least two pieces of feature information related to text information of the sample image are acquired by performing feature processing on the sample image based on a preset text detection model.

예시적으로, 본 실시예의 수행 주체는 텍스트 인식 모델 프레임워크의 훈련 장치(아래는 훈련 장치라고 함)일 수 있고, 훈련 장치는 서버(예를 들면 로컬 서버, 또는, 클라우드 서버)일 수 있고, 단말 기기일 수 있으며, 프로세서일 수 있고, 칩 등일 수 있고, 본 실시예에서 한정하지 않는다. Exemplarily, the subject of this embodiment may be a training device (hereinafter referred to as a training device) of a text recognition model framework, and the training device may be a server (eg, a local server or a cloud server), It may be a terminal device, it may be a processor, it may be a chip, etc., and is not limited in this embodiment.

샘플 이미지는 텍스트 정보를 포함한다. 예를 들면, 의료 분야에 대해, 샘플 이미지는 진료 차트의 이미지일 수 있고, 샘플 이미지는 환자 신분과 같은 텍스트 정보 및 병례의 텍스트 정보 등을 포함한다. 또 예를 들면, 보험 분야에 대해, 샘플 이미지는 보험 증서의 이미지일 수 있고, 샘플 이미지는 보험자 신분과 같은 텍스트 정보 및 보험 내용의 텍스트 정보 등을 포함한다. Sample images include text information. For example, for the medical field, the sample image may be an image of a medical treatment chart, and the sample image includes text information such as a patient's identity and text information of a case. Further, for example, in the field of insurance, the sample image may be an image of an insurance policy, and the sample image includes text information such as an insurer's identity and text information of insurance content.

이해해야 할 것은, 텍스트 인식 모델 프레임워크를 훈련하는 샘플 이미지의 수량은 수요, 역사 기록 및 시험 등 방식을 기반으로 훈련 장치에 의해 설정될 수 있고, 본 실시예에서 한정하지 않는다. It should be understood that the number of sample images for training the text recognition model framework may be set by the training device based on demand, historical records and tests, etc., and is not limited in this embodiment.

텍스트 검출 모델은 샘플 이미지에서, 텍스트 정보와 관련된 특징을 검출하는 모델일 수 있다. 예를 들면, 의료 분야에 대해, 텍스트 검출 모델은 진료 차트 이미지의 환자 신분의 텍스트 정보를 검출할 수 있다. The text detection model may be a model that detects features related to text information in a sample image. For example, for the medical field, the text detection model can detect the text information of the patient's identity in the medical chart image.

구체적으로, 텍스트 검출 모델은 광학적 문자 인식일 수 있다. Specifically, the text detection model may be optical character recognition.

본 실시예에서, 특징 정보는 샘플 이미지의 텍스트 정보와 관련된 특징을 나타내는데 사용되고, 적어도 두 가지의 특징 정보는, 텍스트 내용과 관련된 정보, 텍스트 비전과 관련된 정보 및 공간 관계에서 각 문자의 정보 등을 포함할 수 있고, 여기서 더는 일일이 열거하지 않는다. In this embodiment, feature information is used to indicate features related to text information of a sample image, and at least two types of feature information include information related to text content, information related to text vision, and information of each character in a spatial relationship. You can, and I won't enumerate them here.

S102에서, 미리 설정된 특징 융합 모델을 기반으로 샘플 이미지의 적어도 두 가지의 특징 정보에 대해 융합 처리하여, 샘플 이미지의 융합 특징을 획득한다. In operation S102, fusion processing is performed on at least two pieces of feature information of the sample image based on a preset feature fusion model to obtain a fusion feature of the sample image.

특징 융합 모델은, 복수의 특징 정보에 대해 융합 처리하는 모델을 가리킨다. 예를 들면, 특징 융합 모델은 transfromer 모델일 수 있다. A feature fusion model refers to a model that performs fusion processing on a plurality of feature information. For example, a feature fusion model can be a transformer model.

융합 처리는 복수의 특징 정보에 대해 스플라이스하고, 복수의 특징 정보를 조합하고, 복수의 특징 정보를 연결할 수 있고, 본 실시예에서 한정하지 않고, 융합 처리의 상세한 처리 프로세스는 관련 기술을 참조할 수 있고, 여기서 더는 설명하지 않는다. The fusion processing may splice on a plurality of feature information, combine the plurality of feature information, and link the plurality of feature information, and the present embodiment is not limited, and the detailed processing process of the fusion processing may refer to related art. may be, and will not be further explained here.

S103에서, 융합 특징을 특징 융합 모델에 입력하고, 융합 특징 모델을 기반으로 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득한다. In step S103, fusion features are input into the feature fusion model, and parameters of the text detection model and the feature fusion model are respectively adjusted based on the fusion feature model to obtain a text recognition model framework.

텍스트 인식 모델 프레임워크는 조정된 텍스트 검출 모델 및 조정된 특징 융합 모델을 포함한다. The text recognition model framework includes a tuned text detection model and a tuned feature fusion model.

본 실시예에서, 융합 특징을 특징 융합 모델에 입력하여, 융합 특징을 기반으로 텍스트 검출 모델의 파라미터를 조정하고, 특징 융합 모델의 파라미터를 조정함으로, 텍스트 인식 모델 프레임워크를 획득할 수 있다. In this embodiment, a text recognition model framework may be obtained by inputting fusion features to a feature fusion model, adjusting parameters of a text detection model based on the fusion features, and adjusting parameters of the feature fusion model.

이해해야 할 것은, 텍스트 인식 모델 프레임워크의 훈련은 반복된 프로세스이다. 즉, 텍스트 검출 모델의 파라미터 및 특징 융합 모델의 파라미터을 반복 조정하는 프로세스이고, 반복 횟수가 미리 설정된 횟수에 도달하고, 또는 반복할 경우의 손실 함수가 미리 설정된 손실 역치보다 작을 경우, 훈련이 이미 요구에 도달하였다는 것을 설명함으로, 텍스트 인식 모델 프레임워크를 획득한다. It should be understood that training of a text recognition model framework is an iterative process. That is, it is the process of iteratively adjusting the parameters of the text detection model and the parameters of the feature fusion model, and when the number of iterations reaches a preset number, or the loss function for iterations is smaller than the preset loss threshold, training has already met the demand. By explaining what has been reached, we obtain the text recognition model framework.

상기 분석을 기반으로 알 수 있는 바, 본 발명의 실시예는 텍스트 인식 모델 프레임워크의 훈련 방법을 제공하고, 당해 방법은, 미리 설정된 텍스트 검출 모델을 기반으로 샘플 이미지에 대해 특징 처리를 하여, 샘플 이미지의 텍스트 정보와 관련된 적어도 두 가지의 특징 정보를 획득하는 단계; 미리 설정된 특징 융합 모델을 기반으로 샘플 이미지의 적어도 두 가지의 특징 정보에 대해 융합 처리하여, 샘플 이미지의 융합 특징을 획득하는 단계; 융합 특징을 특징 융합 모델에 입력하고, 융합 특징 모델을 기반으로 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득하는 단계 - 텍스트 인식 모델 프레임워크는 조정된 텍스트 검출 모델 및 조정된 특징 융합 모델을 포함함 - ; 를 포함하고, 본 실시예에서, 융합 특징을 기반으로 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득하는 기술 특징을 도입하여, 텍스트 인식 모델 프레임워크의 텍스트 검출 모델과 특징 융합 모델 사이에 비교적 높은 연관성을 구비하도록 함으로, 훈련 프로세스의 완전성 및 전면성을 구현하고, 관련 기술에서 텍스트 검출 모델과 특징 융합 모델이 서로 독립되어, 텍스트 인식 모델 프레임워크를 훈련할 경우 전체 차원에서의 고려가 결핍한 경우를 방지함으로, 텍스트 인식 모델 프레임워크의 정확성이 지나치게 낮은 폐단을 방지하고, 텍스트 인식 모델 프레임워크의 정확성 및 신뢰성을 향상시킨다. As can be seen based on the above analysis, an embodiment of the present invention provides a method for training a text recognition model framework, wherein the method performs feature processing on sample images based on a preset text detection model, obtaining at least two pieces of feature information related to text information of an image; obtaining a fusion feature of the sample image by performing fusion processing on at least two pieces of feature information of the sample image based on a preset feature fusion model; inputting fusion features into a feature fusion model, and adjusting parameters of a text detection model and a feature fusion model based on the fusion feature model, respectively, to obtain a text recognition model framework - the text recognition model framework adjusts text detection -Including model and adjusted feature fusion model; In this embodiment, a technical feature is introduced to obtain a text recognition model framework by adjusting parameters of a text detection model and a feature fusion model based on fusion features, respectively, to detect text in the text recognition model framework. By having a relatively high correlation between the model and the feature fusion model, the completeness and comprehensiveness of the training process is implemented, and the text detection model and the feature fusion model are independent of each other in the related art, so that the text recognition model framework is trained. By avoiding the case of insufficient consideration of the entire dimension, the disadvantage of too low accuracy of the text recognition model framework is prevented, and the accuracy and reliability of the text recognition model framework are improved.

도2를 참조하면, 도2는 본 발명의 제2 실시예에 따른 개략도이다. Referring to Fig. 2, Fig. 2 is a schematic diagram according to a second embodiment of the present invention.

예를 들면도2에 도시된 바와 같이, 본 발명의 실시예에서 제공하는 텍스트 인식 모델 프레임워크의 훈련 방법은 단계S201 내지 S204를 포함한다. For example, as shown in Fig. 2, the training method of the text recognition model framework provided by the embodiment of the present invention includes steps S201 to S204.

S201에서, 텍스트 검출 모델을 기반으로 샘플 이미지에서 텍스트 행의 위치 정보를 결정하고, 위치 정보에 따라 적어도 두 가지의 특징 정보를 결정한다. In step S201, location information of text lines in the sample image is determined based on the text detection model, and at least two pieces of feature information are determined according to the location information.

본 실시예와 제1 실시예의 동일한 특징에 관련하여, 본 실시예에서 설명하지 않는다. Regarding the same features of this embodiment and the first embodiment, they are not described in this embodiment.

상기 분석을 기반으로 알 수 있는 바, 본 실시예의 텍스트 인식 모델 프레임워크의 훈련 방법은 보험 분야 및 의료 분야 등과 같은 부동한 분야에 적용될 수 있다. 현재 본 실시예의 텍스트 인식 모델 프레임워크의 훈련 방법아 보험 분야에 적용되는 것을 예로 들어, 본 실시예에 대해 예시적인 설명을 한다. As can be seen based on the above analysis, the training method of the text recognition model framework of this embodiment can be applied to different fields such as insurance and medical fields. An exemplary description of the present embodiment is given by taking as an example that the training method of the text recognition model framework of this embodiment is applied to the field of insurance as an example.

예를 들면, 도3에 도시된 바와 같이, 샘플 이미지는 보험 증서 이미지이고, 보험 증서 이미지는 도3에 도시된 "이름: XXX", "보험 유형: XXXXXX" 및 "보험 연한: XXXX" 등과 같은 텍스트 정보를 포함한다. For example, as shown in FIG. 3, the sample image is an insurance certificate image, and the insurance certificate image is shown in FIG. Contains textual information.

일부 실시예에서, 스캔하는 방식을 통해 샘플 이미지를 훈련 장치로 전송하고, 훈련 장치의 텍스트 검출 모델에 의해 샘플 이미지의 텍스트 행의 위치 정보를 결정한다. In some embodiments, the sample image is transmitted to the training device through a scanning method, and location information of the text line of the sample image is determined by a text detection model of the training device.

다른 실시예에서, 도3에 도시된 바와 같이, 훈련 장치와 외접 장치(예를 들면 저장 장치 등)에 의해 연결될 수도 있고, 외접 장치에서 전송된 샘플 이미지를 수신하고, 훈련 장치의 텍스트 검출 모델에 의해 샘플 이미지의 텍스트 행의 위치 정보를 결정한다. In another embodiment, as shown in FIG. 3, the training device may be connected by an external device (eg, a storage device), and the sample image transmitted from the external device is received, and the text detection model of the training device is Determine the location information of the text line of the sample image by

텍스트 행은, 텍스트 정보가 위치한 행을 가리킨다. 텍스트 행의 위치 정보는, 텍스트 정보가 위치한 행의 위치와 관련된 정보를 가리키고, 구체적으로 텍스트 정보가 위치한 행, 샘플 이미지에서의 좌표일 수 있다. A text line indicates a line where text information is located. The position information of the text row indicates information related to the position of the row where the text information is located, and may specifically be the coordinates of the row where the text information is located and a sample image.

예를 들면, 텍스트 검출 모델이 샘플 이미지를 인식할 경우, 미리 설정된 직사각형 박스을 기반으로 샘플 이미지의 텍스트 행에 대해 박스 선택을 하고, 샘플 이미지에서 당해 직사각형 박스의 좌표를 결정한다. For example, when the text detection model recognizes a sample image, box selection is performed for a text row of the sample image based on a preset rectangular box, and the coordinates of the rectangular box are determined in the sample image.

본 실시예에서, 샘플 이미지의 텍스트 행의 위치 정보를 결정하여, 위치 정보를 기반으로 샘플 이미지에서 적어도 두 가지의 특징 정보를 결정하고, 비교적 높은 정확성의 위치 결정 방식을 통해 적어도 두 가지의 특징 정보를 결정함으로, 적어도 두 가지의 특징 정보의 정확성 및 신뢰성을 향상시키는 기술 효과를 구현할 수 있다. In this embodiment, positional information of a text row of a sample image is determined, at least two pieces of feature information are determined in the sample image based on the positional information, and the at least two pieces of feature information are obtained through a relatively high accuracy positioning method. By determining, it is possible to implement a technical effect of improving the accuracy and reliability of at least two pieces of feature information.

일부 실시예에서, 위치 정보에 따라 적어도 두 가지의 특징 정보를 결정하는 단계는, 위치 정보에 따라 샘플 이미지에 대해 크로핑 동작을 수행하여, 텍스트 영역을 획득하고, 텍스트 영역에서 적어도 두 가지의 특징 정보를 획득하는 단계를 포함한다. In some embodiments, the step of determining at least two pieces of feature information according to the location information may include obtaining a text area by performing a cropping operation on the sample image according to the location information, and determining at least two pieces of feature information in the text area. It includes obtaining information.

예를 들면, 상기 실시예와 결합하고, 위치 정보를 결정한 후, 위치 정보를 기반으로 샘플 이미지에서 직사각형 박스에 의해 박스 선택된 영역을 잘라낼 수 있고, 당해 영역은 텍스트 영역이고, 텍스트 영역의 텍스트 정보를 인식하는 방식을 통해, 적어도 두 가지의 특징 정보를 획득한다. For example, in combination with the above embodiment, after determining the location information, a region selected by a rectangular box in the sample image may be cut out based on the location information, the region is a text area, and the text information of the text area may be cut out. Through the recognition method, at least two pieces of feature information are obtained.

본 실시예에서, 위치 정보를 기반으로 샘플 이미지에서 텍스트 영역을 잘라 냄으로, 텍스트 영역에 거의 전량의 텍스트 정보가 포함되도록 하고, 텍스트 정보의 누락을 방지하고, 크로핑 동작이 비교적 높은 정확성을 구비하도록 함으로, 텍스트 영역이 비교적 높은 정확성 및 신뢰성을 구비하도로 하고, 텍스트 영역을 기반으로 결정된 적어도 두 가지의 특징 정보가 비교적 높은 전면성 및 신뢰성을 구비하도록 하는 기술 효과를 구현한다. In this embodiment, by cutting out the text area from the sample image based on the location information, almost all of the text information is included in the text area, omission of text information is prevented, and the cropping operation has relatively high accuracy. By doing so, the text area has a relatively high accuracy and reliability, and at least two pieces of characteristic information determined based on the text area have a relatively high comprehensiveness and reliability.

일부 실시예에서, 텍스트 영역에서 적어도 두 가지의 특징 정보를 획득하는 단계는, 텍스트 영역에서 샘플 이미지의 이미지 특징을 추출하고, 이미지 특징을 인식하여, 적어도 두 가지의 특징 정보를 획득하는 단계를 포함한다. In some embodiments, acquiring at least two pieces of feature information from the text area includes extracting image features of the sample image from the text area, recognizing the image features, and acquiring the at least two pieces of feature information. do.

이미지 특징는 2개의 큰 차원에서 이해할 수 있고, 2개의 큰 차원은 각각 내용 차원 및 외관 차원이다. 예를 들면 본 실시예에서, 샘플 이미지가 텍스트 정보를 포함하는 이미지일 경우, 내용 차원의 이미지 특징은, 텍스트 내용과 같이 이미지 특징에 포함되고 텍스트 정보의 내용와 관련된 특징를 가리키고; 외관 차원의 이미지 특징은, 이미지 특징에 포함되고 텍스트 정보의 색채 및 무늬 등과 관련된 특징을 가리킨다. Image features can be understood in two large dimensions, and the two large dimensions are the content dimension and the appearance dimension, respectively. For example, in this embodiment, when the sample image is an image including text information, the image feature of the content level indicates a feature included in the image feature and related to the content of the text information, such as text content; Image features of the appearance dimension refer to features related to colors and patterns of text information included in image features.

따라서, 본 실시예에서, 적어도 두 가지의 특징 정보은 2개의 큰 차원(즉 내용 차원 및 외관 차원)을 기반으로 각각 결정된 두 가지의 특징 정보를 포함할 수 있다. 물론, 상기 제1 실시예의 분석을 결합하여 알 수 있는 바, 당해 2개의 큰 차원을 더 작은 차원으로 분할하고, 더 작은 차원을 기반으로 3종 이상의 특징 정보를 결정할 수 있고, 본 실시예에서 한정하지 않는다. Accordingly, in the present embodiment, at least two pieces of feature information may include two pieces of feature information determined respectively based on two large dimensions (ie, a content dimension and an appearance dimension). Of course, it can be seen by combining the analysis of the first embodiment above, that the two large dimensions are divided into smaller dimensions, and three or more types of feature information can be determined based on the smaller dimensions, which are limited in this embodiment. I never do that.

본 실시예에서, 텍스트 영역에 비교적 높은 정확성 및 전면성이 구비되어 있으므로, 텍스트 영역에서 추출된 이미지 특징은 비교적 높은 정확성 및 전면성을 구비하고, 이미지 특징을 인식하여, 특징 정보을 획득할 경우, 복수의 차원에서 분석함으로, 복수의 차원의 특징 정보을 획득할 수 있어, 특징 정보의 정확성, 전면성 및 신뢰성을 향상시키는 기술 효과를 구현할 수 있다. In this embodiment, since the text area has relatively high accuracy and fullness, the image feature extracted from the text area has relatively high accuracy and fullness, and when the image feature is recognized and feature information is obtained, multiple By analyzing in the dimension of , it is possible to obtain feature information of a plurality of dimensions, and implement a technical effect of improving the accuracy, comprehensiveness and reliability of feature information.

일부 실시예에서, 적어도 두 가지의 특징 정보는, 텍스트 특징 및 비전 특징을 포함한다. In some embodiments, the at least two pieces of feature information include text features and vision features.

텍스트 특징은 내용 차원을 기반으로 하는 특징 정보로 이해될 수 있고, 비전 특징은 외관 차원의 특징 정보로 이해될 수 있다. Text features can be understood as feature information based on the content dimension, and vision features can be understood as feature information based on the appearance dimension.

S202에서, 미리 설정된 특징 융합 모델을 기반으로 텍스트 특징 및 비전 특징에 대해 융합 처리하여, 샘플 이미지의 융합 특징을 획득한다. In step S202, fusion processing is performed on text features and vision features based on a preset feature fusion model to obtain fusion features of the sample image.

S202에 관한 구현 원리는 제1 실시예를 참조할 수 있고, 여기서 더는 설명하지 않는다. The implementation principle for S202 may refer to the first embodiment, and is not further described herein.

S203에서, 텍스트 특징을 나타내는 복수의 텍스트 특징 블록을 구축하고, 비전 특징을 나타내는 복수의 비전 특징 블록을 구축한다. In S203, a plurality of text feature blocks representing text features are constructed, and a plurality of vision feature blocks representing vision features are constructed.

예를 들면, 텍스트 특징과 매핑 관계를 구비한 복수의 텍스트 특징 블록을 구축하고, 복수의 텍스트 특징 블록은 텍스트 특징을 나타내는데 사용될 수 있다. For example, a plurality of text feature blocks having text features and mapping relationships may be constructed, and the plurality of text feature blocks may be used to represent text features.

예시적으로, 수요, 역사 기록 및 시험 등 방식을 기반으로, 텍스트 특징 블록의 수량을 결정하고, 텍스트 특징을 복수의 텍스트 특징 블록에 매핑하고, 복수의 텍스트 특징 블록은 텍스트 특징을 나타낼 수 있다. Exemplarily, the number of text feature blocks may be determined, the text feature may be mapped to a plurality of text feature blocks, and the plurality of text feature blocks may represent text features, based on a method such as demand, history record, and test.

구체적으로, 텍스트 특징 블록은 2*2(픽셀)의 특징 블록일 수 있고, 텍스트 특징의 시맨틱 정보를 기반으로, 텍스트 특징을 분할하고 복수의 2*2(픽셀)의 특징 블록으로 저장함으로, 복수의 텍스트 특징 블록을 획득할 수 있다. Specifically, the text feature block may be a 2*2 (pixel) feature block, and based on the semantic information of the text feature, the text feature is divided and stored as a plurality of 2*2 (pixel) feature blocks, so that a plurality of text feature blocks are stored. A text feature block of can be obtained.

시맨틱 정보는 필드 분류와 관련된 텍스트 정보의 정보로 이해될 수 있고, 필드 사이의 위치와 관련된 텍스트 정보의 정보로 이해될 수도 있고, 나타내는 의미와 관련된 텍스트 정보의 정보로 이해될 수 있다. Semantic information may be understood as information of text information related to field classification, information of text information related to positions between fields, or information of text information related to meaning.

마찬가지로, 비전 특징을 나타내는 복수의 비전 특징 블록을 구축하는 원리 및 구현은, 텍스트 특징을 나타내는 복수의 텍스트 특징 블록을 구축하는 단계를 참조하면 되고, 여기서 더는 설명하지 않는다. Similarly, the principle and implementation of building a plurality of vision feature blocks representing vision features can be referred to the step of building a plurality of text feature blocks representing text features, and is not further described herein.

S204에서, 특징 융합 모델은 융합 특징 및 복수의 텍스트 특징 블록에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하는 것; 및, 특징 융합 모델이 융합 특징 및 복수의 비전 특징 블록에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하는 것; 중의 적어도 하나를 수행한다. Step 204, the feature fusion model is adjusted according to the fusion feature and the plurality of text feature blocks, parameters of the text detection model and the feature fusion model, respectively; and adjusting parameters of the text detection model and the feature fusion model, respectively, according to the feature fusion model according to the fusion feature and the plurality of vision feature blocks; perform at least one of

일 예시에서, 융합 특징과 복수의 텍스트 특징 블록을 결합하여, 텍스트 검출 모델의 파라미터를 조정하고, 특징 융합 모델의 파라미터를 조정할 수 있다. In one example, a fusion feature may be combined with a plurality of text feature blocks to adjust the parameters of the text detection model and to adjust the parameters of the feature fusion model.

일부 실시예에서, 융합 특징과 복수의 텍스트 특징 블록을 결합하여, 텍스트 검출 모델의 파라미터를 조정하고, 특징 융합 모델의 파라미터를 조정하는 단계는 제1 단계 내지 제2 단계를 포함한다.In some embodiments, adjusting the parameters of the text detection model by combining the fusion features with the plurality of text feature blocks, and adjusting the parameters of the feature fusion model includes a first step to a second step.

제1 단계에서, 특징 융합 모델이 융합 특징의 일부 텍스트 특징을 랜덤으로 커버하고, 복수의 텍스트 특징 블록에 따라 커버된 일부 텍스트 특징에 대해 예측 보완 처리를 수행하여, 예측 보완 후의 일부 텍스트 특징을 획득한다. In the first step, the feature fusion model randomly covers some text features of the fusion features, and performs predictive complementation processing on some text features covered according to a plurality of text feature blocks to obtain some text features after prediction and complementation. do.

상기 분석을 기반으로 알 수 있는 바, 텍스트 인식 모델 프레임워크를 훈련하는 프로세스는 반복된 프로세스이므로, 훈련하 프로세스에서, 현재 반복으로 랜덤 커버된 융합 특징의 일부 텍스트 특징과 전에 반복으로 랜덤 커버된 융합 특징의 일부 텍스트 특징은 부동하다. Based on the above analysis, it can be seen that the process of training the text recognition model framework is an iterative process, so in the process under training, some text features of the randomly covered fusion features in the current iteration and randomly covered fusions in the previous iteration Some text features of the feature are floating.

예시적으로, 매번 반복으로 랜덤 커버된 융합 특징의 일부 텍스트 특징은 완전히 다르다. Illustratively, with each iteration, some text features of the randomly covered fusion features are completely different.

예를 들면, 처음 반복될 경우, 랜덤 커버된 융합 특징의 일부 텍스트 특징은, 텍스트 특징 앞으로 6%의 텍스트 특징이고, 두 번째로 반복될 경우, 랜덤 커버된 융합 특징의 일부 텍스트 특징은, 텍스트 특징 앞으로 6% 내지 12% 사이의 텍스트 특징이고, 이대로 유추하고, 더는 일일이 열거하지 않는다. For example, in the first iteration, some text features of the random covered fusion features are text features 6% before the text features, and in the second iteration, some text features of the random covered fusion features are text features. It is a text feature between 6% and 12% in the future, inferring as it is, and not enumerating them one by one.

또 예를 들면, 처음 반복될 경우, 랜덤 커버된 융합 특징의 일부 텍스트 특징은, 텍스트 특징의 6%의 텍스트 특징이고, 두 번째로 반복될 경우, 랜덤 커버된 융합 특징의 일부 텍스트 특징은, 텍스트 특징에서 처음 반복될 경우 커버된 융합 특징 이외의 6%의 텍스트 특징이다. Also, for example, for the first iteration, some text features of the randomly covered fusion features are text features in 6% of the text features, and for the second iteration, some text features of the random covered fusion features are text features for 6% of the text features. When first repeated in a feature, 6% of text features other than covered fusion features.

예시적으로, 매번 반복으로 랜덤 커버된 융합 특징의 일부 텍스트 특징은 완전히 동일한 것이 아니다. Exemplarily, some text features of the randomly covered fusion feature with each iteration are not exactly the same.

예를 들면, 처음 반복될 경우, 랜덤 커버된 융합 특징의 일부 텍스트 특징은, 텍스트 특징의 6%의 텍스트 특징이고, 두 번째로 반복될 경우, 랜덤 커버된 융합 특징의 일부 텍스트 특징은, 텍스트 특징의 6%의 텍스트 특징이고, 처음으로 반복되고 커버된 6%의 텍스트 특징과, 두 번째 반복에서 커버된 6%의 텍스트 특징에는 동일한 텍스트 특징이 존재한다. For example, for the first repetition, some text features of the random covered fusion features are text features of 6% of the text features, and for the second repetition, some text features of the random covered fusion features are text features. 6% of the text features, and the same text features are present in 6% of text features that are repeated and covered for the first time and 6% of text features that are covered in the second iteration.

상기 분석을 기반으로, 복수의 텍스트 특징 블록은 텍스트 특징을 나타내는데 사용될 수 있으므로, 일부 텍스트 특징을 커버한 후, 복수의 텍스트 특징 블록을 기반으로 일부 파일에 대해 보완 예측을 수행함으로, 예측 보완 후의 일부 텍스트 특징을 획득할 수 있다. Based on the above analysis, since a plurality of text feature blocks can be used to represent text features, after covering some text features, supplementary prediction is performed on some files based on the plurality of text feature blocks, so that some of the predictions after complementation are performed. Text features can be obtained.

예를 들면, 융합 특징의 텍스트 특징이 A이고, 텍스트 특징 A의 커버된 일부 텍스트 특징이 a1이고, 기타 커버되지 않은 일부 파일의 특징이 a2일 경우, 훈련 장치는 복수의 텍스트 블록 특징 및 일부 파일 특징 a2를 기반으로 일부 텍스트 특징의 내용(즉 예측 보완 후의 일부 텍스트 특징)을 추정할 수 있다. For example, if the text feature of the fusion feature is A, some covered text feature of text feature A is a1, and the feature of some other uncovered files is a2, then the training apparatus may set a plurality of text block features and some file features Based on feature a2, the content of some text features (that is, some text features after prediction and complementation) can be estimated.

제2 단계에서, 예측 보완 후의 일부 텍스트 특징 및 융합 특징에서 커버된 일부 텍스트 특징 이외의 특징에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정한다. In the second step, parameters of the text detection model and the feature fusion model are respectively adjusted according to some text features after prediction and complementation and features other than some text features covered by the fusion features.

상기 실시예와 결합하면, 당해 단계는, 훈련 장치가 추정된 일부 텍스트 특징의 내용(즉 예측 보완 후의 일부 텍스트 특징), 일부 파일 특징이 a2인 것에 따라, 텍스트 검출 모델의 파라미터를 조정하고, 특징 융합 모델의 파라미터를 조정하는 것으로 이해될 수 있다. Combined with the above embodiment, this step, according to the content of some text features estimated by the training device (namely, some text features after prediction and complementation), some file features are a2, adjust the parameters of the text detection model; It can be understood as adjusting the parameters of the fusion model.

본 실시예에서, 융합 특징의 일부 텍스트 특징을 커버함으로, 복수의 텍스트 특징 블록을 기반으로 커버된 일부 텍스트 특징에 대해 예측 보완을 수행하여, 획득된 예측 보완 후의 일부 텍스트 특징을 기반으로 2개의 모델(즉 텍스트 검출 모델 및 특징 융합 모델)의 파라미터를 각각 조정하고, 텍스트 특징에서 각 일부 텍스트 특징 사이의 연관 관계(즉 문자 내용의 연관 관계를 포함하고, 위치의 연관 관계도 포함함)를 충분히 고려하고, 2개 모델의 인식 판별 능력을 향상시킴으로, 훈련하여 획득된 텍스트 인식 모델 프레임워크의 정확성 및 신뢰성을 향상시키는 기술 효과를 구현한다. In this embodiment, by covering some text features of fusion features, predictive complementation is performed on some of the text features covered based on a plurality of text feature blocks, and two models are obtained based on some text features obtained after predictive complementation. (i.e., text detection model and feature fusion model) parameters are adjusted respectively, and the correlation between text features and each part of text features (i.e., including text content and positional correlation) is fully considered. And, by improving the recognition discrimination ability of the two models, the technical effect of improving the accuracy and reliability of the text recognition model framework obtained by training is implemented.

다른 실시예에서, 융합 특징과 복수의 텍스트 특징 블록을 결합하여, 텍스트 검출 모델의 파라미터를 조정하고, 특징 융합 모델의 파라미터를 조정하는 단계는, 제1 단계 내지 제 2 단계를 포함한다.In another embodiment, adjusting parameters of a text detection model by combining fusion features with a plurality of text feature blocks, and adjusting parameters of a feature fusion model includes first to second steps.

제1 단계에서, 특징 융합 모델은 복수의 텍스트 특징 블록의 적어도 일부 텍스트 특징 블록에 따라, 융합 특징의 텍스트 특징에 대해 교체 처리를 하여, 교체된 텍스트 특징을 획득한다. In the first step, the feature fusion model performs replacement processing on text features of the fusion feature according to at least some text feature blocks of the plurality of text feature blocks, so as to obtain replaced text features.

제2 단계에서, 융합 특징의 비전 특징 및 교체된 텍스트 특징에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정한다. In the second step, according to the vision feature and the replaced text feature of the fusion feature, the parameters of the text detection model and the feature fusion model are respectively adjusted.

본 실시예에서 융합 특징의 텍스트 특징에 대한 교체 원리는 전체 교체일 수 있고, 일부 교체일 수 있고, 본 실시예에서 한정하지 않는다. In this embodiment, the replacement principle for the text feature of the fusion feature may be full replacement or partial replacement, and is not limited in this embodiment.

융합 특징의 텍스트 특징에 대한 교체 원리는, 상기 실시예에서, 융합 특징의 텍스트 특징의 일부 텍스트 특징에 대한 커버 처리의 원리를 참조하면 되고, 여기서 더는 설명하지 않는다. As for the replacement principle of text features of fusion features, refer to the principle of cover processing for some text features of text features of fusion features in the above embodiments, which is not further described herein.

마찬가지로, 본 실시예에서, 융합 특징의 텍스트 특징에 대해 교체 처리 하고, 교체된 텍스트 특징 및 융합 특징의 비전 특징을 기반으로, 2개의 모델(즉 텍스트 검출 모델 및 특징 융합 모델)의 파라미터를 각각 조정하여, 2개의 모델 인식 판별 능력을 향상시킴으로, 훈련하여 획득된 텍스트 인식 모델 프레임워크의 정확성 및 신뢰성을 향상시키는 기술 효과를 구현할 수 있다. Similarly, in this embodiment, the text features of the fusion feature are replaced, and the parameters of the two models (namely, the text detection model and the feature fusion model) are respectively adjusted based on the replaced text features and the vision features of the fusion feature. Thus, by improving the ability to recognize and discriminate between the two models, it is possible to implement a technical effect of improving the accuracy and reliability of the text recognition model framework obtained through training.

다른 일 예시에서, 융합 특징 및 복수의 비전 특징 블록을 결합하여, 텍스트 검출 모델의 파라미터를 조정하고, 특징 융합 모델의 파라미터를 조정할 수 있다. In another example, a fusion feature and a plurality of vision feature blocks may be combined to adjust parameters of a text detection model and parameters of a feature fusion model.

일부 실시예에서, 융합 특징 및 복수의 비전 특징 블록을 결합하여, 텍스트 검출 모델의 파라미터를 조정하고, 특징 융합 모델의 파라미터를 조정하는 단계는 제1 단계 내지 제2 단계를 포함한다.In some embodiments, combining the fusion feature and the plurality of vision feature blocks, adjusting parameters of the text detection model, and adjusting parameters of the feature fusion model includes first steps to second steps.

제1 단계에서, 특징 융합 모델이 융합 특징의 일부 비전 특징을 랜덤으로 커버하고, 복수의 비전 특징 블록에 따라 커버된 일부 비전 특징에 대해 예측 보완 처리를 하여, 예측 보완 후의 일부 비전 특징을 획득한다. In the first step, the feature fusion model covers some vision features of the fusion feature at random, performs prediction and complementation processing on some vision features covered according to a plurality of vision feature blocks, and obtains some vision features after prediction and complementation. .

제2 단계에서, 예측 보완 후의 일부 비전 특징 및 융합 특징에서 커버된 일부 비전 특징 이외의 특징에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정한다. In the second step, parameters of the text detection model and the feature fusion model are respectively adjusted according to some vision features after predictive complementation and features other than some vision features covered by the fusion features.

본 실시예에 대한 구현 원리는, 상기 실시예에서, 융합 특징 및 복수의 텍스트 특징 블록을 결합하는 구현 원리를 참조할 수 있고, 여기서 더는 설명하지 않는다. The implementation principle for this embodiment may refer to the implementation principle of combining a fusion feature and a plurality of text feature blocks in the above embodiment, which is not described herein further.

마찬가지로, 본 실시예에서, 융합 특징의 일부 비전 특징을 커버하고, 복수의 비전 특징 블록을 기반으로 커버된 일부 비전 특징에 대해 예측 보완하여, 획득된 예측 보완 후의 일부 비전 특징을 기반으로 2개 모델(즉 텍스트 검출 모델 및 특징 융합 모델)의 파라미터를 각각 조정하여, 2개 모델의 인식 판별 능력을 향상시킬 수 있고, 훈련하여 획득된 텍스트 인식 모델 프레임워크의 정확성 및 신뢰성을 향상시키는 기술 효과를 구현한다. Similarly, in this embodiment, some vision features of fusion features are covered, and some vision features covered are predicted and supplemented based on a plurality of vision feature blocks, and two models are obtained based on some vision features after prediction and supplementation obtained. (i.e., text detection model and feature fusion model) can improve the recognition discrimination ability of the two models by adjusting the parameters respectively, and realize the technical effect of improving the accuracy and reliability of the text recognition model framework obtained by training do.

다른 실시예에서, 융합 특징 및 복수의 비전 특징 블록을 결합하고, 텍스트 검출 모델의 파라미터를 조정하고, 특징 융합 모델의 파라미터를 조정하는 단계는, 제1 단계 내지 제2 단계를 포함한다.In another embodiment, combining the fusion feature and the plurality of vision feature blocks, adjusting parameters of the text detection model, and adjusting parameters of the feature fusion model includes first to second steps.

제1 단계에서, 특징 융합 모델은 복수의 비전 특징 블록의 적어도 일부 비전 특징 블록에 따라, 융합 특징의 비전 특징에 대해 교체 처리를 하여, 교체된 비전 특징을 획득한다. In a first step, the feature fusion model performs replacement processing on the vision features of the fusion features according to at least some vision feature blocks of the plurality of vision feature blocks, so as to obtain the replaced vision features.

제2 단계에서, 융합 특징의 텍스트 특징 및 교체된 비전 특징에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정한다. In the second step, according to the text feature and the replaced vision feature of the fusion feature, parameters of the text detection model and the feature fusion model are respectively adjusted.

본 실시예의 구현 원리를 관련하여, 상기 실시예에서, 융합 특징 및 복수의 텍스트 특징 블록을 결합하는 구현 원리를 참조할 수 있고, 여기서 더는 설명하지 않는다. Regarding the implementation principle of this embodiment, reference may be made to the implementation principle of combining a fusion feature and a plurality of text feature blocks in the above embodiment, which is not further described herein.

마찬가지로, 본 실시예에서, 융합 특징의 비전 특징을 교체하고, 교체된 비전 특징 및 융합 특징의 텍스트 특징을 기반으로, 2개 모델(즉 텍스트 검출 모델 및 특징 융합 모델)의 파라미터를 각각 조정하여, 2개 모델의 인식 판별 능력을 향상시킬 수 있음으로, 훈련하여 획득된 텍스트 인식 모델 프레임워크의 정확성 및 신뢰성을 향상시키는 기술 효과를 구현한다. Similarly, in this embodiment, the vision features of the fusion features are replaced, and based on the replaced vision features and the text features of the fusion features, the parameters of the two models (namely the text detection model and the feature fusion model) are respectively adjusted, Since the recognition discrimination ability of the two models can be improved, the technical effect of improving the accuracy and reliability of the text recognition model framework obtained by training is implemented.

또 다른 예시에서, 융합 특징, 복수의 텍스트 특징 블록 및 복수의 비전 특징 블록과 결합하여, 텍스트 검출 모델의 파라미터를 조정하고, 특징 융합 모델의 파라미터를 조정할 수 있다. In another example, in combination with the fusion feature, the plurality of text feature blocks, and the plurality of vision feature blocks, adjust parameters of the text detection model and adjust parameters of the feature fusion model.

예를 들면, 당해 예시는 제1 단계 내지 제3 단계를 포함한다.For example, this example includes steps 1 to 3.

제1 단계에서, 특징 융합 모델은 융합 특징 및 복수의 텍스트 특징 블록에 따라, 텍스트 검출 모델 및 특징 융합 모델을 조정하는 제1 조정 태스크 결과를 결정한다. In a first step, the feature fusion model determines a first adjusting task result of adjusting the text detection model and the feature fusion model according to the fusion feature and the plurality of text feature blocks.

제2 단계에서, 특징 융합 모델은 융합 특징 및 복수의 비전 특징 블록에 따라, 텍스트 검출 모델 및 특징 융합 모델을 조정하는 제2 조정 태스크 결과를 결정한다. In a second step, the feature fusion model determines a second adjustment task result of adjusting the text detection model and the feature fusion model according to the fusion feature and the plurality of vision feature blocks.

제3 단계에서, 제1 조정 태스크 결과 및 제2 조정 태스크 결과의 가중평균 정보에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정한다. In a third step, parameters of the text detection model and the feature fusion model are respectively adjusted according to the weighted average information of the result of the first adjustment task and the result of the second adjustment task.

상기 실시예와 결합하고, 일부 실시예에서, 융합 특징의 일부 텍스트 특징을 커버하는 것을 제1 훈련 태스크로 하여, 제1 훈련 결과를 획득하고; 융합 특징의 일부 비전 특징을 커버하는 것을 제2 훈련 태스크로 하여, 제2 훈련 결과를 획득하고; 융합 특징의 텍스트 특징을 커버하는 것을 제3 훈련 태스크로 하고, 훈련을 하여, 제3 훈련 결과를 획득하며; 제1 훈련 결과, 제2 훈련 결과 및 제3 훈련 결과에 대해 가중평균 처리를 함으로, 마지막으로 텍스트 검출 모델을 조정하는 파라미터 및 특징 융합 모델 파라미터를 획득하고, 획득된 마지막으로 텍스트 검출 모델을 조정하는 파라미터를 기반으로 텍스트 검출 모델의 파라미터를 조정하고, 획득된 마지막으로 특징 융합 모델을 조정하는 파라미터를 기반으로 특징 융합 모델의 파라미터를 조정한다. In combination with the above embodiments, in some embodiments, taking covering some text features of fusion features as a first training task, obtaining a first training result; taking covering some vision features of the fusion feature as a second training task, obtaining a second training result; take covering text features of the fusion feature as a third training task, conduct training, and obtain a third training result; By performing weighted average processing on the first training result, the second training result, and the third training result, finally obtaining parameters for adjusting the text detection model and feature fusion model parameters, and finally adjusting the text detection model. The parameters of the text detection model are adjusted based on the parameters, and the parameters of the feature fusion model are adjusted based on the acquired parameters that adjust the last feature fusion model.

다른 실시예에서, 융합 특징의 일부 텍스트 특징을 커버하는 것을 제1 훈련 태스크로 하여, 제1 훈련 결과를 획득하고; 융합 특징의 일부 비전 특징을 커버하는 것을 제2 훈련 태스크로 하여, 제2 훈련 결과를 획득하고; 융합 특징의 비전 특징을 교체하는 것을 제3 훈련 태스크로 하고, 훈련을 하여, 제3 훈련 결과를 획득하며; 제1 훈련 결과, 제2 훈련 결과 및 제3 훈련 결과에 대해 가중평균 처리를 함으로, 마지막으로 텍스트 검출 모델을 조정하는 파라미터 및 특징 융합 모델 파라미터를 획득하고, 획득된 마지막으로 텍스트 검출 모델을 조정하는 파라미터를 기반으로 텍스트 검출 모델의 파라미터를 조정하고, 획득된 마지막으로 특징 융합 모델을 조정하는 파라미터를 기반으로 특징 융합 모델의 파라미터를 조정한다. In another embodiment, covering some text features of fusion features is taken as a first training task, and a first training result is obtained; taking covering some vision features of the fusion feature as a second training task, obtaining a second training result; replace the vision feature of the fusion feature as a third training task, conduct training, and obtain a third training result; By performing weighted average processing on the first training result, the second training result, and the third training result, finally obtaining parameters for adjusting the text detection model and feature fusion model parameters, and finally adjusting the text detection model. The parameters of the text detection model are adjusted based on the parameters, and the parameters of the feature fusion model are adjusted based on the acquired parameters that adjust the last feature fusion model.

본 실시예의 훈련 태스크 조합 방식에 관련하여, 상기 3종 훈련 태스크를 결합(이해해야 할 것은, 상기 3종 훈련 태스크를 결합하는 방식은, 예시적으로 설명하기 위한 것 뿐이고, 결합 방식에 대한 한정으로 간주되어서는 안된다. 즉, 상기 조합 방식 이외의 기타 조합 방식일 수도 있고, 여기서 더는 일일이 열거하지 않음)하는 것일 수 있고, 두 가지 훈련 태스크를 결합하는 것일 수도 있고, 당해 구현 원리는 3종 훈련 태스크를 결합하는 구현 원리를 참조할 수 있고, 여기서 더는 설명하지 않는다. Regarding the method of combining training tasks in this embodiment, combining the three types of training tasks (it should be understood that the method of combining the three types of training tasks is for illustrative purposes only, and is regarded as a limitation on the combination method). That is, it may be a combination method other than the above combination method, which is not enumerated here), or may be a combination of two training tasks, and the implementation principle is three types of training tasks. Can refer to the implementation principle of combining, which is not further described herein.

본 실시예에서, 멀티 태스크 훈련 방식으로 훈련하여 텍스트 인식 모델 프레임워크를 획득하고, 융합 특징 및 복수의 텍스트 특징 블록의 훈련을 그 중 1개의 훈련 태스크로 하고, 융합 특징 및 복수의 비전 특징 블록의 훈련을 다른 훈련 태스크로 하고, 2개의 훈련 태스크의 훈련 결과를 기반으로 마지막으로 텍스트 검출 모델을 조정하는 파라미터 및 특징 융합 모델을 조정하는 파라미터를 결정함으로, 텍스트 검출 모델의 파라미터 및 특징 융합 모델의 파라미터에 대한 조정을 구현하고, 멀티 태스크 훈련의 방식을 통해 텍스트 검출 모델의 파라미터 및 특징 융합 모델의 파라미터를 조정하여, 조정의 정확성 및 신뢰성을 향상시키는 기술 효과를 구현할 수 있다. In this embodiment, a text recognition model framework is obtained by training by a multi-task training method, training of fusion features and a plurality of text feature blocks is one of the training tasks, and training of fusion features and a plurality of vision feature blocks is performed. The parameters of the text detection model and the parameters of the feature fusion model are determined by setting the training as another training task, and finally determining parameters for adjusting the text detection model and parameters for adjusting the feature fusion model based on the training results of the two training tasks. It is possible to implement the adjustment for , and adjust the parameters of the text detection model and the parameter of the feature fusion model through a multi-task training method, thereby implementing a technical effect of improving the accuracy and reliability of the adjustment.

설명해야 할 것은, 본 실시예에서, 부동한 방식을 기반으로, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하여, 파라미터 조정의 유연성 및 다양성을 향상시킴으로, 텍스트 인식 모델 프레임워크을 훈련하는 유연성 및 다양성의 기술 효과를 구현할 수 있다. It should be noted that, in this embodiment, the parameters of the text detection model and the feature fusion model are respectively adjusted according to different methods to improve the flexibility and variety of parameter adjustment, thereby increasing the flexibility and flexibility of training the text recognition model framework. A variety of technical effects can be realized.

도4는 본 발명의 제3 실시예에 따른 개략도이다. 예를 들면 도4에 도시된 바와 같이, 본 실시예의 텍스트 인식 방법은 단계S401 내지 S402를 포함한다. Fig. 4 is a schematic diagram according to a third embodiment of the present invention. For example, as shown in Fig. 4, the text recognition method in this embodiment includes steps S401 to S402.

S401에서, 인식할 이미지를 획득한다. In S401, an image to be recognized is acquired.

S402에서, 인식할 이미지를 사전 훈련된 텍스트 인식 모델로 입력하여, 인식할 이미지의 텍스트 정보를 획득한다. In S402, an image to be recognized is input to a pre-trained text recognition model to obtain text information of the image to be recognized.

텍스트 인식 모델은 사전 훈련된 텍스트 인식 모델 프레임워크를 기반으로 훈련할 이미지를 훈련하여 생성된 것이고, 텍스트 인식 모델 프레임워크는 제1 측면의 훈련 방법에 의해 훈련하여 획득된 것이고, 훈련할 이미지는 텍스트 정보를 포함한다. The text recognition model is generated by training an image to be trained based on a pre-trained text recognition model framework, the text recognition model framework is obtained by training by the training method of the first aspect, and the image to be trained is text contains information

상기 분석을 기반으로 알 수 있는 바, 텍스트 인식 모델 프레임워크는 텍스트 검출 모델 및 특징 융합 모델을 포함하고, 비교적 높은 정확성 및 신뢰성을 구비하므로, 텍스트 인식 모델 프레임워크를 기반으로 훈련하여 텍스트 인식 모델을 획득할 경우, 텍스트 인식 모델이 비교적 높은 정확성 및 신뢰성을 구비하도록 하고, 텍스트 인식 모델을 기반으로 인식할 이미지를 인식할 경우, 인식의 유효성 및 신뢰성을 향상시키는 기술 효과를 구현할 수 있다. As can be seen based on the above analysis, since the text recognition model framework includes a text detection model and a feature fusion model, and has relatively high accuracy and reliability, the text recognition model can be trained based on the text recognition model framework. When obtained, a text recognition model has relatively high accuracy and reliability, and when recognizing an image to be recognized based on the text recognition model, a technical effect of improving the validity and reliability of recognition can be implemented.

도5는 본 발명의 제4 실시예에 따른 개략도이다. 예를 들면 도5에 도시된 바와 같이, 본 실시예의 텍스트 인식 모델 프레임워크의 훈련 장치(500)는,Fig. 5 is a schematic diagram according to a fourth embodiment of the present invention. For example, as shown in Fig. 5, the training device 500 of the text recognition model framework of this embodiment,

미리 설정된 텍스트 검출 모델을 기반으로 샘플 이미지에 대해 특징 처리를 하여, 샘플 이미지의 텍스트 정보와 관련된 적어도 두 가지의 특징 정보를 획득하는 처리 유닛(501); a processing unit 501 for performing feature processing on a sample image based on a preset text detection model to obtain at least two pieces of feature information related to text information of the sample image;

미리 설정된 특징 융합 모델을 기반으로 샘플 이미지의 적어도 두 가지의 특징 정보에 대해 융합 처리하여, 샘플 이미지의 융합 특징을 획득하는 융합 유닛(502); 및 a fusion unit 502 for obtaining a fusion feature of the sample image by performing fusion processing on at least two pieces of feature information of the sample image based on a preset feature fusion model; and

융합 특징을 특징 융합 모델에 입력하고, 융합 특징 모델을 기반으로 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득하는 훈련 유닛(503) - 텍스트 인식 모델 프레임워크는 조정된 텍스트 검출 모델 및 조정된 특징 융합 모델을 포함함 - ; 을 포함한다. A training unit 503 for inputting fusion features into a feature fusion model, and adjusting parameters of the text detection model and feature fusion model respectively based on the fusion feature model, to obtain a text recognition model framework - the text recognition model framework comprises: - including a tuned text detection model and a tuned feature fusion model; includes

도6은 본 발명의 제5 실시예에 따른 개략도이다. 예를 들면 도6에 도시된 바와 같이, 본 실시예의 텍스트 인식 모델 프레임워크의 훈련 장치(600)는,Fig. 6 is a schematic diagram according to a fifth embodiment of the present invention. For example, as shown in Fig. 6, the training device 600 of the text recognition model framework of this embodiment,

미리 설정된 텍스트 검출 모델을 기반으로 샘플 이미지에 대해 특징 처리를 하여, 샘플 이미지의 텍스트 정보와 관련된 적어도 두 가지의 특징 정보를 획득하는 처리 유닛(601)을 포함한다. and a processing unit 601 for obtaining at least two pieces of feature information related to text information of the sample image by performing feature processing on the sample image based on a preset text detection model.

도6과 결합하여 알 수 있는 바, 일부 실시예에서, 처리 유닛(601)은,As can be seen in conjunction with FIG. 6, in some embodiments, processing unit 601:

텍스트 검출 모델을 기반으로 샘플 이미지에서 텍스트 행의 위치 정보를 결정하는 제1 결정 서브 유닛(6011); a first determining subunit 6011 for determining positional information of text lines in the sample image based on the text detection model;

위치 정보에 따라 적어도 두 가지의 특징 정보를 결정하는 제2 결정 서브 유닛(6012); 을 포함한다. a second determining subunit 6012 for determining at least two pieces of feature information according to the location information; includes

일부 실시예에서, 제2 결정 서브 유닛(6012)은,In some embodiments, the second decision sub-unit 6012:

위치 정보에 따라 샘플 이미지에 대해 크로핑 동작을 수행하여, 텍스트 영역을 획득하는 크로핑 모듈; a cropping module that obtains a text area by performing a cropping operation on the sample image according to the location information;

텍스트 영역에서 적어도 두 가지의 특징 정보를 획득하는 획득 모듈; 을 포함한다. an acquisition module acquiring at least two pieces of feature information in the text area; includes

일부 실시예에서, 획득 모듈은, 텍스트 영역에서 샘플 이미지의 이미지 특징을 추출하고, 이미지 특징을 인식하여, 적어도 두 가지의 특징 정보를 획득하는데 사용된다. In some embodiments, the acquisition module is used to extract image features of the sample image from the text area, recognize the image features, and acquire at least two pieces of feature information.

융합 유닛(602)은, 미리 설정된 특징 융합 모델을 기반으로 샘플 이미지의 적어도 두 가지의 특징 정보에 대해 융합 처리하여, 샘플 이미지의 융합 특징을 획득하는데 사용된다. The fusion unit 602 is used to obtain a fusion feature of the sample image by performing fusion processing on at least two pieces of feature information of the sample image based on a preset feature fusion model.

적어도 두 가지의 특징 정보는 텍스트 특징 및 비전 특징을 포함한다. The at least two types of feature information include text features and vision features.

구축 유닛(603)은, 텍스트 특징을 나타내는 복수의 텍스트 특징 블록을 구축하고, 비전 특징을 나타내는 복수의 비전 특징 블록을 구축하는데 사용된다. The building unit 603 is used to build a plurality of text feature blocks representing text features, and to build a plurality of vision feature blocks representing vision features.

훈련 유닛(604)은, 융합 특징을 특징 융합 모델에 입력하고, 융합 특징 모델을 기반으로 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득하는데 사용되고, 텍스트 인식 모델 프레임워크는 조정된 텍스트 검출 모델 및 조정된 특징 융합 모델을 포함한다. The training unit 604 is used to input the fusion features into the feature fusion model, adjust the parameters of the text detection model and the feature fusion model respectively based on the fusion feature model, to obtain a text recognition model framework, and the text recognition model The framework includes a tuned text detection model and a tuned feature fusion model.

도6과 결합하여 알 수 있는 바, 일부 실시예에서, 훈련 유닛(604)은,As can be seen in conjunction with FIG. 6, in some embodiments, training unit 604:

융합 특징의 일부 텍스트 특징을 랜덤으로 커버하는 제1 커버 서브 유닛(60411);a first cover subunit 60411 for randomly covering some text features of the fusion features;

복수의 텍스트 특징 블록에 따라 커버된 상기 일부 텍스트 특징에 대해 예측 보완 처리를 하여, 예측 보완 후의 일부 텍스트 특징을 획득하는 제2 예측 보완 서브 유닛(60412); 및a second prediction and complementation subunit 60412, configured to perform predictive complementation processing on some of the text features covered by a plurality of text feature blocks, so as to obtain some text features after prediction and complementation; and

예측 보완 후의 일부 텍스트 특징 및 융합 특징에서 커버된 일부 텍스트 특징 이외의 특징에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하는 제1 조정 서브 유닛(60413); 을 포함한다. a first adjustment subunit 60413 for adjusting parameters of the text detection model and the feature fusion model, respectively, according to some text features after predictive complementation and features other than some text features covered by the fusion features; includes

다른 실시예에서, 훈련 유닛(604)은,In another embodiment, the training unit 604:

융합 특징의 일부 비전 특징을 랜덤으로 커버하는 제2 커버 서브 유닛(60414); a second cover subunit 60414 for randomly covering some vision features of the fusion features;

복수의 비전 특징 블록에 따라 커버된 일부 비전 특징에 대해 예측 보완 처리를 하여, 예측 보완 후의 일부 비전 특징을 획득하는 제2 예측 보완 서브 유닛(60415); 및. a second prediction supplementation subunit 60415, which performs prediction supplementation processing on some vision features covered by a plurality of vision feature blocks, and obtains some vision features after prediction and supplementation; and.

예측 보완 후의 일부 비전 특징 및 융합 특징에서 커버된 일부 비전 특징 이외의 특징에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하는 제2 조정 서브 유닛(60416); 을 포함한다. a second adjustment subunit 60416 for adjusting parameters of the text detection model and the feature fusion model, respectively, according to some vision features after predictive complementation and features other than some vision features covered by the fusion features; includes

도6과 결합하여 알 수 있는 바, 일부 실시예에서, 훈련 유닛(604)은,As can be seen in conjunction with FIG. 6, in some embodiments, training unit 604:

복수의 텍스트 특징 블록의 적어도 일부 텍스트 특징 블록에 따라, 융합 특징의 텍스트 특징에 대해 교체 처리를 하여, 교체된 텍스트 특징을 획득하는 제1 교체 서브 유닛(60417); a first replacement subunit 60417, configured to perform replacement processing on text features of the fusion feature according to at least some text feature blocks of the plurality of text feature blocks, so as to obtain replaced text features;

융합 특징의 비전 특징 및 교체된 텍스트 특징에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하는 제3 조정 서브 유닛(60418); 을 더 포함한다. a third adjustment subunit 60418 for adjusting parameters of the text detection model and the feature fusion model, respectively, according to the vision feature and the replaced text feature of the fusion feature; more includes

다른 실시예에서, 훈련 유닛(604)은,In another embodiment, the training unit 604:

복수의 비전 특징 블록의 적어도 일부 비전 특징 블록에 따라, 융합 특징의 비전 특징에 대해 교체 처리를 하여, 교체된 비전 특징을 획득하는 제2 교체 서브 유닛(60419); a second replacement subunit 60419 configured to perform replacement processing on the vision features of the fusion feature according to at least some vision feature blocks of the plurality of vision feature blocks, so as to obtain the replaced vision features;

융합 특징의 텍스트 특징 및 교체된 비전 특징에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하는 제4 조정 서브 유닛(60420); 을 포함한다. a fourth adjustment subunit 60420 for adjusting parameters of the text detection model and the feature fusion model, respectively, according to the text feature and the replaced vision feature of the fusion feature; includes

도6과 결합하여 알 수 있는 바, 일부 실시예에서, 특징 융합 모델이 융합 특징, 복수의 텍스트 특징 블록 및 복수의 비전 특징 블록에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정할 경우, 훈련 유닛(604)은,As can be seen in conjunction with Figure 6, in some embodiments, when the feature fusion model adjusts the parameters of the text detection model and the feature fusion model respectively according to the fusion feature, the plurality of text feature blocks, and the plurality of vision feature blocks, The training unit 604,

융합 특징 및 복수의 텍스트 특징 블록에 따라, 텍스트 검출 모델 및 특징 융합 모델을 조정하는 제1 조정 태스크 결과를 결정하는 제3 결정 서브 유닛(60421); a third determining subunit 60421, configured to determine a result of the first adjusting task of adjusting the text detection model and the feature fusion model according to the fusion feature and the plurality of text feature blocks;

융합 특징 및 복수의 비전 특징 블록에 따라, 텍스트 검출 모델 및 특징 융합 모델을 조정하는 제2 조정 태스크 결과를 결정하는 제4 결정 서브 유닛(60422); 및 a fourth determining subunit 60422, configured to determine a second adjusting task result of adjusting the text detection model and the feature fusion model according to the fusion feature and the plurality of vision feature blocks; and

제1 조정 태스크 결과 및 제2 조정 태스크 결과의 가중평균 정보에 따라, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하는 제5 조정 서브 유닛(60423); 을 포함한다. a fifth adjustment subunit 60423 for adjusting parameters of the text detection model and the feature fusion model, respectively, according to the weighted average information of the first adjustment task result and the second adjustment task result; includes

도7은 본 발명의 제6 실시예에 따른 개략도이다. 예를 들면 도7에 도시된 바와 같이, 본 실시예의 텍스트 인식 장치(700)는,Fig. 7 is a schematic diagram according to a sixth embodiment of the present invention. For example, as shown in FIG. 7, the text recognition device 700 of this embodiment,

훈련할 이미지를 획득하는 획득 유닛(701) - 훈련할 이미지는 텍스트 정보를 포함함 - ; an acquiring unit 701 for acquiring an image to be trained, the image to be trained including text information;

인식할 이미지를 사전 훈련된 텍스트 인식 모델로 입력하여, 인식할 이미지의 텍스트 정보를 획득하는 인식 유닛(702) - 텍스트 인식 모델은 사전 훈련된 텍스트 인식 모델 프레임워크를 기반으로 훈련할 이미지를 훈련하여 생성된 것이고, 텍스트 인식 모델 프레임워크는 제1 측면의 훈련 방법에 의해 훈련하여 획득된 것이고, 훈련할 이미지는 텍스트 정보를 포함함 - ; 을 포함한다. A recognition unit 702 for obtaining text information of the image to be recognized by inputting an image to be recognized into a pretrained text recognition model, wherein the text recognition model trains the image to be trained based on the pretrained text recognition model framework, generated, the text recognition model framework is obtained by training by the training method of the first aspect, and the image to be trained includes text information; includes

본 발명의 실시예에 따르면, 본 발명은 전자 기기 및 판독 가능 저장 매체를 제공한다. According to an embodiment of the present invention, the present invention provides an electronic device and a readable storage medium.

본 발명의 실시예에 따르면, 본 발명은 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 제공하고, 전자 기기의 적어도 하나의 프로세서는 판독 가능 저장 매체에서 컴퓨터 프로그램을 판독할 수 있고, 적어도 하나의 프로세서는 컴퓨터 프로그램을 수행하여 전자 기기가 상기 임의의 실시예에서 제공하는 수단을 수행하도록 한다. According to an embodiment of the present invention, the present invention provides a computer program product including a computer program stored in a readable storage medium, wherein at least one processor of an electronic device can read the computer program from the readable storage medium, At least one processor executes a computer program so that the electronic device performs the means provided in any of the above embodiments.

도8에 도시된 바와 같이, 도8은 본 발명의 실시예를 구현하는 전자 기기(800)의 개략적인 블록도이다. 전자 기기는 다양한 형식의 디지털 컴퓨터를 표시한다. 예를 들면, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 퍼스널 정보 단말(PAD), 서버, 블레이드 서버, 메인 프레임 및 기타 적합한 컴퓨터일 수 있다. 전자 기기는 다양한 형식의 모바일 장치를 표시한다. 예를 들면 퍼스널 정보 단말(PAD), 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치일 수 있다. 본 발명에 개시된 컴포넌트, 이들의 연결과 관계 및 기능은 단지 예시적인 것 뿐이며, 본 발명에서 설명 및/또는 요구한 본 발명의 구현을 한정하려는 것은 아니다.As shown in Fig. 8, Fig. 8 is a schematic block diagram of an electronic device 800 implementing an embodiment of the present invention. Electronic devices display digital computers in various formats. For example, it may be a laptop computer, desktop computer, workstation, personal digital assistant (PAD), server, blade server, mainframe and other suitable computer. Electronic devices display various types of mobile devices. For example, it may be a personal information assistant (PAD), cellular phone, smart phone, wearable device and other similar computing devices. The components, their connections and relationships, and functions disclosed herein are illustrative only and are not intended to limit the implementation of the invention as described and/or claimed herein.

도8에 도시된 바와 같이, 전자 기기(800)는 컴퓨팅 유닛(801)을 포함하고, 읽기 전용 메모리(ROM)(802)에 저장된 컴퓨터 프로그램 또는 저장 유닛(808)에서 랜덤 액세스 메모리(RAM)(803)에 로딩된 컴퓨터 프로그램에 따라, 각 적당한 조작 및 처리를 수행한다. RAM(803)에서, 전자 기기(800)의 조작에 수요되는 각 프로그램 및 데이터를 저장할 수도 있다. 컴퓨팅 유닛(801), ROM(802) 및 RAM(803)은 버스(804)를 통해 서로 연결된다. 입력/출력I/O 인터페이스(805)도 버스(804)에 연결된다. As shown in FIG. 8, the electronic device 800 includes a computing unit 801, a computer program stored in a read-only memory (ROM) 802 or a random access memory (RAM) in the storage unit 808 ( 803), each suitable operation and process is performed according to the loaded computer program. In the RAM 803, each program and data required for operation of the electronic device 800 may be stored. Computing unit 801 , ROM 802 and RAM 803 are connected to each other via a bus 804 . An input/output I/O interface 805 is also connected to bus 804.

기기(800)의 복수의 컴포넌트는 I/O인터페이스(805)에 연결되고, 복수의 컴포넌트는, 키보드, 마우스 등과 같은 입력 유닛(806); 다양한 유형의 모니터, 스피커 등과 같은 출력 유닛(807); 자기 디스크, 광 디스크 등과 같은 저장 유닛(808); 및 네트워크 카드, 모뎀 또는 무선 통신 송수신기 등과 같은 통신 유닛(809)을 포함한다. 통신 유닛(809)은 전자 기기(800)가 인터넷과 같은 컴퓨터 네트워크 및/또는 각 전신 네트워크를 통해 기타 기기와 정보/데이터를 교환할 수 있도록 허용한다. A plurality of components of the device 800 are connected to the I/O interface 805, and the plurality of components include an input unit 806 such as a keyboard, a mouse, and the like; output units 807 such as various types of monitors, speakers, etc.; a storage unit 808 such as a magnetic disk, optical disk, or the like; and a communication unit 809 such as a network card, modem or wireless communication transceiver. The communication unit 809 allows the electronic device 800 to exchange information/data with other devices via a computer network such as the Internet and/or a respective telegraph network.

컴퓨팅 유닛(801)은 각 처리 및 계산 기능을 구비한 범용/전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(801)의 일부 예시는 중앙 처리 장치(CPU), 그래프 처리 장치(GPU), 각 전용 인공지능 계산 칩, 각 기계 학습 모델 알고리즘을 운행하는 컴퓨팅 유닛, 디지털 신호 처리 장치(DSP), 임의의 적합한 프로세서, 제어기 및 마이크로 제어기 등을 포함하나 이에 한정되지 않는다. 컴퓨팅 유닛(801)은 상기 설명한 각 방법 및 처리를 수행한다. 예를 들면 텍스트 인식 모델 프레임워크의 훈련 방법, 텍스트 인식 방법을 수행한다. 예를 들면, 일 실시예에서, 텍스트 인식 모델 프레임워크의 훈련 방법, 텍스트 인식 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 유형적으로 저장 유닛(805)과 같은 기계 판독 가능 매체에 포함된다. 일 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(802) 및/또는 통신 유닛(809)에 의해 전자 기기(800)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(803)에 로딩되고 컴퓨팅 유닛(801)에 의해 수행될 경우, 상기 설명한 텍스트 인식 모델 프레임워크의 훈련 방법, 텍스트 인식 방법의 하나 또는 복수의 단계를 수행할 수 있다. 대안적으로, 기타 실시예에서, 컴퓨팅 유닛(801)은 기타 임의의 적합한 방식(예를 들면, 펌웨어)으로 본 발명의 실시예에 따른 텍스트 인식 모델 프레임워크의 훈련 방법, 텍스트 인식 방법을 수행할 수 있도록 구성된다. The computing unit 801 may be a general purpose/dedicated processing component with respective processing and calculation functions. Some examples of the computing unit 801 include a central processing unit (CPU), a graph processing unit (GPU), each dedicated artificial intelligence calculation chip, a computing unit that runs each machine learning model algorithm, a digital signal processing unit (DSP), any of suitable processors, controllers and microcontrollers, and the like. The computing unit 801 performs each method and process described above. For example, the text recognition model framework's training method and text recognition method are performed. For example, in one embodiment, the training method of the text recognition model framework and the text recognition method may be implemented as a computer software program and tangibly included in a machine-readable medium such as the storage unit 805 . In one embodiment, some or all of the computer programs may be loaded and/or installed into the electronic device 800 by the ROM 802 and/or the communication unit 809 . When the computer program is loaded into the RAM 803 and executed by the computing unit 801, one or more steps of the text recognition model framework training method and text recognition method described above may be performed. Alternatively, in other embodiments, the computing unit 801 may perform the training method of the text recognition model framework, the text recognition method according to an embodiment of the present invention in any other suitable manner (eg, firmware). It is structured so that

여기서 설명하는 시스템과 기술의 여러 가지 실시형태는 디지털 전자회로 시스템, 집적회로 시스템, 프로그래밍 가능 게이트 어레이(FPGA), 주문형 직접 회로(ASIC), 전용 표준 제품(ASSP), 칩상 시스템(SOC), 복합 프로그래머블 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 이러한 여러 가지 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 실행 및/또는 해석되며, 당해 프로그래밍 가능 프로세서는 전용 또는 일반 프로그래밍 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에서 데이터와 명령을 수신할 수 있고, 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.Various embodiments of the systems and technologies described herein include digital electronic circuit systems, integrated circuit systems, programmable gate arrays (FPGAs), application specific integrated circuits (ASICs), dedicated standard products (ASSPs), systems on a chip (SOCs), and composites. It may be realized in programmable logic devices (CPLDs), computer hardware, firmware, software, and/or combinations thereof. These various embodiments may include being implemented in one or more computer programs, wherein the one or more computer programs are executed and/or interpreted in a programmable system including at least one programmable processor, The programmable processor may be a dedicated or general programmable processor, capable of receiving data and instructions from a storage system, at least one input device and at least one output device, and transmitting data and instructions from the storage system to the at least one output device. to an input device and to the at least one output device.

본 발명의 방법을 수행하는 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 당해 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능한 데이터 처리 장치의 프로세서 또는 제어기에 제공하여, 프로그램 코드가 프로세서 또는 제어기에 의해 수행될 경우 흐름도 및/또는 블록도에서 규정한 기능/조작을 실시하게 된다. 프로그램 코드는 완전히 또는 부분적으로 기계에서 수행되고, 독립 소프트웨어 패키지로서 부분적으로 기계에서 수행하고 부분적으로 또는 완전히 원거리 기계 또는 서버에서 수행된다.The program code for performing the method of the present invention may be written in one or any combination of programming languages. The program code is provided to a processor or controller of a general-purpose computer, dedicated computer, or other programmable data processing device to execute the functions/operations specified in the flowchart and/or block diagram when the program code is executed by the processor or controller. do. The program code runs wholly or partly on the machine, as an independent software package, which runs partly on the machine and partly or completely on a remote machine or server.

본 발명의 콘텍스트에서, 기계 판독 가능 매체는 유형적인 매체일 수 있고, 명령 수행 시스템, 장치 또는 기기가 사용하거나 명령 수행 시스템, 장치 또는 기기와 결합하여 사용하도록 제공하는 프로그램을 포함 또는 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 및 기기, 또는 상기 내용의 임의의 적합한 조합을 포함하나 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는 하나 또는 복수의 선을 기반으로 하는 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 엑세스 메모리(RAM), 읽기 전용 메모리(ROM), 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EPROM또는 플래시 메모리), 광섬유, 시디롬(CD-ROM), 광학 저장 기기, 자기 저장 기기, 또는 상기 내용의 임의의 적합한 조합을 포함할 수 있다.In the context of the present invention, a machine-readable medium may be a tangible medium and may contain or store a program for use by or provided for use by a command execution system, device or device. A machine-readable medium may be a machine-readable signal medium or a machine-readable storage medium. Machine-readable media include, but are not limited to, electronic, magnetic, optical, electromagnetic, infrared or semiconductor systems, devices and devices, or any suitable combination of the foregoing. More specific examples of machine-readable storage media include electrical connections based on one or more lines, portable computer disks, hard disks, random access memory (RAM), read-only memory (ROM), erasable programmable read-only memory (EPROM or flash memory), optical fiber, CD-ROM, optical storage, magnetic storage, or any suitable combination of the foregoing.

사용자와의 인터랙션을 제공하기 위해, 여기서 설명된 시스템 및 기술은 컴퓨터에서 구현할 수 있으며, 당해 컴퓨터는 사용자에게 정보를 디스플레이하는 디스플레이 장치(예를 들면, CRT음극선관) 또는 LCD(액정 디스플레이)모니터); 및 키보드와 지향 장치(예를 들면, 마우스 또는 트랙볼)를 구비하고, 사용자는 당해 키보드와 당해 지향 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 유형의 장치도 사용자와의 인터랙션에 사용될 수 있는 바, 예를 들면 사용자에게 제공된 피드백은 임의의 형식의 감각 피드백(예를 들면, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고, 임의의 형식(음향 입력, 음성 입력 또는 촉각 입력)에 의해 사용자로부터의 입력을 수신할 수 있다.To provide interaction with a user, the systems and techniques described herein may be implemented in a computer, which may include a display device (e.g., a CRT cathode ray tube) or LCD (liquid crystal display) monitor that displays information to the user. ; and a keyboard and a pointing device (eg, a mouse or trackball), through which the user can provide input to the computer. Other types of devices may also be used for interaction with the user, for example, the feedback provided to the user may be any form of sensory feedback (eg, visual feedback, auditory feedback or tactile feedback), and any An input from the user may be received in the form of (sound input, voice input, or tactile input).

여기서 설명한 시스템과 기술을, 백그라운드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면, 애플리케이션 서버), 또는 프론트 엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비한 사용자 컴퓨터에서 실시될 수 있고, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통해 여기서 설명한 시스템과 기술의 실시형태와 인터랙션할 수 있다), 또는 이러한 백그라운드 컴포넌트, 미들웨어 컴포넌트 또는 프론트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)을 통해 시스템의 컴포넌트를 서로 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망 (LAN), 광역 통신망 (WAN) 및 네트워크를 포함한다. The systems and techniques described herein can be combined with a computing system that includes background components (eg, a data server), or a computing system that includes middleware components (eg, an application server), or a computing system that includes front-end components (eg, a data server). for example, on a user's computer having a graphical user interface or network browser, through which a user may interact with embodiments of the systems and techniques described herein), or such a background components, middleware components or any combination of front end components. Any form or medium of digital data communication (eg, a communication network) may connect the components of the system to each other. Examples of communication networks include local area networks (LANs), wide area networks (WANs), and networks.

컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있으며, 통신 네트워크를 통해 서로 인터랙션한다. 대응하는 컴퓨터에서 운행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램에 의해 클라이언트와 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 클라우드 계산 서버라고도 하고, 클라우드 계산 서비스 시스템의 호스트 제품이고, 전통적인 물리 호스트와 VPS서비스("Virtual Private Server", 또는 "VPS")에서, 관리가 어렵고, 업무 확장성이 약한 결함을 해결한다. 서버는 분산식 시스템의 서버 또는 블록 체인을 결합한 서버일 수도 있다. A computer system may include a client and a server. Clients and servers are usually remote from each other and interact with each other through a communication network. A relationship of client and server is created by computer programs running on corresponding computers and having a client-server relationship with each other. The server may be a cloud server, also referred to as a cloud computing server, is a host product of a cloud computing service system, in a traditional physical host and VPS service ("Virtual Private Server", or "VPS"), difficult to manage, business scalability solve this weak flaw. The server may be a server of a distributed system or a server combining block chains.

본 발명 실시예의 다른 측면에 따르면, 본 발명의 실시예는 텍스트 인식 모델 프레임워크의 훈련 시스템을 제공하고, 상기 시스템은, According to another aspect of the embodiments of the present invention, the embodiments of the present invention provide a training system for a text recognition model framework, the system comprising:

미리 설정된 텍스트 검출 모델을 기반으로 샘플 이미지에 대해 특징 처리를 하여, 샘플 이미지의 텍스트 정보와 관련된 적어도 두 가지의 특징 정보를 획득하는 텍스트 검출 모델; a text detection model for acquiring at least two pieces of feature information related to text information of the sample image by performing feature processing on the sample image based on a preset text detection model;

미리 설정된 특징 융합 모델을 기반으로 샘플 이미지의 적어도 두 가지의 특징 정보에 대해 융합 처리하여, 샘플 이미지의 융합 특징을 획득하는 특징 융합 모델; 을 포함한다. a feature fusion model that obtains a fusion feature of the sample image by performing fusion processing on at least two pieces of feature information of the sample image based on a preset feature fusion model; includes

특징 융합 모델은, 또한, 텍스트 검출 모델 및 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득하는데 사용되고, 텍스트 인식 모델 프레임워크는 조정된 텍스트 검출 모델 및 조정된 특징 융합 모델을 포함한다. The feature fusion model is further used to obtain a text recognition model framework by adjusting parameters of the text detection model and the feature fusion model, respectively, and the text recognition model framework includes the adjusted text detection model and the adjusted feature fusion model. do.

상기 분석과 결합하여 알 수 있는 바, 일부 실시예에서, 텍스트 검출 모델은 광학적 문자 인식일 수 있고, 특징 융합 모델은 transfromer 모델일 수 있다. As can be seen in conjunction with the above analysis, in some embodiments the text detection model may be optical character recognition and the feature fusion model may be a transfromer model.

도9와 결합하여 알 수 있는 바, 일부 실시예에서, 본 발명 실시예의 텍스트 인식 모델 프레임워크의 훈련 시스템(900)은,As can be seen in conjunction with Figure 9, in some embodiments, the training system 900 of the text recognition model framework of an embodiment of the present invention:

샘플 이미지의 텍스트 정보를 검출하여, 샘플 이미지에서 텍스트 행의 위치 정보를 획득하고, 위치 정보를 영역 특징 추출기(902)로 전송하는 광학적 문자 인식(901);optical character recognition (901) for detecting text information of the sample image, obtaining location information of text lines in the sample image, and transmitting the location information to the region feature extractor (902);

위치 정보에 따라 샘플 이미지에 대해 크로핑 동작을 수행하여, 텍스트 영역을 획득하고, 텍스트 영역을 문자 인식기(903) 및 비전 인식기(904)로 각각 전송하는 영역 특징 추출기(902); a region feature extractor 902 that obtains a text region by performing a cropping operation on the sample image according to the location information, and transmits the text region to the character recognizer 903 and the vision recognizer 904, respectively;

텍스트 영역의 텍스트 특징을 결정하고, 텍스트 특징을 transfromer 모델(905)로 전송하는 문자 인식기(903); 및 a character recognizer 903 that determines text features of the text area and transmits the text features to the transformer model 905; and

텍스트 영역의 비전 특징을 결정하고, 비전 특징을 transfromer 모델(905)로 전송하는 비전 인식기(904); 를 포함한다. a vision recognizer 904 that determines the vision features of the text area and transmits the vision features to the transformer model 905; includes

transfromer 모델(905)은 텍스트 특징 및 비전 특징에 대해 융합 처리을 수행하여, 융합 특징을 획득하고, 융합 특징을 기반으로 광학적 문자 인식(901)의 파라미터 및 transfromer 모델(905)의 파라미터를 조정함으로, 텍스트 인식 모델 프레임워크를 획득한다. The transfromer model 905 performs fusion processing on text features and vision features, acquires fusion features, and adjusts parameters of the optical character recognition 901 and the parameters of the transfromer model 905 based on the fusion features, so that the text Acquire a recognition model framework.

텍스트 인식 모델 프레임워크는 조정된 텍스트 검출 모델 및 조정된 특징 융합 모델을 포함한다. The text recognition model framework includes a tuned text detection model and a tuned feature fusion model.

이해해야 할 것은, 상기 실시예의 각 컴포넌트는 하나로 통합될 수 있고 독립적으로 형성될 수도 있고, 본 실시예에서 한정하지 않는다. It should be understood that each component in the above embodiment may be integrated into one or formed independently, and is not limited in this embodiment.

예를 들면, 광학적 문자 인식, 영역 특징 추출기, 문자 인식기 및 비전 인식기는, 서로 독립된 컴포넌트이고; 또 예를 들면, 영역 특징 추출기는 통합된 광학적 문자 인식의 컴포넌트이고, 문자 인식기 및 비전 인식기와 각각 독립되고, 문자 인식기 및 비전 인식기는 2개의 독립적인 컴포넌트이고, 여기서 일일이 열거하지 않는다. For example, optical character recognition, region feature extractor, character recognizer and vision recognizer are components independent of each other; Further, for example, the area feature extractor is a component of integrated optical character recognition, and is independent of the character recognizer and vision recognizer, respectively, and the character recognizer and vision recognizer are two independent components, which are not individually enumerated here.

상기 각 특징에 관한 구현 원리는 상기 방법 실시예의 설명을 참조할 수 있고, 여기서 더는 설명하지 않는다. The implementation principle for each of the above features may refer to the description of the above method embodiment, and is not described herein further.

본 출원 실시예의 다른 측면에 따르면, 본 출원의 실시예는 컴퓨터 프로그램을 제공하고, 프로그램 코드를 포함하고, 컴퓨터가 상기 컴퓨터 프로그램을 운행할 경우, 상기 프로그램 코드는 상기 임의의 방법을 수행한다. According to another aspect of the embodiments of the present application, the embodiments of the present application provide a computer program, including program code, and when a computer runs the computer program, the program code performs any of the above methods.

이해해야 할 것은, 상기 복수 형식의 흐름에 의해, 단계를 재정열, 추가 또는 삭제할 수 있다. 예를 들면, 본 발명에 기재한 각 단계는 병행하여 또는 순차적으로 실행할 수도 있고, 서로 다른 순서로 실행할 수도 있다. 본 출원에서 개시한 기술적 수단이 원하는 결과만 구현할 수 있으면 본 출원에서는 이에 대해 한정하지 않는다.It should be understood that steps may be rearranged, added or deleted by the above plural forms of flow. For example, each step described in the present invention may be executed in parallel or sequentially, or may be executed in a different order. As long as the technical means disclosed in the present application can implement only the desired results, the present application is not limited thereto.

상기 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 본 발명이 속하는 기술 분야의 통상의 기술자는 설계 요구 및 기타 요소에 의해 여러가지 수정, 조합, 서브 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 발명의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 모두 본 발명 보호 범위에 포함된다.The above specific implementation manner does not limit the protection scope of the present invention. Those skilled in the art to which the present invention pertains should understand that various modifications, combinations, subcombinations, and substitutions may be made according to design requirements and other factors. All modifications, equivalent replacements and improvements made within the spirit and principle of the present invention are all included in the protection scope of the present invention.

Claims (27)

텍스트 인식 모델 프레임워크의 훈련 방법에 있어서,
미리 설정된 텍스트 검출 모델을 기반으로 샘플 이미지에 대해 특징 처리를 하여, 상기 샘플 이미지의 텍스트 정보와 관련된 적어도 두 가지의 특징 정보를 획득하는 단계;
미리 설정된 특징 융합 모델을 기반으로 상기 샘플 이미지의 적어도 두 가지의 특징 정보에 대해 융합 처리하여, 상기 샘플 이미지의 융합 특징을 획득하는 단계; 및
상기 융합 특징을 상기 특징 융합 모델에 입력하고, 상기 융합 특징 모델을 기반으로 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득하는 단계 - 상기 텍스트 인식 모델 프레임워크는 조정된 텍스트 검출 모델 및 조정된 특징 융합 모델을 포함함 - ; 를 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 방법.
In the training method of the text recognition model framework,
obtaining at least two pieces of feature information related to text information of the sample image by performing feature processing on the sample image based on a preset text detection model;
obtaining a fusion feature of the sample image by performing fusion processing on at least two pieces of feature information of the sample image based on a preset feature fusion model; and
obtaining a text recognition model framework by inputting the fusion features into the feature fusion model and adjusting parameters of the text detection model and the feature fusion model, respectively, based on the fusion feature model - the text recognition model frame The work includes a tuned text detection model and a tuned feature fusion model; including,
Training method of a text recognition model framework, characterized in that.
제1항에 있어서,
미리 설정된 텍스트 검출 모델을 기반으로 샘플 이미지에 대해 특징 처리를 하여, 상기 샘플 이미지의 텍스트와 관련된 적어도 두 가지의 특징 정보를 획득하는 단계는,
상기 텍스트 검출 모델을 기반으로 상기 샘플 이미지에서 텍스트 행의 위치 정보를 결정하고, 상기 위치 정보에 따라 상기 적어도 두 가지의 특징 정보를 결정하는 단계를 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 방법.
According to claim 1,
The step of obtaining at least two pieces of feature information related to the text of the sample image by performing feature processing on the sample image based on a preset text detection model,
Determining location information of a text row in the sample image based on the text detection model, and determining the at least two pieces of feature information according to the location information.
Training method of a text recognition model framework, characterized in that.
제2항에 있어서,
상기 위치 정보에 따라 상기 적어도 두 가지의 특징 정보를 결정하는 단계는,
상기 위치 정보에 따라 상기 샘플 이미지에 대해 크로핑 동작을 수행하여, 텍스트 영역을 획득하고, 상기 텍스트 영역에서 상기 적어도 두 가지의 특징 정보를 획득하는 단계를 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 방법.
According to claim 2,
The step of determining the at least two pieces of characteristic information according to the location information,
Performing a cropping operation on the sample image according to the location information to obtain a text area, and acquiring the at least two pieces of feature information in the text area.
Training method of a text recognition model framework, characterized in that.
제3항에 있어서,
상기 텍스트 영역에서 상기 적어도 두 가지의 특징 정보를 획득하는 단계는,
상기 텍스트 영역에서 상기 샘플 이미지의 이미지 특징을 추출하고, 상기 이미지 특징을 인식하여, 상기 적어도 두 가지의 특징 정보를 획득하는 단계를 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 방법.
According to claim 3,
Obtaining the at least two pieces of feature information in the text area includes:
Extracting image features of the sample image from the text area, recognizing the image features, and obtaining the at least two pieces of feature information.
Training method of a text recognition model framework, characterized in that.
제2항 내지 제4항 중 어느 한 항에 있어서,
상기 적어도 두 가지의 특징 정보는, 텍스트 특징 및 비전 특징을 포함하고; 상기 위치 정보에 따라 상기 적어도 두 가지의 특징 정보를 결정하는 단계 이후,
상기 텍스트 특징을 나타내는 복수의 텍스트 특징 블록을 구축하고, 상기 비전 특징을 나타내는 복수의 비전 특징 블록을 구축하는 단계를 더 포함하고,
상기 융합 특징을 상기 특징 융합 모델에 입력하고, 상기 융합 특징 모델을 기반으로 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 단계는, 상기 특징 융합 모델이 상기 융합 특징 및 상기 복수의 텍스트 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 것; 및, 상기 특징 융합 모델이 상기 융합 특징 및 상기 복수의 비전 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 것; 중의 적어도 하나의 단계를 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 방법.
According to any one of claims 2 to 4,
The at least two pieces of characteristic information include text characteristics and vision characteristics; After determining the at least two pieces of feature information according to the location information,
Constructing a plurality of text feature blocks representing the text feature, and constructing a plurality of vision feature blocks representing the vision feature;
The step of inputting the fusion feature into the feature fusion model and adjusting the parameters of the text detection model and the feature fusion model, respectively, based on the fusion feature model, wherein the feature fusion model determines the fusion feature and the plurality of texts. adjusting parameters of the text detection model and the feature fusion model, respectively, according to the feature block; and adjusting parameters of the text detection model and the feature fusion model, respectively, according to the feature fusion model according to the fusion feature and the plurality of vision feature blocks. Including at least one step of
Training method of a text recognition model framework, characterized in that.
제5항에 있어서,
상기 특징 융합 모델이 상기 융합 특징 및 상기 복수의 텍스트 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 단계는,
상기 특징 융합 모델이 상기 융합 특징의 일부 텍스트 특징을 랜덤으로 커버하고, 상기 복수의 텍스트 특징 블록에 따라 상기 커버된 일부 텍스트 특징에 대해 예측 보완 처리를 수행하여, 예측 보완 후의 일부 텍스트 특징을 획득하는 단계; 및
상기 예측 보완 후의 일부 텍스트 특징 및 상기 융합 특징에서 커버된 상기 일부 텍스트 특징 이외의 특징에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 단계; 를 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 방법.
According to claim 5,
Adjusting, by the feature fusion model, parameters of the text detection model and the feature fusion model, respectively, according to the fusion feature and the plurality of text feature blocks,
The feature fusion model randomly covers some text features of the fusion features, and performs predictive complementation processing on the covered some text features according to the plurality of text feature blocks to obtain some text features after prediction and complementation. step; and
adjusting parameters of the text detection model and the feature fusion model, respectively, according to some text features after prediction and complementation and features other than the some text features covered by the fusion feature; including,
Training method of a text recognition model framework, characterized in that.
제5항에 있어서,
상기 특징 융합 모델이 상기 융합 특징 및 상기 복수의 비전 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 단계는,
상기 특징 융합 모델이 상기 융합 특징의 일부 비전 특징을 랜덤으로 커버하고, 상기 복수의 비전 특징 블록에 따라 상기 커버된 일부 비전 특징에 대해 예측 보완 처리를 하여, 예측 보완 후의 일부 비전 특징을 획득하는 단계; 및
상기 예측 보완 후의 일부 비전 특징 및 상기 융합 특징에서 커버된 상기 일부 비전 특징 이외의 특징에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 단계; 를 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 방법.
According to claim 5,
The step of adjusting parameters of the text detection model and the feature fusion model, respectively, according to the fusion feature and the plurality of vision feature blocks, by the feature fusion model,
The feature fusion model randomly covers some vision features of the fusion features, and predicts and supplements the covered some vision features according to the plurality of vision feature blocks to obtain some vision features after prediction and complementation. ; and
adjusting parameters of the text detection model and the feature fusion model, respectively, according to some vision features after prediction and complementation and features other than the some vision features covered by the fusion feature; including,
Training method of a text recognition model framework, characterized in that.
제5항에 있어서,
상기 특징 융합 모델이 상기 융합 특징 및 상기 복수의 텍스트 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 단계는,
상기 특징 융합 모델이 상기 복수의 텍스트 특징 블록의 적어도 상기 일부 텍스트 특징 블록에 따라, 상기 융합 특징의 텍스트 특징에 대해 교체 처리를 하여, 교체된 텍스트 특징을 획득하는 단계; 및
상기 융합 특징의 비전 특징 및 상기 교체된 텍스트 특징에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 단계; 를 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 방법.
According to claim 5,
Adjusting, by the feature fusion model, parameters of the text detection model and the feature fusion model, respectively, according to the fusion feature and the plurality of text feature blocks,
subjecting, by the feature fusion model, text features of the fusion feature to replacement processing according to at least some of the text feature blocks of the plurality of text feature blocks, to obtain replaced text features; and
adjusting parameters of the text detection model and the feature fusion model, respectively, according to the vision feature of the fusion feature and the replaced text feature; including,
Training method of a text recognition model framework, characterized in that.
제5항에 있어서,
상기 특징 융합 모델이 상기 융합 특징 및 상기 복수의 비전 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 단계는,
상기 특징 융합 모델이 상기 복수의 비전 특징 블록의 적어도 상기 일부 비전 특징 블록에 따라, 상기 융합 특징의 비전 특징에 대해 교체 처리를 하여, 교체된 비전 특징을 획득하는 단계; 및
상기 융합 특징의 텍스트 특징 및 상기 교체된 비전 특징에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 단계; 를 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 방법.
According to claim 5,
The step of adjusting parameters of the text detection model and the feature fusion model, respectively, according to the fusion feature and the plurality of vision feature blocks, by the feature fusion model,
subjecting the feature fusion model to replacement processing for a vision feature of the fusion feature according to at least some of the vision feature blocks of the plurality of vision feature blocks, so as to obtain a replaced vision feature; and
adjusting parameters of the text detection model and the feature fusion model, respectively, according to the text feature of the fusion feature and the replaced vision feature; including,
Training method of a text recognition model framework, characterized in that.
제5항 내지 제9항 중 어느 한 항에 있어서,
상기 특징 융합 모델이 상기 융합 특징, 상기 복수의 텍스트 특징 블록 및 상기 복수의 비전 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정할 경우, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 단계는,
상기 특징 융합 모델이 상기 융합 특징 및 상기 복수의 텍스트 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델을 조정하는 제1 조정 태스크 결과를 결정하는 단계;
상기 특징 융합 모델이 상기 융합 특징 및 상기 복수의 비전 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델을 조정하는 제2 조정 태스크 결과를 결정하는 단계; 및
상기 제1 조정 태스크 결과 및 제2 조정 태스크 결과의 가중평균 정보에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 단계; 를 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 방법.
According to any one of claims 5 to 9,
When the feature fusion model adjusts parameters of the text detection model and the feature fusion model, respectively, according to the fusion feature, the plurality of text feature blocks, and the plurality of vision feature blocks, the text detection model and the feature fusion model The step of adjusting each parameter of
determining, by the feature fusion model, a first adjustment task result of adjusting the text detection model and the feature fusion model according to the fusion feature and the plurality of text feature blocks;
determining, by the feature fusion model, a second adjustment task result of adjusting the text detection model and the feature fusion model according to the fusion feature and the plurality of vision feature blocks; and
adjusting parameters of the text detection model and the feature fusion model, respectively, according to the weighted average information of the result of the first adjustment task and the result of the second adjustment task; including,
Training method of a text recognition model framework, characterized in that.
텍스트 인식 방법에 있어서,
인식할 이미지를 획득하는 단계;
상기 인식할 이미지를 사전 훈련된 텍스트 인식 모델로 입력하여, 상기 인식할 이미지의 텍스트 정보를 획득하는 단계 - 상기 텍스트 인식 모델은 사전 훈련된 텍스트 인식 모델 프레임워크를 기반으로 훈련할 이미지를 훈련하여 생성된 것이고, 상기 텍스트 인식 모델 프레임워크는 제1항 내지 제10항 중 어느 한 항의 상기 훈련 방법에 의해 훈련하여 획득된 것이고, 상기 훈련할 이미지는 텍스트 정보를 포함함 - ; 를 포함하는,
것을 특징으로 하는 텍스트 인식 방법.
In the text recognition method,
obtaining an image to be recognized;
Acquiring text information of the image to be recognized by inputting the image to be recognized into a pretrained text recognition model - The text recognition model is generated by training the image to be trained based on a pretrained text recognition model framework The text recognition model framework is obtained by training by the training method of any one of claims 1 to 10, and the image to be trained includes text information; including,
Text recognition method characterized in that.
텍스트 인식 모델 프레임워크의 훈련 장치에 있어서,
미리 설정된 텍스트 검출 모델을 기반으로 샘플 이미지에 대해 특징 처리를 하여, 상기 샘플 이미지의 텍스트 정보와 관련된 적어도 두 가지의 특징 정보를 획득하는 처리 유닛;
미리 설정된 특징 융합 모델을 기반으로 상기 샘플 이미지의 적어도 두 가지의 특징 정보에 대해 융합 처리하여, 상기 샘플 이미지의 융합 특징을 획득하는 융합 유닛; 및
상기 융합 특징을 상기 특징 융합 모델에 입력하고, 상기 융합 특징 모델을 기반으로 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득하는 훈련 유닛 - 상기 텍스트 인식 모델 프레임워크는 조정된 텍스트 검출 모델 및 조정된 특징 융합 모델을 포함함 - ; 을 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 장치.
In the training apparatus of the text recognition model framework,
a processing unit configured to perform feature processing on a sample image based on a preset text detection model to obtain at least two pieces of feature information related to text information of the sample image;
a fusion unit configured to obtain a fusion feature of the sample image by performing fusion processing on at least two pieces of feature information of the sample image based on a preset feature fusion model; and
A training unit configured to input the fusion features into the feature fusion model and adjust parameters of the text detection model and the feature fusion model based on the fusion feature model, respectively, to obtain a text recognition model framework - the text recognition model - The framework includes a tuned text detection model and a tuned feature fusion model; including,
Training device of the text recognition model framework, characterized in that.
제12항에 있어서,
상기 처리 유닛은,
미리 설정된 텍스트 검출 모델을 기반으로 샘플 이미지에 대해 특징 처리를 하는 제1 결정 서브 유닛;
상기 샘플 이미지의 텍스트와 관련된 적어도 두 가지의 특징 정보를 획득하는 제2 결정 서브 유닛; 을 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 장치.
According to claim 12,
The processing unit is
a first decision subunit that performs feature processing on sample images based on a preset text detection model;
a second determining subunit to acquire at least two pieces of feature information related to the text of the sample image; including,
Training device of the text recognition model framework, characterized in that.
제13항에 있어서,
상기 제2 결정 서브 유닛은,
상기 위치 정보에 따라 상기 샘플 이미지에 대해 크로핑 동작을 수행하여, 텍스트 영역을 획득하는 크로핑 모듈; 및
상기 텍스트 영역에서 상기 적어도 두 가지의 특징 정보를 획득하는 획득 모듈; 을 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 장치.
According to claim 13,
The second decision subunit,
a cropping module that obtains a text area by performing a cropping operation on the sample image according to the location information; and
an acquiring module acquiring the at least two pieces of characteristic information in the text area; including,
Training device of the text recognition model framework, characterized in that.
제14항에 있어서,
상기 획득 모듈이 상기 텍스트 영역에서 상기 샘플 이미지의 이미지 특징을 추출하고, 상기 이미지 특징을 인식하여, 상기 적어도 두 가지의 특징 정보를 획득하는데 사용되는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 장치.
According to claim 14,
The acquisition module is used to extract image features of the sample image from the text area, recognize the image features, and obtain the at least two pieces of feature information.
Training device of the text recognition model framework, characterized in that.
제13항 내지 제15항 중 어느 한 항에 있어서,
상기 적어도 두 가지의 특징 정보는 텍스트 특징 및 비전 특징을 포함하고,
상기 텍스트 특징을 나타내는 복수의 텍스트 특징 블록을 구축하고, 상기 비전 특징을 나타내는 복수의 비전 특징 블록을 구축하는 구축 유닛을 더 포함하고,
상기 훈련 유닛은, 상기 특징 융합 모델이 상기 융합 특징 및 상기 복수의 텍스트 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 것; 및, 상기 특징 융합 모델이 상기 융합 특징 및 상기 복수의 비전 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 것 중의 적어도 하나에 사용되는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 장치.
According to any one of claims 13 to 15,
The at least two pieces of feature information include a text feature and a vision feature;
a building unit configured to construct a plurality of text feature blocks representing the text feature, and constructing a plurality of vision feature blocks representing the vision feature;
The training unit may: adjust parameters of the text detection model and the feature fusion model, respectively, according to the feature fusion model according to the fusion feature and the plurality of text feature blocks; And, the feature fusion model is used for at least one of adjusting parameters of the text detection model and the feature fusion model, respectively, according to the fusion feature and the plurality of vision feature blocks,
Training device of the text recognition model framework, characterized in that.
제16항에 있어서,
상기 훈련 유닛은,
상기 융합 특징의 일부 텍스트 특징을 랜덤으로 커버하는 제1 커버 서브 유닛;
상기 복수의 텍스트 특징 블록에 따라 상기 커버된 일부 텍스트 특징에 대해 예측 보완 처리를 수행하여, 예측 보완 후의 일부 텍스트 특징을 획득하는 제1 예측 보완 서브 유닛; 및
상기 예측 보완 후의 일부 텍스트 특징 및 상기 융합 특징에서 커버된 상기 일부 텍스트 특징 이외의 특징에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 제1 조정 서브 유닛; 을 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 장치.
According to claim 16,
The training unit is
a first cover subunit randomly covering some text features of the fusion features;
a first prediction and complementation subunit configured to perform prediction and supplementation processing on some of the covered text features according to the plurality of text feature blocks, and obtain some text features after prediction and complementation; and
a first adjustment subunit configured to adjust parameters of the text detection model and the feature fusion model, respectively, according to some text features after prediction and complementation and features other than the some text features covered by the fusion feature; including,
Training device of the text recognition model framework, characterized in that.
제16항에 있어서,
상기 훈련 유닛은,
상기 융합 특징의 일부 비전 특징을 랜덤으로 커버하는 제2 커버 서브 유닛;
상기 복수의 비전 특징 블록에 따라 상기 커버된 일부 비전 특징에 대해 예측 보완 처리를 하여, 예측 보완 후의 일부 비전 특징을 획득하는 제2 예측 보완 서브 유닛; 및
상기 예측 보완 후의 일부 비전 특징 및 상기 융합 특징에서 커버된 상기 일부 비전 특징 이외의 특징에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 제2 조정 서브 유닛; 을 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 장치.
According to claim 16,
The training unit is
a second cover subunit randomly covering some vision features of the fusion features;
a second prediction and complementation subunit configured to perform prediction and complementation processing on some of the covered vision features according to the plurality of vision feature blocks, and obtain some vision features after prediction and complementation; and
a second adjustment subunit configured to adjust parameters of the text detection model and the feature fusion model, respectively, according to some vision features after prediction and complementation and features other than the some vision features covered by the fusion features; including,
Training device of the text recognition model framework, characterized in that.
제16항에 있어서,
상기 훈련 유닛은,
상기 복수의 텍스트 특징 블록의 적어도 상기 일부 텍스트 특징 블록에 따라, 상기 융합 특징의 텍스트 특징에 대해 교체 처리를 하여, 교체된 텍스트 특징을 획득하는 제1 교체 서브 유닛; 및
상기 융합 특징의 비전 특징 및 상기 교체된 텍스트 특징에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 제3 조정 서브 유닛; 을 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 장치.
According to claim 16,
The training unit is
a first replacing sub-unit configured to perform replacement processing on text features of the fusion feature according to at least some text feature blocks of the plurality of text feature blocks, so as to obtain replaced text features; and
a third adjustment subunit configured to adjust parameters of the text detection model and the feature fusion model, respectively, according to the vision feature of the fusion feature and the replaced text feature; including,
Training device of the text recognition model framework, characterized in that.
제16항에 있어서,
상기 훈련 유닛은,
상기 복수의 비전 특징 블록의 적어도 상기 일부 비전 특징 블록에 따라, 상기 융합 특징의 비전 특징에 대해 교체 처리를 하여, 교체된 비전 특징을 획득하는 제2 교체 서브 유닛; 및
상기 융합 특징의 텍스트 특징 및 상기 교체된 비전 특징에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 제4 조정 서브 유닛; 을 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 장치.
According to claim 16,
The training unit is
a second replacing sub-unit configured to perform replacement processing on vision features of the fusion feature according to at least some vision feature blocks of the plurality of vision feature blocks, so as to obtain replaced vision features; and
a fourth adjustment subunit configured to adjust parameters of the text detection model and the feature fusion model, respectively, according to the text feature of the fusion feature and the replaced vision feature; including,
Training device of the text recognition model framework, characterized in that.
제16항 내지 제20항 중 어느 한 항에 있어서,
상기 특징 융합 모델이 상기 융합 특징, 상기 복수의 텍스트 특징 블록 및 상기 복수의 비전 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정할 경우, 상기 훈련 유닛은,
상기 융합 특징 및 상기 복수의 텍스트 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델을 조정하는 제1 조정 태스크 결과를 결정하는 제3 결정 서브 유닛;
상기 융합 특징 및 상기 복수의 비전 특징 블록에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델을 조정하는 제2 조정 태스크 결과를 결정하는 제4 결정 서브 유닛; 및
상기 제1 조정 태스크 결과 및 제2 조정 태스크 결과의 가중평균 정보에 따라, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하는 제5 조정 서브 유닛; 을 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 장치.
The method of any one of claims 16 to 20,
When the feature fusion model adjusts parameters of the text detection model and the feature fusion model respectively according to the fusion feature, the plurality of text feature blocks, and the plurality of vision feature blocks, the training unit:
a third determining subunit configured to determine a first adjusting task result of adjusting the text detection model and the feature fusion model according to the fusion feature and the plurality of text feature blocks;
a fourth decision subunit configured to determine a result of a second adjustment task for adjusting the text detection model and the feature fusion model according to the fusion feature and the plurality of vision feature blocks; and
a fifth adjustment subunit configured to adjust parameters of the text detection model and the feature fusion model, respectively, according to the weighted average information of the result of the first adjustment task and the result of the second adjustment task; including,
Training device of the text recognition model framework, characterized in that.
텍스트 인식 장치에 있어서,
인식할 이미지를 획득하는 획득 유닛;
상기 인식할 이미지를 사전 훈련된 텍스트 인식 모델로 입력하여, 상기 인식할 이미지의 텍스트 정보를 획득하는 인식 유닛 - 상기 텍스트 인식 모델은 사전 훈련된 텍스트 인식 모델 프레임워크를 기반으로 훈련할 이미지를 훈련하여 생성된 것이고, 상기 텍스트 인식 모델 프레임워크는 제1항 내지 제10항 중 어느 한 항의 상기 훈련 방법에 의해 훈련하여 획득된 것이고, 상기 훈련할 이미지는 텍스트 정보를 포함함 - ; 을 포함하는,
것을 특징으로 하는 텍스트 인식 장치.
In the text recognition device,
an acquiring unit acquiring an image to be recognized;
A recognition unit for obtaining text information of the image to be recognized by inputting the image to be recognized into a pretrained text recognition model, wherein the text recognition model trains the image to be trained based on a pretrained text recognition model framework generated, the text recognition model framework is obtained by training by the training method of any one of claims 1 to 10, and the image to be trained includes text information; including,
Text recognition device characterized in that.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리; 를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서는 제1항 내지 제10항 중 어느 한 항의 방법을 수행하거나; 또는, 상기 적어도 하나의 프로세서가 제11항의 방법을 수행하는,
것을 특징으로 하는 전자 기기.
In electronic devices,
at least one processor; and
a memory communicatively coupled to the at least one processor; including,
Instructions executable by the at least one processor are stored in the memory, and when the instructions are executed by the at least one processor, the at least one processor performs the method of any one of claims 1 to 10. perform; Or, the at least one processor performs the method of claim 11,
Electronic device characterized in that.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제10항 중 어느 한 항의 방법을 수행하도록 하거나; 또는, 상기 컴퓨터 명령은 상기 컴퓨터가 제11항의 방법을 수행하도록 하는,
것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체.
A non-transitory computer-readable storage medium in which computer instructions are stored,
The computer instructions cause a computer to perform the method of any one of claims 1 to 10; Alternatively, the computer instructions cause the computer to perform the method of claim 11,
A non-transitory computer-readable storage medium, characterized in that.
컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품에 있어서,
상기 컴퓨터 프로그램이 프로세서에 의해 수행될 경우 제1항 내지 제10항 중 어느 한 항의 방법이 구현되거나; 또는, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 경우 제11항의 방법이 구현되는,
것을 특징으로 하는 컴퓨터 프로그램 제품.
A computer program product comprising a computer program,
When the computer program is executed by a processor, the method of any one of claims 1 to 10 is implemented; Alternatively, when the computer program is executed by a processor, the method of claim 11 is implemented.
A computer program product, characterized in that.
텍스트 인식 모델 프레임워크의 훈련 시스템에 있어서,
샘플 이미지에 대해 특징 처리를 하여, 상기 샘플 이미지의 텍스트 정보와 관련된 적어도 두 가지의 특징 정보를 획득하는 텍스트 검출 모델;
상기 샘플 이미지의 적어도 두 가지의 특징 정보에 대해 융합 처리하여, 상기 샘플 이미지의 융합 특징을 획득하는 특징 융합 모델; 을 포함하고,
상기 특징 융합 모델은 또한, 상기 텍스트 검출 모델 및 상기 특징 융합 모델의 파라미터를 각각 조정하여, 텍스트 인식 모델 프레임워크를 획득하는데 사용되고, 상기 텍스트 인식 모델 프레임워크가 조정된 텍스트 검출 모델 및 조정된 특징 융합 모델을 포함하는,
것을 특징으로 하는 텍스트 인식 모델 프레임워크의 훈련 시스템.
In the training system of the text recognition model framework,
a text detection model for obtaining at least two pieces of feature information related to text information of the sample image by performing feature processing on the sample image;
a feature fusion model for obtaining a fusion feature of the sample image by performing fusion processing on at least two pieces of feature information of the sample image; including,
The feature fusion model is further used to obtain a text recognition model framework by adjusting parameters of the text detection model and the feature fusion model respectively, and the text recognition model framework adjusts the text detection model and the adjusted feature fusion model. including the model,
Training system of the text recognition model framework, characterized in that.
프로그램 코드를 포함하는 컴퓨터 프로그램에 있어서,
컴퓨터가 상기 컴퓨터 프로그램을 실행할 경우, 상기 프로그램 코드는 제1항 내지 제10항 중 어느 한 항의 방법을 수행하거나; 또는, 상기 프로그램 코드가 제11항의 방법을 수행하는,
것을 특징으로 하는 컴퓨터 프로그램.
In the computer program containing the program code,
When a computer executes the computer program, the program code performs the method of any one of claims 1 to 10; Or, the program code performs the method of claim 11,
A computer program characterized in that.
KR1020237005116A 2021-07-28 2022-04-02 Training method, apparatus and system of text recognition model framework KR20230030005A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110858410.X 2021-07-28
CN202110858410.XA CN113591864B (en) 2021-07-28 2021-07-28 Training method, device and system for text recognition model framework
PCT/CN2022/085149 WO2023005253A1 (en) 2021-07-28 2022-04-02 Method, apparatus and system for training text recognition model framework

Publications (1)

Publication Number Publication Date
KR20230030005A true KR20230030005A (en) 2023-03-03

Family

ID=78251207

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237005116A KR20230030005A (en) 2021-07-28 2022-04-02 Training method, apparatus and system of text recognition model framework

Country Status (3)

Country Link
KR (1) KR20230030005A (en)
CN (1) CN113591864B (en)
WO (1) WO2023005253A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591864B (en) * 2021-07-28 2023-04-07 北京百度网讯科技有限公司 Training method, device and system for text recognition model framework
CN114626455A (en) * 2022-03-11 2022-06-14 北京百度网讯科技有限公司 Financial information processing method, device, equipment, storage medium and product
CN114511864B (en) * 2022-04-19 2023-01-13 腾讯科技(深圳)有限公司 Text information extraction method, target model acquisition method, device and equipment

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688784A (en) * 2017-08-23 2018-02-13 福建六壬网安股份有限公司 A kind of character identifying method and storage medium based on further feature and shallow-layer Fusion Features
CN108171700A (en) * 2018-01-12 2018-06-15 西安电子科技大学 Medical image pulmonary nodule detection method based on confrontation network
KR102161476B1 (en) * 2018-07-13 2020-10-06 동국대학교 산학협력단 Apparatus and method for identifying user using user body based on deep learning
CN109359559B (en) * 2018-09-27 2021-11-12 天津师范大学 Pedestrian re-identification method based on dynamic shielding sample
CN109271967B (en) * 2018-10-16 2022-08-26 腾讯科技(深圳)有限公司 Method and device for recognizing text in image, electronic equipment and storage medium
CN110163110B (en) * 2019-04-23 2023-06-06 中电科大数据研究院有限公司 Pedestrian re-recognition method based on transfer learning and depth feature fusion
CN110135366B (en) * 2019-05-20 2021-04-13 厦门大学 Shielded pedestrian re-identification method based on multi-scale generation countermeasure network
CN110399798B (en) * 2019-06-25 2021-07-20 朱跃飞 Discrete picture file information extraction system and method based on deep learning
CN110837835B (en) * 2019-10-29 2022-11-08 华中科技大学 End-to-end scene text identification method based on boundary point detection
CN113139547B (en) * 2020-01-20 2022-04-29 阿里巴巴集团控股有限公司 Text recognition method and device, electronic equipment and storage medium
CN111507355B (en) * 2020-04-17 2023-08-22 北京百度网讯科技有限公司 Character recognition method, device, equipment and storage medium
CN111738251B (en) * 2020-08-26 2020-12-04 北京智源人工智能研究院 Optical character recognition method and device fused with language model and electronic equipment
CN112329467B (en) * 2020-11-03 2022-09-30 腾讯科技(深圳)有限公司 Address recognition method and device, electronic equipment and storage medium
CN112686263B (en) * 2020-12-29 2024-04-16 科大讯飞股份有限公司 Character recognition method, character recognition device, electronic equipment and storage medium
CN112836702B (en) * 2021-01-04 2022-10-18 浙江大学 Text recognition method based on multi-scale feature extraction
CN112733768B (en) * 2021-01-15 2022-09-09 中国科学技术大学 Natural scene text recognition method and device based on bidirectional characteristic language model
CN112861739B (en) * 2021-02-10 2022-09-09 中国科学技术大学 End-to-end text recognition method, model training method and device
CN112966742A (en) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 Model training method, target detection method and device and electronic equipment
CN112861782B (en) * 2021-03-07 2023-06-20 上海大学 Bill photo key information extraction system and method
CN113591864B (en) * 2021-07-28 2023-04-07 北京百度网讯科技有限公司 Training method, device and system for text recognition model framework

Also Published As

Publication number Publication date
CN113591864A (en) 2021-11-02
WO2023005253A1 (en) 2023-02-02
CN113591864B (en) 2023-04-07

Similar Documents

Publication Publication Date Title
EP4033453A1 (en) Training method and apparatus for target detection model, device and storage medium
KR20230030005A (en) Training method, apparatus and system of text recognition model framework
CN115035538B (en) Training method of text recognition model, and text recognition method and device
CN109034069B (en) Method and apparatus for generating information
WO2022257487A1 (en) Method and apparatus for training depth estimation model, and electronic device and storage medium
CN115063875B (en) Model training method, image processing method and device and electronic equipment
US20230143452A1 (en) Method and apparatus for generating image, electronic device and storage medium
CN114863437B (en) Text recognition method and device, electronic equipment and storage medium
US20220374678A1 (en) Method for determining pre-training model, electronic device and storage medium
CN116152833B (en) Training method of form restoration model based on image and form restoration method
CN114429637B (en) Document classification method, device, equipment and storage medium
CN114490998B (en) Text information extraction method and device, electronic equipment and storage medium
US20230052906A1 (en) Entity Recognition Method and Apparatus, and Computer Program Product
EP4191544A1 (en) Method and apparatus for recognizing token, electronic device and storage medium
JP2022185143A (en) Text detection method, and text recognition method and device
US20220319141A1 (en) Method for processing image, device and storage medium
CN113033346A (en) Text detection method and device and electronic equipment
CN112580666A (en) Image feature extraction method, training method, device, electronic equipment and medium
CN113657395A (en) Text recognition method, and training method and device of visual feature extraction model
US20230245429A1 (en) Method and apparatus for training lane line detection model, electronic device and storage medium
CN114445826A (en) Visual question answering method and device, electronic equipment and storage medium
JP2023133274A (en) Training method for roi detection model, detection method, apparatus therefor, device therefor, and medium therefor
CN114937277B (en) Image-based text acquisition method and device, electronic equipment and storage medium
EP4156124A1 (en) Dynamic gesture recognition method and apparatus, and device and storage medium
CN115565186A (en) Method and device for training character recognition model, electronic equipment and storage medium