KR20220109364A - Method and apparatus for establishing image recognition model, device, and storage medium - Google Patents

Method and apparatus for establishing image recognition model, device, and storage medium Download PDF

Info

Publication number
KR20220109364A
KR20220109364A KR1020220088321A KR20220088321A KR20220109364A KR 20220109364 A KR20220109364 A KR 20220109364A KR 1020220088321 A KR1020220088321 A KR 1020220088321A KR 20220088321 A KR20220088321 A KR 20220088321A KR 20220109364 A KR20220109364 A KR 20220109364A
Authority
KR
South Korea
Prior art keywords
image set
recognition model
image
model
initial
Prior art date
Application number
KR1020220088321A
Other languages
Korean (ko)
Inventor
완핑 장
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220109364A publication Critical patent/KR20220109364A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

Provided are a method and an apparatus for establishing an image recognition model, a device, and a storage medium. The present invention relates to the field of artificial intelligence technology, particularly computer vision and deep learning technology, and can be applied to scenes such as face recognition. The method includes the steps of: obtaining a set of input images; obtaining a trained super-resolution model and a recognition model by jointly training an initial super-resolution model and an initial recognition model using the input image set; and obtaining an image recognition model by dependently combining the trained super-resolution model and the recognition model. A method for establishing an image recognition model according to the present disclosure improves the robustness of the image recognition model against low-quality image data.

Description

이미지 인식 모델의 구축 방법, 장치, 기기 및 저장 매체{METHOD AND APPARATUS FOR ESTABLISHING IMAGE RECOGNITION MODEL, DEVICE, AND STORAGE MEDIUM}METHOD AND APPARATUS FOR ESTABLISHING IMAGE RECOGNITION MODEL, DEVICE, AND STORAGE MEDIUM

본 개시는 인공 지능 기술 분야, 구체적으로는, 컴퓨터 비전 및 딥 러닝 기술 분야에 관한 것으로서, 특히, 이미지 인식 모델의 구축 방법, 장치, 기기 및 저장 매체에 관한 것이며, 얼굴 인식과 같은 장면에 적용할 수 있다.The present disclosure relates to the field of artificial intelligence technology, specifically, computer vision and deep learning technology, and in particular, to a method, apparatus, device and storage medium for building an image recognition model, and to be applied to scenes such as face recognition. can

얼굴 인식은 컴퓨터 비전 기술에 있어서, 가장 빠른 시기에 가장 널리 구현된 기술 중 하나이며, 특히 보안 및 모바일 결제 분야에서 널리 활용되고 있다. 얼굴 인식 기술에 딥 러닝이 광범위하게 적용됨에 따라 딥 러닝 기반 얼굴 인식의 정확도가 크게 향상되었다.Facial recognition is one of the most widely implemented technologies at the earliest in computer vision technology, and is particularly widely used in security and mobile payment fields. With the widespread application of deep learning in face recognition technology, the accuracy of deep learning-based face recognition has been greatly improved.

하지만, 보다 일반적인 제약이 없는 자연적인 장면에 있어서, 카메라가 비디오 스트림을 수집한 후, 캡처된 얼굴 이미지는 종종 모호하거나, 얼굴 영역이 작은 것과 같은 품질 저하 현상이 발생하여 인식 통과율이 낮거나 오인식율이 높다.However, in the more general unconstrained natural scene, after the camera collects the video stream, the captured facial image is often ambiguous, or the quality degradation such as small face area occurs, resulting in low recognition pass rate or false recognition rate. this is high

본 개시는 이미지 인식 모델의 구축 방법, 장치, 기기 및 저장 매체를 제공한다.The present disclosure provides a method, an apparatus, an apparatus, and a storage medium for building an image recognition model.

본 개시의 제1 양태에 따르면, 이미지 인식 모델의 구축 방법을 제공하며, 입력 이미지 세트를 획득하는 단계와, 입력 이미지 세트를 이용하여 초기 초해상도 모델 및 초기 인식 모델을 연계 훈련하여 훈련된 초해상도 모델 및 인식 모델을 얻는 단계와, 훈련된 초해상도 모델 및 인식 모델을 종속적으로 조합하여 이미지 인식 모델을 얻는 단계를 포함한다.According to a first aspect of the present disclosure, there is provided a method of constructing an image recognition model, comprising the steps of: obtaining an input image set; Obtaining a model and a recognition model, and obtaining an image recognition model by subordinately combining the trained super-resolution model and the recognition model.

본 개시의 제2 양태에 따르면, 이미지 인식 방법을 제공하며, 인식하고자 하는 이미지를 획득하는 단계와, 제1 양태의 임의의 구현방식에 따른 방법에 의해 획득하는 이미지 인식 모델에 인식하고자 하는 이미지를 입력하고, 인식하고자 하는 이미지에 대응하는 인식 결과를 출력하는 단계를 포함한다.According to a second aspect of the present disclosure, there is provided an image recognition method, comprising: obtaining an image to be recognized; and adding an image to be recognized to an image recognition model obtained by a method according to any implementation method of the first aspect and outputting a recognition result corresponding to an image to be recognized.

본 개시의 제3 양태에 따르면, 이미지 인식 모델의 구축 장치를 제공하며, 입력 이미지 세트를 획득하도록 구성되는 제1 획득 모듈과, 입력 이미지 세트를 이용하여 초기 초해상도 모델 및 초기 인식 모델을 연계 훈련하여 훈련된 초해상도 모델 및 인식 모델을 얻도록 구성되는 훈련 모듈과, 훈련된 초해상도 모델 및 인식 모델을 종속적으로 조합하여 이미지 인식 모델을 얻도록 구성되는 조합 모듈을 구비한다.According to a third aspect of the present disclosure, there is provided an apparatus for building an image recognition model, a first acquisition module configured to acquire an input image set, and an initial super-resolution model and an initial recognition model by using the input image set for joint training and a training module configured to obtain a trained super-resolution model and a recognition model, and a combination module configured to obtain an image recognition model by dependently combining the trained super-resolution model and the recognition model.

본 개시의 제4 양태에 따르면, 이미지 인식 장치를 제공하며, 인식하고자 하는 이미지를 획득하도록 구성되는 제2 획득 모듈과, 제1 양태의 임의의 구현방식에 따른 방법에 의해 획득하는 이미지 인식 모델에 인식하고자 하는 이미지를 입력하고, 인식하고자 하는 이미지에 대응하는 인식 결과를 출력하도록 구성되는 출력 모듈을 구비한다.According to a fourth aspect of the present disclosure, there is provided an image recognition apparatus, comprising: a second obtaining module configured to obtain an image to be recognized; and an image recognition model obtained by a method according to any implementation manner of the first aspect and an output module configured to input an image to be recognized and output a recognition result corresponding to the image to be recognized.

본 개시의 제5 양태에 따르면, 전자 기기를 제공하며, 적어도 하나의 프로세서와, 적어도 하나의 프로세서와 통신 연결하는 메모리를 구비하고, 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 명령이 적어도 하나의 프로세서에 의해 실행될 경우, 적어도 하나의 프로세서가 제1 양태 혹은 제2 양태의 임의의 구현방식에 따른 방법을 수행하도록 한다.According to a fifth aspect of the present disclosure, there is provided an electronic device, comprising at least one processor and a memory in communication connection with the at least one processor, the memory storing instructions executable by the at least one processor, When the instruction is executed by the at least one processor, it causes the at least one processor to perform the method according to any implementation of the first aspect or the second aspect.

본 개시의 제6 양태에 따르면, 제1 양태 혹은 제2 양태의 임의의 구현방식에 따른 방법을 컴퓨터에 실행시키기 위한 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 제공한다.According to a sixth aspect of the present disclosure, there is provided a non-transitory computer-readable storage medium having stored thereon computer instructions for executing the method according to any implementation of the first or second aspect in a computer.

본 개시의 제7 양태에 따르면, 프로세서에 의해 실행될 경우, 제1 양태 혹은 제2 양태의 임의의 구현방식에 따른 방법을 구현하는 컴퓨터 프로그램을제공한다.According to a seventh aspect of the present disclosure, there is provided a computer program that, when executed by a processor, implements the method according to any implementation manner of the first aspect or the second aspect.

본 명세서에 기술한 내용은 본 개시의 실시예의 관건적인 특징 또는 중요한 특징을 나타내기 위한 것이 아니며, 또한 본 개시의 범위를 제한하기 위한 것도 아님을 이해해야 할 것이다. 본 개시의 기타 특징은 이하의 명세서의 설명을 통해 용이하게 이해될 것이다.It is to be understood that the content described herein is not intended to represent key features or critical features of embodiments of the present disclosure, nor is it intended to limit the scope of the present disclosure. Other features of the present disclosure will be readily understood from the following description of the specification.

첨부된 도면은 본 개시를 보다 잘 이해하기 위한 것으로서 본 개시를 제한하지 않는다.
도 1은 본 개시에 적용 가능한 예시적인 시스템 아키텍처이다.
도 2는 본 개시에 따른 이미지 인식 모델의 구축 방법의 하나의 실시예의 흐름도이다.
도 3은 본 개시에 따른 이미지 인식 모델의 구축 방법의 하나의 응용 장면의 개략도이다.
도 4는 본 개시에 따른 이미지 인식 모델의 구축 방법의 다른 하나의 실시예의 흐름도이다.
도 5는 본 개시에 따른 이미지 인식 모델의 구축 방법의 또 하나의 실시예의 흐름도이다.
도 6은 본 개시에 따른 이미지 인식 방법의 하나의 실시예의 흐름도이다.
도 7은 본 개시에 따른 이미지 인식 모델의 구축 장치의 하나의 실시예의 구조도이다.
도 8은 본 개시에 따른 이미지 인식 장치의 하나의 실시예의 구조도이다.
도 9는 본 개시의 실시예의 이미지 인식 모델의 구축 방법을 구현하기 위한 전자 기기의 블록도이다.
The accompanying drawings are for a better understanding of the present disclosure and do not limit the present disclosure.
1 is an exemplary system architecture applicable to the present disclosure.
2 is a flowchart of one embodiment of a method for building an image recognition model according to the present disclosure.
3 is a schematic diagram of one application scene of the method for building an image recognition model according to the present disclosure.
4 is a flowchart of another embodiment of a method for building an image recognition model according to the present disclosure.
5 is a flowchart of another embodiment of a method for building an image recognition model according to the present disclosure.
6 is a flowchart of one embodiment of an image recognition method according to the present disclosure.
7 is a structural diagram of an embodiment of an apparatus for building an image recognition model according to the present disclosure.
8 is a structural diagram of an embodiment of an image recognition apparatus according to the present disclosure.
9 is a block diagram of an electronic device for implementing a method of constructing an image recognition model according to an embodiment of the present disclosure.

이하, 도면을 결부하여 본 개시의 시범적인 실시예들을 설명하고자 하며, 이해를 돕기 위해 본 개시의 실시예들의 다양한 세부 사항들이 포함되며, 이들은 단지 시범적인 것으로 간주되어야 한다. 그러므로, 당업자들은 본 개시의 범위 및 사상을 일탈하지 않고, 본 개시에 설명된 실시예들에 대하여 각종 변경 및 수정을 할 수 있음을 이해하여야 한다. 동일하게, 명확성 및 간략성을 위해 이하의 설명에서는 공지된 기능 및 구조의 설명에 대해 생략한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, exemplary embodiments of the present disclosure will be described in conjunction with the drawings, and various details of the exemplary embodiments of the present disclosure are included to aid understanding, and these should be regarded as exemplary only. Therefore, it should be understood by those skilled in the art that various changes and modifications may be made to the embodiments described in the present disclosure without departing from the scope and spirit of the present disclosure. Equally, descriptions of well-known functions and structures are omitted in the following description for clarity and brevity.

또한, 본 개시의 실시예 및 실시예 중의 특징들은 모순되지 않는 한 서로 조합될 수 있음을 설명하고자 한다. 이하, 첨부 도면을 참조하면서 실시예와 결합하여 본 개시를 상세히 설명한다.In addition, it is intended to explain that the embodiments of the present disclosure and features in the embodiments can be combined with each other as long as there is no contradiction. Hereinafter, the present disclosure will be described in detail in combination with embodiments with reference to the accompanying drawings.

도 1은 본 개시의 이미지 인식 모델의 구축 방법 혹은 이미지 인식 모델의 구축 장치를 응용할 수 있는 실시예의 예시적인 시스템 아키텍처(100)를 도시한다.1 shows an exemplary system architecture 100 of an embodiment to which the method for building an image recognition model or the apparatus for building an image recognition model of the present disclosure can be applied.

도 1에 나타낸 바와 같이, 시스템 아키텍처(100)는 단말 기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말 기기(101, 102, 103) 및 서버(105) 사이에서 통신 링크를 제공하는 매체로 사용된다. 네트워크(104)는 다양한 연결 유형, 예를 들어, 유선, 무선 통신 링크 또는 광섬유 케이블 등을 포함할 수 있다.As shown in FIG. 1 , the system architecture 100 may include terminal devices 101 , 102 , 103 , a network 104 , and a server 105 . The network 104 is used as a medium that provides a communication link between the terminal devices 101 , 102 , 103 and the server 105 . Network 104 may include a variety of connection types, such as wired, wireless communication links, or fiber optic cables.

사용자는 단말 기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션함으로써 메시지 등을 송수신할 수 있다. 단말 기기(101, 102, 103)에는 다양한 클라이언트 애플리케이션이 설치될 수 있다.The user may transmit and receive messages and the like by interacting with the server 105 through the network 104 using the terminal devices 101 , 102 , 103 . Various client applications may be installed in the terminal devices 101 , 102 , and 103 .

단말 기기(101, 102, 103)는 하드웨어일 수도 있고 소프트웨어일 수도 있다. 단말 기기(101, 102, 103)가 하드웨어인 경우, 다양한 전자 기기일 수 있는 바, 스마트폰, 태블릿 컴퓨터, 랩톱 컴퓨터 및 데스크톱 컴퓨터 등을 포함하나 이에 한정되지 않는다. 단말 기기(101, 102, 103)가 소프트웨어인 경우, 상기 전자 기기에 인스톨될 수 있다. 복수의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있고, 또한 단일 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있다. 여기서는 특별히 제한하지 않는다.The terminal devices 101 , 102 , 103 may be hardware or software. When the terminal devices 101 , 102 , and 103 are hardware, they may be various electronic devices, including, but not limited to, a smart phone, a tablet computer, a laptop computer, and a desktop computer. When the terminal devices 101 , 102 , 103 are software, they may be installed in the electronic device. It may be implemented in a plurality of software or software modules, and may also be implemented in a single software or software module. There is no particular limitation here.

서버(105)는 다양한 서비스를 제공할 수 있다. 예를 들어, 서버(105)는 단말 기기(101, 102, 103)로부터 획득한 입력 이미지 세트를 분석 및 처리하고, 처리 결과(예를 들어, 이미지 인식 모델)를 생성할 수 있다.The server 105 may provide various services. For example, the server 105 may analyze and process an input image set obtained from the terminal devices 101 , 102 , and 103 , and generate a processing result (eg, an image recognition model).

서버(105)는 하드웨어일 수도 있고 소프트웨어일 수도 있다. 서버(105)가 하드웨어인 경우, 복수의 서버로 구성되는 분산 서버 클러스터로 구현될 수도 있고, 단일 서버로 구현될 수도 있다. 서버(105)가 소프트웨어인 경우, 복수의 소프트웨어 또는 소프트웨어 모듈 (예를 들어, 분산 서비스를 제공하기 위한 것)로 구현될 수도 있고, 단일 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있다. 여기서는 특별히 제한하지 않는다.The server 105 may be hardware or software. When the server 105 is hardware, it may be implemented as a distributed server cluster consisting of a plurality of servers, or may be implemented as a single server. When the server 105 is software, it may be implemented as a plurality of software or software modules (eg, for providing distributed services), or may be implemented as a single software or software module. There is no particular limitation here.

본 개시의 실시예에서 제공하는 이미지 인식 모델의 구축 방법은 일반적으로 서버(105)에 의해 실행되며, 이에 따라 이미지 인식 모델의 구축 장치는 일반적으로 서버(105)에 설치된다.The method for building the image recognition model provided in the embodiment of the present disclosure is generally executed by the server 105 , and accordingly, the apparatus for building the image recognition model is generally installed in the server 105 .

도 1의 단말 기기, 네트워크 및 서버의 수량은 단지 예시적인 것임을 이해하여야 한다. 구현의 필요에 따라 임의의 수량의 단말 기기, 네트워크 및 서버를 구비할 수 있다.It should be understood that the number of terminal devices, networks, and servers in FIG. 1 is merely exemplary. Any number of terminal devices, networks and servers may be provided according to the needs of the implementation.

계속해서 도 2를 참조하면, 본 개시에 따른 이미지 인식 모델의 구축 방법의 하나의 실시예의 프로세스(200)를 나타낸다. 해당 이미지 인식 모델의 구축 방법은 다음의 단계를 포함한다.With continued reference to FIG. 2 , a process 200 of one embodiment of a method of building an image recognition model in accordance with the present disclosure is shown. The method of constructing the corresponding image recognition model includes the following steps.

단계(201)는 입력 이미지 세트를 획득한다.Step 201 obtains an input image set.

본 실시예에 있어서, 이미지 인식 모델의 구축 방법의 실행 주체(예를 들어, 도 1에 도시된 서버(105))는 적어도 하나의 입력 이미지를 포함할 수 있는 입력 이미지 세트를 획득할 수 있다.In the present embodiment, the executing entity (eg, the server 105 shown in FIG. 1 ) of the method for building an image recognition model may acquire an input image set that may include at least one input image.

입력 이미지 세트 내의 입력 이미지는 다양한 방식을 통해 미리 수집한 사람의 얼굴을 포함하는 복수의 이미지일 수 있다. 예를 들어, 입력 이미지 세트는 기존 이미지 라이브러리에서 획득한 복수의 이미지일 수 있으며, 또 다른 예로서, 입력 이미지 세트는 실제 응용 장면에 있어서의 이미지 센서(예를 들어, 카메라 센서)에 의해 실시간으로 수집한 복수의 이미지일 수도 있는 바, 본 개시는 여기에 대해서는 특별히 제한하지 않는다.The input image in the input image set may be a plurality of images including the face of a person collected in advance through various methods. For example, the input image set may be a plurality of images acquired from an existing image library, and as another example, the input image set is real-time by an image sensor (eg, a camera sensor) in an actual application scene. Since it may be a plurality of collected images, the present disclosure is not particularly limited thereto.

단계(202)는 입력 이미지 세트를 이용하여 초기 초해상도 모델 및 초기 인식 모델을 연계 훈련하여 훈련된 초해상도 모델 및 인식 모델을 얻는다.In step 202, the initial super-resolution model and the initial recognition model are jointly trained using the input image set to obtain a trained super-resolution model and a recognition model.

본 실시예에 있어서, 상기 실행 주체는 단계(201)에서 획득한 입력 이미지 세트를 이용하여 초기 초해상도 모델 및 초기 인식 모델을 연계 훈련하여 훈련된 초해상도 모델 및 인식 모델을 얻을 수 있다.In this embodiment, the executing entity may obtain a trained super-resolution model and a recognition model by jointly training the initial super-resolution model and the initial recognition model using the input image set obtained in step 201 .

여기서, 초기 초해상도 모델 및 초기 인식 모델은 미리 결정할 수 있는 바, 예를 들어, 초기 초해상도 모델은 SRCNN(Super-Resolution Convolutional Neural Networks), FSRCNN(Fast Super-Resolution Convolutional Neural Networks), SRGAN(Super-Resolution Generative Adversarial Network)등 모델일 수 있고, 초기 인식 모델은 기존의 ResNet(Residual Network, 잔차 네트워크) 시리즈와 같은 분류 인식 모델일 수도 있고, 실제 필요에 따라 설계된 모델일 수도 있다.Here, the initial super-resolution model and the initial recognition model can be determined in advance, for example, the initial super-resolution model is SRCNN (Super-Resolution Convolutional Neural Networks), FSRCNN (Fast Super-Resolution Convolutional Neural Networks), SRGAN (Super -Resolution Generative Adversarial Network), etc., and the initial recognition model may be a classification recognition model such as the existing ResNet (Residual Network) series, or a model designed according to actual needs.

상기 실행 주체는 단계(201)에서 획득한 입력 이미지 세트를 이용하여 초기 초해상도 모델 및 초기 인식 모델을 연계 훈련할 수 있으며, 입력 이미지 세트를 통해 초기 초해상도 모델 및 초기 인식 모델의 파라미터를 조정하고, 연계 훈련 정지 조건을 만족하는 경우, 훈련을 정지하여 훈련된 초해상도 모델 및 인식 모델을 얻는다. 그 중, 연계 훈련 정지 조건은 미리 설정된 훈련 횟수를 포함하거나, 손실 함수의 값이 더 이상 감소하지 않거나, 일정한 정확도 임계값을 설정하고 미리 설정된 임계값에 도달되면 훈련을 중지하는 등을 포함할 수 있다.The execution entity may link training the initial super-resolution model and the initial recognition model using the input image set obtained in step 201, and adjust the parameters of the initial super-resolution model and the initial recognition model through the input image set, , when the joint training stop condition is satisfied, training is stopped to obtain a trained super-resolution model and a recognition model. Among them, the chain training stop condition includes a preset number of training, the value of the loss function no longer decreases, or sets a certain accuracy threshold and stops training when the preset threshold is reached. have.

단계(203)는 훈련된 초해상도 모델 및 인식 모델을 종속적으로 조합하여 이미지 인식 모델을 얻는다.Step 203 obtains an image recognition model by dependently combining the trained super-resolution model and the recognition model.

본 실시예에 있어서, 상기 실행 주체는 단계(202)에서 얻은 훈련된 초해상도 모델 및 인식 모델을 종속적으로 조합하여 이미지 인식 모델을 얻을 수 있다. 해당 단계는 훈련된 초해상도 모델을 인식 모델 전에 설치함으로써 인식 모델에 보다 많은 정보를 증가할 수 있어 보다 나은 효과를 얻을 수 있다.In this embodiment, the executing entity may obtain an image recognition model by subordinately combining the trained super-resolution model and the recognition model obtained in step 202 . In this step, by installing the trained super-resolution model before the recognition model, more information can be added to the recognition model, and a better effect can be obtained.

본 개시의 실시예에 의해 제공되는 이미지 인식 모델의 구축 방법은, 우선 먼저 입력 이미지 세트를 획득하고, 그 다음, 입력 이미지 세트를 이용하여 초기 초해상도 모델 및 초기 인식 모델을 연계 훈련하여 훈련된 초해상도 모델 및 인식 모델을 얻고, 마지막으로 훈련된 초해상도 모델 및 인식 모델을 종속적으로 조합하여 이미지 인식 모델을 얻는다. 본 실시예의 이미지 인식 모델의 구축 방법은 초기 초해상도 모델 및 초기 인식 모델을 연계 훈련시킴으로써 분류 작업에 대한 부동한 해상도의 이미지의 영향을 완화하고, 저품질 데이터에 대한 이미지 인식 모델의 강건성이 향상되어 이미지 인식 모델의 인식의 정확도가 향상되었다.The method for building an image recognition model provided by an embodiment of the present disclosure is first to obtain an input image set, and then, using the input image set, the initial super-resolution model and the initial recognition model are jointly trained to train the second A resolution model and a recognition model are obtained, and finally an image recognition model is obtained by dependently combining the trained super-resolution model and the recognition model. The image recognition model construction method of this embodiment alleviates the influence of images of different resolutions on the classification task by linking training the initial super-resolution model and the initial recognition model, and the robustness of the image recognition model on low-quality data is improved. The recognition accuracy of the recognition model was improved.

본 개시의 기술수단에 있어서, 관련되는 사용자 개인 정보의 획득, 저장 및 응용 등은 관련 법률법규의 규정에 부합되며 공서양속에 위배되지 않는다.In the technical means of the present disclosure, the acquisition, storage, and application of relevant user personal information conforms to the provisions of relevant laws and regulations and does not violate public order and morals.

계속해서 도 3을 참조하면, 도 3은 본 개시에 따른 이미지 인식 모델의 구축 방법의 하나의 응용 장면을 도시한다. 도 3의 응용 장면에서, 우선 먼저 실행 주체(301)는 입력 이미지 세트(302)를 획득한다. 그 다음, 실행 주체(301)는 입력 이미지 세트(302)를 이용하여 초기 초해상도 모델 및 초기 인식 모델을 연계 훈련하여 훈련된 초해상도 모델(303) 및 인식 모델(304)을 얻는다. 마지막으로 실행 주체(301)는 훈련된 초해상도 모델(303) 및 인식 모델(304)을 종속적으로 조합하여 이미지 인식 모델(305)을 얻는다.Continuing to refer to FIG. 3 , FIG. 3 illustrates one application scene of the method for building an image recognition model according to the present disclosure. In the application scene of FIG. 3 , first, the execution entity 301 acquires an input image set 302 . Then, the execution entity 301 jointly trains the initial super-resolution model and the initial recognition model using the input image set 302 to obtain a trained super-resolution model 303 and a recognition model 304 . Finally, the execution entity 301 obtains the image recognition model 305 by subordinately combining the trained super-resolution model 303 and the recognition model 304 .

계속해서 도 4를 참조하면, 도 4는 본 개시에 따른 이미지 인식 모델의 구축 방법의 다른 하나의 실시예의 프로세스(400)를 도시한다. 해당 이미지 인식 모델의 구축 방법은 아래의 단계를 포함한다.With continued reference to FIG. 4 , FIG. 4 illustrates a process 400 of another embodiment of a method of building an image recognition model in accordance with the present disclosure. The method of constructing the corresponding image recognition model includes the following steps.

단계(401)는 입력 이미지 세트를 획득한다.Step 401 obtains an input image set.

단계(401)는 상기 실시예의 단계(201)와 기본적으로 일치하며, 구체적인 구현방식은 상기 단계(201)의 설명을 참조할 수 있으며, 여기서는 그 상세한 설명을 생략한다.Step 401 is basically the same as step 201 of the above embodiment, and for a specific implementation manner, reference may be made to the description of step 201, and a detailed description thereof will be omitted here.

단계(402)는 입력 이미지 세트 및 입력 이미지 세트에 대응하는 복원 이미지 세트를 이용하여 초기 초해상도 모델의 손실 함수를 계산하고, 경사하강법을 사용하여 초기 초해상도 모델의 파라미터를 업데이트하여 훈련된 초해상도 모델을 얻는다.Step 402 calculates the loss function of the initial super-resolution model using the input image set and the reconstructed image set corresponding to the input image set, and updates the parameters of the initial super-resolution model using gradient descent to Get the resolution model.

본 실시예에 있어서, 이미지 인식 모델의 구축 방법의 실행 주체(예를 들어, 도 1에 도시된 서버(105))는 입력 이미지 세트를 획득한 후, 해당 입력 이미지 세트 내의 매개 이미지에 대응하는 복원 이미지를 결정함으로써, 입력 이미지 세트에 대응하는 복원 이미지 세트를 얻을 수 있다.In the present embodiment, the executing entity (eg, the server 105 shown in FIG. 1 ) of the method for building an image recognition model acquires an input image set, and then restores the image corresponding to each image in the input image set. By determining the image, it is possible to obtain a set of reconstructed images corresponding to the set of input images.

그 다음 상기 실행 주체는 입력 이미지 세트 내의 입력 이미지와 복원 이미지 세트 내의 대응하는 복원 이미지를 사용하여 초기 초해상도 모델의 손실 함수를 계산하고, 경사하강법을 사용하여 한단계씩 반복적으로 해결하여 최소화된 손실 함수 및 모델 파라미터 값을 얻을 수 있다.Then, the execution entity calculates the loss function of the initial super-resolution model using the input image in the input image set and the corresponding reconstructed image in the reconstructed image set, and iteratively solves it step by step using gradient descent to minimize the loss You can get function and model parameter values.

마지막으로 획득한 모델 파라미터 값으로 초기 초해상도 모델의 파라미터를 업데이트하여 훈련된 초해상도 모델을 얻음으로써 결과의 품질을 향상시킨다.Finally, by updating the parameters of the initial super-resolution model with the model parameter values obtained, the quality of the results is improved by obtaining a trained super-resolution model.

단계(403)는 입력 이미지 세트와 복원 이미지 세트 내의 이미지의 특징 간의 거리를 기반으로 초기 인식 모델의 손실 함수를 계산하고, 경사하강법을 사용하여 초기 인식 모델의 파라미터를 업데이트하여 훈련된 인식 모델을 얻는다.Step 403 calculates a loss function of the initial recognition model based on the distances between the image features in the input image set and the reconstructed image set, and updates the parameters of the initial recognition model using gradient descent to obtain the trained recognition model. get

본 실시예에 있어서, 상기 실행 주체는 입력 이미지 세트 및 복원 이미지 세트 내의 이미지의 특징 간의 거리에 기초하여 초기 인식 모델의 손실 함수를 계산할 수 있다. 예를 들어, 입력 이미지 세트 및 복원 이미지 세트 내의 이미지를 병합하여 최종의 이미지 세트를 얻은 다음, 획득한 이미지 세트 내의 이미지 특징 간의 거리를 계산하고 이러한 거리를 기반으로 초기 인식 모델의 손실 함수를 계산할 수 있다.In this embodiment, the execution entity may calculate the loss function of the initial recognition model based on the distance between the image features in the input image set and the reconstructed image set. For example, we can merge the images in the input image set and the reconstructed image set to obtain the final image set, then calculate the distances between image features in the acquired image set and compute the loss function of the initial recognition model based on these distances. have.

그 후, 경사하강법을 사용하여 한단계씩 반복적으로 해결하여 최소화된 손실 함수 및 모델 파라미터 값을 얻은 다음, 획득한 모델 파라미터 값으로 초기 인식 모델의 파라미터를 업데이트하여 훈련된 인식 모델을 획득함으로써 인식 모델의 분류 정확도를 향상시킨다.Then, using gradient descent, iteratively solves one step at a time to obtain a minimized loss function and model parameter values, and then updates the parameters of the initial recognition model with the obtained model parameter values to obtain a trained recognition model. to improve the classification accuracy of

본 실시예의 일부 선택적인 구현방식에 있어서, 상기 경사하강법은 확률적 경사하강법이다. 확률적 경사하강법을 사용함으로써 최소화된 손실 함수 및 모델 파라미터 값을 보다 신속하게 얻을 수 있어 모델 훈련의 효율성을 높일 수 있다.In some optional implementation manners of this embodiment, the gradient descent method is a stochastic gradient descent method. By using the stochastic gradient descent method, the minimized loss function and model parameter values can be obtained more quickly, increasing the efficiency of model training.

단계(404)는 훈련된 초해상도 모델의 손실 함수 이전 부분의 출력단을 인식 모델의 입력단에 연결하여 이미지 인식 모델을 얻는다.Step 404 connects the output end of the part before the loss function of the trained super-resolution model to the input end of the recognition model to obtain an image recognition model.

본 실시예에 있어서, 상기 실행 주체는 훈련된 초해상도 모델의 손실 함수 이전 부분의 출력단을 인식 모델의 입력단에 연결하여 이미지 인식 모델을 획득할 수 있다. 훈련된 초해상도 모델을 인식 모델 전에 설치함으로써 인식 모델에 보다 많은 정보를 증가할 수 있어 보다 나은 효과를 얻을 수 있다.In this embodiment, the execution subject may acquire an image recognition model by connecting the output end of the part before the loss function of the trained super-resolution model to the input end of the recognition model. By installing the trained super-resolution model before the recognition model, more information can be added to the recognition model, resulting in better effects.

도 4에서 알 수 있는 바, 도 2의 대응 실시예에 비하여, 본 실시예의 이미지 인식 모델의 구축 방법은 입력 이미지 세트를 이용하여 초기 초해상도 모델 및 초기 인식 모델을 훈련하는 단계를 강조하는 바, 모델 훈련의 효율성이 향상되고 훈련된 초해상도 모델 및 인식 모델의 정확도가 향상되어 보다 넓은 적용 범위를 갖는다.As can be seen from Fig. 4, compared to the corresponding embodiment of Fig. 2, the method of building the image recognition model of this embodiment emphasizes the step of training the initial super-resolution model and the initial recognition model using the input image set, The efficiency of model training is improved and the accuracy of the trained super-resolution model and recognition model is improved, so that it has a wider application range.

계속해서 도 5를 참조하면, 도 5는 본 개시에 따른 이미지 인식 모델의 구축 방법의 또 하나의 실시예의 프로세스(500)를 도시한다. 해당 이미지 인식 모델의 구축 방법은 아래의 단계를 포함한다.With continued reference to FIG. 5 , FIG. 5 illustrates a process 500 of another embodiment of a method of building an image recognition model in accordance with the present disclosure. The method of constructing the corresponding image recognition model includes the following steps.

단계(501)는 입력 이미지 세트를 획득한다.Step 501 obtains an input image set.

단계(501)는 상기 실시예의 단계(401)와 기본적으로 일치하며, 구체적인 구현방식은 상기 단계(401)의 설명을 참조할 수 있음으로 여기서는 그 상세한 설명을 생략한다.Step 501 is basically the same as step 401 of the above embodiment, and the detailed implementation method may refer to the description of step 401, so a detailed description thereof will be omitted here.

단계(502)는 입력 이미지 세트 내의 이미지를 다운샘플링하여 다운샘플링 이미지 세트를 얻는다.Step 502 downsamples the images in the input image set to obtain a downsampling image set.

본 실시예에 있어서, 이미지 인식 모델의 구축 방법의 실행 주체(예를 들어, 도 1에 도시된 서버(105))는 대응하는 다운샘플링 이미지를 획득하기 위해 입력 이미지 세트 내의 매개 이미지를 다운샘플링함으로써, 입력 이미지 세트 내의 매개 입력 이미지에 대응하는 다운샘플링 이미지를 포함하는 다운샘플링 이미지 세트를 획득할 수 있다. 해당 단계를 통해 얻은 다운샘플링 이미지는 실제 응용 장면에 보다 더 부합되는 저화질 이미지이다.In this embodiment, the executing entity of the method for building an image recognition model (eg, the server 105 shown in FIG. 1 ) performs downsampling of each image in the input image set to obtain a corresponding downsampling image by , may acquire a downsampling image set including a downsampling image corresponding to each input image in the input image set. The downsampling image obtained through this step is a low-quality image that more closely matches the actual application scene.

단계(503)는 초기 초해상도 모델을 이용하여 다운샘플링 이미지 세트 내의 이미지를 복원하여 복원 이미지 세트를 얻는다.Step 503 reconstructs images in the downsampling image set using the initial super-resolution model to obtain a reconstructed image set.

본 실시예에 있어서, 상기 실행 주체는 대응하는 복원 이미지를 얻기 위해 초기 초해상도 모델을 이용하여 다운샘플링 이미지 세트 내의 매개 다운샘플링 이미지를 복원하고, 해당 복원 이미지는 단계(502)에서 획득한 저화질 이미지를 복원하여 획득한 고화질 이미지이며, 따라서, 다운샘플링 이미지 세트 내의 매개 다운샘플링 이미지에 대응하는 복원 이미지를 포함하는 복원 이미지 세트를 획득한다.In this embodiment, the executing entity reconstructs each downsampling image in the downsampling image set by using the initial super-resolution model to obtain a corresponding reconstructed image, and the reconstructed image is the low-quality image obtained in step 502 . is a high-quality image obtained by restoring

단계(504)는 입력 이미지 세트 및 복원 이미지 세트를 기반으로 초기 초해상도 모델의 재구축 손실을 계산하고, 경사하강법을 사용하여 초기 초해상도 모델의 파라미터를 업데이트하여 훈련된 초해상도 모델을 획득한다.Step 504 calculates the reconstruction loss of the initial super-resolution model based on the input image set and the reconstructed image set, and updates the parameters of the initial super-resolution model using gradient descent to obtain a trained super-resolution model. .

본 실시예에 있어서, 상기 실행 주체는 입력 이미지 세트 내의 입력 이미지 및 복원 이미지 세트 내의 해당 입력 이미지에 대응하는 복원 이미지를 이용하여 재구축 손실을 계산하고, 경사하강법을 사용하여 한단계씩 반복적으로 해결하여 최소화된 손실 함수 및 모델 파라미터 값을 얻을 수 있다. 그 다음 획득한 모델 파라미터 값으로 초기 초해상도 모델의 파라미터를 업데이트하여 훈련된 초해상도 모델을 얻는다.In this embodiment, the execution entity calculates the reconstruction loss using the input image in the input image set and the restored image corresponding to the input image in the restored image set, and iteratively solves it step by step using gradient descent. Thus, the minimized loss function and model parameter values can be obtained. Then, the parameters of the initial super-resolution model are updated with the obtained model parameter values to obtain a trained super-resolution model.

상기 단계를 통해 초해상도 모델의 결과 품질이 향상된다.Through the above steps, the result quality of the super-resolution model is improved.

단계(505)는 입력 이미지 세트, 다운샘플링 이미지 세트 및 복원 이미지 세트를 병합하여 타겟 이미지 세트를 얻는다.Step 505 merges the input image set, the downsampling image set, and the reconstructed image set to obtain a target image set.

본 실시예에 있어서, 상기 실행 주체는 입력 이미지 세트, 다운샘플링 이미지 세트 및 복원 이미지 세트를 병합하여 타겟 이미지 세트를 획득할 수 있다.In this embodiment, the execution entity may acquire the target image set by merging the input image set, the downsampling image set, and the reconstructed image set.

단계(506)는 타겟 이미지 세트 내의 이미지의 특징을 추출하고, 타겟 이미지 세트 내의 이미지의 특징 간의 거리를 계산한다.Step 506 extracts features of images in the target image set and calculates distances between features of images in the target image set.

본 실시예에 있어서, 상기 실행 주체는 타겟 이미지 세트 내의 매개 이미지의 특징을 추출하고, 추출된 특징에 기초하여 타겟 이미지 세트 내의 이미지들 간의 거리를 계산할 수 있다.In this embodiment, the execution entity may extract a feature of each image in the target image set, and calculate a distance between images in the target image set based on the extracted feature.

선택적으로, 입력 이미지 세트를 획득하기 전에 입력 이미지 세트 내의 입력 이미지에 주석을 달고 매개 타겟 오브젝트에 ID(Identity Document, 신분 식별 번호)를 부여한다. 해당 타겟 오브젝트가 입력 이미지 내의 얼굴이 대표하는 오브젝트인 경우, 입력 이미지 세트 내의 매개 타겟 오브젝트에 대응하는 입력 이미지는 동일한 ID를 가질 것이며, 다운샘플링 이미지 및 복원 이미지의 ID는 입력 이미지의 ID에 대응한다.Optionally, before acquiring the input image set, the input image in the input image set is annotated and each target object is given an identity document (ID). If the corresponding target object is an object represented by a face in the input image, the input image corresponding to each target object in the input image set will have the same ID, and the ID of the downsampling image and the restored image corresponds to the ID of the input image .

이 기초상에서 본 단계에서는 ID를 기반으로 이미지 간의 거리를 계산하고, 추출된 이미지 특징을 기반으로 동일한 ID를 가진 모든 이미지 간의 거리를 계산한 다음, 부동한 ID를 가진 이미지 간의 거리를 계산할 수 있다.On this basis, in this step, the distance between images can be calculated based on ID, the distance between all images with the same ID can be calculated based on the extracted image features, and then the distance between images with different IDs can be calculated.

단계(507)는 거리를 기반으로 초기 인식 모델의 이진 그룹 손실 함수를 계산하고, 경사하강법을 사용하여 초기 인식 모델의 파라미터를 업데이트하여 훈련된 인식 모델을 얻는다.Step 507 computes the binary group loss function of the initial recognition model based on the distance, and updates the parameters of the initial recognition model using gradient descent to obtain a trained recognition model.

본 실시예에 있어서, 상기 실행 주체는 단계(506)에서 계산하여 얻은 거리를 기반으로 초기 인식 모델의 이진 그룹 손실 함수를 계산할 수 있다.In this embodiment, the execution entity may calculate the binary group loss function of the initial recognition model based on the distance calculated in step 506 .

선택적으로, 두장의 이미지가 동일한 ID를 가질 때, 이 때의 손실 함수는 두장의 이미지 간의 거리의 제곱이다. 두장의 이미지의 ID가 부동할 때, 두장의 이미지 간의 margin을 계산한 다음 max값을 계산함으로써 이 때의 손실 값을 얻는다. 즉, ID가 동일한 이미지들 간의 거리는 더 가깝고, ID가 부동한 모든 이미지 간의 거리는 더 멀기 때문에 클래스 간의 차이는 증가하고 클래스 내의 차이는 감소한다.Optionally, when two images have the same ID, the loss function at this time is the square of the distance between the two images. When the IDs of two images are different, the loss value at this time is obtained by calculating the margin between the two images and then calculating the max value. That is, since the distance between images with the same ID is closer and the distance between all images with different IDs is longer, the difference between classes increases and the difference within a class decreases.

그 다음, 경사하강법을 사용하여 한단계씩 반복적으로 해결하여 최소화된 손실 함수 및 모델 파라미터 값을 얻은 다음, 획득한 모델 파라미터 값을 사용하여 초기 인식 모델의 파라미터를 업데이트하여 훈련된 인식 모델을 얻는다.Then, using the gradient descent method, iteratively solves one step at a time to obtain the minimized loss function and model parameter values, and then uses the obtained model parameter values to update the parameters of the initial recognition model to obtain a trained recognition model.

상기 단계를 통해 인식 모델의 분류 정확도가 향상된다.The classification accuracy of the recognition model is improved through the above steps.

단계(508)는 훈련된 초해상도 모델 중 손실 함수 이전 부분의 출력단을 인식 모델의 입력단에 연결하여 이미지 인식 모델 얻는다.In step 508, an image recognition model is obtained by connecting the output terminal of the part before the loss function among the trained super-resolution models to the input terminal of the recognition model.

단계(508)는 상기 실시예의 단계(404)와 기본적으로 일치하며, 구체적인 구현방식은 상기 단계(404)의 설명을 참조할 수 있음으로, 여기서는 그 상세한 설명을 생략한다.Step 508 is basically the same as step 404 of the above embodiment, and detailed implementation manner may refer to the description of step 404, and detailed description thereof will be omitted herein.

도 5로부터 알 수 있는 바, 도 4에 대응하는 실시예에 비해, 본 실시예의 이미지 인식 모델의 구축 방법은, 입력 이미지 세트 및 복원 이미지 세트를 기반으로 초기 초해상도 모델의 재구축 손실 및 초기 인식 모델의 이진 그룹 손실 함수를 계산하고, 경사하강법을 사용하여 초기 초해상도 모델 및 초기 인식 모델의 파라미터를 업데이트하여 훈련된 초해상도 모델 및 인식 모델을 얻음으로써 초해상도 모델의 결과 품질 및 인식 모델의 분류 정확도를 개선하였다.As can be seen from FIG. 5 , compared to the embodiment corresponding to FIG. 4 , the method of building the image recognition model of this embodiment is based on the input image set and the reconstructed image set, the reconstruction loss of the initial super-resolution model and the initial recognition By calculating the binary group loss function of the model, and using gradient descent to update the parameters of the initial super-resolution model and the initial recognition model to obtain a trained super-resolution model and recognition model, Classification accuracy was improved.

계속해서 도 6을 참조하면, 도 6은 본 개시에 따른 이미지 인식 방법의 하나의 실시예의 프로세스(600)을 도시한다. 해당 이미지 인식 방법은 아래의 단계를 포함한다.With continued reference to FIG. 6 , FIG. 6 illustrates a process 600 of one embodiment of an image recognition method in accordance with the present disclosure. The image recognition method includes the following steps.

단계(601)는 인식하고자 하는 이미지를 획득한다.In step 601, an image to be recognized is acquired.

본 실시예에 있어서, 이미지 인식 방법의 실행 주체(예를 들어, 도 1에 도시된 서버(105))는 인식하고자 하는 이미지를 획득할 수 있으며, 여기서 인식하고자 하는 이미지는 얼굴 인식의 실제 응용 장면에서 카메라 센서에 의해 수집된 사람 얼굴을 포함하는 이미지일 수 있다.In this embodiment, the executing entity of the image recognition method (eg, the server 105 shown in FIG. 1 ) may acquire an image to be recognized, where the image to be recognized is an actual application scene of face recognition It may be an image including a human face collected by a camera sensor.

단계(602)는 인식하고자 하는 이미지를 이미지 인식 모델에 입력하고 인식하고자 하는 이미지에 대응하는 인식 결과를 출력한다.In step 602, an image to be recognized is input to the image recognition model, and a recognition result corresponding to the image to be recognized is output.

본 실시예에 있어서, 상기 실행 주체는 인식하고자 하는 이미지를 이미지 인식 모델에 입력하고, 인식하고자 하는 이미지에 대응하는 인식 결과를 출력할 수 있으며, 여기서, 이미지 인식 모델은 전술한 실시예의 이미지 인식 모델의 구축 방법에 의해 얻은 것일 수 있다.In this embodiment, the execution subject may input an image to be recognized into an image recognition model and output a recognition result corresponding to the image to be recognized, wherein the image recognition model is the image recognition model of the above-described embodiment. It may be obtained by the construction method of

상기 실행 주체가 인식하고자 하는 이미지를 이미지 인식 모델에 입력한 후, 이미지 인식 모델은 먼저 인식하고자 하는 이미지를 복원하여 대응하는 복원 이미지를 얻은 다음, 인식하고자 하는 이미지 및 복원 이미지의 특징을 추출하고 해당 특징에 따라 분류하여 대응하는 인식 결과를 얻고 해당 인식 결과를 출력한다.After the execution subject inputs the image to be recognized into the image recognition model, the image recognition model first restores the image to be recognized to obtain a corresponding restored image, then extracts the image to be recognized and features of the restored image, and By classifying according to a characteristic, a corresponding recognition result is obtained and the corresponding recognition result is output.

본 개시의 실시예에 의해 제공되는 이미지 인식 방법으로서, 우선 먼저 인식하고자 하는 이미지를 획득하고, 이미지 인식 모델에 인식하고자 하는 이미지를 입력하고, 인식하고자 하는 이미지에 대응하는 인식 결과를 출력한다. 본 실시예의 이미지 인식 방법은 사전에 훈련된 이미지 인식 모델을 사용하여 인식하고자 하는 이미지를 인식함으로 인식 결과의 정확도를 향상시킬 수 있다.As an image recognition method provided by an embodiment of the present disclosure, first, an image to be recognized is acquired, an image to be recognized is input to an image recognition model, and a recognition result corresponding to the image to be recognized is output. The image recognition method of the present embodiment may improve the accuracy of the recognition result by recognizing an image to be recognized using a previously trained image recognition model.

계속해서 도 7을 참조하면, 상기 각 도면에 도시된 방법의 구현으로서, 본 개시는 이미지 인식 모델의 구축 장치의 일 실시예를 제공하며, 해당 장치의 실시예는 도 2에 나타낸 방법의 실시예에 대응하며, 해당 장치는 각종 전자 기기에 적용될 수 있다.Continuing to refer to FIG. 7 , as an implementation of the method shown in each figure, the present disclosure provides an embodiment of an apparatus for building an image recognition model, the embodiment of the apparatus is an embodiment of the method shown in FIG. 2 , and the device may be applied to various electronic devices.

도 7에 도시한 바와 같이, 본 실시예의 이미지 인식 모델 구축 장치(700)는 제1 획득 모듈(701), 훈련 모듈(702) 및 조합 모듈(703)을 구비한다. 제1 획득 모듈(701)은, 입력 이미지 세트를 획득하도록 구성되며, 훈련 모듈(702)은 입력 이미지 세트를 이용하여 초기 초해상도 모델 및 초기 인식 모델을 연계 훈련하여 훈련된 초해상도 모델 및 인식 모델을 얻도록 구성되며, 조합 모듈(703)은 훈련된 초해상도 모델 및 인식 모델을 종속적으로 조합하여 이미지 인식 모델을 얻도록 구성된다.As shown in FIG. 7 , the image recognition model building apparatus 700 of this embodiment includes a first acquisition module 701 , a training module 702 , and a combination module 703 . The first acquiring module 701 is configured to acquire an input image set, and the training module 702 is a super-resolution model and a recognition model trained by jointly training the initial super-resolution model and the initial recognition model using the input image set. , and the combining module 703 is configured to subordinately combine the trained super-resolution model and the recognition model to obtain an image recognition model.

본 실시예에 있어서, 이미지 인식 모델의 구축 장치(700) 중, 제1 획득 모듈(701), 훈련 모듈(702) 및 조합 모듈(703)의 구체적인 처리 및 이로 인한 기술적 효과에 대해서는 각각 도2의 대응 실시예의 단계(201) 내지 단계(203)의 관련 설명을 참조하도록 하고 여기서는 반복하여 설명하지 않는다.In the present embodiment, in the apparatus 700 for constructing an image recognition model, the specific processing of the first acquisition module 701, the training module 702, and the combination module 703 and the technical effects thereof are described in FIG. 2, respectively. Reference is made to the relevant descriptions of steps 201 to 203 of the corresponding embodiment, which are not repeated herein.

본 실시예의 일부 선택적인 구현방식에 있어서, 훈련 모듈은, 입력 이미지 세트와 입력 이미지 세트에 대응하는 복원 이미지 세트를 이용하여 초기 초해상도 모델의 손실 함수를 계산하고, 경사하강법을 사용하여 초기 초해상도 모델의 파라미터를 업데이트하도록 구성되는 제1 업데이트 서브 모듈과, 입력 이미지 세트와 복원 이미지 세트 내의 이미지의 특징 간의 거리를 기반으로 초기 인식 모델의 손실 함수를 계산하고, 경사하강법을 사용하여 초기 인식 모델의 파라미터를 업데이트하도록 구성되는 제2 업데이트 서브 모듈을 구비한다.In some optional implementations of this embodiment, the training module calculates the loss function of the initial super-resolution model using the input image set and the reconstructed image set corresponding to the input image set, and uses gradient descent to a first update submodule, configured to update a parameter of the resolution model, and calculate a loss function of the initial recognition model based on the distance between the features of the image in the input image set and the reconstructed image set, and use gradient descent to calculate the initial recognition and a second update sub-module, configured to update a parameter of the model.

본 실시예의 일부 선택적인 구현방식에 있어서, 제1 업데이트 서브 모듈은, 입력 이미지 세트 내의 이미지를 다운샘플링하여 다운샘플링 이미지 세트를 얻도록 구성되는 다운샘플링 유닛과, 초기 초해상도 모델을 이용하여 다운샘플링 이미지 세트 내의 이미지를 복원하여 복원 이미지 세트를 얻도록 구성되는 복원 유닛과, 입력 이미지 세트와 복원 이미지 세트를 기반으로 초기 초해상도 모델의 재구축 손실을 계산하도록 구성되는 제1 계산 유닛을 구비한다.In some optional implementation manners of this embodiment, the first update submodule includes a downsampling unit, configured to downsample an image in the input image set to obtain a downsampling image set, and downsampling using the initial super-resolution model a reconstruction unit, configured to reconstruct images in the image set to obtain a reconstructed image set; and a first calculation unit, configured to calculate a reconstruction loss of the initial super-resolution model based on the input image set and the reconstructed image set.

본 실시예의 일부 선택적인 구현방식에 있어서, 제2 업데이트 서브 모듈은, 입력 이미지 세트, 다운샘플링 이미지 세트 및 복원 이미지 세트를 병합하여 타겟 이미지 세트를 얻도록 구성되는 병합 유닛과, 타겟 이미지 세트 내의 이미지의 특징을 추출하도록 구성되는 추출 유닛과, 타겟 이미지 세트 내의 이미지의 특징 간의 거리를 계산하도록 구성되는 제2 계산 유닛과, 거리를 기반으로 초기 인식 모델의 이진 그룹 손실 함수를 계산하도록 구성되는 제3 계산 유닛을 구비한다.In some optional implementation manners of this embodiment, the second update submodule includes: a merging unit, configured to merge the input image set, the downsampling image set, and the reconstructed image set to obtain the target image set; an extraction unit configured to extract features of , a second calculation unit configured to calculate a distance between features of an image in the target image set, and a third calculation unit configured to calculate a binary group loss function of the initial recognition model based on the distance A calculation unit is provided.

본 실시예의 일부 선택적인 구현방식에 있어서, 조합 모듈은, 훈련된 초해상도 모델에 있어서 손실 함수 이전 부분의 출력단을 인식 모델의 입력단에 연결하도록 구성되는 연결 서브 모듈을 구비한다.In some optional implementation manners of this embodiment, the combining module includes a connecting sub-module, configured to connect an output end of the part before the loss function in the trained super-resolution model to an input end of the recognition model.

계속해서 도 8을 참조하면, 상기 각 도면에 도시된 방법의 구현으로서, 본 개시는 이미지 인식 장치의 일 실시예를 제공하며, 해당 장치의 실시예는 도 6에 나타낸 방법의 실시예에 대응하며, 해당 장치는 각종 전자 기기에 적용될 수 있다.Continuing to refer to FIG. 8 , as an implementation of the method shown in each figure, the present disclosure provides an embodiment of an image recognition apparatus, the embodiment of the apparatus corresponding to the embodiment of the method illustrated in FIG. 6 , , the device can be applied to various electronic devices.

도 8에 도시한 바와 같이, 본 실시예의 이미지 인식 장치(800)는 제2 획득 모듈(801) 및 출력 모듈(802)을 구비한다. 제2 획득 모듈(801)은 인식하고자 하는 이미지를 획득하도록 구성되며, 출력 모듈(802)은 인식하고자 하는 이미지를 이미지 인식 모델에 입력하고 인식하고자 하는 이미지에 대응하는 인식 결과를 출력한다.As shown in FIG. 8 , the image recognition apparatus 800 of this embodiment includes a second acquisition module 801 and an output module 802 . The second acquisition module 801 is configured to acquire an image to be recognized, and the output module 802 inputs an image to be recognized into the image recognition model and outputs a recognition result corresponding to the image to be recognized.

본 실시예에 있어서, 이미지 인식 장치(800) 중, 제2 획득 모듈(801) 및 출력 모듈(802)의 구체적인 처리 및 이로 인한 기술적 효과에 대해서는 각각 도 6의 대응 실시예의 단계(601) 내지 단계(602)의 관련 설명을 참조하도록 하고 여기서는 반복하여 설명하지 않는다.In the present embodiment, in the image recognition apparatus 800, the specific processing of the second acquisition module 801 and the output module 802 and the technical effects resulting therefrom, respectively, are from steps 601 to steps 601 to the corresponding embodiment of FIG. 6, respectively. Reference is made to the related description of (602), which is not repeated here.

본 개시의 실시예에 따르면, 본 개시는 또한 전자 기기, 판독 가능 저장 매체, 및 컴퓨터 프로그램 제품을 제공한다.According to an embodiment of the present disclosure, the present disclosure also provides an electronic device, a readable storage medium, and a computer program product.

도 9는 본 개시의 실시예를 구현하기 위한 예시적인 전자 기기(900)의 개략적인 블록도를 도시한다. 전자 기기는 다양한 형식의 디지털 컴퓨터, 예컨대, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크벤치, 개인용 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터를 가리킨다. 전자 기기는 또한 다양한 형식의 이동 장치, 예컨대, 개인용 디지털 보조기, 셀룰러 폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치를 가리킬 수 있다. 명세서에서 제시하는 부품, 이들의 연결과 관계 및 이들의 기능은 단지 예시일 뿐, 본 명세서에서 서술한 및/또는 요구하는 본 개시의 구현을 한정하고자 하는 것이 아니다.9 shows a schematic block diagram of an exemplary electronic device 900 for implementing an embodiment of the present disclosure. Electronic device refers to various types of digital computers, such as laptop computers, desktop computers, workbenches, personal digital assistants, servers, blade servers, large computers, and other suitable computers. Electronic device may also refer to various types of mobile devices, such as personal digital assistants, cellular phones, smart phones, wearable devices, and other similar computing devices. The components, their connections and relationships, and their functions presented in the specification are illustrative only and are not intended to limit the implementation of the present disclosure described and/or required herein.

도 9에 도시한 바와 같이, 기기(900)는 계산 유닛(901)을 포함하는 바, 이는 읽기 전용 메모리(ROM)(902)에 저장된 컴퓨터 프로그램 또는 저장 유닛(908)에서 랜덤 액세스 메모리(RAM)(903)로 로딩된 컴퓨터 프로그램에 따라 각종 적당한 동작 및 처리를 수행할 수 있다. RAM(903)에서, 기기(900) 조작에 필요한 여러가지 프로그램과 데이터를 저장할 수도 있다. 계산 유닛(901), ROM(902) 및 RAM(903)은 버스(904)에 의해 서로 연결된다. 입력/출력(I/O) 인터페이스(905)도 버스(904)에 연결된다.As shown in FIG. 9 , the device 900 includes a computation unit 901 , which is a computer program stored in a read-only memory (ROM) 902 or a random access memory (RAM) in a storage unit 908 . Various appropriate operations and processing can be performed according to the computer program loaded into 903 . In the RAM 903, various programs and data necessary for operating the device 900 may be stored. The calculation unit 901 , the ROM 902 , and the RAM 903 are connected to each other by a bus 904 . An input/output (I/O) interface 905 is also coupled to the bus 904 .

기기(900) 중의 복수의 부재는 I/O 인터페이스(905)에 연결되는 바, 예를 들어, 키보드, 마우스 등 입력 유닛(906), 예를 들어, 각종 유형의 표시장치, 스피커 등 출력 유닛(907), 예를 들어, 자기 디스크, 광디스크 등 저장 유닛(908), 및 예를 들어, 네트워크 인터페이스 카드, 모뎀, 무선 통신 송수신기 등 통신 유닛(909)을 포함한다. 통신 유닛(909)은 기기(900)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 전기통신 네트워크를 통해 기타 기기와 정보/데이터를 교환하도록 허락한다.A plurality of members of the device 900 are connected to the I/O interface 905 , for example, an input unit 906 such as a keyboard, mouse, etc., an output unit such as various types of displays, speakers, etc. 907), for example, a storage unit 908, such as a magnetic disk, an optical disk, and a communication unit 909, such as, for example, a network interface card, a modem, a wireless communication transceiver, or the like. The communication unit 909 allows the device 900 to exchange information/data with other devices via a computer network such as the Internet and/or various telecommunication networks.

계산 유닛(901)은 처리 및 계산 능력을 가지는 다양한 범용의 및/또는 전용의 처리 어셈블리일 수 있다. 계산 유닛(901)의 일부 예시는 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 다양한 전용의 인공지능(AI) 컴퓨팅 칩, 머신 러닝 모델 알고리즘을 운행하는 다양한 계산 유닛, 디지털 신호 프로세서(DSP) 및 모든 적당한 프로세서, 제어기, 마이크로 제어기 등을 포함하나 이에 한정되지 않는다. 계산 유닛(901)은 예를 들어, 이미지 인식 모델의 구축 방법 혹은 이미지 인식 방법과 같은 위에서 설명한 각각의 방법 및 처리를 수행한다. 예를 들어, 일부 실시예에 있어서, 이미지 인식 모델의 구축 방법 혹은 이미지 인식 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 이는 기계 판독 가능 매체, 예를 들어, 저장 유닛(908)에 유형으로 포함된다. 일부 실시예에 있어서, 컴퓨터 프로그램의 일부 또는 전부가 ROM(902) 및/또는 통신 유닛(909)에 의해 기기(900)에 로딩되거나 설치될 수 있다. 컴퓨터 프로그램이 RAM(903)에 로딩되어 계산 유닛(901)에 의해 실행되는 경우, 상술한 이미지 인식 모델의 구축 방법 혹은 이미지 인식 방법의 하나 또는 복수의 단계를 수행할 수 있다. 대안으로, 다른 실시예에 있어서, 계산 유닛(901)은 기타 임의의 적당한 방식 (예를 들어, 펌웨어에 의해)을 통해 이미지 인식 모델의 구축 방법 혹은 이미지 인식 방법을 수행하도록 구성될 수 있다.The computational unit 901 may be a variety of general-purpose and/or dedicated processing assemblies having processing and computational capabilities. Some examples of the computation unit 901 include a central processing unit (CPU), a graphics processing unit (GPU), various dedicated artificial intelligence (AI) computing chips, various computation units running machine learning model algorithms, and a digital signal processor (DSP). ) and all suitable processors, controllers, microcontrollers, and the like. The calculation unit 901 performs each of the methods and processing described above, such as, for example, a method of constructing an image recognition model or an image recognition method. For example, in some embodiments, a method of constructing an image recognition model or an image recognition method may be implemented as a computer software program, which is tangibly included in a machine-readable medium, such as a storage unit 908 . . In some embodiments, some or all of the computer program may be loaded or installed in the device 900 by the ROM 902 and/or the communication unit 909 . When the computer program is loaded into the RAM 903 and executed by the calculation unit 901, one or a plurality of steps of the above-described image recognition model building method or image recognition method can be performed. Alternatively, in another embodiment, the computation unit 901 may be configured to perform the image recognition method or the building method of the image recognition model via any other suitable manner (eg, by firmware).

본 명세서의 상술한 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적회로 시스템, 필드 프로그래머블 게이트 어레이(FPGA), 주문형 집적회로(ASIC), 주문형 표준제품(ASSP), 시스템온칩(SOC), 복합 프로그래머블 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 다음을 포함할 수 있다. 즉 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램가능 프로세서를 포함하는 프로그램가능 시스템에서 실행되거나 및/또는 해석될 수 있고, 해당 프로그램가능 프로세서는 전용의 또는 범용의 프로그램가능 프로세서이고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있고 데이터와 명령을 해당 저장 시스템, 해당 적어도 하나의 입력 장치 및 해당 적어도 하나의 출력 장치에 전송할 수 있다.Various embodiments of the above-described systems and techniques herein include digital electronic circuit systems, integrated circuit systems, field programmable gate arrays (FPGAs), application specific integrated circuits (ASICs), standard product specific (ASSP), system-on-a-chip (SOC), It may be implemented in a complex programmable logic element (CPLD), computer hardware, firmware, software, and/or a combination thereof. These various embodiments may include: That is, implemented in one or more computer programs, the one or more computer programs may be executed and/or interpreted in a programmable system comprising at least one programmable processor, the programmable processor being dedicated or A general purpose programmable processor capable of receiving data and instructions from a storage system, at least one input device, and at least one output device, and capable of sending data and instructions to a storage system, at least one input device, and at least one output device. can be sent to the device.

본 개시의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합을 적용하여 작성할 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그램가능 데이터 처리 장치의 프로세서 또는 제어기에 제공되어, 프로그램 코드가 프로세서 또는 제어기에 의해 실행되는 경우, 흐름도 및/또는 블록도에서 규정하는 기능/조작이 수행되도록 한다. 프로그램 코드는 완전히 기계에서 실행될 수도 있고 부분적으로 기계에서 실행될 수도 있고, 독립적인 소프트웨어 패키지로서 부분적으로는 기계에서 실행되고 부분적으로는 원격 기계에서 실행되거나 또는 완전히 원격 기계 또는 서버에서 실행될 수 있다.Program code for implementing the method of the present disclosure may be written by applying any combination of one or a plurality of programming languages. Such program code is provided to a processor or controller of a general-purpose computer, dedicated computer, or other programmable data processing device, and when the program code is executed by the processor or controller, the functions/operations specified in the flowcharts and/or block diagrams are performed. make it possible The program code may run entirely on the machine or partly on the machine, as a standalone software package, partly on the machine and partly on the remote machine, or completely on the remote machine or server.

본 개시의 설명서에 있어서, 기계 판독 가능 매체는 유형의 매체일 수 있는 바, 이는 명령 실행 시스템, 장치 또는 기기에 의해 사용되거나 또는 명령 실행 시스템, 장치 또는 기기와 결합되어 사용되는 프로그램을 포함하거나 또는 저장할 수 있다. 기계 판독가능 매체는 기계 판독가능 신호 매체 또는 기계 판독가능 저장 매체일 수 있다. 기계 판독가능 매체는 전자의, 자기의, 광학의, 전자기의, 적외선의 또는 반도체의 시스템, 장치 또는 기기이거나, 또는 상술한 내용의 임의의 적합한 조합을 포함하나 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 보다 구체적인 예시로 하나 또는 복수의 선에 기반하는 전기 연결, 휴대형 컴퓨터 디스크, 하드디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능한 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대형 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기, 또는 상술한 내용의 임의의 적합한 조합을 포함할 수 있다.In the description of the present disclosure, a machine-readable medium may be a tangible medium, which includes a program used by or in combination with an instruction execution system, device or device, or can be saved The machine-readable medium may be a machine-readable signal medium or a machine-readable storage medium. A machine-readable medium includes, but is not limited to, an electronic, magnetic, optical, electromagnetic, infrared or semiconductor system, apparatus or apparatus, or any suitable combination of the foregoing. More specific examples of machine-readable storage media include one or more wire-based electrical connections, portable computer disks, hard disks, random access memory (RAM), read-only memory (ROM), erasable and programmable read-only memory ( EPROM or flash memory), optical fiber, portable compact disk read-only memory (CD-ROM), optical storage, magnetic storage, or any suitable combination of the foregoing.

사용자와의 인터랙션을 제공하기 위하여, 여기서 서술하는 시스템과 기술을 컴퓨터에서 실시할 수 있는 바, 해당 컴퓨터는 사용자한테 정보를 표시하는 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정표시장치) 모니터)와, 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)을 가지며, 사용자는 해당 키보드 및 해당 포인팅 장치에 의해 컴퓨터에 입력을 제공할 수 있다. 기타 종류의 장치는 또한 사용자와의 인터랙션을 제공하는 데 사용될 수 있는 바, 예를 들어, 사용자한테 제공하는 피드백은 임의의 형식의 센서 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고, 임의의 형식(사운드 입력, 음성 입력 또는 촉각 입력)으로 사용자의 입력을 수신할 수 있다.In order to provide interaction with the user, the system and technology described herein can be implemented in a computer, and the computer is a display device that displays information to the user (for example, a CRT (cathode ray tube) or LCD (liquid crystal display) device) a monitor), a keyboard and a pointing device (eg, a mouse or a trackball), and a user can provide input to the computer by means of the corresponding keyboard and the corresponding pointing device. Other types of devices may also be used to provide interaction with a user, for example, the feedback provided to the user may include any form of sensory feedback (eg, visual feedback, auditory feedback or tactile feedback). ), and may receive a user's input in any format (sound input, voice input, or tactile input).

여기서 서술하는 시스템 및 기술을 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버로서), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 가지는 사용자 컴퓨터인 바, 사용자는 해당 그래픽 사용자 인터페이스 또는 해당 네트워크 브라우저를 통해 여기서 서술하는 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백그라운드 부재, 미들웨어 부재 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형식 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)으로 시스템의 부재를 상호 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 원거리 통신망(WAN) 및 인터넷을 포함한다.The systems and techniques described herein can be applied to a computing system including a background member (eg, as a data server), or a computing system including a middleware member (eg, as an application server), or computing including a front end member. a system (eg, a user computer having a graphical user interface or network browser through which a user may interact with embodiments of the systems and technologies described herein), or such a background It may be implemented in a computing system including any combination of members, middleware members, or front end members. Digital data communication in any form or medium (eg, a communication network) may interconnect the members of the system. Examples of communication networks include local area networks (LANs), wide area networks (WANs), and the Internet.

컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터에서 클라이언트 - 서버 관계를 가지는 컴퓨터 프로그램을 운행함으로써 클라이언트와 서버의 관계를 발생시킨다. 서버는 클라우드 서버, 분산 시스템의 서버, 또는 블록체인과 결합된 서버일 수 있다.A computer system may include a client and a server. A client and server are typically remote from each other and typically interact through a communication network. A client-server relationship is created by running a computer program with a client-server relationship on the corresponding computer. The server may be a cloud server, a server in a distributed system, or a server combined with a blockchain.

상술한 다양한 형식의 프로세스를 사용하여 단계에 대해 재배열하거나, 증가 또는 삭제할 수 있음을 이해하여야 한다. 예를 들어, 본 개시에서 개시한 기술방안의 기대 결과를 구현할 수만 있다면, 본 개시에 기재된 각 단계는 병렬로 수행될 수도 있고 순차로 수행될 수도 있고 서로 다른 순서로 수행될 수도 있는 바, 본 명세서에서는 이에 대해 한정하지 않는다.It should be understood that the various types of processes described above may be used to rearrange, increment, or delete steps. For example, as long as the expected results of the technical solutions disclosed in the present disclosure can be implemented, each step described in the present disclosure may be performed in parallel, sequentially, or in a different order. does not limit this.

상술한 구체적인 실시형태는 본 개시의 보호 범위를 한정하지 않는다. 당업자라면, 설계 요구 및 다른 요소에 따른 다양한 수정, 조합, 서브조합 및 치환이 가능함을 알아야 할 것이다. 본 개시의 사상 및 원칙 내에서 행한 임의의 수정, 균등 치환 및 개량 등은 모두 본 개시의 보호 범위에 포함되어야 한다.The specific embodiments described above do not limit the protection scope of the present disclosure. Those skilled in the art will recognize that various modifications, combinations, subcombinations and substitutions are possible in accordance with design requirements and other factors. Any modifications, equivalent substitutions and improvements made within the spirit and principle of the present disclosure should all fall within the protection scope of the present disclosure.

Claims (16)

입력 이미지 세트를 획득하는 단계와,
상기 입력 이미지 세트를 이용하여 초기 초해상도 모델 및 초기 인식 모델을 연계 훈련하여 훈련된 초해상도 모델 및 인식 모델을 얻는 단계와,
상기 훈련된 초해상도 모델 및 인식 모델을 종속적으로 조합하여 이미지 인식 모델을 얻는 단계를 포함하는 이미지 인식 모델의 구축 방법.
acquiring an input image set;
obtaining a trained super-resolution model and a recognition model by jointly training an initial super-resolution model and an initial recognition model using the input image set;
Method of constructing an image recognition model comprising the step of obtaining an image recognition model by dependently combining the trained super-resolution model and the recognition model.
제1 항에 있어서,
상기 입력 이미지 세트를 이용하여 초기 초해상도 모델 및 초기 인식 모델을 연계 훈련하는 단계는,
상기 입력 이미지 세트와 상기 입력 이미지 세트에 대응하는 복원 이미지 세트를 이용하여 초기 초해상도 모델의 손실 함수를 계산하고, 경사하강법을 사용하여 상기 초기 초해상도 모델의 파라미터를 업데이트하는 단계와,
상기 입력 이미지 세트와 상기 복원 이미지 세트 내의 이미지의 특징 간의 거리를 기반으로 초기 인식 모델의 손실 함수를 계산하고, 경사하강법을 사용하여 상기 초기 인식 모델의 파라미터를 업데이트하는 단계를 포함하는 방법.
The method of claim 1,
The step of jointly training the initial super-resolution model and the initial recognition model using the input image set includes:
calculating a loss function of the initial super-resolution model using the input image set and the reconstructed image set corresponding to the input image set, and updating parameters of the initial super-resolution model using gradient descent;
calculating a loss function of an initial recognition model based on distances between the input image set and image features in the reconstructed image set, and updating parameters of the initial recognition model using gradient descent.
제2 항에 있어서,
상기 입력 이미지 세트와 상기 입력 이미지 세트에 대응하는 복원 이미지 세트를 이용하여 초기 초해상도 모델의 손실 함수를 계산하는 단계는,
상기 입력 이미지 세트 내의 이미지를 다운샘플링하여 다운샘플링 이미지 세트를 얻는 단계와,
상기 초기 초해상도 모델을 이용하여 상기 다운샘플링 이미지 세트 내의 이미지를 복원하여 복원 이미지 세트를 얻는 단계와,
상기 입력 이미지 세트와 상기 복원 이미지 세트를 기반으로 상기 초기 초해상도 모델의 재구축 손실을 계산하는 단계를 포함하는 방법.
3. The method of claim 2,
Calculating the loss function of the initial super-resolution model by using the input image set and the reconstructed image set corresponding to the input image set,
downsampling images in the input image set to obtain a downsampling image set;
obtaining a restored image set by reconstructing an image in the downsampling image set using the initial super-resolution model;
and calculating a reconstruction loss of the initial super-resolution model based on the set of input images and the set of reconstructed images.
제3 항에 있어서,
상기 입력 이미지 세트와 상기 복원 이미지 세트 내의 이미지의 특징 간의 거리를 기반으로 초기 인식 모델의 손실 함수를 계산하는 단계는,
상기 입력 이미지 세트, 상기 다운샘플링 이미지 세트 및 상기 복원 이미지 세트를 병합하여 타겟 이미지 세트를 얻는 단계와,
상기 타겟 이미지 세트 내의 이미지의 특징을 추출하는 단계와,
상기 타겟 이미지 세트 내의 이미지의 특징 간의 거리를 계산하는 단계와,
상기 거리를 기반으로 상기 초기 인식 모델의 이진 그룹 손실 함수를 계산하는 단계를 포함하는 방법.
4. The method of claim 3,
Calculating the loss function of the initial recognition model based on the distance between the input image set and the image feature in the reconstructed image set,
merging the input image set, the downsampling image set and the reconstructed image set to obtain a target image set;
extracting features of images in the target image set;
calculating distances between features of images in the set of target images;
calculating a binary group loss function of the initial recognition model based on the distance.
제2 항에 있어서,
상기 경사하강법은 확률적 경사하강법인 방법.
3. The method of claim 2,
The gradient descent method is a stochastic gradient descent method.
제1 항에 있어서,
상기 훈련된 초해상도 모델 및 인식 모델을 종속적으로 조합하는 단계는,
상기 훈련된 초해상도 모델의 손실 함수 이전 부분의 출력단을 인식 모델의 입력단에 연결하는 단계를 포함하는 방법.
The method of claim 1,
The step of subordinately combining the trained super-resolution model and the recognition model,
and connecting the output end of the part before the loss function of the trained super-resolution model to the input end of the recognition model.
인식하고자 하는 이미지를 얻는 단계와,
제1 항 내지 제6 항 중 어느 한 항에 따른 이미지 인식 모델의 구축 방법에 의해 획득하는 이미지 인식 모델에 상기 인식하고자 하는 이미지를 입력하고, 상기 인식하고자 하는 이미지에 대응하는 인식 결과를 출력하는 단계를 포함하는 이미지 인식 방법.
obtaining the image to be recognized; and
The step of inputting the image to be recognized into an image recognition model obtained by the method of constructing an image recognition model according to any one of claims 1 to 6, and outputting a recognition result corresponding to the image to be recognized An image recognition method comprising a.
입력 이미지 세트를 획득하도록 구성되는 제1 획득 모듈과,
상기 입력 이미지 세트를 이용하여 초기 초해상도 모델 및 초기 인식 모델을 연계 훈련하여 훈련된 초해상도 모델 및 인식 모델을 얻도록 구성되는 훈련 모듈과,
상기 훈련된 초해상도 모델 및 인식 모델을 종속적으로 조합하여 이미지 인식 모델을 얻도록 구성되는 조합 모듈을 구비하는, 이미지 인식 모델의 구축 장치.
a first acquiring module configured to acquire an input image set;
a training module configured to jointly train an initial super-resolution model and an initial recognition model using the input image set to obtain a trained super-resolution model and a recognition model;
and a combination module configured to obtain an image recognition model by dependently combining the trained super-resolution model and the recognition model.
제8 항에 있어서.
상기 훈련 모듈은,
상기 입력 이미지 세트와 상기 입력 이미지 세트에 대응하는 복원 이미지 세트를 이용하여 초기 초해상도 모델의 손실 함수를 계산하고, 경사하강법을 사용하여 상기 초기 초해상도 모델의 파라미터를 업데이트하도록 구성되는 제1 업데이트 서브 모듈과,
상기 입력 이미지 세트와 상기 복원 이미지 세트 내의 이미지의 특징 간의 거리를 기반으로 초기 인식 모델의 손실 함수를 계산하고, 경사하강법을 사용하여 상기 초기 인식 모델의 파라미터를 업데이트하도록 구성되는 제2 업데이트 서브 모듈을 구비하는, 장치.
9. The method of claim 8.
The training module is
a first update, configured to calculate a loss function of an initial super-resolution model by using the input image set and a reconstructed image set corresponding to the input image set, and update parameters of the initial super-resolution model by using gradient descent sub-modules,
a second update submodule, configured to calculate a loss function of an initial recognition model based on a distance between the input image set and a feature of an image in the reconstructed image set, and update the parameters of the initial recognition model by using gradient descent A device comprising:
제9 항에 있어서.
상기 제1 업데이트 서브 모듈은,
상기 입력 이미지 세트 내의 이미지를 다운샘플링하여 다운샘플링 이미지 세트를 얻도록 구성되는 다운샘플링 유닛과,
상기 초기 초해상도 모델을 이용하여 상기 다운샘플링 이미지 세트 내의 이미지를 복원하여 복원 이미지 세트를 얻도록 구성되는 복원 유닛과,
상기 입력 이미지 세트와 상기 복원 이미지 세트를 기반으로 상기 초기 초해상도 모델의 재구축 손실을 계산하도록 구성되는 제1 계산 유닛을 구비하는, 장치.
10. The method of claim 9.
The first update sub-module,
a downsampling unit, configured to downsample images in the input image set to obtain a downsampling image set;
a reconstructing unit, configured to reconstruct an image in the downsampling image set by using the initial super-resolution model to obtain a reconstructed image set;
a first calculation unit, configured to calculate a reconstruction loss of the initial super-resolution model based on the input image set and the reconstructed image set.
제10 항에 있어서.
상기 제2 업데이트 서브 모듈은,
상기 입력 이미지 세트, 상기 다운샘플링 이미지 세트 및 상기 복원 이미지 세트를 병합하여 타겟 이미지 세트를 얻도록 구성되는 병합 유닛과,
상기 타겟 이미지 세트 내의 이미지의 특징을 추출하도록 구성되는 추출 유닛과,
상기 타겟 이미지 세트 내의 이미지의 특징 간의 거리를 계산하도록 구성되는 제2 계산 유닛과,
상기 거리를 기반으로 상기 초기 인식 모델의 이진 그룹 손실 함수를 계산하도록 구성되는 제3 계산 유닛을 구비하는, 장치.
11. The method of claim 10.
The second update sub-module,
a merging unit, configured to merge the input image set, the downsampling image set, and the reconstructed image set to obtain a target image set;
an extraction unit configured to extract features of images in the target image set;
a second calculation unit, configured to calculate a distance between features of an image in the target image set;
and a third calculation unit, configured to calculate a binary group loss function of the initial recognition model based on the distance.
제8 항에 있어서.
상기 조합 모듈은,
상기 훈련된 초해상도 모델의 손실 함수 이전 부분의 출력단을 인식 모델의 입력단에 연결하도록 구성되는 연결 서브 모듈을 구비하는, 장치.
9. The method of claim 8.
The combination module is
and a connection submodule, configured to connect an output end of the part before the loss function of the trained super-resolution model to an input end of the recognition model.
인식하고자 하는 이미지를 획득하도록 구성되는 제2 획득 모듈과,
제1 항 내지 제6 항 중 어느 한 항에 따른 이미지 인식 모델의 구축 방법에 의해 획득하는 이미지 인식 모델에 상기 인식하고자 하는 이미지를 입력하고, 상기 인식하고자 하는 이미지에 대응하는 인식 결과를 출력하도록 구성되는 출력 모듈을 구비하는, 이미지 인식 장치.
a second acquisition module configured to acquire an image to be recognized;
A configuration to input the image to be recognized into an image recognition model obtained by the method of constructing an image recognition model according to any one of claims 1 to 6, and output a recognition result corresponding to the image to be recognized An image recognition device comprising an output module being
적어도 하나의 프로세서와,
상기 적어도 하나의 프로세서와 통신 연결하는 메모리를 구비하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제7항 중 어느 한 항의 방법을 수행하도록 하는, 전자 기기.
at least one processor;
and a memory in communication connection with the at least one processor;
An instruction executable by the at least one processor is stored in the memory, and when the instruction is executed by the at least one processor, the at least one processor performs the method of any one of claims 1 to 7 An electronic device to perform.
제1 항 내지 제7 항 중 어느 한 항의 방법을 컴퓨터에 실행시키기 위한 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체.A non-transitory computer-readable storage medium having stored thereon computer instructions for executing the method of any one of claims 1 to 7 in a computer. 프로세서에 의해 실행될 경우, 제1 항 내지 제7 항 중 어느 한 항의 방법을 구현하는 컴퓨터 프로그램.A computer program that, when executed by a processor, implements the method of any one of claims 1-7.
KR1020220088321A 2021-07-28 2022-07-18 Method and apparatus for establishing image recognition model, device, and storage medium KR20220109364A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110856547.1 2021-07-28
CN202110856547.1A CN113591675A (en) 2021-07-28 2021-07-28 Method, device and equipment for constructing image recognition model and storage medium

Publications (1)

Publication Number Publication Date
KR20220109364A true KR20220109364A (en) 2022-08-04

Family

ID=78250931

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220088321A KR20220109364A (en) 2021-07-28 2022-07-18 Method and apparatus for establishing image recognition model, device, and storage medium

Country Status (4)

Country Link
US (1) US20220343636A1 (en)
JP (1) JP2022122989A (en)
KR (1) KR20220109364A (en)
CN (1) CN113591675A (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116416656A (en) * 2021-12-29 2023-07-11 荣耀终端有限公司 Image processing method, device and storage medium based on under-screen image
CN114330576A (en) * 2021-12-30 2022-04-12 北京百度网讯科技有限公司 Model processing method and device, and image recognition method and device
CN114943995A (en) * 2022-05-12 2022-08-26 北京百度网讯科技有限公司 Training method of face recognition model, face recognition method and device
CN115619638A (en) * 2022-09-27 2023-01-17 深圳先进技术研究院 Dangerous behavior identification method and system based on super-resolution reconstruction and related equipment

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6809891B2 (en) * 2016-12-15 2021-01-06 株式会社Fuji Image processing system and image processing method
JP7146372B2 (en) * 2017-06-21 2022-10-04 キヤノン株式会社 Image processing device, imaging device, image processing method, program, and storage medium
CN107704857B (en) * 2017-09-25 2020-07-24 北京邮电大学 End-to-end lightweight license plate recognition method and device
KR102184755B1 (en) * 2018-05-31 2020-11-30 서울대학교 산학협력단 Apparatus and Method for Training Super Resolution Deep Neural Network
JP7507600B2 (en) * 2019-05-15 2024-06-28 ベイシス株式会社 Meter meter/installed equipment information management system, meter meter/installed equipment information management method, and meter meter/installed equipment information management program
CN111368790A (en) * 2020-03-18 2020-07-03 北京三快在线科技有限公司 Construction method, identification method and construction device of fine-grained face identification model
CN112052789B (en) * 2020-09-03 2024-05-14 腾讯科技(深圳)有限公司 Face recognition method and device, electronic equipment and storage medium
CN112149756A (en) * 2020-10-14 2020-12-29 深圳前海微众银行股份有限公司 Model training method, image recognition method, device, equipment and storage medium
CN112507617B (en) * 2020-12-03 2021-08-24 青岛海纳云科技控股有限公司 Training method of SRFlow super-resolution model and face recognition method
CN112699690B (en) * 2020-12-29 2024-02-13 科大讯飞股份有限公司 Translation model training method, translation method, electronic device and storage medium

Also Published As

Publication number Publication date
US20220343636A1 (en) 2022-10-27
CN113591675A (en) 2021-11-02
JP2022122989A (en) 2022-08-23

Similar Documents

Publication Publication Date Title
KR20220109364A (en) Method and apparatus for establishing image recognition model, device, and storage medium
WO2020199693A1 (en) Large-pose face recognition method and apparatus, and device
CN113420719B (en) Method and device for generating motion capture data, electronic equipment and storage medium
WO2021258588A1 (en) Face image recognition method, apparatus and device and storage medium
CN113222916A (en) Method, apparatus, device and medium for detecting image using target detection model
US20220222925A1 (en) Artificial intelligence-based image processing method and apparatus, device, and storage medium
CN113570610B (en) Method and device for performing target segmentation on video by adopting semantic segmentation model
US20230030431A1 (en) Method and apparatus for extracting feature, device, and storage medium
CN108229375B (en) Method and device for detecting face image
CN113792526B (en) Training method of character generation model, character generation method, device, equipment and medium
CN111680544B (en) Face recognition method, device, system, equipment and medium
CN113033566A (en) Model training method, recognition method, device, storage medium, and program product
CN113221771A (en) Living body face recognition method, living body face recognition device, living body face recognition equipment, storage medium and program product
US20230036338A1 (en) Method and apparatus for generating image restoration model, medium and program product
CN113591566A (en) Training method and device of image recognition model, electronic equipment and storage medium
CN113627361B (en) Training method and device for face recognition model and computer program product
WO2023050868A1 (en) Method and apparatus for training fusion model, image fusion method and apparatus, and device and medium
WO2022247343A1 (en) Recognition model training method and apparatus, recognition method and apparatus, device, and storage medium
CN113052962A (en) Model training method, information output method, device, equipment and storage medium
CN114693934A (en) Training method of semantic segmentation model, video semantic segmentation method and device
CN113365146A (en) Method, apparatus, device, medium and product for processing video
US20230115765A1 (en) Method and apparatus of transferring image, and method and apparatus of training image transfer model
CN114943995A (en) Training method of face recognition model, face recognition method and device
CN114093006A (en) Training method, device and equipment of living human face detection model and storage medium
CN114187318A (en) Image segmentation method and device, electronic equipment and storage medium