WO2023043001A1 - Attention map transferring method and device for enhancement of face recognition performance of low-resolution image - Google Patents

Attention map transferring method and device for enhancement of face recognition performance of low-resolution image Download PDF

Info

Publication number
WO2023043001A1
WO2023043001A1 PCT/KR2022/008543 KR2022008543W WO2023043001A1 WO 2023043001 A1 WO2023043001 A1 WO 2023043001A1 KR 2022008543 W KR2022008543 W KR 2022008543W WO 2023043001 A1 WO2023043001 A1 WO 2023043001A1
Authority
WO
WIPO (PCT)
Prior art keywords
face recognition
resolution
attention map
recognition network
low
Prior art date
Application number
PCT/KR2022/008543
Other languages
French (fr)
Korean (ko)
Inventor
신성호
이규빈
이주순
이준석
전창현
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220072493A external-priority patent/KR20230039509A/en
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Publication of WO2023043001A1 publication Critical patent/WO2023043001A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Definitions

  • the present invention relates to a method and apparatus for transmitting an attention map for improving face recognition performance of a low-resolution image, and more particularly, to a method and apparatus for transmitting an attention map using knowledge distillation.
  • a trained machine learning model may receive images containing people's faces, and detect and identify people's faces within the received images.
  • high-resolution images in which people's faces are clearly displayed are required for such face recognition.
  • the accuracy of face recognition is significantly reduced.
  • the step of learning the low-resolution face recognition network so that the second attention map is similar to the first attention map may include using the sum of the face recognition loss and the distillation loss in the low-resolution face recognition network. and training the face recognition network.
  • a high-resolution face recognition network includes a plurality of sequentially connected blocks.
  • the step of learning the high-resolution face recognition network includes extracting a first initial attention map from a first block included in a plurality of blocks, extracting a second initial attention map from a second block connected to the first block, and knowledge and training the high-resolution face recognition network to make the second initial attention map similar to the first initial attention map using distillation.
  • a computer program stored in a computer readable recording medium is provided to execute the above-described method according to an embodiment of the present invention on a computer.
  • the computing device can effectively improve the performance of a low-resolution face recognition network without additional parameters during training and without slowdown during inference.
  • the low-resolution face recognition network due to the low computing power included in the driving robot, etc., even when only a low-resolution image is received, the low-resolution face recognition network generates a precise attention map and, accordingly, more accurately recognizes the face included in the low-resolution image. can do.
  • FIG. 1 is a diagram illustrating an example of transferring an attention map between networks according to an embodiment of the present invention.
  • FIG. 2 is a functional block diagram showing the internal configuration of a computing device according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating an example of a high-resolution face recognition network and a low-resolution face recognition network according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating an example of learning a low-resolution face recognition network according to an embodiment of the present invention.
  • FIG. 7 is a block diagram showing an internal configuration of a computing device according to an embodiment of the present invention.
  • a first initial attention map is extracted from a first block (B1) (410_1) (eg, an attention module corresponding to the first block) included in the plurality of blocks 410_1, 410_2, 410_3, and 410_4. and a second initial attention map may be extracted from the second block (B2) 410_2 connected to the first block 410_1.
  • the second initial attention map may be learned to be similar to the first initial attention map by using knowledge distillation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

The present invention relates to an attention map transferring method for enhancement of face recognition performance of a low-resolution image. The attention map transferring method comprises the steps of: learning a high-resolution face recognition network for recognizing a face of a random person on the basis of multiple high-resolution images including the face of the random person; extracting a first attention map associated with the multiple high-resolution images from the learned high-resolution face recognition network; transferring the extracted first attention map to a low-resolution face recognition network for recognizing a face of a random person on the basis of multiple low-resolution images including the face of the random person; and learning the low-resolution face recognition network by using the transferred first attention map.

Description

저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치Method and Apparatus for Passing Attention Map for Improving Face Recognition Performance of Low Resolution Image
본 발명은 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치에 관한 것으로, 구체적으로, 지식 증류(knowledge distillation)를 이용하여 어텐션 맵을 전달하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for transmitting an attention map for improving face recognition performance of a low-resolution image, and more particularly, to a method and apparatus for transmitting an attention map using knowledge distillation.
컴퓨터 비전(computer vision) 분야에서 이미지 상에 포함된 사람들의 식별하기 위한 얼굴 인식(face recognition)은 중요한 과제이다. 예를 들어, 학습된 기계학습 모델은 사람들의 얼굴을 포함하는 이미지를 수신하고, 수신된 이미지 내의 사람들의 얼굴을 검출하고 식별할 수 있다. 일반적으로, 이와 같은 얼굴 인식을 위해서는 사람들의 얼굴이 선명하게 표시되는 고해상도 이미지가 요구된다. 이와 달리, 저해상도 이미지를 이용하는 경우, 얼굴 인식의 정확도가 현저히 감소된다.In the field of computer vision, face recognition for identifying people included in an image is an important task. For example, a trained machine learning model may receive images containing people's faces, and detect and identify people's faces within the received images. In general, high-resolution images in which people's faces are clearly displayed are required for such face recognition. In contrast, when a low-resolution image is used, the accuracy of face recognition is significantly reduced.
한편, 저해상도 이미지를 이용한 얼굴 인식의 정확도 향상을 위한 연구가 지속되어 왔다. 예를 들어, SR(super resolution)과 같이 저해상도 이미지를 고해상도 이미지로 변환하는 네트워크를 사용한 후, 변환된 고해상도 이미지를 이용하여 얼굴 인식을 수행하는 방법이 있다. 그러나, 이와 같은 방법의 경우, 해상도 변환을 위해 더 큰 용량의 네트워크가 추가로 요구되는 문제가 있다.Meanwhile, research to improve the accuracy of face recognition using low-resolution images has been continued. For example, there is a method of using a network that converts a low-resolution image into a high-resolution image, such as SR (super resolution), and then performing face recognition using the converted high-resolution image. However, in the case of this method, there is a problem in that a network with a larger capacity is additionally required for resolution conversion.
본 발명은 상기와 같은 문제점을 해결하기 위한 어텐션 맵 전달 방법, 기록매체에 저장된 컴퓨터 프로그램 및 장치(시스템)를 제공한다.The present invention provides an attention map transfer method, a computer program stored in a recording medium, and an apparatus (system) to solve the above problems.
본 발명은 방법, 장치(시스템) 또는 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 포함한 다양한 방식으로 구현될 수 있다.The present invention may be implemented in a variety of ways, including a method, apparatus (system) or computer program stored on a readable storage medium.
본 발명의 일 실시예에 따르면, 적어도 하나의 프로세서에 의해 수행되는 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법은, 사람의 얼굴을 포함하는 고해상도 이미지를 기초로 사람의 얼굴을 인식하기 위한 고해상도 얼굴 인식 네트워크를 학습하는 단계, 학습된 고해상도 얼굴 인식 네트워크로부터 고해상도 이미지와 연관된 제1 어텐션 맵을 추출하는 단계, 추출된 제1 어텐션 맵을, 사람의 얼굴을 포함하는 저해상도 이미지를 기초로 사람의 얼굴을 인식하기 위한 저해상도 얼굴 인식 네트워크 상에 전달하는 단계 및 전달된 제1 어텐션 맵을 이용하여 저해상도 얼굴 인식 네트워크를 학습하는 단계를 포함한다.According to an embodiment of the present invention, an attention map transfer method for improving face recognition performance of a low-resolution image, performed by at least one processor, includes a method for recognizing a human face based on a high-resolution image including a human face. Learning a high-resolution face recognition network; extracting a first attention map associated with a high-resolution image from the trained high-resolution face recognition network; Transferring the face to a low-resolution face recognition network for recognizing a face and learning the low-resolution face recognition network using the transferred first attention map.
본 발명의 일 실시예에 따르면, 저해상도 얼굴 인식 네트워크를 학습하는 단계는, 저해상도 얼굴 인식 네트워크로부터 제2 어텐션 맵을 추출하는 단계 및 지식 증류를 이용하여 제2 어텐션 맵이 제1 어텐션 맵과 유사해지도록 저해상도 얼굴 인식 네트워크를 학습하는 단계를 포함한다.According to an embodiment of the present invention, the step of learning the low-resolution face recognition network includes extracting a second attention map from the low-resolution face recognition network and determining that the second attention map is similar to the first attention map by using knowledge distillation. and training a low-resolution face recognition network to be
본 발명의 일 실시예에 따르면, 제2 어텐션 맵이 제1 어텐션 맵과 유사해지도록 저해상도 얼굴 인식 네트워크를 학습하는 단계는, 얼굴 인식 손실과 저해상도 얼굴 인식 네트워크에서의 증류 손실의 합을 이용하여 저해상도 얼굴 인식 네트워크를 학습하는 단계를 포함한다. According to an embodiment of the present invention, the step of learning the low-resolution face recognition network so that the second attention map is similar to the first attention map may include using the sum of the face recognition loss and the distillation loss in the low-resolution face recognition network. and training the face recognition network.
본 발명의 일 실시예에 따르면, 고해상도 얼굴 인식 네트워크는 순차적으로 연결된 복수의 블록을 포함한다. 고해상도 얼굴 인식 네트워크를 학습하는 단계는, 복수의 블록에 포함된 제1 블록으로부터 제1 초기 어텐션 맵을 추출하는 단계, 제1 블록과 연결된 제2 블록으로부터 제2 초기 어텐션 맵을 추출하는 단계 및 지식 증류를 이용하여 제2 초기 어텐션 맵이 제1 초기 어텐션 맵과 유사해지도록 고해상도 얼굴 인식 네트워크를 학습하는 단계를 포함한다.According to an embodiment of the present invention, a high-resolution face recognition network includes a plurality of sequentially connected blocks. The step of learning the high-resolution face recognition network includes extracting a first initial attention map from a first block included in a plurality of blocks, extracting a second initial attention map from a second block connected to the first block, and knowledge and training the high-resolution face recognition network to make the second initial attention map similar to the first initial attention map using distillation.
본 발명의 일 실시예에 따르면, 제2 초기 어텐션 맵이 제1 초기 어텐션 맵과 유사해지도록 고해상도 얼굴 인식 네트워크를 학습하는 단계는,
Figure PCTKR2022008543-appb-img-000001
에 의해 고해상도 얼굴 인식 네트워크를 학습하는 단계를 포함한다. 여기서,
Figure PCTKR2022008543-appb-img-000002
는 아크페이스 손실과 고해상도 얼굴 인식 네트워크에서의 증류 손실의 합이고,
Figure PCTKR2022008543-appb-img-000003
는 고해상도 얼굴 인식 네트워크의 i번째 블록의 공간 어텐션 값을 나타내고,
Figure PCTKR2022008543-appb-img-000004
는 증류 손실을 위한 거리 함수를 나타내고,
Figure PCTKR2022008543-appb-img-000005
는 맥스 풀링 레이어를 나타낸다.
According to an embodiment of the present invention, the step of learning the high-resolution face recognition network so that the second initial attention map becomes similar to the first initial attention map,
Figure PCTKR2022008543-appb-img-000001
and training a high-resolution face recognition network by here,
Figure PCTKR2022008543-appb-img-000002
is the sum of the arc phase loss and the distillation loss in the high-resolution face recognition network,
Figure PCTKR2022008543-appb-img-000003
represents the spatial attention value of the ith block of the high-resolution face recognition network,
Figure PCTKR2022008543-appb-img-000004
denotes the distance function for the distillation loss,
Figure PCTKR2022008543-appb-img-000005
denotes a max pooling layer.
본 발명의 일 실시예에 따르면, 사람의 얼굴을 포함하는 고해상도 이미지를 획득하는 단계, 획득된 고해상도 이미지에 대한 다운 샘플링을 수행하는 단계, 다운 샘플링된 이미지에 대한 블러 처리를 수행하는 단계 및 블러 처리된 이미지의 크기를 고해상도 이미지에 대응하는 크기로 변경하여 저해상도 이미지를 생성하는 단계를 더 포함한다.According to an embodiment of the present invention, obtaining a high-resolution image including a human face, performing down-sampling on the obtained high-resolution image, performing blur processing on the down-sampled image, and blur processing The method may further include generating a low-resolution image by changing the size of the image to a size corresponding to the high-resolution image.
본 발명의 일 실시예에 따르면, 제1 어텐션 맵은 얼굴 인식을 위해 특정 기준 이상 참조되는 채널을 나타내는 채널 어텐션 맵 및 얼굴 인식을 위해 다른 특정 기준 이상 참조되는 특징 영역을 나타내는 공간 어텐션 맵을 포함한다.According to an embodiment of the present invention, the first attention map includes a channel attention map indicating a channel referenced for face recognition beyond a specific criterion and a spatial attention map indicating a feature region referenced for face recognition beyond another specific criterion. .
본 발명의 일 실시예에 따르면, 고해상도 얼굴 인식 네트워크는 고해상도 이미지의 특징을 추출하기 위한 복수의 블록 및 제1 어텐션 맵을 추출하기 위한 복수의 어텐션 모듈을 포함한다.According to an embodiment of the present invention, a high-resolution face recognition network includes a plurality of blocks for extracting features of a high-resolution image and a plurality of attention modules for extracting a first attention map.
본 발명의 일 실시예에 따른 상술된 방법을 컴퓨터에서 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 제공된다.A computer program stored in a computer readable recording medium is provided to execute the above-described method according to an embodiment of the present invention on a computer.
본 발명의 다양한 실시예에서 저해상도 얼굴 인식 네트워크는 저해상도 이미지를 이용하는 경우에도, 높은 수준의 어텐션 맵을 생성하도록 학습될 수 있으며, 이에 따라 저해상도 이미지를 이용한 얼굴 인식의 정확도가 효과적으로 향상될 수 있다.In various embodiments of the present invention, the low-resolution face recognition network can be trained to generate a high-level attention map even when using low-resolution images, and thus the accuracy of face recognition using low-resolution images can be effectively improved.
본 발명의 다양한 실시예에서 컴퓨팅 장치는 학습 시 추가적인 파라미터 및 추론 시 속도 저하 없이 저해상도 얼굴 인식 네트워크의 성능을 효과적으로 향상시킬 수 있다.In various embodiments of the present invention, the computing device can effectively improve the performance of a low-resolution face recognition network without additional parameters during training and without slowdown during inference.
본 발명의 다양한 실시예에서 주행 로봇 등에 포함된 낮은 컴퓨팅 파워로 인해, 저해상도 이미지만을 수신하는 경우에도, 저해상도 얼굴 인식 네트워크는 정밀한 어텐션 맵을 생성하고, 이에 따라 더 정확하게 저해상도 이미지에 포함된 얼굴을 인식할 수 있다.In various embodiments of the present invention, due to the low computing power included in the driving robot, etc., even when only a low-resolution image is received, the low-resolution face recognition network generates a precise attention map and, accordingly, more accurately recognizes the face included in the low-resolution image. can do.
본 발명의 다양한 실시예에서 고해상도 얼굴 인식 네트워크에서 추출된 어텐션 맵과 저해상도 얼굴 인식 네트워크에서 추출된 어텐션 맵이 상당히 높은 상관관계를 가질 수 있으며, 그에 따라, 저해상도 이미지를 이용하는 경우에도 높은 정확도로 얼굴 인식이 수행될 수 있다.In various embodiments of the present invention, the attention map extracted from the high-resolution face recognition network and the attention map extracted from the low-resolution face recognition network may have a significantly high correlation, and accordingly, face recognition with high accuracy even when a low-resolution image is used. this can be done
본 발명의 다양한 실시예에서 학습 과정에서 많은 용량이 요구되는 특징 벡터가 아닌 어텐션 맵을 전달함으로써, 효율적으로 저해상도 얼굴 인식 네트워크의 학습이 수행될 수 있다.In various embodiments of the present invention, learning of a low-resolution face recognition network can be efficiently performed by passing an attention map rather than a feature vector requiring a large capacity in a learning process.
본 발명의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 다른 효과들은 청구범위의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자("통상의 기술자"라 함)에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned are clear to those skilled in the art (referred to as "ordinary technicians") from the description of the claims. will be understandable.
본 발명의 실시예들은, 이하 설명하는 첨부 도면들을 참조하여 설명될 것이며, 여기서 유사한 참조 번호는 유사한 요소들을 나타내지만, 이에 한정되지는 않는다.BRIEF DESCRIPTION OF THE DRAWINGS Embodiments of the present invention will be described with reference to the accompanying drawings described below, wherein like reference numbers indicate like elements, but are not limited thereto.
도 1은 본 발명의 일 실시예에 따른 네트워크들 사이에서 어텐션 맵이 전달되는 예시를 나타내는 도면이다.1 is a diagram illustrating an example of transferring an attention map between networks according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 따른 컴퓨팅 장치의 내부 구성을 나타내는 기능적인 블록도이다.2 is a functional block diagram showing the internal configuration of a computing device according to an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 따른 고해상도 얼굴 인식 네트워크 및 저해상도 얼굴 인식 네트워크의 예시를 나타내는 도면이다.3 is a diagram illustrating an example of a high-resolution face recognition network and a low-resolution face recognition network according to an embodiment of the present invention.
도 4는 본 발명의 일 실시예에 따른 고해상도 얼굴 인식 네트워크가 학습되는 예시를 나타내는 도면이다.4 is a diagram illustrating an example of learning a high-resolution face recognition network according to an embodiment of the present invention.
도 5는 본 발명의 일 실시예에 따른 저해상도 얼굴 인식 네트워크가 학습되는 예시를 나타내는 도면이다.5 is a diagram illustrating an example of learning a low-resolution face recognition network according to an embodiment of the present invention.
도 6은 본 발명의 일 실시예에 따른 어텐션 맵 전달 방법의 예시를 나타내는 흐름도이다.6 is a flowchart illustrating an example of an attention map transmission method according to an embodiment of the present invention.
도 7은 본 발명의 일 실시예에 따른 컴퓨팅 장치의 내부 구성을 나타내는 블록도이다.7 is a block diagram showing an internal configuration of a computing device according to an embodiment of the present invention.
이하, 본 발명의 실시를 위한 구체적인 내용을 첨부된 도면을 참조하여 상세히 설명한다. 다만, 이하의 설명에서는 본 발명의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.Hereinafter, specific details for the implementation of the present invention will be described in detail with reference to the accompanying drawings. However, in the following description, if there is a risk of unnecessarily obscuring the gist of the present invention, detailed descriptions of well-known functions or configurations will be omitted.
첨부된 도면에서, 동일하거나 대응하는 구성요소에는 동일한 참조부호가 부여되어 있다. 또한, 이하의 실시예들의 설명에 있어서, 동일하거나 대응되는 구성요소를 중복하여 기술하는 것이 생략될 수 있다. 그러나, 구성요소에 관한 기술이 생략되어도, 그러한 구성요소가 어떤 실시예에 포함되지 않는 것으로 의도되지는 않는다.In the accompanying drawings, identical or corresponding elements are given the same reference numerals. In addition, in the description of the following embodiments, overlapping descriptions of the same or corresponding components may be omitted. However, omission of a description of a component does not intend that such a component is not included in an embodiment.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명이 완전하도록 하고, 본 발명이 통상의 기술자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.Advantages and features of the disclosed embodiments, and methods of achieving them, will become apparent with reference to the following embodiments in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below and can be implemented in various different forms, only these embodiments make the present invention complete and the scope of the invention to those skilled in the art. It is provided only for complete information.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다. 본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.Terms used in this specification will be briefly described, and the disclosed embodiments will be described in detail. The terms used in this specification have been selected from general terms that are currently widely used as much as possible while considering the functions in the present invention, but these may vary depending on the intention or precedent of a person skilled in the related field, the emergence of new technologies, and the like. In addition, in a specific case, there is also a term arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the invention. Therefore, the term used in the present invention should be defined based on the meaning of the term and the overall content of the present invention, not simply the name of the term.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한, 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다. 명세서 전체에서 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.Expressions in the singular number in this specification include plural expressions unless the context clearly dictates that they are singular. Also, plural expressions include singular expressions unless the context clearly specifies that they are plural. When it is said that a certain part includes a certain component in the entire specification, this means that it may further include other components without excluding other components unless otherwise stated.
본 발명에서, "포함하다", "포함하는" 등의 용어는 특징들, 단계들, 동작들, 요소들 및/또는 구성 요소들이 존재하는 것을 나타낼 수 있으나, 이러한 용어가 하나 이상의 다른 기능들, 단계들, 동작들, 요소들, 구성 요소들 및/또는 이들의 조합이 추가되는 것을 배제하지는 않는다.In the present invention, the terms "comprise", "comprising" and the like may indicate that features, steps, operations, elements and/or components are present, but may be used when such terms include one or more other functions, It is not excluded that steps, actions, elements, components, and/or combinations thereof may be added.
본 발명에서, 특정 구성 요소가 임의의 다른 구성 요소에 "결합", "조합", "연결" 되거나, "반응" 하는 것으로 언급된 경우, 특정 구성 요소는 다른 구성 요소에 직접 결합, 조합 및/또는 연결되거나, 반응할 수 있으나, 이에 한정되지 않는다. 예를 들어, 특정 구성 요소와 다른 구성 요소 사이에 하나 이상의 중간 구성 요소가 존재할 수 있다. 또한, 본 발명에서 "및/또는"은 열거된 하나 이상의 항목의 각각 또는 하나 이상의 항목의 적어도 일부의 조합을 포함할 수 있다.In the present invention, when a specific element is referred to as being “coupled”, “combined”, “connected”, or “reactive” to any other element, the specific element is directly bonded to, combined with, and/or other elements. or may be linked or reacted, but is not limited thereto. For example, one or more intermediate components may exist between certain components and other components. Also, in the present invention, “and/or” may include each of one or more items listed or a combination of at least a part of one or more items.
본 발명에서, "제1", "제2" 등의 용어는 특정 구성 요소를 다른 구성 요소와 구별하기 위해 사용되는 것으로, 이러한 용어에 의해 상술된 구성 요소가 제한되진 않는다. 예를 들어, "제1" 구성 요소는 "제2" 구성 요소와 동일하거나 유사한 형태의 요소일 수 있다.In the present invention, terms such as "first" and "second" are used to distinguish a specific component from other components, and the aforementioned components are not limited by these terms. For example, the “first” element may have the same or similar shape as the “second” element.
본 발명에서, '어텐션 맵(attention map)'은 이미지 내의 전체 영역 중 얼굴 인식에 영향을 미치는 특정 영역(예: 눈, 코, 귀, 입 등)을 나타내는 행렬(matrix) 및/또는 시각화된 이미지 등을 지칭할 수 있다. 예를 들어, 어텐션 맵은 복수의 초기 어텐션 맵을 포함할 수 있다. 또한, 어텐션 맵은 하나의 이미지로부터 추출된 어텐션 맵을 포함하거나, 복수의 이미지로부터 추출된 복수의 어텐션 맵을 포함할 수도 있다. 또한, 본 발명에서 어텐션 값은 어텐션 맵과 연관된 수치 값, 벡터(vector) 등을 포함할 수 있다.In the present invention, an 'attention map' is a matrix representing specific regions (eg, eyes, nose, ears, mouth, etc.) that affect face recognition among all regions in an image and/or a visualized image. etc. can be referred to. For example, the attention map may include a plurality of initial attention maps. Also, the attention map may include an attention map extracted from one image or a plurality of attention maps extracted from a plurality of images. Also, in the present invention, the attention value may include a numerical value, a vector, and the like associated with the attention map.
본 발명에서, '어텐션 모듈(attention module)'은 블록과 연관되어 이미지로부터 어텐션 맵을 추출하기 위한 모듈을 지칭할 수 있다. 예를 들어, 어텐션 모듈은 CAM(channel attention module), SAM(spatial attention module), CBAM(convolution block attention module) 등을 포함할 수 있으나, 이에 한정되지 않는다.In the present invention, an 'attention module' may refer to a module for extracting an attention map from an image associated with a block. For example, the attention module may include, but is not limited to, a channel attention module (CAM), a spatial attention module (SAM), a convolution block attention module (CBAM), and the like.
본 발명에서, '지식 증류(knowledge distillation)'는 학습된 거대한 모델의 지식을 작은 모델로 전달하여 작은 모델의 성능을 향상시키는 기법 등을 지칭할 수 있다. 예를 들어, 지식 증류는 손실 함수 등을 이용하여 수행될 수 있다.In the present invention, 'knowledge distillation' may refer to a technique of improving the performance of a small model by transferring the learned knowledge of a large model to a small model. For example, knowledge distillation may be performed using a loss function or the like.
본 발명에서, '얼굴 인식 네트워크'는 이미지를 분석하여, 이미지에 포함된 사람을 식별하기 위한 기계학습 모델, 인공신경망 등을 지칭할 수 있다.In the present invention, a 'face recognition network' may refer to a machine learning model, an artificial neural network, and the like for analyzing an image and identifying a person included in the image.
본 발명에서, '손실' 및/또는 '손실 함수(loss function)'는 기계학습 모델 등에서 대상의 오차를 측정하기 위한 척도, 함수 등을 지칭할 수 있다. 손실 함수에 의해 생성되는 오차를 감소시키도록 기계학습 모델 등이 학습될 수 있다. 예를 들어, 손실 함수는 얼굴 인식 손실, 증류 손실(distillation loss) 등을 포함할 수 있다. 여기서, 얼굴 인식 손실 함수는 소프트맥스 손실 함수(softmax loss function), 거리 기반 손실 함수, 앵귤러 마진 기반 손실 함수(스피어페이스(sphereface), 코스페이스(cosface), 아크페이스(arcface)) 등을 포함할 수 있다.In the present invention, 'loss' and/or 'loss function' may refer to a scale, function, etc. for measuring an error of an object in a machine learning model or the like. A machine learning model or the like may be trained to reduce the error produced by the loss function. For example, the loss function may include face recognition loss, distillation loss, and the like. Here, the face recognition loss function may include a softmax loss function, a distance-based loss function, an angular margin-based loss function (sphereface, cosface, arcface), and the like. can
도 1은 본 발명의 일 실시예에 따른 네트워크들(110, 140) 사이에서 어텐션 맵(130)이 전달되는 예시를 나타내는 도면이다. 일 실시예에 따르면, 얼굴 인식 네트워크(110, 140)는 사람의 얼굴이 포함된 이미지를 이용하여, 해당 이미지 내에 포함된 사람을 특정하기 위한 네트워크를 지칭할 수 있으며, 기계학습 모델 등으로 구현될 수 있다. 예를 들어, 얼굴 인식 네트워크(110, 140)는 사람의 이목구비의 위치, 크기, 색, 모양, 이목구비 사이의 간격 등의 특징(feature)을 이용하여 이미지 내에 포함된 사람을 특정할 수 있으나, 이에 한정되지 않는다.1 is a diagram illustrating an example in which an attention map 130 is transferred between networks 110 and 140 according to an embodiment of the present invention. According to an embodiment, the face recognition networks 110 and 140 may refer to a network for specifying a person included in a corresponding image using an image including a person's face, and may be implemented as a machine learning model or the like. can For example, the face recognition networks 110 and 140 may identify a person included in an image using features such as the position, size, color, shape, and spacing of features of a person, but this Not limited.
도시된 예에서, 고해상도 이미지를 이용하여 이미지에 포함된 사람 등을 특정하는 고해상도 얼굴 인식 네트워크(110)와 저해상도 이미지를 이용하여 이미지에 포함된 사람 등을 특정하는 저해상도 얼굴 인식 네트워크(140)가 존재할 수 있다. 일반적으로, 저해상도 이미지를 통해 사람을 특정하는 것은 고해상도 이미지를 통해 사람을 특정하는 것보다 정확도가 감소될 수 있다. 예를 들어, 저해상도 이미지의 경우, 사람의 이목구비의 위치, 크기, 색 등을 정확히 특정하기 어려울 수 있다.In the illustrated example, a high-resolution face recognition network 110 that identifies a person included in an image using a high-resolution image and a low-resolution face recognition network 140 that specifies a person included in an image using a low-resolution image exist. can In general, specifying a person through a low-resolution image may have lower accuracy than specifying a person through a high-resolution image. For example, in the case of a low-resolution image, it may be difficult to accurately specify the position, size, color, and the like of a person's features.
일 실시예에 따르면, 고해상도 얼굴 인식 네트워크(110)는 복수의 고해상도 이미지(120)를 입력받아 얼굴 인식 결과(122)를 출력하도록 학습될 수 있다. 예를 들어, 고해상도 얼굴 인식 네트워크(110)는 복수의 고해상도 이미지(120)의 특징을 추출하기 위한 복수의 블록(예: 복수의 컨볼루션(convolutional) 블록) 및 어텐션 맵(130)을 추출하기 위한 복수의 어텐션 모듈(attention module)을 포함하는 기계학습 모델로 구성될 수 있다. 여기서, 어텐션 맵은 이미지 내의 전체 영역 중 얼굴 인식에 영향을 미치는 특정 영역(예: 눈, 코, 귀, 입 등)을 나타내는 행렬(matrix) 및/또는 시각화된 이미지 등을 지칭할 수 있다. 즉, 고해상도 얼굴 인식 네트워크(110)는 복수의 블록 및 복수의 어텐션 모듈을 기초로 어텐션 맵(130)을 생성하고, 생성된 어텐션 맵(130)을 기초로 사람의 얼굴을 인식하도록 학습될 수 있다.According to an embodiment, the high-resolution face recognition network 110 may be trained to output a face recognition result 122 by receiving a plurality of high-resolution images 120 . For example, the high-resolution face recognition network 110 includes a plurality of blocks (eg, a plurality of convolutional blocks) for extracting features of a plurality of high-resolution images 120 and an attention map 130 for extracting features. It may be composed of a machine learning model including a plurality of attention modules. Here, the attention map may refer to a matrix representing specific regions (eg, eyes, nose, ears, mouth, etc.) that affect face recognition among all regions in the image and/or a visualized image. That is, the high-resolution face recognition network 110 may generate an attention map 130 based on a plurality of blocks and a plurality of attention modules, and learn to recognize a human face based on the generated attention map 130. .
상술된 바와 같이, 고해상도 얼굴 인식 네트워크(110)가 학습된 경우, 학습된 고해상도 얼굴 인식 네트워크(110)로부터 복수의 고해상도 이미지(120)와 연관된 어텐션 맵(130)이 추출될 수 있다. 또한, 이와 같이 추출된 어텐션 맵(130)은 저해상도 얼굴 인식 네트워크(140) 상에 전달될 수 있다. 여기서, 저해상도 얼굴 인식 네트워크(140)는 복수의 저해상도 이미지(150)를 입력받아 얼굴 인식 결과(152)를 출력하도록 학습될 수 있으며, 학습 과정에서 전달된 어텐션 맵(130)이 이용될 수 있다. 예를 들어, 저해상도 얼굴 인식 네트워크(140)는 지식 증류를 통해 어텐션 맵(130)을 이용하여 학습될 수 있다.As described above, when the high-resolution face recognition network 110 is trained, the attention map 130 associated with the plurality of high-resolution images 120 may be extracted from the trained high-resolution face recognition network 110 . Also, the attention map 130 extracted in this way may be delivered to the low-resolution face recognition network 140 . Here, the low-resolution face recognition network 140 may be trained to receive a plurality of low-resolution images 150 and output a face recognition result 152, and the attention map 130 transmitted in the learning process may be used. For example, the low-resolution face recognition network 140 may be trained using the attention map 130 through knowledge distillation.
일 실시예에 따르면, 저해상도 얼굴 인식 네트워크(140)는 복수의 블록(예: 복수의 컨볼루션 블록) 및 각 컨볼루션 블록에서 추출되는 특징에 맞는 어텐션 맵을 추출하기 위한 복수의 어텐션 모듈을 포함하는 기계학습 모델로 구성될 수 있다. 즉, 고해상도 얼굴 인식 네트워크(110)와 마찬가지로, 저해상도 얼굴 인식 네트워크(140)는 복수의 블록 및 복수의 어텐션 모듈을 기초로 어텐션 맵들을 생성하고, 생성된 어텐션 맵을 기초로 사람의 얼굴을 인식하도록 학습될 수 있다. 일반적으로, 저해상도의 이미지를 이용하는 경우, 고해상도의 이미지를 이용하는 경우보다 어텐션 맵의 정확성이 감소될 수 있다. 이와 관련하여, 어텐션 맵의 정확성을 향상시키기 위해, 저해상도 얼굴 인식 네트워크(140)에서 추출된 어텐션 맵이 고해상도 얼굴 인식 네트워크(110)로부터 전달된 어텐션 맵(130)과 유사해지도록 학습될 수 있다. 예를 들어, 다른 어텐션 맵은 특정 손실 함수(loss function)를 이용하여 어텐션 맵(130)과 유사해지도록 학습될 수 있다.According to an embodiment, the low-resolution face recognition network 140 includes a plurality of blocks (eg, a plurality of convolution blocks) and a plurality of attention modules for extracting attention maps suitable for features extracted from each convolution block. It can be configured as a machine learning model. That is, like the high-resolution face recognition network 110, the low-resolution face recognition network 140 generates attention maps based on a plurality of blocks and a plurality of attention modules, and recognizes a human face based on the generated attention maps. can be learned In general, when a low-resolution image is used, the accuracy of the attention map may be reduced compared to when a high-resolution image is used. In this regard, in order to improve the accuracy of the attention map, the attention map extracted from the low-resolution face recognition network 140 may be trained to be similar to the attention map 130 transmitted from the high-resolution face recognition network 110 . For example, other attention maps may be learned to be similar to the attention map 130 using a specific loss function.
도 1에서는 지식 증류를 통해 저해상도 얼굴 인식 네트워크(140)가 학습되는 것으로 상술되었으나, 이에 한정되지 않으며, 고해상도 얼굴 인식 네트워크(110)는 지식 증류를 통해 복수의 블록 중 뒤의 블록에서 생성된 초기 어텐션 맵이 앞의 블록에서 생성된 초기 어텐션 맵과 유사해지도록 학습될 수 있다. 이와 같은 구성에 의해, 저해상도 얼굴 인식 네트워크(140)는 저해상도 이미지를 이용하는 경우에도, 높은 수준의 어텐션 맵을 생성하도록 학습될 수 있으며, 이에 따라 저해상도 이미지를 이용한 얼굴 인식의 정확도가 효과적으로 향상될 수 있다.In FIG. 1, it has been described in detail that the low-resolution face recognition network 140 is learned through knowledge distillation, but it is not limited thereto, and the high-resolution face recognition network 110 uses the initial attention generated in the later blocks among the plurality of blocks through knowledge distillation. The map can be learned to resemble the initial attention map created in the previous block. With this configuration, the low-resolution face recognition network 140 can be trained to generate a high-level attention map even when using low-resolution images, and thus the accuracy of face recognition using low-resolution images can be effectively improved. .
도 2는 본 발명의 일 실시예에 따른 컴퓨팅 장치(200)의 내부 구성을 나타내는 기능적인 블록도이다. 도시된 바와 같이, 컴퓨팅 장치(200)는 저해상도 이미지 생성부(210), 고해상도 얼굴 인식 네트워크 학습부(220), 저해상도 얼굴 인식 네트워크 학습부(230) 등을 포함할 수 있으나, 이에 한정되지 않는다. 예를 들어, 컴퓨팅 장치(200)는 외부 장치, 데이터베이스 등과 통신하며, 네트워크를 학습시키기 위한 이미지 등을 수신할 수 있다.2 is a functional block diagram showing the internal configuration of a computing device 200 according to an embodiment of the present invention. As shown, the computing device 200 may include a low-resolution image generator 210, a high-resolution face recognition network learning unit 220, a low-resolution face recognition network learning unit 230, etc., but is not limited thereto. For example, the computing device 200 may communicate with an external device, a database, and the like, and receive an image for learning a network.
일 실시예에 따르면, 저해상도 이미지 생성부(210)는 고해상도 이미지를 이용하여 저해상도 이미지를 생성할 수 있다. 예를 들어, 고해상도 얼굴 인식 네트워크에서 생성된 어텐션 맵과 저해상도 얼굴 인식 네트워크에서 생성된 어텐션 맵을 유사해지도록 학습시키기 위해, 해당 어텐션 맵들을 추출하기 위해 사용되는 이미지는 동일한 형상을 포함하는 이미지로서, 해상도가 상이한 이미지일 수 있다. 즉, 저해상도 이미지 생성부(210)는 고해상도 이미지만이 존재하는 경우, 해당 이미지의 해상도를 변경하여 저해상도 이미지를 생성할 수 있다.According to an embodiment, the low-resolution image generating unit 210 may generate a low-resolution image using a high-resolution image. For example, in order to train the attention map generated by the high-resolution face recognition network to be similar to the attention map generated by the low-resolution face recognition network, the images used to extract the corresponding attention maps are images including the same shape, It may be images with different resolutions. That is, when only a high-resolution image exists, the low-resolution image generation unit 210 may generate a low-resolution image by changing the resolution of the corresponding image.
저해상도 이미지 생성부(210)는 사람의 얼굴을 포함하는 고해상도 이미지를 획득하고, 획득된 고해상도 이미지에 대한 다운 샘플링(downsampling)을 수행할 수 있다. 여기서, 다운 샘플링은 이미지의 비율, 크기 등을 감소시키는 것으로서, 예를 들어, 고해상도 이미지는 보간(예: 바이큐빅 보간(bicubic interpolation))을 통해 2x, 4x, 8x 등의 비율로 다운 샘플링될 수 있다. 또한, 저해상도 이미지 생성부(210)는 다운 샘플링된 이미지에 대한 블러(blur) 처리를 수행할 수 있다. 예를 들어, 가우시안 블러(Gaussian blur) 기법이 이미지 상에 적용될 수 있으나, 이에 한정되지 않는다. 그리고 나서, 저해상도 이미지 생성부(210)는 블러 처리된 이미지의 크기를 고해상도 이미지에 대응하는 크기로 변경하여 저해상도 이미지를 생성할 수 있다. 다시 말해, 저해상도 이미지 생성부(210)는 보간(예: 바이큐빅 보간)을 통해 블러 처리된 이미지의 크기를 고해상도 이미지에 대응하는 초기(original) 크기로 변경하여 저해상도 이미지를 생성할 수 있다.The low-resolution image generation unit 210 may acquire a high-resolution image including a human face and perform downsampling on the obtained high-resolution image. Here, downsampling is to reduce the ratio, size, etc. of an image. For example, a high-resolution image may be downsampled at a rate of 2x, 4x, 8x, etc. through interpolation (eg, bicubic interpolation). there is. Also, the low-resolution image generation unit 210 may perform blur processing on the downsampled image. For example, a Gaussian blur technique may be applied to the image, but is not limited thereto. Then, the low-resolution image generation unit 210 may generate a low-resolution image by changing the size of the blurred image to a size corresponding to the high-resolution image. In other words, the low-resolution image generator 210 may generate a low-resolution image by changing the size of the blurred image to an original size corresponding to the high-resolution image through interpolation (eg, bicubic interpolation).
고해상도 얼굴 인식 네트워크 학습부(220)는 사람의 얼굴을 포함하는 고해상도 이미지를 기초로 사람의 얼굴을 인식하기 위한 고해상도 얼굴 인식 네트워크를 학습시킬 수 있다. 예를 들어, 고해상도 얼굴 인식 네트워크는 순차적으로 연결된 복수의 블록(block)(예: 컨볼루션 블록)을 포함할 수 있으며, 고해상도 얼굴 인식 네트워크 학습부(220)는 복수의 블록에 포함된 제1 블록으로부터 제1 초기 어텐션 맵을 추출하고, 제1 블록과 연결된 제2 블록으로부터 제2 초기 어텐션 맵을 추출할 수 있다. 그리고 나서, 고해상도 얼굴 인식 네트워크 학습부(220)는 지식 증류를 이용하여 제2 초기 어텐션 맵이 제1 초기 어텐션 맵과 유사해지도록 고해상도 얼굴 인식 네트워크를 학습시킬 수 있다. 예를 들어, 블록의 초기 부분에서 생성되거나 구성된 어텐션 맵은 블록의 나중 부분에서 생성되거나 구성된 어텐션 맵보다 더 많은 맥락(context) 정보를 포함할 수 있다. 이에 따라, 고해상도 얼굴 인식 네트워크 학습부(220)는 블록의 뒷 부분에서 생성된 제2 초기 어텐션 맵이 블록의 앞 부분에서 생성된 제1 초기 어텐션 맵과 유사해지도록 학습을 수행할 수 있다.The high-resolution face recognition network learning unit 220 may train a high-resolution face recognition network for recognizing a human face based on a high-resolution image including a human face. For example, the high-resolution face recognition network may include a plurality of blocks (eg, convolution blocks) sequentially connected, and the high-resolution face recognition network learning unit 220 may include a first block included in the plurality of blocks. A first initial attention map may be extracted from , and a second initial attention map may be extracted from a second block connected to the first block. Then, the high-resolution face recognition network learning unit 220 may train the high-resolution face recognition network so that the second initial attention map becomes similar to the first initial attention map by using knowledge distillation. For example, an attention map created or configured in an early part of a block may include more context information than an attention map created or configured in a later part of a block. Accordingly, the high-resolution face recognition network learning unit 220 may perform training so that the second initial attention map generated at the rear of the block becomes similar to the first initial attention map generated at the front of the block.
일 실시예에 따르면, 고해상도 얼굴 인식 네트워크는 손실 함수를 이용하여 학습될 수 있다. 여기서, 고해상도 얼굴 인식 네트워크 학습부(220)는 다음의 수학식 1을 이용하여 학습을 수행할 수 있다.According to one embodiment, a high-resolution face recognition network may be trained using a loss function. Here, the high-resolution face recognition network learning unit 220 may perform learning using Equation 1 below.
Figure PCTKR2022008543-appb-img-000006
Figure PCTKR2022008543-appb-img-000006
여기서,
Figure PCTKR2022008543-appb-img-000007
는 아크페이스 손실과 고해상도 얼굴 인식 네트워크에서의 증류 손실의 합이고,
Figure PCTKR2022008543-appb-img-000008
는 고해상도 얼굴 인식 네트워크의 i번째 블록의 공간 어텐션 값을 나타내고,
Figure PCTKR2022008543-appb-img-000009
는 증류 손실을 위한 거리 함수를 나타내고,
Figure PCTKR2022008543-appb-img-000010
는 맥스 풀링 레이어(max pooling layer)를 나타낼 수 있다. 또한,
Figure PCTKR2022008543-appb-img-000011
는 2x2 커널을 갖는 맥스 풀링 레이어일 수 있다. 예를 들어, 고해상도 얼굴 인식 네트워크를 구성하는 i번째 블록의 어텐션 맵의 크기가 i+1번째 블록의 두 배에 해당할 수 있으며, 이에 따라 맥스 풀링 레이어는 어텐션 맵을 1/2 크기로 다운 샘플링할 수 있다.
here,
Figure PCTKR2022008543-appb-img-000007
is the sum of the arc phase loss and the distillation loss in the high-resolution face recognition network,
Figure PCTKR2022008543-appb-img-000008
represents the spatial attention value of the ith block of the high-resolution face recognition network,
Figure PCTKR2022008543-appb-img-000009
denotes the distance function for the distillation loss,
Figure PCTKR2022008543-appb-img-000010
may represent a max pooling layer. also,
Figure PCTKR2022008543-appb-img-000011
may be a max pooling layer with a 2x2 kernel. For example, the size of the attention map of the i-th block constituting the high-resolution face recognition network may be twice the size of the i+1-th block, and accordingly, the max pooling layer downsamples the attention map to 1/2 size. can do.
또한, 거리 함수
Figure PCTKR2022008543-appb-img-000012
는 다음의 수학식 2에 의해 산출될 수 있다.
Also, the distance function
Figure PCTKR2022008543-appb-img-000012
Can be calculated by Equation 2 below.
Figure PCTKR2022008543-appb-img-000013
Figure PCTKR2022008543-appb-img-000013
여기서, 거리 함수
Figure PCTKR2022008543-appb-img-000014
는 코사인 거리(cosine distance)와 L-P 노름(L-P norm)의 선형 결합(linear combination)일 수 있으며, L-P 노름은 L1 거리, L2 거리 등을 포함할 수 있다. 또한,
Figure PCTKR2022008543-appb-img-000015
는 L-P 노름과 코사인 거리를 조정하기 위한 가중치 요소일 수 있다. 어텐션 맵의 차원(dimension)은 초기 블록에서 더 깊은 블록으로 갈수록 작아지므로, 코사인 거리와 L-P 노름 거리를 모두 이용함으로써, 지식 증류 과정을 안정화할 수 있다. 추가적으로 또는 대안적으로, 도 2에서는 거리 함수
Figure PCTKR2022008543-appb-img-000016
가 코사인 거리와 L-P 노름의 선형 결합인 것으로 상술되었으나, 이에 한정되지 않으며, 데이터 셋(data set)에 따라 임의의 거리 함수 및/또는 이들의 조합이 사용될 수도 있다.
Here, the distance function
Figure PCTKR2022008543-appb-img-000014
may be a linear combination of the cosine distance and the LP norm, and the LP norm may include the L1 distance and the L2 distance. also,
Figure PCTKR2022008543-appb-img-000015
may be a weighting factor for adjusting the LP norm and the cosine distance. Since the dimension of the attention map decreases from an initial block to a deeper block, the knowledge distillation process can be stabilized by using both the cosine distance and the LP norm distance. Additionally or alternatively, in FIG. 2 the distance function
Figure PCTKR2022008543-appb-img-000016
Although is described above as being a linear combination of the cosine distance and the LP norm, it is not limited thereto, and an arbitrary distance function and/or a combination thereof may be used depending on the data set.
일 실시예에 따르면, 저해상도 얼굴 인식 네트워크 학습부(230)는 고해상도 얼굴 인식 네트워크로부터 전달된 제1 어텐션 맵을 이용하여 저해상도 얼굴 인식 네트워크를 학습시킬 수 있다. 예를 들어, 저해상도 얼굴 인식 네트워크 학습부(230)는 저해상도 얼굴 인식 네트워크로부터 제2 어텐션 맵을 추출하고, 지식 증류를 이용하여 제2 어텐션 맵이 제1 어텐션 맵과 유사해지도록 저해상도 얼굴 인식 네트워크를 학습시킬 수 있다.According to an embodiment, the low-resolution face recognition network learning unit 230 may train the low-resolution face recognition network using the first attention map transmitted from the high-resolution face recognition network. For example, the low-resolution face recognition network learning unit 230 extracts the second attention map from the low-resolution face recognition network and uses knowledge distillation to generate the low-resolution face recognition network so that the second attention map becomes similar to the first attention map. can be learned
일 실시예에 따르면, 저해상도 얼굴 인식 네트워크는 손실 함수를 이용하여 학습될 수 있다. 여기서, 저해상도 얼굴 인식 네트워크 학습부(230)는 얼굴 인식 손실과 저해상도 얼굴 인식 네트워크에서의 증류 손실(distillation loss)의 합을 이용하여 학습을 수행할 수 있다. 예를 들어, 증류 손실은 다음의 수학식 3을 이용하여 산출될 수 있다.According to one embodiment, a low-resolution face recognition network may be trained using a loss function. Here, the low-resolution face recognition network learning unit 230 may perform learning using the sum of face recognition loss and distillation loss in the low-resolution face recognition network. For example, distillation loss can be calculated using Equation 3 below.
Figure PCTKR2022008543-appb-img-000017
Figure PCTKR2022008543-appb-img-000017
여기서,
Figure PCTKR2022008543-appb-img-000018
는 저해상도 얼굴 인식 네트워크에서의 증류 손실이고,
Figure PCTKR2022008543-appb-img-000019
Figure PCTKR2022008543-appb-img-000020
는 고해상도 얼굴 인식 네트워크 및 저해상도 얼굴 인식 네트워크의 i번째 블록의 공간 어텐션 값(spatial attention value)을 나타내고,
Figure PCTKR2022008543-appb-img-000021
Figure PCTKR2022008543-appb-img-000022
는 고해상도 얼굴 인식 네트워크 및 저해상도 얼굴 인식 네트워크의 i번째 블록의 채널 어텐션 값(channel attention value)을 나타내고,
Figure PCTKR2022008543-appb-img-000023
는 i번째 블록의 가중치 요소(weight factor)를 나타내고,
Figure PCTKR2022008543-appb-img-000024
는 증류 손실을 위한 거리 함수(distance function)를 나타낼 수 있다. 이와 같은 손실 함수를 이용하여, 저해상도 얼굴 인식 네트워크는 저해상도 이미지에 포함된 얼굴 영역 중 타겟 영역에 집중하도록 학습되어, 저해상도 이미지만을 이용하는 경우에도 고해상도 얼굴 인식 네트워크와 유사한 성능을 갖도록 학습될 수 있다. 추가적으로 또는 대안적으로, 도 2에서는 증류 손실이 공간 어텐션 값 및 채널 어텐션 값을 모두 이용하여 산출된 것으로 상술되었으나, 이에 한정되지 않으며, 공간 어텐션 값 또는 채널 어텐션 값이 독립적으로 전달되거나, 공간 어텐션 값, 채널 어텐션 값 및 다른 임의의 어텐션 값들 중 적어도 일부가 함께 전달될 수도 있다.
here,
Figure PCTKR2022008543-appb-img-000018
is the distillation loss in the low-resolution face recognition network,
Figure PCTKR2022008543-appb-img-000019
and
Figure PCTKR2022008543-appb-img-000020
denotes the spatial attention value of the ith block of the high-resolution face recognition network and the low-resolution face recognition network,
Figure PCTKR2022008543-appb-img-000021
and
Figure PCTKR2022008543-appb-img-000022
Represents the channel attention value of the i-th block of the high-resolution face recognition network and the low-resolution face recognition network,
Figure PCTKR2022008543-appb-img-000023
represents the weight factor of the i-th block,
Figure PCTKR2022008543-appb-img-000024
can represent the distance function for the distillation loss. Using such a loss function, the low-resolution face recognition network is trained to focus on a target region among face regions included in the low-resolution image, and can be trained to have performance similar to that of the high-resolution face recognition network even when only the low-resolution image is used. Additionally or alternatively, in FIG. 2 , it has been described above that the distillation loss is calculated using both the spatial attention value and the channel attention value, but is not limited thereto, and the spatial attention value or the channel attention value is independently transferred, or the spatial attention value , a channel attention value, and at least some of other arbitrary attention values may be delivered together.
도 2에서는 컴퓨팅 장치(200)에 포함된 각각의 기능적인 구성이 구분되어 상술되었으나, 이는 발명의 이해를 돕기 위한 것일 뿐이며, 하나의 연산 장치에서 둘 이상의 기능을 수행할 수도 있다. 또한, 도 2에서는 컴퓨팅 장치(200)가 고해상도 얼굴 인식 네트워크 및 저해상도 얼굴 인식 네트워크를 모두 학습시키는 것으로 상술되었으나, 이에 한정되지 않으며, 각각의 네트워크를 학습시키기 위한 별도의 장치가 존재할 수도 있다. 이와 같은 구성에 의해, 컴퓨팅 장치(200)는 학습 시 추가적인 파라미터 및 추론 시 속도 저하 없이 저해상도 얼굴 인식 네트워크의 성능을 효과적으로 향상시킬 수 있다. 즉, 지식 전이 전후로 추론 네트워크 모델의 크기 증가는 발생하지 않으며, 이에 따라, 컴퓨팅 장치(200)는 추론 단계에서 지식 전이가 완료된 저해상도 얼굴 인식 네트워크만 활용하여 높은 정확도로 얼굴 인식을 수행할 수 있다.Although each functional configuration included in the computing device 200 has been separately described in FIG. 2 , this is only to help understanding of the present invention, and one computing device may perform two or more functions. In addition, although the computing device 200 is described in FIG. 2 as learning both the high-resolution face recognition network and the low-resolution face recognition network, it is not limited thereto, and a separate device for learning each network may exist. With this configuration, the computing device 200 can effectively improve the performance of the low-resolution face recognition network without additional parameters during learning and without slowdown during inference. That is, the size of the reasoning network model does not increase before and after the knowledge transfer, and accordingly, the computing device 200 can perform face recognition with high accuracy by utilizing only the low-resolution face recognition network for which the knowledge transfer is completed in the reasoning step.
도 3은 본 발명의 일 실시예에 따른 고해상도 얼굴 인식 네트워크(310) 및 저해상도 얼굴 인식 네트워크(330)의 예시를 나타내는 도면이다. 상술된 바와 같이, 고해상도 얼굴 인식 네트워크(310)는 사람의 얼굴을 포함하는 고해상도 이미지(320)를 이용하여 얼굴 인식(324)을 수행하도록 학습될 수 있다. 여기서, 고해상도 얼굴 인식 네트워크(310)는 고해상도 이미지의 특징을 추출하기 위한 복수의 블록 및 어텐션 맵(322)을 추출하기 위한 복수의 어텐션 모듈을 포함할 수 있다. 즉, 학습된 고해상도 얼굴 인식 네트워크로부터 고해상도 이미지(320)와 연관된 어텐션 맵(322)이 추출될 수 있다.3 is a diagram illustrating examples of a high-resolution face recognition network 310 and a low-resolution face recognition network 330 according to an embodiment of the present invention. As discussed above, the high-resolution face recognition network 310 may be trained to perform face recognition 324 using a high-resolution image 320 comprising a human face. Here, the high-resolution face recognition network 310 may include a plurality of blocks for extracting features of a high-resolution image and a plurality of attention modules for extracting the attention map 322 . That is, the attention map 322 associated with the high-resolution image 320 may be extracted from the trained high-resolution face recognition network.
일 실시예에 따르면, 어텐션 맵(322)은 다음의 수학식 4에 의해 사람 얼굴의 특징을 추출하기 위해 사용될 수 있다.According to an embodiment, the attention map 322 may be used to extract features of a human face by Equation 4 below.
Figure PCTKR2022008543-appb-img-000025
Figure PCTKR2022008543-appb-img-000025
여기서, F는 이미지로부터 추출된 특징 맵(feature map)일 수 있으며, M(F)는 해당 이미지로부터 추출된 어텐션 맵일 수 있다. 또한, F'는 어텐션 맵에 의해 얼굴 인식을 위한 특정 영역에 집중하도록 정제된 특징 맵일 수 있다.Here, F may be a feature map extracted from an image, and M(F) may be an attention map extracted from a corresponding image. Also, F' may be a feature map refined to focus on a specific region for face recognition by an attention map.
어텐션 맵(322)은 얼굴 인식을 위해 특정 기준 이상 참조되는 채널을 나타내는 채널 어텐션 맵(CAM: channel attention map) 및 얼굴 인식을 위해 다른 특정 기준 이상 참조되는 특징 영역을 나타내는 공간 어텐션 맵(SAM: spatial attention map)을 포함할 수 있다. 일 실시예에 따르면, 채널 어텐션 맵은 채널 어텐션 모듈에 의해, 활성화된 채널 영역을 획득하기 위해 풀링 레이어(pooling layer)를 이용하여 생성될 수 있다. 중간 단계의 특징 맵이
Figure PCTKR2022008543-appb-img-000026
를 만족할 때, 채널 어텐션 맵은 다음의 수학식 5에 의해 산출될 수 있다.
The attention map 322 includes a channel attention map (CAM) indicating a channel referenced for face recognition beyond a specific criterion and a spatial attention map (SAM) indicating a feature region referenced above another specific criterion for face recognition. attention map). According to an embodiment, the channel attention map may be generated by using a pooling layer to obtain an activated channel region by the channel attention module. Intermediate feature maps
Figure PCTKR2022008543-appb-img-000026
When is satisfied, the channel attention map can be calculated by Equation 5 below.
Figure PCTKR2022008543-appb-img-000027
Figure PCTKR2022008543-appb-img-000027
여기서,
Figure PCTKR2022008543-appb-img-000028
는 시그모이드(sigmoid) 함수를 나타내고,
Figure PCTKR2022008543-appb-img-000029
는 가중치 행렬
Figure PCTKR2022008543-appb-img-000030
Figure PCTKR2022008543-appb-img-000031
을 갖는 FC(fully connected) 레이어를 나타낼 수 있다. 이 경우,
Figure PCTKR2022008543-appb-img-000032
Figure PCTKR2022008543-appb-img-000033
는 풀링 레이어와
Figure PCTKR2022008543-appb-img-000034
와 연관된 ReLU 활성 함수 모두에서 공유될 수 있다. 또한, r은 다운 샘플링을 위한 비율일 수 있으며,
Figure PCTKR2022008543-appb-img-000035
Figure PCTKR2022008543-appb-img-000036
는 각각 평균 풀링 레이어와 최대 풀링 레이어의 출력을 나타낼 수 있다. 또한,
Figure PCTKR2022008543-appb-img-000037
Figure PCTKR2022008543-appb-img-000038
은 1x1 커널을 갖는 풀링 레이어를 나타낼 수 있다.
here,
Figure PCTKR2022008543-appb-img-000028
denotes the sigmoid function,
Figure PCTKR2022008543-appb-img-000029
is the weight matrix
Figure PCTKR2022008543-appb-img-000030
and
Figure PCTKR2022008543-appb-img-000031
It can represent a fully connected (FC) layer having in this case,
Figure PCTKR2022008543-appb-img-000032
and
Figure PCTKR2022008543-appb-img-000033
is the pooling layer and
Figure PCTKR2022008543-appb-img-000034
It can be shared by all ReLU activation functions associated with . Also, r may be a ratio for downsampling,
Figure PCTKR2022008543-appb-img-000035
and
Figure PCTKR2022008543-appb-img-000036
may represent outputs of the average pooling layer and the maximum pooling layer, respectively. also,
Figure PCTKR2022008543-appb-img-000037
class
Figure PCTKR2022008543-appb-img-000038
may represent a pooling layer with a 1x1 kernel.
또한, 공간 어텐션 맵은 공간 어텐션 모듈에 의해, 다음의 수학식 6을 이용하여 산출될 수 있다.In addition, the spatial attention map may be calculated by the spatial attention module using Equation 6 below.
Figure PCTKR2022008543-appb-img-000039
Figure PCTKR2022008543-appb-img-000039
여기서,
Figure PCTKR2022008543-appb-img-000040
는 시그모이드(sigmoid) 함수를 나타내고,
Figure PCTKR2022008543-appb-img-000041
Figure PCTKR2022008543-appb-img-000042
는 각각 평균 풀링 레이어와 최대 풀링 레이어의 출력을 나타낼 수 있다. 또한,
Figure PCTKR2022008543-appb-img-000043
는 7x7 커널을 갖는 컨볼루션 레이어로서,
Figure PCTKR2022008543-appb-img-000044
Figure PCTKR2022008543-appb-img-000045
가 결합(concatenation)되어 통과하는 레이어일 수 있다.
here,
Figure PCTKR2022008543-appb-img-000040
denotes the sigmoid function,
Figure PCTKR2022008543-appb-img-000041
and
Figure PCTKR2022008543-appb-img-000042
may represent outputs of the average pooling layer and the maximum pooling layer, respectively. also,
Figure PCTKR2022008543-appb-img-000043
is a convolutional layer with a 7x7 kernel,
Figure PCTKR2022008543-appb-img-000044
and
Figure PCTKR2022008543-appb-img-000045
may be a layer that passes through concatenation.
상술된 과정에 의해, 생성된 어텐션 맵(322)은 저해상도 얼굴 인식 네트워크(330)로 전달될 수 있다. 여기서, 저해상도 얼굴 인식 네트워크(330)는 저해상도 이미지(340)를 이용하여 얼굴 인식(346)을 수행하기 위한 네트워크일 수 있다. 여기서, 저해상도 이미지(340)는 고해상도 이미지(320)와 동일한 형상 및/또는 모양을 포함하되, 해상도가 상이한 이미지일 수 있다. 일 실시예에 따르면, 저해상도 얼굴 인식 네트워크(330)로부터 다른 어텐션 맵(342)이 추출될 수 있다. 이 경우, 다른 어텐션 맵(342)은 전달받은 어텐션 맵(322)과 유사해지도록 학습되거나 증류되어, 더 정밀한 어텐션 맵(344)으로 변환될 수 있다.The attention map 322 generated through the above process may be transmitted to the low-resolution face recognition network 330 . Here, the low-resolution face recognition network 330 may be a network for performing face recognition 346 using the low-resolution image 340 . Here, the low-resolution image 340 may have the same shape and/or shape as the high-resolution image 320, but may have a different resolution. According to one embodiment, another attention map 342 may be extracted from the low-resolution face recognition network 330 . In this case, another attention map 342 may be learned or distilled to be similar to the received attention map 322 and converted into a more precise attention map 344 .
도 3에서는 채널 어텐션 맵과 공간 어텐션 맵이 각각 산출되는 것으로 상술되었으나, 이에 한정되지 않으며, 채널 어텐션 맵과 공간 어텐션 맵은 컨볼루션 블록 어텐션 모듈(CBAM: convolution block attention module) 등에 의해 동시에 생성되거나 산출될 수 있다. 이와 같은 구성에 의해, 주행 로봇 등에 포함된 낮은 컴퓨팅 파워로 인해, 저해상도 이미지만을 수신하는 경우에도, 저해상도 얼굴 인식 네트워크(330)는 정밀한 어텐션 맵을 생성하고, 이에 따라 더 정확하게 저해상도 이미지에 포함된 얼굴을 인식할 수 있다. 다시 말해, 저해상도 얼굴 인식 네트워크(330)는 해상도가 낮은 이미지 센서로부터 촬영된 이미지를 이용해서 높은 성능의 얼굴 인식을 수행할 수 있다. 또한, 저해상도 얼굴 인식 네트워크(330)는 다수 로봇, 에지 디바이스에서 저가형 IoT 센서를 활용한 운용 시스템을 구축하는데 사용될 수 있으므로, 하드웨어 비용이 효과적으로 절감될 수 있다.In FIG. 3, it has been described in detail that the channel attention map and the spatial attention map are calculated respectively, but the present invention is not limited thereto, and the channel attention map and the spatial attention map are simultaneously generated or calculated by a convolution block attention module (CBAM) or the like. It can be. With this configuration, even when only a low-resolution image is received due to low computing power included in the driving robot or the like, the low-resolution face recognition network 330 generates a precise attention map, and accordingly, the face included in the low-resolution image more accurately. can recognize In other words, the low-resolution face recognition network 330 may perform high-performance face recognition using an image taken from a low-resolution image sensor. In addition, since the low-resolution face recognition network 330 can be used to build an operating system using low-cost IoT sensors in multiple robots and edge devices, hardware costs can be effectively reduced.
도 4는 본 발명의 일 실시예에 따른 고해상도 얼굴 인식 네트워크가 학습되는 예시를 나타내는 도면이다. 상술된 바와 같이, 고해상도 얼굴 인식 네트워크는 사람의 얼굴을 포함하는 고해상도 이미지(420)를 기초로 해당 사람의 얼굴을 인식하도록 학습될 수 있다. 일 실시예에 따르면, 고해상도 얼굴 인식 네트워크는 고해상도 이미지의 특징을 추출하기 위한 복수의 블록(410) 및 각각의 블록(410)에 대응하는 어텐션 모듈(예: 채널 어텐션 모듈, 공간 어텐션 모듈, 컨볼루션 블록 어텐션 모듈 등)을 포함할 수 있다. 다시 말해, 각각의 블록(410)은 어텐션 맵을 추출하기 위한 어텐션 모듈과 연관될 수 있다. 즉, 각 블록(410)에 대응하는 어텐션 맵은 어텐션 모듈에 의해 추출될 수 있다.4 is a diagram illustrating an example of learning a high-resolution face recognition network according to an embodiment of the present invention. As described above, the high-resolution face recognition network may be trained to recognize a person's face based on the high-resolution image 420 including the person's face. According to an embodiment, the high-resolution face recognition network includes a plurality of blocks 410 for extracting features of a high-resolution image and attention modules corresponding to each block 410 (eg, channel attention module, spatial attention module, convolution block attention module, etc.). In other words, each block 410 may be associated with an attention module for extracting an attention map. That is, the attention map corresponding to each block 410 may be extracted by the attention module.
일 실시예에 따르면, 복수의 블록(410_1, 410_2, 410_3, 410_4)에 포함된 제1 블록(B1)(410_1)(예: 제1 블록과 대응되는 어텐션 모듈)으로부터 제1 초기 어텐션 맵이 추출되고, 제1 블록(410_1)과 연결된 제2 블록(B2)(410_2)으로부터 제2 초기 어텐션 맵이 추출될 수 있다. 이 경우, 지식 증류를 이용하여 제2 초기 어텐션 맵이 제1 초기 어텐션 맵과 유사해지도록 학습될 수 있다.According to an embodiment, a first initial attention map is extracted from a first block (B1) (410_1) (eg, an attention module corresponding to the first block) included in the plurality of blocks 410_1, 410_2, 410_3, and 410_4. and a second initial attention map may be extracted from the second block (B2) 410_2 connected to the first block 410_1. In this case, the second initial attention map may be learned to be similar to the first initial attention map by using knowledge distillation.
도시된 예에서, 제2 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000046
)은 제1 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000047
)과 유사해지도록 학습될 수 있다. 이 경우, 제1 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000048
)의 어텐션 크기(attention size)는 제2 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000049
)의 어텐션 크기보다 특정 비율(예: 2 배)만큼 클 수 있다. 따라서, 지식 증류를 위해 제1 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000050
)의 크기는 맥스 풀링 레이어를 이용하여 해당 특정 비율만큼 작아질 수 있다. 그리고 나서, 동일한 크기의 제1 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000051
) 및 제2 초기 어텐션 맵(
Figure PCTKR2022008543-appb-img-000052
)에 대한 지식 증류가 수행될 수 있다.
In the illustrated example, the second initial attention map (
Figure PCTKR2022008543-appb-img-000046
) is the first initial attention map (
Figure PCTKR2022008543-appb-img-000047
) can be learned to be similar to In this case, the first initial attention map (
Figure PCTKR2022008543-appb-img-000048
The attention size of ) is the second initial attention map (
Figure PCTKR2022008543-appb-img-000049
) by a certain percentage (eg twice). Therefore, for knowledge distillation, the first initial attention map (
Figure PCTKR2022008543-appb-img-000050
) may be reduced by a specific ratio using a max pooling layer. Then, a first initial attention map of the same size (
Figure PCTKR2022008543-appb-img-000051
) and the second initial attention map (
Figure PCTKR2022008543-appb-img-000052
), knowledge distillation can be performed.
도 4에서는 고해상도 얼굴 인식 네트워크가 4개의 블록(410) 및 4개의 어텐션 모듈을 포함하는 것으로 도시되었으나, 이에 한정되지 않으며, 임의의 개수의 블록 및 어텐션 모듈이 고해상도 얼굴 인식 네트워크에 포함될 수 있다. 또한, 도 4에서는 하나의 고해상도 이미지(420)에 대한 초기 어텐션 맵이 생성되고, 지식 증류가 수행되는 것으로 상술되었으나, 이에 한정되지 않으며, 복수의 고해상도 이미지 각각에 대해 지식 증류가 수행될 수 있다.In FIG. 4 , the high-resolution face recognition network is illustrated as including four blocks 410 and four attention modules, but is not limited thereto, and any number of blocks and attention modules may be included in the high-resolution face recognition network. In addition, although it has been described in FIG. 4 that an initial attention map is generated for one high-resolution image 420 and knowledge distillation is performed, the present invention is not limited thereto, and knowledge distillation may be performed for each of a plurality of high-resolution images.
도 5는 본 발명의 일 실시예에 따른 저해상도 얼굴 인식 네트워크가 학습되는 예시를 나타내는 도면이다. 상술된 바와 같이, 고해상도 얼굴 인식 네트워크는 고해상도 이미지를 이용하여 얼굴 인식을 수행하도록 학습될 수 있다. 또한, 저해상도 얼굴 인식 네트워크는 저해상도 이미지(520)를 이용하여 얼굴 인식을 수행하도록 학습될 수 있다. 이와 같이 학습되는 경우, 고해상도 얼굴 인식 네트워크와 연관된 제2 어텐션 맵(
Figure PCTKR2022008543-appb-img-000053
)이 생성될 수 있으며, 저해상도 얼굴 인식 네트워크와 연관된 제1 어텐션 맵(
Figure PCTKR2022008543-appb-img-000054
)이 생성될 수 있다.
5 is a diagram illustrating an example of learning a low-resolution face recognition network according to an embodiment of the present invention. As described above, a high-resolution face recognition network can be trained to perform face recognition using high-resolution images. Additionally, the low-resolution face recognition network may be trained to perform face recognition using the low-resolution image 520 . When learned in this way, the second attention map associated with the high-resolution face recognition network (
Figure PCTKR2022008543-appb-img-000053
) may be generated, and the first attention map associated with the low-resolution face recognition network (
Figure PCTKR2022008543-appb-img-000054
) can be created.
저해상도 얼굴 인식 네트워크(또는 저해상도 얼굴 인식 네트워크에 포함된 복수의 블록(510) 및 어텐션 모듈) 는 고해상도 얼굴 인식 네트워크(또는 저해상도 얼굴 인식 네트워크에 포함된 복수의 블록(410) 및 어텐션 모듈) 로부터 제1 어텐션 맵(
Figure PCTKR2022008543-appb-img-000055
)을 전달받을 수 있다. 그리고 나서, 제2 어텐션 맵(
Figure PCTKR2022008543-appb-img-000056
)은 지식 증류를 이용하여 제1 어텐션 맵과 유사해지도록 학습될 수 있다. 여기서, 제1 어텐션 맵은 고해상도 얼굴 인식 네트워크의 각각의 블록(410)과 대응하는 복수의 초기 어텐션 맵을 포함할 수 있으며, 제2 어텐션 맵은 저해상도 얼굴 인식 네트워크의 각각의 블록(510)과 대응하는 복수의 초기 어텐션 맵을 포함할 수 있다. 즉, 지식 증류는 네트워크의 각각의 블록에서 수행될 수 있으나, 이에 한정되지 않는다. 이와 같이, 학습 과정에서 많은 용량이 요구되는 특징 벡터(feature vector)가 아닌 어텐션 맵을 전달함으로써, 효율적으로 저해상도 얼굴 인식 네트워크의 학습이 수행될 수 있다.
The low-resolution face recognition network (or the plurality of blocks 510 and the attention module included in the low-resolution face recognition network) receives a first signal from the high-resolution face recognition network (or the plurality of blocks 410 and the attention module included in the low-resolution face recognition network). Attention map (
Figure PCTKR2022008543-appb-img-000055
) can be delivered. Then, the second attention map (
Figure PCTKR2022008543-appb-img-000056
) may be learned to be similar to the first attention map using knowledge distillation. Here, the first attention map may include a plurality of initial attention maps corresponding to each block 410 of the high-resolution face recognition network, and the second attention map corresponds to each block 510 of the low-resolution face recognition network. may include a plurality of initial attention maps. That is, knowledge distillation may be performed in each block of the network, but is not limited thereto. In this way, learning of a low-resolution face recognition network can be efficiently performed by transmitting an attention map rather than a feature vector requiring a large capacity in the learning process.
도 5에서는 고해상도 얼굴 인식 네트워크 및 저해상도 얼굴 인식 네트워크가 4개의 블록 및 4개의 어텐션 모듈을 포함하는 것으로 도시되었으나, 이에 한정되지 않으며, 임의의 개수의 블록 및 어텐션 모듈이 네트워크에 포함될 수 있다. 또한, 도 5에서는 각각의 네트워크에서 하나의 이미지(420, 520)에 대한 어텐션 맵이 생성되고, 지식 증류가 수행되는 것으로 상술되었으나, 이에 한정되지 않으며, 복수의 이미지 각각에 대해 지식 증류가 수행될 수 있다. 이와 같은 구성에 의해, 고해상도 얼굴 인식 네트워크에서 추출된 어텐션 맵과 저해상도 얼굴 인식 네트워크에서 추출된 어텐션 맵이 상당히 높은 상관관계를 가질 수 있으며, 그에 따라, 저해상도 이미지(520)를 이용하는 경우에도 높은 정확도로 얼굴 인식이 수행될 수 있다.In FIG. 5 , the high-resolution face recognition network and the low-resolution face recognition network are illustrated as including 4 blocks and 4 attention modules, but are not limited thereto, and any number of blocks and attention modules may be included in the network. In addition, although it has been described in FIG. 5 that an attention map is generated for one image 420 and 520 in each network and knowledge distillation is performed, the present invention is not limited thereto, and knowledge distillation may be performed for each of a plurality of images. can With this configuration, the attention map extracted from the high-resolution face recognition network and the attention map extracted from the low-resolution face recognition network can have a significantly high correlation, and accordingly, even when using the low-resolution image 520, high accuracy can be achieved. Face recognition may be performed.
도 6은 본 발명의 일 실시예에 따른 어텐션 맵 전달 방법(600)의 예시를 나타내는 흐름도이다. 어텐션 맵 전달 방법(600)은 프로세서(예를 들어, 컴퓨팅 장치의 적어도 하나의 프로세서)에 의해 수행될 수 있다. 도시된 바와 같이, 어텐션 맵 전달 방법(600)은 프로세서가 사람의 얼굴을 포함하는 고해상도 이미지를 기초로 사람의 얼굴을 인식하기 위한 고해상도 얼굴 인식 네트워크를 학습함으로써 개시될 수 있다(S610). 예를 들어, 프로세서는 복수의 블록에 포함된 제1 블록으로부터 제1 초기 어텐션 맵을 추출하고, 제1 블록과 연결된 제2 블록으로부터 제2 초기 어텐션 맵을 추출하고, 지식 증류를 이용하여 제2 초기 어텐션 맵이 제1 초기 어텐션 맵과 유사해지도록 고해상도 얼굴 인식 네트워크를 학습할 수 있다.6 is a flowchart illustrating an example of an attention map transmission method 600 according to an embodiment of the present invention. The attention map transmission method 600 may be performed by a processor (eg, at least one processor of a computing device). As shown, the attention map transfer method 600 may be initiated by a processor learning a high-resolution face recognition network for recognizing a human face based on a high-resolution image including the human face (S610). For example, the processor extracts a first initial attention map from a first block included in a plurality of blocks, extracts a second initial attention map from a second block connected to the first block, and extracts a second initial attention map by using knowledge distillation. The high-resolution face recognition network may be trained to make the initial attention map similar to the first initial attention map.
프로세서는 학습된 고해상도 얼굴 인식 네트워크로부터 고해상도 이미지와 연관된 제1 어텐션 맵을 추출할 수 있다(S620). 또한, 프로세서는 추출된 제1 어텐션 맵을, 사람의 얼굴을 포함하는 저해상도 이미지를 기초로 사람의 얼굴을 인식하기 위한 저해상도 얼굴 인식 네트워크 상에 전달할 수 있다(S630). 여기서, 저해상도 이미지는 프로세서에 의해 생성될 수 있다. 예를 들어, 프로세서는 사람의 얼굴을 포함하는 고해상도 이미지를 획득하고, 획득된 고해상도 이미지에 대한 다운 샘플링을 수행할 수 있다. 그리고 나서, 프로세서는 다운 샘플링된 이미지에 대한 블러 처리를 수행하고, 블러 처리된 이미지의 크기를 고해상도 이미지에 대응하는 크기로 변경하여 저해상도 이미지를 생성할 수 있다.The processor may extract a first attention map associated with the high-resolution image from the trained high-resolution face recognition network (S620). In addition, the processor may transmit the extracted first attention map to a low-resolution face recognition network for recognizing a human face based on a low-resolution image including the human face (S630). Here, the low-resolution image may be generated by a processor. For example, the processor may acquire a high-resolution image including a human face and perform down-sampling on the acquired high-resolution image. Then, the processor may perform blur processing on the downsampled image and change the size of the blurred image to a size corresponding to the high resolution image to generate a low resolution image.
프로세서는 전달된 제1 어텐션 맵을 이용하여 저해상도 얼굴 인식 네트워크를 학습할 수 있다(S640). 예를 들어, 프로세서는 저해상도 얼굴 인식 네트워크로부터 제2 어텐션 맵을 추출하고, 지식 증류를 이용하여 제2 어텐션 맵이 제1 어텐션 맵과 유사해지도록 저해상도 얼굴 인식 네트워크를 학습할 수 있다.The processor may learn the low-resolution face recognition network using the transferred first attention map (S640). For example, the processor may extract the second attention map from the low-resolution face recognition network and learn the low-resolution face recognition network to make the second attention map similar to the first attention map by using knowledge distillation.
도 7은 본 발명의 일 실시예에 따른 컴퓨팅 장치(700)의 내부 구성을 나타내는 블록도이다. 컴퓨팅 장치(700)는 메모리(710), 프로세서(720), 통신 모듈(730) 및 입출력 인터페이스(740)를 포함할 수 있다. 도 7에 도시된 바와 같이, 컴퓨팅 장치(700)는 통신 모듈(730)을 이용하여 네트워크를 통해 정보 및/또는 데이터를 통신할 수 있도록 구성될 수 있다.7 is a block diagram showing an internal configuration of a computing device 700 according to an embodiment of the present invention. The computing device 700 may include a memory 710 , a processor 720 , a communication module 730 and an input/output interface 740 . As shown in FIG. 7 , the computing device 700 may be configured to communicate information and/or data over a network using a communication module 730 .
메모리(710)는 비-일시적인 임의의 컴퓨터 판독 가능한 기록매체를 포함할 수 있다. 일 실시예에 따르면, 메모리(710)는 RAM(random access memory), ROM(read only memory), 디스크 드라이브, SSD(solid state drive), 플래시 메모리(flash memory) 등과 같은 비소멸성 대용량 저장 장치(permanent mass storage device)를 포함할 수 있다. 다른 예로서, ROM, SSD, 플래시 메모리, 디스크 드라이브 등과 같은 비소멸성 대용량 저장 장치는 메모리와는 구분되는 별도의 영구 저장 장치로서 컴퓨팅 장치(700)에 포함될 수 있다. 또한, 메모리(710)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. Memory 710 may include any non-transitory computer readable storage medium. According to one embodiment, the memory 710 is a non-perishable mass storage device (permanent mass storage device) such as random access memory (RAM), read only memory (ROM), disk drive, solid state drive (SSD), flash memory, and the like. mass storage device). As another example, a non-perishable mass storage device such as a ROM, SSD, flash memory, or disk drive may be included in the computing device 700 as a separate permanent storage device separate from memory. Also, an operating system and at least one program code may be stored in the memory 710 .
이러한 소프트웨어 구성요소들은 메모리(710)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 이러한 컴퓨팅 장치(700)에 직접 연결가능한 기록 매체를 포함할 수 있는데, 예를 들어, 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 예로서, 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 모듈(730)을 통해 메모리(710)에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 어플리케이션의 설치 파일을 배포하는 파일 배포 시스템이 통신 모듈(730)을 통해 제공하는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 메모리(710)에 로딩될 수 있다.These software components may be loaded from a computer-readable recording medium separate from the memory 710 . A recording medium readable by such a separate computer may include a recording medium directly connectable to the computing device 700, for example, a floppy drive, a disk, a tape, a DVD/CD-ROM drive, a memory card, and the like. It may include a computer-readable recording medium. As another example, software components may be loaded into the memory 710 through the communication module 730 rather than a computer-readable recording medium. For example, at least one program may be loaded into the memory 710 based on a computer program installed by files provided by developers or a file distribution system that distributes application installation files through the communication module 730. can
프로세서(720)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(710) 또는 통신 모듈(730)에 의해 사용자 단말(미도시) 또는 다른 외부 시스템으로 제공될 수 있다.The processor 720 may be configured to process commands of a computer program by performing basic arithmetic, logic, and input/output operations. Commands may be provided to a user terminal (not shown) or other external system by the memory 710 or the communication module 730 .
통신 모듈(730)은 네트워크를 통해 사용자 단말(미도시)과 컴퓨팅 장치(700)가 서로 통신하기 위한 구성 또는 기능을 제공할 수 있으며, 컴퓨팅 장치(700)가 외부 시스템(일례로 별도의 클라우드 시스템 등)과 통신하기 위한 구성 또는 기능을 제공할 수 있다. 일례로, 컴퓨팅 장치(700)의 프로세서(720)의 제어에 따라 제공되는 제어 신호, 명령, 데이터 등이 통신 모듈(730)과 네트워크를 거쳐 사용자 단말 및/또는 외부 시스템의 통신 모듈을 통해 사용자 단말 및/또는 외부 시스템으로 전송될 수 있다.The communication module 730 may provide a configuration or function for a user terminal (not shown) and the computing device 700 to communicate with each other through a network, and the computing device 700 may provide an external system (for example, a separate cloud system). etc.) may provide a configuration or function to communicate with. For example, control signals, commands, data, etc. provided under the control of the processor 720 of the computing device 700 are transmitted through the communication module 730 and the network to the user terminal and/or to the user terminal through the communication module of the external system. and/or transmitted to an external system.
또한, 컴퓨팅 장치(700)의 입출력 인터페이스(740)는 컴퓨팅 장치(700)와 연결되거나 컴퓨팅 장치(700)가 포함할 수 있는 입력 또는 출력을 위한 장치(미도시)와의 인터페이스를 위한 수단일 수 있다. 도 7에서는 입출력 인터페이스(740)가 프로세서(720)와 별도로 구성된 요소로서 도시되었으나, 이에 한정되지 않으며, 입출력 인터페이스(740)가 프로세서(720)에 포함되도록 구성될 수 있다. 컴퓨팅 장치(700)는 도 7의 구성요소들보다 더 많은 구성요소들을 포함할 수 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다.Also, the input/output interface 740 of the computing device 700 may be connected to the computing device 700 or may be a means for interface with a device (not shown) for input or output that may be included in the computing device 700. . In FIG. 7 , the input/output interface 740 is illustrated as an element separately configured from the processor 720 , but is not limited thereto, and the input/output interface 740 may be included in the processor 720 . Computing device 700 may include many more components than those of FIG. 7 . However, there is no need to clearly show most of the prior art components.
컴퓨팅 장치(700)의 프로세서(720)는 복수의 사용자 단말 및/또는 복수의 외부 시스템으로부터 수신된 정보 및/또는 데이터를 관리, 처리 및/또는 저장하도록 구성될 수 있다. The processor 720 of the computing device 700 may be configured to manage, process, and/or store information and/or data received from a plurality of user terminals and/or a plurality of external systems.
상술된 방법 및/또는 다양한 실시예들은, 디지털 전자 회로, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 본 발명의 다양한 실시예들은 데이터 처리 장치, 예를 들어, 프로그래밍 가능한 하나 이상의 프로세서 및/또는 하나 이상의 컴퓨팅 장치에 의해 실행되거나, 컴퓨터 판독 가능한 기록 매체 및/또는 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 상술된 컴퓨터 프로그램은 컴파일된 언어 또는 해석된 언어를 포함하여 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램, 모듈, 서브 루틴 등의 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨팅 장치, 동일한 네트워크를 통해 연결된 복수의 컴퓨팅 장치 및/또는 복수의 상이한 네트워크를 통해 연결되도록 분산된 복수의 컴퓨팅 장치를 통해 배포될 수 있다.The above-described methods and/or various embodiments may be realized with digital electronic circuits, computer hardware, firmware, software, and/or combinations thereof. Various embodiments of the present invention may be performed by a data processing device, eg, one or more programmable processors and/or one or more computing devices, or as a computer readable recording medium and/or a computer program stored on a computer readable recording medium. can be implemented The above-described computer programs may be written in any form of programming language, including compiled or interpreted languages, and may be distributed in any form, such as a stand-alone program, module, or subroutine. A computer program may be distributed over one computing device, multiple computing devices connected through the same network, and/or distributed over multiple computing devices connected through multiple different networks.
상술된 방법 및/또는 다양한 실시예들은, 입력 데이터를 기초로 동작하거나 출력 데이터를 생성함으로써, 임의의 기능, 함수 등을 처리, 저장 및/또는 관리하는 하나 이상의 컴퓨터 프로그램을 실행하도록 구성된 하나 이상의 프로세서에 의해 수행될 수 있다. 예를 들어, 본 발명의 방법 및/또는 다양한 실시예는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 특수 목적 논리 회로에 의해 수행될 수 있으며, 본 발명의 방법 및/또는 실시예들을 수행하기 위한 장치 및/또는 시스템은 FPGA 또는 ASIC와 같은 특수 목적 논리 회로로서 구현될 수 있다.The methods and/or various embodiments described above may be performed by one or more processors configured to execute one or more computer programs that process, store, and/or manage any function, function, or the like, by operating on input data or generating output data. can be performed by For example, the method and/or various embodiments of the present invention may be performed by a special purpose logic circuit such as a Field Programmable Gate Array (FPGA) or an Application Specific Integrated Circuit (ASIC), and the method and/or various embodiments of the present invention may be performed. Apparatus and/or systems for performing the embodiments may be implemented as special purpose logic circuits such as FPGAs or ASICs.
컴퓨터 프로그램을 실행하는 하나 이상의 프로세서는, 범용 목적 또는 특수 목적의 마이크로 프로세서 및/또는 임의의 종류의 디지털 컴퓨팅 장치의 하나 이상의 프로세서를 포함할 수 있다. 프로세서는 읽기 전용 메모리, 랜덤 액세스 메모리의 각각으로부터 명령 및/또는 데이터를 수신하거나, 읽기 전용 메모리와 랜덤 액세스 메모리로부터 명령 및/또는 데이터를 수신할 수 있다. 본 발명에서, 방법 및/또는 실시예들을 수행하는 컴퓨팅 장치의 구성 요소들은 명령어들을 실행하기 위한 하나 이상의 프로세서, 명령어들 및/또는 데이터를 저장하기 위한 하나 이상의 메모리 디바이스를 포함할 수 있다.The one or more processors executing the computer program may include a general purpose or special purpose microprocessor and/or one or more processors of any kind of digital computing device. The processor may receive instructions and/or data from each of the read-only memory and the random access memory, or receive instructions and/or data from the read-only memory and the random access memory. In the present invention, components of a computing device performing methods and/or embodiments may include one or more processors for executing instructions, and one or more memory devices for storing instructions and/or data.
일 실시예에 따르면, 컴퓨팅 장치는 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치와 데이터를 주고받을 수 있다. 예를 들어, 컴퓨팅 장치는 자기 디스크(magnetic disc) 또는 광 디스크(optical disc)로부터 데이터를 수신하거나/수신하고, 자기 디스크 또는 광 디스크로 데이터를 전송할 수 있다. 컴퓨터 프로그램과 연관된 명령어들 및/또는 데이터를 저장하기에 적합한 컴퓨터 판독 가능한 저장 매체는, EPROM(Erasable Programmable Read-Only Memory), EEPROM(Electrically Erasable PROM), 플래시 메모리 장치 등의 반도체 메모리 장치를 포함하는 임의의 형태의 비 휘발성 메모리를 포함할 수 있으나, 이에 한정되지 않는다. 예를 들어, 컴퓨터 판독 가능한 저장 매체는 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크, 광 자기 디스크, CD-ROM 및 DVD-ROM 디스크를 포함할 수 있다.According to one embodiment, a computing device may exchange data with one or more mass storage devices for storing data. For example, a computing device may receive/receive data from and transfer data to a magnetic or optical disc. A computer-readable storage medium suitable for storing instructions and/or data associated with a computer program includes semiconductor memory devices such as Erasable Programmable Read-Only Memory (EPROM), Electrically Erasable PROM (EEPROM), and flash memory devices. Any type of non-volatile memory may be included, but is not limited thereto. For example, computer readable storage media may include magnetic disks such as internal hard disks or removable disks, magneto-optical disks, CD-ROM and DVD-ROM disks.
사용자와의 상호 작용을 제공하기 위해, 컴퓨팅 장치는 정보를 사용자에게 제공하거나 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT (Cathode Ray Tube), LCD(Liquid Crystal Display) 등) 및 사용자가 컴퓨팅 장치 상에 입력 및/또는 명령 등을 제공할 수 있는 포인팅 장치(예를 들어, 키보드, 마우스, 트랙볼 등)를 포함할 수 있으나, 이에 한정되지 않는다. 즉, 컴퓨팅 장치는 사용자와의 상호 작용을 제공하기 위한 임의의 다른 종류의 장치들을 더 포함할 수 있다. 예를 들어, 컴퓨팅 장치는 사용자와의 상호 작용을 위해, 시각적 피드백, 청각 피드백 및/또는 촉각 피드백 등을 포함하는 임의의 형태의 감각 피트백을 사용자에게 제공할 수 있다. 이에 대해, 사용자는 시각, 음성, 동작 등의 다양한 제스처를 통해 컴퓨팅 장치로 입력을 제공할 수 있다.To provide interaction with a user, a computing device includes a display device (eg, a cathode ray tube (CRT), a liquid crystal display (LCD), etc.) It may include a pointing device (eg, a keyboard, mouse, trackball, etc.) capable of providing input and/or commands to, but is not limited thereto. That is, the computing device may further include any other type of device for providing interaction with a user. For example, a computing device may provide any form of sensory feedback to a user for interaction with the user, including visual feedback, auditory feedback, and/or tactile feedback. In this regard, the user may provide input to the computing device through various gestures such as visual, voice, and motion.
본 발명에서, 다양한 실시예들은 백엔드 구성 요소(예: 데이터 서버), 미들웨어 구성 요소(예: 애플리케이션 서버) 및/또는 프론트 엔드 구성 요소를 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 이 경우, 구성 요소들은 통신 네트워크와 같은 디지털 데이터 통신의 임의의 형태 또는 매체에 의해 상호 연결될 수 있다. 예를 들어, 통신 네트워크는 LAN(Local Area Network), WAN(Wide Area Network) 등을 포함할 수 있다.In the present invention, various embodiments may be implemented in a computing system including a back-end component (eg, a data server), a middleware component (eg, an application server), and/or a front-end component. In this case, the components may be interconnected by any form or medium of digital data communication, such as a communication network. For example, the communication network may include a local area network (LAN), a wide area network (WAN), and the like.
본 명세서에서 기술된 예시적인 실시예들에 기반한 컴퓨팅 장치는, 사용자 디바이스, 사용자 인터페이스(UI) 디바이스, 사용자 단말 또는 클라이언트 디바이스를 포함하여 사용자와 상호 작용하도록 구성된 하드웨어 및/또는 소프트웨어를 사용하여 구현될 수 있다. 예를 들어, 컴퓨팅 장치는 랩톱(laptop) 컴퓨터와 같은 휴대용 컴퓨팅 장치를 포함할 수 있다. 추가적으로 또는 대안적으로, 컴퓨팅 장치는, PDA(Personal Digital Assistants), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, VR(virtual reality) 디바이스, AR(augmented reality) 디바이스 등을 포함할 수 있으나, 이에 한정되지 않는다. 컴퓨팅 장치는 사용자와 상호 작용하도록 구성된 다른 유형의 장치를 더 포함할 수 있다. 또한, 컴퓨팅 장치는 이동 통신 네트워크 등의 네트워크를 통한 무선 통신에 적합한 휴대용 통신 디바이스(예를 들어, 이동 전화, 스마트 전화, 무선 셀룰러 전화 등) 등을 포함할 수 있다. 컴퓨팅 장치는, 무선 주파수(RF; Radio Frequency), 마이크로파 주파수(MWF; Microwave Frequency) 및/또는 적외선 주파수(IRF; Infrared Ray Frequency)와 같은 무선 통신 기술들 및/또는 프로토콜들을 사용하여 네트워크 서버와 무선으로 통신하도록 구성될 수 있다.A computing device based on the example embodiments described herein may be implemented using hardware and/or software configured to interact with a user, including a user device, user interface (UI) device, user terminal, or client device. can For example, the computing device may include a portable computing device such as a laptop computer. Additionally or alternatively, the computing device may include personal digital assistants (PDAs), tablet PCs, game consoles, wearable devices, internet of things (IoT) devices, virtual reality (VR) devices, AR (augmented reality) device, etc. may be included, but is not limited thereto. A computing device may further include other types of devices configured to interact with a user. Further, the computing device may include a portable communication device (eg, a mobile phone, smart phone, wireless cellular phone, etc.) suitable for wireless communication over a network, such as a mobile communication network. A computing device communicates wirelessly with a network server using wireless communication technologies and/or protocols such as radio frequency (RF), microwave frequency (MWF) and/or infrared ray frequency (IRF). It can be configured to communicate with.
본 발명에서 특정 구조적 및 기능적 세부 사항을 포함하는 다양한 실시예들은 예시적인 것이다. 따라서, 본 발명의 실시예들은 상술된 것으로 한정되지 않으며, 여러 가지 다른 형태로 구현될 수 있다. 또한, 본 발명에서 사용된 용어는 일부 실시예를 설명하기 위한 것이며 실시예를 제한하는 것으로 해석되지 않는다. 예를 들어, 단수형 단어 및 상기는 문맥상 달리 명확하게 나타내지 않는 한 복수형도 포함하는 것으로 해석될 수 있다.The various embodiments herein, including specific structural and functional details, are exemplary. Accordingly, embodiments of the present invention are not limited to those described above and may be implemented in various other forms. In addition, terms used in the present invention are for describing some embodiments and are not construed as limiting the embodiments. For example, the singular and the above may be construed to include the plural as well, unless the context clearly dictates otherwise.
본 발명에서, 달리 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함하여 본 명세서에서 사용되는 모든 용어는 이러한 개념이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 또한, 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 맥락에서의 의미와 일치하는 의미를 갖는 것으로 해석되어야 한다.In the present invention, unless defined otherwise, all terms used in this specification, including technical or scientific terms, have the same meaning as commonly understood by a person of ordinary skill in the art to which such concept belongs. . In addition, terms commonly used, such as terms defined in a dictionary, should be interpreted as having a meaning consistent with the meaning in the context of the related technology.
본 명세서에서는 본 발명이 일부 실시예들과 관련하여 설명되었지만, 본 발명의 발명이 속하는 기술분야의 통상의 기술자가 이해할 수 있는 본 발명의 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다. 또한, 그러한 변형 및 변경은 본 명세서에 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다.Although the present invention has been described in relation to some embodiments in this specification, various modifications and changes can be made without departing from the scope of the present invention that can be understood by those skilled in the art. Moreover, such modifications and variations are intended to fall within the scope of the claims appended hereto.

Claims (9)

  1. 적어도 하나의 프로세서에 의해 수행되는 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵(attention map) 전달 방법으로서,As an attention map delivery method for improving face recognition performance of a low-resolution image performed by at least one processor,
    사람의 얼굴을 포함하는 고해상도 이미지를 기초로 상기 사람의 얼굴을 인식하기 위한 고해상도 얼굴 인식 네트워크를 학습하는 단계;learning a high-resolution face recognition network for recognizing a human face based on a high-resolution image including the human face;
    상기 학습된 고해상도 얼굴 인식 네트워크로부터 상기 고해상도 이미지와 연관된 제1 어텐션 맵(attention map)을 추출하는 단계;extracting a first attention map associated with the high-resolution image from the trained high-resolution face recognition network;
    상기 추출된 제1 어텐션 맵을, 상기 사람의 얼굴을 포함하는 저해상도 이미지를 기초로 상기 사람의 얼굴을 인식하기 위한 저해상도 얼굴 인식 네트워크 상에 전달하는 단계; 및transmitting the extracted first attention map to a low-resolution face recognition network for recognizing the human face based on a low-resolution image including the human face; and
    상기 전달된 제1 어텐션 맵을 이용하여 상기 저해상도 얼굴 인식 네트워크를 학습하는 단계;learning the low-resolution face recognition network using the transferred first attention map;
    를 포함하는, 어텐션 맵 전달 방법.Including, Attention map delivery method.
  2. 제1항에 있어서,According to claim 1,
    상기 저해상도 얼굴 인식 네트워크를 학습하는 단계는,Learning the low-resolution face recognition network,
    상기 저해상도 얼굴 인식 네트워크로부터 제2 어텐션 맵을 추출하는 단계; 및extracting a second attention map from the low-resolution face recognition network; and
    지식 증류(knowledge distillation)를 이용하여 상기 제2 어텐션 맵이 상기 제1 어텐션 맵과 유사해지도록 상기 저해상도 얼굴 인식 네트워크를 학습하는 단계;learning the low-resolution face recognition network to make the second attention map similar to the first attention map using knowledge distillation;
    를 포함하는, 어텐션 맵 전달 방법.Including, Attention map delivery method.
  3. 제2항에 있어서,According to claim 2,
    상기 제2 어텐션 맵이 상기 제1 어텐션 맵과 유사해지도록 상기 저해상도 얼굴 인식 네트워크를 학습하는 단계는,The step of learning the low-resolution face recognition network so that the second attention map is similar to the first attention map,
    얼굴 인식 손실과 상기 저해상도 얼굴 인식 네트워크에서의 증류 손실(distillation loss)의 합을 이용하여 상기 저해상도 얼굴 인식 네트워크를 학습하는 단계;learning the low-resolution face recognition network using a sum of a face recognition loss and a distillation loss in the low-resolution face recognition network;
    를 포함하는, 어텐션 맵 전달 방법.Including, Attention map delivery method.
  4. 제1항에 있어서,According to claim 1,
    상기 고해상도 얼굴 인식 네트워크는 순차적으로 연결된 복수의 블록(block)을 포함하고,The high-resolution face recognition network includes a plurality of blocks sequentially connected,
    상기 고해상도 얼굴 인식 네트워크를 학습하는 단계는,The step of learning the high-resolution face recognition network,
    상기 복수의 블록에 포함된 제1 블록으로부터 제1 초기 어텐션 맵을 추출하는 단계;extracting a first initial attention map from a first block included in the plurality of blocks;
    상기 제1 블록과 연결된 제2 블록으로부터 제2 초기 어텐션 맵을 추출하는 단계; 및extracting a second initial attention map from a second block connected to the first block; and
    지식 증류를 이용하여 상기 제2 초기 어텐션 맵이 상기 제1 초기 어텐션 맵과 유사해지도록 상기 고해상도 얼굴 인식 네트워크를 학습하는 단계;training the high-resolution face recognition network to make the second initial attention map similar to the first initial attention map using knowledge distillation;
    를 포함하는, 어텐션 맵 전달 방법.Including, Attention map delivery method.
  5. 제4항에 있어서,According to claim 4,
    상기 제2 초기 어텐션 맵이 상기 제1 초기 어텐션 맵과 유사해지도록 상기 고해상도 얼굴 인식 네트워크를 학습하는 단계는,The step of learning the high-resolution face recognition network so that the second initial attention map is similar to the first initial attention map,
    Figure PCTKR2022008543-appb-img-000057
    에 의해 상기 고해상도 얼굴 인식 네트워크를 학습하는 단계를 포함하고,
    Figure PCTKR2022008543-appb-img-000057
    Learning the high-resolution face recognition network by
    여기서,
    Figure PCTKR2022008543-appb-img-000058
    는 아크페이스 손실과 상기 고해상도 얼굴 인식 네트워크에서의 증류 손실의 합이고,
    Figure PCTKR2022008543-appb-img-000059
    는 상기 고해상도 얼굴 인식 네트워크의 i번째 블록의 공간 어텐션 값을 나타내고,
    Figure PCTKR2022008543-appb-img-000060
    는 상기 증류 손실을 위한 거리 함수를 나타내고,
    Figure PCTKR2022008543-appb-img-000061
    는 맥스 풀링 레이어(max pooling layer)를 나타내는, 어텐션 맵 전달 방법.
    here,
    Figure PCTKR2022008543-appb-img-000058
    is the sum of the arc face loss and the distillation loss in the high-resolution face recognition network,
    Figure PCTKR2022008543-appb-img-000059
    Represents the spatial attention value of the i-th block of the high-resolution face recognition network,
    Figure PCTKR2022008543-appb-img-000060
    represents the distance function for the distillation loss,
    Figure PCTKR2022008543-appb-img-000061
    An attention map delivery method, denoting a max pooling layer.
  6. 제1항에 있어서,According to claim 1,
    상기 사람의 얼굴을 포함하는 고해상도 이미지를 획득하는 단계;obtaining a high-resolution image including the human face;
    상기 획득된 고해상도 이미지에 대한 다운 샘플링(downsampling)을 수행하는 단계;performing downsampling on the obtained high-resolution image;
    상기 다운 샘플링된 이미지에 대한 블러(blur) 처리를 수행하는 단계; 및performing blur processing on the downsampled image; and
    상기 블러 처리된 이미지의 크기를 상기 고해상도 이미지에 대응하는 크기로 변경하여 상기 저해상도 이미지를 생성하는 단계;generating the low-resolution image by changing the size of the blurred image to a size corresponding to the high-resolution image;
    를 더 포함하는, 어텐션 맵 전달 방법.Further comprising, an attention map delivery method.
  7. 제1항에 있어서,According to claim 1,
    상기 제1 어텐션 맵은 얼굴 인식을 위해 특정 기준 이상 참조되는 채널을 나타내는 채널 어텐션 맵 및 얼굴 인식을 위해 다른 특정 기준 이상 참조되는 특징 영역을 나타내는 공간 어텐션 맵을 포함하는, 어텐션 맵 전달 방법.Wherein the first attention map includes a channel attention map indicating a channel referenced for face recognition beyond a specific criterion and a spatial attention map indicating a feature region referenced above another specific criterion for face recognition.
  8. 제1항에 있어서,According to claim 1,
    상기 고해상도 얼굴 인식 네트워크는 상기 고해상도 이미지의 특징(feature)을 추출하기 위한 복수의 블록 및 상기 제1 어텐션 맵을 추출하기 위한 복수의 어텐션 모듈(attention module)을 포함하는, 어텐션 맵 전달 방법.The high-resolution face recognition network includes a plurality of blocks for extracting features of the high-resolution image and a plurality of attention modules for extracting the first attention map.
  9. 제1항 내지 제8항 중 어느 한 항에 따른 방법을 컴퓨터에서 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.A computer program stored in a computer readable recording medium to execute the method according to any one of claims 1 to 8 on a computer.
PCT/KR2022/008543 2021-09-14 2022-06-16 Attention map transferring method and device for enhancement of face recognition performance of low-resolution image WO2023043001A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20210122283 2021-09-14
KR10-2021-0122283 2021-09-14
KR10-2022-0072493 2022-06-15
KR1020220072493A KR20230039509A (en) 2021-09-14 2022-06-15 Method and device for providing attention map to improve face recognition performance of low-resolution image

Publications (1)

Publication Number Publication Date
WO2023043001A1 true WO2023043001A1 (en) 2023-03-23

Family

ID=85603067

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/008543 WO2023043001A1 (en) 2021-09-14 2022-06-16 Attention map transferring method and device for enhancement of face recognition performance of low-resolution image

Country Status (1)

Country Link
WO (1) WO2023043001A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863279A (en) * 2023-09-01 2023-10-10 南京理工大学 Model distillation method for mobile terminal model light weight based on interpretable guidance

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304900A (en) * 2006-05-12 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> Object recognition device and object recognition program
CN112069877A (en) * 2020-07-21 2020-12-11 北京大学 Face information identification method based on edge information and attention mechanism
CN112288627A (en) * 2020-10-23 2021-01-29 武汉大学 Recognition-oriented low-resolution face image super-resolution method
CN112598587A (en) * 2020-12-16 2021-04-02 南京邮电大学 Image processing system and method combining face mask removal and super-resolution

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304900A (en) * 2006-05-12 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> Object recognition device and object recognition program
CN112069877A (en) * 2020-07-21 2020-12-11 北京大学 Face information identification method based on edge information and attention mechanism
CN112288627A (en) * 2020-10-23 2021-01-29 武汉大学 Recognition-oriented low-resolution face image super-resolution method
CN112598587A (en) * 2020-12-16 2021-04-02 南京邮电大学 Image processing system and method combining face mask removal and super-resolution

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIN SUNGHO, CHOI SEUNGJUN, LEE KYOOBIN: "Low-Resolution Image Classification using Knowledge Distillation from High-Resolution Image via Self-Attention Map", JOURNAL OF KIISE, 1 January 2019 (2019-01-01), pages 566 - 568, XP093047730 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863279A (en) * 2023-09-01 2023-10-10 南京理工大学 Model distillation method for mobile terminal model light weight based on interpretable guidance
CN116863279B (en) * 2023-09-01 2023-11-21 南京理工大学 Model distillation method for mobile terminal model light weight based on interpretable guidance

Similar Documents

Publication Publication Date Title
US11615284B2 (en) Efficient transferring of human experiences to robots and other autonomous machines
WO2020027540A1 (en) Apparatus and method for personalized natural language understanding
WO2020224479A1 (en) Method and apparatus for acquiring positions of target, and computer device and storage medium
WO2014051246A1 (en) Method and apparatus for inferring facial composite
EP4105766A1 (en) Image display method and apparatus, and computer device and storage medium
CN113487608B (en) Endoscope image detection method, endoscope image detection device, storage medium, and electronic apparatus
US20220358662A1 (en) Image generation method and device
WO2023043001A1 (en) Attention map transferring method and device for enhancement of face recognition performance of low-resolution image
WO2020017890A1 (en) System and method for 3d association of detected objects
WO2021177784A1 (en) Super-resolution depth map generation for multi-camera or other environments
WO2022124725A1 (en) Method, device, and computer program for predicting interaction between compound and protein
WO2021101097A1 (en) Multi-task fusion neural network architecture
WO2022197136A1 (en) System and method for enhancing machine learning model for audio/video understanding using gated multi-level attention and temporal adversarial training
WO2020231005A1 (en) Image processing device and operation method thereof
WO2022025565A1 (en) System and method for generating bokeh image for dslr quality depth-of-field rendering and refinement and training method for the same
CN112037305B (en) Method, device and storage medium for reconstructing tree-like organization in image
KR20230039509A (en) Method and device for providing attention map to improve face recognition performance of low-resolution image
WO2023185516A1 (en) Method and apparatus for training image recognition model, and recognition method and apparatus, and medium and device
WO2022139327A1 (en) Method and apparatus for detecting unsupported utterances in natural language understanding
WO2023058969A1 (en) Machine learning model compression using weighted low-rank factorization
EP4176393A1 (en) Systems and methods for automatic mixed-precision quantization search
CN111353470B (en) Image processing method and device, readable medium and electronic equipment
CN113989121A (en) Normalization processing method and device, electronic equipment and storage medium
CN114281937A (en) Training method of nested entity recognition model, and nested entity recognition method and device
WO2023059033A1 (en) Small and fast transformer with shared dictionary

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22870091

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE