KR102513285B1 - 멀티 집중 모듈을 이용한 표현 학습 방법 및 시스템 - Google Patents
멀티 집중 모듈을 이용한 표현 학습 방법 및 시스템 Download PDFInfo
- Publication number
- KR102513285B1 KR102513285B1 KR1020220063870A KR20220063870A KR102513285B1 KR 102513285 B1 KR102513285 B1 KR 102513285B1 KR 1020220063870 A KR1020220063870 A KR 1020220063870A KR 20220063870 A KR20220063870 A KR 20220063870A KR 102513285 B1 KR102513285 B1 KR 102513285B1
- Authority
- KR
- South Korea
- Prior art keywords
- feature map
- global
- map
- module
- concentration
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 10
- 229940050561 matrix product Drugs 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000010339 dilation Effects 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims 1
- 238000010168 coupling process Methods 0.000 claims 1
- 238000005859 coupling reaction Methods 0.000 claims 1
- 108091006146 Channels Proteins 0.000 description 33
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 6
- 230000004807 localization Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
- G06F17/153—Multidimensional correlation or convolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Molecular Biology (AREA)
- Mathematical Optimization (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
본 개시의 실시 예에 따른, 멀티 집중 모듈을 이용한 표현 학습 방법은 입력 이미지에 대한 특징 맵을 추출하는 백본 네트워크 모델의 끝에 연결되어 동작하는, 멀티 집중 모듈을 이용한 표현 학습 방법은 지역-집중 모듈이 상기 특징 맵(F)으로부터 지역 집중 특징 맵(Fl)을 생성하는 단계; 전역-집중 모듈이 상기 특징 맵(F)으로부터 전역 집중 특징 맵(Fg)을 생성하는 단계; 및 결합 모듈이 상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)을 결합하여 전역-지역 집중 특징 맵(Fgl)을 생성하는 단계를 포함하고, 상기 지역-집중 모듈과 상기 전역-집중 모듈은 상기 특징 맵(F)의 채널들 및 상기 특징 맵(F)의 공간 위치들에서 모두 동작한다.
Description
본 개시는 대규모 인스턴스 수준 이미지 검색을 위한 표현 학습 방법 및 시스템에 관한 것이다. 더욱 상세하게는 대규모 인스턴스 수준 이미지 검색을 위하여 멀티 집중 모듈을 이용하는 표현 학습 방법 및 시스템에 관한 것이다.
대규모 인스턴스 수준 이미지 검색(Large-scale instance-level image retrieval)을 위한 표현 학습(representation learning) 방법들로는 다양한 것들이 존재한다. 예를 들면, 백본(backbone), 파이프라인 훈련(training pipelines) 및 손실 함수들(loss functions)이 있다. 이들 외에도 널리 사용되는 방법들은 강력한 전역 이미지 표현을 학습하는 것의 핵심 사항으로 서로 다른 공간적 풀링(pooling) 및 집중 메커니즘들(attention mechanisms)에 중점을 두고 있다.
집중 메커니즘에는 서로 다른 형태가 있으며, 특징 텐서(feature tensor)의 요소들(지역 요소 및 전역 요소)의 상호작용 그리고 집중이 적용되는 차원들(공간적 차원 및 채널 차원)에 따라 분류된다.
그러나 종래의 기술들은 이미지의 분류, 탐지 또는 검색에 하나 또는 두 가지 형태의 집중을 적용하고 있는 실정이다.
Sanghyun Woo, Jongchan Park, Joon-Young Lee, and In So Kweon. CBAM: Convolutional Block Attention Module. In ECCV, 2018
본 개시는 상술한 필요성에 따라 안출된 것으로, 본 개시가 해결하고자 하는 과제는 대규모 인스턴스 수준 이미지 검색을 위하여 전역 집중(Global Attention) 모듈, 지역 집중(Local Attention) 모듈, 채널 집중(Channel Attention) 모듈 및 공간 집중(Spatial Attention) 모듈을 모두 포함하는 멀티 집중 모듈을 이용하여 이미지 표현을 학습하는 표현 학습 방법 및 시스템을 제공하는 것이다.
본 개시가 해결하고자 하는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위하여, 본 개시의 일 실시 예에 따른 멀티 집중 모듈을 이용한 표현 학습 방법은 입력 이미지에 대한 특징 맵(F)을 백본 네트워크 모델로부터 수신하는 단계; 지역 집중 모듈이 상기 특징 맵(F)으로부터 지역 집중 특징 맵(Fl)을 생성하는 단계; 전역 집중 모듈이 상기 특징 맵(F)으로부터 전역 집중 특징 맵(-Fg)을 생성하는 단계; 및 결합 모듈이 상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)을 결합하여 전역-지역 집중 특징 맵(Fgl)을 생성하는 단계를 포함하고, 상기 지역 집중 모듈과 상기 전역 집중 모듈은 상기 특징 맵(F)의 채널들 및 상기 특징 맵(F)의 공간 위치들에서 모두 동작하는 것을 특징으로 한다.
상술한 과제를 해결하기 위하여, 본 개시의 일 실시 예에 따른 멀티 집중 모듈을 이용한 표현 학습 시스템은 입력 이미지에 대한 특징 맵(F)이 백본 네트워크 모델로부터 수신되면, 상기 특징 맵(F)으로부터 지역 집중 특징 맵(Fl)을 생성하는 지역 집중 모듈; 상기 특징 맵(F)으로부터 전역 집중 특징 맵(Fg)을 생성하는 전역 집중 모듈; 및 상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)을 결합하여 전역-지역 집중 특징 맵(Fgl)을 생성하는 결합 모듈을 포함하고, 상기 지역 집중 모듈과 상기 전역 집중 모듈은 상기 특징 맵(F)의 채널들 및 상기 특징 맵(F)의 공간 위치들에서 모두 동작하는 것을 특징으로 한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 개시의 실시 예들에 따르면, 전역 집중 모듈, 지역 집중 모듈, 채널 집중 모듈 및 공간 집중 모듈을 모두 포함하는 멀티 집중 모듈을 이용하여 이미지 표현을 학습함으로써, 대규모 인스턴스 수준 이미지 검색의 정확도를 향상시킬 수 있다.
본 개시의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 일 실시 예에 따른 멀티 집중 모듈을 이용한 표현 학습 시스템의 구성을 도시한 도면이다.
도 2는 도 1의 지역-채널 집중 맵 생성 모듈의 동작을 설명하기 위한 도시한 도면이다.
도 3은 도 1의 지역-공간 집중 맵 생성 모듈의 동작을 설명하기 위한 도시한 도면이다.
도 4는 도 1의 전역-채널 집중 맵 생성 모듈의 동작을 설명하기 위한 도시한 도면이다.
도 5은 도 1의 전역-공간 집중 맵 생성 모듈의 동작을 설명하기 위한 도시한 도면이다.
도 6은 입력 이미지들, 지역-공간 집중의 히트 맵들, 전역-공간 집중의 히트 맵들을 도시한 도면이다.
도 7은 본 개시의 일 실시 예에 따른 멀티 집중 모듈을 이용한 표현 학습 시스템을 이용하여 대규모 인스턴스 수준 이미지 검색을 수행한 경우, 해당 시스템의 순위 결과들에 대한 몇 가지 예를 도시한 도면이다.
도 8은 본 개시의 일 실시 예에 따른 멀티 집중 모듈을 이용한 표현 학습 방법을 도시한 순서도이다.
도 2는 도 1의 지역-채널 집중 맵 생성 모듈의 동작을 설명하기 위한 도시한 도면이다.
도 3은 도 1의 지역-공간 집중 맵 생성 모듈의 동작을 설명하기 위한 도시한 도면이다.
도 4는 도 1의 전역-채널 집중 맵 생성 모듈의 동작을 설명하기 위한 도시한 도면이다.
도 5은 도 1의 전역-공간 집중 맵 생성 모듈의 동작을 설명하기 위한 도시한 도면이다.
도 6은 입력 이미지들, 지역-공간 집중의 히트 맵들, 전역-공간 집중의 히트 맵들을 도시한 도면이다.
도 7은 본 개시의 일 실시 예에 따른 멀티 집중 모듈을 이용한 표현 학습 시스템을 이용하여 대규모 인스턴스 수준 이미지 검색을 수행한 경우, 해당 시스템의 순위 결과들에 대한 몇 가지 예를 도시한 도면이다.
도 8은 본 개시의 일 실시 예에 따른 멀티 집중 모듈을 이용한 표현 학습 방법을 도시한 순서도이다.
본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 단지 본 실시 예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시는 청구항의 범주에 의해 정의될 뿐이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 출입문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
이하, 첨부된 도면들을 참조하여 본 개시의 실시 예에 따른 멀티 집중 모듈을 이용한 표현 학습 방법 및 시스템을 설명한다. 도면에서 동일한 도면 부호는 동일한 구성요소를 나타낸다.
기계학습에 적용되는 집중 메커니즘의 종류에는 지역 집중, 전역 집중, 채널 집중 및 공간 집중이 있다. 이미지를 분류, 검출 또는 검색하는데 있어 보다 나은 결과를 얻기 위한 집중 메커니즘들의 조합에 대한 많은 연구가 이루어지고 있다. 그러나 종래에 연구된 방법들은 지역 집중 및 전역 집중 중에서 어느 하나만을 고려하는 경우가 대부분이다. 즉, 종래 연구된 방법들은 지역 집중에서의 채널 집중과 공간 집중의 조합만을 다루고 있거나 전역 집중에서의 채널 집중과 공간 집중의 조합만을 다루고 있다. 이러한 종래의 방법들 중 일부는 집중이 학습이 되지만 나머지들은 집중이 학습되지 않는다. 또한 종래의 방법들 중 일부는 인스턴스 수준 이미지 검색에 적용되지만 나머지들은 인스턴스 수준 이미지 검색에 적용되지 않는다. 종래의 방법들과 본원을 비교하여 나타내면 표 1과 같다.
표 1에 도시되어 있듯이, 본 개시의 일 실시 예에 따른 멀티 집중 모듈을 이용한 표현 학습 방법은 종래 방법들에 비해 개선된 것이다. 구체적으로, 본 개시의 일 실시 예에 따른 멀티 집중 모듈을 이용한 표현 학습 방법은 지역 집중 및 전역 집중을 통합하며, 대규모 인스턴스 수준 이미지 검색에 적용될 수 있다. 또한 표현 학습 방법에서의 집중들은 학습될 수 있다.
도 1은 본 개시의 일 실시 예에 따른 멀티 집중 모듈을 이용한 표현 학습 시스템(이하 '표현 학습 시스템'이라 한다)의 구성을 도시한 도면이다.
본 개의 일 실시 예에 따른 표현 학습 시스템은 백본 네트워크의 끝에 연결된다. 도면에 도시되지는 않았으나, 백본 네트워크는 입력 이미지로부터 다양한 특징들을 추출한다. 입력 이미지는 c×h×w의 3차원 행렬로 표현될 수 있다. 여기서 c는 이미지의 채널, h는 이미지의 높이, w는 이미지의 너비를 의미한다. 이미지의 색상은 주로 RGB 코드로 표현된다. 이때 2D 이미지를 표현하는 2차원 행렬에서 한 픽셀의 값은 RGB 코드이므로 채널의 크기는 3이 된다. 그리고 각 채널은 R, G, B 값을 하나씩 대표한다.
입력 이미지를 표현하는 3차원 행렬은 입력 텐서라 명명될 수 있고, 백본 네트워크에서 출력된 특징들을 표현하는 행렬은 특징 텐서(feature tensor)라 명명될 수 있다. 입력 텐서에서 c는 색상 정보만을 포함하지만 특징 텐서에서 c는 색상 정보뿐만 아니라 더 많은 정보를 포함한다. 예를 들면, 텍스처 정보 및 패턴 정보를 더 포함한다. 특징 텐서에서 c의 차원은 입력 텐서에서의 c의 차원보다 훨씬 커진다는 것을 의미한다. 또한 특징 텐서에서의 h, w는 입력 텐서에서의 h, w에 비하여 작아진다.
본 개시의 일 실시 예에 따른 표현 학습 시스템은 백본 네트워크로부터 특징 텐서(이하, '특징 맵 F'라 함)를 제공받는다. 그리고 특징 맵(F)을 대상으로 지역 집중 특징 맵(Fl)과 전역 집중 특징 맵(Fg)을 각각 생성한다. 그리고 특징 맵(F), 지역 집중 특징 맵(Fl), 전역 집중 특징 맵(Fg)을 가중평균하여 최종 특징 맵을 생성한다. 이하, 최종 특징 맵을 전역-지역 집중 특징 맵(Fgl)이라 칭한다.
상술한 동작을 위하여, 표현 학습 시스템은 지역 집중 모듈(1), 전역 집중 모듈(2) 및 결합 모듈(5)을 포함하여 구성될 수 있다.
실시 예에 따르면 지역 집중 모듈(1)과 전역 집중 모듈(2)은 두 개의 병렬 네트워크 스트림으로 구현될 수 있다. 이는 지역 집중 모듈(1)과 전역 집중 모듈(2)이 독립적으로 동시에 동작할 수 있음을 의미한다. 그러나 본 개시는 이것으로 한정되지 않으며, 지역 집중 모듈(1)과 전역 집중 모듈(2) 중에서 어느 하나만이 동작할 수도 있다. 또는 지역 집중 모듈(1)과 전역 집중 모듈(2)이 순서대로 동작할 수 있으며, 그 순서에는 제한이 없을 수 있다.
실시 예에 따르면, 지역 집중 모듈(1)과 전역 집중 모듈(2)은 각각 특징 채널들(3) 및 공간 위치들(4)에서 모두 동작한다. 이를 위해, 지역 집중 모듈(1)은 지역-채널 집중 모듈(13) 및 지역-공간 집중 모듈(14)을 포함하도록 구성된다. 그리고 전역 집중 모듈(2)은 전역-채널 집중 모듈(23) 및 전역-공간 집중 모듈(24)을 포함하도록 구성된다. 이하, 각 모듈들(13, 14, 23, 24)에 대해서 구체적으로 설명하기로 한다.
지역-채널 집중 모듈(13)
지역-채널 집중 모듈(13)은 백본 네트워크로부터의 특징 맵(F)에 근거하여 지역-채널 집중 맵(local-channel attention map)(Al c)를 생성한다. 그리고 지역-채널 집중 맵(Al c)과 특징 맵(F)에 근거하여 지역-채널 집중 특징 맵(Fl c)를 생성한다. 이를 위하여 지역-채널 집중 모듈(13)은 지역-채널 집중 맵 생성 모듈(131), 아다마르 곱 모듈(133) 및 합산 모듈(135)을 포함한다.
지역-채널 집중 맵 생성 모듈(131)은 특징 맵(F)으로부터 지역 채널 정보(local channel information)를 포착하여(capture), 지역-채널 집중 맵(Al c)을 생성한다. 그 생성 과정을 구체적으로 설명하기 위해 도 2를 참조하기로 한다.
도 2를 참조하면, c×h×w 특징 맵(F)은 백본 네트워크에서 제공된다. 여기서 c는 채널들의 개수이고, h×w는 공간 해상도(spatial resolution)이다.
c×h×w 특징 맵(F)은 풀링(Pooling)에 의해 c×1×1으로 줄어든다. 여기서 풀링(Pooling)은 행렬을 더 작은 행렬로 축소하는 것을 말한다. 풀링은 서브샘플링(subsampling) 또는 다운샘플링(downsampling)으로 명명될 수도 있다. 풀링은 일반적으로 풀링 영역에 대한 최대값을 취하거나 풀링 영역에 대한 평균값을 취한다. 실시 예에 따르면 전역 평균 풀링(Global Average Pooling, GAP)이 적용될 수 있다.
GAP이 적용된 후, 채널 차원(channel demension)을 따라 커널 크기 k의 1D 합성곱(convolution)에 의해 채널 집중이 포착된다. 여기서 k는 교차 채널 상호작용(cross-channel interaction)의 정도를 제어한다.
다음으로, 시그모이드 함수가 적용된다. c×1×1 지역-채널 집중 맵(Al c)이 생성된다. 시그모이드 함수는 어떤 값을 0~1 사이의 확률값으로 변환시켜주는 역할을 한다.
다시 도 1을 참조하면, 아다마르 곱 모듈(133)과 합산 모듈(135)은 앞서 생성된 c×1×1 지역-채널 집중 맵(Al c)을 사용하여 채널 차원에서 특징 맵(F)에 가중치를 부여한다. 그 결과, 지역-채널 집중 특징 맵(Fl c)을 생성한다. 이 과정을 수학식으로 나타내면 다음과 같다.
수학식 1을 참조하여 설명하면, 아다마르 곱 모듈(133)은 c×1×1 지역-채널 집중 맵(Al c)과 c×h×w 특징 맵(F)의 요소별 곱(element-wise multiplication or element-wise product or Hadamard product)을 연산한다. 그리고 합산 모듈(135)은 아다마르 곱 모듈(133)으로 획득된 결과 특징들(resulting features)을 특징 맵(F)에 더한다. 수학식 1의 연산이 완료되면, 지역-채널 집중 특징 맵(Fl c)이 생성된다.
지역-공간 집중 모듈(14)
지역-공간 집중 모듈(14)은 백본 네트워크로부터의 특징 맵(F)에 근거하여 지역-공간 집중 맵(local-spatial attention map)(Al s)을 생성한다. 그리고 지역-공간 집중 맵(Al s)과 앞서 생성된 지역-채널 집중 특징 맵(Fl c)에 근거하여 지역 집중 특징 맵(Fl)를 생성한다. 이를 위하여 지역-공간 집중 모듈(14)는 지역-공간 집중 맵 생성 모듈(141), 아다마르 곱 모듈(143) 및 합산 모듈(145)을 포함한다.
지역-공간 집중 맵 생성 모듈(141)은 특징 맵(F)으로부터 다양한 규모의 지역 공간 정보(local spatial information)를 포착하여, 지역-공간 집중 맵(Al s)을 생성한다. 그 생성 과정을 구체적으로 설명하기 위해 도 3을 참조하기로 한다.
도 3을 참조하면, c×h×w 특징 맵(F)은 백본 네트워크에서 제공된다. 여기서 c는 채널들의 개수이고, h×w는 공간 해상도(spatial resolution)이다.
c×h×w 특징 맵(F)에 1×1 합성곱(convolution)을 사용하면, 채널들이 c'으로 감소된 새로운 c'×h×w 특징 맵(F')이 획득된다.
그 다음, c'×h×w 특징 맵(F')에 커널 크기가 3×3, 5×5, 7×7인 합성곱 필터들(convolutional filters)을 각각 사용하면, 지역 공간 문맥 정보(local spatial contextual information)가 추출된다. 이 합성곱 필터들은 확장 파라미터(dilation parameter) 1, 2, 3을 각각 가지는 3×3 확장된 합성곱들(dilated convolutions)에 의해 구현된다.
합성곱 필터들에 의해 추출된 결과 특징들(resulting features)은 앞서 획득된 c'×h×w 특징 맵(F')과 연결된다(concatenated). 그 결과 4c'×h×w 특징 텐서가 생성된다.
4c'×h×w 특징 텐서에 채널 차원을 1로 줄이는 1×1 합성곱(convolution)을 사용하면, 1×h×w 지역-공간 집중 맵(Al s)이 생성된다.
다시 도 1을 참조하면, 아마다르 곱 모듈(143)과 합산 모듈(145)은 앞서 생성된 1×h×w 지역-공간 집중 맵(Al s)을 사용하여 공간 차원들에서 지역-채널 집중 특징 맵(Fl c)에 가중치를 부여한다. 그 결과, c×h×w 지역 집중 특징 맵(Fl)을 생성한다. 이를 수학식으로 나타내면 다음과 같다.
수학식 2를 참조하여 설명하면, 아다마르 곱 모듈(143)은 지역-채널 집중 특징 맵(Fl c)과 1×h×w 지역-공간 집중 맵(Al s)의 요소별 곱(element-wise multiplication)을 연산한다. 그리고 합산 모듈(145)은 아마다르 곱 모듈(143)으로 획득된 결과 특징들(resulting features)을 지역-채널 집중 특징 맵(Fl c)에 더한다. 수학식 2의 연산이 완료되면, c×h×w 지역 집중 특징 맵(Fl)이 생성된다.
전역-채널 집중 모듈(23)
전역-채널 집중 모듈(23)은 특징 맵(F)에 근거하여 전역-채널 집중 맵(global-channel attention map)(Ag c)을 생성한다. 그리고 전역-채널 집중 맵(Ag c)과 특징 맵(F)에 근거하여, 전역-채널 집중 특징 맵(Fg c)를 생성한다. 이를 위하여 전역-채널 집중 모듈(23)은 전역-채널 집중 맵 생성 모듈(231) 및 아다마르 곱 모듈(233)을 포함한다.
전역-채널 집중 맵 생성 모듈(231)은 비지역 신경망(non-local neural network)를 기반으로 하되, 1D 합성곱 아이디어를 포함한다. 전역-채널 집중 맵 생성 모듈(231)은 특징 맵(F)으로부터 전역 채널 상호작용(global channel interaction)을 포착하여, 전역-채널 집중 맵(Ag c)을 생성한다. 그 생성 과정을 구체적으로 설명하기 위해 도 4를 참조하기로 한다.
도 4를 참조하면, c×h×w 특징 맵(F)은 백본 네트워크에서 제공된다. 여기서 c는 채널들의 개수이고, h×w는 공간 해상도(spatial resolution)이다.
우선 c×h×w 특징 맵(F)에 GAP를 적용하여 공간 차원들을 압착한다(squeeze). 그 다음 커널 크기 k의 1D 합성곱(convolution) 및 시그모이드를 차례로 적용하여 1×c 쿼리 특징(Qc) 및 1×c의 키 특징(Kc)을 얻는다. hw×c 값 특징(Vc)은 c×h×w 특징 맵(F)을 단순히 재구성(reshaping)하여 얻는다.
이후, 키 특징(Kc)과 쿼리 특징(Qc)의 외적(outer product, tenseor product)을 형성하고, 후속으로 채널들에 대해 소프트맥스 함수를 적용한다. 그 결과, c×c 전역-채널 집중 맵(Ag c)을 얻는다. 이 과정을 수학식으로 나타내면 다음과 같다.
종래 기술에서 c×c 전역-채널 집중 맵은 hw×c 행렬들의 곱(multiplication)에 의해 획득된다. 반면 본 개시에서 c×c 전역-채널 집중 맵(Ag c)은 1×c 벡터들의 외적(outer product)만을 사용하여 획득되므로, 종래 기술에 비하여 효율적이다.
마지막으로, c×c 전역-채널 집중 맵(Ag c)에 값 특징(Vc)을 곱한다. 그 결과, 행렬곱(matrix product)(VcAg c)를 얻는다. 행렬곱(VcAg c)을 c×h×w로 다시 재구성하여 c×h×w 전역-채널 집중 특징 맵(Gc)을 얻는다.
다시 도 1을 참조하면, 아마다르 곱 모듈(233)은 앞서 생성된 c×h×w 전역-채널 집중 특징 맵(Gc)을 사용하여 특징 맵(F)의 요소별(element-wise)로 가중치를 부여한다. 이를 수학식으로 나타내면 다음과 같다.
수학식 4를 참조하면, 아마다르 곱 모듈(233)은 특징 맵(F)과 c×h×w 전역-채널 집중 특징 맵(Gs)의 요소별 곱(element-wise multiplication)을 연산한다. 수학식 4의 연산이 완료되면, 전역-채널 집중 특징 맵(Fg c)이 생성된다.
전역-공간 집중 모듈(24)
전역-공간 집중 모듈(24)은 백본 네트워크로부터의 특징 맵(F)에 근거하여 전역-공간 집중 맵(global-spatial attention map)(Ag s)를 생성한다. 그리고 전역-공간 집중 맵(Ag s)과 앞서 생성된 전역-채널 집중 특징 맵(Fg c)에 근거하여 전역 집중 특징 맵(Fg)을 생성한다. 이를 위하여 전역-공간 집중 모듈(24)는 전역-공간 집중 맵 생성 모듈(241), 아다마르 곱 모듈(243) 및 합산 모듈(245)을 포함한다.
전역-공간 집중 맵 생성 모듈(241)은 공간 차원들 안에서 자기 집중(self-attention)의 한 형태인 비-지역 필터링(non-local filtering)을 사용한다. 왜냐하면 일반적인 합성곱은 한 번에 지역 이웃(local neighborhood)에만 적용하기 때문에 전역 문맥 정보(global contextual information)을 포착할 수 없기 때문이다.
전역-공간 집중 맵 생성 모듈(241)은 특징 맵(F)으로부터 전역 문맥 정보(global contextual information)를 포착하여, 전역-공간 집중 맵(Ag s)을 생성한다. 그 생성 과정을 구체적으로 설명하기 위해 도 5를 참조하기로 한다.
도 5를 참조하면, c×h×w 특징 맵(F)은 백본 네트워크에서 제공된다. 여기서 c는 채널들의 개수이고, h×w는 공간 해상도(spatial resolution)이다.
c×h×w 특징 맵(F)에 채널들을 c'으로 줄이고 공간 차원들을 hw로 평평하게(flattening)하는 3개의 1×1 합성곱들을 사용하여, c'×hw 쿼리 특징(Qs), c'×hw 키 특징(Ks), c'×hw 값 특징(Vs)을 얻는다. 여기서, 각 열은 특정한 공간 위치에 해당하는 특징 벡터이다.
이후, 키 특징(Ks)과 쿼리 특징(Qs)의 행렬 곱셈(matrix multiplication)으로 이들 벡터들의 쌍별 유사성들(pairwise similarities of these vectors)을 포착(capture)하고, 후속으로 위치들에 대해 소프트맥스 함수를 적용한다. 그 결과, hw×hw 전역-공간 집중 맵(Ag s)을 얻는다. 이 과정을 수학식으로 나타내면 다음과 같다.
그 다음, hw×hw 전역-공간 집중 맵(Ag s)에 값 특징(Vs)을 곱한다. 그 결과, 행렬곱(matrix product)(VsAg s)를 얻는다. 이후, 공간 차원들을 확장함으로써, 행렬곱(VsAg s)을 c'×h×w 로 재구성(reshaped)한다.
마지막으로, 채널들을 다시 c로 증가시키는 1×1 합성곱을 사용하여, c×h×w 전역-공간 집중 특징 맵(Gs)을 얻는다.
다시 도 1을 참조하면, 아다마르 곱 모듈(243)은 앞서 생성된 c×h×w 전역-공간 집중 특징 맵(Gs)을 사용하여 전역-채널 집중 특징 맵(Fg c)의 요소별(element-wise)로 가중치를 부여한다. 그 결과, c×h×w 전역-집중 특징 맵(Fg)을 생성한다. 이를 수학식으로 나타내면 다음과 같다.
수학식 6을 참조하여 설명하면, 아다마르 곱 모듈(243)은 전역-채널 집중 특징 맵(Fg c)과 c×h×w 전역-공간 집중 특징 맵(Gs)의 요소별 곱(element-wise multiplication)을 연산한다. 그리고 합산 모듈(245)은 아다마르 곱 모듈(243)으로 획득된 결과 특징들을 전역-채널 집중 특징 맵(Fg c)에 더한다. 수학식 6의 연산이 완료되면, c×h×w 전역 집중 특징 맵(Fg)이 생성된다.
수학식 1 및 수학식 2를 참조하여 설명한 바와 같이, 지역 집중 특징 맵(Fl)은 특징 맵(F)에 채널 집중을 먼저 적용하고, 후속으로 공간 집중을 적용하여 생성된다. 수학식 4 및 수학식 6을 참조하여 설명한 바와 같이, 전역 집중 특징 맵(Fg)도 특징 맵(F)에 채널 집중을 먼저 적용하고, 후속으로 공간 집중을 적용하여 생성된다. 그러나 수학식 1과는 다르게 수학식 4에서는 잔여 연결(residual connection, skip connection, shortcut connection)이 없다. 좀 더 구체적으로, 수학식 1에서는 지역-채널 집중 맵(Al c)과 특징 맵(F)의 요소별 곱이 수행된 다음 특징 맵(F)이 더해진다. 이에 비하여 수학식 4에서는 특징 맵(F)과 전역-채널 집중 특징 맵(Gc)의 요소별 곱만이 수행된다.
한편, 결합 모듈(5)은 지역 집중 특징 맵(Fl), 전역 집중 특징 맵(Fg) 및 특징 맵(F)을 결합하여, 전역-지역 집중 특징 맵(Fgl)을 생성한다. 이때, 특징 맵들(Fl, Fg, F)은 가중평균(weighted average)에 의해 결합될 수 있다. 이 과정을 수학식으로 나타내면 다음과 같다.
수학식 7의 연산을 위하여 결합 모듈(5)은 도 1에 도시된 바와 같이, 3개의 곱 모듈(51, 52, 53)과 1개의 합산 모듈(54)을 포함한다.
제1 곱 모듈(51)은 지역 집중 특징 맵(Fl)에 제1 가중치(wl)를 곱한다. 제2 곱 모듈(52)은 전역 집중 특징 맵(Fg)에 제2 가중치(wg)를 곱한다. 제3 모듈(53)은 특징 맵(F)에 제3 가중치(w)를 곱한다. 여기서, 가중치들(wl, wg, w)은 세 가지의 학습 가능한 파라미터들에 대해 소프트맥스 함수를 적용하여 얻을 수 있다.
합산 모듈(53)은 가중치가 적용된 특징 맵들(wlFl, wgFg, wF)을 합산한다. 그 결과, c×h×w 전역-지역 집중 특징 맵(Fgl)이 생성된다. 이처럼 특징 맵들(Fl, Fg, F)을 결합하는데 있어 가중평균을 이용하면, 다양한 규모의 특징들을 효과적으로 융합할 수 있다.
한편, 전역-지역 집중 특징 맵(Fgl)에는 학습 가능한 공간 풀링 메커니즘(예를 들어, GeM)이 적용되고, 후속으로 드롭아웃 및 배치 정규화(batch normalization)를 가지는 완전 연결된 레이어(fullyconnected, FC layer)가 적용된다. 최종 임베딩은 l2-노름(normalization)에 의해 얻어진다.
도 6은 이미지들, 지역-공간 집중의 히트 맵들, 전역-공간 집중의 히트 맵들을 도시한 도면이다.
도 6에서 열(a)는 이미지들을 예시한 것이다. 열(b)는 이미지들 내의 목표 객체들(target objects)을 지역화하는, 지역-공간 집중의 히트 맵들을 예시한 것이다. 열(c)는 이미지들 내의 목표 객체들을 지역화하는, 전역-공간 집중의 히트 맵들을 예시한 것이다. 열(b) 및 열(c)에서 붉은색은 더 높은 집중 가중치(higher attention weight)를 의미하고, 파란색은 더 낮은 집중 가중치(lower attention weight)를 의미한다.
열(b)에서 이미지 A의 지역-공간 집중의 히트 맵을 살펴보면, 건물의 돔 부분이 주로 붉은색으로 표시되고, 돔의 아래 부분은 주황색 및 노란색으로 표시된 것을 알 수 있다. 그리고 이미지 A의 가장자리는 파란색으로 표시된 것을 알 수 있다. 이에 비하여, 열(c)에서 이미지 A의 전역-공간 집중의 히트 맵을 살펴보면, 돔 내부의 모서리 부분, 돔과 연결된 난간 부분이 붉은색 및 주황색으로 표시되는 것을 제외하고, 돔을 포함하는 이미지 A의 대부분이 옅은 파란색으로 표시된 것을 알 수 있다.
열(b)에서 이미지 B의 지역-공간 집중의 히트 맵을 살펴보면, 건물의 좌우 첨탑 부분이 붉은색으로 표시되고, 첨탑의 아래 부분은 주황색 및 노란색으로 표시된 것을 알 수 있다. 그리고 이미지 B의 가장자리 부분은 옅은 파란색 또는 파란색으로 표시된 것을 알 수 있다. 이에 비하여, 열(c)에서 이미지 B의 전역-공간 집중의 히트 맵을 살펴보면, 건물의 좌측 첨탑의 일부와 좌우 첨탑을 연결하는 부분이 붉은색으로 표시된 것을 제외하고, 좌우 첨탑의 대부분이 주황색 및 노란색으로 표시된 것을 알 수 있다. 그리고 건물의 아래 부분이나 배경(하늘)은 주로 옅은 파란색으로 표시된 것을 알 수 있다.
열(b)에서 이미지 C의 지역-공간 집중의 히트 맵을 살펴보면, 건물의 내부가 거의 대부분 붉은색으로 표시되고, 건물의 지붕은 옅은 파란색으로, 지붕 위쪽의 배경(하늘)은 파란색으로 표시된 것을 알 수 있다. 이에 비하여, 열(c)에서 이미지 C의 전역-공간 집중의 히트 맵을 살펴보면, 건물의 내부은 붉은색으로 표시된 부분은 줄어들고 노란색으로 표시된 부분으 늘어난 것을 알 수 있다. 그리고 건물의 지붕 및 지붕 위쪽의 배경(하늘)은 얻은 파란색으로 표시된 것을 알 수 있다. 그리고 이미지 C의 왼쪽 상부 모서리만이 파란색으로 표시된 것을 알 수 있다.
이상, 본 개시의 일 실시 예에 따른 표현 학습 시스템에 대해서 설명하였다. 이하, 상술한 표현 학습 시스템의 성능 평가를 위한 실험 환경(훈련 셋트, 평가 세트 및 측정항목들, 구현 세부정보)을 설명한 다음, 실험들에 의해 얻어진 결과들에 대해서 설명한다.
<훈련 세트>
실험에는 공개된 랜드마크 데이터셋들(Datasets)이 사용될 수 있다. 공개된 랜드마크 데이터셋들로는 신경 코드(neural code, 이하 'NC'라 함), 구글 랜드마크 버전1(Google Landmarks v1, 이하 'GLDv1'이라 함) 및 구글 랜드마크 버전2(이하 'GLDv2'라 함)을 예로 들 수 있다. 공개된 랜드마크 데이터셋들을 정리하여 나타내면 표 2와 같다.
표 2를 참조하면, 데이터셋들은 이미지들과 클래스들을 포함한다. 각 클래스는 랜드마크 이미지와 시각적으로 다른 이미지들을 포함한다. 예를 들어, 빌딩 또는 랜드마크의 외부 뷰 및 내부 뷰를 포함한다. 내부 뷰는 내부 평면도 및 내부 그림들을 포함한다.
표 2를 참조하면, 데이터셋들은 잡음이 많은 것과 깨끗한 것으로 분류될 수 있다. 잡음이 많은 데이터셋은 훨씬 많은 수의 이미지들을 포함하지만, 클래스 내 변동성이 높다(high intra-class variability). 깨끗한 데이터셋은 잡음이 많은 데이터셋에서 얻어진다. 깨끗한 데이터셋은 잡음이 많은 데이터셋에 비하여 훨씬 적은 수의 이미지들을 가지고 있지만, 해당 이미지들은 랜드마크 인식과 직접적으로 관련된 뷰들에 초점을 맞추고 있다.
<평가 세트 및 측정 항목들>
실험에서는 랜드마크 이미지 검색을 위한 4개의 공통 평가 데이터셋들을 사용한다. 그 예로는 Oxford5k(Ox5k), Paris6k(Par6k), Revisited Oxford(ROxford 또는 ROxf) 및 Paris(RParis 또는 RPar)를 들 수 있다. ROxford 와 RParis 는 100만 개의 방해자들(distractors)(R1M)이 있거나 없는 상태에서 사용되며, 미디엄 프로토콜(Medium protocol) 및 하드 프로토콜(Hard protocol)을 사용하여 평가된다. 그리고 모델의 성능은 평균 정밀도(mean Average Precision, mAP)와 상위 10개에서의 정밀도(mean precision)(mP@10)를 사용하여 평가한다.
<구현 세부정보>
표현 학습 시스템은 8개의 8개의 TITAN RTX 2080Ti GPUs 에서 훈련된다. 모든 모델들은 이미지넷(ImageNet) 상에서 사전 훈련되고 파이토치(PyTorch)에서 구현된다. 여기서 이미지넷은 대규모 데이터셋이다. 파이토치는 데이터에 대한 딥러닝 분석을 쉽게 할 수 있도록 제공하는 오픈소스 기반 딥러닝 프레임워크이다.
본 개시와 종래 기술들의 공정한 비교를 위해 종래 기술들과 유사한 훈련 환경을 설정된다. 구체적으로, 백본 네트워크 모델로는 ResNet101 이 사용된다. 그리고 도 2에서 커널 크기 k는 3으로 설정된다. 전역-지역 집중 특징 맵(Fgl)에 적용되는 학습 가능한 공간 풀링 메커니즘(예를 들어, GeM)에서 파라미터 p는 3으로 설정된다. 최종 임베딩들(final embeddings)의 차원 d는 512로 설정된다. 0.3의 마진을 가지는 코사인-소프트맥스 기반 손실(예를 들어, ArcFace)이 사용된다. 그리고 초기 학습률 10-3, 모멘텀 0.9, 가중치 감소(weight decay) 10-5를 가지는 확률적 경사하강법(stochastic gradient descent)이 사용된다.
또한 유사한 종횡비들을 가지는 미니 배치 샘플들(mini-batch samples)을 특정 크기로 조정하는 배치 샘플링(batch sampling)이 사용된다. 여기서, 64의 배치 크기가 사용된다. 이미지 확대를 위해 크기 조정(scaling), 무작위 자르기(random cropping) 및 다양한 조명(varied illumination)이 적용된다. 추론 시, 쿼리 이미지 및 데이터베이스 이미지들에는 다중-해상도 표현(multi-resolution respresentation)이 적용된다.
이하, 후술될 표들에서 본 개시의 일 실시 예에 따른 표현 학습 시스템은 'GLAM(Global-Local Attention Module)'으로 표시된다. 백본 네트워크 모델만을 사용한 것은 기준 모델(baseline model)을 의미하며, 'baseline'으로 표시된다. 기준 모델에 도 1의 지역 집중 모듈(1)이 추가된 것은 '+local'로 표시된다. 기준 모델에 도 1의 전역 집중 모듈(2)이 추가된 것은 '+global'로 표시된다. 기준 모델에 지역 집중 모듈(1)과 전역 집중 모듈(2)이 모두 추가된 것은 '+global+local'로 표시된다.
<실험 결과>
표 3은 서로 다른 데이터셋들에서 훈련된 GLAM(+global+local 모델)과 종래 모델들의 mAP를 비교한 것이다.
표 3을 참조하면, GLDv1-nosiy 데이터셋을 사용하였을 때, CLAM(+global+local 모델)은 종래 모델(SOLAR)에 비하여 높은 성능을 가지는 것을 알 수 있다(표 2의 파란색 숫자들 참조).
또한 CLAM(+global+local 모델)은 서로 다른 종류의 데이터셋들(NC-clean, GLDv1-noisy, GLDv2-noisy, GLDv2-clean) 중에서 GLDv2-clean 데이터셋을 사용하였을 때, 최상의 성능을 가지는 것을 알 수 있다(표 3의 붉은색 숫자들 참조).
표 2에서 살펴보았듯이, GLDv2-clean 데이터셋은 GLDv2-noisy 데이터셋 보다 2.6배 적은 이미지들을 포함함에도 불구하고, 표 3에 도시된 바와 같이, GLDv2-noisy 데이터셋보다 우월한 성능을 나타낸다. 이는, 훈련에서 더 큰 데이터셋보다 더 깨끗한 데이터셋이 더 중요할 수 있음을 의미한다.
이에 반해, NC-clean 데이터셋은 깨끗한 데이터셋임에도 불구하고 최악의 성능을 가지는 것을 알 수 있는데, 그 이유는 데이터셋에 포함되어 있는 이미지의 개수가 너무 적기 때문이다. 즉, 데이터셋에 포함되어 있는 이미지의 개수가 적은 상태에서 잡음이 많은 이미지를 제거하는 경우, 전체적인 이미지의 개수 감소로 인해 역효과가 난 것으로 이해될 수 있다.
표 4는 GLAM과 순위 재지정 없는 전역 설명자들에 기반한 종래 방법들(SOTA methods)의 mAP 비교를 나타낸 것이다.
표 4를 참조하면, GLAM의 +local 모델과 +global 모델은 모두 기준 모델에 비하여 성능이 향상됨을 알 수 있다. 또한, +globa+local 모델은 +local 모델 또는 +global 모델에 비하여 항상됨을 알 수 있다. 즉, +globa+local 모델을 사용하면, RParis (medim)에 대한 mP@10 및 RParis+R1M (medium)을 제외한 대부분의 벤치마크들에서 종래의 방법들을 능가하는 성능을 갖는 것을 알 수 있다. 이는 GLAM이 랜드마크 이미지 검색에 효과적임을 의미한다. GLAM의 순위 결과들에 대한 몇 가지 예를 도시하면 도 7과 같다.
도 7에서 목표 객체(붉은색 크롭 박스)를 가지는 쿼리 이미지(QI)는 분홍색 점선으로 표시된다. 쿼리 이미지의 오른쪽에는 쿼리 이미지에 대한 상위 순위의 이미지들을 나타낸다. 상위 순위의 이미지들 중에서 쿼리 이미지에 대한 긍정적인 이미지들(PI)은 주황색 가는 실선으로 표시되고, 쿼리 이미지에 대한 부정적인 이미지들(NI)은 빨간색 굵은 실선으로 표시된다. 여기서 긍정적인 이미지라 함은 쿼리 이미지의 목표 객체와 동일한 목표 객체를 포함하는 이미지를 말한다. 그리고 부정적인 이미지라 함은 쿼리 이미지의 목표 객체와 유사하지만 다른 목표 객체를 포함하는 이미지를 말한다.
표 5는 표 4보다 좀 더 세분화된 결과들을 나타낸 것이다.
표 5에서 +local은 기준 모델에 지역 집중 모듈(1)의 모든 하위 모듈들(13, 14)이 추가된 모델을 의미한다. +global은 기준 모델에 전역 집중 모듈(2)의 모든 하위 모듈들(23, 24)이 추가된 모델을 의미한다.
표 5를 참조하면, baseline+global 모델은 성능이 최대 7.5% 향상됨을 알 수 있다. 나아가 baseline+global+local 모델은 이보다 2.8% 더 향상됨을 알 수 있다.
표 6은 GLAM의 지역-공간 집중 맵 생성 모듈(141)과 종래 모듈(예를 들어, CBAM 스타일 모듈) 간의 mAP 비교를 나타낸 것이다.
종래 모듈(예를 들어, CBAM style)은 입력 특징들에 평균 풀링(average-pooling) 및 최대 풀링(max-pooling)을 적용하고, 공간 집중을 위해 이 둘을 연결(concatenate)한다. 구체적으로, 종래의 CBAM 스타일 모듈은 도 3에 도시된 지역-공간 집중 맵 생성 모듈(141)의 구성과 유사하지만, 연결(concatenates) 전에 4개의 합성곱 계층의 출력들 각각에 평균 풀링 및 최대 풀링을 적용한다는 차이가 있다.
표 6을 참조하면, Paris6k 데이터셋을 제외한 모든 벤치마크들에서, GLAM의 지역-공간 집중 맵 생성 모듈(141)의 성능이 CBAM 스타일 모듈에 비하여 성능이 좋은 것을 알 수 있다.
표 7은 특징 맵들을 융합하기 위한 가중평균(weighted average)과 가중연결(weighted concatenation) 간의 mAP 비교를 나타낸 것이다.
GLAM의 결합 모듈(5)은 특징 맵(F), 지역 집중 특징 맵(Fl), 전역 집중 특징 맵(Fg)을 결합하기 위하여, 가중평균을 이용한다. 이때, 가중평균 대신 가중연결이 사용될 수 있는데, 연결(concatenation)은 수학식 7의 합 연산(sum operation)을 대체한다. 표 7를 참조하면, 가중평균이 가중연결보다 성능이 뛰어난 것을 알 수 있다.
표 8은 고정 크기 샘플링 방법(fixed-size sampling method)과 그룹 크기 샘플링 방법(group-size sampling mehod) 간의 mAP 비교를 나타낸 것이다.
고정 크기 샘플링 방법은 고정 크기 이미지들로 배치(batch)를 구성하는 방법을 말한다. 그룹 크기 샘플링 방법은 유사한 종횡비의 이미지들로 배치를 구성하고, 이미지들을 자신과 유사한 종횡비를 가지는 크기로 조정하는 방법을 말한다.
표 8은 고정 크기(224×224) 샘플링 방법과 그룹 크기 샘플링 방법 간의 mAP 비교를 나타낸 것이다. 표 8을 참조하면, 동적 입력 크기들(dynamic input sizes)를 사용하여 종횡비를 유지하는 것이 훨씬 더 효과적임을 알 수 있다.
표 9는 쿼리 이미지 또는 데이터베이스 이미지에 다중 해상도 표현(Multi)를 적용하는 경우와, 적용하지 않은 경우(Single)의 mAP 비교를 나타낸 것이다.
다중 해상도 표현(multi-resolution representation) 방법은 이미지의 크기를 여러 배율(scales)로 조정하고, 크기가 조정된 이미지들에서 특징들을 추출하며, 추출된 특징들의 평균을 구하여 이미지의 최종 특징을 얻는다. 다중 해상도 표현 방법은 작은 목표 객체들에 대한 순위 결과를 향상시키기 위해 쿼리 이미지 및 데이터베이스 이미지에 모두 적용될 수 있다.
표 9를 참조하면, 쿼리 이미지와 데이터베이스 이미지 모두에 대하여 다중 해상도 표션을 적용하는 경우, 성능이 향상됨을 알 수 있다.
도 8은 본 개시의 일 실시 예에 따른 멀티 집중 모듈을 이용한 표현 학습 방법을 도시한 순서도이다.
우선, 입력 이미지에 대한 특징 맵(F)을 백본 네트워크 모델로부터 수신한다(S810). 상기 S810 단계 이후 지역 집중 모듈(1)과 전역 집중 모듈(2)은 동시에 동작하거나, 어느 하나가 먼저 동작할 수 있다. 이하, 지역 집중 모듈(1)과 전역 집중 모듈(2)이 동시에 동작하는 경우를 예로 들어 설명하기로 한다.
상기 S810 단계 이후, 지역 집중 모듈(1)은 지역-채널 집중 및 지역-공간 집중을 차례로 적용하여, 특징 맵(F)으로부터 지역 집중 특징 맵(Fl)을 생성한다(S820). 상기 S820 단계는 지역-채널 집중 모듈이 상기 특징 맵(F)으로부터 지역 채널 정보(local channel information)를 포착하여, 지역-채널 집중 맵(Al c)을 생성하는 단계와, 상기 지역-채널 집중 모듈이 상기 지역-채널 집중 맵(Al c)를 사용하여, 채널 차원에서 상기 특징 맵(F)에 가중치를 부여하여 지역-채널 집중 특징 맵(Fl c)을 생성하는 단계와, 지역-공간 집중 모듈이 상기 특징 맵(F)으로부터 다양한 규모의 지역 공간 정보(local spatial information)를 포착하여, 지역-공간 집중 맵(Al s)을 생성하는 단계와, 상기 지역-공간 집중 모듈이 상기 지역-공간 집중 맵(Al s)을 사용하여, 공간 차원들에서 상기 지역-채널 집중 특징 맵(Fl c)에 가중치를 부여하여 상기 지역 집중 특징 맵(Fl)을 생성하는 단계를 포함한다.
상기 S810 단계 이후, 전역 집중 모듈(2)은 전역-채널 집중 및 전역-공간 집중을 차례로 적용하여, 특징 맵(F)으로부터 전역 집중 특징 맵(Fg)을 생성한다(S830). 상기 S830 단계는 전역-채널 집중 맵 생성 모듈이 상기 특징 맵(F)으로부터 전역 채널 상호작용(global channel interaction)을 포착하여, 전역-채널 집중 맵(Ag c)을 생성하고, 상기 전역-채널 집중 맵(Ag c)을 재구성하여, 상기 특징 맵(F)과 동일한 모양을 갖는 전역-채널 집중 특징 맵(Gc)을 생성하는 단계와, 상기 전역-채널 집중 특징 맵(Gc)을 사용하여, 상기 특징 맵(F)의 요소별로 가중치를 부여하여 전역-채널 집중 특징 맵(Fg c)을 생성하는 단계와, 전역-공간 집중 맵 생성 모듈이 상기 특징 맵(F)으로부터 전역 문맥 정보(global contextual information)를 포착하여, 전역-공간 집중 맵(Ag s)을 생성하고, 상기 전역-공간 집중 맵(Ag s)의 공간 차원들을 확장한 다음, 채널들의 수를 증가시켜, 상기 특징 맵(F)과 동일한 모양을 갖는 전역-공간 집중 특징 맵(Gs)을 생성하는 단계와, 상기 전역-공간 집중 특징 맵(Gs)을 사용하여 상기 전역-채널 집중 특징 맵(Fg c)의 요소별로 가중치를 부여하여 상기 전역 집중 특징 맵(Fg)을 생성하는 단계를 포함한다.
상기 S820 단계 및 S830 단계 이후, 결합 모듈(5)은 지역 집중 특징 맵(Fl), 전역 집중 특징 맵(Fg) 및 특징 맵(F)을 결합하여 전역-지역 집중 특징 맵(Fgl)을 생성한다(S840). 상기 S840 단계에서 지역 집중 특징 맵(Fl), 전역 집중 특징 맵(Fg) 및 특징 맵(F)은 가중평균(weighted average)에 의해 결합될 수 있다.
이상으로, 본 개시의 실시 예들을 설명하였다. 전술한 설명에서 도 1의 각 모듈들은 소프트웨어 또는 Field Programmable Gate Array(FPGA)나 주문형 반도체(Application Specific Integrated Circuit, ASIC)와 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다.
따라서, 일 예로서 모듈은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 모듈들에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들과 모듈들로 더 분리될 수 있다.
한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서(100)에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.
컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록매체를 포함한다. 예를 들어, ROM(read only memory), RAM(random access memory), 자기 테이프, 자기 디스크, 플래쉬 메모리(200), 광 데이터 저장장치 등이 있을 수 있다.
또한, 컴퓨터가 읽을 수 있는 기록매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 기록 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트폰들) 간에 직접 배포되거나, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 기록 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
이상과 첨부된 도면을 참조하여 본 개시에 따른 실시 예들을 설명하였다. 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 본 개시가 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
13: 지역-채널 집중 모듈
14: 지역-공간 집중 모듈
23: 전역-채널 집중 모듈
24: 전역-공간 집중 모듈
14: 지역-공간 집중 모듈
23: 전역-채널 집중 모듈
24: 전역-공간 집중 모듈
Claims (20)
- 삭제
- 멀티 집중 모듈을 이용한 표현 학습 방법에 있어서,
입력 이미지에 대한 특징 맵(F)을 백본 네트워크 모델로부터 수신하는 단계;
지역 집중 모듈이 상기 특징 맵(F)으로부터 지역 집중 특징 맵(Fl)을 생성하는 단계;
전역 집중 모듈이 상기 특징 맵(F)으로부터 전역 집중 특징 맵(Fg)을 생성하는 단계; 및
결합 모듈이 상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)을 결합하여 전역-지역 집중 특징 맵(Fgl)을 생성하는 단계를 포함하고,
상기 지역 집중 모듈과 상기 전역 집중 모듈은 상기 특징 맵(F)의 채널들 및 상기 특징 맵(F)의 공간 위치들에서 모두 동작하며,
상기 지역 집중 특징 맵(Fl)을 생성하는 단계는
지역-채널 집중 모듈이 상기 특징 맵(F)으로부터 지역 채널 정보(local channel information)를 포착하여, 지역-채널 집중 맵(Al c)을 생성하는 단계;
상기 지역-채널 집중 모듈이 상기 지역-채널 집중 맵(Al c)를 사용하여, 채널 차원에서 상기 특징 맵(F)에 가중치를 부여하여 지역-채널 집중 특징 맵(Fl c)을 생성하는 단계;
지역-공간 집중 모듈이 상기 특징 맵(F)으로부터 다양한 규모의 지역 공간 정보(local spatial information)를 포착하여, 지역-공간 집중 맵(Al s)을 생성하는 단계; 및
상기 지역-공간 집중 모듈이 상기 지역-공간 집중 맵(Al s)을 사용하여, 공간 차원들에서 상기 지역-채널 집중 특징 맵(Fl c)에 가중치를 부여하여 상기 지역 집중 특징 맵(Fl)을 생성하는 단계를 포함하는,
멀티 집중 모듈을 이용한 표현 학습 방법. - 제2항에 있어서,
상기 지역-채널 집중 맵(Al c)을 생성하는 단계는
상기 특징 맵(F)에 전역 평균 풀링(Global Average Pooling, GAP)을 적용하는 단계;
상기 GAP에 의해 획득된 결과 특징들에 커널 크기 k의 1D 합성곱(convolution)을 적용하여 채널 집중을 포착하는 단계;
상기 합성곱에 의해 획득된 결과 특징들에 시그모이드 함수를 적용하여 상기 지역-채널 집중 맵(Al c)을 생성하는 단계를 포함하는,
멀티 집중 모듈을 이용한 표현 학습 방법. - 제2항에 있어서,
상기 지역-공간 집중 맵(Al s)을 생성하는 단계는
상기 특징 맵(F)에 1×1 합성곱을 사용하여, 채널들이 감소된 새로운 특징 맵(F')을 생성하는 단계;
상기 새로운 특징 맵(F')에 커널 크기가 3×3, 5×5, 7×7인 합성곱 필터들(convolutional filters)을 각각 사용하여, 지역 공간 문맥 정보(local spatial contextual information)를 추출하는 단계;
상기 합성곱 필터들에 의해 추출된 결과 특징들과 상기 새로운 특징 맵(F')을 연결(concatenate)하는 단계;
상기 연결에 의해 획득된 특징 텐서에 1×1 합성곱을 사용하여, 채널 차원이 1로 감소된 상기 지역-공간 집중 맵(Al s)을 생성하는 단계를 포함하는,
멀티 집중 모듈을 이용한 표현 학습 방법. - 제4항에 있어서,
상기 합성곱 필터들은
확장 파라미터(dilation parameter) 1, 2, 3을 각각 가지는 3×3 확장된 합성곱들(dilated convolutions)에 의해 구현되는,
멀티 집중 모듈을 이용한 표현 학습 방법. - 멀티 집중 모듈을 이용한 표현 학습 방법에 있어서,
입력 이미지에 대한 특징 맵(F)을 백본 네트워크 모델로부터 수신하는 단계;
지역 집중 모듈이 상기 특징 맵(F)으로부터 지역 집중 특징 맵(Fl)을 생성하는 단계;
전역 집중 모듈이 상기 특징 맵(F)으로부터 전역 집중 특징 맵(Fg)을 생성하는 단계; 및
결합 모듈이 상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)을 결합하여 전역-지역 집중 특징 맵(Fgl)을 생성하는 단계를 포함하고,
상기 지역 집중 모듈과 상기 전역 집중 모듈은 상기 특징 맵(F)의 채널들 및 상기 특징 맵(F)의 공간 위치들에서 모두 동작하며,
상기 전역 집중 특징 맵(Fg)을 생성하는 단계는,
전역-채널 집중 맵 생성 모듈이 상기 특징 맵(F)으로부터 전역 채널 상호작용(global channel interaction)을 포착하여, 전역-채널 집중 맵(Ag c)을 생성하고, 상기 전역-채널 집중 맵(Ag c)을 재구성하여, 상기 특징 맵(F)과 동일한 모양을 갖는 전역-채널 집중 특징 맵(Gc)을 생성하는 단계;
상기 전역-채널 집중 특징 맵(Gc)을 사용하여, 상기 특징 맵(F)의 요소별로 가중치를 부여하여 전역-채널 집중 특징 맵(Fg c)을 생성하는 단계;
전역-공간 집중 맵 생성 모듈이 상기 특징 맵(F)으로부터 전역 문맥 정보(global contextual information)를 포착하여, 전역-공간 집중 맵(Ag s)을 생성하고, 상기 전역-공간 집중 맵(Ag s)의 공간 차원들을 확장한 다음, 채널들의 수를 증가시켜, 상기 특징 맵(F)과 동일한 모양을 갖는 전역-공간 집중 특징 맵(Gs)을 생성하는 단계; 및
상기 전역-공간 집중 특징 맵(Gs)을 사용하여 상기 전역-채널 집중 특징 맵(Fg c)의 요소별로 가중치를 부여하여 상기 전역 집중 특징 맵(Fg)을 생성하는 단계를 포함하는,
멀티 집중 모듈을 이용한 표현 학습 방법. - 제6항에 있어서,
상기 전역-채널 집중 특징 맵(Gc)을 생성하는 단계는
상기 특징 맵(F)에 전역 평균 풀링(Global Average Pooling, GAP)을 적용하여, 상기 특징 맵(F)의 공간 차원들을 압착(squeeze)하는 단계;
상기 GAP에 의해 획득된 결과 특징들에 커널 크기 k의 1D 합성곱(convolution)과 시그모이드 함수를 차례로 적용하여, 쿼리 특징(Qc) 및 키 특징(Kc)을 획득하는 단계;
상기 키 특징(Kc)과 상기 쿼리 특징(Qc)의 외적(outer product)을 연산하고, 상기 연산으로 획득된 결과 특징들에 소프트맥스 함수를 적용하여 상기 전역-채널 집중 맵(Ag c)을 생성하는 단계;
상기 특징 맵(F)에 상기 GAP를 적용하지 않고 상기 특징 맵(F)을 재구성하여 값 특징(Vc)을 획득하는 단계;
상기 전역-채널 집중 맵(Ag c)에 상기 값 특징(Vc)을 곱하여 행렬곱(matrix product)(VcAg c)을 획득하는 단계; 및
상기 행렬곱(VcAg c)을 재구성하여, 상기 전역-채널 집중 특징 맵(Gc)을 생성하는 단계를 포함하는,
멀티 집중 모듈을 이용한 표현 학습 방법. - 제6항에 있어서,
상기 전역-공간 집중 특징 맵(Gs)을 생성하는 단계는
상기 특징 맵(F)의 채널들을 줄이고 상기 특징 맵(F)의 공간 차원들을 평평하게(flattening)하는 3개의 1×1 합성곱들을 상기 특징 맵(F)에 사용하여, 쿼리 특징(Qs), 키 특징(Ks) 및 값 특징(Vs)을 획득하는 단계;
상기 키 특징(Ks)과 상기 쿼리 특징(Qs)의 행렬 곱셈(matrix multiplication)을 연산하고, 상기 연산으로 획득된 결과 특징들에 소프트맥스 함수를 적용하여 상기 전역-공간 집중 맵(Ag s)을 생성하는 단계;
상기 전역-공간 집중 맵(Ag s)에 상기 값 특징(Vs)을 곱하여 행렬곱(matrix product)(VsAg s)을 획득하는 단계; 및
상기 행렬곱(VsAg s)을 재구성하여 공간 차원들을 확장한 다음, 채널들의 수를 증가시키는 1×1 합성곱을 사용하여, 상기 전역-공간 집중 특징 맵(Gs)을 생성하는 단계를 포함하는,
멀티 집중 모듈을 이용한 표현 학습 방법. - 멀티 집중 모듈을 이용한 표현 학습 방법에 있어서,
입력 이미지에 대한 특징 맵(F)을 백본 네트워크 모델로부터 수신하는 단계;
지역 집중 모듈이 상기 특징 맵(F)으로부터 지역 집중 특징 맵(Fl)을 생성하는 단계;
전역 집중 모듈이 상기 특징 맵(F)으로부터 전역 집중 특징 맵(Fg)을 생성하는 단계; 및
결합 모듈이 상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)을 결합하여 전역-지역 집중 특징 맵(Fgl)을 생성하는 단계를 포함하고,
상기 지역 집중 모듈과 상기 전역 집중 모듈은 상기 특징 맵(F)의 채널들 및 상기 특징 맵(F)의 공간 위치들에서 모두 동작하며,
상기 전역-지역 집중 특징 맵(Fgl)을 생성하는 단계는
상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)을 가중평균(weighted average)하여 상기 전역-지역 집중 특징 맵(Fgl)을 생성하는 단계를 포함하는,
멀티 집중 모듈을 이용한 표현 학습 방법. - 제9항에 있어서,
상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)에 각각 적용되는 가중치들은 세 가지의 학습 가능한 파라미터들에 대해 소프트맥스 함수를 적용하여 얻어지는,
멀티 집중 모듈을 이용한 표현 학습 방법. - 삭제
- 멀티 집중 모듈을 이용한 표현 학습 시스템에 있어서,
입력 이미지에 대한 특징 맵(F)이 백본 네트워크 모델로부터 수신되면, 상기 특징 맵(F)으로부터 지역 집중 특징 맵(Fl)을 생성하는 지역 집중 모듈;
상기 특징 맵(F)으로부터 전역 집중 특징 맵(Fg)을 생성하는 전역 집중 모듈; 및
상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)을 결합하여 전역-지역 집중 특징 맵(Fgl)을 생성하는 결합 모듈을 포함하고,
상기 지역 집중 모듈과 상기 전역 집중 모듈은 상기 특징 맵(F)의 채널들 및 상기 특징 맵(F)의 공간 위치들에서 모두 동작하며,
상기 지역 집중 모듈은
상기 특징 맵(F)으로부터 지역 채널 정보(local channel information)를 포착하여, 지역-채널 집중 맵(Al c)을 생성하고, 상기 지역-채널 집중 맵(Al c)를 사용하여, 채널 차원에서 상기 특징 맵(F)에 가중치를 부여하여 지역-채널 집중 특징 맵(Fl c)을 생성하는 지역-채널 집중 모듈; 및
상기 특징 맵(F)으로부터 다양한 규모의 지역 공간 정보(local spatial information)를 포착하여, 지역-공간 집중 맵(Al s)을 생성하고, 상기 지역-공간 집중 맵(Al s)을 사용하여, 공간 차원들에서 상기 지역-채널 집중 특징 맵(Fl c)에 가중치를 부여하여 상기 지역 집중 특징 맵(Fl)을 생성하는 지역-공간 집중 모듈을 포함하는,
멀티 집중 모듈을 이용한 표현 학습 시스템. - 제12항에 있어서,
상기 지역-채널 집중 맵(Al c)은
상기 특징 맵(F)에 전역 평균 풀링(Global Average Pooling, GAP)을 적용하고;
상기 GAP에 의해 획득된 결과 특징들에 커널 크기 k의 1D 합성곱(convolution)을 적용하여 채널 집중을 포착하며;
상기 합성곱에 의해 획득된 결과 특징들에 시그모이드 함수를 적용하여 생성되는,
멀티 집중 모듈을 이용한 표현 학습 시스템. - 제12항에 있어서,
상기 지역-공간 집중 맵(Al s)은
상기 특징 맵(F)에 1×1 합성곱을 사용하여, 채널들이 감소된 새로운 특징 맵(F')을 생성하고;
상기 새로운 특징 맵(F')에 커널 크기가 3×3, 5×5, 7×7인 합성곱 필터들(convolutional filters)을 각각 사용하여, 지역 공간 문맥 정보(local spatial contextual information)를 추출하고;
상기 합성곱 필터들에 의해 추출된 결과 특징들과 상기 새로운 특징 맵(F')을 연결(concatenate)하고;
상기 연결에 의해 획득된 특징 텐서에 채널 차원을 1로 감소시키는 1×1 합성곱을 사용하여 생성되는,
멀티 집중 모듈을 이용한 표현 학습 시스템. - 제14항에 있어서,
상기 합성곱 필터들은
확장 파라미터(dilation parameter) 1, 2, 3을 각각 가지는 3×3 확장된 합성곱들(dilated convolutions)에 의해 구현되는,
멀티 집중 모듈을 이용한 표현 학습 시스템. - 멀티 집중 모듈을 이용한 표현 학습 시스템에 있어서,
입력 이미지에 대한 특징 맵(F)이 백본 네트워크 모델로부터 수신되면, 상기 특징 맵(F)으로부터 지역 집중 특징 맵(Fl)을 생성하는 지역 집중 모듈;
상기 특징 맵(F)으로부터 전역 집중 특징 맵(Fg)을 생성하는 전역 집중 모듈; 및
상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)을 결합하여 전역-지역 집중 특징 맵(Fgl)을 생성하는 결합 모듈을 포함하고,
상기 지역 집중 모듈과 상기 전역 집중 모듈은 상기 특징 맵(F)의 채널들 및 상기 특징 맵(F)의 공간 위치들에서 모두 동작하며,
상기 전역 집중 모듈은
상기 특징 맵(F)으로부터 전역 채널 상호작용(global channel interaction)을 포착하여, 전역-채널 집중 맵(Ag c)을 생성하고, 상기 전역-채널 집중 맵(Ag c)을 재구성하여, 상기 특징 맵(F)과 동일한 모양을 갖는 전역-채널 집중 특징 맵(Gc)을 생성하며, 상기 전역-채널 집중 특징 맵(Gc)을 사용하여, 상기 특징 맵(F)의 요소별로 가중치를 부여하여 전역-채널 집중 특징 맵(Fg c)을 생성하는 전역-채널 집중 모듈; 및
상기 특징 맵(F)으로부터 전역 문맥 정보(global contextual information)를 포착하여, 전역-공간 집중 맵(Ag s)을 생성하고, 상기 전역-공간 집중 맵(Ag s)의 공간 차원들을 확장한 다음, 채널들의 수를 증가시켜, 상기 특징 맵(F)과 동일한 모양을 갖는 전역-공간 집중 특징 맵(Gs)을 생성하며, 상기 전역-공간 집중 특징 맵(Gs)을 사용하여 상기 전역-채널 집중 특징 맵(Fg c)의 요소별로 가중치를 부여하여 상기 전역 집중 특징 맵(Fg)을 생성하는 전역-공간 집중 모듈을 포함하는,
멀티 집중 모듈을 이용한 표현 학습 시스템. - 제16항에 있어서,
상기 전역-채널 집중 특징 맵(Gc)은
상기 특징 맵(F)에 전역 평균 풀링(Global Average Pooling, GAP)을 적용하여, 상기 특징 맵(F)의 공간 차원들을 압착(squeeze)하고;
상기 GAP에 의해 획득된 결과 특징들에 커널 크기 k의 1D 합성곱(convolution)과 시그모이드 함수를 차례로 적용하여, 쿼리 특징(Qc) 및 키 특징(Kc)을 획득하고;
상기 키 특징(Kc)과 상기 쿼리 특징(Qc)의 외적(outer product)을 연산하고, 상기 연산으로 획득된 결과 특징들에 소프트맥스 함수를 적용하여 상기 전역-채널 집중 맵(Ag c)을 생성하고;
상기 특징 맵(F)에 상기 GAP를 적용하지 않고 상기 특징 맵(F)을 재구성하여 값 특징(Vc)을 획득하고;
상기 전역-채널 집중 맵(Ag c)에 상기 값 특징(Vc)을 곱하여 행렬곱(matrix product)(VcAg c)을 획득하고;
상기 행렬곱(VcAg c)을 재구성하여 생성되는,
멀티 집중 모듈을 이용한 표현 학습 시스템. - 제16항에 있어서,
상기 전역-공간 집중 특징 맵(Gs)은
상기 특징 맵(F)의 채널들을 줄이고 상기 특징 맵(F)의 공간 차원들을 평평하게(flattening)하는 3개의 1×1 합성곱들을 상기 특징 맵(F)에 사용하여, 쿼리 특징(Qs), 키 특징(Ks) 및 값 특징(Vs)을 획득하고;
상기 키 특징(Ks)과 상기 쿼리 특징(Qs)의 행렬 곱셈(matrix multiplication)을 연산하고, 상기 연산으로 획득된 결과 특징들에 소프트맥스 함수를 적용하여 상기 전역-공간 집중 맵(Ag s)을 생성하고;
상기 전역-공간 집중 맵(Ag s)에 상기 값 특징(Vs)을 곱하여 행렬곱(matrix product)(VsAg s)을 획득하고;
상기 행렬곱(VsAg s)을 재구성하여 공간 차원들을 확장한 다음, 채널들의 수를 증가시키는 1×1 합성곱을 사용하여 생성되는,
멀티 집중 모듈을 이용한 표현 학습 시스템. - 멀티 집중 모듈을 이용한 표현 학습 시스템에 있어서,
입력 이미지에 대한 특징 맵(F)이 백본 네트워크 모델로부터 수신되면, 상기 특징 맵(F)으로부터 지역 집중 특징 맵(Fl)을 생성하는 지역 집중 모듈;
상기 특징 맵(F)으로부터 전역 집중 특징 맵(Fg)을 생성하는 전역 집중 모듈; 및
상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)을 결합하여 전역-지역 집중 특징 맵(Fgl)을 생성하는 결합 모듈을 포함하고,
상기 지역 집중 모듈과 상기 전역 집중 모듈은 상기 특징 맵(F)의 채널들 및 상기 특징 맵(F)의 공간 위치들에서 모두 동작하며,
상기 결합 모듈은
상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)을 가중평균(weighted average)하여 상기 전역-지역 집중 특징 맵(Fgl)을 생성하는,
멀티 집중 모듈을 이용한 표현 학습 시스템. - 제19항에 있어서,
상기 지역 집중 특징 맵(Fl), 상기 전역 집중 특징 맵(Fg) 및 상기 특징 맵(F)에 각각 적용되는 가중치들은 세 가지의 학습 가능한 파라미터들에 대해 소프트맥스 함수를 적용하여 얻어지는,
멀티 집중 모듈을 이용한 표현 학습 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220063870A KR102513285B1 (ko) | 2022-05-25 | 2022-05-25 | 멀티 집중 모듈을 이용한 표현 학습 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220063870A KR102513285B1 (ko) | 2022-05-25 | 2022-05-25 | 멀티 집중 모듈을 이용한 표현 학습 방법 및 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102513285B1 true KR102513285B1 (ko) | 2023-03-23 |
Family
ID=85799243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220063870A KR102513285B1 (ko) | 2022-05-25 | 2022-05-25 | 멀티 집중 모듈을 이용한 표현 학습 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102513285B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460876A (zh) * | 2019-06-05 | 2020-07-28 | 北京京东尚科信息技术有限公司 | 用于识别视频的方法和装置 |
US11321613B2 (en) * | 2016-11-17 | 2022-05-03 | Irida Labs S.A. | Parsimonious inference on convolutional neural networks |
-
2022
- 2022-05-25 KR KR1020220063870A patent/KR102513285B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11321613B2 (en) * | 2016-11-17 | 2022-05-03 | Irida Labs S.A. | Parsimonious inference on convolutional neural networks |
CN111460876A (zh) * | 2019-06-05 | 2020-07-28 | 北京京东尚科信息技术有限公司 | 用于识别视频的方法和装置 |
Non-Patent Citations (2)
Title |
---|
Sanghyun Woo, Jongchan Park, Joon-Young Lee, and In So Kweon. CBAM: Convolutional Block Attention Module. In ECCV, 2018 |
Zhaoyang Liu et al., "TAM: Temporal Adaptive Module for Video Recognition," arXiv:2005.06803v2 [cs.CV] 14 Oct 2020 (2020.10.14.)* * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ohn-Bar et al. | To boost or not to boost? on the limits of boosted trees for object detection | |
Nandhini Abirami et al. | Deep CNN and Deep GAN in Computational Visual Perception‐Driven Image Analysis | |
WO2021098261A1 (zh) | 一种目标检测方法与装置 | |
Bay et al. | Speeded-up robust features (SURF) | |
Song et al. | All the attention you need: Global-local, spatial-channel attention for image retrieval | |
Mohedano et al. | Saliency weighted convolutional features for instance search | |
Li et al. | HAR-Net: Joint learning of hybrid attention for single-stage object detection | |
Delibasoglu et al. | Improved U-Nets with inception blocks for building detection | |
CN111126385A (zh) | 一种可变形活体小目标的深度学习智能识别方法 | |
WO2010075310A2 (en) | Neural network based pattern recognizer | |
CN111696136B (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN108229432A (zh) | 人脸标定方法及装置 | |
Gangwar et al. | Deepirisnet2: Learning deep-iriscodes from scratch for segmentation-robust visible wavelength and near infrared iris recognition | |
CN116958687A (zh) | 一种基于改进detr的面向无人机的小目标检测方法及装置 | |
Bhattacharjee et al. | Query adaptive multiview object instance search and localization using sketches | |
CN115661754A (zh) | 一种基于维度融合注意力的行人重识别方法 | |
Zhang et al. | CDMamba: Remote Sensing Image Change Detection with Mamba | |
CN114586075A (zh) | 用于位置识别的视觉对象实例描述符 | |
CN107133579A (zh) | 基于CSGF(2D)2PCANet卷积网络的人脸识别方法 | |
CN113723352A (zh) | 一种文本检测方法、系统、存储介质及电子设备 | |
KR102513285B1 (ko) | 멀티 집중 모듈을 이용한 표현 학습 방법 및 시스템 | |
Obeso et al. | Introduction of explicit visual saliency in training of deep cnns: Application to architectural styles classification | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及系统 | |
CN116758092A (zh) | 图像分割方法、装置、电子设备及存储介质 | |
Yang et al. | EPformer: an efficient transformer-based approach for retail product detection in fisheye images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GRNT | Written decision to grant |