KR102305575B1

KR102305575B1 - 이미지 간 유사도를 이용한 유사 영역 강조 방법 및 시스템

Info

Publication number: KR102305575B1
Application number: KR1020190108964A
Authority: KR
Inventors: 김인식; 전희재; 고병수; 김영준; 김종택
Original assignee: 네이버 주식회사; 라인 가부시키가이샤
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2021-09-27
Also published as: JP2021039758A; JP7085600B2; KR20210027910A

Abstract

이미지 간 유사도를 이용하여 유사 영역을 강조할 수 있는 시스템 및 방법이 개시된다. 컴퓨터 시스템은, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 이미지 간 유사도를 계산하는 CNN(convolution neural network) 모델에서 공간 정보를 복원하는 공간 유사도 맵(ssm: spatial similarity map)을 구성하기 위한 공간 유사도 맵 모듈을 포함하고, 상기 공간 유사도 맵 모듈은, 상기 CNN 모델에서 특징 맵을 풀링(pooling)한 상태의 벡터를 이용하여 상기 공간 유사도 맵을 구성하는 것으로, 다중 풀링 분기에서의 복수의 글로벌 디스크립터(global descriptor)를 연결하여(concatenate) 학습하는 모델을 포함할 수 있다.

Description

이미지 간 유사도를 이용한 유사 영역 강조 방법 및 시스템{METHOD AND SYSTEM FOR HIGHLIGHTING SIMILAR AREAS USING SIMILARITY BETWEEN IMAGES}

아래의 설명은 임베딩 벡터(embedding vector)를 사용하여 유사한 이미지를 검색하는 기술에 관한 것이다.

CNN(convolution neural network)을 기반으로 한 이미지 디스크립터는 분류(classification), 객체 검출(object detection), 의미론적 분할(semantic segmentation)을 포함한 컴퓨터 비전 기술에서 일반적인 디스크립터로 이용되고 있다. 이외에도, 이미지 캡션(image captioning)과 시각적 질의 응답(visual question answering)과 같이 매우 의미 있는 연구에도 이용되고 있다.

CNN에 기반한 이미지 디스크립터를 활용하는 최근의 연구는 로컬 디스크립터 매칭(local descriptor matching)에 의존하는 기존 방법을 적용하고 공간 검증(spatial verification)을 통해 다시 순위를 매기는 즉각적인 레벨 이미지 검색을 위해 적용되고 있다.

이미지 검색(image retrieval) 분야에서 CNN 이후에 풀링(average pooling, max pooling, generalized mean pooling 등) 결과로 나온 특징을 글로벌 디스크립터(global descriptor)로 사용할 수 있다. 또한, 콘볼루션 계층(convolution layers) 이후에 FC 계층(fully connected layers)을 추가하여 FC 계층을 통해 나온 특징을 글로벌 디스크립터로 사용할 수도 있다. 이때, FC 계층은 차원수(dimensionality)를 감소시키기 위해 사용되는 것으로, 차원수 감소가 필요 없는 경우 FC 계층을 생략할 수 있다.

일례로, 한국등록특허 제10-1917369호(등록일 2018년 11월 05일)에는 콘볼루션 신경망을 이용한 영상 검색 기술이 개시되어 있다.

이미지 검색 분야에서 심층 콘볼루션 신경망을 사용하여 다차원 벡터인 이미지 임베딩을 생성한다. 주어진 쿼리 이미지에 대해 임베딩된 쿼리 이미지와 관련하여 임베딩된 인덱스 이미지 유사성에 기반하여 인덱스 이미지의 순위를 결정할 수 있으며, 이때 유사성의 일반적인 선택은 단위 길이로 된 두 개의 이미지의 유사성이다.

이러한 이미지 임베딩을 통해 새의 종(CUB200 데이터셋)이나 자동차의 모델명(CARS196 데이터셋)을 식별할 수 있다. 수천 개의 유사 이미지 중에서 가장 비슷한 이미지로 같은 종이나 모델을 찾는 것을 세부(fine-grained) 이미지 검색 작업이라 한다.

최근에는 CNN 백본(backbone)에서 이미지 임베딩을 생성하는 방법과, 네트워크를 최적화하기 위한 손실 함수를 사용하는 방법 등을 적용하고 있다.

유사성 학습 분야에서 글로벌 풀링 방법(global pooling method)에 의해 생성된 대표적인 글로벌 디스크립터에는 콘볼루션의 합계 풀링(SPoC: sum pooling of convolution), 콘볼루션의 최대 활성화(MAC: maximum activation of convolution), 그리고 일반화 평균 풀링(GeM: generalized-mean pooling)이 포함된다. 각 글로벌 디스크립터의 성능은 각각 속성이 다르기 때문에 데이터 세트에 따라 달라진다. 예를 들어, SPoC는 이미지 표현에서 더 큰 영역을 활성화하는 반면, MAC는 더 많은 집중 영역을 활성화시킨다. 능력을 높이기 위해 가중치합 풀링(weighted sum pooling), 가중치 GeM, 영역(regional) MAC(R-MAC) 등과 같은 대표적인 글로벌 디스크립터의 변형이 존재한다.

글로벌 풀링 방법에 의해 생성된 글로벌 디스크립터에 대해 공간적으로 분포된 유사지수를 시각화하는 방법을 제공한다.

이미지 간 유사도를 계산하는 CNN 모델에서 벡터를 가지고 공간 정보를 복원하는 유사도 맵(similarity map)을 구성할 수 있는 방법을 제공한다.

CNN 특징 또는 그 조합을 통해 얻어진 이미지 간 유사도를 이용하여 유사 영역을 강조할 수 있는 방법을 제공한다.

컴퓨터 시스템에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 이미지 간 유사도를 계산하는 CNN(convolution neural network) 모델에서 공간 정보를 복원하는 공간 유사도 맵(ssm: spatial similarity map)을 구성하기 위한 공간 유사도 맵 모듈을 포함하고, 상기 공간 유사도 맵 모듈은, 상기 CNN 모델에서 특징 맵을 풀링(pooling)한 상태의 벡터를 이용하여 상기 공간 유사도 맵을 구성하는 것으로, 다중 풀링 분기에서의 복수의 글로벌 디스크립터(global descriptor)를 연결하여(concatenate) 학습하는 모델을 포함하는 것을 특징으로 하는 컴퓨터 시스템을 제공한다.

일 측면에 따르면, 상기 공간 유사도 맵 모듈은, 각 풀링 분기에 FC(fully-connected) 계층을 가진 네트워크 모델을 포함할 수 있다.

다른 측면에 따르면, 상기 공간 유사도 맵 모듈은, 상기 FC 계층의 임베딩 이후 풀링 결합(aggregation)이 포함된 유사도 맵을 생성한 후 각 풀링 분기의 유사도 맵을 평균하여 상기 공간 유사도 맵을 생성할 수 있다.

또 다른 측면에 따르면, 상기 공간 유사도 맵 모듈은, 각 풀링 분기의 임베딩의 차원이 다른 경우 임베딩 각각에 가중치를 부여할 수 있다.

또 다른 측면에 따르면, 상기 적어도 하나의 프로세서는, 상기 복수의 글로벌 디스크립터에 대해 공간적으로 분포된 유사 지수를 시각화할 수 있다.

또 다른 측면에 따르면, 상기 적어도 하나의 프로세서는, 상기 공간 유사도 맵을 기초로 질의 이미지를 다른 이미지의 임베딩과 비교하여 유사 지수에 기여한 영역(salient cue)인 핵심 영역을 시각화하는 핵심 영역 시각화 모듈을 더 포함할 수 있다.

또 다른 측면에 따르면, 상기 적어도 하나의 프로세서는, 상기 공간 유사도 맵 모듈을 구현하기 위한 GPU(graphics processing unit); 및 상기 핵심 영역 시각화 모듈을 구현하기 위한 CPU(central processing unit)를 포함할 수 있다.

컴퓨터 시스템에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, CNN 모델에서 획득한 특징 맵을 기초로 질의 이미지를 다른 이미지와 비교하여 상기 질의 이미지에서 상기 다른 이미지와의 유사 지수에 기여한 영역인 핵심 영역을 시각화하는 핵심 영역 시각화 모듈을 포함하는 컴퓨터 시스템을 제공한다.

일 측면에 따르면, 상기 핵심 영역 시각화 모듈은, 상기 질의 이미지와 상기 다른 이미지 간의 공간 유사도 맵에서 임계치 이상의 유사도를 가진 영역을 상기 핵심 영역으로 추출할 수 있다.

다른 측면에 따르면, 상기 핵심 영역 시각화 모듈은, 상기 질의 이미지에 대한 검색 결과로 상기 다른 이미지를 제공하는 경우 상기 질의 이미지 상에 상기 핵심 영역을 다른 영역과 구분하여 표시할 수 있다.

또 다른 측면에 따르면, 상기 핵심 영역 시각화 모듈은, 상기 질의 이미지에서 객체가 포함된 적어도 하나의 객체 영역을 분리하고, 상기 객체 영역 각각에 대하여 유사 이미지를 검색하여 상기 유사 이미지와의 유사 지수에 기여한 핵심 영역을 추출하고, 상기 객체 영역 별 핵심 영역을 상기 질의 이미지 상에 배치하여 시각화할 수 있다.

컴퓨터 시스템에서 실행되는 유사 영역 강조 방법에 있어서, 상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 유사 영역 강조 방법은, 상기 적어도 하나의 프로세서에 의해, CNN 모델을 통해 특징 맵을 풀링한 상태의 벡터를 이용하여 공간 정보를 복원하는 공간 유사도 맵을 구성하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 공간 유사도 맵을 기초로 질의 이미지를 다른 이미지와 비교하여 유사 지수에 기여한 영역인 핵심 영역을 시각화하는 단계를 포함하는 유사 영역 강조 방법을 제공한다.

상기 유사 영역 강조 방법을 상기 컴퓨터 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램을 제공한다.

상기 유사 영역 강조 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 비-일시적인 컴퓨터 판독 가능한 기록 매체를 제공한다.

본 발명의 실시예들에 따르면, 글로벌 풀링 방법에 의해 생성된 글로벌 디스크립터에 대해 공간적으로 분포된 유사지수를 시각화할 수 있고 디스크립터들을 유연한 차원의 크기로 조합하여 확장할 수 있다.

본 발명의 실시예들에 따르면, 이미지 검색에서 검색 영역을 강조하기 위해 유사 지수를 활용할 수 있고 질의 이미지를 다른 이미지의 임베딩과 비교하여 유사 지수에 기여한 영역을 시각화할 수 있다.

본 발명의 실시예들에 따르면, CNN 특징 또는 그 조합을 통해 얻어진 이미지 간 유사도를 이용한 유사 영역 강조 알고리즘으로써 특징 결합(feature aggregation) 방법인 SPoC, MAC, GeM 풀링을 통해 얻어진 임베딩에 모두 적용 가능하고 다양한 크기의 임베딩이 조합된 경우에도 적용 가능하다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예에 있어서 이미지 검색을 위한 CGD(combination of multiple global descriptors) 프레임워크를 도시한 것이다.
도 3은 본 발명의 일실시예에 있어서 이미지 간 유사도를 이용한 유사 영역 강조 시스템을 도시한 블록도이다.
도 4는 본 발명의 일실시예에 있어서 공간 유사도 맵을 구성하기 위한 네트워크 구조의 예시를 도시한 것이다.
도 5는 본 발명의 일실시예에 있어서 공간유사도 맵을 구하는 알고리즘을 적용할 수 있는 CNN 구조의 일 예를 도시한 것이다.
도 6은 본 발명의 일실시예에 있어서 공간 유사도 맵을 생성하기 위한 알고리즘의 예시를 도시한 것이다.
도 7은 본 발명의 일실시예에 있어서 검색 결과가 존재하는 핵심 영역을 추출하는 시각화하는 과정의 일례를 설명하기 위한 예시 도면이다.
도 8 내지 도 9는 본 발명의 일실시예에 있어서 유사 영역 강조 시스템의 성능 개선을 위한 시스템 구조 예시를 도시한 것이다.
도 10은 본 발명의 일실시예에 있어서 질의 이미지에 포함된 각 객체 별로 검색 결과가 존재하는 핵심 영역을 추출하여 시각화하는 과정을 설명하기 위한 예시 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 임베딩 벡터를 사용하여 유사한 이미지를 검색하는 기술에 관한 것으로, 특히 CNN 특징 또는 그 조합을 통해 얻어진 두 이미지 간 유사도를 이용하여 검색 결과가 존재하는 유사 영역을 강조하여 시각화하는 기술에 관한 것이다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 유사 영역 강조 시스템이 도 1의 컴퓨터 시스템(100)을 통해 구현될 수 있다. 도 1에 도시한 바와 같이, 컴퓨터 시스템(100)은 유사 영역 강조 방법을 실행하기 위한 구성요소로서 프로세서(110), 메모리(120), 영구 저장 장치(130), 버스(140), 입출력 인터페이스(150) 및 네트워크 인터페이스(160)를 포함할 수 있다.

프로세서(110)는 유사 영역 강조를 위한 구성요소로서 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(110)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(110)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼 등에 포함될 수 있다. 프로세서(110)는 버스(140)를 통해 메모리(120)에 접속될 수 있다.

메모리(120)는 컴퓨터 시스템(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(120)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 다이내믹 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(120)는 컴퓨터 시스템(100)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(120)는 예를 들어 유사 영역 강조를 위한 명령어들을 포함하는 컴퓨터 시스템(100)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(100)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(110)를 포함할 수 있다.

버스(140)는 컴퓨터 시스템(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(140)는 예를 들어 컴퓨터 시스템(100)의 컴포넌트들 사이에, 예를 들어 프로세서(110)와 메모리(120) 사이에 데이터를 운반할 수 있다. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.

영구 저장 장치(130)는 (예를 들어, 메모리(120)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(100)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(130)는 컴퓨터 시스템(100) 내의 프로세서(110)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(130)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.

입출력 인터페이스(150)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 유사 영역 강조를 위한 입력이 입출력 인터페이스(150)를 통해 수신될 수 있다.

네트워크 인터페이스(160)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(160)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 유사 영역 강조를 위한 입력이 네트워크 인터페이스(160)를 통해 수신될 수 있다.

또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 인터페이스(150)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

본 발명의 실시예들은 CNN 특징 또는 그 조합을 통해 얻어진 두 이미지 간 유사도를 이용하여 검색 결과가 존재하는 유사 영역을 강조하여 시각화하는 기술에 관한 것이다.

먼저, 서로 다른 글로벌 디스크립터를 단일 모델로 한번에 학습하여 사용할 수 있는 딥러닝 모델 프레임워크를 설명하면 다음과 같다.

Ⅰ. 이미지 검색을 위한 CGD (combination of multiple global descriptors) 프레임워크

엔드 투 엔드 방식으로 훈련할 수 있는 동안, 복수의 글로벌 디스크립터를 활용하여 앙상블 같은 효과를 얻는 새로운 프레임워크를 제안한다. 본 발명에 따른 프레임워크는 글로벌 디스크립터, CNN 백본, 손실 및 데이터 세트에 의해 유연하고 확장 가능하다. 그리고, 본 발명에 따른 프레임워크는 훈련을 위한 몇 가지 추가 매개변수만 필요로 할 뿐 추가적인 전략이나 주의 기제가 필요하지 않다.

앙상블은 여러 명의 학습자를 훈련시켜 성과를 끌어올리고 훈련된 학습자로부터 조합된 결과를 얻는 것으로 잘 알려진 기법이며, 지난 수십 년 동안 이미지 검색에 널리 사용되고 있다. 그러나, 기존 앙상블 기법의 단점은 모델 복잡성이 증가함에 따라 연산 비용의 증가로 이어지고 학습자 간의 다이버시티를 산출하기 위해 추가적인 제어가 필요하다는 것이다.

본 발명에 따른 프레임워크는 다이버시티의 통제 없이 엔드 투 엔드 방식으로 훈련될 수 있을 때 앙상블 기법의 아이디어를 활용할 수 있다.

도 2는 본 발명의 일실시예에 있어서 이미지 검색을 위한 CGD(combination of multiple global descriptors) 프레임워크를 도시한 것이다.

본 발명에 따른 CGD 프레임워크(200)는 상기에서 설명한 컴퓨터 시스템(100)을 통해 구현될 수 있으며, 디스크립터 학습을 위한 구성요소로서 프로세서(110)에 포함될 수 있다.

도 2를 참조하면, CGD 프레임워크(200)는 CNN 백본 네트워크(201)와, 두 개의 모듈인 메인 모듈(210) 및 보조 모듈(220)로 구성될 수 있다.

이때, 메인 모듈(210)은 이미지 표현(image representation)을 학습하는 역할을 하는 것으로, 순위 손실(ranking loss)을 위한 복수 개의 글로벌 디스크립터의 조합으로 이루어진다. 그리고, 보조 모듈(220)은 분류 손실(classification loss)로 CNN을 미세 조정하기 위한 역할을 한다.

CGD 프레임워크(200)는 엔드 투 엔드 방식으로 메인 모듈(210)로부터의 순위 손실과 보조 모듈(220)로부터의 분류 손실의 합계인 최종 손실로 훈련될 수 있다.

1. CNN 백본 네트워크(201)

CNN 백본 네트워크(201)로는 모든 CNN 모델이 사용 가능하다. CGD 프레임워크(200)는 BN-Inception, ShuffleNet-v2, ResNet, 그리고 이외 변형 모델 등과 같은 CNN 백본들을 사용할 수 있으며, 예를 들어 도 2에 도시한 바와 같이 ResNet-50을 CNN 백본 네트워크(201)로 사용할 수 있다.

일례로, CNN 백본 네트워크(201)는 4단계로 이루어진 네트워크를 이용할 수 있고, 이때 마지막 특징 맵(feature map)에서 더 많은 정보를 보존하기 위해 3단계(stage3)와 4단계(stage4) 사이의 다운 샘플링 작동을 포기함으로써 해당 네트워크를 수정할 수 있다. 이를 통해, 224×224의 입력 크기에 대한 14×14 크기의 특징 맵을 제공하므로 개별 글로벌 디스크립터의 성능이 향상될 수 있다. 다시 말해, 글로벌 디스크립터의 성능 향상을 위해 ResNet-50의 3단계(stage3) 이후 마지막 단계(stage4) 이전에는 다운 샘플링을 하지 않고 더 많은 정보가 포함되도록 한다.

2. 메인 모듈(210): 복수의 글로벌 디스크립터

메인 모듈(210)은 CNN 백본 네트워크(201)의 마지막 특징 맵에서 여러 특징 결합(feature aggregation) 방법을 통해 글로벌 디스크립터를 추출하고 FC 계층과 정규화(normalization)을 거친다.

메인 모듈(210)에서 추출된 글로벌 디스크립터는 연결되어(concatenate) 정규화를 거쳐 하나의 최종 글로벌 디스크립터를 형성할 수 있고, 이때 최종 글로벌 디스크립터는 순위 손실을 통해 인스턴스 레벨(instance level)에서 학습된다. 여기서, 순위 손실은 메트릭 학습(metric learning)을 위한 손실로 대체 가능하며, 대표적으로 triplet 손실을 사용할 수 있다.

상세하게, 메인 모듈(210)은 마지막 콘볼루션 계층에서 서로 다른 글로벌 디스크립터를 사용하여 각 이미지 표현을 출력하는 여러 개의 분기(branch)가 포함된다. 일례로, 메인 모듈(210)은 SPoC(sum pooling of convolution), MAC(maximum activation of convolution), GeM(generalized-mean pooling)을 포함하여 각 분기에서 가장 대표적인 글로벌 디스크립터의 세 가지 유형을 사용한다.

메인 모듈(210)에 포함된 분기의 개수는 늘리거나 줄일 수 있으며, 사용자 니즈에 맞게 사용하고자 하는 글로벌 디스크립터를 변형 및 조합할 수 있다.

이미지 I가 주어졌을 때, 마지막 콘볼루션 계층 출력은 C×H×W 차원의 3D 텐서(tensor)

로서, 여기서 C는 특징 맵의 수이다.

를 특징 맵

의 H×W 활성화 세트라 하자. 네트워크 출력은 2D 특징 맵의 C 채널로 구성된다. 글로벌 디스크립터는

를 입력으로 사용하고 풀링 프로세스에 의한 출력으로서 벡터

를 생성한다. 이러한 풀링 방법은 수학식 1과 같이 일반화할 수 있다.

[수학식 1]

일 때 SPoC를

로,

일 때 SPoC를

으로 정의하고, 나머지 경우에 대해 GeM을

으로 정의한다. GeM의 경우 실험을 통해 고정된

파라미터 3을 사용할 수 있으며, 실시예에 따라서는 파라미터

를 사용자가 수동으로 설정하거나 혹은 파라미터

자체를 학습할 수 있다.

i번째 분기의 출력 특징 벡터

는 FC 계층을 통한 차원 감소 및

-정규화(normalization) 계층을 통한 정규화에 의해 생성된다.

[수학식 2]

라 할 때,

은 분기의 수이고,

는 FC 계층의 가중치이며, 글로벌 디스크립터

는

일 때 SPoC,

일 때 MAC,

일 때 GeM일 수 있다.

본 발명에 따른 CGD 프레임워크(200)의 조합 디스크립터

라 하는 최종 특징 벡터는 여러 가지 분기의 출력 특징 벡터를 연결하여 순차적으로

-정규화를 수행한다.

[수학식 3]

라 할 때,

는 연결(concatenation)이다.

이러한 조합 디스크립터는 어떠한 유형의 순위 손실에서도 훈련될 수 있으며, 일례로 batch-hard triplet loss을 대표적으로 사용한다.

CGD 프레임워크(200)에서는 여러 글로벌 디스크립터를 조합하는 데 두 가지 장점이 있다. 첫째, 몇 가지 추가 매개변수만으로 앙상블 같은 효과를 준다. 앞에서 언급한 연구들과 같이 앙상블 효과를 얻지만 이를 엔드 투 엔드 방식으로 훈련시킬 수 있도록 하기 위해, CGD 프레임워크(200)는 단일 CNN 백본 네트워크(201)에서 여러 개의 글로벌 디스크립터를 추출하고 있다. 둘째, 다이버시티 통제 없이 각 분기의 출력에 대해 자동으로 다른 속성을 제공한다. 최근 연구에서는 학습자 간의 다이버시티를 장려하기 위해 특별히 디자인된 손실을 제안하고 있으나, CGD 프레임워크(200)는 분기들 간의 다이버시티를 통제하기 위해 특별히 디자인된 손실을 요구하지 않는다.

실험을 통해 글로벌 디스크립터에 대한 여러 조합의 성능을 비교하여 디스크립터 조합을 찾을 수 있다. 다만, 데이터마다 출력 특징 차원에 따라 성능 차이가 크지 않는 경우가 있다. 예를 들어, SPoC 1536차원과 768차원의 성능이 크지 않다면, SPoC 1536차원(단일 글로벌 디스크립터)보다 SPoC 768차원 + GeM 768차원(다중 글로벌 디스크립터)의 조합을 사용하는 것이 더 좋은 성능을 얻을 수 있다.

3. 보조 모듈(220): 분류 손실

보조 모듈(220)은 임베딩의 범주 레벨(categorical level)에서 학습하기 위해 메인 모듈(210)의 첫 번째 글로벌 디스크립터에서 출력되는 이미지 표현을 분류 손실을 이용하여 학습할 수 있다. 이때, 분류 손실을 이용한 학습 시 성능 향상을 위해 레이블 평활화(label smoothing)와 온도 스케일링(temperature scaling) 기술을 적용할 수 있다.

다시 말해, 보조 모듈(220)은 보조 분류 손실을 이용하여 메인 모듈(210)의 첫 번째 글로벌 디스크립터를 기반으로 CNN 백본을 미세 조정한다. 보조 모듈(220)은 메인 모듈(210)에 포함된 글로벌 디스크립터 중 첫 번째 글로벌 디스크립터에서 나오는 이미지 표현을 분류 손실을 이용하여 학습할 수 있다. 이는 두 단계로 구성된 접근법을 따르며, 이는 CNN 백본을 분류 손실과 함께 미세 조정하여 컨볼루션 필터를 개선한 다음 네트워크를 미세 조정하여 글로벌 디스크립터의 성능을 개선한다.

CGD 프레임워크(200)에서는 이러한 접근방식을 수정하여 엔드 투 엔드 훈련을 위한 단 한 번의 단계를 가지도록 한다. 보조 분류 손실이 있는 훈련은 등급간 분리 속성을 가지는 이미지 표현을 가능하게 하며, 순위 손실에 대해서만 사용하는 것보다 네트워크를 더 빠르고 더 안정되게 훈련하도록 돕는다.

소프트맥스 교차 엔트로피 손실(softmax loss)에서의 온도 스케일링과 레이블 평활화는 분류 손실 훈련에 도움이 되는 것으로, 소프트맥스 손실은 수학식 4와 같이 정의된다.

[수학식 4]

여기서,

,

는 각각 배치 크기, 클래스 수 및 i번째 입력의 ID 레이블을 의미한다.

와

는 각각 훈련 가능한 가중치와 바이어스(bias)이다. 그리고,

는 첫 번째 분기의 글로벌 디스크립터인데, 여기서

는 기본값(default value) 1의 온도 파라미터이다.

수학식 4에서 저온 파라미터

를 사용한 온도 스케일링은 더 어려운 예에 더 큰 기울기(gradient)를 할당하며, 클래스 내 컴팩트 및 클래스 간 스프레드-아웃 임베딩에 유용하다. 레이블 평활화는 모델을 강화하여 훈련 중 레이블 드롭아웃의 한계 효과를 추정하여 일반화를 개선한다. 따라서, 오버 피팅을 방지하고 더 나은 임베딩 방법을 학습하기 위해 보조 분류 손실에 레이블 평활화와 온도 스케일링을 추가한다.

분류 손실 계산을 위한 첫 번째 글로벌 디스크립터는 각 글로벌 디스크립터의 성능을 고려하여 결정할 수 있다. 일례로, 조합에 사용하고자 하는 글로벌 디스크립터들을 단일 분기로 사용하여 학습을 진행한 다음 그 중에 성능이 좋은 글로벌 디스크립터를 분류 손실 계산을 위한 첫 번째 글로벌 디스크립터로 사용할 수 있다. 예를 들어, SPoC, MAC, GeM을 각각 학습한 결과 성능이 GeM>SPoC>MAC이라면 GeM+MAC의 조합이 MAC+GeM의 조합보다 더 좋은 성능을 내는 경향이 있기 때문에 이를 고려하여 GeM을 분류 손실 계산을 위한 글로벌 디스크립터로 사용할 수 있다.

4. 프레임워크 구성

CGD 프레임워크(200)는 글로벌 디스크립터 분기의 개수에 의해 확장될 수 있고, 글로벌 디스크립터의 구성에 따라 다른 유형의 네트워크를 허용한다. 예를 들어, 3개의 글로벌 디스크립터(SPoC, MAC, GeM)를 사용하며, 보조 분류 손실에 대해 단독으로 최초의 글로벌 디스크립터를 사용하므로 12개의 가능한 구성을 만들 수 있다.

설명의 편의를 위해, SPoC를 S로, MAC을 M으로, GeM을 G로 약칭하며, 표기 중 첫 번째 문자는 보조 분류 손실에 사용되는 첫 번째 글로벌 디스크립터를 의미한다. CGD 프레임워크(200)는 하나의 CNN 백본 네트워크(201)로부터 세 가지 글로벌 디스크립터 S, M, G를 추출할 수 있으며, 이때 글로벌 디스크립터 S, M, G를 기준으로 12가지 구성이 가능하다: S, M, G, SM, MS, SG, GS, MG, GM, SMG, MSG, GSM. 모든 글로벌 디스크립터가 조합되어 순위 손실에서 학습되며, 첫 번째 글로벌 디스크립터만 분류 손실에서 부가적으로 학습될 수 있다. 예를 들어, SMG의 경우 글로벌 디스크립터 S만 분류 손실에서 부가적으로 학습되며, 모든 S, M 및 G는 조합되어(SM, MS, SG, GS, MG, GM, SMG, MSG, GSM) 순위 손실에서 학습된다.

따라서, 복수의 글로벌 디스크립터를 앙상블 하기 위해 여러 모델을 따로 학습하는 기존 방법과 달리, 본 발명은 하나의 모델만 엔트 투 엔트로 학습하여 앙상블과 같은 효과를 얻을 수 있다. 기존 방법들은 앙상블을 위해 별도로 제작된 손실을 통해 다이버시티 통제를 진행하는 반면에, 본 방법은 다이버시티 통제없이 앙상블과 같은 효과를 얻을 수 있다. 본 발명에 따르면, 최종 글로벌 디스크립터를 이미지 검색에 사용할 수 있으며, 필요에 따라 더욱 작은 차원을 사용하기 위해 연결하기(concatenate) 직전의 이미지 표현들을 사용할 수 있다. 사용자 니즈에 따라 다양한 글로벌 디스크립터를 사용할 수 있고 글로벌 디스크립터의 개수를 조절하여 모델의 확장 및 축소가 가능하다.

다음으로, CNN 특징 또는 그 조합을 통해 얻어진 두 이미지 간 유사도를 이용하여 검색 결과가 존재하는 유사 영역을 강조하는 방법 및 시스템의 구체적인 실시예를 설명하기로 한다.

도 3을 참조하면, 프로세서(110)는 유사 영역 강조 방법을 수행하기 위한 위한 구성요소로서, 이미지 간 유사도를 계산하는 CNN 모델에서 벡터를 가지고 공간 정보를 복원하는 공간 유사도 맵(ssm: spatial similarity map)을 구성하기 위한 공간 유사도 맵 모듈(spatial similarity map module)(310), 및 공간 유사도 맵을 기초로 질의 이미지(301)를 다른 이미지의 임베딩(302)과 비교하여 검색 결과가 존재하는 이미지 영역을 시각화하는 핵심 영역 시각화 모듈(salient cue visualization module)(320)을 포함할 수 있다.

Ⅱ. 공간 유사도 맵 모듈(310)

일부 연구에서는 유사성 학습을 위한 시각화 방법을 제안하고 있다. ResNet50 백본과 평균 풀링 및 맥스 풀링을 통해 추가적인 차원 감소 없이 이미지 임베딩을 수행할 수 있다. 그러나, 큰 차원(1024 또는 2048)이 적용된 모델은 용량 효율성 문제로 사용되고 있지 않으며, 시각화 방법은 큰 차원의 모델에 대해서만 언급하고 있기 때문에 실제 사용되는 모델에 시각화 방법을 직접 적용하기에는 적합하지 않다.

본 실시예에서는 출력 임베딩이 유연한 차원 크기의 복수 풀링 분기 및 FC 계층에서 올 수 있는 보다 일반적인 이미지 임베딩 네트워크를 제안할 수 있다.

1. SPoc, Max 풀링의 시각화

이미지 임베딩은 이미지가 입력으로 주어질 때 이미지를 표현할 수 있는 다차원의 벡터를 반환하는 것으로, 이때 다차원의 벡터는 이후 이미지 검색에 사용될 수 있다.

도 4를 참조하면, 프로세서(110)의 공간 유사도 맵 모듈(310)은 CNN 모델에서 특징 맵(401)을 풀링한 상태의 벡터(402)를 이용하여 공간 유사도 맵(403)을 구성할 수 있다.

특히, 본 발명의 실시예에 따른 공간 유사도 맵 모듈(310)은 도 2를 통해 설명한 CGD 프레임워크(200)를 이용하여 개선된 네트워크 모델을 포함할 수 있다. 일례로, 도 5에 도시한 바와 같이, 특징 맵(401)을 풀링한 상태의 벡터(402)에 도 2를 통해 설명한 메인 모듈(210)에서 FC 계층 이하 구성을 추가할 수 있으며, 보다 효율적인 벡터를 구성하는 방법으로 임베딩 사이즈를 변경하기 위한 FC 계층을 도입한 경우에도 이미지 검색을 위한 유사도 맵을 구성할 수 있다. 다시 말해, 다중 풀링 분기에서 임베딩하고 FC 계층을 가진 네트워크에서도 유사도 맵을 얻을 수 있다.

공간 유사도 맵 모듈(310)에 적용 가능한 CGD 프레임워크(200)는 한 가지에 예시일 뿐, 이에 한정되는 것은 아니며, 세 개의 글로벌 디스크립터(SPoC, MAC, GeM), 및 이후 적용된 FC 계층, 혹은 이들 조합에 대해 모두 적용 가능하다.

공간 유사도 맵을 구하는 알고리즘을 적용할 수 있는 CNN 구조의 예시는 표 1과 같다.

Network Structure
aggregation in a result from pooling
Inference
[Input Image]
|---[CNN Feature Map] -- [Aggregation_0] -- [FC] -- [L2Norm] --[Concatenation] -- [L2Norm] → Final Embedding
| - [Aggregation_k] -- [FC] -- [L2Norm] - |
| - ……………………………………… - |
| - [Aggregation_N-1] -- [FC] -- [L2Norm] - |

SPoC와 Max 풀링 임베딩이 공간적 유사도 맵을 생산하는 방식을 보여주기 위해 이하 수학식 5를 사용한다. 비교를 쉽게 하기 위해 작업에서 유사한 표기법을 채택한다. 두 이미지 유사성을 측정하기 위한 가장 일반적인 선택은 l2 표준화 임베딩에서의 코사인 유사성이다.[수학식 5]

여기서,

는 특징 맵에서 일부 풀링 방법을 사용하여 집계된 특징을 의미하고, 차원의 크기는 특징 맵의 채널 수와 같다.

SpoC의 경우 임베딩은 특징 맵에 공간적으로 분포된 특징의 평균이며, 차원의 임베딩 크기를 가진 1차원 벡터가 될 것이다.

[수학식 6]

추가 연산의 단순한 분배 법칙(distributive law)(수학식 6)은 각 공간적 위치로부터 유사 지수의 기여를 분해하기에 충분하다.

[수학식 7]

여기서, Z는

의 정규화 인자(normalizing factor)이다. 마찬가지로, Max 풀링 집계는 수학식 8와 같이 표현될 수 있다.

[수학식 8]

결합 방법으로 정의한 유사 지수 기여도에 근거하여 서로 다른 위치에 대하여 가중치를 가진 써로게이트 텐서(surrogate tensor)

를 설명한다.

는 수학식 9과 같이 표현될 수 있다.

[수학식 9]

[수학식 10]

2. FC 계층 이후 임베딩

도 2를 통해 설명한 바와 같이 차원을 줄이기 위하여 FC 계층을 사용한다. FC 계층 이후 최종 임베딩은

로 쓸 수 있으며, 여기서 W는 가중치, b는 바이어스를 의미한다.

예를 들어, SPoC 집계를 포함한 공간적 유사도 맵은 수학식 11과 같이 정의할 수 있다.

[수학식 11]

여기서, W는 차원(임베딩 차원, 특징 맵 차원)의 크기이고, Z는 정규화 인자

이다. Max 풀링에서 써로게이트를 사용하기 때문에 SPoC 또한 써로게이트를 가질 수 있다.

[수학식 12]

써로게이트 텐서

의 도입으로 보다 일반화된 등식 형태를 작성할 수 있다.\

3. Max 풀링

수학식 13에 수학식 9의 Max 풀링 써로게이트를 적용하면 FC 계층의 임베딩 이후 Max 풀링 결합이 포함된 유사도 맵을 얻을 수 있다.

[수학식 13]

4. GeM

GeM 결합(aggregation)은 수학식 14과 같이 정의될 수 있다.

[수학식 14]

GeM 결합의 써로게이트 텐서

를 수학식 15과 같이 정의할 수 있다.

[수학식 15]

수학식 13에 수학식 15의 GeM 써로게이트를 적용하면 FC 계층의 임베딩 이후 GeM 풀링 결합을 통해 공간적 유사도 맵을 얻을 수 있다.

p=1일 경우 GeM 풀링은 SPoC 풀링과 동일하다. 또한, p=1에서 GeM의 써로게이트 텐서는 SPoC 써로게이트와 동일하다.

5. 연결된 글로벌 디스크립터 시각화

도 6에 도시한 테이블은 구성 예시와 실행 과정을 나타내는 알고리즘 예시이다.

다수의 글로벌 디스크립터의 연결(concatenation) 이후 최종 임베딩의 내적(dot product)은 동일한 종류의 풀링 분기로부터 임베딩된 각 내적의 가중치 합계를 의미할 수 있다. 각 풀링 분기가 동일한 차원을 취하며 연결 전에 l2 정규화된 것으로 가정함으로써 유사도 맵은 각 풀링 분기의 유사도 맵을 평균하여 생성할 수 있다.

각 임베딩의 차원이 다른 경우 도 6의 테이블에서 35행에 설명된 바와 같이 임베딩 각각에 가중치를 부여할 수 있다.

따라서, 프로세서(110)는 입력 이미지를 다른 이미지의 임베딩과 비교할 때 유사 지수에 기여한 영역을 이해하기 위하여 시각화를 제공할 수 있다. 특히, 프로세서(110)는 세 개의 글로벌 디스크립터(SPoC, MAC, GeM)에 대해 공간적으로 분포된 유사 지수를 시각화할 수 있고 유연한 차원의 크기로 조합하여 임베딩을 확장할 수 있다.

상기한 유사도 맵 생성 알고리즘은 유사도 맵을 생성하기 위한 네트워크 모델로서 도 2를 통해 설명한 네트워크 모델과 도 4를 통해 설명한 네트워크 모델이 결합된 형태의 개선 모델은 물론이고, FC 계층이나 벡터 연결에서의 역(inverse) 연산이 가능한 구조의 네트워크 모델이라면 모두 적용 가능하다.

Ⅲ. 핵심 영역 시각화 모듈(320)

프로세서(110)의 핵심 영역 시각화 모듈(320)은 두 이미지 간의 공간 유사도 맵을 기초로 질의 이미지(301)를 다른 이미지의 임베딩(302)과 비교하여 검색 결과가 존재하는 이미지 영역을 시각화하는 역할을 한다.

도 7을 참조하면, 핵심 영역 시각화 모듈(320)은 공간 유사도 맵 모듈(310)에서 생성된 초기 공간 유사도 맵(71)을 전달받아 일정 범위의 정수 값으로 변환함으로써 정수화된 공간 유사도 맵(72)을 만들 수 있다. 예를 들어, 초기 공간 유사도 맵(71)은 14×14 격자 형태의 구조로 구성될 수 있으며, 이때 음수 값을 버린 후 0-255 범위의 값으로 변경하여 정수화된 공간 유사도 맵(72)으로 만들 수 있다.

핵심 영역 시각화 모듈(320)은 정수화된 공간 유사도 맵(72)에서 임계치(threshold) 이상의 유사도를 가진 격자를 추출함으로써 임계치 공간 유사도 맵(73)을 만들 수 있다. 예를 들어, 임계치 자동 선택 방식을 통해 정수화된 공간 유사도 맵(72)에서 전체 유사도의 30% 이상인 격자를 남기는 방식으로 임계치 공간 유사도 맵(73)을 만들 수 있고, 이외에도 이진 검색(binary search)을 통해 임계치 공간 유사도 맵(73)을 만들 수 있다.

핵심 영역 시각화 모듈(320)은 임계치 공간 유사도 맵(73)에서 임계치 이상의 유사도를 가진 격자를 대상으로 인접한 격자들을 그룹핑하여 질의 이미지(301)에서 그룹핑 영역과 대응되는 핵심 영역(74)을 생성할 수 있다. 핵심 영역 시각화 모듈(320)은 임계치 이상의 유사도를 가진 격자를 상하좌우로 인접한 격자와 묶는 방식으로 핵심 영역(74)을 생성할 수 있다. 예를 들어, 핵심 영역 시각화 모듈(320)은 컴퓨터 비전 기반 윤곽선 찾기 함수(OpenCV findContours)를 이용하여 핵심 영역(74)을 찾을 수 있다.

핵심 영역 시각화 모듈(320)은 질의 이미지(301)에 검색 결과가 존재하는 이미지 영역인 핵심 영역(74)을 표시할 수 있다. 이때, 핵심 영역 시각화 모듈(320)은 각 영역의 유사도 합을 기준으로 핵심 영역(74)을 서로 다르게 구분하여 표시할 수 있으며, 예를 들어 핵심 영역(74) 중 유사도 합이 가장 큰 영역을 빨간색으로 표시하고 나머지를 초록색으로 표시할 수 있다.

따라서, 핵심 영역 시각화 모듈(320)은 질의 이미지(301)를 다른 이미지의 임베딩(302)과 비교하여 검색 결과로서 유사 지수에 기여한 영역(salient cue), 즉 핵심 영역(74)에 대한 시각화를 제공할 수 있다.

Ⅳ. 시스템 구조 및 적용 기술

본 발명의 실시예들은 이미지 검색과 관련된 처리 속도를 향상시키기 위한 시스템 구조를 포함할 수 있다.

프로세서(110)는 컴퓨터 프로세서로서 CPU(중앙 처리 장치) 및 GPU(그래픽 처리 장치)를 포함할 수 있다. 공간 유사도 맵 모듈(310)과 핵심 영역 시각화 모듈(320)을 어떤 프로세서(CPU, GPU)를 이용하여 구현하느냐에 따라 성능 차이가 있을 수 있다.

도 8을 참조하면, 질의 이미지(301)를 임베딩하는 임베딩 모듈의 경우 GPU(811)에서 구현할 수 있고, 질의 이미지(301)의 임베딩(801)과 다른 이미지의 임베딩(302)에 대해 공간 유사도 맵(71)을 생성하는 공간 유사도 맵 모듈(310), 및 공간 유사도 맵(71)에 기초하여 질의 이미지(301)에서 검색 결과가 존재하는 핵심 영역(74)을 시각화하는 핵심 영역 시각화 모듈(320)은 CPU(812)에서 구현할 수 있다.

공간 유사도 맵 모듈(310)과 핵심 영역 시각화 모듈(320)을 모두 CPU(812)를 이용하여 구현하는 경우 CPU(812)에 병목 현상이 발생하여 이미지 검색 속도가 저하될 수 있다.

한편, 도 9를 참조하면 질의 이미지(301)를 임베딩하는 임베딩 모듈과 함께, 질의 이미지(301)의 임베딩과 다른 이미지의 임베딩(302)에 대해 공간 유사도 맵(71)을 생성하는 공간 유사도 맵 모듈(310)은 GPU(911)에서 구현하고, 공간 유사도 맵(71)에 기초하여 질의 이미지(301)에서 검색 결과가 존재하는 핵심 영역(74)을 시각화하는 핵심 영역 시각화 모듈(320)은 CPU(912)에서 구현할 수 있다.

따라서, 공간 유사도 맵 모듈(310)은 GPU(911)를 이용하여 구현하고 핵심 영역 시각화 모듈(320)은 CPU(912)를 이용하여 구현함으로써 이미지 처리량과 처리 속도를 더욱 향상시킬 수 있다.

그리고, 본 발명의 실시예들은 질의 이미지에 객체가 둘 이상인 경우 각 객체 별로 검색 결과가 존재하는 핵심 영역을 시각화할 수 있다.

도 10을 참조하면, 프로세서(110)는 질의 이미지(301)에서 객체가 포함된 영역(이하, '객체 영역'이라 칭함)(1002)을 분리한 후 객체 영역(1002) 각각에 대하여 유사 이미지(1003)를 검색할 수 있다. 이때, 핵심 영역 시각화 모듈(320)은 객체 영역(1002) 각각에 대하여 검색 결과가 존재하는 영역, 다시 말해 유사 이미지(1003)와의 유사 지수에 기여한 핵심 영역(1004)을 추출한 후 객체 영역(1002) 별 핵심 영역(1004)을 질의 이미지(301) 상에 배치하여(composition) 최종 시각화를 제공할 수 있다.

따라서, 본 발명의 실시예들은 이미지를 질의로 하여 이미지를 검색하는 경우 검색 결과로 다른 이미지를 제공함에 있어 질의 이미지의 어떤 영역 때문에 검색 결과 이미지가 선정된 것인지 해당 영역을 강조해 줄 수 있다. 다시 말해, 질의 이미지의 어떤 부분이 검색 결과 이미지와 연관 있는지 판단하여 사용자에게 더욱 직관적으로 인지시킬 수 있는 시각화를 제공할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 시스템에 있어서,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
이미지 간 유사도를 계산하는 CNN(convolution neural network) 모델에서 공간 정보를 복원하는 공간 유사도 맵(ssm: spatial similarity map)을 구성하기 위한 공간 유사도 맵 모듈
을 포함하고,
상기 공간 유사도 맵 모듈은,
상기 CNN 모델에서 특징 맵을 풀링(pooling)한 상태의 벡터를 이용하여 상기 공간 유사도 맵을 구성하는 것으로, 다중 풀링 분기에서의 복수의 글로벌 디스크립터(global descriptor)를 연결하여(concatenate) 학습하는 모델을 포함하고,
상기 적어도 하나의 프로세서는,
상기 복수의 글로벌 디스크립터에 대해 공간적으로 분포된 유사 지수를 시각화하는 것
을 특징으로 하는 컴퓨터 시스템.
제1항에 있어서,
상기 공간 유사도 맵 모듈은,
각 풀링 분기에 FC(fully-connected) 계층을 가진 네트워크 모델을 포함하는 것
을 특징으로 하는 컴퓨터 시스템.
제2항에 있어서,
상기 공간 유사도 맵 모듈은,
상기 FC 계층의 임베딩 이후 풀링 결합(aggregation)이 포함된 유사도 맵을 생성한 후 각 풀링 분기의 유사도 맵을 평균하여 상기 공간 유사도 맵을 생성하는 것
을 특징으로 하는 컴퓨터 시스템.
컴퓨터 시스템에 있어서,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
이미지 간 유사도를 계산하는 CNN(convolution neural network) 모델에서 공간 정보를 복원하는 공간 유사도 맵(ssm: spatial similarity map)을 구성하기 위한 공간 유사도 맵 모듈
을 포함하고,
상기 공간 유사도 맵 모듈은,
상기 CNN 모델에서 특징 맵을 풀링(pooling)한 상태의 벡터를 이용하여 상기 공간 유사도 맵을 구성하는 것으로, 다중 풀링 분기에서의 복수의 글로벌 디스크립터(global descriptor)를 연결하여(concatenate) 학습하는 모델을 포함하고,
상기 공간 유사도 맵 모듈은,
각 풀링 분기의 임베딩의 차원이 다른 경우 임베딩 각각에 가중치를 부여하는 것
을 특징으로 하는 컴퓨터 시스템.
삭제
컴퓨터 시스템에 있어서,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
이미지 간 유사도를 계산하는 CNN(convolution neural network) 모델에서 공간 정보를 복원하는 공간 유사도 맵(ssm: spatial similarity map)을 구성하기 위한 공간 유사도 맵 모듈
을 포함하고,
상기 공간 유사도 맵 모듈은,
상기 CNN 모델에서 특징 맵을 풀링(pooling)한 상태의 벡터를 이용하여 상기 공간 유사도 맵을 구성하는 것으로, 다중 풀링 분기에서의 복수의 글로벌 디스크립터(global descriptor)를 연결하여(concatenate) 학습하는 모델을 포함하고,
상기 적어도 하나의 프로세서는,
상기 공간 유사도 맵을 기초로 질의 이미지를 다른 이미지의 임베딩과 비교하여 유사 지수에 기여한 영역(salient cue)인 핵심 영역을 시각화하는 핵심 영역 시각화 모듈
을 더 포함하는 컴퓨터 시스템.
제6항에 있어서,
상기 적어도 하나의 프로세서는,
상기 공간 유사도 맵 모듈을 구현하기 위한 GPU(graphics processing unit); 및
상기 핵심 영역 시각화 모듈을 구현하기 위한 CPU(central processing unit)
를 포함하는 컴퓨터 시스템.
컴퓨터 시스템에 있어서,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
CNN 모델에서 획득한 특징 맵을 기초로 질의 이미지를 다른 이미지와 비교하여 상기 질의 이미지에서 상기 다른 이미지와의 유사 지수에 기여한 영역인 핵심 영역을 시각화하는 핵심 영역 시각화 모듈
을 포함하고,
상기 핵심 영역 시각화 모듈은,
상기 질의 이미지와 상기 다른 이미지 간의 공간 유사도 맵에서 임계치 이상의 유사도를 가진 영역을 상기 핵심 영역으로 추출하는 것
을 특징으로 하는 컴퓨터 시스템.
삭제
제8항에 있어서,
상기 핵심 영역 시각화 모듈은,
상기 질의 이미지에 대한 검색 결과로 상기 다른 이미지를 제공하는 경우 상기 질의 이미지 상에 상기 핵심 영역을 다른 영역과 구분하여 표시하는 것
을 특징으로 하는 컴퓨터 시스템.
제8항에 있어서,
상기 핵심 영역 시각화 모듈은,
상기 질의 이미지에서 객체가 포함된 적어도 하나의 객체 영역을 분리하고,
상기 객체 영역 각각에 대하여 유사 이미지를 검색하여 상기 유사 이미지와의 유사 지수에 기여한 핵심 영역을 추출하고,
상기 객체 영역 별 핵심 영역을 상기 질의 이미지 상에 배치하여 시각화하는 것
을 특징으로 하는 컴퓨터 시스템.
컴퓨터 시스템에서 실행되는 유사 영역 강조 방법에 있어서,
상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 유사 영역 강조 방법은,
상기 적어도 하나의 프로세서에 의해, CNN 모델을 통해 특징 맵을 풀링한 상태의 벡터를 이용하여 공간 정보를 복원하는 공간 유사도 맵을 구성하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 공간 유사도 맵을 기초로 질의 이미지를 다른 이미지와 비교하여 유사 지수에 기여한 영역인 핵심 영역을 시각화하는 단계
를 포함하고,
상기 시각화하는 단계는,
상기 질의 이미지와 상기 다른 이미지 간의 공간 유사도 맵에서 임계치 이상의 유사도를 가진 영역을 상기 핵심 영역으로 추출하는 단계
를 포함하는 유사 영역 강조 방법.
제12항에 있어서,
상기 CNN 모델은 다중 풀링 분기에서의 복수의 글로벌 디스크립터를 연결하여 학습하는 모델로 각 풀링 분기에 FC 계층을 가진 네트워크 모델을 포함하고,
상기 구성하는 단계는,
상기 FC 계층의 임베딩 이후 풀링 결합이 포함된 유사도 맵을 생성한 후 각 풀링 분기의 유사도 맵을 평균하여 상기 공간 유사도 맵을 생성하는 것
을 특징으로 하는 유사 영역 강조 방법.
삭제
제12항에 있어서,
상기 시각화하는 단계는,
상기 질의 이미지에 대한 검색 결과로 상기 다른 이미지를 제공하는 경우 상기 질의 이미지 상에 상기 핵심 영역을 다른 영역과 구분하여 표시하는 것
을 특징으로 하는 유사 영역 강조 방법.
제12항에 있어서,
상기 시각화하는 단계는,
상기 질의 이미지에서 객체가 포함된 적어도 하나의 객체 영역을 분리하는 단계;
상기 객체 영역 각각에 대하여 유사 이미지를 검색하여 상기 유사 이미지와의 유사 지수에 기여한 핵심 영역을 추출하는 단계; 및
상기 객체 영역 별 핵심 영역을 상기 질의 이미지 상에 배치하여 시각화하는 단계
를 포함하는 유사 영역 강조 방법.
제12항, 제13항, 제15항, 및 제16항 중 어느 한 항의 유사 영역 강조 방법을 상기 컴퓨터 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.
제12항, 제13항, 제15항, 및 제16항 중 어느 한 항의 유사 영역 강조 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 비-일시적인 컴퓨터 판독 가능한 기록 매체.