KR102578292B1

KR102578292B1 - 컴퓨터 메모리 효율성이 향상된 물체/영역 검출 및 분류 시스템

Info

Publication number: KR102578292B1
Application number: KR1020200175036A
Authority: KR
Inventors: 안상철; 강준석
Original assignee: 한국과학기술연구원
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2023-09-15
Also published as: US11676372B2; US20220188557A1; KR20220085178A

Abstract

본 발명의 일 실시예에 따른 물체 검출 및 분류 시스템은, 검출 및 분류하고자 하는 물체가 포함된 입력 이미지를 입력 받아 특징 정보가 포함된 입력 값(input value)을 생성하는 입력 값 생성부; 상기 물체와 연관된 참조 이미지를 입력 받아 특징 정보가 포함된 메모리 값(memory value)을 생성하는 메모리 값 생성부; 상기 메모리 값들 중에서 중요도가 높은 정보를 선별하여 컴퓨터 메모리에 저장하는 메모리 관리부; 상기 입력 이미지로부터 생성된 입력 값과 상기 컴퓨터 메모리에 저장된 메모리 값의 유사성을 비교하고 가중치 합을 계산하여 통합 값(integrated value)을 생성하고, 상기 통합 값과 상기 입력 값을 합성하여 합성 값(aggregated value)을 생성하는 합성 값 생성부; 및 상기 합성 값을 이용하여 상기 입력 이미지로부터 물체를 검출하거나 분류하는 물체 검출부를 포함한다. 실시예에 따르면, 기존 방식 대비 적은 컴퓨터 메모리 환경에서도 높은 정확도와 해상도로 이미지 내 물체를 검출하거나 분류할 수 있다.

Description

컴퓨터 메모리 효율성이 향상된 물체/영역 검출 및 분류 시스템{OBJECT/REGION DETECTION AND CLASSIFICATION SYSTEM WITH IMPROVED COMPUTER MEMORY EFFICIENCY}

본 발명은 입력된 이미지에서 메모리 효율적으로 물체 또는 영역을 검출하거나 분류하는 시스템에 관한 것이다.

참조 이미지를 사용하여 입력된 이미지에서 관심 있는 물체(혹은 영역)를 검출하거나 분류하는 기술은 다양한 컴퓨터비전 어플리케이션(예를 들어, 물체 추적, 배경 제거, 병변 검출, 진단 등)에서 사용되고 있다. 최근에는 기계학습(machine-learning) 모델을 활용하여 높은 정확도로 물체를 검출 및 분류할 수 있게 되었다.

도 1은 종래의 물체 검출 방식 중 하나인 스페이스-타임 메모리 네트워크(space-time memory network)의 구조를 나타낸다. 여기서는 메모리 네트워크를 통해 비디오의 과거 프레임에 나타난 관심물체의 위치를 참조하여 현재 프레임에서의 관심물체를 검출한다. 도 1에서 확인할 수 있듯이 기존의 방식에서는 자연어 처리(natural language processing)에서 개발된 메모리 네트워크를 그대로 채용하였으며 인코더(encoder)의 출력을 키(key)와 값(value)으로 분리하여 사용한다.

기존의 STM 물체 검출 시스템에는 다음과 같은 몇 가지 문제점이 존재한다.

- 이미지를 다루는데 있어서 키와 값에 포함되는 정보가 중복될 수 있어 메모리 효율성이 떨어진다. 기존의 방식은 자연어 처리에서 개발된 메모리 네트워크 구조를 그대로 사용하므로 키와 값이 구분되며, 키는 이미지의 유사성을 계산하는데 사용되고 값은 검출(또는 분류)에 사용된다. 그러나 이미지의 경우 키와 값 사이의 명확한 구분이 없기 때문에 이들을 구분하여 사용할 경우 불필요한 정보의 중복으로 인해 메모리 효율성이 떨어진다.

- 기존의 방식에서는 메모리에 저장된 과거 프레임(past frames)에 담긴 물체 모습을 조합하여 현재 프레임(current frame)의 물체 모습을 추정하는데, 단순히 일정 개수마다 프레임을 한 장씩 메모리에 추가하는 방식을 사용한다. 이러한 방식에서는 메모리에 저장되는 정보 간의 유사성이나 유용성을 고려하지 않기 때문에 프레임에 따른 물체의 변화가 극히 적은 경우에도 메모리에 대량의 유사한 프레임들이 저장되며, 이는 불필요한 메모리의 사용을 야기한다.

- 기존의 방식은 고해상도의 이미지를 처리하는데 있어서도 많은 컴퓨터 메모리를 요하기 때문에 일정 크기 이상의 입력 이미지를 처리하는데 부적절하다는 문제가 있다.

US 2017-0200077 A1

Seoung Wug Oh, Joon-Young Lee, Ning Xu, Seon Joo Kim, "Video Object Segmentation using Space-Time Memory Networks," ICCV2019

이에 본 발명은 기존의 메모리 네트워크 기반 물체 검출 시스템의 문제점을 해결하기 위해 착안된 것으로서, 컴퓨터 메모리를 효율적으로 관리할 수 있는 모듈과 고해상도 이미지에 대한 물체 검출 알고리즘을 적용하여 메모리 효율적이고 높은 정확도를 갖는 물체/영역 검출 및 분류 시스템을 제공하는 것을 목적으로 한다.

일 실시예에 따른 컴퓨터 메모리 효율적인 물체 검출 및 분류 시스템은, 검출 및 분류하고자 하는 물체가 포함된 입력 이미지를 입력 받아 특징 정보가 포함된 입력 값(input value)을 생성하는 입력 값 생성부; 상기 물체와 연관된 참조 이미지를 입력 받아 특징 정보가 포함된 메모리 값(memory value)을 생성하는 메모리 값 생성부; 상기 메모리 값들 중에서 중요도가 높은 정보를 선별하여 컴퓨터 메모리에 저장하는 메모리 관리부; 상기 입력 이미지로부터 생성된 입력 값과 상기 컴퓨터 메모리에 저장된 메모리 값의 유사성을 비교하고 가중치 합을 계산하여 통합 값(integrated value)을 생성하고, 상기 통합 값과 상기 입력 값을 합성하여 합성 값(aggregated value)을 생성하는 합성 값 생성부; 및 상기 합성 값을 이용하여 상기 입력 이미지로부터 물체를 검출하거나 분류하는 물체 검출부를 포함한다.

일 실시예에 따르면, 상기 합성 값 생성부는, 상기 입력 값과 상기 메모리 값의 유사성을 그리드(grid) 단위로 비교하여 유사성 벡터를 계산하고, 상기 유사성 벡터에 기초하여 여러 메모리 값들의 가중치 합(weighted sum)을 그리드 단위로 계산하여 하나의 통합 값으로 변환할 수 있다.

일 실시예에 따르면, 상기 메모리 관리부는, 새롭게 생성된 메모리 값의 중요도가 소정의 값 이상인 경우에만 컴퓨터 메모리에 저장함으로써 메모리 효율성을 증가시키고, 컴퓨터 메모리의 크기가 제한되어 있는 환경에서 새로운 메모리 값이 추가되면, 이미 저장된 메모리 값들 중 유사성이 가장 크거나 가장 오래된 메모리 값을 상기 컴퓨터 메모리에서 삭제할 수 있다.

일 실시예에 따르면, 상기 메모리 값의 중요도는 이미 저장된 메모리 값들과의 유사성이 작을수록, 이미지에 포함된 노이즈가 작을수록 높게 측정될 수 있다.

일 실시예에 따르면, 상기 메모리 관리부는, 컴퓨터 메모리의 크기가 제한되어 있는 환경에서 새로운 메모리 값이 추가되면, 이미 저장된 메모리 값들 중 유사성이 가장 크거나 가장 오래된 메모리 값을 상기 컴퓨터 메모리에서 삭제할 수 있다.

일 실시예에 따르면, 상기 입력 값 생성부는, 상기 입력 이미지를 고레벨 정보로 압축하기 위한 기계학습 모델로 구현되는 입력부 인코더; 및 상기 입력부 인코더의 출력을 받아 고레벨 특징 정보를 포함하는 입력 값을 생성하기 위한 입력 값 모델로 구성되며, 상기 메모리 값 생성부는, 상기 참조 이미지를 고레벨 정보로 압축하기 위한 기계학습 모델로 구현되는 메모리부 인코더; 및 상기 메모리부 인코더의 출력을 받아 고레벨 특징 정보를 포함하는 메모리 값을 생성하기 위한 메모리 값 모델로 구성될 수 있다.

일 실시예에 따르면, 상기 입력부 인코더와 상기 메모리부 인코더는 가중치를 공유하는 동일한 기계학습 모델로 구성될 수 있다.

일 실시예에 따르면, 상기 입력 값 모델과 상기 메모리 값 모델은 가중치를 공유하는 동일한 값 모델(value model)로 구성될 수 있다.

일 실시예에 따른 고해상도 이미지에 대해 물체를 검출하거나 분류하기 위한 방법은, 해상도가 소정의 값 이상인 고해상도의 입력 이미지를 입력 받는 제1 단계; 상기 입력 이미지를 여러 단계에 걸쳐 일정 비율로 축소하여 축소된 이미지들을 획득하는 제2 단계; 상기 축소된 이미지들 중 가장 작은 이미지를 초기 프로세싱 이미지로 선택하는 제3 단계; 상기 프로세싱 이미지를 동일한 크기의 복수의 구역들로 구분하는 제4 단계; 제1항 내지 제7항 중 어느 한 항에 따른 물체 검출 및 분류 시스템을 이용하여 상기 프로세싱 이미지에서 물체를 검출하거나 분류하는 제5 단계; 상기 프로세싱 이미지가 상기 고해상도의 입력 이미지와 크기가 동일한지 판단하는 제6 단계; 상기 프로세싱 이미지가 상기 고해상도의 입력 이미지보다 크기가 작은 경우, 검출 및 분류 결과에 기초하여 상기 프로세싱 이미지의 복수의 구역들 중 물체가 포함된 구역을 선택하여 반환하고, 상기 프로세싱 이미지보다 덜 축소된 상위 단계의 축소된 이미지에서 상기 반환된 구역에 대응하는 구역을 잘라내어 프로세싱 이미지로 반환하고, 상기 반환된 프로세싱 이미지에 대해 상기 제4 단계 내지 제6단계를 반복하는 제7단계; 및 상기 프로세싱 이미지가 상기 고해상도의 입력 이미지와 크기가 동일한 경우 검출 및 분류 결과를 출력으로 반환하는 제8단계를 포함한다.

일 실시예에 따른 고해상도 이미지에 대해 물체를 검출하거나 분류하기 위한 방법을 실행하기 위한 컴퓨터로 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 제공될 수 있다.

일 실시예에 따른 물체 검출 및 분류 시스템에 의하면, 기존 방식 대비 적은 컴퓨터 메모리 환경에서도 높은 정확도로 이미지 내 물체를 검출하거나 분류할 수 있다. 또한, 메모리 효율성이 떨어지는 기존의 방식에서는 처리가 불가능했던 크기의 고해상도 이미지에 대해서도 물체를 검출하거나 분류하는 것이 가능하다.

본 발명 또는 종래 기술의 실시예의 기술적 해결책을 보다 명확하게 설명하기 위해, 실시예에 대한 설명에서 필요한 도면이 아래에서 간단히 소개된다. 아래의 도면들은 본 명세서의 실시예를 설명하기 목적일 뿐 한정의 목적이 아니라는 것으로 이해되어야 한다. 또한, 설명의 명료성을 위해 도면의 일부 구성요소들에 대한 표현이 과장되거나 생략될 수 있다.
도 1은 종래기술에 따른 메모리 네트워크를 활용한 물체 검출 및 분류 시스템의 구조를 나타낸다.
도 2a 내지 2d는 실시예들에 따른 이미지 내 물체 검출 및 분류 시스템의 구조를 나타낸다.
도 3은 일 실시예에 따른 메모리 관리 모듈의 작동 방식을 나타낸다.
도 4는 일 실시예에 따른 메모리 관리 모듈에서 이미지의 중요도를 판단하는 기준을 설명하기 위한 도면이다.
도 5a 내지 5d는 종래기술에 따른 모델의 작동 원리를 설명하기 위한 도면들이다.
도 6a 내지 6d는 일 실시예에 따른 모델의 작동 원리를 설명하기 위한 도면들이다.
도 7은 스킵 커넥션(skip connection)에 따른 데이터 전달 흐름을 나타내는 블록도이다
도 8은 일 실시예에 따른 고해상도 이미지에 대한 물체 검출 및 분류 방법의 각 단계를 나타내는 순서도이다.
도 9a 내지 9c는 일 실시예에 따른 고해상도 이미지 처리 시스템을 개념적으로 설명하기 위한 도면들이다.
도 10은 종래기술과 일 실시예에 따른 시스템을 이용해 입력 이미지에서 물체를 검출한 결과를 각각 나타낸다.
도 11은 종래기술과 일 실시예에 따른 시스템을 이용해 입력 이미지에서 물체를 검출한 결과를 각각 나타낸다.

이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 실시예를 상세하게 설명하지만, 청구하고자 하는 범위는 실시 예들에 의해 제한되거나 한정되는 것은 아니다.

본 명세서에서 사용되는 용어는 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 명세서의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

또한, 본 명세서에 기술된 실시예는 전적으로 하드웨어이거나, 부분적으로 하드웨어이고 부분적으로 소프트웨어이거나, 또는 전적으로 소프트웨어인 측면을 가질 수 있다. 본 명세서에서 "부(unit)", "모듈(module)", "장치(device)" 또는 "시스템(system)" 등의 표현은 하드웨어, 하드웨어와 소프트웨어의 조합, 또는 소프트웨어 등 컴퓨터 관련 엔티티(entity)를 지칭한다. 예를 들어, 부, 모듈, 장치, 서버 또는 시스템은 플랫폼(platform)의 일부 또는 전부를 구성하는 하드웨어 및/또는 상기 하드웨어를 구동하기 위한 애플리케이션(application) 등의 소프트웨어를 지칭하는 것일 수 있다.

이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.

도 1은 종래기술에 따른 메모리 네트워크를 활용한 물체 검출 및 분류 시스템의 구조를 나타낸다. 기존의 방식에서는 자연어 처리에서 개발된 메모리 네트워크를 그대로 채용하였으며, 인코더(encoder)의 출력을 키(key)와 값(value)으로 분리하여 사용한다. 그런데 이미지의 경우 키와 값 사이의 명확한 구분이 없기 때문에 키와 값에 포함되는 정보가 중복될 수 있어 메모리 효율성이 떨어진다. 또한, 메모리에 저장된 과거 프레임(past frames)에 담긴 물체 모습을 조합하여 현재 프레임(current frame)의 물체 모습을 추정하는데, 메모리에 저장되는 정보 간의 유사성이나 유용성을 고려하지 않고 단순히 일정 개수마다 프레임을 한 장씩 메모리에 추가하는 방식이므로 불필요한 메모리의 사용을 야기한다.

본 발명의 목적은 이러한 종래기술의 문제점을 해결하고 컴퓨터 메모리를 보다 효율적으로 사용할 수 있는 시스템을 제공하는 것이다. 도 2a 내지 2d는 본 발명이 제안하는 실시예들에 따른 물체 검출 및 분류 시스템의 구조를 나타낸다. 도 2a를 참조하면, 일 실시예에 따른 물체 검출 및 분류 시스템은, 입력 이미지를 입력 받아 특징 정보가 포함된 입력 값(input value)을 생성하는 입력 값 생성부(10); 물체와 연관된 참조 이미지를 입력 받아 특징 정보가 포함된 메모리 값(memory value)을 생성하는 메모리 값 생성부(20); 상기 메모리 값들 중에서 중요도가 높은 정보를 선별하여 컴퓨터 메모리에 저장하는 메모리 관리부(30); 상기 메모리 관리부(30)에 의해 선별된 메모리 값들이 저장되는 컴퓨터 메모리(40); 입력 값과 메모리 값의 유사성을 비교하고 가중치 합을 계산하여 통합 값(integrated value)을 생성하고, 통합 값과 입력 값을 합성하여 합성 값(aggregated value)을 생성하는 합성 값 생성부(50); 상기 합성 값을 이용하여 입력 이미지로부터 물체를 검출하거나 분류하는 물체 검출부(50)를 포함한다.

도 2a에 있어서, 입력 이미지(input image)는 실제로 검출 또는 분류하고자 하는 관심 물체를 포함하는 이미지이다. 실시예에 따른 시스템은 입력된 이미지에 대하여 특정 물체를 검출하거나 분류한 결과를 출력하도록 구성된다. 참조 이미지는 관심 물체와 연관된 정보를 포함하는 이미지로서, 예컨대 검출 및 분류에 도움이 되는 관심 물체의 모습이나 배경 정보를 포함하거나 관심 물체의 위치를 나타내는 마스크 이미지 등이다. 일반적으로 참조 이미지는 제거하려는 배경 이미지, 검출 또는 분류하고자 하는 물체의 다양한 모습을 포함한다.

입력 값 생성부(10)는 입력 이미지를 고레벨 정보로 압축하기 위한 입력부 인코더(110) 및 상기 입력부 인코더(110)의 출력을 받아 고레벨 특징 정보를 포함하는 입력 값을 생성하기 위한 입력 값 모델(120)로 구성된다. 이와 유사하게, 메모리 값 생성부(20)는 참조 이미지를 고레벨 정보로 압축하기 위한 메모리부 인코더(210) 및 상기 메모리부 인코더(210)의 출력을 받아 고레벨 특징 정보를 포함하는 메모리 값을 생성하기 위한 메모리 값 모델(220)로 구성된다.

각 인코더(110, 210)는 입력 이미지와 참조 이미지(마스크를 포함할 수 있음)를 고레벨 정보(high level information)로 압축시키는 기계학습 모델이다. 예컨대, CNN, MLP, RNN 등 다양한 기계학습 모델이 이용될 수 있다. 참조 이미지에 마스크와 같은 부가정보가 없는 경우 입력부 인코더(110)와 메모리부 인코더(210)를 가중치를 공유하는 동일한 모델로 구성할 수 있고, 이에 따라 컴퓨터 메모리 사용량을 절감할 수 있다. 도 2b는 마스크가 없는 실제 참조 이미지와 입력 이미지에 대해 물체 검출 및 분류 시스템을 적용한 실사용예를 나타낸다.

또 다른 실시예에 따르면, 도 2c에 도시된 것처럼 참조 이미지에 마스크와 같은 부가정보가 포함된 경우에도 물체 검출 및 분류 시스템이 적용될 수 있다. 이 때 도 2a 및 2b의 경우(즉, 참조 이미지에 마스크가 없는 경우)와 입력부와 메모리부의 인코더(110, 120)는 가중치를 공유하지 않지만 값 모델(120, 220)은 가중치를 공유하는 동일한 모델로 구성될 수 있다. 도 2d는 마스크가 포함된 실제 참조 이미지와 입력 이미지에 대해 물체 검출 및 분류 시스템을 적용한 실사용예를 나타낸다.

값(value) 모델(120, 220)은 각각 인코더(110, 120)의 출력을 받아 보다 고수준의 특징 정보를 생성하는 기계학습 모델이다. 인코더와 마찬가지로 CNN, MLP, RNN 등 다양한 기계학습 모델이 이용될 수 있다. 일 실시예에 따르면, 마스크의 존재여부와 무관하게 입력부 값 모델(120)과 메모리부 값 모델(220)을 가중치를 공유하는 동일한 모델로 구성할 수 있고, 이에 따라 컴퓨터 메모리 사용량을 절감할 수 있다. 이 경우 입력부와 메모리부의 인코더는 같은 크기의 출력을 가져야만 한다.

경우에 따라서는 값 모델 없이 인코더 출력을 값 모델값으로 사용할 수도 있다.

생성된 메모리 값들은 메모리 관리부(30)를 거쳐 컴퓨터 메모리(40) 내에 저장된다.

메모리 관리부(30)는 생성된 메모리 값들 중에서 중요도가 높은 정보를 선별하여 컴퓨터 메모리(40)에 저장하는 역할을 한다. 기존의 메모리 네트워크 구조는 메모리에 저장되는 정보 간의 유사성이나 유용성을 고려하지 않아 많은 정보가 중복되고 이는 불필요한 메모리의 사용을 야기한다. 일 실시예에 따르면, 메모리 관리부는 새롭게 생성된 메모리 값을 이미 저장되어 있는 메모리 값들과 비교하여 저장이 필요하다고 판단되는 경우에만 저장함으로써 메모리 효율성을 증가시킨다.

예컨대, 비디오에 대한 응용에서는 과거 입력 이미지로 사용되었던 프레임들이 현재 이미지를 위한 참조 이미지로 추가된다. 이때 참조 이미지로부터 생성되는 메모리 값들 중 중요한 정보를 선별해서 메모리를 업데이트하는 것이 메모리 관리부(30)의 역할이다.

도 3은 일 실시예에 따른 메모리 관리 모듈의 작동 방식을 나타내며, 도 4는 메모리 관리 모듈에서 이미지의 중요도를 판단하는 기준을 설명하기 위한 도면이다. 메모리 관리 모듈은 새롭게 생성된 메모리 값의 유용성(usability)과 기존 메모리 값들과의 유사성(similarity)을 확인한다. 만일 정보의 유용성이 떨어지는 경우(도 4의 우측과 같이 블러가 너무 심하거나, 노이즈가 너무 심한 경우 등), 또는 메모리에 존재하는 메모리 값과 동일하거나 매우 유사한 경우 이를 메모리에 추가하는 것을 막아 컴퓨팅 메모리 자원의 낭비를 방지한다.

메모리 값의 유용성 및 유사성을 측정하는 방법은 딥러닝을 통한 학습, 사전 정의된 기준을 이용한 판별, 수학적 유사성 측정 방식 등을 활용해 구현할 수 있다. 유용성 계산부에서 계산된 유용성과 비유사성(dissimilarity) 측정부에서 계산된 비유사성은 최종 점수 계산부에서 통합되며 최종 점수가 산출된다. 결정부에서는 새로운 메모리 값을 메모리에 저장할지 여부를 결정한다. 이러한 전체 과정을 강화학습과 같은 고차원 학습 방식을 통해 엔드-투-엔드(end to end) 방식으로 구현할 수도 있다. 메모리의 크기가 제한되어 있는 경우에 새로운 메모리 값이 추가되면 저장된 메모리 값들 중 비유사성(dissimilarity)이 가장 낮거나 가장 오래된 메모리 값을 삭제하는 방식으로 메모리 크기를 유지할 수 있다.

다시 도 2를 참조하면, 일 실시예에 따른 합성 값 생성부(50)는 그리드 와이즈 메모리 검색 모듈(510), 그리드 와이즈 가중치 통합 모듈(520), 합성 모듈(530)로 구성된다.

그리드 와이즈(gird wise) 메모리 검색 모듈(510)에서는 입력 이미지로부터 생성되는 입력 값과 컴퓨터 메모리에 저장되어있는 각 메모리 값들의 유사성을 그리드 단위로 나누어 비교하여 유사성 벡터(similarity vector)를 계산한다.

그리드 와이즈(gird wise) 가중치 통합 모듈(520)은 계산된 유사성 벡터를 이용해 여러 메모리 값들을 그리드 단위로 가중치 통합(weighted sum)하여 하나의 통합 값(integrated value)로 변환한다. 이때, 종래의 STM 기술은 도 1과 같이 키(key)를 사용해 유사성을 찾고 값(value)을 합치는 키-값(key-value) 모델을 사용하지만, 본 발명은 이와 달리 키(key)의 기능을 값(value)에 부여함으로써 중복되는 컴퓨터 메모리 사용을 방지한다.

도 5a 내지 5d는 종래기술에 따른 모델의 작동 원리를 설명하기 위한 도면들이며, 도 6a 내지 6d는 일 실시예에 따른 모델의 작동 원리를 설명하기 위한 도면들이다.

도 5a는 이미지에 대응되는 특징 맵(feature map)인 값(value) 단위로 유사성 계산하는 기존 방식을 나타낸다. 상단 매트릭스의 q1, q2, … q16 은 입력 이미지에서 계산된 특징인 입력 값(input value)을 나타내며 하단 매트릭스의 m1, m2, … m16은 메모리에 저장되어 있는 메모리 값(memory value)을 나타낸다.

도 6a는 그리드 와이즈 메모리 검색 모듈(grid wise memory search module)의 동작을 나타내며, 마찬가지로 상단 매트릭스의 값들은 입력 이미지에서 계산된 특징인 입력 값(input value)을 나타내며 하단 매트릭스의 값들은 메모리에 저장되어 있는 메모리 값(memory value)을 나타낸다. 실시예에 따르면, 기존 방식의 메모리 검색과 달리 특징 맵(즉, value)을 그리드로 구분하여 유사성을 계산한다. 도 6a에서 주황색 선이 그리드를 나누는 선이고 이는 특징 맵을 4개의 그리드로 나누는 예시를 보여주고 있다. 각각의 그리드는 다른 크기로 나뉠 수 있다. 여기서 유사성 측정 방식으로는 다양한 알고리즘(예컨대, dot product, Euclidean distance, cosine distance 등)이 사용될 수 있다. 각 그리드 별로 유사성을 측정한 후 결과값을 그리드 와이즈 소프트맥스(grid wise soft max)를 수행해 변환한다.

도 5b는 종래기술에 따른 메모리 검색 방식을, 도 6b는 그리드 와이즈 메모리 검색 모듈의 동작 방식을 구체적인 예시 값을 적용하여 나타낸 것이다.

도 5c는 종래기술에서 각 특징 맵에 단일 가중치를 적용하는 과정을 나타낸다. 반면, 도 6c는 일 실시예에 따른 그리드 와이즈 가중치 합(grid wise weighted sum)의 동작을 나타내는데, 앞서 계산한 그리드 별 소프트맥스 유사성(softmax similarity)을 바탕으로 메모리 값에 각 그리드 별로 가중치가 적용되는 모습을 나타낸다. 이 결과가 통합 값(integrated value)으로 사용된다.

도 5d와 도 6d를 비교하면 그리드 방식의 우수성을 확인할 수 있다. 매트릭스의 붉은 색이 -1, 파란 색이 +1의 값을 지닌다 가정하고, 유사성 측정 방법으로서 내적(dot product)을 사용할 때, 도 5d와 같이 특징 맵 전체에서 유사성을 산출한 후 이를 바탕으로 값을 합성한 것에 비해서, 도 6d와 같이 그리드 단위로 유사성을 산출한 후 이를 바탕으로 값을 합성할 경우 본래 이미지를 더 잘 묘사한다는 것을 알 수 있다. 이는 그리드 와이즈 메모리 검색 방식이 메모리 값을 합성하는데 있어 보다 많은 조합을 이용할 수 있는 특성 때문이다. 이를 통해 적은 수의 메모리 값을 가지고 더 다양한 통합 값을 만들 수 있으므로 컴퓨터 메모리 효율성을 높일 수 있다.

다시 도 2를 참조하면, 합성 모듈(530)은 입력 값과 상기 통합 값을 합성하여 합성 값(aggregated value)을 출력한다. 이때, 합성(aggregation) 기능은 컨캐터네이트(concatenate), 단순합 등으로 구현할 수 있다. 예를 들어, 일반적으로는 입력 값과 통합 값에 컨캐터네이트 함수를 적용할 수 있다. 만일 이미지에서 배경을 제거하고자 하는 경우에는 입력 값과 통합 값의 엘리먼트 와이즈 감산(element wise subtraction) 후 절대값을 취하는 방식으로 합성을 수행할 수 있고, 이 경우 컨캐터네이트를 사용한 경우에 비해 컴퓨터 메모리를 적게 사용할 수 있다.

물체 검출부(60)는 상기 합성 값을 이용하여 상기 입력 이미지로부터 물체를 검출하거나 분류하는 기능을 수행한다. 물체 검출부(60)에는 합성 값을 바탕으로 이미지에서 물체(혹은 영역)을 검출하기 위한 디코더(decoder)가 사용되거나, 물체(혹은 영역)을 분류하기 위한 분류기(classifier)가 사용될 수 있다. 디코더나 분류기는 인코더(110, 120)와 유사하게 일반적인 기계학습 모델을 사용하나, 태스크에 따라 구조가 변할 수 있다(예를 들어, 검출의 경우 up conv net, 분류의 경우 fully conv net 등).

일 실시예에 따르면, 도 2에 도시된 것처럼, 스킵 커넥션(skip connection)을 통해 입력부의 인코더(110)의 여러 레이어(layer) 정보를 물체 검출부(60)에 직접 전달하여 디코더나 분류기의 성능을 향상시킬 수 있다. 도 7은 스킵 커넥션에 따른 데이터 전달 흐름을 나타내는 블록도이다.

'출력'은 최종적으로 얻은 결과로서 물체 검출 결과 이미지, 배경이 제거된 이미지, 픽셀 별로 분류 레이블을 가진 이미지 등에 해당한다.

앞서 설명한 실시예에 따른 네트워크는 일반적으로 인코더의 크기에 따라 한번에 처리할 수 있는 입력 이미지의 최대 해상도가 결정된다. 보다 큰 이미지를 처리하기 위해서는 더 큰 인코더뿐만 아니라 더 큰 값 모델과 디코더 등을 사용해야 하는데 메모리를 많이 사용하는 딥러닝 네트워크의 특성상 실제 하드웨어로 다 구현하지 못하는 상황이 자주 발생한다.

이에, 본 발명은 상기한 문제를 해결하기 위해 저해상도 이미지에서부터 시작해 점차 고해상도 이미지에서 물체/영역을 반복적으로 검출하는 방식을 제안한다.

도 8은 일 실시예에 따른 고해상도 이미지에 대한 물체 검출 및 분류 방법의 각 단계를 나타내는 순서도이다. 여기서 각 단계는 반드시 순차적으로 수행되는 것은 아니며, 예컨대 일부 단계들은 하나의 프로세서에 의해 동시에 수행되거나, 또는 둘 이상의 프로세서에 의해 병렬적으로 수행될 수 있다.

도 8을 참조하면, 실시예에 따른 물체 검출 및 분류 방법은 다음의 단계들을 포함할 수 있다.

S10: 해상도가 소정의 값 이상인 고해상도의 입력 이미지가 입력된다.

S20: 고해상도의 입력 이미지를 여러 단계에 걸쳐 일정 비율로 축소하여 축소된 이미지들을 획득한다.

S30: 축소된 이미지들 중 가장 작은 이미지를 초기 프로세싱 이미지로 선택한다.

S40: 프로세싱 이미지를 동일한 크기의 복수의 구역들로 구분한다.

S50: 전술한 실시예들에 따른 물체 검출 및 분류 시스템을 이용하여 프로세싱 이미지에서 물체를 검출하거나 분류한다.

S60: 프로세싱 이미지가 고해상도의 입력 이미지와 크기가 동일한지 판단한다. 프로세싱 이미지가 고해상도의 입력 이미지보다 크기가 작은 경우(도 8의 No) S71-72 단계로 진행하며, 프로세싱 이미지와 고해상도의 입력 이미지의 크기가 동일한 경우(도 8의 Yes) S80 단계로 진행한다.

S71: 프로세싱 이미지가 고해상도의 입력 이미지보다 크기가 작은 경우, 검출 및 분류 결과에 기초하여 프로세싱 이미지의 복수의 구역들 중 물체가 포함된 구역을 선택하여 반환한다.

S72: 프로세싱 이미지보다 덜 축소된 상위 단계의 축소된 이미지에서 상기 반환된 구역에 대응하는 구역을 잘라내어 차기 프로세싱 이미지로 반환한다. 상기 반환된 프로세싱 이미지에 대해 S40 내지 S60 단계를 반복한다.

S80: 프로세싱 이미지와 고해상도의 입력 이미지의 크기가 동일한 경우, 검출 및 분류 결과를 출력으로 반환하고 상기 프로세스를 종료한다.

도 9a 내지 9c는 일 실시예에 따른 고해상도 이미지 처리 시스템을 개념적으로 설명하기 위한 도면들이다. 이 방식을 개략적으로 설명하면, 고해상도 이미지를 저해상도 이미지로 변환한 후 물체의 위치를 검출하고, 검출된 영역에 대응하는 부분을 고해상도 이미지에서 잘라내어 다시 물체를 검출하는 과정을 반복한다. 이 과정은 여러 단계를 거쳐 적용될 수 있다. 도 9a를 비롯하여 이하에서 참조하는 도면들은 처리 과정을 개념적으로 설명하기 위한 하나의 예시에 불과하며, 예컨대 이미지는 4분할이 아닌 더 많은 구역으로 분할되거나, 추가적인 처리 모듈이 더 포함될 수 있다.

도 9a에서 'Input'은 본래의 해상도(즉, 한 번에 처리가 어려운 고해상도)를 가지는 입력 이미지이다. 입력 이미지는 동일한 크기를 갖는 복수의 구역들로 분할되며 '선택된 이미지 반환부'에 저장된다. 여기서 분할된 각 이미지의 크기는 원본 이미지 크기의 1/4이다(가로, 세로 각 1/2로 축소). 좌상단, 우상단, 좌하단, 우하단 이미지는 각각 입력 이미지를 4개의 구역으로 4등분한 이미지를 가리킨다. 중상단 이미지는 입력 이미지를 위 아래로 2등분 했을 때 위쪽 부분의 가로방향으로 가운데에서 1/2을 잘라낸 이미지를 가리키고, 중하단 이미지는 위 아래 2등분에서 아래쪽 부분의 가로방향 가운데에서 1/2을 잘라낸 이미지를 가리킨다. 좌중단 이미지는 입력 이미지를 좌우로 2등분 했을 때 왼쪽 부분의 세로방향으로 가운데에서 1/2을 잘라낸 이미지를 가리키고, 우중단 이미지는 좌우로 2등분에서 오른쪽 부분의 세로방향 가운데에서 1/2을 잘라낸 이미지를 가리킨다. 중단 이미지는 입력 이미지의 중심에서 가로, 세로 해상도의 1/2 크기만큼을 잘라낸 이미지를 가리킨다.

도 9a의 아래쪽 흐름에서 'half resolution'은 입력 이미지를 1/4 크기로 줄인 이미지이다(가로, 세로 각 1/2로 축소). 'Model'은 전술한 실시예들에 따른 물체 검출 및 분류 모델 중 하나이다. 'half resolution output'은 절반 해상도 이미지에 상기 모델을 적용하여 처리한 결과값이다.

'물체 위치 검출부'에서는 모델에서 생성된 결과값을 바탕으로 각 부분의 물체 포함 여부를 확인하여 이미지에서 물체가 포함된 부분을 출력한다. 이때, 여러 조건에 따라 '물체를 가장 많이 포함된 위치만 출력'하거나 '물체를 포함한 모든 위치를 출력'하는 등 다양하게 구현될 수 있다.

'결과'는 조건에 따라 출력된 이미지이며, 예컨대 이미지를 여러 측면에서 분할하였을 때 중단 부분(이미지의 중심에서 가로, 세로 해상도의 1/2 크기만큼을 잘라낸 부분)에 물체의 가장 많은 부분이 포함되었다면 이를 결과값으로 출력하는 것이다.

'선택된 이미지 반환부'에서는 결과에 따라 나누어놨던 이미지 중 하나를 반환한다. 'Output'은 반환된 이미지를 나타낸다. 도 9a의 예시에서는 입력 이미지 중 중단 이미지가 선택되어 반환되었다. 반환된 이미지는 도 2의 모델에 입력 이미지로 들어가게 되고, 고해상도 크기의 참조 이미지들도 출력(output)과 같은 위치에서 같은 크기로 분할되며 도 2의 모델의 참조 이미지로 사용된다.

도 9b는 도 9a의 고해상도 이미지 처리 시스템의 동작 과정을 알기 쉽게 컬러 이미지로 나타낸 것이고, 도 9c는 관심 물체가 포함된 실제 사진으로 나타낸 것이다. 도 9b 및 9c에 도시된 것처럼, 고해상도 이미지를 축소하여 물체의 위치 검출 단계를 수행하고, 분할된 고해상도 이미지 중 조건에 맞는 이미지를 반환하고, 이러한 과정을 반복 수행함으로써 고해상도 이미지에 대해 메모리 효율적으로 물체 검출 또는 분류가 가능하다.

도 10은 종래기술과 일 실시예에 따른 시스템을 이용해 입력 이미지에서 물체를 검출한 결과를 각각 나타낸다. 도 10의 (a)는 기존 시스템에 따른 물체 검출 결과를 나타내고 (b)~(d)는 실시예의 시스템에 따른 물체 검출 결과를 나타내는데, 기존 시스템에 비해 더 높은 고해상도의 결과를 얻어낼 수 있다는 것을 알 수 있다.

도 11은 종래기술과 일 실시예에 따른 시스템을 이용해 입력 이미지에서 물체를 검출한 결과를 각각 나타낸다. 도 11의 (a)는 기존 시스템에 따른 물체 검출 결과를 나타내고 (b) 는 실시예의 시스템에 따른 물체 검출 결과를 나타내는데, 기존 시스템의 경우(특징맵 기반 검색) 관심 물체 이외의 사물(붉은색 원으로 표시)을 검출하는 등 부정확한 결과가 나타나는데 비해, 실시예의 시스템은 그리드 와이즈 메모리 검색의 효과로 인해 동일한 메모리 프레임을 사용함에도 더 정확한 결과를 얻어낼 수 있음을 확인할 수 있다.

실시예에 따른 물체 검출 및 분류 방법은, 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

이상에서 설명한 물체 검출 및 분류 시스템에 의하면, 기존 방식 대비 적은 컴퓨터 메모리 환경에서도 높은 정확도로 이미지 내 물체를 검출하거나 분류할 수 있다. 또한, 메모리 효율성이 떨어지는 기존의 방식에서는 처리가 불가능했던 크기의 고해상도 이미지에 대해서도 물체를 검출하거나 분류하는 것이 가능하다.

입력된 이미지로부터 물체를 검출하는 기술은 영상 처리에 있어서 핵심 기술로서 이는 자율주행 자동차, CCTV 보안, 의료분야 등 다양한 기술 분야에 활용될 수 있다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10: 입력 값 생성부
110: 입력부 인코더
120: 입력 값 모델
20: 메모리 값 생성부
210: 메모리부 인코더
220: 메모리 값 모델
30: 메모리 관리부
40: 컴퓨터 메모리
50: 합성 값 생성부
60: 물체 검출부

Claims

컴퓨터 메모리 효율적인 물체 검출 및 분류 시스템으로서,
검출 및 분류하고자 하는 물체가 포함된 입력 이미지를 입력 받아 특징 정보가 포함된 입력 값(input value)을 생성하는 입력 값 생성부;
상기 물체와 연관된 참조 이미지를 입력 받아 특징 정보가 포함된 메모리 값(memory value)을 생성하는 메모리 값 생성부;
상기 메모리 값들 중에서 중요도가 높은 정보를 선별하여 컴퓨터 메모리에 저장하는 메모리 관리부;
상기 입력 이미지로부터 생성된 입력 값과 상기 컴퓨터 메모리에 저장된 메모리 값의 유사성을 비교하고 가중치 합을 계산하여 통합 값(integrated value)을 생성하고, 상기 통합 값과 상기 입력 값을 합성하여 합성 값(aggregated value)을 생성하는 합성 값 생성부; 및
상기 합성 값을 이용하여 상기 입력 이미지로부터 물체를 검출하거나 분류하는 물체 검출부를 포함하며,
상기 합성 값 생성부는,
상기 입력 값과 상기 메모리 값의 유사성을 그리드(grid) 단위로 비교하여 유사성 벡터를 계산하고, 상기 유사성 벡터에 기초하여 여러 메모리 값들의 가중치 합(weighted sum)을 그리드 단위로 계산하여 하나의 통합 값으로 변환하는 것을 특징으로 하는, 컴퓨터 메모리 효율적인 물체 검출 및 분류 시스템.
삭제
제1항에 있어서,
상기 메모리 관리부는, 새롭게 생성된 메모리 값의 중요도가 소정의 값 이상인 경우에만 컴퓨터 메모리에 저장함으로써 메모리 효율성을 증가시키고,
컴퓨터 메모리의 크기가 제한되어 있는 환경에서 새로운 메모리 값이 추가되면, 이미 저장된 메모리 값들 중 유사성이 가장 크거나 가장 오래된 메모리 값을 상기 컴퓨터 메모리에서 삭제하는 것을 특징으로 하는, 컴퓨터 메모리 효율적인 물체 검출 및 분류 시스템.
제3항에 있어서,
상기 메모리 값의 중요도는, 이미 저장된 메모리 값들과의 유사성이 작을수록, 목적에 맞는 유용한 정보가 이미지에 많이 포함될수록 높게 측정되는 것을 특징으로 하는, 컴퓨터 메모리 효율적인 물체 검출 및 분류 시스템.
제1항에 있어서,
상기 입력 값 생성부는, 상기 입력 이미지를 고레벨 정보로 압축하기 위한 기계학습 모델로 구현되는 입력부 인코더; 및 상기 입력부 인코더의 출력을 받아 고레벨 특징 정보를 포함하는 입력 값을 생성하기 위한 입력 값 모델로 구성되며,
상기 메모리 값 생성부는, 상기 참조 이미지를 고레벨 정보로 압축하기 위한 기계학습 모델로 구현되는 메모리부 인코더; 및 상기 메모리부 인코더의 출력을 받아 고레벨 특징 정보를 포함하는 메모리 값을 생성하기 위한 메모리 값 모델로 구성되는 것을 특징으로 하는, 컴퓨터 메모리 효율적인 물체 검출 및 분류 시스템.
제5항에 있어서,
상기 입력부 인코더와 상기 메모리부 인코더는 가중치를 공유하는 동일한 기계학습 모델로 구성되는 것을 특징으로 하는, 컴퓨터 메모리 효율적인 물체 검출 및 분류 시스템.
제5항에 있어서,
상기 입력 값 모델과 상기 메모리 값 모델은 가중치를 공유하는 동일한 값 모델(value model)로 구성되는 것을 특징으로 하는, 컴퓨터 메모리 효율적인 물체 검출 및 분류 시스템.
프로세서에 의해 수행되는, 고해상도 이미지에 대해 물체를 검출하거나 분류하기 위한 방법으로서,
상기 프로세서가, 해상도가 소정의 값 이상인 고해상도의 입력 이미지를 입력 받는 제1 단계;
상기 프로세서가, 상기 입력 이미지를 여러 단계에 걸쳐 일정 비율로 축소하여 축소된 이미지들을 획득하는 제2 단계;
상기 프로세서가, 상기 축소된 이미지들 중 가장 작은 이미지를 초기 프로세싱 이미지로 선택하는 제3 단계;
상기 프로세서가, 상기 프로세싱 이미지를 동일한 크기의 복수의 구역들로 구분하는 제4 단계;
상기 프로세서가, 제1항, 제3항 내지 제7항 중 어느 한 항에 따른 물체 검출 및 분류 시스템을 이용하여 상기 프로세싱 이미지에서 물체를 검출하거나 분류하는 제5 단계;
상기 프로세서가, 상기 프로세싱 이미지가 상기 고해상도의 입력 이미지와 크기가 동일한지 판단하는 제6 단계;
상기 프로세서가, 상기 프로세싱 이미지가 상기 고해상도의 입력 이미지보다 크기가 작은 경우, 검출 및 분류 결과에 기초하여 상기 프로세싱 이미지의 복수의 구역들 중 물체가 포함된 구역을 선택하여 반환하고, 상기 프로세싱 이미지보다 덜 축소된 상위 단계의 축소된 이미지에서 상기 반환된 구역에 대응하는 구역을 잘라내어 프로세싱 이미지로 반환하고, 상기 반환된 프로세싱 이미지에 대해 상기 제4 단계 내지 제6단계를 반복하는 제7단계; 및
상기 프로세서가, 상기 프로세싱 이미지가 상기 고해상도의 입력 이미지와 크기가 동일한 경우 검출 및 분류 결과를 출력으로 반환하는 제8단계를 포함하는, 고해상도 이미지에 대해 물체를 검출하거나 분류하기 위한 방법.
제8항에 따른 방법을 실행하기 위한 컴퓨터로 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.