KR101917369B1 - 컨볼루션 신경망을 이용한 영상 검색 방법 및 그 장치 - Google Patents

컨볼루션 신경망을 이용한 영상 검색 방법 및 그 장치 Download PDF

Info

Publication number
KR101917369B1
KR101917369B1 KR1020170052427A KR20170052427A KR101917369B1 KR 101917369 B1 KR101917369 B1 KR 101917369B1 KR 1020170052427 A KR1020170052427 A KR 1020170052427A KR 20170052427 A KR20170052427 A KR 20170052427A KR 101917369 B1 KR101917369 B1 KR 101917369B1
Authority
KR
South Korea
Prior art keywords
color
edge
sensitivity
kernel
histogram
Prior art date
Application number
KR1020170052427A
Other languages
English (en)
Other versions
KR20180119013A (ko
Inventor
백성욱
칸 무하마드
자밀 아마드
이미영
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020170052427A priority Critical patent/KR101917369B1/ko
Publication of KR20180119013A publication Critical patent/KR20180119013A/ko
Application granted granted Critical
Publication of KR101917369B1 publication Critical patent/KR101917369B1/ko

Links

Images

Classifications

    • G06F17/30784
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F17/30247
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

본 발명은 컨볼루션 신경망(convolution neural network)를 적용한 영상 검색 장치의 동작 방법 및 그 영상 검색 장치를 제공한다. 본 방법은, 이미지 프레임을 획득하는 단계; 이미지 프레임에 복수의 색상 감도 커널과 복수의 에지(edge) 감도 커널을 각각 컨볼루션하여 복수의 색상 특징맵과 복수의 에지 특징맵을 생성하는 단계; 복수의 색상 특징맵과 복수의 에지 특징맵을 기초로, 각 픽셀(pixel) 위치에서의 최대 활성값에 매칭하는 색상 감도 커널의 인덱스(index) 또는 에지 감도 커널의 인덱스를 이용하여 색상 및 에지 각각에 대한 최대 활성도 맵을 생성하는 단계; 색상 및 에지 각각에 대한 최대 활성도 맵을 공간 풀링(spatial pooling)하는 단계; 및 공간 풀링된 값을 연결(concatenating)한 결과값을 기 저장된 특징값과 비교하여 이미지 프레임 내에 존재하는 개체를 검색하는 단계를 포함한다.

Description

컨볼루션 신경망을 이용한 영상 검색 방법 및 그 장치 {METHOD AND APPARATUS FOR RETRIEVING IMAGE USING CONVOLUTION NEURAL NETWORK}
본 발명은 컨볼루션 신경망(convolution neural network)를 이용한 영상 검색 방법 및 그 장치에 관한 것이다.
다양한 산업 현장은 시각적 표현(예컨대, 이미지 등)에서 개체를 식별할 수 있는 기계 또는 프로세서를 이용함으로써 효율화될 수 있다. 컴퓨터 비전의 분야는 이미지의 개체를 식별 및 검출하는 알고리즘을 제공하고자 하며, 여기서 개체는 하나 이상의 포인트들(예컨대, 모든 픽셀 포인트들, 관심 키포인트들 등)을 식별하는 서술자들에 의해 특징지어질 수 있다. 일반적으로, 개체 인식은 피처(feature) 식별 및/또는 개체 인식의 목적을 위해 이미지에서 관심 포인트들을 식별하는 것을 수반할 수 있다. 이러한 관심 포인트들은, 그들이 이미지 스케일 변화 및/또는 회전에 대해 불변이고, 상당한 범위의 왜곡, 관점 변화, 및/또는 잡음과 조명 변화에 대해 강건한 매칭을 제공하도록 프로세싱될 필요가 있다. 특히, 수많은 이미지들을 연속적으로 수집하는 감시 시스템 분야에서는 특정 개체가 큰 데이터베이스에 대해 높은 확률로 정확하게 매칭될 수 있도록 할 필요가 있다. 또한, 감시 시스템 분야는 큰 데이터베이스에 대한 효율적이고 저비용의 연산 처리를 요한다.
이를 위한 방안으로서, SIFT(Scale Invariant Feature Transform) 알고리즘은, 초기 단계에서 쿼리(query)된 개체를 해당 개체의 피처들에 기초하여 분류함으로써 이미지를 인덱싱하는 비용을 감소시켰다. 그러나 여전히 피처를 추출하는 과정에서 많은 프로세싱량을 요구하고 있다.
미국공개특허 제 2017/0076195 호(발명의 명칭: DISTRIBUTED NEURAL NETWORKS FOR SCALABLE REAL-TIME ANALYTICS)
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 본 발명의 일 실시예는 컨볼루션 신경망을 이용하여 이미지 데이터를 효율적으로 서술함으로써 이미지 데이터의 효율적인 관리 및 탐색/검색이 가능한 영상 검색 시스템을 제공하는데에 그 목적이 있다. 또한, 본 발명의 일 실시예는 컨볼루션 신경망의 프로세싱 부하를 감소시킴으로써 고효율/저비용의 영상 검색 시스템을 제공하는데에 그 목적이 있다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제1 측면은, 이미지 프레임을 획득하는 단계; 이미지 프레임에 복수의 색상 감도 커널과 복수의 에지(edge) 감도 커널을 각각 컨볼루션하여 복수의 색상 특징맵과 복수의 에지 특징맵을 생성하는 단계; 복수의 색상 특징맵과 복수의 에지 특징맵을 기초로, 각 픽셀(pixel) 위치에서의 최대 활성값에 매칭하는 색상 감도 커널의 인덱스(index) 또는 에지 감도 커널의 인덱스를 이용하여 색상 및 에지 각각에 대한 최대 활성 맵을 생성하는 단계; 색상 및 에지 각각에 대한 최대 활성 맵을 공간 풀링(spatial pooling)하는 단계; 및 공간 풀링된 값을 연결한 결과값을 기 저장된 특징값과 비교하여 이미지 프레임 내에 존재하는 개체를 검색하는 단계를 포함한다.
또한, 본 발명의 제2 측면은, 컨볼루션 신경망(convolution neural network)을 이용하여 영상을 검색하는 프로그램이 저장된 메모리(memory) 및 상기 프로그램을 실행하는 프로세서(processor)를 포함하며, 프로세서는 상기 프로그램이 실행됨에 따라 이미지 프레임을 획득하며, 획득된 이미지 프레임을 상기 컨볼루션 신경망에 입력하고, 컨볼루션 신경망의 출력값을 기 저장된 특징값과 비교하여 이미지 프레임 내에 존재하는 개체를 검색한다. 이때, 컨볼루션 신경망은 이미지 프레임에 복수의 색상 감도 커널과 복수의 에지(edge) 감도 커널을 각각 컨볼루션하여 복수의 색상 특징맵과 복수의 에지 특징맵을 생성하는 적어도 하나의 컨볼루션 레이어, 복수의 색상 특징맵과 복수의 에지 특징맵을 기초로, 각 픽셀(pixel) 위치에서의 최대 활성값에 매칭하는 색상 감도 커널의 인덱스(index) 또는 에지 감도 커널의 인덱스를 이용하여 색상 및 에지 각각에 대해 생성된 최대 활성도 맵을 공간 풀링(spatial pooling)하는 적어도 하나의 풀링 레이어, 및 풀링된 값을 연결(concatenating)하는 적어도 하나의 풀 커넥티드(full-connected) 레이어로 구성된다.
또한, 본 발명의 제 3 측면은, 상기 제 1 측면의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체를 제공한다.
전술한 본 발명의 과제 해결 수단에 의하면, 본 발명의 일 실시예는 학습 가능한 컨볼루션 신경망을 통해 이미지 데이터의 특징을 서술함으로써, 이미지 데이터 내의특정 개체를 보다 효율적으로 탐색/검색할 수 있다. 또한, 본 발명의 일 실시예는 상기한 컨볼루션 신경망의 풀링 레이어가 커널의 인덱스를 이용하여 공간 풀링하도록 구성함으로써 저비용으로 이미지 데이터 내의 특정 개체를 탐색/검색할 수 있도록 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 영상 검색 시스템을 도시한 개요도이다.
도 2는 본 발명의 일 실시예에 따른 컨볼루션 레이어를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따라 풀링 레이어에서 색상 감도 특징맵들로부터 공간 최대 활성도 맵이 구성되는 일례를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 색상 히스토그램의 일례를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따라 도 1의 프로세서의 동작 방법을 도시한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 영상 검색 시스템(10)의 개요도이다. 도 1을 참조하면, 영상 검색 시스템(10)은 감시 카메라(11: 11a, 11b, ... )와 영상 검색 장치(12)로 구성된다. 이때, 감시 카메라(11)와 영상 검색 장치(12)는 유무선 네트워크를 통해 데이터를 주고받을 수 있다.
감시 카메라(11)는 이미지 센서(미도시)를 통해 획득한 이미지 프레임을 처리하여 영상 검색 장치(12)로 제공한다. 이때, 감시 카메라(11)는 CCTV 등과 같이 다양한 장소에서 특정 개체(예컨대, 사람, 차량 등)을 모니터링하기 위한 것일 수 있다.
영상 검색 장치(12)는 감시 카메라(11)에서 수집된 이미지 프레임들로부터 특정 개체를 검색한다. 이를 위해 영상 검색 장치(12)는 메모리(121), 특징 히스토그램 저장 유닛(122) 및 프로세서(123)를 포함한다. 또한, 영상 검색 장치(12)는 감시 카메라(11)로부터 이미지 프레임을 수신하기 위한 통신부(미도시), 영상 검색 장치(12)에서 처리되는 정보를 출력하기 위한 디스플레이부(미도시) 등을 더 포함할 수 있으며, 구현 방식에 따라 이 외의 다른 구성 요소들을 더 포함할 수도 있다.
이하, 도 1 내지 도 5를 참조하여, 영상 검색 장치(12)의 구성 및 동작 방법을 상세히 설명한다.
먼저, 메모리(121)는 비휘발성 메모리, 휘발성 메모리, 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있으며, 영상 검색 장치(12)가 이미지 프레임들로부터 특정 개체를 검색하기 위한 프로그램을 저장한다. 상기 프로그램은, 본 발명의 일 실시예에 따라 이미지 서술자를 생성하는 컨볼루션 신경망(convolution neural network)을 포함할 수 있다. 여기서, 컨볼루션 신경망은 입력 데이터가 이미지라는 가정 하에서, 이미지 데이터가 갖는 특성들을 인코딩 하도록 설계된 신경망이다. 따라서, 컨볼루션 신경망은 가로, 세로, 깊이(RGB 채널)의 3차원으로 구현된 컨볼루션 레이어(convolution layer), 풀링 레이어(pooling layer) 및 풀커넥티드 레이어(full-connected layer)로 구성되며, 구현예에 따라 각각의 레이어는 단일 또는 복수개로 구성될 수 있다. 한편, 컨볼루션 신경망은 프로세서(123)의 제어에 의해, 컨볼루션 레이어에 이미지 프레임이 입력됨에 따라 구동될 수 있다. 이하 도 2 내지 도 4를 참조하여 본 발명의 일 실시예에 따른 컨볼루션 신경망을 상세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 컨볼루션 레이어를 도시한 도면이다. 먼저, 컨볼루션 레이어의 파라미터들은 학습 가능한 컨볼루션 커널들의 집합(201)으로 구성되며, 입력 데이터(즉, 이미지 프레임)(211)와 컨볼루션되어 특징맵(feature map)(213)을 출력한다. 본 발명의 일 실시예에 따라 컨볼루션 커널 집합은, 기 알려진 AlexNet 모델, ConvNet 모델, LeNet-5모델 등에서의 커널들이 이용될 수 있다. 그러나, 이에 제한되는 것은 아니며, 다양한 컨볼루션 신경망 모델들에서 이용되는 커널들이 이용될 수 있다. 한편, 상기한 커널은 실시예에 따라 필터(filter) 등으로 명명될 수 있다.
이때, 본 발명의 일 실시예에 따라 컨볼루션 커널 집합(201)은 각 커널의 색상 및 에지 민감도에 따라 색상 감도 커널(202a)과 에지 감도 커널(202b)로 구분된다. 채널간 표준 편차는 색상에 대한 커널의 감도에 민감하고, 픽셀 간 표준 편차는 에지에 대한 감도에 민감하므로, 각 커널의 색상 및 에지에 대한 민감도는 하기의 수학식 1 과 수학식 2 에 의해 산출될 수 있다.
Figure 112017040057783-pat00001
위 식에서, i (i=1, 2, .. I)는 커널의 인덱스이며, m은 i 번째 커널의 너비와 높이를 나타낸다. 또한,
Figure 112017040057783-pat00002
는 i번째 커널 K의 커널 계수에 대한 RGB 채널 사이에서 계산된 표준편차(
Figure 112017040057783-pat00003
)의 합으로 계산된 색상 민감도를 나타낸다.
Figure 112017040057783-pat00004
위 식에서,
Figure 112017040057783-pat00005
는 i 번째 커널 K의 모든 색상 채널에서 연속적인 수평 및 수직 커널 계수간에 계산된 표준편차(
Figure 112017040057783-pat00006
)의 합으로 계산된 에지 민감도를 나타낸다.
예컨대, 특정 커널의 색상 민감도(
Figure 112017040057783-pat00007
)가 2.0 이상이면, 해당 커널은 색상 감도 커널로 분류될 수 있다. 또는, 특정 커널은 다른 커널들보다 상대적으로 높은 색상 민감도(
Figure 112017040057783-pat00008
) 또는 에지 민감도(
Figure 112017040057783-pat00009
)를 가짐에 따라 색상 감도 커널 또는 에지 감도 커널로 분류될 수 있다.
이후, 입력 데이터(즉, 입력 프레임)(211)는 색상 감도 커널(202a)에 포함된 각각의 컨볼루션 커널(212a)과 컨볼루션(203)되어 복수의 색상 특징맵(213a)을 생성하며, 이와 함께 에지 감도 커널(202b)에 포함된 각각의 컨볼루션 커널(212b)과 컨볼루션(203)되어 복수의 에지 특징맵(213b)을 생성한다. 상기한 과정은 병렬적으로 수행될 수 있으나, 구현예에 따라서는 순차적으로 수행될 수도 있다.
컨볼루션 레이어는 생성된 복수의 색상 특징맵(213a)과 복수의 에지 특징맵(213b)을 출력한다.
다음으로, 풀링 레이어는, 색상 특징맵들과 에지 특징맵들로부터 최대 활성값을 공간 풀링하는 대신, 각 픽셀의 최대 활성값에 대응하는 커널 인덱스(index)를 이용하여 최대 활성도 맵을 구성한다. 즉, 본 발명의 일 실시예에 따른 최대 활성도 맵은 색상과 에지 각각에 대해 생성되며, 각각은 색상 감도 커널의 인덱스들 또는 에지 감도 커널의 인덱스들로 구성된다. 이는 하기의 수학식 3과 수학식 4로 표현된다.
Figure 112017040057783-pat00010
위 식에서,
Figure 112017040057783-pat00011
는 각 픽셀 위치(x, y)(x
Figure 112017040057783-pat00012
X , y
Figure 112017040057783-pat00013
Y, X는 가로값, Y는 세로값)는 자연수)에서의 최대 활성값을 나타내며,
Figure 112017040057783-pat00014
는 색상 감도 커널의 개수를 나타내고,
Figure 112017040057783-pat00015
은 색상 특징맵을 나타낸다. 또한,
Figure 112017040057783-pat00016
는 색상 특징맵(
Figure 112017040057783-pat00017
)으로부터 생성되는 최대 활성도 맵을 나타낸다.
Figure 112017040057783-pat00018
위 식에서,
Figure 112017040057783-pat00019
는 에지 감도 커널의 개수이며,
Figure 112017040057783-pat00020
는 에지 특징맵을 나타낸다. 또한,
Figure 112017040057783-pat00021
는 에지 특징맵(
Figure 112017040057783-pat00022
)으로부터 생성되는 최대 활성도 맵을 나타낸다.
도 3은 본 발명의 일 실시예에 따라 풀링 레이어에서 색상 특징맵들(310)로부터 최대 활성도 맵(320)이 구성되는 일례를 도시한 도면이다. 도 3을 참조하면, 색상 특징맵들(310)의 (1,1) 픽셀 위치(311)에서의 최대 활성값이 3번째 색상 감도 커널에 대응하는 경우, 최대 활성도 맵(320)의 (1,1) 픽셀에는 3이 저장된다. 이와 같이, 풀링 레이어에서는 색상 특징맵들로부터 색상에 대한 최대 활성도 맵을 생성하며, 에지 감도 특징맵들로부터 에지에 대한 최대 활성도 맵을 생성한다.
이후, 최대 활성도 맵들의 정보는 공간 풀링(spatial pooling)을 통해 히스토그램(histogram)으로 수집된다. 구체적으로, 색상에 대한 최대 활성도 맵으로부터의 색상 감도 커널 별 빈도에 따라 색상 히스토그램이 수집되며, 에지에 대한 최대 활성도 맵으로부터의 에지 감도 커널 별 빈도에 따라 에지 히스토그램이 수집된다. 도 4는 본 발명의 일 실시예에 따른 색상 히스토그램의 일례를 도시한 도면이다. 도 4에 도시된 바와 같이, 색상 히스토그램은 색상 감도 커널(k
Figure 112017040057783-pat00023
K, K =1,2,..
Figure 112017040057783-pat00024
) 별 빈도값(frequency)으로 표현될 수 있다. 이와 같이, 본 발명의 일 실시예에 따른 풀링 레이어는 공간 정보를 제외하여 간단한 풀링을 수행함으로써 이미지를 저차원적 특징을 추출할 수 있다.
다음으로, 풀커넥티드 레이어(full-connected layer)에서는 색상 히스토그램과 에지 히스토그램의 연결한다. 즉, 풀커넥티드 레이어는 색상 히스토그램과 에지 히스토그램을 완전 연결한 결과값으로써 특징 히스토그램을 출력한다. 이러한 특징 히스토그램은 이미지의 특징(즉, 피처(feature))를 서술하는 서술자로서 기능한다.
한편, 풀링 레이어에서는 상기한 실시예 외에 다른 공간 풀링 방식이 적용될 수도 있다. 예컨대, 구현예에 따라 풀링 레이어는 공간 피라미드 매칭(spatial pyramid matching), 4분원 기반 공간 풀링(quadrant based spatial pooling) 등으로 색상 특징맵들과 에지 특징맵들을 공간 풀링할 수도 있다. 이 경우, 풀링 레이어의 출력값을 이미지 프레임의 각 영역에 대한 히스토그램을 획득한 후, 이들을 연결하여 특징 히스토그램을 출력할 수 있다.
다시 도 1을 참조하면, 특징 히스토그램 저장 유닛(122)은 프로세서(123)의 제어에 의해, 컨볼루션 신경망을 통해 획득된 이미지 프레임들의 특징 히스토그램들(즉, 특징값들)을 저장한다. 한편, 도 1에서 특징 히스토그램 저장 유닛(122)과 메모리(121)는 별개의 구성요소인 것으로 도시되었으나, 특징 히스토그램 저장 유닛(122)은 메모리(121)에 포함될 수 있다. 또는 특징 히스토그램 저장 유닛(122)은 영상 검색 장치(12)의 외부에 위치하는 별개의 데이터베이스(database) 장치일 수도 있다.
프로세서(123)는 영상 검색 장치(12)의 전반적인 동작을 제어한다. 이를 위해, 프로세서(123)는 데이터 처리를 위한 CPU(central processing unit) 이외에, 그래픽 처리를 위한GPU(graphic processor unit), 신호 처리를 위한 DSP(digital signal processor)를 더 포함하여 구현될 수 있으며, 상기한 적어도 하나를 통합한 SoC(system on chip)로 구현될 수 있다.
구체적으로, 프로세서(123)는 메모리(121)와 특징 히스토그램 저장 유닛(122)을 제어하여, 감시 카메라(11)로부터 제공받은 이미지 프레임 내에 존재하는 개체를 검출/검색할 수 있다.
도 5를 참조하면, 프로세서(123)는 감시 카메라(11)로부터 이미지 프레임을 제공받는다(S510). 이후, 프로세서(123)는 이미지 프레임을 전술한 컨볼루션 신경망에 입력한다(S520). 이에 따라, 컨볼루션 신경망이 구동되어, 도 2 내지 도 4에서 전술한 컨볼루션 레이어(CONV), 풀링 레이어(POOL) 및 풀커넥티드 레이어(FC)가 동작한다. 구체적으로, 컨볼루션 레이어(CONV)는 이미지 프레임에 각각 색상 감도 커널들과 에지 감도 커널들을 컨볼루션하여 복수의 색상 특징맵과 에지 특징맵을 T생성한다(S521). 다음으로, 풀링 레이어(POOL)는 상기 색상 특징맵들과 에지 특징맵들로부터 색상 및 에지 각각에 대한 최대 활성도 맵을 생성한 후, 각 최대 활성도 맵을 공간 풀링한다(S522). 이에 따라, 각각의 최대 활성도 맵의 정보는 색상 히스토그램과 에지 히스토그램으로 수집된다.
다음으로, 풀커넥티드 레이어(FC)는 색상 히스토그램과 에지 히스토그램을 연결하여, 특징 히스토그램을 출력한다(S523). 즉, 풀커넥티드 레이어는 색상 히스토그램과 에지 히스토그램을 완전 연결한 결과값으로써 특징 히스토그램을 출력한다.
이후, 프로세서(123)는 풀커넥티드 레이어로부터 출력된 특징 히스토그램을 특징 히스토그램 저장 유닛(122)에 기 저장된 이미지 프레임들의 특징 히스토그램과 비교함으로써, 해당 이미지 프레임과 동일 또는 유사한 개체들을 포함하는 기 저장된 이미지들을 검출/검색할 수 있다(S530). 예컨대, 프로세서(123)는 해당 이미지 프레임으로부터 추출된 특징 히스토그램과 기 저장된 특징 히스토그램(즉, 특징값) 간의 유사도 또는 비유사도 점수를 이용하여 기 저장된 이미지 프레임들을 순위화할 수 있다.
한편, 본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 영상 검색 시스템
11: 카메라
12: 영상 검색 장치
121: 메모리
122: 특징 히스토그램 저장 유닛
123: 프로세서

Claims (8)

  1. 컨볼루션 신경망(convolution neural network)를 적용한 영상 검색 장치의 동작 방법에 있어서,
    이미지 프레임을 획득하는 단계;
    상기 이미지 프레임에 복수의 색상 감도 커널과 복수의 에지(edge) 감도 커널을 각각 컨볼루션하여 복수의 색상 특징맵과 복수의 에지 특징맵을 생성하는 단계;
    상기 복수의 색상 특징맵과 복수의 에지 특징맵을 기초로, 각 픽셀(pixel) 위치에서의 최대 활성값에 매칭하는 색상 감도 커널의 인덱스(index) 또는 에지 감도 커널의 인덱스를 이용하여 색상 및 에지 각각에 대한 최대 활성도 맵을 생성하는 단계;
    상기 색상 및 에지 각각에 대한 최대 활성도 맵을 공간 풀링(spatial pooling)하는 단계; 및
    상기 공간 풀링된 값을 연결(concatenating)한 결과값을, 기 저장된 특징값과 비교하여 상기 이미지 프레임 내에 존재하는 개체를 검색하는 단계를 포함하는 동작 방법.
  2. 제 1 항에 있어서,
    상기 최대 활성도 맵을 공간 풀링하는 단계는
    상기 색상에 대한 최대 활성도 맵으로부터 색상 감도 커널 별 빈도를 산출하여 색상 히스토그램으로 수집하고, 상기 에지에 대한 최대 활성도 맵으로부터 에지 감도 커널 별 빈도를 산출하여 에지 히스토그램으로 수집하는 것인 동작 방법.
  3. 제 2 항에 있어서,
    상기 연결된 결과값은
    상기 색상 히스토그램과 상기 에지 히스토그램을 완전 연결(full connected)한 특징 히스토그램인 것인 동작 방법.
  4. 제 1 항에 있어서
    상기 기 저장된 특징값은 기 저장된 이미지 프레임들의 특징 히스토그램이며,
    상기 개체를 검색하는 단계는
    상기 연결된 결과값과 상기 기 저장된 이미지 프레임들의 특징 히스토그램 간의 유사도 또는 비유사도 점수에 따라 상기 기 저장된 이미지 프레임들의 순위를 결정하는 것인 동작 방법.
  5. 제 1 항에 있어서,
    상기 색상 감도 커널 또는 에지 감도 커널은,
    색상 및 에지에 대한 민감도 점수에 따라, 학습 가능한 컨볼루션 커널들이 색상 감도 커널 또는 에지 감도 커널로 분류된 것인 동작 방법.
  6. 제 5 항에 있어서,
    상기 색상에 대한 민감도 점수는 상기 컨볼루션 커널들의 커널 계수에 대한 RGB 색상 채널 간의 표준편차의 합이며,
    상기 에지에 대한 민감도 점수는 RGB 색상 채널에서 연속적인 수평 및 수직 커널 계수 간의 표준편차의 합인 동작 방법.
  7. 컨볼루션 신경망(convolution neural network)을 이용하여 영상을 검색하는 프로그램이 저장된 메모리(memory) 및
    상기 프로그램을 실행하는 프로세서(processor)를 포함하며,
    상기 프로세서는, 상기 프로그램이 실행됨에 따라,
    이미지 프레임을 획득하며, 상기 획득된 이미지 프레임을 상기 컨볼루션 신경망에 입력하고, 상기 컨볼루션 신경망의 출력값을 기 저장된 특징값과 비교하여 상기 이미지 프레임 내에 존재하는 개체를 검색하되,
    상기 컨볼루션 신경망은
    상기 이미지 프레임에 복수의 색상 감도 커널과 복수의 에지(edge) 감도 커널을 각각 컨볼루션하여 복수의 색상 특징맵과 복수의 에지 특징맵을 생성하는 적어도 하나의 컨볼루션 레이어, 상기 복수의 색상 특징맵과 복수의 에지 특징맵을 기초로, 각 픽셀(pixel) 위치에서의 최대 활성값에 매칭하는 색상 감도 커널의 인덱스(index) 또는 에지 감도 커널의 인덱스를 이용하여 색상 및 에지 각각에 대해 생성된 최대 활성도 맵을 공간 풀링(spatial pooling)하는 적어도 하나의 풀링 레이어, 및 상기 풀링된 값을 연결(concatenating)하는 적어도 하나의 풀 커넥티드(full-connected) 레이어로 구성되는 것인, 영상 검색 장치.
  8. 제 1 항 내지 제 6 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020170052427A 2017-04-24 2017-04-24 컨볼루션 신경망을 이용한 영상 검색 방법 및 그 장치 KR101917369B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170052427A KR101917369B1 (ko) 2017-04-24 2017-04-24 컨볼루션 신경망을 이용한 영상 검색 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170052427A KR101917369B1 (ko) 2017-04-24 2017-04-24 컨볼루션 신경망을 이용한 영상 검색 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20180119013A KR20180119013A (ko) 2018-11-01
KR101917369B1 true KR101917369B1 (ko) 2018-11-09

Family

ID=64398428

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170052427A KR101917369B1 (ko) 2017-04-24 2017-04-24 컨볼루션 신경망을 이용한 영상 검색 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR101917369B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522910B (zh) * 2018-12-25 2020-12-11 浙江商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
KR102411767B1 (ko) * 2019-02-27 2022-06-23 한국과학기술원 이미지 캡션 자동 생성 장치 및 방법
KR102048948B1 (ko) * 2019-04-30 2020-01-08 (주)제이엘케이인스펙션 영상 분석 장치 및 방법
KR102232698B1 (ko) * 2019-11-28 2021-03-26 조선대학교산학협력단 컨볼루션 신경망을 이용한 건물 에너지 분석 방법
CN110992642B (zh) * 2019-12-25 2021-11-05 辽宁石油化工大学 一种基于深度学习的火灾检测方法
CN113783716A (zh) * 2021-07-27 2021-12-10 国网冀北电力有限公司信息通信分公司 基于云边协同框架的流量预测方法及装置

Also Published As

Publication number Publication date
KR20180119013A (ko) 2018-11-01

Similar Documents

Publication Publication Date Title
KR101917369B1 (ko) 컨볼루션 신경망을 이용한 영상 검색 방법 및 그 장치
Wang et al. Human fall detection in surveillance video based on PCANet
CN109960742B (zh) 局部信息的搜索方法及装置
US11416710B2 (en) Feature representation device, feature representation method, and program
US9323785B2 (en) Method and system for mobile visual search using metadata and segmentation
US11328172B2 (en) Method for fine-grained sketch-based scene image retrieval
CN110532970B (zh) 人脸2d图像的年龄性别属性分析方法、系统、设备和介质
US9576218B2 (en) Selecting features from image data
US20150186374A1 (en) Retrieving system, retrieving method, and security inspection device based on contents of fluoroscopic images
US20220148291A1 (en) Image classification method and apparatus, and image classification model training method and apparatus
US20170352162A1 (en) Region-of-interest extraction device and region-of-interest extraction method
CN108229289B (zh) 目标检索方法、装置和电子设备
CN115115825B (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
CN115331071A (zh) 一种基于多尺度特征图的结核性脑膜脑炎预测方法及系统
Venkatesvara Rao et al. Real-time video object detection and classification using hybrid texture feature extraction
CN114168768A (zh) 图像检索方法及相关设备
WO2019244276A1 (ja) 検索システム、検索方法、及びプログラム
JP6314071B2 (ja) 情報処理装置、情報処理方法及びプログラム
Wu et al. A method for identifying grape stems using keypoints
US11899722B2 (en) Search system, search method, and program
JP6062981B2 (ja) 映像検索装置、方法、及びプログラム
JP2020074111A (ja) 検索システム、検索方法、及びプログラム
KR20220032627A (ko) 프레임 처리방법 및 장치
CN116664465A (zh) 一种多模态图像融合方法、装置及计算机设备
Yu et al. An image-based automatic recognition method for the flowering stage of maize

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant