KR102120864B1

KR102120864B1 - 영상 처리 방법 및 장치

Info

Publication number: KR102120864B1
Application number: KR1020130134372A
Authority: KR
Inventors: 강우성; 윤상두; 정하욱; 최진영; 허병호; 황성택
Original assignee: 삼성전자주식회사; 서울대학교산학협력단
Priority date: 2013-11-06
Filing date: 2013-11-06
Publication date: 2020-06-10
Also published as: KR20150052924A; US20150125073A1; US9639758B2; US20170206227A1; US10902056B2

Abstract

대상 영상을 획득하는 단계; 상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하는 단계; 상기 추출된 형상에 기초하여 상기 대상 물체가 포함되는 카테고리를 결정하는 단계; 및 상기 카테고리와 관련된 적어도 하나의 키워드를 포함하는 부가 정보와 매핑하여 상기 대상 영상을 저장하는 단계를 포함하는 것을 특징으로 하는, 영상 처리 방법을 개시한다.

Description

영상 처리 방법 및 장치 {METHOD AND APPARATUS FOR PROCESSING IMAGE}

본 발명은 영상을 처리하는 방법 및 장치에 관한 것이다. 보다 구체적으로는, 대상 영상이 나타내는 물체가 어떠한 카테고리에 포함되는지를 판단하고, 판단된 결과에 기초하여 소정 동작을 수행하는 방법 및 장치에 관한 것이다.

영상 정보를 기초로 하는 다양한 멀티미디어 시스템 (multi-media system) 이 발달하면서, 영상이 포함하고 있는 정보를 이해하고 이를 다양한 분야에 응용할 수 있는 기술에 대한 수요가 급증하고 있다.

특히, 휴대폰, 노트북, PDA 등과 같은 모바일 디바이스가, 카메라와 같이 영상을 촬영하는 기능을 더 포함하게 됨에 따라, 사용자가 모바일 디바이스를 이용해 촬영된 많은 영상을 쉽게 관리할 수 있도록 하는 기술이 요구된다. 또한, 모바일 디바이스의 주위 환경 또는 사용자의 주위 환경에 대한 정보를 이용하여 사용자 친화적인 모바일 디바이스의 동작 방법을 제공하기 위해서, 모바일 디바이스를 이용해 촬영된 영상이 포함하고 있는 정보를 분석하는 기술이 이용될 수 있다.

한편, 영상이 포함하고 있는 정보를 분석하는 기술로서, 영상으로부터 영상이 나타내는 물체의 카테고리를 탐지하는 물체 탐지 (Object detection) 기술이 대표적으로 이용된다. 물체 탐지 기술은, 모바일 디바이스를 통해 편리한 사용자 환경을 제공하는 분야뿐만 아니라, 질병 진단, 및 로봇 자율 운행 등의 다양한 분야에서 이용될 수 있는 기술이다. 따라서, 정확도가 높고 속도가 빠른 물체 탐지 기술을 개발하는데 많은 관심이 집중되고 있다.

본 발명의 목적은, 영상이 포함하고 있는 정보를 분석함으로써, 소정 디바이스를 사용하는 사용자에게 편리한 사용자 환경을 제공할 수 있는 영상 처리 방법 및 장치를 제공하는데 있다.

본 발명의 일 실시예에 따른 영상 처리 방법은, 대상 영상을 획득하는 단계; 상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하는 단계; 상기 추출된 형상에 기초하여 상기 대상 물체가 포함되는 카테고리를 결정하는 단계; 및 상기 카테고리와 관련된 적어도 하나의 키워드를 포함하는 부가 정보와 매핑하여 상기 대상 영상을 저장하는 단계를 포함한다.

본 발명의 일 실시예에 따른 영상 처리 방법은, 사용자로부터 키워드를 수신하는 단계; 상기 수신된 키워드와 관련된 상기 부가 정보와 매핑된 상기 대상 영상을 검색하는 단계; 및 상기 대상 영상을 디스플레이하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 대상 영상을 획득하는 단계는, 상기 대상 영상이 획득되는 시각에 대한 정보를 획득하는 단계를 포함하고, 상기 부가 정보는, 상기 시각에 대한 정보와 관련된 적어도 하나의 키워드를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 방법은, 영상 처리 장치의 제 1 위치 정보를 획득하는 단계; 상기 카테고리와 관련된 공간 정보를 획득하는 단계; 및 상기 공간 정보와 상기 제 1 위치 정보를 이용하여 상기 영상 처리 장치의 제 2 위치 정보를 생성하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하는 단계는, 상기 대상 영상의 픽셀들의 밝기 변화도를 나타내는 특징맵을 추출하는 단계를 포함하고, 상기 대상 물체가 포함되는 카테고리를 결정하는 단계는, 상기 추출된 특징맵과, 제 1 카테고리에 포함되는 물체의 형상에 대해서 미리 학습된 적어도 하나의 특징맵 모델을 비교하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 추출된 특징맵과 상기 적어도 하나의 특징맵 모델을 비교하는 단계는, 상기 적어도 하나의 특징맵 모델에 기초하여 설계된 필터의 상기 추출된 특징맵에 대한 반응값을 계산하는 단계; 및 상기 반응값이 상기 특징맵 모델에게 할당된 임계값보다 작을 경우, 상기 대상 물체는 상기 제 1 카테고리에 포함되지 않는 것으로 판단하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 추출된 특징맵과 상기 적어도 하나의 특징맵 모델을 비교하는 단계는, 상기 제 1 카테고리에 포함되는 물체의 전체 형상에 대해서 미리 학습된 특징맵 모델인 루트 모델과 상기 추출된 특징맵을 비교하여 상기 대상 물체가 상기 제 1 카테고리에 포함되는지 여부를 판단하는 제 1 판단을 수행하는 단계; 및 상기 제 1 판단 결과에 따라, 상기 대상 물체가 상기 제 1 카테고리에 포함된다고 판단되는 경우, 상기 제 1 카테고리에 포함되는 물체의 부분들의 형상들에 대해서 미리 학습된 특징맵 모델들인 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 특징맵을 추출하는 단계는, 상기 루트 모델과의 비교를 위해서, 제 1 해상도에서 상기 대상 영상으로부터 제 1 특징맵을 추출하는 단계; 및 상기 복수의 부분 모델 중 적어도 하나와의 비교를 위해서, 제 2 해상도에서 상기 대상 영상으로부터 제 2 특징맵을 추출하는 단계를 포함하고, 상기 제 1 해상도는 상기 제 2 해상도보다 낮은 것을 특징으로 할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계는, 상기 복수의 부분 모델들의 우선 순위에 기초하여, 상기 복수의 부분 모델들 중 적어도 하나를 선택하는 단계; 및 상기 선택된 부분 모델과 상기 추출된 특징맵을 비교하는 단계를 비교하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계는, 상기 루트 모델에 대한 상기 복수의 부분 모델들의 위치 정보를 더 고려하여, 상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계를 포함할 수 있다.

한편, 본 발명의 일 실시예에 따른 영상 처리 장치는, 대상 영상을 획득하는 영상 획득부; 상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하고, 상기 추출된 형상에 기초하여 상기 대상 물체가 포함되는 카테고리를 결정하는 영상 분석부; 및 상기 카테고리와 관련된 적어도 하나의 키워드를 포함하는 부가 정보와 매핑하여 상기 대상 영상을 저장하도록 저장부를 제어하는 제어부를 포함한다.

본 발명의 일 실시예에 따른 영상 처리 장치는, 사용자로부터 키워드를 수신하는 사용자 입력부; 및 상기 수신된 키워드와 관련된 상기 부가 정보와 매핑된 상기 대상 영상을 디스플레이하는 디스플레이부를 더 포함하고, 상기 제어부는, 상기 수신된 키워드와 관련된 상기 부가 정보와 매핑된 상기 대상 영상을 상기 저장부로부터 검색할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 장치에 있어서, 상기 영상 획득부는, 상기 대상 영상이 획득되는 시각에 대한 정보를 더 획득하고, 상기 부가 정보는, 상기 시각에 대한 정보와 관련된 적어도 하나의 키워드를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 장치는, 상기 영상 처리 장치의 제 1 위치 정보를 획득하는 위치 검출부를 더 포함하고, 상기 제어부는, 상기 카테고리와 관련된 공간 정보를 획득하고, 상기 공간 정보와 상기 제 1 위치 정보를 이용하여 상기 영상 처리 장치의 제 2 위치 정보를 생성할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 장치에 있어서, 상기 영상 분석부는, 상기 대상 영상의 픽셀들의 밝기 변화도를 나타내는 특징맵을 추출하는 특징맵 추출부를 포함하고, 상기 추출된 특징맵과, 제 1 카테고리에 포함되는 물체의 형상에 대해서 미리 학습된 적어도 하나의 특징맵 모델을 비교할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 장치에 있어서, 상기 영상 분석부는, 상기 적어도 하나의 특징맵 모델에 기초하여 설계된 필터의 상기 추출된 특징맵에 대한 반응값을 계산하고, 상기 반응값이 상기 특징맵 모델에게 할당된 임계값보다 작을 경우, 상기 대상 물체는 상기 제 1 카테고리에 포함되지 않는 것으로 판단할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 장치에 있어서, 상기 영상 분석부는, 상기 제 1 카테고리에 포함되는 물체의 전체 형상에 대해서 미리 학습된 특징맵 모델인 루트 모델과 상기 추출된 특징맵을 비교하여 상기 대상 물체가 상기 제 1 카테고리에 포함되는지 여부를 판단하는 제 1 판단을 수행하고, 상기 제 1 판단 결과에 따라, 상기 대상 물체가 상기 제 1 카테고리에 포함된다고 판단되는 경우, 상기 제 1 카테고리에 포함되는 물체의 부분들의 형상들에 대해서 미리 학습된 특징맵 모델들인 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 장치에 있어서, 상기 특징맵 추출부는, 상기 루트 모델과의 비교를 위해서, 제 1 해상도에서 상기 대상 영상으로부터 제 1 특징맵을 추출하고, 상기 복수의 부분 모델 중 적어도 하나와의 비교를 위해서, 제 2 해상도에서 상기 대상 영상으로부터 제 2 특징맵을 추출하는 단계를 포함상기 물체의 부분들에 대한 상기 복수의 부분 모델들을 생성하는 학습부를 더 포함하고, 상기 제 1 해상도는 상기 제 2 해상도보다 낮은 것을 특징으로 할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 장치에 있어서, 상기 영상 분석부는, 상기 복수의 부분 모델들의 우선 순위에 기초하여, 상기 복수의 부분 모델들 중 적어도 하나를 선택하고, 상기 선택된 부분 모델과 상기 추출된 특징맵을 비교하는 단계를 비교할 수 있다.

한편, 본 발명의 일 실시예에 따른 컴퓨터로 판독 가능한 기록 매체는, 상술한 영상 처리 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.

도 1 은 본 발명의 일 실시예에 따른 영상 처리 장치를 설명하기 위한 블록도이다.
도 2 는 본 발명의 일 실시예에 따른 영상 처리 장치를 설명하기 위한 구체적인 블록도이다.
도 3 은 본 발명의 일 실시예에 따른 영상 처리 방법을 설명하기 위한 흐름도이다.
도 4 는 본 발명의 일 실시예에 따른 영상 처리 방법을 설명하기 위한 흐름도이다.
도 5 는 본 발명의 일 실시예에 따라 부가 정보와 매핑되어 저장되는 대상 영상을 설명하기 위한 도면이다.
도 6 은 본 발명의 일 실시예에 따라 대상 영상과 매핑되어 저장되는 부가 정보의 예를 도시한다.
도 7a 는 본 발명의 일 실시예에 따라 키워드를 사용자로부터 수신하기 위한 화면의 예를 도시한다.
도 7b 는 본 발명의 일 실시예에 따라 사용자로부터 수신된 키워드와 관련되어 검색된 영상을 출력하는 화면의 예를 도시한다.
도 8 은 본 발명의 일 실시예에 따라 제 2 동작 모드에서 제 2 위치 정보를 생성하는 과정을 설명하기 위한 도면이다.
도 9 는 본 발명의 일 실시예에 따라 대상 영상으로부터 특징맵을 추출하는 과정을 설명하기 위한 도면이다.
도 10 은 본 발명의 일 실시예에 따라 대상 영상으로부터 영상 피라미드를 생성하고, 영상 피라미드와 특징맵 모델을 비교하는 과정을 설명하기 위한 도면이다.
도 11 은 본 발명의 일 실시예에 따라 슬라이딩 윈도우 (sliding window) 방식으로 대상 영상을 분석하는 과정을 설명하기 위한 도면이다.
도 12 는 본 발명의 일 실시예에 따른 직렬 분류기를 설명하기 위한 도면이다.
도 13 은 본 발명의 일 실시예에 따라 대상 영상이 카테고리에 대한 영상을 포함하는지 여부를 판단하기 위해서, 해당 카테고리에 대한 복수의 영상들을 학습하는 방법을 설명하기 위한 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

또한, 명세서에 기재된 “…부”, “…모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1 은 본 발명의 일 실시예에 따른 영상 처리 장치를 설명하기 위한 블록도이다.

도 1 에 도시된 영상 처리 장치 (100) 는 모바일 디바이스 내에 포함되거나, 모바일 디바이스에 연결될 수 있다. 이 때, 모바일 디바이스는, 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(notebook computer), 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 및 네비게이션 등을 포함할 수 있으나 이에 한정되지 않는다.

도 1 에 도시된 영상 처리 장치 (100) 는, 영상 획득부 (110), 영상 분석부 (120), 저장부 (130), 및 제어부 (140) 를 포함할 수 있다.

영상 획득부 (110) 는, 대상 영상을 획득한다. 영상 획득부 (110) 는, 대상 영상을 획득하기 위해서, 외부로부터 대상 영상에 대한 정보를 포함하는 신호를 입력받거나, 대상 영상을 촬영할 수 있다.

영상 획득부 (110) 는, 셔터, 렌즈부, 조리개 및 영상 센서 및 아날로그/디지털 변환기(ADC) 를 포함하는 카메라를 포함할 수 있다. 영상 획득부 (110) 는, 영상 센서로부터 얻어지는 영상 프레임을 처리함으로써 대상 영상을 획득할 수 있다. 또한, 영상 획득부 (100) 는, 대상 영상을 촬영함과 더불어, 대상 영상이 획득되는 시각 또는 주변 환경에 대한 정보를 더 획득할 수 있다. 주변 환경에 대한 정보는, 대상 영상이 획득되는 시점에서, 대상 영상이 획득되는 공간의 밝기 또는 소란스러운 정도 등에 대한 정보를 포함할 수 있다.

영상 분석부 (120) 는, 대상 영상에 포함되는, 대상 물체의 형상을 추출한다. 영상 분석부 (120) 는, 대상 영상으로부터 추출된 형상에 기초하여, 대상 물체가 포함되는 카테고리를 결정한다. “대상 영상” 이란, 영상 처리를 위한 대상이 되는 영상을 의미한다. “대상 물체” 란, 대상 영상이 나타내는 물체를 의미한다. “카테고리”란, 동일한 성질을 갖는 물체들을 분류하는 기준을 의미할 수 있다. 예를 들어, 장미꽃, 백합, 및 튤립 등의 물체들은 “꽃” 이라는 카테고리에 포함되는 것으로 결정될 수 있다. 카테고리에는, 자동차, 자전거, 사람, 나무, 꽃 및 건물등이 포함될 수 있다.

또한, 영상 분석부 (120) 는, 대상 영상이 소정 카테고리에 포함되는 물체에 대한 영상을 포함하는지 여부를 판단할 수 있다. 영상 분석부 (120) 는, 하나의 카테고리를 결정하고, 대상 영상이 나타내는 대상 물체가 결정된 카테고리에 포함되는지 여부를 판단할 수 있다. 또한, 영상 분석부 (120) 는, 대상 영상이 복수의 카테고리들 중에서 어떠한 카테고리에 포함되는 물체를 나타내고 있는지를 판단할 수 있다.

영상 분석부 (120) 는, 적어도 하나의 대상 물체가 포함되는 적어도 하나의 카테고리를 결정할 수 있다. 서로 다른 대상 물체들은, 하나의 카테고리에 포함되거나, 서로 다른 카테고리들에 포함될 수 있다. 즉, 영상 분석부 (120) 는, 대상 영상으로부터 복수의 대상 물체들의 형상을 추출할 수 있다. 영상 분석부 (120) 는 복수의 대상 물체들이 포함되는 하나 이상의 카테고리를 결정할 수 있다.

영상 분석부 (120) 가 대상 물체의 카테고리를 결정하는 구체적인 물체 탐지 방법과 관련하여서는, 후에 도 9 내지 13 을 참조하여 구체적으로 설명한다.

저장부 (130) 는, 대상 영상 및 대상 영상과 관련된 정보를 저장한다. 저장부 (130) 는, 카테고리, 카테고리에 포함되는 물체의 형상에 대한 정보, 및 카테고리에 대한 특징맵 모델 중 적어도 하나를 더 저장할 수 있다. 또한, 저장부 (130) 는, 영상 처리 장치 (100) 의 영상 처리 및 제어를 위한 프로그램을 저장할 수 있다.

저장부 (130) 는 플래시 메모리 타입 (flash memory type), 하드디스크 타입 (hard disk type), 멀티미디어 카드 마이크로 타입 (multimedia card micro type), 카드 타입의 메모리 (예를 들어 SD 또는 XD 메모리 등), 램 (RAM, Random Access Memory), SRAM (Static Random Access Memory), 롬 (ROM, Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory) 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 또한, 영상 처리 장치 (100) 는 인터넷 (internet) 상에서 저장부 (130) 의 저장 기능을 수행하는 웹 스토리지 (web storage) 또는 클라우드 서버를 운영할 수도 있다.

제어부 (150) 는, 영상 처리 장치 (100) 의 전반적인 동작을 제어한다. 즉, 제어부 (150) 는, 영상 획득부 (110), 영상 분석부 (120), 및 저장부 (130) 를 제어할 수 있다.

제어부 (150) 는, 영상 분석부 (120) 의 분석 결과에 기초하여, 분석 결과에 대응하는 소정 동작을 수행하도록 영상 처리 장치 (100) 를 제어할 수 있다.

제어부 (150) 는, 부가 정보를 대상 영상과 매핑하여 저장하도록 저장부 (130) 를 제어할 수 있다. 이 때, 부가 정보는, 대상 물체가 포함되는 것으로 결정된 카테고리와 관련된 적어도 하나의 키워드를 포함할 수 있다.

영상과 관련된 적어도 하나의 키워드를 영상과 매핑하여 저장하는 동작을 “영상을 태깅 (tagging)” 한다고 할 수 있다. 대상 영상을 태깅하기 위해서는, 일반적으로, 사용자가 대상 영상의 임의의 영역을 선택하고, 선택된 영역에 대한 키워드를 입력하는 과정을 포함하는 방법이 이용된다. 따라서, 사용자가 대상 영상 내의 영역을 선택하고 키워드를 입력하는데 많은 시간이 소요되며 불편함이 있었다.

본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 물체가 포함된다고 결정된 카테고리에 대해서, 대상 영상을 자동으로 태깅함으로써, 대상 영상을 자동으로 분류할 수 있다. 따라서, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 많은 영상을 분류하고, 저장하고, 관리하는데 있어서 사용자의 편의를 도모할 수 있다. 또한, 영상 처리 장치 (100) 는, 짧은 시간 내에 많은 영상들을 분류하고, 저장하고, 관리할 수 있다는 장점이 있다.

한편, 도 2 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 사용자 입력부 (140), 디스플레이부 (160), 및 위치 검출부 (170) 를 더 포함할 수 있다. 또한, 도 2 에 도시된 바와 같이, 영상 분석부 (120) 는, 특징맵 추출부 (122) 및 학습부 (124) 를 포함할 수 있다.

특징맵 추출부 (122) 는, 대상 영상으로부터 대상 영상의 픽셀들의 밝기 변화도 (intensity gradient) 를 나타내는 특징맵을 추출할 수 있다. 특징맵은, 대상 영상의 픽셀들의 밝기 변화도의 크기와 방향을 이용하여, 블록 단위로 생성된 히스토그램을 의미할 수 있다. 즉, 대상 영상으로부터 추출되는 특징맵은 HOG (Histogram of Oriented Gradients) 맵을 포함할 수 있다. 또한, 특징맵 추출부 (122) 는, 카테고리에 포함되는 물체들의 일반적인 형상을 학습하기 위해서 획득되는 복수의 영상들로부터, 복수의 영상들에 대한 특징맵들을 더 추출할 수 있다.

학습부 (124) 는, 카테고리에 포함되는 물체들의 일반적인 형상을 학습하기 위해서, 카테고리에 포함되는 물체들을 나타내는 복수의 영상들을 학습할 수 있다. 또한, 학습부 (124) 는, 카테고리에 포함되는 물체들을 나타내는 복수의 영상들과 함께, 카테고리에 포함되지 않는 물체들을 나타내는 복수의 영상들을 학습함으로써, 카테고리에 포함되는 물체들의 일반적인 형상을 학습할 수 있다.

학습부 (124) 는, 제 1 카테고리에 포함되는 물체의 전체 형상에 대해서 미리 학습된 특징맵 모델인 루트 모델을 제 1 해상도에서 생성할 수 있다. 또한, 학습부 (124) 는, 제 1 카테고리에 포함되는 물체의 부분들의 형상들에 대해서 미리 학습된 특징맵 모델인 복수의 부분 모델들을 제 2 해상도에서 생성할 수 있다. 이 때, 소정 물체에 대한 루트 모델은, 부분 모델들보다 낮은 해상도로 생성될 수 있다. 특징맵 모델의 해상도는, 히스토그램이 생성된 단위인 블록의 크기에 따라 결정된다.

사용자 입력부 (140) 는, 사용자의 입력을 수신한다. 사용자 입력부 (140) 는, 영상 처리 장치 (100) 를 제어하기 위한 사용자의 입력을 수신할 수 있다. 또한, 사용자 입력부 (140) 는 사용자로부터 키워드를 수신할 수 있다.

사용자 입력부 (140) 에는, 키 패드 (key pad), 돔 스위치 (dome switch), 터치 패드 (접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 트랙볼, 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.

또한, 디스플레이부 (160) 의 표시 패널과 레이어 구조를 이루는 터치 패드는 터치 스크린이라 부를 수 있다. 사용자 입력부 (140) 가 터치 스크린으로 구성되어 있는 경우, 사용자 입력부 (140) 는 디스플레이부 (160) 의 기능을 수행할 수 있다.

또한, 사용자 입력부 (140) 는, 소리 센서를 이용하여 사용자의 음성을 검출하고, 사용자의 음성에 기초하여 사용자가 말하는 키워드를 수신할 수 있다.

디스플레이부 (160) 는, 대상 영상 뿐만 아니라 영상 처리 장치 (100) 에서 처리되는 다양한 정보를 GUI(Graphic User Interface)를 통해 화면 상에 표시 출력할 수 있다.

디스플레이부 (160) 는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다.

위치 검출부 (170) 는, 영상 처리 장치 (100) 의 위치를 검출함으로써 영상 처리 장치 (100) 의 제 1 위치 정보를 획득한다. 위치 검출부(170)는 GPS(Global Position System), 와이파이 위치추적 시스템(Wi-Fi Positioning System) 및 하이브리드 위치추적 시스템 (Hybrid Positioning System) 중 적어도 하나를 이용하여 영상 처리 장치 (100) 의 위치를 검출할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 장치 (100) 의 전반적인 동작을 제어하기 위해서, 제어부 (150) 는, 도 2 에 도시된 사용자 입력부 (140), 디스플레이부 (160), 및 위치 검출부 (170) 를 더 제어할 수 있다. 또한, 제어부 (150) 는, 영상 분석부 (120), 저장부 (130), 및 위치 검출부 (170) 중 적어도 하나의 적어도 일부 기능을 수행하도록 구성될 수 있다.

본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 물체가 포함된다고 결정된 카테고리에 기초하여, 소정 동작을 수행할 수 있다.

이하에서는 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 가 대상 영상이 포함하고 있는 정보에 기초하여 소정 동작을 수행하는 방법에 대해서 도 3 내지 8 을 참고하여 구체적으로 살펴보도록 한다.

도 3 은 본 발명의 일 실시예에 따른 영상 처리 방법을 설명하기 위한 흐름도이다.

본 발명의 일 실시예에 따른 영상 처리 방법은, 도 1 및 도 2 에 도시된 영상 처리 장치 (100) 의 각 구성 요소에 의해 수행될 수 있다. 따라서, 이하에서 생략된 내용이라 하더라도 도 1 및 2 에 도시된 영상 처리 장치 (100) 에 관하여 이상에서 기술된 내용은 도 3 의 영상 처리 방법에도 적용됨을 알 수 있다.

단계 S310 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상을 획득할 수 있다. 예를 들어, 영상 처리 장치 (100) 는, 외부로부터 대상 영상을 수신하거나, 대상 영상을 촬영함으로써 대상 영상을 획득할 수 있다. 또한, 영상 처리 장치 (100) 는, 대상 영상이 획득되는 날짜 및 시각에 대한 정보를 더 획득할 수 있다.

단계 S320 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상에 포함되는 대상 물체의 형상을 추출할 수 있다. 예를 들어, 영상 처리 장치 (100) 는, 대상 영상의 HOG 특징을 추출함으로써, 대상 물체의 형상을 추출할 수 있다.

단계 S330 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 단계 S320 에서 추출된 형상에 기초하여 대상 물체가 포함되는 카테고리를 결정할 수 있다.

예를 들어, 영상 처리 장치 (100) 는, 미리 결정된 복수의 카테고리들 중에서 하나를 선택하고, 대상 물체가 선택된 카테고리 내에 포함되는지 여부를 판단할 수 있다. 영상 처리 장치 (100) 는, 대상 물체가 선택된 카테고리 내에 포함되는지 여부를 판단하는 동작을, 복수의 카테고리들 각각에 대해서 반복해서 수행할 수 있다.

도 3 에서는, 영상 처리 장치 (100) 가 하나의 대상 물체에 대한 카테고리를 결정하는 것으로 도시하였으나 본 발명은 이에 한정되지 않는다. 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상이 나타내는 복수의 대상 물체들에 대해서도, 어떠한 카테고리에 포함되는 물체들인지를 결정할 수 있다.

단계 S340 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 부가 정보와 매핑하여 대상 영상을 저장할 수 있다. 부가 정보는, 대상 물체가 포함되는 것으로 결정된 카테고리와 관련된 적어도 하나의 키워드를 포함할 수 있다.

도 5 는 본 발명의 일 실시예에 따라 부가 정보와 매핑되어 저장되는 대상 영상을 설명하기 위한 도면이다.

예를 들어, 도 5 는, 대상 영상 (501) 이 “남대문” 의 형상 (510), 및 “김정민” 이라는 사람의 형상 (520) 을 포함하는 경우를 도시한다.

영상 처리 장치 (100) 는, 대상 영상 (501) 으로부터 제 1 대상 물체의 형상 (510), 및 제 2 대상 물체의 형상 (520) 을 추출할 수 있다. 영상 처리 장치 (100) 는, 제 1 대상 물체의 형상 (510) 에 기초하여, 제 1 대상 물체가 포함되는 카테고리로서, “남대문”을 결정할 수 있다. 영상 처리 장치 (100) 는, 제 2 대상 물체의 형상 (520) 에 기초하여, 제 2 대상 물체가 포함되는 카테고리로서, “사람”을 결정할 수 있다.

영상 처리 장치 (100) 는, “남대문”, 및 “사람” 과 관련된 적어도 하나의 키워드를 포함하는 부가 정보와 매핑하여 대상 영상 (501) 을 저장할 수 있다. “남대문”과 관련된 적어도 하나의 키워드는, 카테고리의 명칭과 관련된 키워드인 “남대문”일 수 있다. 또는, “남대문”과 관련된 적어도 하나의 키워드는, 카테고리와 관련된 공간 정보와 관련된 키워드인, “대한민국”또는 “서울”을 포함할 수 있다. “사람”과 관련된 적어도 하나의 키워드는, 대상 영상의 종류와 관련된 키워드인, “인물 사진” 을 포함할 수 있다.

또한, 영상 처리 장치 (100) 는, 대상 영상의 일부 영역에 대해서도, 관련된 키워드를 태깅하여 저장할 수 있다. 즉, 도 5 를 참고하면, 영상 처리 장치 (100) 는, “남대문”의 형상 (510) 을 포함하는 일부 영역에 대해서 키워드“남대문”을 태깅할 수 있다.영상 처리 장치 (100) 는, “사람”의 형상 (520) 을 포함하는 일부 영역에 대해서, 키워드 “사람”을 태깅할 수 있다.

영상 처리 장치 (100) 는 도 5 에 도시된 바와 같이, 대상 영상 (501) 이 나타내는 대상 물체가 “사람” 에 포함되는 것으로 결정되는 경우, 사람의 형상 (520) 을 분석하여 사람의 “얼굴” 의 형상 (530) 을 추출할 수 있다.

영상 처리 장치 (100) 는, “얼굴” 의 형상 (530) 을 분석하여 분석된 결과에 대응되는 사람의 이름을 결정할 수 있다. 즉, 영상 처리 장치 (100) 는 대상 영상을 분석하여, 사람에 대한 형상 (520) 에 기초하여 얼굴에 대응되는 영역을 검출할 수 있다. 영상 처리 장치 (100) 얼굴에 대응되는 영역에 포함되는 얼굴의 형상 (530) 으로부터, 대상 영상 (501) 이 “김정민” 이라는 이름을 갖는 사람을 나타내고 있음을 인식할 수 있다. 영상 처리 장치 (100) 는, “김정민”이라는 키워드와 대상 영상 (501) 을 매핑하여 저장할 수 있다.

또한, 영상 처리 장치 (100) 는, 대상 물체가 포함되는 카테고리와 관련된 키워드와 더불어, 대상 영상이 획득되는 날짜 및 시각에 대한 정보와 관련된 키워드를 대상 영상에 대한 부가 정보로서 저장할 수 있다.

예를 들어, 도 5 에 도시된 바와 같이, 영상 처리 장치 (100) 가 대상 영상이 획득되는 날짜 및 시각에 대한 정보로서 “2012년 10월 21 14시 00분”을 획득한 경우를 예로 들어 설명한다. 영상 처리 장치 (100) 는, “2012년 10월 21 14시 00분”과 관련된 키워드인 “가을, 10월, 오후” 등을 대상 영상에 대한 부가 정보로서 더 저장할 수 있다.

도 6 은 본 발명의 일 실시예에 따라 대상 영상과 매핑되어 저장되는 부가 정보의 예를 도시한다.

본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는 대상 영상에 대한 부가 정보를 대상 영상과 함께 저장할 수 있다.

예를 들어, 부가 정보는, 대상 영상의 명칭, 대상 영상 파일의 확장자, 대상 물체가 포함되는 카테고리, 대상 영상 내에서 대상 물체의 형상의 상대적인 위치, 대상 물체의 카테고리를 결정함으로써 장면 분류 결과 (Scene Classification Result), 대상 영상이 획득된 시점의 영상 처리 장치 (100) 의 위치 정보, 대상 영상이 획득된 날짜, 대상 영상이 획득된 시각, 대상 영상이 획득된 시점의 영상 처리 장치 (100) 주변의 조도 정보, 및 대상 영상이 획득된 시점의 영상 처리 장치 (100) 의 주면 소음 정보 중 적어도 하나를 포함할 수 있다. 장면 분류 결과는, 대상 물체가 포함되는 카테고리와 관련된 공간 정보를 포함할 수 있다. 카테고리물체와 관련된 공간 정보는, 카테고리에 포함되는 물체들이 일반적으로 위치하는 장소에 대한 정보를 포함할 수 있다.

도 6 에는, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 가 저장하는 부가 정보 (600) 의 예를 도시한다. 도 6 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상의 명칭 및 파일 확장자 (601), 대상 물체들이 포함되는 카테고리들 (602), 대상 영상 내에서 대상 물체의 형상의 상대적인 위치 (603), 장면 분류 결과 (604), 대상 영상이 획득된 시점의 영상 처리 장치 (100) 의 GPS 정보 (605), 대상 영상이 획득된 날짜 (607), 대상 영상이 획득된 시각 (607), 대상 영상이 획득된 시점의 영상 처리 장치 (100) 주변의 조도 정보, 및 대상 영상이 획득된 시점의 영상 처리 장치 (100) 의 주면 소음 정보 (609) 중 적어도 하나를 포함하는 부가 정보 (600) 를 저장할 수 있다.

예를 들어, 도 6 은, 영상 처리 장치 (100) 가 대상 물체들이 포함되는 카테고리들을 “사람, 테이블, 의자” 로 결정한 경우를 도시한다. 영상 처리 장치 (100) 는, “사람, 테이블, 의자”가 위치하는 “2xx lux” 를 갖는 조도의 “시끄러운” 장소라는 정보에 기초하여, “레스토랑, 실내” 라는 장면 분류 결과를 도출할 수 있다.,

단계 S350 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 사용자로부터 키워드를 수신할 수 있다.

영상 처리 장치 (100) 는, 사용자로부터 직접, 영상을 검색하기 위해서 키워드를 입력받을 수 있다.

또는, 영상 처리 장치 (100) 는 사용자로부터 제 1 영상을 입력받을 수 있다. 영상 처리 장치 (100) 는, 제 1 영상으로부터 키워드를 추출함으로써 사용자로부터 키워드를 수신할 수 있다. 예를 들어, 사용자가 “자전거” 에 대한 영상을 검색하고자 할 때, 영상 처리 장치 (100) 는 자전거를 촬영하거나, 자전거에 대한 스케치를 촬영하거나, 또는, 자전거에 대한 영상을 인터넷으로 수신함으로써 제 1 영상을 획득할 수 있다.

도 7a 는 본 발명의 일 실시예에 따라 키워드를 사용자로부터 수신하기 위한 화면의 예를 도시한다.

도 7a 및 도 7b 에 도시된 바와 같이 영상 처리 장치 (100) 는 휴대폰과 같은 모바일 단말기에 포함될 수 있으나 이에 한정되지 않는다.

도 7a 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 키워드 입력을 위한 GUI (710) 를 화면 상에 제공할 수 있다. 키워드 입력을 위한 GUI (710) 는 키워드를 입력하는 영역 (712) 을 포함할 수 있다. 도 7a 에 도시된 바와 같이, 사용자는 하나 이상의 키워드를 입력할 수 있다.

또한, 키워드 입력을 위한 GUI (710) 는, 키워드와 관련된 영상을 검색할 것을 명령하는 버튼 (714) 을 포함할 수 있다.

단계 S360 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 수신된 키워드와 관련된 부가 정보와 매핑된 대상 영상을 검색하여 출력할 수 있다.

도 7b 는 본 발명의 일 실시예에 따라 사용자로부터 수신된 키워드와 관련되어 검색된 영상을 출력하는 화면의 예를 도시한다.

도 7b 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 사용자로부터 수신된 키워드와 관련된 대상 영상 (501) 을 검색하여 출력할 수 있다. 도 7b 에는 하나의 대상 영상 (501) 이 검색된 경우가 도시되었지만 본 발명은 이에 한정되지 않는다. 영상 처리 장치 (100) 는, 사용자로부터 수신된 키워드와 관련된 복수의 영상들을 검색하여 출력할 수 있다.

또한, 영상 처리 장치 (100) 는, 대상 영상이 태깅된 결과에 따라, 대상 영상과 관련된 키워드를 대상 영상 상에 함께 디스플레이할 수 있다. 도 5 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상 (501) 과 관련된 것으로 판단된, “남대문”이라는 키워드 (515), “사람”이라는 키워드 (525), 및 “김정민” 이라는 키워드 (535) 를 대상 영상 (501) 상에 표시하여 대상 영상 (501) 을 출력할 수 있다.

또한, 도 5 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상 (501) 과 매핑되어 저장된 결과에 따라, 대상 영상 (501) 이 획득되는 시각에 대한 정보 (550) 를 대상 영상 상에 함께 디스플레이할 수 있다.

도 4 는 본 발명의 일 실시예에 따른 영상 처리 방법을 설명하기 위한 흐름도이다.

도 4 의 단계 S310 내지 단계 S330 은, 도 3 의 단계 S310 내지 단계 S330 과 대응되므로, 중복되는 설명은 생략한다.

단계 S410 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 의 제 1 위치 정보를 획득할 수 있다. 예를 들어, 영상 처리 장치 (100) 는, GPS, 와이파이 위치추적 시스템 및 하이브리드 위치추적 시스템 (Hybrid Positioning System) 중 적어도 하나를 이용하여 제 1 위치 정보를 획득할 수 있다.

단계 S420 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 물체가 포함된다고 결정된 카테고리와 관련된 공간 정보를 획득할 수 있다.

영상 처리 장치 (100) 는, 대상 영상이 어떠한 카테고리에 포함되는 대상 물체를 나타내는지 판단함으로써, 영상 처리 장치 (100) 의 주변에 어떠한 카테고리에 포함되는 대상 물체가 있는지 판단할 수 있다.

카테고리물체와 관련된 공간 정보는, 카테고리에 포함되는 물체들이 일반적으로 위치하는 장소에 대한 정보를 포함할 수 있다. 카테고리와 관련된 공간 정보는 미리 저장되거나 사용자로부터 입력된 것일 수 있다. 예를 들어, 카테고리 “책상”과 관련된 장소는 “학교, 교실, 및 방”일 수 있다. 또한, 카테고리 “차 (car)” 와 관련된 장소는 “도로, 및 주차장” 일 수 있다.

단계 S430 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 물체와 관련된 공간 정보와 제 1 위치 정보를 이용하여 제 2 위치 정보를 생성할 수 있다.

영상 처리 장치 (100) 는, 대상 영상이 포함하는 정보를 이용하여 제 1 위치 정보를 가공함으로써, 제 1 위치 정보보다 자세한 제 2 위치 정보를 생성할 수 있다. 또한, 영상 처리 장치 (100) 는, 대상 영상이 나타내는 대상 물체와 관련된 공간 정보를 제 1 위치 정보를 이용하여 가공함으로써, 대상 물체의 정확한 위치에 대한 제 2 위치 정보를 생성할 수 있다.

도 8 은 본 발명의 일 실시예에 따라 제 2 동작 모드에서 제 2 위치 정보를 생성하는 과정을 설명하기 위한 도면이다.

도 8 에는 GPS 를 이용하여 제 1 위치 정보를 획득하는 경우를 예로 들어 도시하였지만, 본 발명은 이에 한정되지 않는다.

도 8 에 도시된 바와 같이, 영상 처리 장치 (100) 는, GPS 를 이용하여 영상 처리 장치 (100) 가 “서울시 관악구 봉천동 서울대학교” 에 위치한다는 제 1 위치 정보 (810) 를 획득할 수 있다.

영상 처리 장치 (100) 는, 대상 영상 (802) 이 어떠한 물체에 대한 영상을 포함하는지를 판단함으로써, 해당 물체와 관련된 공간 정보 (820) 를 획득할 수 있다. 도 8 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상 (802) 의 분석 결과에 기초하여, 영상 처리 장치 (100) 가 위치한 장소를 추정할 수 있다.

예를 들어, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 를 통해 획득되는 대상 영상 (802) 이 나타내는 대상 물체들이 “책상, 칠판, 및 의자” 에 포함되는 것으로 판단되는 경우, 영상 처리 장치 (100) 가 “강의실”에 위치한다는 공간 정보 (820) 를 획득할 수 있다. 또는, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 를 통해 획득되는 대상 영상 (802) 이 나타내는 대상 물체들이 “자동차, 주차장 표지판” 에 포함되는 것으로 판단되는 경우, 영상 처리 장치 (100) 가 “주차장”에 위치한다는 공간 정보 (820) 를 획득할 수 있다. 또는, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 를 통해 획득되는 대상 영상 (802) 이 나타내는 대상 물체들이 “나무, 벤치, 및 분수”에 포함되는 것으로 판단되는 경우, 영상 처리 장치 (100) 가 “공원”에 위치한다는 공간 정보 (820) 를 획득할 수 있다.

영상 처리 장치 (100) 는, 제 1 위치 정보 (810) 와 공간 정보 (820) 를 이용하여 제 2 위치 정보 (830) 를 생성할 수 있다.

예를 들어, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 가 “강의실”내에 위치한다는 공간 정보 (820) 를 이용하여 제 1 위치 정보 (810) 를 가공함으로써, 영상 처리 장치 (100) 가 “서울시 관악구 봉천동 서울대학교 내의 강의실”에 위치한다는 제 2 위치 정보 (831) 를 생성할 수 있다. 또는, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 가 “주차장”내에 위치한다는 공간 정보 (820) 를 이용하여 제 1 위치 정보 (810) 를 가공함으로써, 영상 처리 장치 (100) 가 “서울시 관악구 봉천동 서울대학교 내의 강의실”내 에 위치한다는 제 2 위치 정보 (832) 를 생성할 수 있다. 또는, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 가 “공원”내에 위치한다는 공간 정보 (820) 를 이용하여 제 1 위치 정보 (810) 를 가공함으로써, 영상 처리 장치 (100) 가 “서울시 관악구 봉천동 서울대학교 내의 공원”내 에 위치한다는 제 2 위치 정보 (833) 를 생성할 수 있다.

단계 S440 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 단계 S430 에서 생성된 제 2 위치 정보에 대응되는 동작을 수행할 수 있다. 예를 들어, 영상 처리 장치 (100) 는 제 2 위치 정보를 화면 상에 디스플레이할 수 있다. 또는, 영상 처리 장치 (100) 는 제 2 위치 정보에 기초하여 영상 처리 장치 (100) 의 기능 설정을 변경할 수 있다. 영상 처리 장치 (100) 는 제 2 위치 정보에 기초하여, 사용자에게 알람을 제공하거나, 제 2 위치 정보와 관련된 응용 프로그램을 실행할 수 있다.

따라서, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 의 주변 환경이 반영된 보다 자세한 위치 정보를 생성하고 사용자에게 제공할 수 있다. 또한, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 제 1 위치 정보를 이용함으로써 대상 영상이 나타내는 물체의 정확한 위치에 대한 제 2 위치 정보를 생성하고 사용자에게 제공할 수 있다.

한편, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는 대상 영상이 어떠한 카테고리에 포함되는 대상 물체를 나타내고 있는지 빠르고 정확하게 판단하기 위하여 개선된 물체 탐지 기술을 이용할 수 있다. 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 가 이용할 수 있는 물체 탐지 기술과 관련하여 이하 도 9 내지 13 을 참조하여 설명한다.

먼저, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상을 분석하기 위해서, 대상 영상에 포함되는 물체의 형상을 표현하기에 적합한 엣지 (edge) 정보를 대상 영상으로부터 추출할 수 있다. 영상 처리 장치 (100) 는, 엣지 정보로서, 대상 영상의 픽셀들의 밝기 변화도를 나타내는 특징맵을 추출할 수 있다.

특징맵은, 영상의 HOG 특징을 나타내는 HOG 맵을 포함할 수 있으나, 본 발명은 이에 한정되지 않는다. 예를 들어, 영상 처리 장치 (100) 는, 대상 영상으로부터 하알 유사 (Haar-like) 특징, 또는 웨이블릿 (Wavelet) 특징을 나타내는 특징을 추출하고, 추출된 특징에 기초하여 대상 영상을 분석할 수 있다.

도 9 는 본 발명의 일 실시예에 따라 대상 영상으로부터 특징맵을 추출하는 과정을 설명하기 위한 도면이다.

도 9 는 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 가 대상 영상 (910) 으로부터 HOG 특징맵 (920) 을 추출하는 경우를 예로 들어 도시한다.

도 9 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상을 블록 단위로 구획화한다. 영상 처리 장치 (100) 는, 각 블록 (921) 내의 픽셀들의 밝기 변화도 (intensity gradient) 의 크기 또는 방향에 기초하여 HOG 특징 벡터 (923) 를 산출한다. 영상 처리 장치 (100) 는, 각 블록에 대해 산출된 HOG 특징 벡터들을 이용하여, 대상 영상에 대한 HOG 특징맵 (920) 을 추출할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상으로부터 추출된 대상 물체의 형상에 기초하여, 대상 물체가 포함되는 카테고리를 결정할 수 있다. 영상 처리 장치 (100) 는, 소정의 카테고리에 포함되는 물체의 형상에 대해서 미리 학습된 특징맵 모델을, 대상 영상에 대해서 추출된 특징맵과 비교함으로써, 대상 물체가 포함되는 카테고리를 결정할 수 있다. 특징맵 모델이란, 소정의 카테고리에 포함되는 물체들을 나타내는 영상들이 공통적으로 포함하는 특징을 나타내는 특징맵을 의미할 수 있다.

보다 구체적으로 설명하면, 영상 처리 장치 (100) 는, 소정의 카테고리에 포함되는 물체의 형상에 대해서 미리 계산된 특징맵을 학습한 분류기 모델을 사용한다. 영상 처리 장치 (100) 는, 분류기 모델을 사용하여, 대상 영상에 대해서 추출된 특징맵 입력을 분류함으로써, 대상 물체가 포함되는 카테고리를 결정할 수 있다. 특징맵 모델이란, 소정의 카테고리에 포함되는 물체들을 나타내는 영상들이 공통적으로 포함하는 특징을 나타내는 학습을 통해 얻어낸 분류기를 의미할 수 있다.

예를 들어, 영상 처리 장치 (100) 는, 카테고리에 대한 특징맵 모델을 생성하기 위해서, 카테고리에 포함되는 물체와 관련된 복수의 영상들의 HOG 특징들로부터 공통적인 HOG 특징을 추출할 수 있다. 영상 처리 장치 (100) 는, 복수의 영상들의 공통적인 HOG 특징을 이용하여 특징맵 모델을 생성할 수 있다.

이 때, 특징맵 모델은 크기가 정해져 있기 때문에, 대상 영상으로부터 추출된 특징맵과 특징맵 모델을 비교하기 위해서는, 대상 영상의 크기를 다양하게 변형한 복수의 영상들을 포함하는 이미지 피라미드를 생성하는 방법이 이용될 수 있다.

도 10 은 본 발명의 일 실시예에 따라 대상 영상으로부터 영상 피라미드를 생성하고, 영상 피라미드와 특징맵 모델을 비교하는 과정을 설명하기 위한 도면이다.

도 10 에서는 대상 영상 (1010) 이 “자전거” 에 포함되는 대상 물체에 대한 영상을 포함하는지 여부를 판단하는 경우를 예로 들어 설명한다. 영상 처리 장치 (100) 는, “자전거” 에 대해서 미리 학습된 특징맵 모델 (1030) 을 이용하여 대상 영상 (1010) 을 분석한다.

대상 영상 (1010) 내에 포함되는 “자전거”의 형상은 다양한 크기로 존재할 수 있다. 그러나 영상 처리 장치 (100) 가 “자전거” 에 대해서 저장하고 있는 특징맵 모델 (1030) 의 크기는 고정될 수 있다.

따라서, 크기가 고정된 특징맵 모델 (1030) 을 이용하여 대상 영상 (1010) 을 분석하기 위해서, 영상 처리 장치 (100) 는, 대상 영상 (1010) 의 크기를 다양하게 변경할 수 있다. 영상 처리 장치 (100) 는, 대상 영상 (1010) 의 크기를 변경함으로써 생성된 복수의 영상들을 포함하는 이미지 피라미드 (1020) 를 생성할 수 있다. 영상 처리 장치 (100) 는, 이미지 피라미드 (1020) 내에 포함되는 복수의 영상들로부터 복수의 특징맵들 (1022, 1024, 1026) 을 추출할 수 있다.

영상 처리 장치 (100) 는, 대상 영상 (1010) 으로부터 추출된 복수의 특징맵들 (1022, 1024, 1026) 을, “자전거”에 대한 특징맵 모델 (1030) 과 비교함으로써, 대상 영상 (1010) 이 “자전거”라는 카테고리에 포함되는 대상 물체에 대한 영상을 포함하는지 여부를 판단할 수 있다. 영상 처리 장치 (100) 는, 화살표 (1031) 가 가리키는 방향으로 특징맵 모델 (1030) 과 대상 영상 (1010) 으로부터 추출된 복수의 특징맵들 (1022, 1024, 1026) 을 비교할 수 있다.

도 10 은, 대상 영상 (1010) 이 축소된 영상 내에 포함되는 자전거의 영상 (1033) 의 크기가 특징맵 모델 (1030) 의 크기와 대응되는 경우를 도시한다. 도 10 에 도시된 바와 같이, 영상 처리 장치 (100) 는 대상 영상 (1010) 이 축소된 영상의 특징맵 (1022) 과 특징맵 모델 (1030) 을 비교하여, 대상 영상 (1010) 이 “자전거” 에 대한 영상을 포함하는 것으로 판단할 수 있다.

도 11 은 본 발명의 일 실시예에 따라 슬라이딩 윈도우 (sliding window) 방식으로 대상 영상을 분석하는 과정을 설명하기 위한 도면이다.

도 11 에 도시된 바와 같이 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 일정한 폭(W)과 높이(H)를 갖는 윈도우(WD)를, 예를 들면 행방향 즉 x-방향 (1101) 을 따라 이동하면서 스캔을 수행하게 된다. 영상 처리 장치 (100) 가 스캔을 수행한다는 것은, 대상 영상 (1100) 내에 포함되는 일부 영상과 카테고리에 대한 특징맵 모델을 비교하는 동작을 의미할 수 있다. 이 때, 대상 영상 (1100) 내에 포함되는 일부 영상은 윈도우 (WD) 에 대응되는 영상일 수 있다.

영상 처리 장치 (100) 는, 하나의 행 즉 스캔행에 대한 스캔을 완료하게 되면, 다음 번 스캔행에 대한 스캔을 수행할 수 있다. 이 때, 매 스캔시 윈도우의 이동거리(D)는, 즉 행방향을 따라 이웃하는 윈도우 스캔 사이의 이격간격은, 윈도우(WD)의 폭(W)보다 작은 범위를 가질 수 있다. 예를 들면, 현재 스캔 영역에 대한 스캔을 실시한 후, 윈도우(WD)의 폭(W)의 크기에 해당되는 픽셀의 수보다 적은 수의 픽셀만큼 이동하여 다음 스캔 영역에 대한 스캔을 수행할 수 있다. 따라서, 행방향으로 이웃하는 스캔 영역은, 서로 중첩될 수 있다.

그리고, 열방향 즉 y-방향으로 이웃하는 스캔 영역은 서로 중첩될 수 있다. 예를 들면, 현재 윈도우 스캔이 수행되는 스캔행에 대한 스캔이 완료된 후, 윈도우(WD)의 높이(H)의 크기에 해당되는 픽셀의 수보다 적은 수의 픽셀만큼 쉬프트(shift)하여, 다음 스캔행에 대한 스캔이 수행될 수 있다. 이에 따라, 열방향으로 이웃하는 스캔 영역은, 서로 중첩될 수 있다.

본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상이 나타내는 대상 물체가 어떠한 카테고리에 포함되는지를 판단하기 위해서, SVM (Support Vector Machine) 알고리즘을 이용할 수 있다.

영상 처리 장치 (100) 는, 도 11 에 도시된 슬라이딩 윈도우 방식으로 대상 영상을 분석할 수 있다. 영상 처리 장치 (100) 는, 미리 결정된 복수의 카테고리들 중에서 하나의 카테고리를 선택할 수 있다. 영상 처리 장치 (100) 는, 대상 영상이 나타내는 대상 물체가, 선택된 카테고리에 포함되는지를 판단할 수 있다. 영상 처리 장치 (100) 는, 대상 물체가 선택된 카테고리에 포함되는지를 판단하는 동작을, 복수의 카테고리들에 대해서 반복해서 수행할 수 있다.

이하, 영상 처리 장치 (100) 가 제 1 카테고리를 선택하고, 대상 물체가 선택된 제 1 카테고리에 포함되는지를 판단하는 경우를 예로 들어 설명한다.

영상 처리 장치 (100) 는, 제 1 카테고리와 관련된 복수의 영상들을 포함하는 포지티브 샘플들 (positive samples) 로부터 HOG 특성을 추출하여 포지티브 데이터 (positive data) 를 생성할 수 있다. 제 1 카테고리와 관련된 영상이란, 제 1 카테고리에 포함되는 것으로 분류되는 물체들 중 하나를 나타내는 영상을 의미할 수 있다. 영상 처리 장치 (100) 는, 제 1 카테고리와 관련되지 않은 복수의 영상들만을 포함하는 네거티브 샘플들 (negative samples) 로부터 HOG 특징을 추출하여 네거티브 데이터 (negative data) 를 생성할 수 있다. 제 1 카테고리와 관련되지 않은 영상이란, 제 1 카테고리에 포함되는 것으로 분류되는 물체들을 나타내지 않는 영상을 의미할 수 있다.

영상 처리 장치 (100) 는, 포지티브 데이터와 네거티브 데이터를 고차원의 특징 공간 (feature space) 상에 놓고, 포지티브 데이터와 네거티브 데이터 사이의 마진 (margin)이 최대가 되는 초평면 (hyperplane) 을 산출할 수 있다. 영상 처리 장치 (100) 는, 산출된 초평면를 기준으로 대상 영상이 제 1 카테고리에 대한 영상을 포함하는지 여부를 판단하는 필터를 설계할 수 있다. 영상 처리 장치 (100) 는, 대상 영상에 대한 필터의 반응값을 계산할 수 있다. 필터의 반응값은, 산출된 초평면의 노멀 벡터 (normal vector) w 에 대한 함수를 이용하여 계산될 수 있다. 영상 처리 장치 (100) 는, 필터의 반응값이 높게 나오는 대상 영상의 영역이, 필터에 대응되는 제 1 카테고리에 대한 영상을 포함하는 것으로 판단할 수 있다.

즉, SVM 알고리즘에 있어서, 특징맵 모델은, 포지티브 데이터와 네거티브 데이터로부터 산출된 초평면의 노멀 벡터 w와 바이어스 값 b로 표현 될 수 있다.

HOG-SVM 기술은, 대상 영상의 HOG 특징을 추출하고, SVM 알고리즘을 이용하여 대상 영상 내에 소정 카테고리의 영상이 포함되는지를 탐지하는 기술을 의미한다. HOG-SVM 기술에 있어서, 소정 카테고리에 대한 하나의 특징맵 모델만을 이용하여 대상 영상을 분석할 경우, 대상 영상 내에서 대상 물체의 부분들의 형상이 변형되어 나타나는 경우에 물체를 탐지하는 성능이 떨어지는 문제점이 있다.

따라서, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 소정 카테고리에 포함되는 물체의 전체 형상에 대한 특징맵 모델 뿐만 아니라 소정 카테고리에 포함되는 물체의 부분의 형상에 해당하는 특징맵 모델을 이용하는 파트 혼합 모델 (mixture of part models) 을 이용할 수 있다.

영상 처리 장치 (100) 는, 제 1 카테고리에 포함되는 물체의 전체 형상에 대해서 미리 학습된 특징맵 모델인 루트 모델 (이하, 제 1 카테고리의 루트 모델) 뿐만 아니라, 제 1 카테고리에 포함되는 물체의 부분들의 형상들에 대해서 미리 학습된 특징맵 모델들인 복수의 부분 모델들 (이하, 제 1 카테고리의 부분 모델들) 을 이용할 수 있다.

영상 처리 장치 (100) 는, 제 1 카테고리의 루트 모델 및 부분 모델들 중 적어도 하나와, 대상 영상으로부터 추출된 특징맵을 비교할 수 있다.

즉, 영상 처리 장치 (100) 는, 대상 영상으로부터 추출된 특징맵에 대해서, 제 1 카테고리의 루트 모델 및 부분 모델들 중 적어도 하나을 기준으로 설계된 필터의 반응값을 계산할 수 있다.

영상 처리 장치 (100) 는 추출된 특징맵에 대한 반응값이, 제 1 카테고리의 루트 모델 및 부분 모델들 중 적어도 하나에 대해 할당된 임계값보다 작을 경우, 대상 영상이 제 1 카테고리에 포함되는 대상 물체에 대한 영상을 포함하지 않는 것으로 판단할 수 있다. 임계값은 제 1 카테고리에 대한 포지티브 샘플들과 네거티브 샘플들을 학습함으로써, 물체 탐지 정확도를 가장 높이는 것으로 결정된 값일 수 있다. 예를 들어, 영상 처리 장치 (100) 는, 깁스 샘플링 (Gibbs sampling) 방식을 이용하여 최적화된 임계값을 결정할 수 있다.

이 때, 영상 처리 장치 (100) 는, 하나의 카테고리에 대해서 다수의 부분 모델들을 가지므로, 대상 영상을 모든 카테고리의 모든 부분 모델들과 비교하는 것은 복잡한 계산이 요구되고 많은 시간이 소요된다.

따라서, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 카테고리의 루트 모델에 기초하여 설계된 루트 필터 및 물체의 부분 모델들에 기초하여 설계된 복수의 부분 필터들이 직렬로 나열된 직렬 분류기 (cascade classifier) 를 이용할 수 있다.

도 12 는 본 발명의 일 실시예에 따른 직렬 분류기를 설명하기 위한 도면이다.

본 발명의 일 실시예에 따른 직렬 분류기 (1200) 는, 복수의 카테고리들에 대한 복수의 루트 필터들, 및 각 카테고리에 대한 복수의 부분 필터들을 포함할 수 있다. 도 12에 도시된 직렬 분류기 (1200) 는, 영상 처리 장치 (100) 의 영상 분석부 (120) 에 포함될 수 있다.

도 12 에 도시된 직렬 분류기 (1200) 는, 제 1 카테고리의 루트 모델을 기준으로 설계된 제 1 카테고리 루트 필터 (1210), 제 N 카테고리 (N 은 자연수) 의 루트 모델을 기준으로 설계된 제 N 카테고리 루트 필터 (1220) 를 포함한다. 도 12 에 도시된 직렬 분류기 (1200) 는 제 N 카테고리에 포함되는 물체의 제 1 부분에 대한 부분 모델을 기준으로 설계된 제 N 카테고리 제 1 부분 필터 (1222), 제 N 카테고리에 포함되는 물체의 제 N 부분에 대한 부분 모델을 기준으로 설계된 제 N 카테고리 제 N 부분 필터 (1224) 포함한다.

도 12 에는 제 1 카테고리의 루트 필터 (1210) 및 제 N 카테고리의 루트 필터 (1220) 만 도시되었지만, 직렬 분류기 (1200) 는 제 2 카테고리 내지 제 N-1 카테고리의 루트 필터들도 포함할 수 있다. 또한, 도 12 에는 제 N 카테고리의 부분 필터들만 도시되었지만, 직렬 분류기 (1200) 는 제 1 카테고리 내지 제 N-1 카테고리의 부분 필터들도 포함할 수 있다.

도 12 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상 내에 포함되는 소정 영역으로부터 추출된 특징맵 (M) 에 대한 제 1 카테고리 루트 필터 (1210) 의 반응값을 계산할 수 있다. 영상 처리 장치 (100) 는, 제 1 카테고리 루트 필터 (1210) 의 반응값이 임계값보다 작을 경우, 상기 영역은 제 1 카테고리에 포함되는 물체의 영상을 포함하지 않는 것으로 판단할 수 있다. 따라서, 영상 처리 장치 (100) 는, 제 1 카테고리에 포함되는 물체의 영상을 포함하지 않는 것으로 판단된 영역에 대해서는, 제 1 카테고리의 부분 모델들과 해당 영역을 비교하는 동작을 생략함으로써 연산 속도를 높일 수 있다. 이하, 카테고리에 대한 영상이란, 해당 카테고리에 포함되는 물체의 영상을 의미한다.

영상 처리 장치 (100) 는, 대상 영상이 각 카테고리에 포함되는 물체의 영상을 포함하는지 여부를 판단하는 동작을, 복수의 카테고리들 각각에 대해서 반복해서 수행할 수 있다.

도 12 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상 내에 포함되는 소정 영역으로부터 추출된 특징맵 (M) 에 대한 제 N 카테고리 루트 필터 (1220) 의 반응값을 계산할 수 있다. 영상 처리 장치 (100) 는, 제 N 카테고리 루트 필터 (1220) 의 반응값이 임계값보다 작을 경우, 상기 영역은 제 N 카테고리에 대한 영상을 포함하지 않는 것으로 판단할 수 있다.

반면에, 제 N 카테고리 루트 필터 (1220) 의 반응값이 임계값보다 크거나 같을 경우, 영상 처리 장치 (100) 는, 대상 영상 내에 포함되는 소정 영역으로부터 추출된 특징맵 (HM) 에 대한 제 N 카테고리의 제 1 부분 필터 (1222) 의 반응값을 계산할 수 있다.

연산량을 줄이기 위해서, 영상 처리 장치 (100) 는, 포지티브 샘플들 및 네거티브 샘플들을 학습함으로써 특징맵 모델들을 생성함에 있어서, 루트 모델을 부분 모델들보다 낮은 해상도에서 생성할 수 있다. 또한, 영상 처리 장치 (100) 는, 루트 필터와의 반응값을 계산할 때에는 대상 영상의 소정 영역으로부터 낮은 해상도로 추출된 특징맵 (M) 을 이용할 수 있다. 영상 처리 장치 (100) 는, 부분 필터와의 반응값을 계산할 때에는 대상 영상의 소정 영역으로부터 높은 해상도로 추출된 특징맵 (HM) 을 이용할 수 있다. 영상 처리 장치 (100) 는 필터에 따라 해상도가 다른 특징맵에 대한 반응값을 계산함으로써 연산량을 줄일 수 있다.

제 N 카테고리의 제 1 부분 필터 (1222) 의 반응값이 임계값보다 작을 경우, 상기 영역은 제 1 카테고리에 대한 영상을 포함하지 않는 것으로 판단할 수 있다. 반면에, 제 N 카테고리의 제 1 부분 필터 (1222) 의 반응값이 임계값보다 크거나 같을 경우, 영상 처리 장치 (100) 는, 대상 영상 내에 포함되는 소정 영역으로부터 추출된 특징맵 (HM) 에 대한 제 N 카테고리의 제 2 부분 필터 (미도시) 의 반응값을 계산할 수 있다.

도 12 에 도시된 바와 같이, 제 N 카테고리에 대한 모든 부분 필터들의 특징맵 (HM) 에 대한 반응값이 임계값보다 크거나 같을 경우, 영상 처리 장치 (100) 는, 상기 영역은 제 N 카테고리에 대한 영상을 포함하는 것으로 판단할 수 있다. 또는, 영상 처리 장치 (100) 는, 제 N 카테고리에 대한 모든 부분 필터들의 특징맵 (HM) 에 대한 반응값이 임계값보다 크거나 같을 경우, 제 N 카테고리의 루트 필터 및 부분 필터들을 모두 고려하여 대상 영상 내에 포함되는 상기 영역에 대한 매칭 스코어를 계산할 수 있다. 영상 처리 장치 (100) 는, 매칭 스코어를 미리 결정된 값과 비교하여, 최종적으로 상기 영역이 제 N 카테고리에 대한 영상을 포함하는지 여부를 판단할 수 있다.

따라서, 본 발명의 일 실시예에 따른 직렬 분류기 (1200) 에 의하면, 카테고리의 루트 필터에 의해 해당 카테고리에 대한 영상을 포함하지 않는 것으로 판단된 대상 영상의 영역을 탐지 영역으로부터 제외시킴으로써, 해당 카테고리에 대한 탐지 영역을 줄일 수 있다. 따라서 본 발명의 일 실시예에 따른 직렬 분류기 (1200) 에 의하면, 연산 속도가 빨라지는 효과를 얻을 수 있다.

한편, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 카테고리의 부분 모델들의 우선 순위에 기초하여, 직렬 분류기 (1200) 상에 대응되는 부분 필터들을 나열할 수 있다. 부분 모델들의 우선 순위는, 부분 모델들을 정규화하고, 전체 부분 모델들에 대해 각 부분 모델이 어떠한 비중을 가지고 있는지를 나타내는 가중치를 계산함으로써 결정될 수 있다. 즉, 영상 처리 장치 (100) 는, 부분 모델의 놈 (norm) 을 부분 모델의 가중치로서 계산하고, 전체 부분 모델들에 대해 각 부분 모델을 정규화함으로써 부분 모델들의 우선 순위를 결정할 수 있다. 영상 처리 장치 (100) 는, 가중치가 높은 부분 모델과 대상 영상을 먼저 비교함으로써 연산 효율을 높일 수 있다.

또한, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 카테고리의 루트 모델에 대한 부분 모델들의 위치 정보를 더 고려하여, 대상 영상이 해당 카테고리에 대한 영상을 포함하는지 여부를 판단할 수 있다.

본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상이 카테고리에 대한 영상을 포함하는지 여부를 판단하기 위해서, 해당 카테고리에 대한 복수의 영상들을 학습하는 동작을 수행할 수 있다. 이하, 영상 처리 장치 (100) 가 제 1 카테고리에 대한 복수의 영상들을 학습하는 경우를 예로 들어, 설명한다.

본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상을 분석하기에 앞서, 제 1 카테고리의 루트 모델에 대한 부분 모델들의 상대적인 위치를 학습할 수 있다. 따라서, 영상 처리 장치 (100) 는, 루트 모델에 대한 복수의 부분 모델들의 위치 정보를 더 고려하여, 대상 영상이 제 1 카테고리에 대한 영상을 포함하는지 여부를 판단할 수 있다. 영상 처리 장치 (100) 는, 대상 영상이 제 1 카테고리에 대한 영상을 포함하는지 여부를 판단하기 위해서, 대상 영상으로부터 추출된 대상 물체의 형상과 제 1 카테고리의 루트 모델 및 부분 모델들을 비교할 수 있다.

영상 처리 장치 (100) 는, 대상 영상이 제 1 카테고리에 대한 영상을 포함하는지 여부를 판단하기 위해서, 대상 물체의 형상에 대한, 제 1 카테고리의 루트 필터 및 모든 부분 필터들의 반응값들의 합을 계산할 수 있다. 또한, 영상 처리 장치 (100) 는, 제 1 카테고리의 루트 모델에 대한 부분 모델들의 위치와 비교하여, 대상 물체 전체에 대한 대상 물체의 부분들의 위치를 비교할 수 있다. 영상 처리 장치 (100) 는, 반응값들의 합으로부터, 부분 모델들의 위치로부터 대상 물체의 부분들의 위치가 멀리 떨어져 있는 정도를 뺌으로써 매칭 스코어를 계산할 수 있다.

영상 처리 장치 (100) 는, 매칭 스코어에 기초하여, 대상 물체가 제 1 카테고리에 포함되는지 여부를 판단할 수 있다. 대상 물체의 형상이 높은 매칭 스코어를 얻기 위해서는, 대상 물체의 형상이 제 1 카테고리의 루트 모델 및 부분 모델들과 유사한 특징을 가져야한다. 또한, 대상 물체의 형상이 높은 매칭 스코어를 얻기 위해서는, 대상 물체의 부분들의 형상이, 제 1 카테고리의 부분 모델들에 대해 학습된 위치로부터 멀리 떨어지지 않아야한다.

따라서, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 물체의 부분들의 위치 변형에 대해 패널티를 가지고 매칭 스코어를 계산하기 때문에, 대상 영상이 촬영된 각도나 대상 물체의 변형에 대해서 강인하게, 대상 물체가 포함되는 카테고리를 판단할 수 있다.

도 13 은 본 발명의 일 실시예에 따라 대상 영상이 카테고리에 대한 영상을 포함하는지 여부를 판단하기 위해서, 해당 카테고리에 대한 복수의 영상들을 학습하는 방법을 설명하기 위한 흐름도이다.

단계 S1310 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 제 1 카테고리와 관련된 복수의 영상들을 포함하는 포지티브 샘플들 및 제 1 카테고리와 관련되지 않은 복수의 영상들을 포함하는 네거티브 샘플들을 획득할 수 있다.

단계 S1320 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 는, 포지티브 샘플들 및 네거티브 샘플들로부터 복수의 특징맵들을 생성할 수 있다. 예를 들어, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 는, 포지티브 샘플들 및 네거티브 샘플들로부터 HOG 특징을 추출함으로써 복수의 HOG 특징맵들을 생성할 수 있다.

단계 S1330 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 제 1 카테고리에 대한 루트 모델을 학습하기 위해서, 부트 스트랩핑 학습 (Goot Strapping Learning) 을 수행할 수 있다.

먼저, 영상 처리 장치 (100) 는, 포지티브 샘플들과 네거티브 샘플들로부터 생성된 복수의 특징맵들을 이용하여 제 1 카테고리의 루트 모델을 학습한다.

영상 처리 장치 (100) 는, 학습된 루트 모델을 이용하여, 제 1 카테고리와 관련되지 않은 영상들을 슬라이딩 윈도우 검색 (sliding window seach) 한다. 영상 처리 장치 (100) 는, 슬라이딩 윈도우 검색 결과, 제 1 카테고리와 관련된 영상이라고 잘못 판단된 제 1 카테고리와 관련되지 않은 영상이 있는지 확인한다. 영상 처리 장치 (100) 는, 잘못 판단된 영상을 네거티브 샘플들에 포함시켜 루트 모델을 재학습할 수 있다. 즉, 영상 처리 장치 (100) 가, 제 1 카테고리에 대한 영상이라고 판단한, 제 1 카테고리와 관련되지 않은 영상을 네거티브 샘플들에 추가함으로써 루트 모델을 재학습할 수 있다.

영상 처리 장치 (100) 는 잘못 탐지된 영상을 네거티브 샘플들에 추가함으로써 루트 모델을 재학습하는 과정을 반복함으로써, 물체 탐지 정확도를 높일 수 있다.

단계 S1340 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 직렬 분류기 학습을 수행할 수 있다.

영상 처리 장치 (100) 는, 제 1 카테고리에 대한 루트 모델과 부분 모델들을 나누어 학습할 수 있다. 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상이 카테고리에 대한 영상을 포함하는지 여부를 판단하는데 있어서, 부분 모델들의 우선 순위를 고려할 수 있다. 영상 처리 장치 (100) 는, 부분 모델들의 우선 순위를 학습함으로써, 복수의 부분 필터들이 직렬로 나열된 직렬 분류기를 학습할 수 있다.

영상 처리 장치 (100) 는, 복수의 부분 필터들이 나열되는 순서, 즉, 부분 모델들의 우선 순위, 를 결정한 후, 각 필터에 대한 임계값을 학습할 수 있다. 각 필터에 대한 임계값은 실험적으로 최적화된 값일 수 있다. 예를 들어, 영상 처리 장치 (100) 는, 깁스 샘플링 방식을 이용하여, 직렬 구조에서 하나의 부분 필터를 제외한 모든 부분 필터들의 임계값을 고정한 후, 하나의 부분 필터의 임계값을 바꿔가면서 최고의 탐지율을 보이는 임계값을 구할 수 있다. 영상 처리 장치 (100) 는, 각 부분 필터에 대해서 이러한 과정을 반복하여 최적화된 임계값을 계산할 수 있다.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

영상 처리 장치가 영상을 처리하는 방법에 있어서,
대상 영상을 획득하는 단계;
상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하는 단계;
상기 추출된 형상에 기초하여 상기 대상 물체가 포함되는 카테고리를 결정하는 단계; 및
상기 카테고리와 관련된 적어도 하나의 키워드를 포함하는 부가 정보와 매핑하여 상기 대상 영상을 저장하는 단계를 포함하고,
상기 영상 처리 장치의 제 1 위치 정보를 획득하는 단계;
상기 카테고리와 관련된 공간 정보를 획득하는 단계; 및
상기 공간 정보와 상기 제 1 위치 정보를 이용하여 상기 영상 처리 장치의 제 2 위치 정보를 생성하는 단계를 더 포함하는 것을 특징으로 하는 것을 특징으로 하는, 영상 처리 방법.
제 1 항에 있어서,
사용자로부터 키워드를 수신하는 단계;
상기 수신된 키워드와 관련된 상기 부가 정보와 매핑된 상기 대상 영상을 검색하는 단계; 및
상기 대상 영상을 디스플레이하는 단계를 더 포함하는, 영상 처리 방법.
제 1 항에 있어서,
상기 대상 영상을 획득하는 단계는, 상기 대상 영상이 획득되는 시각에 대한 정보를 획득하는 단계를 포함하고,
상기 부가 정보는, 상기 시각에 대한 정보와 관련된 적어도 하나의 키워드를 더 포함하는 것을 특징으로 하는, 영상 처리 방법.
삭제
제 1 항에 있어서,
상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하는 단계는,
상기 대상 영상의 픽셀들의 밝기 변화도를 나타내는 특징맵을 추출하는 단계를 포함하고,
상기 대상 물체가 포함되는 카테고리를 결정하는 단계는,
상기 추출된 특징맵과, 제 1 카테고리에 포함되는 물체의 형상에 대해서 미리 학습된 적어도 하나의 특징맵 모델을 비교하는 단계를 포함하는 것을 특징으로 하는, 영상 처리 방법.
제 5 항에 있어서,
상기 추출된 특징맵과 상기 적어도 하나의 특징맵 모델을 비교하는 단계는,
상기 적어도 하나의 특징맵 모델에 기초하여 설계된 필터의 상기 추출된 특징맵에 대한 반응값을 계산하는 단계; 및
상기 반응값이 상기 특징맵 모델에게 할당된 임계값보다 작을 경우, 상기 대상 물체는 상기 제 1 카테고리에 포함되지 않는 것으로 판단하는 단계를 포함하는 것을 특징으로 하는, 영상 처리 방법.
제 5 항에 있어서,
상기 추출된 특징맵과 상기 적어도 하나의 특징맵 모델을 비교하는 단계는,
상기 제 1 카테고리에 포함되는 물체의 전체 형상에 대해서 미리 학습된 특징맵 모델인 루트 모델과 상기 추출된 특징맵을 비교하여 상기 대상 물체가 상기 제 1 카테고리에 포함되는지 여부를 판단하는 제 1 판단을 수행하는 단계; 및
상기 제 1 판단 결과에 따라, 상기 대상 물체가 상기 제 1 카테고리에 포함된다고 판단되는 경우, 상기 제 1 카테고리에 포함되는 물체의 부분들의 형상들에 대해서 미리 학습된 특징맵 모델들인 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계를 포함하는 것을 특징으로 하는, 영상 처리 방법.
제 7 항에 있어서,
상기 특징맵을 추출하는 단계는,
상기 루트 모델과의 비교를 위해서, 제 1 해상도에서 상기 대상 영상으로부터 제 1 특징맵을 추출하는 단계; 및
상기 복수의 부분 모델들 중 적어도 하나와의 비교를 위해서, 제 2 해상도에서 상기 대상 영상으로부터 제 2 특징맵을 추출하는 단계를 포함하고,
상기 제 1 해상도는 상기 제 2 해상도보다 낮은 것을 특징으로 하는, 영상 처리 방법.
제 7 항에 있어서,
상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계는,
상기 복수의 부분 모델들의 우선 순위에 기초하여, 상기 복수의 부분 모델들 중 적어도 하나를 선택하는 단계; 및
상기 선택된 부분 모델과 상기 추출된 특징맵을 비교하는 단계를 비교하는 단계를 포함하는 것을 특징으로 하는, 영상 처리 방법.
제 7 항에 있어서,
상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계는,
상기 루트 모델에 대한 상기 복수의 부분 모델들의 위치 정보를 더 고려하여, 상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계를 포함하는 것을 특징으로 하는, 영상 처리 방법.
영상 처리 장치에 있어서,
대상 영상을 획득하는 영상 획득부;
상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하고, 상기 추출된 형상에 기초하여 상기 대상 물체가 포함되는 카테고리를 결정하는 영상 분석부;
상기 카테고리와 관련된 적어도 하나의 키워드를 포함하는 부가 정보와 매핑하여 상기 대상 영상을 저장하도록 저장부를 제어하는 제어부; 및
상기 영상 처리 장치의 제 1 위치 정보를 획득하는 위치 검출부를 포함하고,
상기 제어부는,
상기 카테고리와 관련된 공간 정보를 획득하고, 상기 공간 정보와 상기 제 1 위치 정보를 이용하여 상기 영상 처리 장치의 제 2 위치 정보를 생성하는 것을 특징으로 하는, 영상 처리 장치.
제 11 항에 있어서,
사용자로부터 키워드를 수신하는 사용자 입력부; 및
상기 수신된 키워드와 관련된 상기 부가 정보와 매핑된 상기 대상 영상을 디스플레이하는 디스플레이부를 더 포함하고,
상기 제어부는, 상기 수신된 키워드와 관련된 상기 부가 정보와 매핑된 상기 대상 영상을 상기 저장부로부터 검색하는 것을 특징으로 하는, 영상 처리 장치.
제 11 항에 있어서,
상기 영상 획득부는, 상기 대상 영상이 획득되는 시각에 대한 정보를 더 획득하고,
상기 부가 정보는, 상기 시각에 대한 정보와 관련된 적어도 하나의 키워드를 더 포함하는 것을 특징으로 하는, 영상 처리 장치.
삭제
제 11 항에 있어서,
상기 영상 분석부는,
상기 대상 영상의 픽셀들의 밝기 변화도를 나타내는 특징맵을 추출하는 특징맵 추출부를 포함하고,
상기 추출된 특징맵과, 제 1 카테고리에 포함되는 물체의 형상에 대해서 미리 학습된 적어도 하나의 특징맵 모델을 비교하는 것을 특징으로 하는, 영상 처리 장치.
제 15 항에 있어서,
상기 영상 분석부는,
상기 적어도 하나의 특징맵 모델에 기초하여 설계된 필터의 상기 추출된 특징맵에 대한 반응값을 계산하고,
상기 반응값이 상기 특징맵 모델에게 할당된 임계값보다 작을 경우, 상기 대상 물체는 상기 제 1 카테고리에 포함되지 않는 것으로 판단하는 것을 특징으로 하는, 영상 처리 장치.
제 15 항에 있어서,
상기 영상 분석부는,
상기 제 1 카테고리에 포함되는 물체의 전체 형상에 대해서 미리 학습된 특징맵 모델인 루트 모델과 상기 추출된 특징맵을 비교하여 상기 대상 물체가 상기 제 1 카테고리에 포함되는지 여부를 판단하는 제 1 판단을 수행하고,
상기 제 1 판단 결과에 따라, 상기 대상 물체가 상기 제 1 카테고리에 포함된다고 판단되는 경우, 상기 제 1 카테고리에 포함되는 물체의 부분들의 형상들에 대해서 미리 학습된 특징맵 모델들인 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 것을 특징으로 하는, 영상 처리 장치.
제 17 항에 있어서,
상기 영상 분석부는,
상기 루트 모델과의 비교를 위해서, 제 1 해상도에서 상기 대상 영상으로부터 제 1 특징맵을 추출하고, 상기 복수의 부분 모델들 중 적어도 하나와의 비교를 위해서, 제 2 해상도에서 상기 대상 영상으로부터 제 2 특징맵을 추출하는 단계를 포함상기 물체의 부분들에 대한 상기 복수의 부분 모델들을 생성하는 학습부를 더 포함하고,
상기 제 1 해상도는 상기 제 2 해상도보다 낮은 것을 특징으로 하는, 영상 처리 장치.
제 17 항에 있어서,
상기 영상 분석부는,
상기 복수의 부분 모델들의 우선 순위에 기초하여, 상기 복수의 부분 모델들 중 적어도 하나를 선택하고, 상기 선택된 부분 모델과 상기 추출된 특징맵을 비교하는 단계를 비교하는 것을 특징으로 하는, 영상 처리 장치.
제 17 항에 있어서,
상기 영상 분석부는,
상기 루트 모델에 대한 상기 복수의 부분 모델들의 위치 정보를 더 고려하여, 상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 것을 특징으로 하는, 영상 처리 장치.
제 1 항 내지 제 3 항 및 제 5 항 내지 제 10 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.