KR102120864B1 - 영상 처리 방법 및 장치 - Google Patents

영상 처리 방법 및 장치 Download PDF

Info

Publication number
KR102120864B1
KR102120864B1 KR1020130134372A KR20130134372A KR102120864B1 KR 102120864 B1 KR102120864 B1 KR 102120864B1 KR 1020130134372 A KR1020130134372 A KR 1020130134372A KR 20130134372 A KR20130134372 A KR 20130134372A KR 102120864 B1 KR102120864 B1 KR 102120864B1
Authority
KR
South Korea
Prior art keywords
feature map
image
category
image processing
processing apparatus
Prior art date
Application number
KR1020130134372A
Other languages
English (en)
Other versions
KR20150052924A (ko
Inventor
강우성
윤상두
정하욱
최진영
허병호
황성택
Original Assignee
삼성전자주식회사
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 서울대학교산학협력단 filed Critical 삼성전자주식회사
Priority to KR1020130134372A priority Critical patent/KR102120864B1/ko
Priority to US14/532,483 priority patent/US9639758B2/en
Publication of KR20150052924A publication Critical patent/KR20150052924A/ko
Priority to US15/474,400 priority patent/US10902056B2/en
Application granted granted Critical
Publication of KR102120864B1 publication Critical patent/KR102120864B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/667Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/81Camera processing pipelines; Components thereof for suppressing or minimising disturbance in the image signal generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/951Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio

Abstract

대상 영상을 획득하는 단계; 상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하는 단계; 상기 추출된 형상에 기초하여 상기 대상 물체가 포함되는 카테고리를 결정하는 단계; 및 상기 카테고리와 관련된 적어도 하나의 키워드를 포함하는 부가 정보와 매핑하여 상기 대상 영상을 저장하는 단계를 포함하는 것을 특징으로 하는, 영상 처리 방법을 개시한다.

Description

영상 처리 방법 및 장치 {METHOD AND APPARATUS FOR PROCESSING IMAGE}
본 발명은 영상을 처리하는 방법 및 장치에 관한 것이다. 보다 구체적으로는, 대상 영상이 나타내는 물체가 어떠한 카테고리에 포함되는지를 판단하고, 판단된 결과에 기초하여 소정 동작을 수행하는 방법 및 장치에 관한 것이다.
영상 정보를 기초로 하는 다양한 멀티미디어 시스템 (multi-media system) 이 발달하면서, 영상이 포함하고 있는 정보를 이해하고 이를 다양한 분야에 응용할 수 있는 기술에 대한 수요가 급증하고 있다.
특히, 휴대폰, 노트북, PDA 등과 같은 모바일 디바이스가, 카메라와 같이 영상을 촬영하는 기능을 더 포함하게 됨에 따라, 사용자가 모바일 디바이스를 이용해 촬영된 많은 영상을 쉽게 관리할 수 있도록 하는 기술이 요구된다. 또한, 모바일 디바이스의 주위 환경 또는 사용자의 주위 환경에 대한 정보를 이용하여 사용자 친화적인 모바일 디바이스의 동작 방법을 제공하기 위해서, 모바일 디바이스를 이용해 촬영된 영상이 포함하고 있는 정보를 분석하는 기술이 이용될 수 있다.
한편, 영상이 포함하고 있는 정보를 분석하는 기술로서, 영상으로부터 영상이 나타내는 물체의 카테고리를 탐지하는 물체 탐지 (Object detection) 기술이 대표적으로 이용된다. 물체 탐지 기술은, 모바일 디바이스를 통해 편리한 사용자 환경을 제공하는 분야뿐만 아니라, 질병 진단, 및 로봇 자율 운행 등의 다양한 분야에서 이용될 수 있는 기술이다. 따라서, 정확도가 높고 속도가 빠른 물체 탐지 기술을 개발하는데 많은 관심이 집중되고 있다.
본 발명의 목적은, 영상이 포함하고 있는 정보를 분석함으로써, 소정 디바이스를 사용하는 사용자에게 편리한 사용자 환경을 제공할 수 있는 영상 처리 방법 및 장치를 제공하는데 있다.
본 발명의 일 실시예에 따른 영상 처리 방법은, 대상 영상을 획득하는 단계; 상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하는 단계; 상기 추출된 형상에 기초하여 상기 대상 물체가 포함되는 카테고리를 결정하는 단계; 및 상기 카테고리와 관련된 적어도 하나의 키워드를 포함하는 부가 정보와 매핑하여 상기 대상 영상을 저장하는 단계를 포함한다.
본 발명의 일 실시예에 따른 영상 처리 방법은, 사용자로부터 키워드를 수신하는 단계; 상기 수신된 키워드와 관련된 상기 부가 정보와 매핑된 상기 대상 영상을 검색하는 단계; 및 상기 대상 영상을 디스플레이하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 대상 영상을 획득하는 단계는, 상기 대상 영상이 획득되는 시각에 대한 정보를 획득하는 단계를 포함하고, 상기 부가 정보는, 상기 시각에 대한 정보와 관련된 적어도 하나의 키워드를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 방법은, 영상 처리 장치의 제 1 위치 정보를 획득하는 단계; 상기 카테고리와 관련된 공간 정보를 획득하는 단계; 및 상기 공간 정보와 상기 제 1 위치 정보를 이용하여 상기 영상 처리 장치의 제 2 위치 정보를 생성하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하는 단계는, 상기 대상 영상의 픽셀들의 밝기 변화도를 나타내는 특징맵을 추출하는 단계를 포함하고, 상기 대상 물체가 포함되는 카테고리를 결정하는 단계는, 상기 추출된 특징맵과, 제 1 카테고리에 포함되는 물체의 형상에 대해서 미리 학습된 적어도 하나의 특징맵 모델을 비교하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 추출된 특징맵과 상기 적어도 하나의 특징맵 모델을 비교하는 단계는, 상기 적어도 하나의 특징맵 모델에 기초하여 설계된 필터의 상기 추출된 특징맵에 대한 반응값을 계산하는 단계; 및 상기 반응값이 상기 특징맵 모델에게 할당된 임계값보다 작을 경우, 상기 대상 물체는 상기 제 1 카테고리에 포함되지 않는 것으로 판단하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 추출된 특징맵과 상기 적어도 하나의 특징맵 모델을 비교하는 단계는, 상기 제 1 카테고리에 포함되는 물체의 전체 형상에 대해서 미리 학습된 특징맵 모델인 루트 모델과 상기 추출된 특징맵을 비교하여 상기 대상 물체가 상기 제 1 카테고리에 포함되는지 여부를 판단하는 제 1 판단을 수행하는 단계; 및 상기 제 1 판단 결과에 따라, 상기 대상 물체가 상기 제 1 카테고리에 포함된다고 판단되는 경우, 상기 제 1 카테고리에 포함되는 물체의 부분들의 형상들에 대해서 미리 학습된 특징맵 모델들인 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 특징맵을 추출하는 단계는, 상기 루트 모델과의 비교를 위해서, 제 1 해상도에서 상기 대상 영상으로부터 제 1 특징맵을 추출하는 단계; 및 상기 복수의 부분 모델 중 적어도 하나와의 비교를 위해서, 제 2 해상도에서 상기 대상 영상으로부터 제 2 특징맵을 추출하는 단계를 포함하고, 상기 제 1 해상도는 상기 제 2 해상도보다 낮은 것을 특징으로 할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계는, 상기 복수의 부분 모델들의 우선 순위에 기초하여, 상기 복수의 부분 모델들 중 적어도 하나를 선택하는 단계; 및 상기 선택된 부분 모델과 상기 추출된 특징맵을 비교하는 단계를 비교하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 방법에 있어서, 상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계는, 상기 루트 모델에 대한 상기 복수의 부분 모델들의 위치 정보를 더 고려하여, 상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계를 포함할 수 있다.
한편, 본 발명의 일 실시예에 따른 영상 처리 장치는, 대상 영상을 획득하는 영상 획득부; 상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하고, 상기 추출된 형상에 기초하여 상기 대상 물체가 포함되는 카테고리를 결정하는 영상 분석부; 및 상기 카테고리와 관련된 적어도 하나의 키워드를 포함하는 부가 정보와 매핑하여 상기 대상 영상을 저장하도록 저장부를 제어하는 제어부를 포함한다.
본 발명의 일 실시예에 따른 영상 처리 장치는, 사용자로부터 키워드를 수신하는 사용자 입력부; 및 상기 수신된 키워드와 관련된 상기 부가 정보와 매핑된 상기 대상 영상을 디스플레이하는 디스플레이부를 더 포함하고, 상기 제어부는, 상기 수신된 키워드와 관련된 상기 부가 정보와 매핑된 상기 대상 영상을 상기 저장부로부터 검색할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 장치에 있어서, 상기 영상 획득부는, 상기 대상 영상이 획득되는 시각에 대한 정보를 더 획득하고, 상기 부가 정보는, 상기 시각에 대한 정보와 관련된 적어도 하나의 키워드를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 장치는, 상기 영상 처리 장치의 제 1 위치 정보를 획득하는 위치 검출부를 더 포함하고, 상기 제어부는, 상기 카테고리와 관련된 공간 정보를 획득하고, 상기 공간 정보와 상기 제 1 위치 정보를 이용하여 상기 영상 처리 장치의 제 2 위치 정보를 생성할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 장치에 있어서, 상기 영상 분석부는, 상기 대상 영상의 픽셀들의 밝기 변화도를 나타내는 특징맵을 추출하는 특징맵 추출부를 포함하고, 상기 추출된 특징맵과, 제 1 카테고리에 포함되는 물체의 형상에 대해서 미리 학습된 적어도 하나의 특징맵 모델을 비교할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 장치에 있어서, 상기 영상 분석부는, 상기 적어도 하나의 특징맵 모델에 기초하여 설계된 필터의 상기 추출된 특징맵에 대한 반응값을 계산하고, 상기 반응값이 상기 특징맵 모델에게 할당된 임계값보다 작을 경우, 상기 대상 물체는 상기 제 1 카테고리에 포함되지 않는 것으로 판단할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 장치에 있어서, 상기 영상 분석부는, 상기 제 1 카테고리에 포함되는 물체의 전체 형상에 대해서 미리 학습된 특징맵 모델인 루트 모델과 상기 추출된 특징맵을 비교하여 상기 대상 물체가 상기 제 1 카테고리에 포함되는지 여부를 판단하는 제 1 판단을 수행하고, 상기 제 1 판단 결과에 따라, 상기 대상 물체가 상기 제 1 카테고리에 포함된다고 판단되는 경우, 상기 제 1 카테고리에 포함되는 물체의 부분들의 형상들에 대해서 미리 학습된 특징맵 모델들인 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 장치에 있어서, 상기 특징맵 추출부는, 상기 루트 모델과의 비교를 위해서, 제 1 해상도에서 상기 대상 영상으로부터 제 1 특징맵을 추출하고, 상기 복수의 부분 모델 중 적어도 하나와의 비교를 위해서, 제 2 해상도에서 상기 대상 영상으로부터 제 2 특징맵을 추출하는 단계를 포함상기 물체의 부분들에 대한 상기 복수의 부분 모델들을 생성하는 학습부를 더 포함하고, 상기 제 1 해상도는 상기 제 2 해상도보다 낮은 것을 특징으로 할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 장치에 있어서, 상기 영상 분석부는, 상기 복수의 부분 모델들의 우선 순위에 기초하여, 상기 복수의 부분 모델들 중 적어도 하나를 선택하고, 상기 선택된 부분 모델과 상기 추출된 특징맵을 비교하는 단계를 비교할 수 있다.
한편, 본 발명의 일 실시예에 따른 컴퓨터로 판독 가능한 기록 매체는, 상술한 영상 처리 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.
도 1 은 본 발명의 일 실시예에 따른 영상 처리 장치를 설명하기 위한 블록도이다.
도 2 는 본 발명의 일 실시예에 따른 영상 처리 장치를 설명하기 위한 구체적인 블록도이다.
도 3 은 본 발명의 일 실시예에 따른 영상 처리 방법을 설명하기 위한 흐름도이다.
도 4 는 본 발명의 일 실시예에 따른 영상 처리 방법을 설명하기 위한 흐름도이다.
도 5 는 본 발명의 일 실시예에 따라 부가 정보와 매핑되어 저장되는 대상 영상을 설명하기 위한 도면이다.
도 6 은 본 발명의 일 실시예에 따라 대상 영상과 매핑되어 저장되는 부가 정보의 예를 도시한다.
도 7a 는 본 발명의 일 실시예에 따라 키워드를 사용자로부터 수신하기 위한 화면의 예를 도시한다.
도 7b 는 본 발명의 일 실시예에 따라 사용자로부터 수신된 키워드와 관련되어 검색된 영상을 출력하는 화면의 예를 도시한다.
도 8 은 본 발명의 일 실시예에 따라 제 2 동작 모드에서 제 2 위치 정보를 생성하는 과정을 설명하기 위한 도면이다.
도 9 는 본 발명의 일 실시예에 따라 대상 영상으로부터 특징맵을 추출하는 과정을 설명하기 위한 도면이다.
도 10 은 본 발명의 일 실시예에 따라 대상 영상으로부터 영상 피라미드를 생성하고, 영상 피라미드와 특징맵 모델을 비교하는 과정을 설명하기 위한 도면이다.
도 11 은 본 발명의 일 실시예에 따라 슬라이딩 윈도우 (sliding window) 방식으로 대상 영상을 분석하는 과정을 설명하기 위한 도면이다.
도 12 는 본 발명의 일 실시예에 따른 직렬 분류기를 설명하기 위한 도면이다.
도 13 은 본 발명의 일 실시예에 따라 대상 영상이 카테고리에 대한 영상을 포함하는지 여부를 판단하기 위해서, 해당 카테고리에 대한 복수의 영상들을 학습하는 방법을 설명하기 위한 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
또한, 명세서에 기재된 “…부”, “…모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1 은 본 발명의 일 실시예에 따른 영상 처리 장치를 설명하기 위한 블록도이다.
도 1 에 도시된 영상 처리 장치 (100) 는 모바일 디바이스 내에 포함되거나, 모바일 디바이스에 연결될 수 있다. 이 때, 모바일 디바이스는, 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(notebook computer), 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 및 네비게이션 등을 포함할 수 있으나 이에 한정되지 않는다.
도 1 에 도시된 영상 처리 장치 (100) 는, 영상 획득부 (110), 영상 분석부 (120), 저장부 (130), 및 제어부 (140) 를 포함할 수 있다.
영상 획득부 (110) 는, 대상 영상을 획득한다. 영상 획득부 (110) 는, 대상 영상을 획득하기 위해서, 외부로부터 대상 영상에 대한 정보를 포함하는 신호를 입력받거나, 대상 영상을 촬영할 수 있다.
영상 획득부 (110) 는, 셔터, 렌즈부, 조리개 및 영상 센서 및 아날로그/디지털 변환기(ADC) 를 포함하는 카메라를 포함할 수 있다. 영상 획득부 (110) 는, 영상 센서로부터 얻어지는 영상 프레임을 처리함으로써 대상 영상을 획득할 수 있다. 또한, 영상 획득부 (100) 는, 대상 영상을 촬영함과 더불어, 대상 영상이 획득되는 시각 또는 주변 환경에 대한 정보를 더 획득할 수 있다. 주변 환경에 대한 정보는, 대상 영상이 획득되는 시점에서, 대상 영상이 획득되는 공간의 밝기 또는 소란스러운 정도 등에 대한 정보를 포함할 수 있다.
영상 분석부 (120) 는, 대상 영상에 포함되는, 대상 물체의 형상을 추출한다. 영상 분석부 (120) 는, 대상 영상으로부터 추출된 형상에 기초하여, 대상 물체가 포함되는 카테고리를 결정한다. “대상 영상” 이란, 영상 처리를 위한 대상이 되는 영상을 의미한다. “대상 물체” 란, 대상 영상이 나타내는 물체를 의미한다. “카테고리”란, 동일한 성질을 갖는 물체들을 분류하는 기준을 의미할 수 있다. 예를 들어, 장미꽃, 백합, 및 튤립 등의 물체들은 “꽃” 이라는 카테고리에 포함되는 것으로 결정될 수 있다. 카테고리에는, 자동차, 자전거, 사람, 나무, 꽃 및 건물등이 포함될 수 있다.
또한, 영상 분석부 (120) 는, 대상 영상이 소정 카테고리에 포함되는 물체에 대한 영상을 포함하는지 여부를 판단할 수 있다. 영상 분석부 (120) 는, 하나의 카테고리를 결정하고, 대상 영상이 나타내는 대상 물체가 결정된 카테고리에 포함되는지 여부를 판단할 수 있다. 또한, 영상 분석부 (120) 는, 대상 영상이 복수의 카테고리들 중에서 어떠한 카테고리에 포함되는 물체를 나타내고 있는지를 판단할 수 있다.
영상 분석부 (120) 는, 적어도 하나의 대상 물체가 포함되는 적어도 하나의 카테고리를 결정할 수 있다. 서로 다른 대상 물체들은, 하나의 카테고리에 포함되거나, 서로 다른 카테고리들에 포함될 수 있다. 즉, 영상 분석부 (120) 는, 대상 영상으로부터 복수의 대상 물체들의 형상을 추출할 수 있다. 영상 분석부 (120) 는 복수의 대상 물체들이 포함되는 하나 이상의 카테고리를 결정할 수 있다.
영상 분석부 (120) 가 대상 물체의 카테고리를 결정하는 구체적인 물체 탐지 방법과 관련하여서는, 후에 도 9 내지 13 을 참조하여 구체적으로 설명한다.
저장부 (130) 는, 대상 영상 및 대상 영상과 관련된 정보를 저장한다. 저장부 (130) 는, 카테고리, 카테고리에 포함되는 물체의 형상에 대한 정보, 및 카테고리에 대한 특징맵 모델 중 적어도 하나를 더 저장할 수 있다. 또한, 저장부 (130) 는, 영상 처리 장치 (100) 의 영상 처리 및 제어를 위한 프로그램을 저장할 수 있다.
저장부 (130) 는 플래시 메모리 타입 (flash memory type), 하드디스크 타입 (hard disk type), 멀티미디어 카드 마이크로 타입 (multimedia card micro type), 카드 타입의 메모리 (예를 들어 SD 또는 XD 메모리 등), 램 (RAM, Random Access Memory), SRAM (Static Random Access Memory), 롬 (ROM, Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory) 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 또한, 영상 처리 장치 (100) 는 인터넷 (internet) 상에서 저장부 (130) 의 저장 기능을 수행하는 웹 스토리지 (web storage) 또는 클라우드 서버를 운영할 수도 있다.
제어부 (150) 는, 영상 처리 장치 (100) 의 전반적인 동작을 제어한다. 즉, 제어부 (150) 는, 영상 획득부 (110), 영상 분석부 (120), 및 저장부 (130) 를 제어할 수 있다.
제어부 (150) 는, 영상 분석부 (120) 의 분석 결과에 기초하여, 분석 결과에 대응하는 소정 동작을 수행하도록 영상 처리 장치 (100) 를 제어할 수 있다.
제어부 (150) 는, 부가 정보를 대상 영상과 매핑하여 저장하도록 저장부 (130) 를 제어할 수 있다. 이 때, 부가 정보는, 대상 물체가 포함되는 것으로 결정된 카테고리와 관련된 적어도 하나의 키워드를 포함할 수 있다.
영상과 관련된 적어도 하나의 키워드를 영상과 매핑하여 저장하는 동작을 “영상을 태깅 (tagging)” 한다고 할 수 있다. 대상 영상을 태깅하기 위해서는, 일반적으로, 사용자가 대상 영상의 임의의 영역을 선택하고, 선택된 영역에 대한 키워드를 입력하는 과정을 포함하는 방법이 이용된다. 따라서, 사용자가 대상 영상 내의 영역을 선택하고 키워드를 입력하는데 많은 시간이 소요되며 불편함이 있었다.
본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 물체가 포함된다고 결정된 카테고리에 대해서, 대상 영상을 자동으로 태깅함으로써, 대상 영상을 자동으로 분류할 수 있다. 따라서, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 많은 영상을 분류하고, 저장하고, 관리하는데 있어서 사용자의 편의를 도모할 수 있다. 또한, 영상 처리 장치 (100) 는, 짧은 시간 내에 많은 영상들을 분류하고, 저장하고, 관리할 수 있다는 장점이 있다.
한편, 도 2 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 사용자 입력부 (140), 디스플레이부 (160), 및 위치 검출부 (170) 를 더 포함할 수 있다. 또한, 도 2 에 도시된 바와 같이, 영상 분석부 (120) 는, 특징맵 추출부 (122) 및 학습부 (124) 를 포함할 수 있다.
특징맵 추출부 (122) 는, 대상 영상으로부터 대상 영상의 픽셀들의 밝기 변화도 (intensity gradient) 를 나타내는 특징맵을 추출할 수 있다. 특징맵은, 대상 영상의 픽셀들의 밝기 변화도의 크기와 방향을 이용하여, 블록 단위로 생성된 히스토그램을 의미할 수 있다. 즉, 대상 영상으로부터 추출되는 특징맵은 HOG (Histogram of Oriented Gradients) 맵을 포함할 수 있다. 또한, 특징맵 추출부 (122) 는, 카테고리에 포함되는 물체들의 일반적인 형상을 학습하기 위해서 획득되는 복수의 영상들로부터, 복수의 영상들에 대한 특징맵들을 더 추출할 수 있다.
학습부 (124) 는, 카테고리에 포함되는 물체들의 일반적인 형상을 학습하기 위해서, 카테고리에 포함되는 물체들을 나타내는 복수의 영상들을 학습할 수 있다. 또한, 학습부 (124) 는, 카테고리에 포함되는 물체들을 나타내는 복수의 영상들과 함께, 카테고리에 포함되지 않는 물체들을 나타내는 복수의 영상들을 학습함으로써, 카테고리에 포함되는 물체들의 일반적인 형상을 학습할 수 있다.
학습부 (124) 는, 제 1 카테고리에 포함되는 물체의 전체 형상에 대해서 미리 학습된 특징맵 모델인 루트 모델을 제 1 해상도에서 생성할 수 있다. 또한, 학습부 (124) 는, 제 1 카테고리에 포함되는 물체의 부분들의 형상들에 대해서 미리 학습된 특징맵 모델인 복수의 부분 모델들을 제 2 해상도에서 생성할 수 있다. 이 때, 소정 물체에 대한 루트 모델은, 부분 모델들보다 낮은 해상도로 생성될 수 있다. 특징맵 모델의 해상도는, 히스토그램이 생성된 단위인 블록의 크기에 따라 결정된다.
사용자 입력부 (140) 는, 사용자의 입력을 수신한다. 사용자 입력부 (140) 는, 영상 처리 장치 (100) 를 제어하기 위한 사용자의 입력을 수신할 수 있다. 또한, 사용자 입력부 (140) 는 사용자로부터 키워드를 수신할 수 있다.
사용자 입력부 (140) 에는, 키 패드 (key pad), 돔 스위치 (dome switch), 터치 패드 (접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 트랙볼, 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
또한, 디스플레이부 (160) 의 표시 패널과 레이어 구조를 이루는 터치 패드는 터치 스크린이라 부를 수 있다. 사용자 입력부 (140) 가 터치 스크린으로 구성되어 있는 경우, 사용자 입력부 (140) 는 디스플레이부 (160) 의 기능을 수행할 수 있다.
또한, 사용자 입력부 (140) 는, 소리 센서를 이용하여 사용자의 음성을 검출하고, 사용자의 음성에 기초하여 사용자가 말하는 키워드를 수신할 수 있다.
디스플레이부 (160) 는, 대상 영상 뿐만 아니라 영상 처리 장치 (100) 에서 처리되는 다양한 정보를 GUI(Graphic User Interface)를 통해 화면 상에 표시 출력할 수 있다.
디스플레이부 (160) 는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다.
위치 검출부 (170) 는, 영상 처리 장치 (100) 의 위치를 검출함으로써 영상 처리 장치 (100) 의 제 1 위치 정보를 획득한다. 위치 검출부(170)는 GPS(Global Position System), 와이파이 위치추적 시스템(Wi-Fi Positioning System) 및 하이브리드 위치추적 시스템 (Hybrid Positioning System) 중 적어도 하나를 이용하여 영상 처리 장치 (100) 의 위치를 검출할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 장치 (100) 의 전반적인 동작을 제어하기 위해서, 제어부 (150) 는, 도 2 에 도시된 사용자 입력부 (140), 디스플레이부 (160), 및 위치 검출부 (170) 를 더 제어할 수 있다. 또한, 제어부 (150) 는, 영상 분석부 (120), 저장부 (130), 및 위치 검출부 (170) 중 적어도 하나의 적어도 일부 기능을 수행하도록 구성될 수 있다.
본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 물체가 포함된다고 결정된 카테고리에 기초하여, 소정 동작을 수행할 수 있다.
이하에서는 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 가 대상 영상이 포함하고 있는 정보에 기초하여 소정 동작을 수행하는 방법에 대해서 도 3 내지 8 을 참고하여 구체적으로 살펴보도록 한다.
도 3 은 본 발명의 일 실시예에 따른 영상 처리 방법을 설명하기 위한 흐름도이다.
본 발명의 일 실시예에 따른 영상 처리 방법은, 도 1 및 도 2 에 도시된 영상 처리 장치 (100) 의 각 구성 요소에 의해 수행될 수 있다. 따라서, 이하에서 생략된 내용이라 하더라도 도 1 및 2 에 도시된 영상 처리 장치 (100) 에 관하여 이상에서 기술된 내용은 도 3 의 영상 처리 방법에도 적용됨을 알 수 있다.
단계 S310 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상을 획득할 수 있다. 예를 들어, 영상 처리 장치 (100) 는, 외부로부터 대상 영상을 수신하거나, 대상 영상을 촬영함으로써 대상 영상을 획득할 수 있다. 또한, 영상 처리 장치 (100) 는, 대상 영상이 획득되는 날짜 및 시각에 대한 정보를 더 획득할 수 있다.
단계 S320 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상에 포함되는 대상 물체의 형상을 추출할 수 있다. 예를 들어, 영상 처리 장치 (100) 는, 대상 영상의 HOG 특징을 추출함으로써, 대상 물체의 형상을 추출할 수 있다.
단계 S330 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 단계 S320 에서 추출된 형상에 기초하여 대상 물체가 포함되는 카테고리를 결정할 수 있다.
예를 들어, 영상 처리 장치 (100) 는, 미리 결정된 복수의 카테고리들 중에서 하나를 선택하고, 대상 물체가 선택된 카테고리 내에 포함되는지 여부를 판단할 수 있다. 영상 처리 장치 (100) 는, 대상 물체가 선택된 카테고리 내에 포함되는지 여부를 판단하는 동작을, 복수의 카테고리들 각각에 대해서 반복해서 수행할 수 있다.
도 3 에서는, 영상 처리 장치 (100) 가 하나의 대상 물체에 대한 카테고리를 결정하는 것으로 도시하였으나 본 발명은 이에 한정되지 않는다. 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상이 나타내는 복수의 대상 물체들에 대해서도, 어떠한 카테고리에 포함되는 물체들인지를 결정할 수 있다.
단계 S340 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 부가 정보와 매핑하여 대상 영상을 저장할 수 있다. 부가 정보는, 대상 물체가 포함되는 것으로 결정된 카테고리와 관련된 적어도 하나의 키워드를 포함할 수 있다.
도 5 는 본 발명의 일 실시예에 따라 부가 정보와 매핑되어 저장되는 대상 영상을 설명하기 위한 도면이다.
예를 들어, 도 5 는, 대상 영상 (501) 이 “남대문” 의 형상 (510), 및 “김정민” 이라는 사람의 형상 (520) 을 포함하는 경우를 도시한다.
영상 처리 장치 (100) 는, 대상 영상 (501) 으로부터 제 1 대상 물체의 형상 (510), 및 제 2 대상 물체의 형상 (520) 을 추출할 수 있다. 영상 처리 장치 (100) 는, 제 1 대상 물체의 형상 (510) 에 기초하여, 제 1 대상 물체가 포함되는 카테고리로서, “남대문”을 결정할 수 있다. 영상 처리 장치 (100) 는, 제 2 대상 물체의 형상 (520) 에 기초하여, 제 2 대상 물체가 포함되는 카테고리로서, “사람”을 결정할 수 있다.
영상 처리 장치 (100) 는, “남대문”, 및 “사람” 과 관련된 적어도 하나의 키워드를 포함하는 부가 정보와 매핑하여 대상 영상 (501) 을 저장할 수 있다. “남대문”과 관련된 적어도 하나의 키워드는, 카테고리의 명칭과 관련된 키워드인 “남대문”일 수 있다. 또는, “남대문”과 관련된 적어도 하나의 키워드는, 카테고리와 관련된 공간 정보와 관련된 키워드인, “대한민국”또는 “서울”을 포함할 수 있다. “사람”과 관련된 적어도 하나의 키워드는, 대상 영상의 종류와 관련된 키워드인, “인물 사진” 을 포함할 수 있다.
또한, 영상 처리 장치 (100) 는, 대상 영상의 일부 영역에 대해서도, 관련된 키워드를 태깅하여 저장할 수 있다. 즉, 도 5 를 참고하면, 영상 처리 장치 (100) 는, “남대문”의 형상 (510) 을 포함하는 일부 영역에 대해서 키워드“남대문”을 태깅할 수 있다.영상 처리 장치 (100) 는, “사람”의 형상 (520) 을 포함하는 일부 영역에 대해서, 키워드 “사람”을 태깅할 수 있다.
영상 처리 장치 (100) 는 도 5 에 도시된 바와 같이, 대상 영상 (501) 이 나타내는 대상 물체가 “사람” 에 포함되는 것으로 결정되는 경우, 사람의 형상 (520) 을 분석하여 사람의 “얼굴” 의 형상 (530) 을 추출할 수 있다.
영상 처리 장치 (100) 는, “얼굴” 의 형상 (530) 을 분석하여 분석된 결과에 대응되는 사람의 이름을 결정할 수 있다. 즉, 영상 처리 장치 (100) 는 대상 영상을 분석하여, 사람에 대한 형상 (520) 에 기초하여 얼굴에 대응되는 영역을 검출할 수 있다. 영상 처리 장치 (100) 얼굴에 대응되는 영역에 포함되는 얼굴의 형상 (530) 으로부터, 대상 영상 (501) 이 “김정민” 이라는 이름을 갖는 사람을 나타내고 있음을 인식할 수 있다. 영상 처리 장치 (100) 는, “김정민”이라는 키워드와 대상 영상 (501) 을 매핑하여 저장할 수 있다.
또한, 영상 처리 장치 (100) 는, 대상 물체가 포함되는 카테고리와 관련된 키워드와 더불어, 대상 영상이 획득되는 날짜 및 시각에 대한 정보와 관련된 키워드를 대상 영상에 대한 부가 정보로서 저장할 수 있다.
예를 들어, 도 5 에 도시된 바와 같이, 영상 처리 장치 (100) 가 대상 영상이 획득되는 날짜 및 시각에 대한 정보로서 “2012년 10월 21 14시 00분”을 획득한 경우를 예로 들어 설명한다. 영상 처리 장치 (100) 는, “2012년 10월 21 14시 00분”과 관련된 키워드인 “가을, 10월, 오후” 등을 대상 영상에 대한 부가 정보로서 더 저장할 수 있다.
도 6 은 본 발명의 일 실시예에 따라 대상 영상과 매핑되어 저장되는 부가 정보의 예를 도시한다.
본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는 대상 영상에 대한 부가 정보를 대상 영상과 함께 저장할 수 있다.
예를 들어, 부가 정보는, 대상 영상의 명칭, 대상 영상 파일의 확장자, 대상 물체가 포함되는 카테고리, 대상 영상 내에서 대상 물체의 형상의 상대적인 위치, 대상 물체의 카테고리를 결정함으로써 장면 분류 결과 (Scene Classification Result), 대상 영상이 획득된 시점의 영상 처리 장치 (100) 의 위치 정보, 대상 영상이 획득된 날짜, 대상 영상이 획득된 시각, 대상 영상이 획득된 시점의 영상 처리 장치 (100) 주변의 조도 정보, 및 대상 영상이 획득된 시점의 영상 처리 장치 (100) 의 주면 소음 정보 중 적어도 하나를 포함할 수 있다. 장면 분류 결과는, 대상 물체가 포함되는 카테고리와 관련된 공간 정보를 포함할 수 있다. 카테고리물체와 관련된 공간 정보는, 카테고리에 포함되는 물체들이 일반적으로 위치하는 장소에 대한 정보를 포함할 수 있다.
도 6 에는, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 가 저장하는 부가 정보 (600) 의 예를 도시한다. 도 6 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상의 명칭 및 파일 확장자 (601), 대상 물체들이 포함되는 카테고리들 (602), 대상 영상 내에서 대상 물체의 형상의 상대적인 위치 (603), 장면 분류 결과 (604), 대상 영상이 획득된 시점의 영상 처리 장치 (100) 의 GPS 정보 (605), 대상 영상이 획득된 날짜 (607), 대상 영상이 획득된 시각 (607), 대상 영상이 획득된 시점의 영상 처리 장치 (100) 주변의 조도 정보, 및 대상 영상이 획득된 시점의 영상 처리 장치 (100) 의 주면 소음 정보 (609) 중 적어도 하나를 포함하는 부가 정보 (600) 를 저장할 수 있다.
예를 들어, 도 6 은, 영상 처리 장치 (100) 가 대상 물체들이 포함되는 카테고리들을 “사람, 테이블, 의자” 로 결정한 경우를 도시한다. 영상 처리 장치 (100) 는, “사람, 테이블, 의자”가 위치하는 “2xx lux” 를 갖는 조도의 “시끄러운” 장소라는 정보에 기초하여, “레스토랑, 실내” 라는 장면 분류 결과를 도출할 수 있다.,
단계 S350 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 사용자로부터 키워드를 수신할 수 있다.
영상 처리 장치 (100) 는, 사용자로부터 직접, 영상을 검색하기 위해서 키워드를 입력받을 수 있다.
또는, 영상 처리 장치 (100) 는 사용자로부터 제 1 영상을 입력받을 수 있다. 영상 처리 장치 (100) 는, 제 1 영상으로부터 키워드를 추출함으로써 사용자로부터 키워드를 수신할 수 있다. 예를 들어, 사용자가 “자전거” 에 대한 영상을 검색하고자 할 때, 영상 처리 장치 (100) 는 자전거를 촬영하거나, 자전거에 대한 스케치를 촬영하거나, 또는, 자전거에 대한 영상을 인터넷으로 수신함으로써 제 1 영상을 획득할 수 있다.
도 7a 는 본 발명의 일 실시예에 따라 키워드를 사용자로부터 수신하기 위한 화면의 예를 도시한다.
도 7a 및 도 7b 에 도시된 바와 같이 영상 처리 장치 (100) 는 휴대폰과 같은 모바일 단말기에 포함될 수 있으나 이에 한정되지 않는다.
도 7a 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 키워드 입력을 위한 GUI (710) 를 화면 상에 제공할 수 있다. 키워드 입력을 위한 GUI (710) 는 키워드를 입력하는 영역 (712) 을 포함할 수 있다. 도 7a 에 도시된 바와 같이, 사용자는 하나 이상의 키워드를 입력할 수 있다.
또한, 키워드 입력을 위한 GUI (710) 는, 키워드와 관련된 영상을 검색할 것을 명령하는 버튼 (714) 을 포함할 수 있다.
단계 S360 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 수신된 키워드와 관련된 부가 정보와 매핑된 대상 영상을 검색하여 출력할 수 있다.
도 7b 는 본 발명의 일 실시예에 따라 사용자로부터 수신된 키워드와 관련되어 검색된 영상을 출력하는 화면의 예를 도시한다.
도 7b 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 사용자로부터 수신된 키워드와 관련된 대상 영상 (501) 을 검색하여 출력할 수 있다. 도 7b 에는 하나의 대상 영상 (501) 이 검색된 경우가 도시되었지만 본 발명은 이에 한정되지 않는다. 영상 처리 장치 (100) 는, 사용자로부터 수신된 키워드와 관련된 복수의 영상들을 검색하여 출력할 수 있다.
또한, 영상 처리 장치 (100) 는, 대상 영상이 태깅된 결과에 따라, 대상 영상과 관련된 키워드를 대상 영상 상에 함께 디스플레이할 수 있다. 도 5 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상 (501) 과 관련된 것으로 판단된, “남대문”이라는 키워드 (515), “사람”이라는 키워드 (525), 및 “김정민” 이라는 키워드 (535) 를 대상 영상 (501) 상에 표시하여 대상 영상 (501) 을 출력할 수 있다.
또한, 도 5 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상 (501) 과 매핑되어 저장된 결과에 따라, 대상 영상 (501) 이 획득되는 시각에 대한 정보 (550) 를 대상 영상 상에 함께 디스플레이할 수 있다.
도 4 는 본 발명의 일 실시예에 따른 영상 처리 방법을 설명하기 위한 흐름도이다.
도 4 의 단계 S310 내지 단계 S330 은, 도 3 의 단계 S310 내지 단계 S330 과 대응되므로, 중복되는 설명은 생략한다.
단계 S410 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 의 제 1 위치 정보를 획득할 수 있다. 예를 들어, 영상 처리 장치 (100) 는, GPS, 와이파이 위치추적 시스템 및 하이브리드 위치추적 시스템 (Hybrid Positioning System) 중 적어도 하나를 이용하여 제 1 위치 정보를 획득할 수 있다.
단계 S420 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 물체가 포함된다고 결정된 카테고리와 관련된 공간 정보를 획득할 수 있다.
영상 처리 장치 (100) 는, 대상 영상이 어떠한 카테고리에 포함되는 대상 물체를 나타내는지 판단함으로써, 영상 처리 장치 (100) 의 주변에 어떠한 카테고리에 포함되는 대상 물체가 있는지 판단할 수 있다.
카테고리물체와 관련된 공간 정보는, 카테고리에 포함되는 물체들이 일반적으로 위치하는 장소에 대한 정보를 포함할 수 있다. 카테고리와 관련된 공간 정보는 미리 저장되거나 사용자로부터 입력된 것일 수 있다. 예를 들어, 카테고리 “책상”과 관련된 장소는 “학교, 교실, 및 방”일 수 있다. 또한, 카테고리 “차 (car)” 와 관련된 장소는 “도로, 및 주차장” 일 수 있다.
단계 S430 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 물체와 관련된 공간 정보와 제 1 위치 정보를 이용하여 제 2 위치 정보를 생성할 수 있다.
영상 처리 장치 (100) 는, 대상 영상이 포함하는 정보를 이용하여 제 1 위치 정보를 가공함으로써, 제 1 위치 정보보다 자세한 제 2 위치 정보를 생성할 수 있다. 또한, 영상 처리 장치 (100) 는, 대상 영상이 나타내는 대상 물체와 관련된 공간 정보를 제 1 위치 정보를 이용하여 가공함으로써, 대상 물체의 정확한 위치에 대한 제 2 위치 정보를 생성할 수 있다.
도 8 은 본 발명의 일 실시예에 따라 제 2 동작 모드에서 제 2 위치 정보를 생성하는 과정을 설명하기 위한 도면이다.
도 8 에는 GPS 를 이용하여 제 1 위치 정보를 획득하는 경우를 예로 들어 도시하였지만, 본 발명은 이에 한정되지 않는다.
도 8 에 도시된 바와 같이, 영상 처리 장치 (100) 는, GPS 를 이용하여 영상 처리 장치 (100) 가 “서울시 관악구 봉천동 서울대학교” 에 위치한다는 제 1 위치 정보 (810) 를 획득할 수 있다.
영상 처리 장치 (100) 는, 대상 영상 (802) 이 어떠한 물체에 대한 영상을 포함하는지를 판단함으로써, 해당 물체와 관련된 공간 정보 (820) 를 획득할 수 있다. 도 8 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상 (802) 의 분석 결과에 기초하여, 영상 처리 장치 (100) 가 위치한 장소를 추정할 수 있다.
예를 들어, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 를 통해 획득되는 대상 영상 (802) 이 나타내는 대상 물체들이 “책상, 칠판, 및 의자” 에 포함되는 것으로 판단되는 경우, 영상 처리 장치 (100) 가 “강의실”에 위치한다는 공간 정보 (820) 를 획득할 수 있다. 또는, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 를 통해 획득되는 대상 영상 (802) 이 나타내는 대상 물체들이 “자동차, 주차장 표지판” 에 포함되는 것으로 판단되는 경우, 영상 처리 장치 (100) 가 “주차장”에 위치한다는 공간 정보 (820) 를 획득할 수 있다. 또는, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 를 통해 획득되는 대상 영상 (802) 이 나타내는 대상 물체들이 “나무, 벤치, 및 분수”에 포함되는 것으로 판단되는 경우, 영상 처리 장치 (100) 가 “공원”에 위치한다는 공간 정보 (820) 를 획득할 수 있다.
영상 처리 장치 (100) 는, 제 1 위치 정보 (810) 와 공간 정보 (820) 를 이용하여 제 2 위치 정보 (830) 를 생성할 수 있다.
예를 들어, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 가 “강의실”내에 위치한다는 공간 정보 (820) 를 이용하여 제 1 위치 정보 (810) 를 가공함으로써, 영상 처리 장치 (100) 가 “서울시 관악구 봉천동 서울대학교 내의 강의실”에 위치한다는 제 2 위치 정보 (831) 를 생성할 수 있다. 또는, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 가 “주차장”내에 위치한다는 공간 정보 (820) 를 이용하여 제 1 위치 정보 (810) 를 가공함으로써, 영상 처리 장치 (100) 가 “서울시 관악구 봉천동 서울대학교 내의 강의실”내 에 위치한다는 제 2 위치 정보 (832) 를 생성할 수 있다. 또는, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 가 “공원”내에 위치한다는 공간 정보 (820) 를 이용하여 제 1 위치 정보 (810) 를 가공함으로써, 영상 처리 장치 (100) 가 “서울시 관악구 봉천동 서울대학교 내의 공원”내 에 위치한다는 제 2 위치 정보 (833) 를 생성할 수 있다.
단계 S440 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 단계 S430 에서 생성된 제 2 위치 정보에 대응되는 동작을 수행할 수 있다. 예를 들어, 영상 처리 장치 (100) 는 제 2 위치 정보를 화면 상에 디스플레이할 수 있다. 또는, 영상 처리 장치 (100) 는 제 2 위치 정보에 기초하여 영상 처리 장치 (100) 의 기능 설정을 변경할 수 있다. 영상 처리 장치 (100) 는 제 2 위치 정보에 기초하여, 사용자에게 알람을 제공하거나, 제 2 위치 정보와 관련된 응용 프로그램을 실행할 수 있다.
따라서, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 의 주변 환경이 반영된 보다 자세한 위치 정보를 생성하고 사용자에게 제공할 수 있다. 또한, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 제 1 위치 정보를 이용함으로써 대상 영상이 나타내는 물체의 정확한 위치에 대한 제 2 위치 정보를 생성하고 사용자에게 제공할 수 있다.
한편, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는 대상 영상이 어떠한 카테고리에 포함되는 대상 물체를 나타내고 있는지 빠르고 정확하게 판단하기 위하여 개선된 물체 탐지 기술을 이용할 수 있다. 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 가 이용할 수 있는 물체 탐지 기술과 관련하여 이하 도 9 내지 13 을 참조하여 설명한다.
먼저, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상을 분석하기 위해서, 대상 영상에 포함되는 물체의 형상을 표현하기에 적합한 엣지 (edge) 정보를 대상 영상으로부터 추출할 수 있다. 영상 처리 장치 (100) 는, 엣지 정보로서, 대상 영상의 픽셀들의 밝기 변화도를 나타내는 특징맵을 추출할 수 있다.
특징맵은, 영상의 HOG 특징을 나타내는 HOG 맵을 포함할 수 있으나, 본 발명은 이에 한정되지 않는다. 예를 들어, 영상 처리 장치 (100) 는, 대상 영상으로부터 하알 유사 (Haar-like) 특징, 또는 웨이블릿 (Wavelet) 특징을 나타내는 특징을 추출하고, 추출된 특징에 기초하여 대상 영상을 분석할 수 있다.
도 9 는 본 발명의 일 실시예에 따라 대상 영상으로부터 특징맵을 추출하는 과정을 설명하기 위한 도면이다.
도 9 는 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 가 대상 영상 (910) 으로부터 HOG 특징맵 (920) 을 추출하는 경우를 예로 들어 도시한다.
도 9 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상을 블록 단위로 구획화한다. 영상 처리 장치 (100) 는, 각 블록 (921) 내의 픽셀들의 밝기 변화도 (intensity gradient) 의 크기 또는 방향에 기초하여 HOG 특징 벡터 (923) 를 산출한다. 영상 처리 장치 (100) 는, 각 블록에 대해 산출된 HOG 특징 벡터들을 이용하여, 대상 영상에 대한 HOG 특징맵 (920) 을 추출할 수 있다.
다음으로, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상으로부터 추출된 대상 물체의 형상에 기초하여, 대상 물체가 포함되는 카테고리를 결정할 수 있다. 영상 처리 장치 (100) 는, 소정의 카테고리에 포함되는 물체의 형상에 대해서 미리 학습된 특징맵 모델을, 대상 영상에 대해서 추출된 특징맵과 비교함으로써, 대상 물체가 포함되는 카테고리를 결정할 수 있다. 특징맵 모델이란, 소정의 카테고리에 포함되는 물체들을 나타내는 영상들이 공통적으로 포함하는 특징을 나타내는 특징맵을 의미할 수 있다.
보다 구체적으로 설명하면, 영상 처리 장치 (100) 는, 소정의 카테고리에 포함되는 물체의 형상에 대해서 미리 계산된 특징맵을 학습한 분류기 모델을 사용한다. 영상 처리 장치 (100) 는, 분류기 모델을 사용하여, 대상 영상에 대해서 추출된 특징맵 입력을 분류함으로써, 대상 물체가 포함되는 카테고리를 결정할 수 있다. 특징맵 모델이란, 소정의 카테고리에 포함되는 물체들을 나타내는 영상들이 공통적으로 포함하는 특징을 나타내는 학습을 통해 얻어낸 분류기를 의미할 수 있다.
예를 들어, 영상 처리 장치 (100) 는, 카테고리에 대한 특징맵 모델을 생성하기 위해서, 카테고리에 포함되는 물체와 관련된 복수의 영상들의 HOG 특징들로부터 공통적인 HOG 특징을 추출할 수 있다. 영상 처리 장치 (100) 는, 복수의 영상들의 공통적인 HOG 특징을 이용하여 특징맵 모델을 생성할 수 있다.
이 때, 특징맵 모델은 크기가 정해져 있기 때문에, 대상 영상으로부터 추출된 특징맵과 특징맵 모델을 비교하기 위해서는, 대상 영상의 크기를 다양하게 변형한 복수의 영상들을 포함하는 이미지 피라미드를 생성하는 방법이 이용될 수 있다.
도 10 은 본 발명의 일 실시예에 따라 대상 영상으로부터 영상 피라미드를 생성하고, 영상 피라미드와 특징맵 모델을 비교하는 과정을 설명하기 위한 도면이다.
도 10 에서는 대상 영상 (1010) 이 “자전거” 에 포함되는 대상 물체에 대한 영상을 포함하는지 여부를 판단하는 경우를 예로 들어 설명한다. 영상 처리 장치 (100) 는, “자전거” 에 대해서 미리 학습된 특징맵 모델 (1030) 을 이용하여 대상 영상 (1010) 을 분석한다.
대상 영상 (1010) 내에 포함되는 “자전거”의 형상은 다양한 크기로 존재할 수 있다. 그러나 영상 처리 장치 (100) 가 “자전거” 에 대해서 저장하고 있는 특징맵 모델 (1030) 의 크기는 고정될 수 있다.
따라서, 크기가 고정된 특징맵 모델 (1030) 을 이용하여 대상 영상 (1010) 을 분석하기 위해서, 영상 처리 장치 (100) 는, 대상 영상 (1010) 의 크기를 다양하게 변경할 수 있다. 영상 처리 장치 (100) 는, 대상 영상 (1010) 의 크기를 변경함으로써 생성된 복수의 영상들을 포함하는 이미지 피라미드 (1020) 를 생성할 수 있다. 영상 처리 장치 (100) 는, 이미지 피라미드 (1020) 내에 포함되는 복수의 영상들로부터 복수의 특징맵들 (1022, 1024, 1026) 을 추출할 수 있다.
영상 처리 장치 (100) 는, 대상 영상 (1010) 으로부터 추출된 복수의 특징맵들 (1022, 1024, 1026) 을, “자전거”에 대한 특징맵 모델 (1030) 과 비교함으로써, 대상 영상 (1010) 이 “자전거”라는 카테고리에 포함되는 대상 물체에 대한 영상을 포함하는지 여부를 판단할 수 있다. 영상 처리 장치 (100) 는, 화살표 (1031) 가 가리키는 방향으로 특징맵 모델 (1030) 과 대상 영상 (1010) 으로부터 추출된 복수의 특징맵들 (1022, 1024, 1026) 을 비교할 수 있다.
도 10 은, 대상 영상 (1010) 이 축소된 영상 내에 포함되는 자전거의 영상 (1033) 의 크기가 특징맵 모델 (1030) 의 크기와 대응되는 경우를 도시한다. 도 10 에 도시된 바와 같이, 영상 처리 장치 (100) 는 대상 영상 (1010) 이 축소된 영상의 특징맵 (1022) 과 특징맵 모델 (1030) 을 비교하여, 대상 영상 (1010) 이 “자전거” 에 대한 영상을 포함하는 것으로 판단할 수 있다.
도 11 은 본 발명의 일 실시예에 따라 슬라이딩 윈도우 (sliding window) 방식으로 대상 영상을 분석하는 과정을 설명하기 위한 도면이다.
도 11 에 도시된 바와 같이 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 일정한 폭(W)과 높이(H)를 갖는 윈도우(WD)를, 예를 들면 행방향 즉 x-방향 (1101) 을 따라 이동하면서 스캔을 수행하게 된다. 영상 처리 장치 (100) 가 스캔을 수행한다는 것은, 대상 영상 (1100) 내에 포함되는 일부 영상과 카테고리에 대한 특징맵 모델을 비교하는 동작을 의미할 수 있다. 이 때, 대상 영상 (1100) 내에 포함되는 일부 영상은 윈도우 (WD) 에 대응되는 영상일 수 있다.
영상 처리 장치 (100) 는, 하나의 행 즉 스캔행에 대한 스캔을 완료하게 되면, 다음 번 스캔행에 대한 스캔을 수행할 수 있다. 이 때, 매 스캔시 윈도우의 이동거리(D)는, 즉 행방향을 따라 이웃하는 윈도우 스캔 사이의 이격간격은, 윈도우(WD)의 폭(W)보다 작은 범위를 가질 수 있다. 예를 들면, 현재 스캔 영역에 대한 스캔을 실시한 후, 윈도우(WD)의 폭(W)의 크기에 해당되는 픽셀의 수보다 적은 수의 픽셀만큼 이동하여 다음 스캔 영역에 대한 스캔을 수행할 수 있다. 따라서, 행방향으로 이웃하는 스캔 영역은, 서로 중첩될 수 있다.
그리고, 열방향 즉 y-방향으로 이웃하는 스캔 영역은 서로 중첩될 수 있다. 예를 들면, 현재 윈도우 스캔이 수행되는 스캔행에 대한 스캔이 완료된 후, 윈도우(WD)의 높이(H)의 크기에 해당되는 픽셀의 수보다 적은 수의 픽셀만큼 쉬프트(shift)하여, 다음 스캔행에 대한 스캔이 수행될 수 있다. 이에 따라, 열방향으로 이웃하는 스캔 영역은, 서로 중첩될 수 있다.
본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상이 나타내는 대상 물체가 어떠한 카테고리에 포함되는지를 판단하기 위해서, SVM (Support Vector Machine) 알고리즘을 이용할 수 있다.
영상 처리 장치 (100) 는, 도 11 에 도시된 슬라이딩 윈도우 방식으로 대상 영상을 분석할 수 있다. 영상 처리 장치 (100) 는, 미리 결정된 복수의 카테고리들 중에서 하나의 카테고리를 선택할 수 있다. 영상 처리 장치 (100) 는, 대상 영상이 나타내는 대상 물체가, 선택된 카테고리에 포함되는지를 판단할 수 있다. 영상 처리 장치 (100) 는, 대상 물체가 선택된 카테고리에 포함되는지를 판단하는 동작을, 복수의 카테고리들에 대해서 반복해서 수행할 수 있다.
이하, 영상 처리 장치 (100) 가 제 1 카테고리를 선택하고, 대상 물체가 선택된 제 1 카테고리에 포함되는지를 판단하는 경우를 예로 들어 설명한다.
영상 처리 장치 (100) 는, 제 1 카테고리와 관련된 복수의 영상들을 포함하는 포지티브 샘플들 (positive samples) 로부터 HOG 특성을 추출하여 포지티브 데이터 (positive data) 를 생성할 수 있다. 제 1 카테고리와 관련된 영상이란, 제 1 카테고리에 포함되는 것으로 분류되는 물체들 중 하나를 나타내는 영상을 의미할 수 있다. 영상 처리 장치 (100) 는, 제 1 카테고리와 관련되지 않은 복수의 영상들만을 포함하는 네거티브 샘플들 (negative samples) 로부터 HOG 특징을 추출하여 네거티브 데이터 (negative data) 를 생성할 수 있다. 제 1 카테고리와 관련되지 않은 영상이란, 제 1 카테고리에 포함되는 것으로 분류되는 물체들을 나타내지 않는 영상을 의미할 수 있다.
영상 처리 장치 (100) 는, 포지티브 데이터와 네거티브 데이터를 고차원의 특징 공간 (feature space) 상에 놓고, 포지티브 데이터와 네거티브 데이터 사이의 마진 (margin)이 최대가 되는 초평면 (hyperplane) 을 산출할 수 있다. 영상 처리 장치 (100) 는, 산출된 초평면를 기준으로 대상 영상이 제 1 카테고리에 대한 영상을 포함하는지 여부를 판단하는 필터를 설계할 수 있다. 영상 처리 장치 (100) 는, 대상 영상에 대한 필터의 반응값을 계산할 수 있다. 필터의 반응값은, 산출된 초평면의 노멀 벡터 (normal vector) w 에 대한 함수를 이용하여 계산될 수 있다. 영상 처리 장치 (100) 는, 필터의 반응값이 높게 나오는 대상 영상의 영역이, 필터에 대응되는 제 1 카테고리에 대한 영상을 포함하는 것으로 판단할 수 있다.
즉, SVM 알고리즘에 있어서, 특징맵 모델은, 포지티브 데이터와 네거티브 데이터로부터 산출된 초평면의 노멀 벡터 w와 바이어스 값 b로 표현 될 수 있다.
HOG-SVM 기술은, 대상 영상의 HOG 특징을 추출하고, SVM 알고리즘을 이용하여 대상 영상 내에 소정 카테고리의 영상이 포함되는지를 탐지하는 기술을 의미한다. HOG-SVM 기술에 있어서, 소정 카테고리에 대한 하나의 특징맵 모델만을 이용하여 대상 영상을 분석할 경우, 대상 영상 내에서 대상 물체의 부분들의 형상이 변형되어 나타나는 경우에 물체를 탐지하는 성능이 떨어지는 문제점이 있다.
따라서, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 소정 카테고리에 포함되는 물체의 전체 형상에 대한 특징맵 모델 뿐만 아니라 소정 카테고리에 포함되는 물체의 부분의 형상에 해당하는 특징맵 모델을 이용하는 파트 혼합 모델 (mixture of part models) 을 이용할 수 있다.
영상 처리 장치 (100) 는, 제 1 카테고리에 포함되는 물체의 전체 형상에 대해서 미리 학습된 특징맵 모델인 루트 모델 (이하, 제 1 카테고리의 루트 모델) 뿐만 아니라, 제 1 카테고리에 포함되는 물체의 부분들의 형상들에 대해서 미리 학습된 특징맵 모델들인 복수의 부분 모델들 (이하, 제 1 카테고리의 부분 모델들) 을 이용할 수 있다.
영상 처리 장치 (100) 는, 제 1 카테고리의 루트 모델 및 부분 모델들 중 적어도 하나와, 대상 영상으로부터 추출된 특징맵을 비교할 수 있다.
즉, 영상 처리 장치 (100) 는, 대상 영상으로부터 추출된 특징맵에 대해서, 제 1 카테고리의 루트 모델 및 부분 모델들 중 적어도 하나을 기준으로 설계된 필터의 반응값을 계산할 수 있다.
영상 처리 장치 (100) 는 추출된 특징맵에 대한 반응값이, 제 1 카테고리의 루트 모델 및 부분 모델들 중 적어도 하나에 대해 할당된 임계값보다 작을 경우, 대상 영상이 제 1 카테고리에 포함되는 대상 물체에 대한 영상을 포함하지 않는 것으로 판단할 수 있다. 임계값은 제 1 카테고리에 대한 포지티브 샘플들과 네거티브 샘플들을 학습함으로써, 물체 탐지 정확도를 가장 높이는 것으로 결정된 값일 수 있다. 예를 들어, 영상 처리 장치 (100) 는, 깁스 샘플링 (Gibbs sampling) 방식을 이용하여 최적화된 임계값을 결정할 수 있다.
이 때, 영상 처리 장치 (100) 는, 하나의 카테고리에 대해서 다수의 부분 모델들을 가지므로, 대상 영상을 모든 카테고리의 모든 부분 모델들과 비교하는 것은 복잡한 계산이 요구되고 많은 시간이 소요된다.
따라서, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 카테고리의 루트 모델에 기초하여 설계된 루트 필터 및 물체의 부분 모델들에 기초하여 설계된 복수의 부분 필터들이 직렬로 나열된 직렬 분류기 (cascade classifier) 를 이용할 수 있다.
도 12 는 본 발명의 일 실시예에 따른 직렬 분류기를 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 직렬 분류기 (1200) 는, 복수의 카테고리들에 대한 복수의 루트 필터들, 및 각 카테고리에 대한 복수의 부분 필터들을 포함할 수 있다. 도 12에 도시된 직렬 분류기 (1200) 는, 영상 처리 장치 (100) 의 영상 분석부 (120) 에 포함될 수 있다.
도 12 에 도시된 직렬 분류기 (1200) 는, 제 1 카테고리의 루트 모델을 기준으로 설계된 제 1 카테고리 루트 필터 (1210), 제 N 카테고리 (N 은 자연수) 의 루트 모델을 기준으로 설계된 제 N 카테고리 루트 필터 (1220) 를 포함한다. 도 12 에 도시된 직렬 분류기 (1200) 는 제 N 카테고리에 포함되는 물체의 제 1 부분에 대한 부분 모델을 기준으로 설계된 제 N 카테고리 제 1 부분 필터 (1222), 제 N 카테고리에 포함되는 물체의 제 N 부분에 대한 부분 모델을 기준으로 설계된 제 N 카테고리 제 N 부분 필터 (1224) 포함한다.
도 12 에는 제 1 카테고리의 루트 필터 (1210) 및 제 N 카테고리의 루트 필터 (1220) 만 도시되었지만, 직렬 분류기 (1200) 는 제 2 카테고리 내지 제 N-1 카테고리의 루트 필터들도 포함할 수 있다. 또한, 도 12 에는 제 N 카테고리의 부분 필터들만 도시되었지만, 직렬 분류기 (1200) 는 제 1 카테고리 내지 제 N-1 카테고리의 부분 필터들도 포함할 수 있다.
도 12 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상 내에 포함되는 소정 영역으로부터 추출된 특징맵 (M) 에 대한 제 1 카테고리 루트 필터 (1210) 의 반응값을 계산할 수 있다. 영상 처리 장치 (100) 는, 제 1 카테고리 루트 필터 (1210) 의 반응값이 임계값보다 작을 경우, 상기 영역은 제 1 카테고리에 포함되는 물체의 영상을 포함하지 않는 것으로 판단할 수 있다. 따라서, 영상 처리 장치 (100) 는, 제 1 카테고리에 포함되는 물체의 영상을 포함하지 않는 것으로 판단된 영역에 대해서는, 제 1 카테고리의 부분 모델들과 해당 영역을 비교하는 동작을 생략함으로써 연산 속도를 높일 수 있다. 이하, 카테고리에 대한 영상이란, 해당 카테고리에 포함되는 물체의 영상을 의미한다.
영상 처리 장치 (100) 는, 대상 영상이 각 카테고리에 포함되는 물체의 영상을 포함하는지 여부를 판단하는 동작을, 복수의 카테고리들 각각에 대해서 반복해서 수행할 수 있다.
도 12 에 도시된 바와 같이, 영상 처리 장치 (100) 는, 대상 영상 내에 포함되는 소정 영역으로부터 추출된 특징맵 (M) 에 대한 제 N 카테고리 루트 필터 (1220) 의 반응값을 계산할 수 있다. 영상 처리 장치 (100) 는, 제 N 카테고리 루트 필터 (1220) 의 반응값이 임계값보다 작을 경우, 상기 영역은 제 N 카테고리에 대한 영상을 포함하지 않는 것으로 판단할 수 있다.
반면에, 제 N 카테고리 루트 필터 (1220) 의 반응값이 임계값보다 크거나 같을 경우, 영상 처리 장치 (100) 는, 대상 영상 내에 포함되는 소정 영역으로부터 추출된 특징맵 (HM) 에 대한 제 N 카테고리의 제 1 부분 필터 (1222) 의 반응값을 계산할 수 있다.
연산량을 줄이기 위해서, 영상 처리 장치 (100) 는, 포지티브 샘플들 및 네거티브 샘플들을 학습함으로써 특징맵 모델들을 생성함에 있어서, 루트 모델을 부분 모델들보다 낮은 해상도에서 생성할 수 있다. 또한, 영상 처리 장치 (100) 는, 루트 필터와의 반응값을 계산할 때에는 대상 영상의 소정 영역으로부터 낮은 해상도로 추출된 특징맵 (M) 을 이용할 수 있다. 영상 처리 장치 (100) 는, 부분 필터와의 반응값을 계산할 때에는 대상 영상의 소정 영역으로부터 높은 해상도로 추출된 특징맵 (HM) 을 이용할 수 있다. 영상 처리 장치 (100) 는 필터에 따라 해상도가 다른 특징맵에 대한 반응값을 계산함으로써 연산량을 줄일 수 있다.
제 N 카테고리의 제 1 부분 필터 (1222) 의 반응값이 임계값보다 작을 경우, 상기 영역은 제 1 카테고리에 대한 영상을 포함하지 않는 것으로 판단할 수 있다. 반면에, 제 N 카테고리의 제 1 부분 필터 (1222) 의 반응값이 임계값보다 크거나 같을 경우, 영상 처리 장치 (100) 는, 대상 영상 내에 포함되는 소정 영역으로부터 추출된 특징맵 (HM) 에 대한 제 N 카테고리의 제 2 부분 필터 (미도시) 의 반응값을 계산할 수 있다.
도 12 에 도시된 바와 같이, 제 N 카테고리에 대한 모든 부분 필터들의 특징맵 (HM) 에 대한 반응값이 임계값보다 크거나 같을 경우, 영상 처리 장치 (100) 는, 상기 영역은 제 N 카테고리에 대한 영상을 포함하는 것으로 판단할 수 있다. 또는, 영상 처리 장치 (100) 는, 제 N 카테고리에 대한 모든 부분 필터들의 특징맵 (HM) 에 대한 반응값이 임계값보다 크거나 같을 경우, 제 N 카테고리의 루트 필터 및 부분 필터들을 모두 고려하여 대상 영상 내에 포함되는 상기 영역에 대한 매칭 스코어를 계산할 수 있다. 영상 처리 장치 (100) 는, 매칭 스코어를 미리 결정된 값과 비교하여, 최종적으로 상기 영역이 제 N 카테고리에 대한 영상을 포함하는지 여부를 판단할 수 있다.
따라서, 본 발명의 일 실시예에 따른 직렬 분류기 (1200) 에 의하면, 카테고리의 루트 필터에 의해 해당 카테고리에 대한 영상을 포함하지 않는 것으로 판단된 대상 영상의 영역을 탐지 영역으로부터 제외시킴으로써, 해당 카테고리에 대한 탐지 영역을 줄일 수 있다. 따라서 본 발명의 일 실시예에 따른 직렬 분류기 (1200) 에 의하면, 연산 속도가 빨라지는 효과를 얻을 수 있다.
한편, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 카테고리의 부분 모델들의 우선 순위에 기초하여, 직렬 분류기 (1200) 상에 대응되는 부분 필터들을 나열할 수 있다. 부분 모델들의 우선 순위는, 부분 모델들을 정규화하고, 전체 부분 모델들에 대해 각 부분 모델이 어떠한 비중을 가지고 있는지를 나타내는 가중치를 계산함으로써 결정될 수 있다. 즉, 영상 처리 장치 (100) 는, 부분 모델의 놈 (norm) 을 부분 모델의 가중치로서 계산하고, 전체 부분 모델들에 대해 각 부분 모델을 정규화함으로써 부분 모델들의 우선 순위를 결정할 수 있다. 영상 처리 장치 (100) 는, 가중치가 높은 부분 모델과 대상 영상을 먼저 비교함으로써 연산 효율을 높일 수 있다.
또한, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 카테고리의 루트 모델에 대한 부분 모델들의 위치 정보를 더 고려하여, 대상 영상이 해당 카테고리에 대한 영상을 포함하는지 여부를 판단할 수 있다.
본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상이 카테고리에 대한 영상을 포함하는지 여부를 판단하기 위해서, 해당 카테고리에 대한 복수의 영상들을 학습하는 동작을 수행할 수 있다. 이하, 영상 처리 장치 (100) 가 제 1 카테고리에 대한 복수의 영상들을 학습하는 경우를 예로 들어, 설명한다.
본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상을 분석하기에 앞서, 제 1 카테고리의 루트 모델에 대한 부분 모델들의 상대적인 위치를 학습할 수 있다. 따라서, 영상 처리 장치 (100) 는, 루트 모델에 대한 복수의 부분 모델들의 위치 정보를 더 고려하여, 대상 영상이 제 1 카테고리에 대한 영상을 포함하는지 여부를 판단할 수 있다. 영상 처리 장치 (100) 는, 대상 영상이 제 1 카테고리에 대한 영상을 포함하는지 여부를 판단하기 위해서, 대상 영상으로부터 추출된 대상 물체의 형상과 제 1 카테고리의 루트 모델 및 부분 모델들을 비교할 수 있다.
영상 처리 장치 (100) 는, 대상 영상이 제 1 카테고리에 대한 영상을 포함하는지 여부를 판단하기 위해서, 대상 물체의 형상에 대한, 제 1 카테고리의 루트 필터 및 모든 부분 필터들의 반응값들의 합을 계산할 수 있다. 또한, 영상 처리 장치 (100) 는, 제 1 카테고리의 루트 모델에 대한 부분 모델들의 위치와 비교하여, 대상 물체 전체에 대한 대상 물체의 부분들의 위치를 비교할 수 있다. 영상 처리 장치 (100) 는, 반응값들의 합으로부터, 부분 모델들의 위치로부터 대상 물체의 부분들의 위치가 멀리 떨어져 있는 정도를 뺌으로써 매칭 스코어를 계산할 수 있다.
영상 처리 장치 (100) 는, 매칭 스코어에 기초하여, 대상 물체가 제 1 카테고리에 포함되는지 여부를 판단할 수 있다. 대상 물체의 형상이 높은 매칭 스코어를 얻기 위해서는, 대상 물체의 형상이 제 1 카테고리의 루트 모델 및 부분 모델들과 유사한 특징을 가져야한다. 또한, 대상 물체의 형상이 높은 매칭 스코어를 얻기 위해서는, 대상 물체의 부분들의 형상이, 제 1 카테고리의 부분 모델들에 대해 학습된 위치로부터 멀리 떨어지지 않아야한다.
따라서, 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 물체의 부분들의 위치 변형에 대해 패널티를 가지고 매칭 스코어를 계산하기 때문에, 대상 영상이 촬영된 각도나 대상 물체의 변형에 대해서 강인하게, 대상 물체가 포함되는 카테고리를 판단할 수 있다.
도 13 은 본 발명의 일 실시예에 따라 대상 영상이 카테고리에 대한 영상을 포함하는지 여부를 판단하기 위해서, 해당 카테고리에 대한 복수의 영상들을 학습하는 방법을 설명하기 위한 흐름도이다.
단계 S1310 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 제 1 카테고리와 관련된 복수의 영상들을 포함하는 포지티브 샘플들 및 제 1 카테고리와 관련되지 않은 복수의 영상들을 포함하는 네거티브 샘플들을 획득할 수 있다.
단계 S1320 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 는, 포지티브 샘플들 및 네거티브 샘플들로부터 복수의 특징맵들을 생성할 수 있다. 예를 들어, 영상 처리 장치 (100) 는, 영상 처리 장치 (100) 는, 포지티브 샘플들 및 네거티브 샘플들로부터 HOG 특징을 추출함으로써 복수의 HOG 특징맵들을 생성할 수 있다.
단계 S1330 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 제 1 카테고리에 대한 루트 모델을 학습하기 위해서, 부트 스트랩핑 학습 (Goot Strapping Learning) 을 수행할 수 있다.
먼저, 영상 처리 장치 (100) 는, 포지티브 샘플들과 네거티브 샘플들로부터 생성된 복수의 특징맵들을 이용하여 제 1 카테고리의 루트 모델을 학습한다.
영상 처리 장치 (100) 는, 학습된 루트 모델을 이용하여, 제 1 카테고리와 관련되지 않은 영상들을 슬라이딩 윈도우 검색 (sliding window seach) 한다. 영상 처리 장치 (100) 는, 슬라이딩 윈도우 검색 결과, 제 1 카테고리와 관련된 영상이라고 잘못 판단된 제 1 카테고리와 관련되지 않은 영상이 있는지 확인한다. 영상 처리 장치 (100) 는, 잘못 판단된 영상을 네거티브 샘플들에 포함시켜 루트 모델을 재학습할 수 있다. 즉, 영상 처리 장치 (100) 가, 제 1 카테고리에 대한 영상이라고 판단한, 제 1 카테고리와 관련되지 않은 영상을 네거티브 샘플들에 추가함으로써 루트 모델을 재학습할 수 있다.
영상 처리 장치 (100) 는 잘못 탐지된 영상을 네거티브 샘플들에 추가함으로써 루트 모델을 재학습하는 과정을 반복함으로써, 물체 탐지 정확도를 높일 수 있다.
단계 S1340 에서 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 직렬 분류기 학습을 수행할 수 있다.
영상 처리 장치 (100) 는, 제 1 카테고리에 대한 루트 모델과 부분 모델들을 나누어 학습할 수 있다. 본 발명의 일 실시예에 따른 영상 처리 장치 (100) 는, 대상 영상이 카테고리에 대한 영상을 포함하는지 여부를 판단하는데 있어서, 부분 모델들의 우선 순위를 고려할 수 있다. 영상 처리 장치 (100) 는, 부분 모델들의 우선 순위를 학습함으로써, 복수의 부분 필터들이 직렬로 나열된 직렬 분류기를 학습할 수 있다.
영상 처리 장치 (100) 는, 복수의 부분 필터들이 나열되는 순서, 즉, 부분 모델들의 우선 순위, 를 결정한 후, 각 필터에 대한 임계값을 학습할 수 있다. 각 필터에 대한 임계값은 실험적으로 최적화된 값일 수 있다. 예를 들어, 영상 처리 장치 (100) 는, 깁스 샘플링 방식을 이용하여, 직렬 구조에서 하나의 부분 필터를 제외한 모든 부분 필터들의 임계값을 고정한 후, 하나의 부분 필터의 임계값을 바꿔가면서 최고의 탐지율을 보이는 임계값을 구할 수 있다. 영상 처리 장치 (100) 는, 각 부분 필터에 대해서 이러한 과정을 반복하여 최적화된 임계값을 계산할 수 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (21)

  1. 영상 처리 장치가 영상을 처리하는 방법에 있어서,
    대상 영상을 획득하는 단계;
    상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하는 단계;
    상기 추출된 형상에 기초하여 상기 대상 물체가 포함되는 카테고리를 결정하는 단계; 및
    상기 카테고리와 관련된 적어도 하나의 키워드를 포함하는 부가 정보와 매핑하여 상기 대상 영상을 저장하는 단계를 포함하고,
    상기 영상 처리 장치의 제 1 위치 정보를 획득하는 단계;
    상기 카테고리와 관련된 공간 정보를 획득하는 단계; 및
    상기 공간 정보와 상기 제 1 위치 정보를 이용하여 상기 영상 처리 장치의 제 2 위치 정보를 생성하는 단계를 더 포함하는 것을 특징으로 하는 것을 특징으로 하는, 영상 처리 방법.
  2. 제 1 항에 있어서,
    사용자로부터 키워드를 수신하는 단계;
    상기 수신된 키워드와 관련된 상기 부가 정보와 매핑된 상기 대상 영상을 검색하는 단계; 및
    상기 대상 영상을 디스플레이하는 단계를 더 포함하는, 영상 처리 방법.
  3. 제 1 항에 있어서,
    상기 대상 영상을 획득하는 단계는, 상기 대상 영상이 획득되는 시각에 대한 정보를 획득하는 단계를 포함하고,
    상기 부가 정보는, 상기 시각에 대한 정보와 관련된 적어도 하나의 키워드를 더 포함하는 것을 특징으로 하는, 영상 처리 방법.
  4. 삭제
  5. 제 1 항에 있어서,
    상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하는 단계는,
    상기 대상 영상의 픽셀들의 밝기 변화도를 나타내는 특징맵을 추출하는 단계를 포함하고,
    상기 대상 물체가 포함되는 카테고리를 결정하는 단계는,
    상기 추출된 특징맵과, 제 1 카테고리에 포함되는 물체의 형상에 대해서 미리 학습된 적어도 하나의 특징맵 모델을 비교하는 단계를 포함하는 것을 특징으로 하는, 영상 처리 방법.
  6. 제 5 항에 있어서,
    상기 추출된 특징맵과 상기 적어도 하나의 특징맵 모델을 비교하는 단계는,
    상기 적어도 하나의 특징맵 모델에 기초하여 설계된 필터의 상기 추출된 특징맵에 대한 반응값을 계산하는 단계; 및
    상기 반응값이 상기 특징맵 모델에게 할당된 임계값보다 작을 경우, 상기 대상 물체는 상기 제 1 카테고리에 포함되지 않는 것으로 판단하는 단계를 포함하는 것을 특징으로 하는, 영상 처리 방법.
  7. 제 5 항에 있어서,
    상기 추출된 특징맵과 상기 적어도 하나의 특징맵 모델을 비교하는 단계는,
    상기 제 1 카테고리에 포함되는 물체의 전체 형상에 대해서 미리 학습된 특징맵 모델인 루트 모델과 상기 추출된 특징맵을 비교하여 상기 대상 물체가 상기 제 1 카테고리에 포함되는지 여부를 판단하는 제 1 판단을 수행하는 단계; 및
    상기 제 1 판단 결과에 따라, 상기 대상 물체가 상기 제 1 카테고리에 포함된다고 판단되는 경우, 상기 제 1 카테고리에 포함되는 물체의 부분들의 형상들에 대해서 미리 학습된 특징맵 모델들인 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계를 포함하는 것을 특징으로 하는, 영상 처리 방법.
  8. 제 7 항에 있어서,
    상기 특징맵을 추출하는 단계는,
    상기 루트 모델과의 비교를 위해서, 제 1 해상도에서 상기 대상 영상으로부터 제 1 특징맵을 추출하는 단계; 및
    상기 복수의 부분 모델들 중 적어도 하나와의 비교를 위해서, 제 2 해상도에서 상기 대상 영상으로부터 제 2 특징맵을 추출하는 단계를 포함하고,
    상기 제 1 해상도는 상기 제 2 해상도보다 낮은 것을 특징으로 하는, 영상 처리 방법.
  9. 제 7 항에 있어서,
    상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계는,
    상기 복수의 부분 모델들의 우선 순위에 기초하여, 상기 복수의 부분 모델들 중 적어도 하나를 선택하는 단계; 및
    상기 선택된 부분 모델과 상기 추출된 특징맵을 비교하는 단계를 비교하는 단계를 포함하는 것을 특징으로 하는, 영상 처리 방법.
  10. 제 7 항에 있어서,
    상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계는,
    상기 루트 모델에 대한 상기 복수의 부분 모델들의 위치 정보를 더 고려하여, 상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 단계를 포함하는 것을 특징으로 하는, 영상 처리 방법.
  11. 영상 처리 장치에 있어서,
    대상 영상을 획득하는 영상 획득부;
    상기 대상 영상에 포함되는, 대상 물체의 형상을 추출하고, 상기 추출된 형상에 기초하여 상기 대상 물체가 포함되는 카테고리를 결정하는 영상 분석부;
    상기 카테고리와 관련된 적어도 하나의 키워드를 포함하는 부가 정보와 매핑하여 상기 대상 영상을 저장하도록 저장부를 제어하는 제어부; 및
    상기 영상 처리 장치의 제 1 위치 정보를 획득하는 위치 검출부를 포함하고,
    상기 제어부는,
    상기 카테고리와 관련된 공간 정보를 획득하고, 상기 공간 정보와 상기 제 1 위치 정보를 이용하여 상기 영상 처리 장치의 제 2 위치 정보를 생성하는 것을 특징으로 하는, 영상 처리 장치.
  12. 제 11 항에 있어서,
    사용자로부터 키워드를 수신하는 사용자 입력부; 및
    상기 수신된 키워드와 관련된 상기 부가 정보와 매핑된 상기 대상 영상을 디스플레이하는 디스플레이부를 더 포함하고,
    상기 제어부는, 상기 수신된 키워드와 관련된 상기 부가 정보와 매핑된 상기 대상 영상을 상기 저장부로부터 검색하는 것을 특징으로 하는, 영상 처리 장치.
  13. 제 11 항에 있어서,
    상기 영상 획득부는, 상기 대상 영상이 획득되는 시각에 대한 정보를 더 획득하고,
    상기 부가 정보는, 상기 시각에 대한 정보와 관련된 적어도 하나의 키워드를 더 포함하는 것을 특징으로 하는, 영상 처리 장치.
  14. 삭제
  15. 제 11 항에 있어서,
    상기 영상 분석부는,
    상기 대상 영상의 픽셀들의 밝기 변화도를 나타내는 특징맵을 추출하는 특징맵 추출부를 포함하고,
    상기 추출된 특징맵과, 제 1 카테고리에 포함되는 물체의 형상에 대해서 미리 학습된 적어도 하나의 특징맵 모델을 비교하는 것을 특징으로 하는, 영상 처리 장치.
  16. 제 15 항에 있어서,
    상기 영상 분석부는,
    상기 적어도 하나의 특징맵 모델에 기초하여 설계된 필터의 상기 추출된 특징맵에 대한 반응값을 계산하고,
    상기 반응값이 상기 특징맵 모델에게 할당된 임계값보다 작을 경우, 상기 대상 물체는 상기 제 1 카테고리에 포함되지 않는 것으로 판단하는 것을 특징으로 하는, 영상 처리 장치.
  17. 제 15 항에 있어서,
    상기 영상 분석부는,
    상기 제 1 카테고리에 포함되는 물체의 전체 형상에 대해서 미리 학습된 특징맵 모델인 루트 모델과 상기 추출된 특징맵을 비교하여 상기 대상 물체가 상기 제 1 카테고리에 포함되는지 여부를 판단하는 제 1 판단을 수행하고,
    상기 제 1 판단 결과에 따라, 상기 대상 물체가 상기 제 1 카테고리에 포함된다고 판단되는 경우, 상기 제 1 카테고리에 포함되는 물체의 부분들의 형상들에 대해서 미리 학습된 특징맵 모델들인 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 것을 특징으로 하는, 영상 처리 장치.
  18. 제 17 항에 있어서,
    상기 영상 분석부는,
    상기 루트 모델과의 비교를 위해서, 제 1 해상도에서 상기 대상 영상으로부터 제 1 특징맵을 추출하고, 상기 복수의 부분 모델들 중 적어도 하나와의 비교를 위해서, 제 2 해상도에서 상기 대상 영상으로부터 제 2 특징맵을 추출하는 단계를 포함상기 물체의 부분들에 대한 상기 복수의 부분 모델들을 생성하는 학습부를 더 포함하고,
    상기 제 1 해상도는 상기 제 2 해상도보다 낮은 것을 특징으로 하는, 영상 처리 장치.
  19. 제 17 항에 있어서,
    상기 영상 분석부는,
    상기 복수의 부분 모델들의 우선 순위에 기초하여, 상기 복수의 부분 모델들 중 적어도 하나를 선택하고, 상기 선택된 부분 모델과 상기 추출된 특징맵을 비교하는 단계를 비교하는 것을 특징으로 하는, 영상 처리 장치.
  20. 제 17 항에 있어서,
    상기 영상 분석부는,
    상기 루트 모델에 대한 상기 복수의 부분 모델들의 위치 정보를 더 고려하여, 상기 복수의 부분 모델들 중 적어도 하나와 상기 추출된 특징맵을 비교하는 것을 특징으로 하는, 영상 처리 장치.
  21. 제 1 항 내지 제 3 항 및 제 5 항 내지 제 10 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.

KR1020130134372A 2013-11-06 2013-11-06 영상 처리 방법 및 장치 KR102120864B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020130134372A KR102120864B1 (ko) 2013-11-06 2013-11-06 영상 처리 방법 및 장치
US14/532,483 US9639758B2 (en) 2013-11-06 2014-11-04 Method and apparatus for processing image
US15/474,400 US10902056B2 (en) 2013-11-06 2017-03-30 Method and apparatus for processing image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130134372A KR102120864B1 (ko) 2013-11-06 2013-11-06 영상 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20150052924A KR20150052924A (ko) 2015-05-15
KR102120864B1 true KR102120864B1 (ko) 2020-06-10

Family

ID=53007103

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130134372A KR102120864B1 (ko) 2013-11-06 2013-11-06 영상 처리 방법 및 장치

Country Status (2)

Country Link
US (2) US9639758B2 (ko)
KR (1) KR102120864B1 (ko)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102120864B1 (ko) * 2013-11-06 2020-06-10 삼성전자주식회사 영상 처리 방법 및 장치
KR101585379B1 (ko) * 2015-05-20 2016-01-14 서울대학교산학협력단 이벤트 데이터를 수집하는 시스템 및 이벤트 데이터를 수집하는 방법
AU2016211885A1 (en) * 2015-01-31 2017-06-29 Ventana Medical Systems, Inc. Systems and methods for area-of-interest detection using slide thumbnail images
CN104881798A (zh) * 2015-06-05 2015-09-02 北京京东尚科信息技术有限公司 基于商品图像特征的个性化搜索装置及方法
KR101732981B1 (ko) 2015-10-29 2017-05-08 삼성에스디에스 주식회사 개인화 특성 분석 시스템 및 방법
US9934431B2 (en) * 2016-07-27 2018-04-03 Konica Minolta Laboratory U.S.A., Inc. Producing a flowchart object from an image
CN106937087A (zh) * 2017-02-07 2017-07-07 深圳云天励飞技术有限公司 一种视频处理方法及装置
CN106971142B (zh) * 2017-02-07 2018-07-17 深圳云天励飞技术有限公司 一种图像处理方法及装置
US10338861B2 (en) * 2017-04-28 2019-07-02 Kyocera Document Solutions Inc. Formulation and implementation of rules associated with printing devices
US10740620B2 (en) 2017-10-12 2020-08-11 Google Llc Generating a video segment of an action from a video
CN108776800B (zh) * 2018-06-05 2021-03-12 Oppo广东移动通信有限公司 一种图像处理方法、移动终端及计算机可读存储介质
US11282225B2 (en) 2018-09-10 2022-03-22 Mapbox, Inc. Calibration for vision in navigation systems
WO2020055767A1 (en) * 2018-09-10 2020-03-19 Mapbox, Inc. Mapping objects detected in images to geographic positions
US20210133854A1 (en) * 2018-09-13 2021-05-06 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and terminal device
KR102108854B1 (ko) 2018-10-05 2020-05-12 재단법인대구경북과학기술원 딥러닝 네트워크 모델에 의한 실시간 객체 검출 방법 및 장치
CN109325548B (zh) * 2018-10-23 2021-03-23 北京旷视科技有限公司 图像处理方法、装置、电子设备及存储介质
US10832096B2 (en) * 2019-01-07 2020-11-10 International Business Machines Corporation Representative-based metric learning for classification and few-shot object detection
US11010641B2 (en) 2019-03-14 2021-05-18 Mapbox, Inc. Low power consumption deep neural network for simultaneous object detection and semantic segmentation in images on a mobile computing device
JP2020154764A (ja) * 2019-03-20 2020-09-24 東芝テック株式会社 情報処理装置及び読取システム
US11080833B2 (en) * 2019-11-22 2021-08-03 Adobe Inc. Image manipulation using deep learning techniques in a patch matching operation
KR20220000758A (ko) * 2020-06-26 2022-01-04 삼성전자주식회사 영상 검출 장치 및 그 동작 방법
CN113779435A (zh) * 2021-08-16 2021-12-10 盒马(中国)有限公司 类目导航方法及电子设备
KR102649806B1 (ko) * 2021-12-01 2024-03-21 주식회사 포딕스시스템 객체 이미지 표준화 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069999A1 (en) 2004-09-29 2006-03-30 Nikon Corporation Image reproduction apparatus and image reproduction program product
US20070201729A1 (en) 2006-02-06 2007-08-30 Mayumi Yuasa Face feature point detection device and method
US20100077003A1 (en) 2007-06-14 2010-03-25 Satoshi Kondo Image recognition device and image recognition method
US20140149376A1 (en) 2011-06-23 2014-05-29 Cyber Ai Entertainment Inc. System for collecting interest graph by relevance search incorporating image recognition system

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002099739A1 (en) * 2001-06-05 2002-12-12 Matrox Electronic Systems Ltd. Model-based recognition of objects using a calibrated image system
JP2003099453A (ja) * 2001-09-26 2003-04-04 Hitachi Ltd 情報提供システムおよびプログラム
CN101398890B (zh) * 2004-08-03 2010-12-08 松下电器产业株式会社 人物判定装置
JP2007141070A (ja) 2005-11-21 2007-06-07 Fujifilm Corp 画像処理装置、画像処理方法、および画像処理プログラム
KR20070056522A (ko) 2005-11-30 2007-06-04 엘지전자 주식회사 이동단말기의 영상 자동 분류 장치 및 방법
US20070183665A1 (en) * 2006-02-06 2007-08-09 Mayumi Yuasa Face feature point detecting device and method
JP4348353B2 (ja) 2006-04-04 2009-10-21 日本電信電話株式会社 パターン認識装置,パターン認識方法及びその方法を実現したプログラムを格納した記録媒体
JP4891712B2 (ja) * 2006-09-05 2012-03-07 株式会社日立ハイテクノロジーズ 類似度分布を利用したテンプレートマッチング方法を用いた検査装置
JP4926116B2 (ja) * 2008-04-16 2012-05-09 株式会社日立ハイテクノロジーズ 画像検査装置
KR101247891B1 (ko) * 2008-04-28 2013-03-26 고리츠다이가쿠호징 오사카후리츠다이가쿠 물체 인식용 화상 데이터베이스의 작성 방법, 처리 장치 및 처리용 프로그램
DE102008021639A1 (de) * 2008-04-30 2009-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer CT-Rekonstruktion eines Objekts mit einem hochaufgelösten interessierenden Objektbereich
US8385669B2 (en) * 2009-03-04 2013-02-26 Microsoft Corporation Scalable mutable tiled multi-resolution texture atlases
US8885923B2 (en) * 2010-01-12 2014-11-11 Nec Corporation Feature point selecting system, feature point selecting method and feature point selecting program
US8509526B2 (en) 2010-04-13 2013-08-13 International Business Machines Corporation Detection of objects in digital images
JP2011253292A (ja) * 2010-06-01 2011-12-15 Sony Corp 情報処理装置および方法、並びにプログラム
JP5703703B2 (ja) * 2010-11-11 2015-04-22 ソニー株式会社 情報処理装置、立体視表示方法及びプログラム
JP5640680B2 (ja) * 2010-11-11 2014-12-17 ソニー株式会社 情報処理装置、立体視表示方法及びプログラム
JP5573618B2 (ja) * 2010-11-12 2014-08-20 富士通株式会社 画像処理プログラムおよび画像処理装置
CN103221977B (zh) 2010-12-09 2015-10-14 松下电器产业株式会社 姿势状态估计装置及姿势状态估计方法
US20120233314A1 (en) * 2011-03-11 2012-09-13 Ebay Inc. Visualization of Access Information
US8831352B2 (en) * 2011-04-04 2014-09-09 Microsoft Corporation Event determination from photos
US8768071B2 (en) * 2011-08-02 2014-07-01 Toyota Motor Engineering & Manufacturing North America, Inc. Object category recognition methods and robots utilizing the same
JP5866728B2 (ja) * 2011-10-14 2016-02-17 サイバーアイ・エンタテインメント株式会社 画像認識システムを備えた知識情報処理サーバシステム
DE102011086318A1 (de) * 2011-11-14 2013-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Positionsbestimmung eines Objekts mittels Erfassung eines Positionsmusters durch optischen Sensor
US20140019867A1 (en) * 2012-07-12 2014-01-16 Nokia Corporation Method and apparatus for sharing and recommending content
JP6021541B2 (ja) * 2012-09-13 2016-11-09 キヤノン株式会社 画像処理装置及び方法
US9294475B2 (en) * 2013-05-13 2016-03-22 Hoyos Labs Ip, Ltd. System and method for generating a biometric identifier
JP5845211B2 (ja) * 2013-06-24 2016-01-20 キヤノン株式会社 画像処理装置、画像処理方法
FR3009635B1 (fr) * 2013-08-08 2016-08-19 St Microelectronics Sa Procede de recherche d'une image similaire dans une banque d'images a partir d'une image de reference
US9092865B2 (en) * 2013-08-16 2015-07-28 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Map generation for an environment based on captured images
KR102120864B1 (ko) * 2013-11-06 2020-06-10 삼성전자주식회사 영상 처리 방법 및 장치
JP2015095147A (ja) * 2013-11-13 2015-05-18 ソニー株式会社 表示制御装置、表示制御方法、およびプログラム
EP3076670A4 (en) * 2014-01-03 2017-08-23 Samsung Electronics Co., Ltd. Method for encoding video and apparatus therefor, and method for decoding video and apparatus therefor using effective parameter delivery
US9292926B1 (en) * 2014-11-24 2016-03-22 Adobe Systems Incorporated Depth map generation
US9857939B2 (en) * 2015-02-27 2018-01-02 Accenture Global Services Limited Three-dimensional virtualization
WO2016184703A1 (en) * 2015-05-21 2016-11-24 Koninklijke Philips N.V. Identifying living skin tissue in a video sequence
US9563643B2 (en) * 2015-06-25 2017-02-07 Intel Corporation Automatic metatagging in images
US10515289B2 (en) * 2017-01-09 2019-12-24 Qualcomm Incorporated System and method of generating a semantic representation of a target image for an image processing operation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069999A1 (en) 2004-09-29 2006-03-30 Nikon Corporation Image reproduction apparatus and image reproduction program product
US20070201729A1 (en) 2006-02-06 2007-08-30 Mayumi Yuasa Face feature point detection device and method
US20100077003A1 (en) 2007-06-14 2010-03-25 Satoshi Kondo Image recognition device and image recognition method
US20140149376A1 (en) 2011-06-23 2014-05-29 Cyber Ai Entertainment Inc. System for collecting interest graph by relevance search incorporating image recognition system

Also Published As

Publication number Publication date
KR20150052924A (ko) 2015-05-15
US20150125073A1 (en) 2015-05-07
US9639758B2 (en) 2017-05-02
US20170206227A1 (en) 2017-07-20
US10902056B2 (en) 2021-01-26

Similar Documents

Publication Publication Date Title
KR102120864B1 (ko) 영상 처리 방법 및 장치
CN109961009B (zh) 基于深度学习的行人检测方法、系统、装置及存储介质
US11144786B2 (en) Information processing apparatus, method for controlling information processing apparatus, and storage medium
US10134165B2 (en) Image distractor detection and processing
JP6397144B2 (ja) 画像からの事業発見
US8553981B2 (en) Gesture-based visual search
US10606824B1 (en) Update service in a distributed environment
TW201837786A (zh) 基於圖像的車輛定損方法、裝置、電子設備及系統
US20190132520A1 (en) Generating image previews based on capture information
CN109189879B (zh) 电子书籍显示方法及装置
US20090257663A1 (en) Image classification using capture-location-sequence information
JP2008020951A (ja) 物体検出装置、物体検出方法、および物体検出用プログラム
CN111008576B (zh) 行人检测及其模型训练、更新方法、设备及可读存储介质
US11550754B2 (en) Electronic apparatus and control method thereof
CN103426172A (zh) 基于视觉的目标跟踪方法及装置
CN111723637A (zh) 智能视频分析
CN112989877A (zh) 点云数据中标注对象的方法及装置
CN113269038B (zh) 一种基于多尺度的行人检测方法
CN114998962A (zh) 一种活体检测以及模型训练方法及装置
CN114299563A (zh) 预测人脸图像的关键点坐标的方法和装置
US20150149458A1 (en) Method for generating blocks for video searching and method for processing queries based on blocks generated thereby
Toprak et al. Limitations of feature-classifier strategies on pedestrian detection for self driving cars
Amlacher et al. Geo-contextual priors for attentive urban object recognition
US20230125410A1 (en) Information processing apparatus, image capturing system, method, and non-transitory computer-readable storage medium
US9892335B2 (en) Real-time system for determining current video scale

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant