KR102349059B1

KR102349059B1 - 영상의 관심영역으로부터 랜드마크를 결정하는 장치 및 방법

Info

Publication number: KR102349059B1
Application number: KR1020140154221A
Authority: KR
Inventors: 이선민; 김정배; 황영규; 한재준
Original assignee: 삼성전자주식회사
Priority date: 2014-11-07
Filing date: 2014-11-07
Publication date: 2022-01-10
Also published as: US10540540B2; US20160133002A1; KR20160054783A

Abstract

영상의 랜드마크를 결정하는 방법 및 장치가 제공된다. 예를 들어, 영상의 랜드마크를 결정하는 장치는 입력 영상의 관심 영역으로부터 검출된 제1 후보 랜드마크, 이전 프레임으로부터 추적된 제2 후보 랜드마크를 기준으로 설정된 키랜드마크와 비교하여, 키랜드마크와 유사한 랜드마크를 최종 랜드마크로 결정할 수 있다.

Description

영상의 관심영역으로부터 랜드마크를 결정하는 장치 및 방법{METHOD AND DEVICE TO DETERMINE LANDMARK FROM REGION OF INTEREST OF IMAGE}

이하, 영상의 랜드마크를 결정하는 장치 및 방법이 제공된다.

영상 처리와 해석에 있어서, 인간의 얼굴은 시각적인 판별과 신원확인에 대한 중요한 요소이다. 1990년대 초부터 얼굴인식과 얼굴 표정 해석에 대한 분석이 광범위하게 개발되어왔다.

최근에 영상의 흐름 속에서 얼굴검색과 신원확인을 위하여, 엠펙 세븐(MPEG-7) 얼굴 서술자(face descriptor)들이 제안되어 왔다. 종래의 얼굴인식 알고리즘에 반하여 상기 얼굴 서술자의 주요한 기능은 가능한 한 신속하고 효과적으로 조회 이미지와 똑같은 얼굴 이미지들을 검색하는 것이다.

얼굴인식기술이란 정지영상이나 동영상에 존재하는 한 사람 이상의 얼굴에 대하여 주어진 얼굴 데이터베이스를 이용하여 그 신원을 확인하는 기술을 나타낼 수 있다.

이러한 얼굴 인식 기술은 다른 생체인식기술인 지문인식 등과 다르게 자신의 신체 일부를 인식장치에 직접 접촉시키지 않아도 되고 생체정보의 획득방법에서 강제성이 적지만, 얼굴은 조명 및 포즈(자세)의 변화에 따라 자체의 변화가 심하고 주변환경에 매우 민감하기 때문에 인식률이 타 생체인식 기술에 비해 낮은 단점이 있다.

일 실시예에 따르면 영상의 랜드마크(landmark)를 결정하는 장치는 입력 영상(input image)의 관심 영역(region of interest)으로부터 현재 프레임에 대한 제1 후보 랜드마크(first candidate landmark)를 검출하는 랜드마크검출부(landmark detector); 상기 입력 영상의 이전 프레임의 최종 랜드마크 정보로부터 현재 프레임에 대한 제2 후보 랜드마크(second candidate landmark)를 추적하는 랜드마크추적부(landmark tracker); 및 상기 검출된 제1 후보 랜드마크 및 상기 추적된 제2 후보 랜드마크에 기초하여 현재 프레임에 대한 최종 랜드마크 정보를 결정하는 랜드마크교정부(landmark corrector)를 포함할 수 있다.

영상의 랜드마크를 결정하는 장치는 상기 제1 후보 랜드마크 및 상기 제2 후보 랜드마크를 비교한 결과에 기초하여 현재 프레임에 대한 키랜드마크(key-landmark)를 결정하는 키랜드마크결정부(key-landmark determiner)를 더 포함할 수 있다.

상기 키랜드마크결정부는, 상기 제1 후보 랜드마크의 위치 및 상기 제2 후보 랜드마크의 위치 간의 차이가 미리 정한 키 임계(key threshold)보다 작은 경우 상기 제1 후보 랜드마크 및 상기 제2 후보 랜드마크 중 하나를 상기 키랜드마크로 결정하고, 상기 랜드마크교정부는, 상기 키랜드마크와 관련된 정보를 상기 최종 랜드마크 정보로서 결정할 수 있다.

상기 랜드마크교정부는, 상기 제1 후보 랜드마크 및 상기 제2 후보 랜드마크 중 적어도 하나를 현재 프레임 전에 기저장된 키랜드마크와 비교한 결과에 기초하여 상기 최종 랜드마크 정보를 결정할 수 있다.

상기 랜드마크교정부는, 상기 제1 후보 랜드마크와 상기 기저장된 키랜드마크 간의 유사도(similarity level), 및 상기 제2 후보 랜드마크와 상기 기저장된 키랜드마크 간의 유사도를 산출한 결과에 기초하여 최종 랜드마크 정보를 결정할 수 있다.

상기 랜드마크교정부는, 상기 제1 후보 랜드마크를 구성하는 적어도 하나의 제1 컴포넌트(first component) 및 상기 제2 후보 랜드마크를 구성하는 적어도 하나의 제2 컴포넌트(second component)에 기초하여, 상기 적어도 하나의 제1 컴포넌트 및 상기 적어도 하나의 제2 컴포넌트 중 적어도 하나를 포함하도록 상기 최종 랜드마크 정보를 결정할 수 있다.

상기 랜드마크교정부는, 상기 적어도 하나의 제1 컴포넌트 및 상기 적어도 하나의 제2 컴포넌트를 현재 프레임 전에 기저장된 키랜드마크를 구성하는 적어도 하나의 기준 컴포넌트 중 대응하는 기준 컴포넌트와 비교하여, 유사도가 높은 컴포넌트가 상기 최종 랜드마크 정보에 포함되도록 결정할 수 있다.

영상의 랜드마크를 결정하는 장치는 현재 프레임에 대한 관심영역이 검출되지 않은 경우, 이전 프레임에서 결정된 최종 랜드마크 정보로부터 상기 관심영역을 예측하는 관심영역예측부(ROI predictor)를 더 포함할 수 있다.

상기 랜드마크추적부는, 상기 제2 후보 랜드마크의 추적이 성공하였는지 검증하고, 상기 랜드마크교정부는, 상기 제2 후보 랜드마크의 추적이 실패한 경우, 상기 제1 후보 랜드마크와 관련된 정보를 상기 최종 랜드마크 정보로 결정할 수 있다.

영상의 랜드마크를 결정하는 장치는 현재 프레임에 대한 관심영역을 검출하는 관심영역검출부(ROI detector)를 더 포함할 수 있다.

일 실시예에 따르면 영상의 랜드마크를 결정하는 방법은 입력 영상의 관심영역으로부터 현재 프레임에 대한 제1 후보 랜드마크를 검출하는 단계; 상기 입력 영상의 이전 프레임의 최종 랜드마크 정보로부터 현재 프레임에 대한 제2 후보 랜드마크를 추적하는 단계; 및 상기 검출된 제1 후보 랜드마크 및 상기 추적된 제2 후보 랜드마크에 기초하여 현재 프레임에 대한 최종 랜드마크 정보를 결정하는 단계를 포함할 수 있다.

영상의 랜드마크를 결정하는 방법은 상기 제1 후보 랜드마크 및 상기 제2 후보 랜드마크를 비교한 결과에 기초하여 현재 프레임에 대한 키랜드마크를 결정하는 단계를 더 포함할 수 있다.

상기 키랜드마크를 결정하는 단계는, 상기 제1 후보 랜드마크의 위치 및 상기 제2 후보 랜드마크의 위치 간의 차이가 미리 정한 키 임계(key threshold)보다 작은 경우 상기 제1 후보 랜드마크 및 상기 제2 후보 랜드마크 중 하나를 상기 키랜드마크로 결정하는 단계를 포함하고, 상기 최종 랜드마크 정보를 결정하는 단계는, 상기 키랜드마크와 관련된 정보를 상기 최종 랜드마크 정보로서 결정하는 단계를 포함할 수 있다.

상기 최종 랜드마크 정보를 결정하는 단계는, 상기 제1 후보 랜드마크 및 상기 제2 후보 랜드마크 중 적어도 하나를 현재 프레임 전에 기저장된 키랜드마크와 비교한 결과에 기초하여 상기 최종 랜드마크 정보를 결정하는 단계를 포함할 수 있다.

상기 최종 랜드마크 정보를 결정하는 단계는, 상기 제1 후보 랜드마크와 상기 기저장된 키랜드마크 간의 유사도(similarity level), 및 상기 제2 후보 랜드마크와 상기 기저장된 키랜드마크 간의 유사도를 산출한 결과에 기초하여 최종 랜드마크 정보를 결정하는 단계를 더 포함할 수 있다.

상기 최종 랜드마크 정보를 결정하는 단계는, 상기 제1 후보 랜드마크를 구성하는 적어도 하나의 제1 컴포넌트(first component) 및 상기 제2 후보 랜드마크를 구성하는 적어도 하나의 제2 컴포넌트(second component)에 기초하여, 상기 적어도 하나의 제1 컴포넌트 및 상기 적어도 하나의 제2 컴포넌트 중 적어도 하나를 포함하도록 상기 최종 랜드마크 정보를 결정하는 단계를 포함할 수 있다.

상기 최종 랜드마크 정보를 결정하는 단계는, 상기 적어도 하나의 제1 컴포넌트 및 상기 적어도 하나의 제2 컴포넌트를 현재 프레임 전에 기저장된 키랜드마크를 구성하는 적어도 하나의 기준 컴포넌트 중 대응하는 기준 컴포넌트와 비교하여, 유사도가 높은 컴포넌트가 상기 최종 랜드마크 정보에 포함되도록 결정하는 단계를 더 포함할 수 있다.

상기 제1 후보 랜드마크를 검출하는 단계는, 현재 프레임에 대한 관심영역이 검출되지 않은 경우, 이전 프레임에서 결정된 최종 랜드마크 정보로부터 상기 관심영역을 예측하는 단계를 더 포함할 수 있다.

상기 제2 후보 랜드마크를 추적하는 단계는, 상기 제2 후보 랜드마크의 추적이 성공하였는지 검증하는 단계를 포함하고, 상기 최종 랜드마크 정보를 결정하는 단계는, 상기 제2 후보 랜드마크의 추적이 실패한 경우, 상기 제1 후보 랜드마크와 관련된 정보를 상기 최종 랜드마크 정보로 결정하는 단계를 포함할 수 있다.

영상의 랜드마크를 결정하는 방법은 현재 프레임에 대한 관심영역을 검출하는 단계를 더 포함할 수 있다.

도 1은 일 실시예에 따른 관심영역(ROI, region of interest) 및 랜드마크(landmark)를 도시한 도면이다.
도 2 및 도 3은 일 실시예에 따라 영상의 랜드마크를 결정하는 방법을 도시한 흐름도이다.
도 4는 일 실시예에 따라 검출된 관심영역을 도시한 도면이다.
도 5는 일 실시예에 따라 검출된 제1 후보 랜드마크를 도시한 도면이다.
도 6은 일 실시예에 따라 이전 프레임에서 결정된 최종 랜드마크를 도시한 도면이다.
도 7 및 도 8은 일 실시예에 따라 도 6에서 결정된 최종 랜드마크가 추적된 제2 후보 랜드마크를 도시한 도면이다.
도 9는 일 실시예에 따라 제2 후보 랜드마크의 추적이 성공하였는지 검증하는 과정을 도시한 도면이다.
도 10은 다른 일 실시예에 따라 추적된 제2 후보 랜드마크를 도시한 도면이다.
도 11는 일 실시예에 따른 최종 랜드마크를 도시한 도면이다.
도 12은 일 실시예에 따른 영상의 랜드마크를 결정하는 장치를 도시한 블럭도이다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 일 실시예에 따른 관심영역(ROI, region of interest) 및 랜드마크(landmark)를 도시한 도면이다.

도 1에 도시된 입력 영상(101)의 관심영역(110)은 복수의 랜드마크(121)를 포함한다.

입력 영상(101)은 적어도 하나의 연속적인 프레임으로 구성되는 영상으로서, 동영상(video)를 포함할 수 있다. 예를 들어, 입력 영상(101)은 객체로서 풍경, 인물, 동물 및 사물 등이 동적으로 또는 정적으로 등장하는 영상을 포함할 수 있다.

관심영역(110)은 입력 영상(101)에서 사용자가 관심을 가지는 것으로 설정된 영역을 나타낼 수 있다. 이하, 본 명세서에서 관심영역(110)은 사람의 얼굴(human face)이 포함되는 영역(예를 들어, 얼굴 영역(face region))를 예로 들고 있으나, 이로 한정하는 것은 아니고 관심영역(110)은 입력 영상(101)에서 임의의 객체가 포함되는 영역으로 설정될 수도 있다.

랜드마크(121)는 관심영역(110) 내에서 객체의 각 특징(feature)을 대표하는 특징점(feature point)을 나타낼 수 있다. 예를 들어, 관심영역(110)이 얼굴 영역인 경우, 랜드마크(121)는 사람의 얼굴을 대표하는 특징인 눈, 코, 입, 및 눈썹 등에 대응하는 특징점(point)을 나타낼 수 있다. 랜드마크(121)는 객체의 각 특징에 대해 적어도 하나가 설정될 수 있고, 하나의 특징에 복수의 랜드마크(121)가 설정될 수도 있다. 도 1에서 얼굴의 특징 중 왼쪽 눈썹을 예로 들면, 왼쪽 눈썹에 대응하는 랜드마크(121)는 4개로 도시될 수 있다. 다만, 이로 한정하는 것은 아니고, 관심영역(110) 내의 객체에 대해 설정된 특징의 개수 및 각 특징에 대한 랜드마크(121)의 개수는 필요에 따라 지정될 수 있다. 또한, 컴포넌트(component)는 각 특징에 대응하는 랜드마크(121)의 집합을 나타낼 수 있다.

입력 영상(101)으로부터 관심영역(예를 들어, 얼굴 영역)(110)의 특징점을 찾아서 활용하는 다양한 어플리케이션이 있을 수 있다. 예를 들어, 3D 개인 얼굴을 생성하는 어플리케이션, 얼굴을 인식하는 어플리케이션, 얼굴 복제(Face Cloning) 어플리케이션, 영화 및 게임 등일 수 있다.

여기서, 얼굴의 랜드마크(121)에 대한 검출 및 추적의 정확성은 얼굴 인식 및 복제 등의 응용 어플리케이션 성능에 직접적인 영향을 미칠 수 있다.

랜드마크(121)의 검출은 예를 들어, 사전에 획득된 얼굴 데이터에 대한 학습 및 통계 모델(예를 들어, AAM(active appearance model), SDM(Supervised Descent Method) 등)을 이용하여 수행될 수 있으나, 초기 값에 민감하여 입력 영상과 학습에 사용된 영상이 크게 다른 경우에는 정확성이 보장되지 않는다. 또한, 얼굴이 검출되지 않는 경우에는 랜드마크(121)의 검출이 불가능하다.

랜드마크(121)의 추적은 예를 들어, 연속적인 영상이 입력되는 경우, 이전 프레임에서 랜드마크(121)의 주변 화소 정보를 이용하여 현재 프레임에서의 랜드마크(121)의 위치를 예측할 수 있다. 다만, 이전 프레임에서 추적된 랜드마크(121)가 부정확한 경우에는 에러가 누적되면서 점진적으로 정확성이 저하될 수 있다.

일 실시예에 따르면 영상의 랜드마크를 결정하는 장치는, 학습 및 통계 모델을 이용하여 랜드마크를 검출하는 방식에서 정확도가 떨어지는 경우(예를 들어, 입력 영상이 학습 데이터와 크게 다른 경우로서, 포즈 변화 등)에도 높은 정확도로 랜드마크(121)를 결정할 수 있다.

예를 들어, 영상의 랜드마크를 결정하는 장치는 랜드마크 검출 방식(예를 들어, 학습 및 통계 정보를 활용한 포괄적 랜드마크(holistic Landmark) 검출) 및 로컬 패치(local)의 인텐시티 정보(intensity information)에 기반한 랜드마크 추적 방식을 결합하여, 신뢰도가 높은(reliable) 랜드마크(121)를 결정할 수 있다. 랜드마크를 결정하는 장치는 랜드마크 검출 및 랜드마크 추적으로부터 키랜드마크를 선정하고, 키랜드마크를 닫힌 루프(closed loop)를 통해 피드백(feedback)함으로써 정확한 랜드마크(121)를 결정한다.

하기에서, 키랜드마크를 이용하는 영상의 랜드마크를 결정하는 장치의 동작을 상세히 설명한다.

도 2 및 도 3은 일 실시예에 따라 영상의 랜드마크를 결정하는 방법을 도시한 흐름도이다.

이하, 본 명세서에서 순서도의 실선은 현재 프레임에서 수행되는 동작을 나타낸 것이고, 점선은 다음 프레임(next frame)에서 수행되는 동작을 나타낸 것일 수 있다.

도 2는 영상의 랜드마크를 결정하는 방법을 개괄적으로 도시한 흐름도이다.

이하, 본 명세서에서 순서도의 실선은 현재 프레임에서 수행되는 동작을 나타낸 것이고, 점선은 다음 프레임에서 수행되는 동작을 나타낸 것일 수 있다.

우선, 단계(210)에서는 관심영역검출부가 현재 프레임에 대한 관심영역을 검출할 수 있다. 예를 들어, 관심영역이 얼굴 영역인 경우, 관심영역검출부는 비올라 존스 얼굴 검출기(Viola-Jones Face detector)를 이용하여, 얼굴의 적어도 일부를 포함하는 사각 영역(rectangular region)을 얼굴 영역으로서 검출할 수 있다.

그리고 단계(220)에서는 랜드마크검출부가 관심영역으로부터 현재 프레임에 대한 제1 후보 랜드마크를 검출할 수 있다. 여기서, 랜드마크검출부는 미리 구축된 통계 모델 및 학습 데이터를 이용하여 관심영역으로부터 제1 후보 랜드마크를 검출할 수 있다. 예를 들어, 관심영역이 얼굴 영역인 경우, 랜드마크검출부는 AAM(active appearance model), ASM(active shape model) 및 SDM(supervised descent method) 등을 이용하여 제1 후보 랜드마크를 검출할 수 있다.

이 때, 단계(230)에서는 랜드마크추적부가 이전 프레임(previous frame)으로부터 현재 프레임에 대한 제2 후보 랜드마크를 추적할 수 있다. 예를 들어, 랜드마크추적부는 이전 프레임의 최종 랜드마크 정보로부터 현재 프레임에 대한 제2 후보 랜드마크를 추적할 수 있다. 여기서, 이전 프레임의 최종 랜드마크 정보는 이전 프레임의 단계(250)에서 결정된 최종 랜드마크 정보일 수 있다.

예를 들어, 랜드마크추적부는 이웃 화소 밝기 정보를 비교하는 루카스-카나데 옵티컬 플로우(Lukas-Kanade Optical Flow) 방식 및 이전 프레임 랜드마크와 추적된 랜드마크의 로컬 패치의 유사도(similarity level)를 계산하는 방식 등을 이용하여 이전 프레임의 최종 랜드마크 정보로부터 상술한 제2 후보 랜드마크를 추적할 수 있다.

여기서, 로컬 패치의 유사도는 두 랜드마크 주변의 로컬 패치에 대한 히스토그램이 유사한 정도를 나타낼 수 있다. 예를 들어, 하기 도 9에서는 이전 프레임의 최종 랜드마크 주변의 로컬 패치의 히스토그램과 현재 프레임의 제2 후보 랜드마크 주변의 로컬 패치의 히스토그램이 유사한 정도를 나타낼 수 있다. 다른 예를 들어, 하기 도 10 및 도 11에서는 제1 후보 랜드마크 주변의 로컬 패치의 히스토그램 및 키랜드마크 주변의 로컬 패치의 히스토그램이 유사한 정도, 및 제2 후보 랜드마크 주변의 로컬 패치의 히스토그램 및 키랜드마크 주변의 로컬 패치의 히스토그램이 유사한 정도를 나타낼 수 있다.

이어서 단계(250)에서는 랜드마크교정부가 제1 후보 랜드마크 및 제2 후보 랜드마크에 기초하여 현재 프레임에 대한 최종 랜드마크 정보를 결정할 수 있다. 여기서, 최종 랜드마크 정보는 최종 랜드마크와 연관된 정보로서, 최종 랜드마크의 위치, 화소, 밝기, 및 히스토그램 등을 포함할 수 있다.

또한, 키랜드마크결정부(key-landmark determiner)는 제1 후보 랜드마크 및 제2 후보 랜드마크를 비교한 결과에 기초하여 현재 프레임에 대한 키랜드마크(key-landmark)를 결정할 수 있고, 결정된 키랜드마크를 상술한 랜드마크교정부로 제공할 수 있다.

키랜드마크는 이후 프레임(예를 들어, 현재 프레임 다음의 모든 프레임)에 대해 기준으로서 제공되는 신뢰도가 높은(reliable) 랜드마크일 수 있다. 제1 후보 랜드마크 및 제2 후보 랜드마크가 동일하거나 유사한 경우, 제1 후보 랜드마크 및 제2 후보 랜드마크가 키랜드마크로서 선정될 수 있다. 예를 들어, 신뢰도가 높은 랜드마크는 제1 후보 랜드마크 및 제2 후보 랜드마크 간의 거리가 키 임계(key threshold)보다 작은 경우, 제1 후보 랜드마크 및 제2 후보 랜드마크 중 하나, 또는 제1 후보 랜드마크와 제2 후보 랜드마크와 연관된 랜드마크(예를 들어, 제1 후보 랜드마크와 제2 후보 랜드마크의 평균 등)로 결정될 수 있다. 여기서, 미리 정한 키 임계는 두 랜드마크가 동일하거나 유사한 지 여부를 판단하기 위해 미리 정해진 두 랜드마크 간의 임계 거리를 나타낼 수 있다.

또한, 키랜드마크는 매프레임마다 또는 일정 주기마다 제1 후보 랜드마크 및 제2 후보 랜드마크를 비교함으로써 갱신될 수 있다. 키랜드마크를 이용한 최종 랜드마크의 결정은 하기 도 3 및 도 11에서 상세히 설명한다.

일 실시예에 따르면, 도 2의 키랜드마크를 이용하는 영상의 랜드마크를 결정하는 방법은 매 프레임마다 반복될 수 있다. 예를 들어, 키랜드마크를 이용하는 영상의 랜드마크를 결정하는 장치는 매 프레임마다 단계(220)에서 관심 영역으로부터 제1 후보 랜드마크를 검출하고, 단계(230)에서 제2 후보 랜드마크를 추적하여, 단계(250)에서 최종 랜드마크를 결정할 수 있다.

여기서, 키랜드마크를 이용하는 영상의 랜드마크를 결정하는 장치는 통계 특성 정보를 활용하여 제1 후보 랜드마크를 검출할 수 있고, 로컬 영상의 특성 정보를 이용하여 제2 후보 랜드마크를 추적할 수 있다. 키랜드마크를 이용하는 영상의 랜드마크를 결정하는 장치는 이종의 특성 정보(예를 들어, 통계 특성 정보 및 로컬 패치의 특성 정보)를 이용하여 신뢰도가 높은 랜드마크를 결정할 수 있다.

도 3은 영상의 랜드마크를 결정하는 세부 과정을 도시하는 흐름도이다.

우선, 단계(310)에서는 관심영역검출부가 현재 프레임에 대한 관심영역을 검출할 수 있다. 관심영역검출부는 상술한 도 2의 단계(210)과 유사하게 관심영역을 검출할 수 있다. 다만, 단계(310)에서 관심영역이 검출되지 않는 경우에는, 이전 프레임의 하기 단계(360)에서 예측된 관심영역을 랜드마크검출부로 제공할 수 있다.

예를 들어, 관심영역검출부는 입력 영상에서 비올라-존스 얼굴 검출기 등의 방법을 이용하여 얼굴 영역(예를 들어, 사각 영역)을 검출할 수 있다.

그리고 단계(320)에서는 랜드마크검출부가 관심영역으로부터 현재 프레임에 대한 제1 후보 랜드마크를 검출할 수 있다. 예를 들어, 랜드마크검출부는 얼굴의 주요 특징인 눈썹, 눈, 코, 입, 턱 등에 대응하는 제1 후보 랜드마크를 검출하여 얼굴 영역에 맞게 정렬(align)할 수 있다. 도 2에서 상술한 바와 같이 랜드마크검출부는 사전에 여러 사람의 얼굴 정보를 학습하고 평균 얼굴(Mean-Shape) 정보를 이용하여 입력 영상의 얼굴에 대응하는 랜드마크를 검출하는 방식으로서, AAM, ASM, 및 SDM 등의 방법을 사용할 수 있다.

이어서 단계(330)에서는 랜드마크추적부가 이전 프레임으로부터 현재 프레임에 대한 제2 후보 랜드마크를 추적할 수 있다. 여기서, 랜드마크추적부는 이전 프레임에서 검출된 개별 랜드마크를 추적하여 현재 프레임에서의 제2 후보 랜드마크를 추적할 수 있다. 예를 들어, 랜드마크추적부는 카나데 및 루카스(Kaneda-Lukas)가 제안한 이웃 화소 밝기 정보를 비교하는 옵티컬 플로우 방식 등을 사용할 수 있다.

그리고 단계(331)에서는 랜드마크추적부가 제2 후보 랜드마크의 추적이 성공하였는지 검증할 수 있다. 예를 들어, 랜드마크추적부는 이전 프레임의 최종 랜드마크와 추적된 제2 후보 랜드마크의 로컬 패치의 유사도를 계산하여 유사도가 임계치 보다 작은 점이 존재하는 경우, 추적 실패로 판단할 수 있다.

구체적으로 예를 들면, 랜드마크추적부는 양방향 옵티컬 플로우(Bi-Directional Optical Flow)를 수행하여, 두 결과가 일치하지 않는 경우 이전 프레임에서 찾아진 최종 랜드마크의 로컬 패치의 템플릿 매칭(Template Matching)을 수행하여 제2 후보 랜드마크를 교정할 수 있다. 랜드마크추적부는 템플릿 매칭 후에도 유사도가 임계치 보다 작은 점이 존재하는 경우, 추적 실패로 판단할 수 있다. 양방향 옵티컬 플로우에 의한 추적 검증은 하기 도 9에서 상세히 설명한다.

이어서 단계(340)에서는 키랜드마크결정부가 제1 후보 랜드마크 및 제2 후보 랜드마크에 기초하여 현재 프레임에 대한 키랜드마크를 결정할 수 있다. 여기서, 키랜드마크결정부는 검출된 제1 후보 랜드마크 및 추적된 제2 후보 랜드마크로부터 현재 프레임이 신뢰도가 높은 프레임(reliable frame)인 지를 결정함으로써 하기 단계(350)에서 랜드마크 교정의 기준으로 이용할 수 있다. 여기서, 신뢰도가 높은 프레임은 최종 랜드마크 결정의 기준이 되는 프레임으로서, 키프레임이라고 나타낼 수 있다. 키프레임과 연관된 정보는 예를 들어, 입력 영상 내에서 키랜드마크의 위치, 및 키랜드마크 주변의 로컬 패치의 히스토그램 등을 포함할 수 있다. 여기서, 히스토그램은 인텐시티의 분포에 대응할 수 있다.

키랜드마크결정부는 제1 후보 랜드마크의 위치 및 제2 후보 랜드마크의 위치 간의 차이가 미리 정한 키 임계보다 작은 경우 제1 후보 랜드마크 및 제2 후보 랜드마크 중 하나를 키랜드마크로 결정할 수 있다. 여기서, 미리 정한 키 임계는 두 랜드마크가 동일하거나 유사한 지 여부를 판단하기 위해 미리 정해진 두 랜드마크 간의 임계 거리를 나타낼 수 있다.

그리고 단계(341)에서는 키랜드마크저장부가 키랜드마크를 저장할 수 있다. 키랜드마크저장부는 상술한 단계(340)에서 결정된 키랜드마크를 이후 프레임을 위해 저장할 수 있다. 여기서, 이후 프레임은 현재 프레임이 n 프레임(여기서, n은 1 이상의 정수)인 경우, n 이후의 모든 프레임을 포함할 수 있다. 또한, 상술한 단계(340)에서 키랜드마크가 결정될 때마다, 키랜드마크저장부는 이후 프레임을 위한 키프레임 및 키랜드마크를 갱신하여 저장할 수 있다. 키랜드마크저장부가 저장하는 키프레임 및 키랜드마크와 관련된 정보는 입력 영상 중 키프레임, 키랜드마크의 위치, 키랜드마크의 로컬 패치의 히스토그램 등을 포함할 수 있다.

종래에는 평균 얼굴과 대비하여 대비 얼굴 포즈 혹은 표정 변화가 큰 경우 랜드마크의 검출만으로는 정확성이 낮았으나, 일 실시예에 따르면 영상의 랜드마크를 결정하는 장치는 이전 프레임에서 추적한 개별 제2 후보 랜드마크와 검출된 제1 후보 랜드마크를 키랜드마크와 비교하여 정확성을 판단할 수 있다.

이어서 단계(350)에서는 키랜드마크교정부가 제1 후보 랜드마크, 제2 후보 랜드마크 및 키랜드마크에 기초하여 현재 프레임에 대한 최종 랜드마크 정보를 결정할 수 있다. 여기서, 최종 랜드마크 정보는 최종 랜드마크의 위치, 로컬 패치의 히스토그램 등을 포함할 수 있다.

이 때, 키랜드마크결정부에서 현재 프레임에 대한 키랜드마크를 결정한 경우, 랜드마크교정부는 키랜드마크와 관련된 정보를 최종 랜드마크 정보로서 결정할 수 있다. 제1 후보 랜드마크 및 제2 후보 랜드마크 간의 위치 차이가 미리 정한 키 임계보다 작으므로, 키랜드마크 자체가 이미 신뢰도가 높은 랜드마크이기 때문이다.

또한, 현재 프레임에 대한 키랜드마크가 존재하지 않는 경우에는, 키랜드마크교정부가 제1 후보 랜드마크 및 제2 후보 랜드마크를 키랜드마크와 비교하여 정확성이 높은 것을 최종 랜드마크로 결정할 수 있다. 예를 들어, 키랜드마크교정부는 하기 표 1과 같이 최종 랜드마크를 결정할 수 있다.

케이스	검출	추적	최종 랜드마크
Case 1	O	X	검출된 제1 후보 랜드마크 (예를 들어, 첫 프레임)
Case 2	X	O	추적된 제2 후보 랜드마크
Case 3	X	X	랜드마크 결정 실패
Case 4	O	O	제1 후보 랜드마크 및 제2 후보 랜드마크를 키랜드마크와 비교하여 유사도가 높은 랜드마크를 최종 랜드마크로 결정

예를 들어서, 랜드마크교정부는, 제2 후보 랜드마크의 추적이 실패한 경우(Case 1), 제1 후보 랜드마크와 관련된 정보를 최종 랜드마크 정보로 결정할 수 있다. 또한, 랜드마크교정부는 제1 후보 랜드마크가 검출되지 않는 경우(Case 2), 제2 후보 랜드마크와 관련된 정보를 최종 랜드마크 정보로 결정할 수 있다. 제1 후보 랜드마크에 대한 검출 및 제2 후보 랜드마크에 대한 추적이 모두 실패하면(Case 3), 현재 프레임에 대한 최종 랜드마크 정보는 결정되지 않을 수 있다.

더 나아가, 현재 프레임에 대해 제1 후보 랜드마크 및 제2 후보 랜드마크가 모두 존재하는 경우(Case 4), 랜드마크교정부는 제1 후보 랜드마크 및 제2 후보 랜드마크 중 적어도 하나를 현재 프레임 전에 기저장된 키랜드마크(예를 들어, 직전 프레임 또는 현재 프레임 이전의 최신 키랜드마크 등)와 비교한 결과에 기초하여 최종 랜드마크 정보를 결정할 수 있다. 예를 들어, 랜드마크교정부는, 제1 후보 랜드마크와 기저장된 키랜드마크 간의 유사도(similarity level), 및 제2 후보 랜드마크와 기저장된 키랜드마크 간의 유사도를 산출한 결과에 기초하여 최종 랜드마크 정보를 결정할 수 있다.

여기서, 유사도는 두 랜드마크 주변의 로컬 패치에 대한 히스토그램이 유사한 정도를 나타낼 수 있다. 예를 들어, 랜드마크교정부는 제1 후보 랜드마크 및 제2 후보 랜드마크의 로컬 패치의 히스토그램을 계산하여 키랜드마크의 로컬 패치의 히스토그램과 비교하여 유사도를 산출할 수 있다.

또한, 랜드마크교정부는, 제1 후보 랜드마크를 구성하는 적어도 하나의 제1 컴포넌트(first component) 및 제2 후보 랜드마크를 구성하는 적어도 하나의 제2 컴포넌트(second component)에 기초하여, 적어도 하나의 제1 컴포넌트 및 적어도 하나의 제2 컴포넌트 중 적어도 하나를 포함하도록 최종 랜드마크 정보를 결정할 수 있다.

랜드마크교정부는, 적어도 하나의 제1 컴포넌트 및 적어도 하나의 제2 컴포넌트를 현재 프레임 전에 기저장된 키랜드마크를 구성하는 적어도 하나의 기준 컴포넌트(예를 들어, 키랜드마크의 컴포넌트를 나타냄) 중 대응하는 기준 컴포넌트와 비교하여, 유사도가 높은 컴포넌트가 최종 랜드마크 정보에 포함되도록 결정할 수 있다. 여기서 컴포넌트의 유사도는 컴포넌트에 포함된 랜드마크들의 유사도의 합으로 나타낼 수 있다. 컴포넌트 별로 최종 랜드마크 정보를 결정하는 구성은 하기 도 11에서 상세히 설명한다.

또한, 상술한 단계(350)에서 현재 프레임에 대해 결정된 최종 랜드마크 정보는 다음 프레임의 단계(330)에서 제2 후보 랜드마크를 추적하기 위해 사용될 수 있다.

그리고 단계(360)에서는 관심영역예측부가 다음 프레임에 대한 관심영역을 예측할 수 있다. 관심영역예측부는 단계(350)에서 결정된 최종 랜드마크 정보를 이용하여 다음 프레임의 관심영역을 추정할 수 있다. 예를 들어, 관심영역예측부는 현재 프레임의 최종 랜드마크 정보로부터 추적된 다음 프레임에 대한 제2 후보 랜드마크를 포함하는 영역을 관심영역으로 예측할 수 있다. 여기서, 관심영역이 얼굴 영역인 경우, 다음 프레임에 대한 제2 후보 랜드마크를 포함하는 사각 영역으로 검출될 수 있다.

예를 들어, 이전 프레임의 최종 랜드마크로부터 현재 프레임에 대해 예측된 관심영역은 단계(310)에서 관심영역이 검출되지 않는 경우 현재 프레임의 제1 후보 랜드마크를 검출하기 위해 사용될 수 있다. 또한, 관심영역예측부는 현재 프레임에 대한 관심영역이 검출되지 않은 경우, 이전 프레임에서 결정된 최종 랜드마크 정보로부터 관심영역을 예측할 수 있다.

도 4는 일 실시예에 따라 검출된 관심영역을 도시한 도면이다.

도 3의 단계(310)에서 관심영역검출부는 도 4에 도시된 입력 영상(401)으로부터 관심영역(410)을 검출할 수 있다. 예를 들어, 입력 영상(401)에는 사람이 포함될 수 있고, 관심영역(410)은 사람의 얼굴의 특징을 대표하는 랜드마크를 포함할 수 있다.

도 5는 일 실시예에 따라 검출된 제1 후보 랜드마크를 도시한 도면이다.

도 3의 단계(320)에서 랜드마크검출부는 입력 영상(501)에서 도 4의 관심영역(410)으로부터 제1 후보 랜드마크(521)를 검출할 수 있다. 도 5에는 제1 후보 랜드마크(521)가 한정된 개수로 도시되었으나, 이로 한정하는 것은 아니고 필요에 따라 제1 후보 랜드마크(521)의 개수는 달라질 수 있다. 또한, 도 5에서 제1 후보 랜드마크(521)는 사람의 눈썹, 눈, 코, 입에서 검출되도록 설정되었으나, 이로 한정하는 것은 아니고, 사람의 얼굴을 나타내는 다른 특징을 나타내는 특징점에 대해서도 설정될 수 있다.

도 6은 일 실시예에 따라 이전 프레임에서 결정된 최종 랜드마크를 도시한 도면이다. 도 7 및 도 8은 일 실시예에 따라 도 6에서 결정된 최종 랜드마크가 추적된 제2 후보 랜드마크를 도시한 도면이다.

도 3의 단계(330)에서 랜드마크추적부는 도 6의 이전 프레임의 입력 영상(601)으로부터 도 7의 현재 프레임의 입력 영상(701) 및 도 8의 현재 프레임의 입력 영상(801)에 대한 제2 후보 랜드마크를 추적할 수 있다. 예를 들어, 도 7은 현재 프레임의 입력 영상(701)에 대해 정상적으로 추적된 제2 후보 랜드마크(721)를 도시하고, 도 8은 현재 프레임의 입력 영상(801)에 대해 잘못 추적된 제2 후보 랜드마크(822)를 도시할 수 있다.

이하, 본 명세서에서 현재 프레임은 n 프레임으로 나타낼 수 있고, n은 1 이상의 정수를 나타낼 수 있다. 이전 프레임은 n-1 프레임, 다음 프레임은 n+1프레임으로 나타낼 수 있다.

예를 들어, 도 7 및 도 8은 도 6에 나타난 사람의 얼굴이 고개를 오른쪽으로 조금 돌린 모습을 나타낼 수 있다. 이 때, 도 6은 이전 프레임(예를 들어, n-1 프레임)의 입력 영상(601)을 나타낼 수 있고, 도 7 및 도 8은 현재 프레임(예를 들어, n 프레임)의 입력 영상(701, 801)을 나타낼 수 있다.

도 6은 이전 프레임에서 결정된 최종 랜드마크(621)를 나타낼 수 있다. 도 7 및 도 8은 도 6에 도시된 최종 랜드마크(621)로부터 랜드마크추적부에 의해 추적된 제2 후보 랜드마크(721, 822)를 나타낼 수 있다.

다만, 랜드마크추적부에 의해 추적된 제2 후보 랜드마크는 잘못 추적될 수 있으며, 도 8에서 사람의 얼굴에서 눈썹 사이에 세모로 표시된 제2 후보 랜드마크(822)는 잘못 추적된 결과를 나타낼 수 있다.

도 9는 일 실시예에 따라 제2 후보 랜드마크의 추적이 성공하였는지 검증하는 과정을 도시한 도면이다.

도 3의 단계(331)에서 랜드마크추적부는 추적이 성공하였는지 검증할 수 있다. 예를 들어, 도 9의 좌측은 n-1 프레임에서의 입력 영상(901), 우측은 n프레임에서의 입력 영상(902)을 나타낼 수 있다. 도 9는 n-1프레임에서의 i 번째 최종 랜드마크(931)의 위치 P_n _-1(i), n 프레임에서 P_n _-1(i)을 추적한 점(941)의 위치 P_n(i), n 프레임의 P_n(i)를 n-1 프레임으로 역추적한 점의 위치(931, 932) P_n _-1(i)'를 나타낼 수 있다. 도 9에서 실선으로 표시한 경우는 P_n-1(i)(931) 및 P_n _-1(i)'(931) 간의 위치 차이가 일정 범위 이하로서 추적이 성공한 것이고, 점선으로 표시한 경우는 P_n _-1(i)(931) 및 P_n _-1(i)'(932) 간의 위치 차이가 일정 범위 초과로서 추적이 실패한 것을 나타낼 수 있다. 다만, 이로 한정하는 것은 아니고, P_n _-1(i) 및 P_n _-1(i)'가 포함되는 각각의 로컬 패치 간의 유사도가 로컬 임계보다 크면 추적이 성공한 것으로, 로컬 임계 이하이면 추적이 실패한 것으로 판단될 수 있다.

예를 들어, 랜드마크추적부는 추적이 실패한 점(예를 들어, 제2 후보 랜드마크)이 일정 개수 이상이면, 해당 프레임은 추적이 실패한 것으로 판단할 수 있다.

도 10은 다른 일 실시예에 따라 추적된 제2 후보 랜드마크를 도시한 도면이다.

우선, 도 3의 단계(360)에서 키랜드마크결정부는 제1 후보 랜드마크 및 제2 후보랜드마크에 기초하여 현재 프레임에 대한 키랜드마크를 결정할 수 있다. 여기서, 도 5의 입력 영상(501), 도 7의 입력 영상(701) 및 도 10의 입력 영상(1001)은 현재 프레임에 대한 영상을 나타낼 수 있다.

예를 들어, 제1 후보 랜드마크가 도 5에 도시된 랜드마크(521)로서 검출되고, 제2 후보 랜드마크가 도 7에 도시된 랜드마크(721)로서 추적될 수 있다. 도 5에 도시된 랜드마크(521) 및 도 7에 도시된 랜드마크(721) 간의 위치 차이가 미리 정한 키 임계보다 작은 경우(예를 들어, 제1 후보 랜드마크 및 제2 후보 랜드마크가 서로 동일하거나 유사한 경우), 키랜드마크결정부는 현재 프레임을 키프레임으로 결정하고 키프레임의 랜드마크를 키랜드마크로 결정할 수 있다.

다른 예를 들어, 제1 후보 랜드마크가 도 5에 도시된 랜드마크(521)로서 검출되고, 제2 후보 랜드마크가 도 10에 도시된 랜드마크(1022)로서 추적되는 경우, 랜드마크교정부는 도 5의 제1 후보 랜드마크 및 도 10의 제2 후보 랜드마크 중 키랜드마크와의 유사도가 높은 랜드마크를 최종 랜드마크로 결정할 수 있다. 예를 들어, 도 10에서는 입에 대응하는 제2 후보 랜드마크(1022)가 도 5의 입에 대응하는 제1 후보 랜드마크와 상이하게 추적될 수 있다.

도 11은 일 실시예에 따른 최종 랜드마크를 도시한 도면이다.

도 3의 단계(350)에서 랜드마크교정부는 현재 프레임이 키프레임이 아닌 경우, 제1 후보 랜드마크 및 제2 후보 랜드마크를 키랜드마크(미도시됨)와 비교하여 최종 랜드마크(1121, 1122, 1123)를 결정할 수 있다. 예를 들어, 랜드마크교정부는 컴포넌트 단위로 제1 후보 랜드마크(도 5의 521)와 키랜드마크(미도시됨) 간의 유사도, 및 도 10의 제2 후보 랜드마크(도 10의 1022)와 키랜드마크(미도시됨)간의 유사도를 산출할 수 있다.

예를 들어, 현재 프레임에 대해 검출된 제1 후보 랜드마크가 상술한 도 5에 도시된 랜드마크(521)로 검출되고, 현재 프레임에 대해 추적된 제2 후보 랜드마크가 상술한 도 10에 도시된 랜드마크(1022)로 추적된 것으로 가정할 수 있다. 여기서, 코 및 눈에 대한 랜드마크는 도 10의 제2 후보 랜드마크(1022)의 키랜드마크(미도시됨)에 대한 유사도가 도 5의 제1 후보 랜드마크(521)의 키랜드마크(미도시됨)에 대한 유사도보다 높은 것으로 가정할 수 있다.

도 11의 입력 영상(1101)에서 예를 들어, 랜드마크교정부는 컴포넌트별 유사도에 따라, 제1 후보 랜드마크를 구성하는 적어도 하나의 제1 컴포넌트 중 눈썹과 연관된 랜드마크(1121) 및 입과 연관된 랜드마크(1123)가 최종 랜드마크 정보에 포함되는 것으로 결정할 수 있다. 또한, 랜드마크교정부는 제2 후보 랜드마크를 구성하는 적어도 하나의 제2 컴포넌트 중 눈과 연관된 랜드마크(1122)가 최종 랜드마크 정보에 포함되는 것으로 결정할 수 있다. 여기서, 컴포넌트별 유사도를 산출하기 위해 각 제1 컴포넌트의 각각 및 제2 컴포넌트의 각각은 키프레임(미도시됨)에서 대응하는 기준 컴포넌트와 비교될 수 있다.

일 실시예에 따르면, 도 11에 도시된 최종 랜드마크들(1121, 1122, 1123)은 이종의 특성 정보(예를 들어, 통계 특성 정보 및 로컬 패치의 특성 정보)가 동시에 반영되어 결정된 것으로서, 신뢰도가 높을 수 있다.

도 12은 일 실시예에 따른 영상의 랜드마크를 결정하는 장치를 도시한 블럭도이다.

영상의 랜드마크를 결정하는 장치(1200)는 관심영역검출부(1210), 랜드마크검출부(1220), 랜드마크추적부(1230), 키랜드마크결정부(1240), 키랜드마크저장부(1241), 랜드마크교정부(1250) 및 관심영역예측부(1260)를 포함할 수 있다. 이하, 본 명세서에서 실선은 현재 프레임에서의 동작, 점선은 다음 프레임에서의 동작을 나타낼 수 있다.

관심영역검출부(1210)는 현재 프레임의 입력 영상(1201)을 수신하여, 입력 영상(1201)으로부터 관심영역을 검출할 수 있다. 랜드마크검출부(1220)는 통계 모델 및 학습 데이터(1205)를 이용하여 관심영역으로부터 제1 후보 랜드마크를 검출할 수 있다. 랜드마크추적부(1230)는 이전 프레임의 최종 랜드마크 정보(1202)로부터 현재 프레임에 대한 제2 후보 랜드마크를 추적할 수 있다. 키랜드마크결정부(1240)는 랜드마크검출부(1220)에 의해 검출된 제1 후보 랜드마크 및 랜드마크추적부(1230)에 의해 추적된 제2 후보 랜드마크에 기초하여 키랜드마크를 결정할 수 있다. 키랜드마크결정부(1240)가 현재 프레임에 대한 키랜드마크를 결정하면, 키랜드마크저장부(1241)는 현재 프레임을 키프레임으로 하여 키랜드마크와 연관된 정보를 저장할 수 있다.

랜드마크교정부(1250)는 제1 후보 랜드마크, 제2 후보 랜드마크 및 키랜드마크 중 적어도 하나에 기초하여 현재 프레임의 최종 랜드마크 정보(1209)를 결정할 수 있다. 여기서 결정된 최종 랜드마크 정보(1209)는 관심영역예측부(1260)가 다음 프레임을 위한 관심영역을 예측하는데 사용될 수 있다. 또한, 현재 프레임에 대한 랜드마크 정보(1209)는 다음 프레임에서 랜드마크추적부(1230)가 다음 프레임에 대한 제2 후보 랜드마크를 추적하는데 사용될 수 있다.

도 12의 영상의 랜드마크를 결정하는 장치(1200)의 구체적인 동작은 상술한 도 3과 유사할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

101: 입력 영상
110: 관심영역
121: 랜드마크

Claims

영상의 랜드마크(landmark)를 결정하는 장치에 있어서,
입력 영상(input image)의 관심 영역(region of interest)으로부터 현재 프레임에 대한 제1 후보 랜드마크(first candidate landmark)를 검출하는 랜드마크검출부(landmark detector);
상기 입력 영상의 이전 프레임의 최종 랜드마크 정보로부터 현재 프레임에 대한 제2 후보 랜드마크(second candidate landmark)를 추적하는 랜드마크추적부(landmark tracker); 및
상기 검출된 제1 후보 랜드마크 및 상기 추적된 제2 후보 랜드마크에 기초하여 현재 프레임에 대한 최종 랜드마크 정보를 결정하는 랜드마크교정부(landmark corrector)
를 포함하고,
상기 랜드마크교정부는,
상기 제1 후보 랜드마크 및 상기 제2 후보 랜드마크 중 적어도 하나를 현재 프레임 전에 기저장된 키랜드마크와 비교한 결과에 기초하여 상기 최종 랜드마크 정보를 결정하는,
영상의 랜드마크를 결정하는 장치.
제1항에 있어서,
상기 제1 후보 랜드마크 및 상기 제2 후보 랜드마크를 비교한 결과에 기초하여 현재 프레임에 대한 키랜드마크(key-landmark)를 결정하는 키랜드마크결정부(key-landmark determiner)
를 더 포함하는 영상의 랜드마크를 결정하는 장치.
제2항에 있어서,
상기 키랜드마크결정부는,
상기 제1 후보 랜드마크의 위치 및 상기 제2 후보 랜드마크의 위치 간의 차이가 미리 정한 키 임계(key threshold)보다 작은 경우 상기 제1 후보 랜드마크 및 상기 제2 후보 랜드마크 중 하나를 상기 키랜드마크로 결정하고,
상기 랜드마크교정부는,
상기 키랜드마크와 관련된 정보를 상기 최종 랜드마크 정보로서 결정하는,
영상의 랜드마크를 결정하는 장치.
삭제
제1항에 있어서,
상기 랜드마크교정부는,
상기 제1 후보 랜드마크와 상기 기저장된 키랜드마크 간의 유사도(similarity level), 및 상기 제2 후보 랜드마크와 상기 기저장된 키랜드마크 간의 유사도를 산출한 결과에 기초하여 최종 랜드마크 정보를 결정하는,
영상의 랜드마크를 결정하는 장치.
제1항에 있어서,
상기 랜드마크교정부는,
상기 제1 후보 랜드마크를 구성하는 적어도 하나의 제1 컴포넌트(first component) 및 상기 제2 후보 랜드마크를 구성하는 적어도 하나의 제2 컴포넌트(second component)에 기초하여, 상기 적어도 하나의 제1 컴포넌트 및 상기 적어도 하나의 제2 컴포넌트 중 적어도 하나를 포함하도록 상기 최종 랜드마크 정보를 결정하는,
영상의 랜드마크를 결정하는 장치.
제6항에 있어서,
상기 랜드마크교정부는,
상기 적어도 하나의 제1 컴포넌트 및 상기 적어도 하나의 제2 컴포넌트를 현재 프레임 전에 기저장된 키랜드마크를 구성하는 적어도 하나의 기준 컴포넌트 중 대응하는 기준 컴포넌트와 비교하여, 유사도가 높은 컴포넌트가 상기 최종 랜드마크 정보에 포함되도록 결정하는,
영상의 랜드마크를 결정하는 장치.
제1항에 있어서,
현재 프레임에 대한 관심영역이 검출되지 않은 경우, 이전 프레임에서 결정된 최종 랜드마크 정보로부터 상기 관심영역을 예측하는 관심영역예측부(ROI predictor)
를 더 포함하는 영상의 랜드마크를 결정하는 장치.
제1항에 있어서,
상기 랜드마크추적부는,
상기 제2 후보 랜드마크의 추적이 성공하였는지 검증하고,
상기 랜드마크교정부는,
상기 제2 후보 랜드마크의 추적이 실패한 경우, 상기 제1 후보 랜드마크와 관련된 정보를 상기 최종 랜드마크 정보로 결정하는,
영상의 랜드마크를 결정하는 장치.
제1항에 있어서,
현재 프레임에 대한 관심영역을 검출하는 관심영역검출부(ROI detector)
를 더 포함하는 영상의 랜드마크를 결정하는 장치.
영상의 랜드마크를 결정하는 방법에 있어서,
입력 영상의 관심영역으로부터 현재 프레임에 대한 제1 후보 랜드마크를 검출하는 단계;
상기 입력 영상의 이전 프레임의 최종 랜드마크 정보로부터 현재 프레임에 대한 제2 후보 랜드마크를 추적하는 단계; 및
상기 검출된 제1 후보 랜드마크 및 상기 추적된 제2 후보 랜드마크에 기초하여 현재 프레임에 대한 최종 랜드마크 정보를 결정하는 단계
를 포함하고,
상기 최종 랜드마크 정보를 결정하는 단계는,
상기 제1 후보 랜드마크 및 상기 제2 후보 랜드마크 중 적어도 하나를 현재 프레임 전에 기저장된 키랜드마크와 비교한 결과에 기초하여 상기 최종 랜드마크 정보를 결정하는 단계
를 포함하는 영상의 랜드마크를 결정하는 방법.
제11항에 있어서,
상기 제1 후보 랜드마크 및 상기 제2 후보 랜드마크를 비교한 결과에 기초하여 현재 프레임에 대한 키랜드마크를 결정하는 단계
를 더 포함하는 영상의 랜드마크를 결정하는 방법.
제12항에 있어서,
상기 키랜드마크를 결정하는 단계는,
상기 제1 후보 랜드마크의 위치 및 상기 제2 후보 랜드마크의 위치 간의 차이가 미리 정한 키 임계(key threshold)보다 작은 경우 상기 제1 후보 랜드마크 및 상기 제2 후보 랜드마크 중 하나를 상기 키랜드마크로 결정하는 단계
를 포함하고,
상기 최종 랜드마크 정보를 결정하는 단계는,
상기 키랜드마크와 관련된 정보를 상기 최종 랜드마크 정보로서 결정하는 단계
를 포함하는 영상의 랜드마크를 결정하는 방법.
삭제
제11항에 있어서,
상기 최종 랜드마크 정보를 결정하는 단계는,
상기 제1 후보 랜드마크와 상기 기저장된 키랜드마크 간의 유사도(similarity level), 및 상기 제2 후보 랜드마크와 상기 기저장된 키랜드마크 간의 유사도를 산출한 결과에 기초하여 최종 랜드마크 정보를 결정하는 단계
를 더 포함하는 영상의 랜드마크를 결정하는 방법.
제11항에 있어서,
상기 최종 랜드마크 정보를 결정하는 단계는,
상기 제1 후보 랜드마크를 구성하는 적어도 하나의 제1 컴포넌트(first component) 및 상기 제2 후보 랜드마크를 구성하는 적어도 하나의 제2 컴포넌트(second component)에 기초하여, 상기 적어도 하나의 제1 컴포넌트 및 상기 적어도 하나의 제2 컴포넌트 중 적어도 하나를 포함하도록 상기 최종 랜드마크 정보를 결정하는 단계,
를 포함하는 영상의 랜드마크를 결정하는 방법.
제16항에 있어서,
상기 최종 랜드마크 정보를 결정하는 단계는,
상기 적어도 하나의 제1 컴포넌트 및 상기 적어도 하나의 제2 컴포넌트를 현재 프레임 전에 기저장된 키랜드마크를 구성하는 적어도 하나의 기준 컴포넌트 중 대응하는 기준 컴포넌트와 비교하여, 유사도가 높은 컴포넌트가 상기 최종 랜드마크 정보에 포함되도록 결정하는 단계
를 더 포함하는 영상의 랜드마크를 결정하는 방법.
제11항에 있어서,
상기 제1 후보 랜드마크를 검출하는 단계는,
현재 프레임에 대한 관심영역이 검출되지 않은 경우, 이전 프레임에서 결정된 최종 랜드마크 정보로부터 상기 관심영역을 예측하는 단계
를 포함하는 영상의 랜드마크를 결정하는 방법.
제11항에 있어서,
상기 제2 후보 랜드마크를 추적하는 단계는,
상기 제2 후보 랜드마크의 추적이 성공하였는지 검증하는 단계
를 포함하고,
상기 최종 랜드마크 정보를 결정하는 단계는,
상기 제2 후보 랜드마크의 추적이 실패한 경우, 상기 제1 후보 랜드마크와 관련된 정보를 상기 최종 랜드마크 정보로 결정하는 단계
를 포함하는 영상의 랜드마크를 결정하는 방법.
제11항에 있어서,
현재 프레임에 대한 관심영역을 검출하는 단계
를 더 포함하는 영상의 랜드마크를 결정하는 방법.