KR20170110609A

KR20170110609A - 타깃 획득 방법 및 장치

Info

Publication number: KR20170110609A
Application number: KR1020177021351A
Authority: KR
Inventors: 수안 진
Original assignee: 알리바바 그룹 홀딩 리미티드
Priority date: 2015-02-04
Filing date: 2016-02-03
Publication date: 2017-10-11
Also published as: US9990546B2; EP3254236A1; US20160224833A1; JP2018509678A; JP6723247B2; CN105989367A; TWI676963B; CN105989367B; EP3254236A4; KR102507941B1; TW201629904A; WO2016126885A1

Abstract

타깃 획득 방법은, 복수의 비디오 프레임의 각각의 비디오 프레임의 글로벌 특성(global feature)에 따라서, 비디오 프레임의 각각의 스케일의 타깃 사전 예상 위치를 획득하는 단계와, 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 대응하는 타깃 후보 영역을 획득하는 단계와, 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 타깃 후보 영역 모두에 따라서, 비디오 프레임 내의 타깃 실제 영역을 판정하는 단계를 포함한다. 본 개시의 기술은 하나 이상의 타깃을 빠르고 효율적으로 획득하며, 상세하게 다수의 타깃을 정확하게 구별해서 획득할 수 있다.

Description

타깃 획득 방법 및 장치

본 출원은 2015년 2월 4일에 출원된 중국 특허 출원 제201510059261.5호 "Method and Apparatus for Target Acquisition"의 우선권을 주장하며, 그 전체 내용은 여기에 참조로서 포함된다.

본 개시는 통신 및 컴퓨터 분야에 관한 것으로, 상세하게는 타깃 획득 방법 및 장치에 관한 것이다.

4G 시대가 도래함에 따라서, 모바일 단말의 정보 전달 방법은 텍스트 및 이미지로 한정되지 않으며, 더 일반적으로는 비디오에 이르렀다. 많은 인터넷 회사에서 관련 애플리케이션을 런칭했으며, 비디오 정보를 획득하기 위한 기술은 최근의 연구 핫스팟 중 하나가 되었다.

공간 추적 방법 및 시간-공간 추적 방법을 포함하는, 기존의 멀티-타깃 추적 기술은 주로 레이더 및 항공 분야에 적용된다. 공간 추적 방법은 이미지 신호의 각 프레임을 개별적으로 처리하는 단계와 타깃 신호의 특성을 이용해서 2차원 공간에서의 이동 타깃을 추적하는 단계를 포함한다. 시간-공간 추적 방법은 공간 도메인에서의 타깃의 특성 및 시간 도메인에서의 타깃의 이동 특성을 이용하는 단계를 포함하고, 이는 대비 추적 및 이미지-관련 추적으로 나누어진다. 다른 기술은 입자 필터에 기초하는 방법, 민 시프트(mean shift)에 기초한 방법 등을 포함한다.

기존의 멀티-타깃 추적 기술은 통상적으로 하나의 응용 가능 시나리오 및 하나의 추적 타깃 타입을 갖는다. 그 이유는 한편으로는 기존의 멀티-클래스 분류기는 분류 정확도가 낮고, DNN(deep neural networks)와 같은 복잡한 분류 알고리즘은 동작 효율을 고려할 때 사용될 수 없으며, 다른 한편으로는 멀티-타깃 추적이 타깃과 배경을 구별할 수 있어야 하고 타깃 사이에서도 구별할 수 있어야 하기 때문이다.

타깃 추적 알고리즘에서, 간단한 단일 타깃의 경우에, 기존의 Open TLD는 안정된 효율을 달성하고, 그 소스 코드는 오픈되지만, 이 단일 타깃과만 관련된다. 기존 해법(CNN을 통해서 유니버설 멀티-클래스 타깃 모델을 성립하고, 비디오의 제 1 프레임의 시작을 검출하는 멀티-타깃 검출을 수행하며, 각각의 타깃의 위치를 제공하고, 이후에 종래의 타깃 추적 방법을 이용해서 추적을 실행함)은 멀티-타깃 검출 동안 많은 양의 계산을 소비하고, 상당한 모델을 오프라인으로 트레이닝해야 하며, 이는 계산 및 저장부를 상당히 소비해서, 비디오 내의 실시간 애플리케이션의 요건을 만족시키지 않는다.

본 개요는 이하 설명되는 개념 중 일부를 간략한 형태로 소개하기 위해서 제공된다. 본 개요는 청구 대상의 중요한 특성이나 필수적인 특성을 모두 나타내고자 하는 것은 아니며, 청구 대상의 범주를 결정하는 것을 돕는데 사용되는 것은 아니다. 용어 '기술 혹은 기술적인 해법'은 상기 문맥 및 본 개시를 통해서 가능해지는 예컨대 장치, 시스템, 방법 및/또는 컴퓨터 판독 가능 인스트럭션을 가리킨다.

본 개시의 목적은 다수의 타깃을 정확하게 구별하고 획득하는 문제를 해결하는 타깃 획득 방법 및 장치를 제공하는 것이다.

이와 같은 관점에서, 본 개시는 타깃 획득 방법을 제공하며, 이는

각각의 비디오 프레임의 글로벌 특성(global feature)에 따라서, 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하는 단계와,

각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서(cluster) 대응하는 타깃 후보 영역을 획득하는 단계와,

하나 이상의 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 하나 이상의 타깃 후보 영역 모두에 따라서, 비디오 프레임 내의 타깃 실제 영역(target actual region)을 판정하는 단계

를 포함한다.

또한, 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 타깃 후보 영역 모두에 따라서, 비디오 프레임 내의 타깃 실제 영역을 판정하는 단계 이후에, 이 방법은,

2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역을 비교해서 비디오 프레임 내의 타깃 실제 영역이 무효한지 판정하는 단계

를 더 포함한다.

또한, 각각의 비디오 프레임의 글로벌 특성에 따라서, 비디오 프레임 내의각각의 스케일의 타깃 사전 예상 위치를 획득하는 단계 이전에, 이 방법은,

각각의 비디오 프레임에 대해서 크기 정규화를 수행하는 단계를 더 포함한다.

또한, 글로벌 특성은 글로벌 그레이스케일 특성과, 글로벌 질감 특성과, 글로벌 색상 특성과, 글로벌 움직임 특성 중 하나 이상을 포함한다.

또한, 각 비디오 프레임의 글로벌 그레이스케일 특성이 비디오 프레임의 3개의 색 채널의 합의 평균값에 기초해서 획득된다.

또한, 각각의 비디오 프레임의 글로벌 질감 특성은 가보르 행렬(Gabor matrix) 혹은 캐니 연산자(Canny operator)의 에지 검출 알고리즘을 이용해서 추출된다.

또한, 각각의 비디오 프레임의 글로벌 색상 특성을 추출하는 단계는,

각각의 비디오 프레임의 3개의 컬러 채널에 따른 적색, 녹색, 청색 및 황색을 포함하는 4색의 수정된 기준 행렬을 획득하는 단계와,

적색, 녹색, 청색 및 황색을 포함하는 4색의 기준 행렬에 따른 적색-녹색 색상 특성 행렬 및 청색-황색 색상 특성 행렬을 획득하는 단계와,

적색-녹색 색상 특성 행렬과 청색-황색 색상 특성 행렬 사이의 차이의 절대값을 각각의 비디오 프레임의 글로벌 색상 특성으로서 이용하는 단계를 포함한다.

또한, 각각의 비디오 프레임의 글로벌 움직임 특성을 추출하는 단계는,

각각의 비디오 프레임의 그레이스케일 특성 맵과 대응하는 이전 비디오 프레임의 그레이스케일 특성 맵 사이의 차이의 절대값을, 비디오 프레임의 글로벌 움직임 특성으로서 이용하는 단계를 포함한다.

또한, 각각의 비디오 프레임의 글로벌 특성에 따라서 비디오 프레임 내의 각각의 스케일의 타깃 사전 예상 위치를 획득하는 단계는,

각각의 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 비디오 프레임의 각각의 스케일의 사전 예상 위치를 획득하는 단계를 포함한다.

또한, 각각의 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 비디오 프레임의 각각의 스케일의 사전 예상 위치를 획득하는 단계는,

각각의 비디오 프레임의 글로벌 특성에 가중치를 부여해서 행렬 다항식(a matrix polynomial)을 획득하는 단계와,

행렬 다항식에 대해서 다항식 푸리에 변환을 수행해서 주파수 도메인 다항식 행렬을 획득하는 단계와,

주파수 도메인 다항식 행렬에 대해서 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 각각의 스케일의 주파수 도메인을 획득하는 단계와,

각각 스케일의 주파수 도메인에 대해서 역 푸리에 변환을 수행해서 각각의 비디오 프레임의 각각의 스케일의 타깃 사전 예상 위치를 획득하는 단계

를 포함한다.

또한, 주파수 도메인 다항식 행렬에 대해서 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 각각의 스케일의 주파수 도메인을 획득하는 단계는,

주파수 도메인 다항식 행렬에 따라서 대응하는 진폭 스펙트럼을 획득하는 단계와,

진폭 스펙트럼에 대해서 가우시언 저역 통과 필터를 이용해서 사전 설정된 멀티-스케일 진폭 스펙트럼 필터링을 수행해서, 각각 스케일의 필터링된 진폭 스펙트럼을 획득하는 단계와,

각각 스케일의 위상 스펙트럼 및 필터링된 진폭 스펙트럼에 따라서 각각의 스케일의 필터링된 주파수 도메인을 획득하는 단계

를 포함한다.

또한, 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 하나 이상의 타깃 후보 영역을 획득하는 단계는,

각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치에 따라서 대응하는 타깃 후보 영역을 획득하는 단계와,

각각의 타깃 후보 영역 내의 픽셀의 수가 사전 설정된 수보다 작은지 여부를 판정하고, 작으면, 타깃 후보 영역을 필터링해서 제거하는 단계와,

필터링되어 제거되지 않은 각각의 타깃 후보 영역에 대해서 히스토그램을 작성하고, 이 히스토그램을, 대응하는 타깃 후보 영역의 신뢰도 레벨로서 이용해서, 각각의 타깃 후보 영역의 정보 엔트로피를 계산하는 단계

를 포함한다.

또한, 각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치에 따라서 대응하는 타깃 후보 영역을 획득하는 단계는,

현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치로서, 각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치를 순차적으로 사용하고, 현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치에 대해서 다음 처리를 순차적으로 수행하는 단계

를 포함하고, 이 다음 처리는,

현재의 비디오 프레임의 현재의 스케일의 현재의 타깃 사전 예상 위치의 픽셀을, 미방문(unvisited)이라고 라벨링하는 처리와,

현재의 스케일의 현재의 타깃 사전 예상 위치를 스캐닝하고, 미방문이라고 라벨링되어 있으며 현재 타깃 사전 예상 위치 내의 사전 설정된 값보다 큰 픽셀 값을 가진 픽셀을 중앙 픽셀로서 발견하고, 중앙 픽셀을 방문(visited)이라고 라벨링하는 처리와,

미방문이라고 라벨링되고 중앙 픽셀의 이웃하는 도메인 내의 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을 획득하며, 획득한 미방문이라고 라벨링되고 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을, 방문이라고 라벨링하는 처리와,

현재의 타깃 사전 예상 위치에 대응하는 타깃 후보 영역을 초기화하고, 중앙 픽셀 및 미방문이라고 라벨링되고 이웃하는 도메인 내의 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을 타깃 후보 영역에 추가하는 처리를 포함한다.

또한, 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 타깃 후보 영역 모두에 따라서, 비디오 프레임 내의 타깃 실제 영역을 판정하는 단계는, 각각의 비디오 프레임에 대해서 다음 처리를 수행하는 단계를 포함하고, 이 다음 처리는,

각각의 비디오 프레임의 모든 스케일의 타깃 후보 영역에 대해서 영역 트리 구조를 큰 스케일부터 작은 스케일의 순서로 설정하는 처리와,

각각의 비디오 프레임의 영역 트리 구조 및 타깃 후보 영역의 신뢰도 레벨에 따라서 각각의 비디오 프레임의 타깃 실제 영역을 획득하는 처리를 포함한다.

또한, 각각의 비디오 프레임의 영역 트리 구조 및 모든 타깃 후보 영역의 신뢰도 레벨에 따라서 각각의 비디오 프레임의 타깃 실제 영역을 획득하는 단계는, 각각의 비디오 프레임의 영역 트리 구조의 각각의 노드 영역을 큰 스케일부터 작은 스케일의 순서로 트래버스하는 단계와, 각각의 비디오 프레임의 타깃 실제 영역을 획득하도록 하기 상황에 따라서 반복 과정을 수행하는 단계를 포함하며,

부모 노드 영역 및 자식 노드 영역이 싱글 자식 트리이면, 신뢰도 레벨이 높은 노드 영역을 타깃 실제 영역으로서 직접 선택하고 반복을 종료하며,

부모 노드 영역 및 자식 노드 영역이 멀티 자식 트리이고, 현재 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 모두의 신뢰도 레벨보다 높다면, 부모 노드 영역을 타깃 실제 영역으로서 선택하고 반복을 종료하며,

부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 현재의 2개의 자식 노드 영역의 신뢰도 레벨이 모두 현재의 부모 노드 영역의 신뢰도 레벨보다 높다면, 2개의 자식 노드 영역을 타깃 실제 영역으로서 선택하고,

부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 중 하나의 신뢰도 레벨보다 높고, 2개의 자식 노드 영역 중 다른 하나의 신뢰도 레벨보다 낮으면, 신뢰도 레벨이 더 높은 자식 노드 영역을 타깃 실제 영역으로서 선택한다.

본 개시의 다른 측면은 타깃 획득 장치를 제공하며, 이는

각각의 비디오 프레임의 글로벌 특성에 따라서, 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하는 제 1 장치와,

각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 하나 이상의 타깃 후보 영역을 획득하는 제 2 장치와,

타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 하나 이상의 타깃 후보 영역 모두에 따라서, 각각의 비디오 프레임 내의 타깃 실제 영역을 판정하는 제 3 장치를 포함한다.

또한, 이 장치는,

2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역을 비교해서 비디오 프레임 내의 타깃 실제 영역이 무효한지 판정하는 제 4 장치를 더 포함한다.

또한, 이 장치는,

각각의 비디오 프레임에 대해서 크기 정규화를 수행하는 제 5 장치를 포함한다.

또한, 각 비디오 프레임의 모든 글로벌 특성은 글로벌 그레이스케일 특성과, 글로벌 질감 특성과, 글로벌 색상 특성과, 글로벌 움직임 특성 중 하나 이상을 포함한다.

또한, 각각의 비디오 프레임의 글로벌 질감 특성은 가보르 행렬 혹은 캐니 연산자의 에지 검출 알고리즘을 이용해서 추출된다.

또한, 각각의 비디오 프레임의 글로벌 색상 특성을 추출하는 것은,

각각의 비디오 프레임의 3개의 컬러 채널에 따른 적색, 녹색, 청색 및 황색을 포함하는 4색의 수정된 기준 행렬을 획득하는 것과,

적색, 녹색, 청색 및 황색을 포함하는 4색의 기준 행렬에 따른 적색-녹색 색상 특성 행렬 및 청색-황색 색상 특성 행렬을 획득하는 것과

적색-녹색 색상 특성 행렬과 청색-황색 색상 특성 행렬 사이의 차이의 절대값을 각각의 비디오 프레임의 글로벌 색상 특성으로서 이용하는 것을 포함한다.

또한, 각각의 비디오 프레임의 글로벌 움직임 특성을 추출하는 것은,

각각의 비디오 프레임의 그레이스케일 특성 맵과 대응하는 이전 비디오 프레임의 그레이스케일 특성 맵 사이의 차이의 절대값을, 비디오 프레임의 글로벌 움직임 특성으로서 이용하는 것을 포함한다.

또한, 제 1 장치는 각각의 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 비디오 프레임의 각각의 스케일의 사전 예상 위치를 획득한다.

또한, 제 1 장치는

각각의 비디오 프레임의 글로벌 특성에 가중치를 부여해서 행렬 다항식을 획득하는 제 1의 제 1 유닛과,

행렬 다항식에 대해서 다항식 푸리에 변환을 수행해서 주파수 도메인 다항식 행렬을 획득하는 제 1의 제 2 유닛과,

주파수 도메인 다항식 행렬에 대해서 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 각각의 스케일의 주파수 도메인을 획득하는 제 1의 제 3 유닛과,

각각 스케일의 주파수 도메인에 대해서 역 푸리에 변환을 수행해서 각각의 비디오 프레임의 각각의 스케일의 타깃 사전 예상 위치를 획득하는 제 1의 제 4 유닛

을 포함한다.

제 1의 제 3 유닛은,

주파수 도메인 다항식 행렬에 따라서 대응하는 진폭 스펙트럼을 획득하는 제 1의 제 3의 제 1 유닛과,

진폭 스펙트럼에 대해서 가우시언 저역 통과 필터를 이용해서 사전 설정된 멀티-스케일 진폭 스펙트럼 필터링을 수행해서, 각각 스케일의 필터링된 진폭 스펙트럼을 획득하는 제 1의 제 3의 제 2 유닛과,

각각 스케일의 위상 스펙트럼 및 필터링된 진폭 스펙트럼에 따라서 각각의 스케일의 필터링된 주파수 도메인을 획득하는 제 1의 제 3의 제 3 유닛

을 포함한다.

상기 제 2 장치는,

각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치에 따라서 대응하는 타깃 후보 영역을 획득하는 제 2의 제 1 유닛과,

각각의 타깃 후보 영역 내의 픽셀의 수가 사전 설정된 수보다 작은지 여부를 판정하고, 작으면, 타깃 후보 영역을 필터링해서 제거하는 제 2의 제 2 유닛과,

타깃 후보 영역에 대해서, 필터링되어 제거되지 않은 각각의 타깃 후보 영역에 대해서 히스토그램을 작성하고, 이 히스토그램을, 대응하는 타깃 후보 영역의 신뢰도 레벨로서 이용해서, 각각의 타깃 후보 영역의 정보 엔트로피를 계산하는 제 2의 제 3 유닛을 포함한다.

또한, 제 2의 제 1 유닛은 현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치로서, 각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치를 순차적으로 사용하고, 현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치에 대해서 다음 처리를 순차적으로 수행하며,

현재의 비디오 프레임의 현재의 스케일의 현재의 타깃 사전 예상 위치의 픽셀을, 미방문이라고 라벨링하는 처리와,

현재의 스케일의 현재의 타깃 사전 예상 위치를 스캐닝하고, 미방문이라고 라벨링되어 있으며 현재 타깃 사전 예상 위치 내의 사전 설정된 값보다 큰 픽셀 값을 가진 픽셀을 중앙 픽셀로서 발견하고, 중앙 픽셀을 방문이라고 라벨링하는 처리와,

제 3 장치는,

각각의 비디오 프레임의 모든 스케일의 타깃 후보 영역에 대해서 영역 트리 구조를 큰 스케일부터 작은 스케일의 순서로 설정하는 제 3의 제 1 유닛과,

각각의 비디오 프레임의 영역 트리 구조 및 모든 타깃 후보 영역의 신뢰도 레벨에 따라서 각각의 비디오 프레임의 타깃 실제 영역을 획득하는 제 3의 제 2 유닛을 포함한다.

또한, 제 3의 제 2 유닛은, 각각의 비디오 프레임의 영역 트리 구조의 각각의 노드 영역을 큰 스케일부터 작은 스케일의 순서로 트래버스하고, 각각의 비디오 프레임의 타깃 실제 영역을 획득하도록 하기 상황에 따라서 반복 과정을 수행하는 하며,

종래의 기술에 비해서, 본 개시의 기술은 각각의 비디오 프레임의 글로벌 특성에 따라서, 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하고, 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 대응하는 타깃 후보 영역을 획득하며, 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 모든 타깃 후보 영역 모두에 따라서, 비디오 프레임 내의 타깃 실제 영역을 판정한다.

또한, 본 개시의 기술은 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역의 중앙 위치 사이의 거리가 사전 설정된 임계값 이상인지 여부가 계산되고, 임계값 이상이면, 2개의 인접 시점 중 후자에 있는 비디오 프레임 내의 타깃 실제 영역은 무효한 것이라고 판정되며, 이로써 비디오의 타깃의 후속 추적의 정확도를 더 높일 수 있고, 비디오 분류를 위한 기본 특성을 제공할 수 있다.

첨부된 도면을 참조로 비한정의 예시적인 실시예의 상세한 설명을 제공함으로써, 본 개시의 특성, 목적 및 이점을 설명한다.
도 1은 본 개시의 일 측면에 따른 예시적인 타깃 획득 방법의 흐름도,
도 2는 본 개시의 예시적인 실시예에 따른 예시적인 획득 방법의 흐름도,
도 3은 본 개시의 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 4는 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 5는 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 6은 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 7은 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 8은 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 9은 본 개시의 예시적인 실시예에 따른 예시적인 멀티-스케일 처리된 멀티 자식 트리를 나타내는 도면,
도 10은 본 개시의 예시적인 실시예에 따른 예시적인 멀티-스케일 처리된 싱글 자식 트리를 나타내는 도면,
도 11은 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 흐름도,
도 12는 본 개시의 또 다른 측면에 따른 예시적인 타깃 획득 방법의 개략도,
도 13은 본 개시의 예시적인 실시예에 따른 예시적인 타깃 획득 방법의 개략도,
도 14는 본 개시의 또 다른 실시예에 따른 예시적인 타깃 획득 방법의 개략도,
도 15는 본 개시의 또 다른 실시예에 따른 예시적인 타깃 획득 장치의 개략도,
도 16은 본 개시의 또 다른 실시예에 따른 예시적인 타깃 획득 장치의 개략도,
도 17은 본 개시의 또 다른 실시예에 따른 예시적인 타깃 획득 장치의 개략도,
도 18은 본 개시의 또 다른 예시적인 실시예에 따른 예시적인 타깃 획득 장치의 개략도,
첨부된 도면에서 같은 혹은 유사한 참조 번호는 동일한 혹은 유사한 컴포넌트를 가리킨다.

본 개시의 전반적인 구성에서, 단말, 서빙 네트워크의 장치, 및 신뢰 가능 파티는 모두 하나 이상의 프로세서(CPU), 입출력 인터페이스, 네트워크 인터페이스 및 메모리를 포함한다.

메모리는, 휘발성 메모리, RAM 및/또는 예컨대, ROM이나 플래시 RAM과 같은 비휘발성 메모리와 같은 다양한 타입의 컴퓨터 판독 가능 매체를 포함할 수 있다. 메모리는 컴퓨터 판독 가능 매체의 예이다.

컴퓨터 판독 가능 매체는 비휘발성 및 휘발성 매체를 포함하고, 또한 이동 가능형 및 이동 불가능형 매체를 포함하며, 임의의 방법 혹은 기술을 이용해서 정보 저장을 구현할 수 있다. 정보는 컴퓨터 판독 가능 인스트럭션, 데이터 구조 및 프로그램이나 다른 데이터의 모듈이 될 수 있다. 컴퓨터의 저장 매체는 예컨대, PRAM, SRAM, DRAM, RAM, ROM, EEPROM, 플래시 메모리나 다른 메모리 기술, CD-ROM, DVD 혹은 다른 광학식 저장부, 카세트 테이프, 자기 테이프/자기 디스크 저장부 혹은 다른 자기 저장 장치, 혹은 임의의 다른 비전송형 매체를 포함할 수 있지만, 이것으로 한정되는 것은 아니며, 컴퓨팅 장치에 의해 액세스되는 정보를 저장하는데 사용될 수 있다. 본 명세서의 정의에 따라서, 컴퓨터 판독 가능 매체는 변조 데이터 신호 및 반송파와 같은, 일시적 매체는 포함하지 않는다.

도 1은 본 개시의 일 측면에 따른 예시적인 타깃 획득 방법의 흐름도이다. 도 1을 참조하면, 본 개시는 타깃 획득 방법을 제안하며, 여기서

S1에서, 각 비디오 프레임의 글로벌 특성에 따라서, 각 비디오 프레임 내의 다수의 스케일의 타깃 사전 예상 위치가 획득된다. 타깃 자동 선택을 구현하기 위해서, 타깃 검출을 구현하는데 특성 모델 및 분류기를 트레이닝하는 방법은 사용될 수 없다. 종래의 멀티-타깃 추적 방법 대신에, 본 개시는 중요도의 검출을 이용해서 타깃 위치의 사전 예상을 구현하며, 여기서 동일한 비디오로부터 각각의 비디오 프레임이 추출될 수 있고, 비디오 프레임에서 타깃 사전 예상 위치는 중요도 맵, 예컨대 확률 맵이다.

S2에서, 각 비디오 프레임의 타깃 사전 예상 위치를 수집해서(cluster) 대응하는 타깃 후보 영역을 획득한다.

S3에서, 비디오 프레임의 타깃 실제 영역이, 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리과 조합해서 각 비디오 프레임 내의 타깃 후보 영역 모두에 따라서 결정된다. 여기서, 하나 이상의 타깃 실제 영역이 하나 이상의 타깃을 빠르게 구현하고 효율적으로 획득될 수 있으며, 특히 다수의 타깃을 정확하게 구별해서 획득할 수 있다.

도 2는 본 개시의 예시적인 실시예에 따른 예시적인 획득 방법의 흐름도이다. 도 2를 참조하면, 도 1의 S1 이전에, 다음이 포함된다.

S0에서, 각 비디오 프레임에 대해서, 각 비디오 프레임의 줌인 및 줌아웃과 같은 크기 정규화가 수행된다. 각 비디오 프레임을 줌인 및 줌아웃 처리할 때, 손실 픽셀 값을 보간하기 위해서 이중 선형 보간법, 선형 보간법 혹은 3차 보간법과 같은 방법이 사용될 수 있다. 예컨대, 각 비디오 프레임은 64×64 픽셀로 변환될 수 있다. 따라서, S1에서, 정규화된 비디오 프레임에 따라서 각 비디오 프레임의 글로벌 특성이 획득된다. 당업자라면, 비디오 프레임에 대해서 크기 정규화를 수행하는 상기 설명은 단지 예시적인 것으로, 본 개시에 적용될 수 있는 다른 기존의 혹은 이후에 개발될 가능한 정규화법이 본 개시의 보호 범위에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

도 3은 본 개시의 예시적인 실시예에 따른 타깃 획득 방법의 흐름도이다. 도 3을 참조하면, 도 1의 S3 이후에, 이하의 동작이 수행된다.

S4에서, 비디오 프레임 내의 타깃 실제 영역이 무효한지 판정하기 위해서, 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역이 비교된다. 예컨대, 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역의 중앙 위치 사이의 거리가 사전 설정된 임계값 이상인지 여부가 계산되고, 임계값 이상이면, 2개의 인접 시점 중 후자에 있는 비디오 프레임 내의 타깃 실제 영역은 무효한 것이라고 판정된다. 나아가, 시점 t-1의 타깃 실제 영역으로부터 시점 t의 동일한 타깃 실제 영역까지의 기울기 및 시점 t의 타깃 실제 영역으로부터 시점 t+1의 동일한 타깃 실제 영역까지의 기울기가 더 계산된다. 전자 기울기와 후자 기울기 사이의 차이가 사전 설정된 임계값 이상인지 여부가 판정되며, 임계값 이상이면, 이는 동일한 트랙에 있지 않다는 것, 즉, 시점 t+1에 있는 타깃 실제 영역은 무효라는 것을 의미한다. 여기서, 이동 타깃의 움직임 연속성을 이용해서 추적 처리가 유효한지 여부를 판정해서, 추적하는 타깃이 폐쇄된(occlude) 것인지 즉 시나리오를 벗어난 것인지 판정하고, 이로써 비디오에서 타깃의 후속 추출에서의 정확성을 더 높일 수 있으며, 비디오 분류를 위한 기본 특성을 제공하는 등이 가능해진다. 당업자라면, 타깃 실제 영역이 무효인지 여부를 판정하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 실제 영역이 무효한지 여부를 판정하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

본 개시의 예시적인 실시예에서, S4에서의 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역 사이의 거리는 다음 식으로부터 구해진다.

여기서, region은 특정 타깃 실제 영역을 나타내고, 함수 c는 이 타깃 실제 영역의 중앙 위치를 나타내며,

는 인점 시점에 있는 동일한 타깃 실제 영역 사이의 유클리드 거리를 나타내고, t 및 t+1는 2개의 인접 시점을 나타내며, 유클리드 거리가 주어진 임계값 이상이면, 추적하는 타깃이 사라졌다거나 혹은 시점 t+1의 시야에 남아 있다고 판정된다. 이로써, S0에서 정규화된 픽셀에 따라서 임계값이 설정될 수 있다. 일 예시적인 실시예에서, S0에서 각각의 비디오 프레임이 전체적으로 64×64 픽셀로 변환되었다면, 대응하는 주어진 임계값은 4가 될 것이다. 당업자라면 동일한 타깃 실제 영역 사이의 거리를 계산하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 실제 영역 사이의 거리를 계산하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

본 개시의 실시예에 따른 타깃 획득 방법에서, 글로벌 특성은 글로벌 그레이스케일 특성, 글로벌 질감 특성, 글로벌 색상 특성 및 글로벌 움직임 특성 중 하나 이상을 포함한다.

본 개시의 실시예에 따른 타깃 획득 방법에서, 각 비디오 프레임의 글로벌 그레이스케일 특성은 비디오 프레임의 3개의 색 채널의 합의 평균값에 기초해서 획득되며, 이하의 식에 따라서 구해질 수 있다.

여기서, I는 비디오 프레임의 글로벌 그레이스케일 특성을 나타내고, r은 비디오 프레임의 적색 픽셀 채널을 나타내며, g는 비디오 프레임의 녹색 픽셀 채널을 나타내고, b는 비디오 프레임의 청색 픽셀 채널을 나타낸다. 당업자라면, 글로벌 그레이스케일 특성을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 글로벌 그레이스케일 특성을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

본 개시의 예시적인 실시예에 따른 타깃 획득 방법에서, 각 비디오 프레임의 글로벌 질감 특성은 가보르 행렬(Gabor matrix)(필터) 혹은 캐니 연산자(Canny operator)의 에지 검출 알고리즘을 이용해서 추출된다.

본 개시의 예시적인 실시예에서, 각 비디오 프레임의 글로벌 질감 특성을 가보르 행렬(필터)을 이용해서 추출하는 것은,

각 비디오 프레임의 글로벌 질감 특성 O로서 각 비디오 프레임의 사전 설정된 수의 방향에서 생성된 가보르 행렬 G_θ에서의 위치에 기초한 최대값을 사용하는 것을 포함하며, 이는

과 같은 식을 이용해서 표현될 수 있다. 예컨대, 가보르 행렬은 11×11 픽셀 블록의 크기를 가진 2차원 가보르 행렬 G로,

로 표현되며, 이 식에서, θ는 사전 설정된 수의 방향이고,

는 특정 방향에서의 2차원 가보르 행렬을 나타내며, X 및 Y는 방향(각도 파라미터)

의 접합 이후의 좌표 변환을 나타내며, x는 각 비디오 프레임의 픽셀의 행 좌표를 나타내고, y는 각 비디오 프레임의 픽셀의 열 좌표를 나타내며,

이고, γ는 스케일링 인자를 나타내며, σ는 유효폭을 나타내고, λ는 파장을 나타내며, 스케일링 인자, 유효폭 및 파장을 포함하는 3개의 상수의 값은 경험값이다. 예컨대, 일 실시예에서 스케일링 인자 γ의 값은 0.3이고, 유효 폭의 값은 4.5이며, 파장 λ의 값은 5.6이다. θ가 4개의 방향 0°, 45°, 90°, 135°을 갖고 있다면, 비디오 프레임의 글로벌 질감 특성 O을 획득하기 위해 각 비디오 프레임의 4방향에서 생성된 가보르 행렬 G_θ에 대한 위치에 기초해서 최대값이 획득된다. 당업자라면, 글로벌 그레이스케일 특성을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 글로벌 그레이스케일 특성을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

본 개시의 예시적인 실시예에 따른 타깃 획득 방법에서, 각 비디오 프레임의 글로벌 색상 특성을 추출하는 것은

각 비디오 프레임의 3개의 컬러 채널에 따른 적색, 녹색, 청색 및 황색을 포함하는 4색의 수정된 기준 행렬 R, G, B 및 Y을 획득하는 것을 포함하며, 여기서 4색의 수정된 행렬 R, G, B 및 Y은 각 색에 대한 인간의 눈의 감도에 기초해서 설정되고, 그 식은 상세하게는 다음과 같고,

이는, 또한, 적색, 녹색, 청색 및 황색을 포함하는 4색의 기준 행렬 R, G, B 및 Y에 따른 적색-녹색 색상 특성 행렬 RG 및 청색-황색 색상 특성 행렬 BY을 획득하는 것을 포함하고, 여기서 RG=R-G이고, BY=B-Y이며,

적색-녹색 색상 특성 행렬과 청색-황색 색상 특성 행렬 사이의 차이의 절대값

을 비디오 프레임의 글로벌 색상 특성으로서 이용하는 것을 포함한다. 당업자라면, 글로벌 색상 특성을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 글로벌 색상 특성을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

본 개시의 예시적인 실시예에 따른 타깃 획득 방법에서, 각 비디오 프레임의 글로벌 움직임 특성을 추출하는 것은

각 비디오 프레임의 그레이스케일 특성 맵과 대응하는 이전 비디오 프레임의 그레이스케일 특성 맵과의 차이의 절대값을 비디오 프레임의 글로벌 움직임 특성으로서 사용하는 것을 포함한다. 여기서 비디오 프레임의 글로벌 움직임 특성 M(t)의 식은 다음과 같다.

여기서, M(t)는 비디오 프레임의 글로벌 움직임 특성을 나타내고, 비디오 프레임의 시점은 시점 t이고, I(t)는 비디오 프레임의 그레이스케일 특성 맵을 나타내고, I(t-τ)는 사전 설정된 τ 프레임 이전의 비디오 프레임의 그레이스케일 특성 맵을 나타내며, 사전 설정된 τ 프레임 이전의 비디오 프레임의 시점이 t-τ이다. τ은 움직임 프레임 변경량이고, I(t)는 τ 프레임의 변경 이후의 시점 t에서의 움직임량을 나타내고, τ의 값은 비디오 스트림에서 초당 비디오 프레임의 수에 따라서 결정되고, 초당 비디오 프레임의 수가 클수록 τ의 값은 커진다. 예컨대, 일 실시예에서 τ의 값은 1 내지 5가 될 수 있고, 예시적인 실시예에서 τ의 값은 3이 될 수 있다.

I(t) 및 I(t-τ)는 식

에 따라서 획득된다.

여기서 I는 비디오 프레임의 글로벌 그레이스케일 특성을 나타내고, r은 비디오 프레임의 적색 픽셀 채널을 나타내며, g는 비디오 프레임의 녹색 픽셀 채널을 나타내고, b는 비디오 프레임의 청색 픽셀 채널을 나타낸다. 당업자라면, 글로벌 움직임 특성을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 글로벌 움직임 특성을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

본 개시의 예시적인 실시예에 따른 타깃 획득 방법에서, S1에서의 동작은,

각 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 비디오 프레임의 각 스케일의 사전 예상 위치를 획득하는 것을 포함한다.

도 4는 본 개시의 예시적인 실시예에 따른 타깃 획득 방법의 흐름도이다. 도 4를 참조하면, 각 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 비디오 프레임의 각 스케일의 사전 예상 위치를 획득하는 것은 다음을 포함한다.

S11에서, 각 비디오 프레임의 글로벌 특성에 가중치를 부여해서 행렬 다항식을 획득하고, 각 비디오 프레임의 글로벌 그레이스케일 특성, 글로벌 질감 특성, 글로벌 색상 특성 및 글로벌 움직임 특성이 추출되면, 행렬 다항식은 다음과 같다.

n, m은 개별적인 행 및 열 좌표를 각각 나타내고, i, j 및 k는 행렬 다항식의 단위 행렬을 나타낸다.

S12에서, 행렬 다항식에 대해서 다항식 푸리에 변환을 수행해서 주파수 도메인 다항식 행렬을 획득하며, 여기서 주파수 도메인 다항식 행렬은 다음과 같다.

이 식에서, u 및 v는 주파수 도메인의 2차원 좌표를 나타내고, M 및 N은 비디오 프레임의 길이 및 폭을 나타내며, μ는 허수 단위를 나타내며, 즉 μ²=-1이다.

S13에서, 주파수 도메인 다항식 행렬에 대해서 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 각 스케일의 주파수 도메인을 획득한다.

S14에서, 각 스케일의 주파수 도메인에 대해서 역 푸리에 변환을 수행해서 비디오 프레임의 각 스케일의 타깃 사전 예상 위치를 획득한다. 여기서 타깃 사전 예상 위치

는 다음 식에 기초해서 획득된다.

당업자라면, 타깃 사전 예상 위치를 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 사전 예상 위치를 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

도 5는 본 개시의 예시적인 실시예에 따른 타깃 획득 방법의 흐름도이다. 도 5를 참조하면 도 4의 S13에서의 동작은 다음을 포함한다.

S131에서, 주파수 도메인 다항식 행렬에 따라서 대응하는 진폭 스펙트럼 A가 획득된다. 주파수 도메인 다항식 행렬의 진폭 스펙트럼은 다음과 같이 표현된다.

S132에서, 진폭 스펙트럼에 대해서 가우시언 저역 통과 필터를 이용해서 사전 설정된 멀티-스케일 진폭 스펙트럼 필터링을 수행해서, 각 스케일의 필터링된 진폭 스펙트럼을 획득하고, 가우시언 저역 통과 필터는 다음 형태를 갖는다.

이 식에서, H는 가우시언 저역 통과 필터 행렬이고, D는 푸리에 변환의 원점으로부터의 거리를 나타내고(거리는 유클리드 거리를 사용할 수 있다), σ는 가우시언 곡선 즉 스케일의 확대 각도(extension degree)를 나타내는데 이는 다음과 같이 표현될 수 있다.

. 여기서 다양한 크기의 타깃을 획득하는데 복수의 스케일이 사용되고,

각 스케일의 필터링된 진폭 스펙트럼은 다음 식에 따라서 획득된다.

이 식에서, A_H는 각 스케일의 필터링된 진폭 스펙트럼을 나타낸다.

S133에서, 각 스케일의 위상 스펙트럼 및 필터링된 진폭 스펙트럼에 따라서 각 스케일의 필터링된 주파수 도메인이 획득되고, 각 스케일의 필터링된 주파수 도메인

은 다음과 같이 표현된다.

여기서 P_H는 위상 스펙트럼을 나타낸다. 당업자라면, 주파수 도메인을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 주파수 도메인을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

도 6은 본 개시의 예시적인 실시예에 따른 타깃 획득 방법의 흐름도이다. 도 6을 참조하면, 도 1의 S2의 동작은 다음을 포함한다.

S21에서, 각 비디오 프레임의 각 스케일의 각각의 타깃 사전 예상 위치에 따라서 대응하는 타깃 후보 영역이 획득된다.

S22에서, 각각의 타깃 후보 영역 내의 픽셀의 수가 사전 설정된 수보다 작은지 여부가 판정되고, 사전 설정된 수보다 작으면, 타깃 후보 영역은 필터링되어 제거된다. 예컨대, 픽셀의 수가 10 미만인 타깃 후보 영역은 필터링되어 제거되고, flag=0이 구성되며, 즉 이후에 그 영역에 대한 신뢰도 레벨은 더 이상 계산되지 않는다.

S23에서, 필터링되어 제거되지 않는 각 타깃 후보 영역에 대해서 히스토그램이 작성되고, 이 히스토그램을, 대응하는 타깃 후보 영역의 신뢰도 레벨로서 이용해서 각 타깃 후보 영역의 정보 엔트로피가 계산된다. 여기서 신뢰도 레벨은 다음 식에 따라서 획득될 수 있다.

여기서, h(n)은 히스토그램을 나타내고, p(·)는 확률 함수를 나타낸다. 당업자라면, 타깃 후보 영역 및 그 신뢰도 레벨을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 후보 영역 및 그 신뢰도 레벨을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

도 7에 도시된 바와 같은 본 개시의 예시적인 실시예에 따른 타깃 획득 방법에서, 상기 S21은, 현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치로서 각 비디오 프레임의 각 스케일의 각 타깃 사전 예상 위치를 순차적으로 사용하는 것 및 현재 비디오 프레임의 현재 스케일의 상기 현재 타깃 사전 예상 위치에 대해서 다음의 처리를 순차적으로 수행하는 것을 포함한다.

S211에서, 현재의 비디오 프레임의 현재의 스케일의 타깃 사전 예상 위치의 픽셀은 미방문(unvisited)이라고 라벨링된다.

S212에서, 현재의 스케일의 현재의 타깃 사전 예상 위치를 스캐닝해서, 미방문이라고 라벨링되어 있으며 현재 타깃 사전 예상 위치 내의 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 픽셀을 중앙 픽셀로서 발견하고, 이 중앙 픽셀을 방문이라고 라벨링한다. 예컨대, 사전 설정된 값은 0.2의 위치에 있을 수 있으며 중앙 픽셀 flag=1이라고 라벨링된다.

S213에서, 미방문이라고 라벨링되고, 중앙 픽셀의 이웃 도메인에서 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 다른 픽셀을 획득하고, 획득한 미방문이라고 라벨링되고, 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 다른 픽셀은 방문이라고 라벨링된다.

S214에서, 현재의 타깃 사전 예상 위치에 대응하는 타깃 후보 영역은 초기화되고, 중앙 픽셀 및 미방문이라고 라벨링되고, 중앙 픽셀의 이웃 도메인에서 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 다른 픽셀은 타깃 후보 영역에 추가된다. 예컨대, 다른 픽셀이 P(x, y)>0.2 및 flag=0을 만족하면, P(x, y)는 중요도 맵의 (x, y) 위치에 대응하는 값이고, 이웃하는 도메인은 8개의 이웃하는 도메인 즉 스트리트(street) 이웃하는 도메인(4개의 이웃하는 도메인)이며, 여기서 각각의 타깃 사전 예상 위치는 하나의 타깃 후보 영역에 대응한다. 당업자라면, 타깃 후보 영역을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 후보 영역을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

도 8은 본 개시의 또 다른 예시적인 실시예에 따른 타깃 획득 방법의 흐름도이다. 도 8을 참조하면, 도 1의 S3의 동작은 각 비디오 프레임에 대해서 이하의 처리를 포함한다.

S31에서, 각 비디오 프레임의 모든 스케일의 타깃 후보 영역에 대해서 영역 트리 구조(regional tree structure)가 큰 스케일부터 작은 스케일의 순서로 설정되며, S22에서 픽셀의 수가 사전 설정된 수보다 작은 타깃 후보 영역이 필터링되어 제거되었다면, 여기서 타깃 후보 영역은 필터링되지 않은 타깃 후보 영역이다. 예컨대, S132의 동작은 8개 스케일과 같은 다수의 스케일을 가진 가우시언 저역 통과 필터를 사용한다. 따라서, S23에서 획득한 타깃 후보 영역도 8개의 스케일로 구성되고, 여기서 영역 트리 구조는 큰 스케일부터 작은 스케일의 순서로 설정되며, 이 구조는 멀티 자식 트리 및 싱글 자식 트리를 포함하는데 이는 도 9 및 10에 각각 도시되어 있다.

S32에서, 각 비디오 프레임의 영역 트리 구조 및 모든 타깃 후보 영역의 신뢰도 레벨에 따라서 각 비디오 프레임의 타깃 실제 영역이 획득된다.

도 11에 도시된 바와 같은, 본 개시의 예시적인 실시예에 따른 타깃 획득 방법에서, S32의 동작을 각 비디오 프레임의 영역 트리 구조의 각각의 노드 영역을 큰 스케일부터 작은 스케일의 순서로 트래버스하는(traverse) 것과, 각 비디오 프레임의 타깃 실제 영역을 획득하도록 하기 상황에 따라서 반복 과정을 수행하는 것을 포함한다.

S321에서, 부모 노드 영역 및 자식 노드 영역이 현재 싱글 자식 트리이면(싱글 자식 트리 케이스), 신뢰도 레벨(conf)이 높은 노드 영역이 타깃 실제 영역으로서 직접 선택되고 반복은 종료된다.

S322에서, 부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 현재의 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 모두의 신뢰도 레벨보다 높다면(멀티 자식 트리 케이스 1), 부모 노드 영역이 타깃 실제 영역으로서 선택되고, 반복은 종료된다.

S323에서, 부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 현재의 2개의 자식 노드 영역의 신뢰도 레벨이 모두 현재의 부모 노드 영역의 신뢰도 레벨보다 높다면(멀티 자식 트리 케이스 2), 2개의 자식 노드 영역이 타깃 실제 영역으로서 선택된다. 이 동작 이후에 나머지 자식 노드 영역을 트래버스하는 동안에, 이 반복 과정을 싱글 자식 트리 케이스나 멀티 자식 트리 케이스 1이 발생할 때까지, 멀티 자식 트리 케이스 2 및 멀티 자식 트리 케이스 3에 따라서 낮은 스케일의 노드 영역에 대해서 되풀이해서 계속할 필요가 있다.

S324에서, 부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 중 하나의 신뢰도 레벨보다 높고, 2개의 자식 노드 영역 중 다른 하나의 신뢰도 레벨보다 낮으면(멀티 자식 트리 케이스 2), 신뢰도 레벨이 더 높은 자식 노드 영역이 타깃 실제 영역으로서 선택된다. 이 단계 이후에 나머지 자식 노드 영역을 트래버스하는 동안에, 이 반복 과정을 싱글 자식 트리 케이스나 멀티 자식 트리 케이스 1이 발생할 때까지, 멀티 자식 트리 케이스 2 및 멀티 자식 트리 케이스 3에 따라서 낮은 스케일의 노드 영역에 대해서 되풀이해서 계속할 필요가 있다. 당업자라면, 타깃 실제 영역을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 실제 영역을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

도 12에 도시된 바와 같이, 본 개시의 다른 측면은 또한 타깃 획득 장치(100)를 제공하며, 이는 하나 이상의 프로세서(102) 즉 데이터 처리 유닛 및 메모리(104)를 포함한다. 장치(100)는 또한 하나 이상의 입출력 인터페이스(106) 및 네트워크 인터페이스(108)를 포함할 수 있다. 메모리(104)는 예컨대, 컴퓨터 판독 가능 매체이다.

메모리(104)는 복수의 모듈 혹은 유닛을 저장할 수 있으며, 이는 다음을 포함한다.

각 비디오 프레임의 글로벌 특성에 따라서, 각 비디오 프레임 내의 각각의 스케일의 타깃 사전 예상 위치를 획득하는 제 1 장치(1). 타깃 자동 선택을 구현하기 위해서, 타깃 검출을 구현하는데 특성 모델 및 분류기를 트레이닝하는 방법은 사용될 수 없다. 종래의 멀티-타깃 추적 방법과는 달리, 본 개시는 중요도의 검출을 이용해서 타깃 위치의 사전 예상을 구현하며, 여기서 동일한 비디오로부터 각각의 비디오 프레임이 추출될 수 있고, 비디오 프레임에서 타깃 사전 예상 위치는 중요도 맵, 예컨대 확률 맵이다.

각 비디오 프레임의 타깃 사전 예상 위치를 수집해서 대응하는 타깃 후보 영역을 획득하는 제 2 장치(2).

타깃 후보 영역의 신뢰도 레벨과 대응하는 스케일 처리와 조합한 각 비디오 프레임 내의 타깃 후보 영역 모두에 따라서, 비디오 프레임의 타깃 실제 영역을 결정하는 제 3 장치(3). 여기서, 하나 이상의 타깃 실제 영역이 하나 이상의 타깃을 빠르게 구현하고 효율적으로 획득하도록 획득될 수 있으며, 특히 다수의 타깃을 정확하게 구별해서 획득할 수 있다.

도 13에 도시된 바와 같이, 본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 장치(100)는 또한 다음을 포함한다.

각 비디오 프레임에 대해서 크기 정규화를 수행하는 제 5 장치(5). 여기서 각 비디오 프레임에 대한 줌인 및 줌아웃 처리에서, 손실 픽셀 값을 보간하기 위해서 이중 선형 보간법, 선형 보간법 혹은 3차 보간법과 같은 방법이 사용될 수 있으며, 예컨대, 각 비디오 프레임은 64×64 픽셀로 변환될 수 있다. 따라서, 제 1 장치(1)에서, 정규화된 비디오 프레임에 따라서 각 비디오 프레임의 글로벌 특성이 획득된다. 당업자라면, 비디오 프레임에 대해서 크기 정규화를 수행하는 상기 설명은 단지 예시적인 것으로, 본 개시에 적용될 수 있는 다른 기존의 혹은 이후에 개발될 가능한 정규화법이 본 개시의 보호 범위에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

도 14에 도시된 바와 같이, 본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 장치(100)는 또한 다음을 포함한다.

비디오 프레임 내의 타깃 실제 영역이 무효한지 판정하기 위해서, 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역을 비교하는 제 4 장치(4). 예컨대, 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역의 중앙 위치들 사이의 거리가 사전 설정된 임계값 이상인지 여부가 계산될 수 있고, 임계값 이상이면, 제 4 장치(4)는 2개의 인접 시점 중 후자에 있는 비디오 프레임 내의 타깃 실제 영역은 무효인지 판정한다. 나아가, 시점 t-1의 타깃 실제 영역으로부터 시점 t의 동일한 타깃 실제 영역까지의 기울기 및 시점 t의 타깃 실제 영역으로부터 시점 t+1의 타깃 실제 영역까지의 기울기가 더 계산되며, 전자 기울기와 후자 기울기 사이의 차이가 사전 설정된 임계값 이상인지 여부가 판정되고, 임계값 이상이면, 제 4 장치(4)는 이들이 동일한 트랙에 있지 않다는 것, 즉, 시점 t+1에 있는 타깃 실제 영역은 무효라고 판정한다. 여기서, 이동 타깃의 움직임 연속성을 이용해서 추적 처리가 유효한지 여부를 판정해서, 추적하는 타깃이 폐쇄된 것인지 즉 시나리오를 벗어난 것인지 판정하고, 이로써 비디오에서 타깃의 후속 추출에서의 정확성을 더 높일 수 있으며, 비디오 분류를 위한 기본 특성을 제공하는 것이 가능해진다. 당업자라면, 타깃 실제 영역이 무효인지 여부를 판정하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 실제 영역이 무효한지 여부를 판정하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역 사이의 거리는 제 4 장치(4)에 의해서 다음 식으로부터 구해진다.

여기서, region은 특정 타깃 실제 영역을 나타내고, 함수 c는 이 타깃 실제 영역의 중앙 위치를 나타내며,

는 인점 시점에 있는 동일한 타깃 실제 영역 사이의 유클리드 거리를 나타내고, t 및 t+1는 2개의 인접 시점을 나타내며, 유클리드 거리가 주어진 임계값 이상이면, 추적하는 타깃이 사라졌다거나 혹은 시점 t+1의 시야에 남아 있다고 판정된다. 이로써, 제 5 장치(5)에 의해서 정규화된 픽셀에 따라서 임계값이 설정될 수 있다. 일 예시적인 실시예에서, 제 5 장치(5)가 각각의 비디오 프레임을 전체적으로 64×64 픽셀로 변환했다면, 대응하는 주어진 임계값은 4가 될 것이다. 당업자라면 동일한 타깃 실제 영역 사이의 거리를 계산하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 실제 영역 사이의 거리를 계산하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 각 비디오 프레임의 모든 글로벌 특성은 글로벌 그레이스케일 특성, 글로벌 질감 특성, 글로벌 색상 특성 및 글로벌 움직임 특성 중 하나 이상을 포함한다.

본 개시의 예시적인 실시예에서, 각 비디오 프레임의 글로벌 그레이스케일 특성은 비디오 프레임의 3개의 색 채널의 합의 평균값에 기초해서 획득되며, 특히 이하의 식으로부터 구해질 수 있다.

본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 각 비디오 프레임의 글로벌 질감 특성은 가보르 행렬(필터) 혹은 캐니 연산자의 에지 검출 알고리즘을 이용해서 추출된다.

본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 각 비디오 프레임의 글로벌 질감 특성을 가보르 행렬(필터)을 이용해서 추출하는 것은,

로 표현되며, 이 식에서, θ는 사전 설정된 수의 방향이고,

본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 각 비디오 프레임의 글로벌 색상 특성을 추출하는 것은,

본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 각 비디오 프레임의 글로벌 움직임 특성을 추출하는 것은,

각 비디오 프레임의 그레이스케일 특성 맵과 사전 설정된 프레임 이전의 비디오 프레임의 그레이스케일 특성 맵과의 차이의 절대값을 비디오 프레임의 글로벌 움직임 특성으로서 사용하는 것을 포함한다. 여기서 비디오 프레임의 글로벌 움직임 특성 M(t)의 식은 다음과 같다.

여기서, M(t)는 비디오 프레임의 글로벌 움직임 특성을 나타내고, 비디오 프레임의 시점은 시점 t이고, I(t)는 비디오 프레임의 그레이스케일 특성 맵을 나타내고, I(t-τ)는 사전 설정된 τ 프레임 이전의 비디오 프레임의 그레이스케일 특성 맵을 나타내며, 사전 설정된 τ 프레임 이전의 비디오 프레임의 시점이 t-τ이며, 여기서 τ은 움직임 프레임 변경량이고, I(t)는 τ 프레임의 변경 이후의 시점 t에서의 움직임 변이를 나타내고, τ의 값은 비디오 스트림에서 초당 비디오 프레임의 수에 따라서 결정된다. 초당 비디오 프레임의 수가 클수록 τ의 값은 커지고,일 실시예에서의 τ의 값은 1 내지 5가 될 수 있고, 예시적인 실시예에서 τ의 값은 3이 될 수 있다.

I(t) 및 I(t-τ)는 식

에 따라서 획득된다.

본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 1 장치(1)는 각 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 비디오 프레임의 각 스케일의 사전 예상 위치를 획득하는 것이다.

도 15에 도시된 바와 같이, 본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 1 장치(1)는 다음을 포함한다.

각 비디오 프레임의 글로벌 특성에 가중치를 부여해서 행렬 다항식을 획득하는 제 1의 제 1 유닛(11). 여기서 각 비디오 프레임의 글로벌 그레이스케일 특성, 글로벌 질감 특성, 글로벌 색상 특성 및 글로벌 움직임 특성이 추출되면, 행렬 다항식은 다음과 같다.

행렬 다항식에 대해서 다항식 푸리에 변환을 수행해서 주파수 도메인 다항식 행렬을 획득하는 제 1의 제 2 유닛(12). 여기서 주파수 도메인 다항식 행렬은 다음과 같다.

주파수 도메인 다항식 행렬에 대해서 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 각 스케일의 주파수 도메인을 획득하는 제 1의 제 3 유닛(13).

각 스케일의 주파수 도메인에 대해서 역 푸리에 변환을 수행해서 비디오 프레임의 각 스케일의 타깃 사전 예상 위치를 획득하는 제 1의 제 4 유닛(14). 여기서 타깃 사전 예상 위치

는 다음 식에 기초해서 획득된다.

도 16에 도시된 바와 같이, 본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 1의 제 3 유닛(13)은 다음을 포함한다.

주파수 도메인 다항식 행렬에 따라서 대응하는 진폭 스펙트럼 A를 획득하는 제 1의 제 3의 제 1 유닛(131). 여기서 주파수 도메인 다항식 행렬의 진폭 스펙트럼은 다음과 같이 표현된다.

진폭 스펙트럼에 대해서 가우시언 저역 통과 필터를 이용해서 사전 설정된 멀티-스케일 진폭 스펙트럼 필터링을 수행해서, 각 스케일의 필터링된 진폭 스펙트럼을 획득하는 제 1의 제 3의 제 2 유닛(132). 가우시언 저역 통과 필터는 다음 형태를 갖는다.

이 식에서, H는 가우시언 저역 통과 필터 행렬이고, D는 푸리에 변환의 원점으로부터의 거리를 나타내고(거리는 유클리드 거리를 사용할 수 있다), σ는 가우시언 곡선 즉 스케일의 확대 각도를 나타내는데 이는 다음과 같이 표현될 수 있다.

각 스케일의 위상 스펙트럼 및 필터링된 진폭 스펙트럼에 따라서 각 스케일의 필터링된 주파수 도메인을 획득하는 제 1의 제 3의 제 3 유닛(133). 각 스케일의 필터링된 주파수 도메인

은 다음과 같이 표현된다.

도 17에 도시된 바와 같이, 본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 2 장치(2)는 다음을 포함한다.

각 비디오 프레임의 각 스케일의 각각의 타깃 사전 예상 위치에 따라서 대응하는 타깃 후보 영역을 획득하는 제 2의 제 1 유닛(21).

각각의 타깃 후보 영역 내의 픽셀의 수가 사전 설정된 수보다 작은지 여부를 판정하는 제 2의 제 2 유닛(22). 여기서 사전 설정된 수보다 작으면, 타깃 후보 영역을 필터링해서 제거하는데 예컨대, 픽셀의 수가 10 미만인 타깃 후보 영역을 필터링해서 제거하며, flag=0으로 설정하고, 즉 이후에 그 영역에 대한 신뢰도 레벨은 더 이상 계산하지 않는다.

타깃 후보 영역에 대해서, 필터링되어 제거되지 않는 각 타깃 후보 영역에 대해서 히스토그램을 작성하고, 이 히스토그램을, 대응하는 타깃 후보 영역의 신뢰도 레벨로서 이용해서 각 타깃 후보 영역의 정보 엔트로피를 계산하는 제 2의 제 3 유닛(23). 여기서 신뢰도 레벨은 다음 식에 따라서 획득될 수 있다.

본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 2의 제 1 유닛(21)은 현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치로서 각 비디오 프레임의 각 스케일의 각 타깃 사전 예상 위치를 순차적으로 사용하고, 현재 비디오 프레임의 현재 스케일의 상기 현재 타깃 사전 예상 위치에 대해서 다음의 처리를 순차적으로 수행한다;

현재의 비디오 프레임의 현재의 스케일의 현재의 타깃 사전 예상 위치의 픽셀을 미방문(unvisited)이라고 라벨링하는 처리.

현재의 스케일의 현재의 타깃 사전 예상 위치를 스캐닝해서, 미방문이라고 라벨링되어 있으며 현재 타깃 사전 예상 위치 내의 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 픽셀을 중앙 픽셀로서 발견하고, 이 중앙 픽셀을 방문이라고 라벨링하는 처리. 예컨대, 사전 설정된 값은 0.2의 위치에 있을 수 있으며 중앙 픽셀 flag=1이라고 라벨링된다.

미방문이라고 라벨링되고, 중앙 픽셀의 이웃 도메인에서 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 다른 픽셀을 획득하고, 획득한 미방문이라고 라벨링되고, 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 다른 픽셀을 방문이라고 라벨링하는 처리.

현재의 타깃 사전 예상 위치에 대응하는 타깃 후보 영역을 초기화하고, 중앙 픽셀 및 미방문이라고 라벨링되고, 중앙 픽셀의 이웃 도메인에서 사전 설정된 값보다 큰(가중된) 픽셀 값을 가진 다른 픽셀을 타깃 후보 영역에 추가하는 처리. 예컨대, 다른 픽셀이 P(x, y)>0.2 및 flag=0을 만족하면, P(x, y)는 중요도 맵의 (x, y) 위치에 대응하는 값이고, 이웃하는 도메인은 8개의 이웃하는 도메인 즉 스트리트(street) 이웃하는 도메인(4개의 이웃하는 도메인)이며, 여기서 각각의 타깃 사전 예상 위치는 하나의 타깃 후보 영역에 대응한다. 당업자라면, 타깃 후보 영역을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 후보 영역을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

도 18에 도시된 바와 같이, 본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 3 장치(3)는 다음을 포함한다.

각 비디오 프레임의 모든 스케일의 타깃 후보 영역에 대해서 영역 트리 구조를 큰 스케일부터 작은 스케일의 순서로 설정하는 제 3의 제 1 유닛(31). 만약 제 2의 제 1 유닛(21)이 픽셀의 수가 사전 설정된 수보다 작은 타깃 후보 영역를 필터링해서 제거했다면, 여기서 타깃 후보 영역은 필터링되지 않은 타깃 후보 영역이다. 예컨대, 제 1의 제 3의 제 2 유닛(S132)은 8개 스케일과 같은 다수의 스케일을 가진 가우시언 저역 통과 필터를 사용한다. 따라서, 제 2의 제 3 유닛(23)에서 획득한 타깃 후보 영역도 8개의 스케일로 구성되고, 여기서 영역 트리 구조는 큰 스케일부터 작은 스케일의 순서로 설정되며, 이 구조는 멀티 자식 트리 및 싱글 자식 트리를 포함하는데 이는 도 9 및 10에 각각 도시되어 있다.

각 비디오 프레임의 영역 트리 구조 및 모든 타깃 후보 영역의 신뢰도 레벨에 따라서 각 비디오 프레임의 타깃 실제 영역을 획득하는 제 3의 제 2 유닛(32).

본 개시의 예시적인 실시예에 따른 타깃 획득 장치에서, 제 3의 제 2 유닛(32)은 각 비디오 프레임의 영역 트리 구조의 각각의 노드 영역을 큰 스케일부터 작은 스케일의 순서로 트래버스하고, 각 비디오 프레임의 타깃 실제 영역을 획득하도록 하기 상황에 따라서 반복 과정을 수행한다.

부모 노드 영역 및 자식 노드 영역이 현재 싱글 자식 트리이면(싱글 자식 트리 케이스), 신뢰도 레벨(conf)이 높은 노드 영역이 타깃 실제 영역으로서 직접 선택되고 반복은 종료된다.

부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 현재의 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 모두의 신뢰도 레벨보다 높다면(멀티 자식 트리 케이스 1), 부모 노드 영역이 타깃 실제 영역으로서 선택되고, 반복은 종료된다.

부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 현재의 2개의 자식 노드 영역의 신뢰도 레벨이 모두 현재의 부모 노드 영역의 신뢰도 레벨보다 높다면(멀티 자식 트리 케이스 2), 2개의 자식 노드 영역이 타깃 실제 영역으로서 선택되고, 여기서 이 동작 이후에 나머지 자식 노드 영역을 트래버스하는 동안에, 이 반복 과정을 싱글 자식 트리 케이스나 멀티 자식 트리 케이스 1이 발생할 때까지, 멀티 자식 트리 케이스 2 및 멀티 자식 트리 케이스 3에 따라서 낮은 스케일의 노드 영역에 대해서 되풀이해서 계속할 필요가 있다.

부모 노드 영역 및 자식 노드 영역이 현재 멀티 자식 트리이고, 부모 노드 영역의 신뢰도 레벨이 2개의 자식 노드 영역 중 하나의 신뢰도 레벨보다 높고, 2개의 자식 노드 영역 중 다른 하나의 신뢰도 레벨보다 낮으면(멀티 자식 트리 케이스 2), 신뢰도 레벨이 더 높은 자식 노드 영역이 타깃 실제 영역으로서 선택된다. 이 단계 이후에 나머지 자식 노드 영역을 트래버스하는 동안에, 이 반복 과정을 싱글 자식 트리 케이스나 멀티 자식 트리 케이스 1이 발생할 때까지, 멀티 자식 트리 케이스 2 및 멀티 자식 트리 케이스 3에 따라서 낮은 스케일의 노드 영역에 대해서 되풀이해서 계속할 필요가 있다. 당업자라면, 타깃 실제 영역을 획득하는 것에 대한 상기 설명은 단지 예시적인 것으로, 본 개시에 적용 가능한 타깃 실제 영역을 획득하는 다른 기존의 혹은 향후 개발될 설명도 본 개시의 보호 범주에 포함되고, 여기에 참조로서 포함된다는 것을 이해할 것이다.

본 개시는 매틀랩, C++ 호출 OpenCV 및 다른 방식을 이용해서 구현될 수 있다.

이하, 본 개시의 타깃 획득 방법 및 장치에 대해서 특정 응용예를 참조하면서 더 설명한다.

특정 응용예에서, 비디오로부터 다수의 타깃을 획득하기 위해서, 동일한 비디오로부터 복수의 비디오 프레임이 추출되고, 각 비디오 프레임에 대해서 크기 정규화가 수행되며, 이후에 각 비디오 프레임의 정규화된 글로벌 특성이 추출된다. 이 글로벌 특성은 글로벌 그레이스케일 특성, 글로벌 질감 특성, 글로벌 색상 특성 및 글로벌 움직임 특성을 포함한다. 이후, 각 비디오 프레임의 타깃 사전 예상 위치를 수집해서 대응하는 타깃 후보 영역을 획득해서, 각 비디오 프레임의 하나 이상의 타깃을 빠르고 효율적으로 획득하며, 종래의 기술의 시나리오 및 타깃의 타입에 의존하는 문제를 해결한다. 예컨대, 가우시안 혼합 모델과 같은 기존의 배경 모델링 방법은 여행 기록 비디오에서 사용될 수 없다. 나아가, 인접한 시점에 있는, 비디오 프레임에서 동일한 타깃 실제 영역의 중앙 위치들 사이의 거리가 사전 설정된 임계값보다 큰 지 여부가 후속해서 계산되고, 임계값보다 크다면, 2개의 인접 시점 중 후자에 있는 비디오 프레임 내의 타깃 실제 영역은 무효한 것이며, 이로써, 비디오에서 유효한 타깃 실제 영역만을 더 정확하게 추출하는 것이 용이하게 되며, 비디오 분류를 위한 기본 특성을 제공한다. 예컨대, 비디오의 타깃의 수에 기초해서, 은행의 ATM의 감시 비디오는 철도역의 감시 비디오와 구별되고, 타깃의 움직임의 궤적에 기초해서 여행 기록 비디오는 은행의 감시 비디오와 구별된다.

이러한 관점에서, 본 개시는 각 비디오 프레임의 글로벌 특성에 따라서, 비디오 프레임의 각각의 스케일의 타깃 사전 예상 위치를 획득하고, 각 비디오 프레임의 타깃 사전 예상 위치를 수집해서 대응하는 타깃 후보 영역을 획득하며, 타깃 후보 영역의 신뢰도 레벨과 대응하는 스케일 처리를 조합해서 각 비디오 프레임 내의 타깃 후보 영역 모두에 따라서 비디오 프레임 내의 타깃 실제 영역을 결정하고, 이로써 하나 이상의 타깃을 빠르고 효율적으로 획득할 수 있고, 특히 다수의 타깃을 정확하게 구별해서 획득할 수 있다.

또한, 본 개시는 2개의 인접 시점에 있는 비디오 프레임들 내의 동일한 타깃 실제 영역의 중앙 위치들 사이의 거리가 사전 설정된 임계값 이상인지 여부를 계산하고, 임계값 이상이면, 2개의 인접 시점 중 후자에 있는 비디오 프레임 내의 타깃 실제 영역은 무효한 것이라고 판정하고, 이로써 비디오에서 타깃의 후속 추출에서의 정확성을 더 높일 수 있으며, 비디오 분류를 위한 기본 특성을 제공하는 것이 가능해진다.

당업자라면 본 개시의 사상으로부터 벗어남없이 본 개시에 대한 많은 수정 및 변경을 행할 수 있다는 것이 자명하다. 본 개시에 대한 수정 및 변경이 본 개시의 청구항의 범주 내에 들어간다면, 본 개시는 이들 수정 및 변경을 포함하는 것이다.

본 개시는 하드웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있으며, 예컨대, 이들은 ASIC, 다목적 컴퓨터 혹은 임의의 다른 유사한 하드웨어 장치를 이용해서 구현될 수 있다는 점에 주의한다. 예시적인 실시예에서, 본 개시의 소프트웨어 프로그램은 프로세서를 통해서 상술한 단계 혹은 기능을 수행하도록 실행될 수 있다. 유사하게, 본 개시의 소프트웨어 프로그램(관련 데이터 구조를 포함)은 예컨대, RAM 메모리, 자기 혹은 광학식 드라이브나 혹은 플로피 디스크, 및 유사한 장치와 같은 컴퓨터 판독 가능 매체에 저장될 수 있다. 나아가, 본 개시의 일부 단계 혹은 기능은 예컨대, 각 단계 혹은 기능을 수행하는 프로세서와 함께 동작하는 회로와 같은 하드웨어를 사용해서 구현될 수 있다.

나아가, 본 개시의 일부는 예컨대, 컴퓨터-실행 가능 인스트럭션과 같은 컴퓨터 프로그램 제품으로서 구현될 수 있고, 컴퓨터에 의해 실행될 때, 본 개시의 방법 및/또는 기술적인 해법이 컴퓨터의 동작을 통해서 호출 혹은 제공된다. 본 개시의 방법을 호출하는 컴퓨터-실행 가능 인스트럭션은 고정형 혹은 착탈형 기록 매체에 저장될 수도 있고, 및/또는 브로드캐스트나 다른 신호 전달 매체로 데이터 스트림을 통해서 전송될 수도 있으며, 및/또는프로그램 인스트럭션에 따라서 동작하는 컴퓨터 장치의 동작 저장부에 저장될 수도 있다. 여기서, 본 개시의 일 예시적인 실시예에 따라서, 장치는 컴퓨터-실행 가능 인스트럭션을 저장하기 위한 컴퓨터 판독 가능 저장부 및 컴퓨터-실행 가능 인스트럭션을 실행하는 프로세서를 포함한다. 컴퓨터-실행 가능 인스트럭션이 프로세서에 의해 실행될 때, 이 장치는 본 개시에 따른 상술한 다수의 실시예에 기초한 방법 및/또는 기술적인 해법을 동작시키도록 트리거된다.

당업자에게는, 본 개시가 상술한 예시적인 실시예의 세부 사항으로 한정되는 것은 아니며, 본 개시는 그 사상 혹은 기본적인 특성으로부터 벗어남없이 다른 특정 형태로 구현될 수 있다는 것이 자명할 것이다. 따라서, 어느 견지에서 보더라도, 이 실시예는 예시적인 것으로, 본 개시의의 범주는 상기 설명이 아닌 첨부된 청구항에 의해서 제공되는데, 이는 청구항의 등가물의 사상 및 범주 내에 들어가는 모든 변형이 본 개시 내에 들어가게 하기 위함이다. 청구항의 임의의 참조 번호는 그것이 포함된 청구항을 한정하는 것이 아니다. 나아가, "포함한다"는 용어는 다른 유닛 혹은 동작을 배제하는 것이 아니며, 단일인 것이 복수 존재를 배제하는 것은 아니라는 점이 자명하다. 장치 청구항 내의 다수의 유닛 혹은 소자는 소프트웨어 혹은 하드웨어를 통해서 하나의 유닛 혹은 소자에 의해 구현될 수도 있다. 제 1 및 제 2 라는 용어를 사용하는 것은, 특정한 순서가 아니며 명칭을 나타낸 것이다.

Claims

타깃 획득 방법으로서,
각각의 비디오 프레임의 글로벌 특성(global feature)에 따라서, 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하는 단계와,
상기 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서(cluster) 하나 이상의 타깃 후보 영역을 획득하는 단계와,
상기 하나 이상의 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 상기 하나 이상의 타깃 후보 영역 모두에 따라서, 각각의 비디오 프레임 내의 타깃 실제 영역(target actual region)을 판정하는 단계
를 포함하는 타깃 획득 방법.
제 1 항에 있어서,
상기 하나 이상의 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 상기 하나 이상의 타깃 후보 영역 모두에 따라서, 각각의 비디오 프레임 내의 상기 타깃 실제 영역을 판정하는 단계 이후에,
상기 복수의 비디오 프레임의 2개의 인접 시점에 있는 2개의 비디오 프레임들 내의 동일한 타깃 실제 영역을 비교해서 상기 타깃 실제 영역이 무효한지 판정하는 단계
를 더 포함하는 타깃 획득 방법.
제 1 항에 있어서,
각각의 비디오 프레임의 상기 글로벌 특성에 따라서, 상기 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하는 단계 이전에,
각각의 비디오 프레임에 대해서 크기 정규화를 수행하는 단계
를 더 포함하는 타깃 획득 방법.
제 1 항에 있어서,
상기 글로벌 특성은 글로벌 그레이스케일 특성과, 글로벌 질감 특성과, 글로벌 색상 특성과, 글로벌 움직임 특성 중 하나 이상을 포함하는
타깃 획득 방법.
제 4 항에 있어서,
각각의 비디오 프레임의 상기 글로벌 질감 특성은 가보르 행렬(Gabor matrix) 혹은 캐니 연산자(Canny operator)의 에지 검출 알고리즘을 이용해서 추출되는
타깃 획득 방법.
제 4 항에 있어서,
각각의 비디오 프레임의 상기 글로벌 색상 특성을 추출하는 단계를 더 포함하고,
상기 추출하는 단계는,
각각의 비디오 프레임의 3개의 컬러 채널에 따른 적색, 녹색, 청색 및 황색을 포함하는 4색의 수정된 기준 행렬을 획득하는 단계와,
상기 4색의 상기 기준 행렬에 따른 적색-녹색 색상 특성 행렬 및 청색-황색 색상 특성 행렬을 획득하는 단계와,
상기 적색-녹색 색상 특성 행렬과 상기 청색-황색 색상 특성 행렬 사이의 차이의 절대값을 각각의 비디오 프레임의 글로벌 색상 특성으로서 이용하는 단계
를 포함하는
타깃 획득 방법.
제 4 항에 있어서,
각각의 비디오 프레임의 상기 글로벌 움직임 특성을 추출하는 단계를 더 포함하고,
상기 추출하는 단계는, 각각의 비디오 프레임의 그레이스케일 특성 맵과 대응하는 이전 비디오 프레임의 그레이스케일 특성 맵 사이의 차이의 절대값을, 상기 비디오 프레임의 상기 글로벌 움직임 특성으로서 이용하는 단계를 포함하는,
타깃 획득 방법.
제 1 항에 있어서,
상기 각각의 비디오 프레임의 글로벌 특성에 따라서 상기 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하는 단계는,
상기 각각의 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 각각의 비디오 프레임의 각각의 스케일의 상기 사전 예상 위치를 획득하는 단계
를 포함하는
타깃 획득 방법.
제 8 항에 있어서,
상기 각각의 비디오 프레임의 글로벌 특성에 가중치를 부여하고, 멀티-스케일 주파수 영역 진폭 스펙트럼 필터링을 수행해서, 각각의 비디오 프레임의 각각의 스케일의 상기 사전 예상 위치를 획득하는 단계는,
상기 각각의 비디오 프레임의 글로벌 특성에 가중치를 부여해서 행렬 다항식(a matrix polynomial)을 획득하는 단계와,
상기 행렬 다항식에 대해서 다항식 푸리에 변환을 수행해서 주파수 도메인 다항식 행렬을 획득하는 단계와,
상기 주파수 도메인 다항식 행렬에 대해서 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 각각의 스케일의 주파수 도메인을 획득하는 단계와,
상기 각각의 스케일의 주파수 도메인에 대해서 역 푸리에 변환을 수행해서 각각의 비디오 프레임의 각각의 스케일의 상기 타깃 사전 예상 위치를 획득하는 단계
를 포함하는
타깃 획득 방법.
제 9 항에 있어서,
상기 주파수 도메인 다항식 행렬에 대해서 상기 멀티-스케일 진폭 스펙트럼 필터링을 수행해서 상기 각각의 스케일의 주파수 도메인을 획득하는 단계는,
상기 주파수 도메인 다항식 행렬에 따라서 대응하는 진폭 스펙트럼을 획득하는 단계와,
상기 진폭 스펙트럼에 대해서 가우시언 저역 통과 필터를 이용해서 사전 설정된 멀티-스케일 진폭 스펙트럼 필터링을 수행해서, 각각의 스케일의 필터링된 진폭 스펙트럼을 획득하는 단계와,
각각의 스케일의 위상 스펙트럼 및 상기 필터링된 진폭 스펙트럼에 따라서 각각의 스케일의 필터링된 주파수 도메인을 획득하는 단계
를 포함하는
타깃 획득 방법.
제 1 항에 있어서,
상기 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 상기 하나 이상의 타깃 후보 영역을 획득하는 단계는,
각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치에 따라서 대응하는 타깃 후보 영역을 획득하는 단계와,
제각기의 타깃 후보 영역 내의 픽셀의 수가 사전 설정된 수보다 작은지 여부를 판정하는 단계와,
상기 제각기의 타깃 후보 영역을 필터링해서 제거하는 단계와,
필터링되어 제거되지 않은 각각의 타깃 후보 영역에 대해서 히스토그램을 작성하는 단계와,
상기 히스토그램을, 대응하는 타깃 후보 영역의 신뢰도 레벨로서 이용해서, 필터링되어 제거되지 않은 각각의 타깃 후보 영역의 정보 엔트로피를 계산하는 단계
를 포함하는
타깃 획득 방법.
제 11 항에 있어서,
상기 각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치에 따라서 상기 대응하는 타깃 후보 영역을 획득하는 단계는,
현재 비디오 프레임의 현재 스케일의 현재 타깃 사전 예상 위치로서, 각각의 비디오 프레임의 각각의 스케일의 각각의 타깃 사전 예상 위치를 순차적으로 사용하는 단계와,
상기 현재 비디오 프레임의 상기 현재 스케일의 상기 현재 타깃 사전 예상 위치에 대해서 다음 처리를 순차적으로 수행하는 단계
를 포함하고, 상기 다음 처리는,
현재의 비디오 프레임의 현재의 스케일의 상기 현재의 타깃 사전 예상 위치의 픽셀을, 미방문(unvisited)이라고 라벨링하는 처리와,
상기 현재의 스케일의 상기 현재의 타깃 사전 예상 위치를 스캐닝하는 처리와,
미방문이라고 라벨링되어 있으며 상기 현재 타깃 사전 예상 위치 내의 사전 설정된 값보다 큰 픽셀 값을 가진 픽셀을 중앙 픽셀로서 발견하는 단계와,
상기 중앙 픽셀을 방문(visited)이라고 라벨링하는 처리와,
미방문이라고 라벨링되고 상기 중앙 픽셀의 이웃하는 도메인 내의 상기 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을 획득하는 처리와,
상기 획득한, 상기 미방문이라고 라벨링되고 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을, 방문이라고 라벨링하는 처리와,
상기 현재의 타깃 사전 예상 위치에 대응하는 타깃 후보 영역을 초기화하는 처리와,
상기 중앙 픽셀 및 미방문이라고 라벨링되고 상기 이웃하는 도메인 내의 상기 사전 설정된 값보다 큰 픽셀값을 가진 다른 픽셀을 상기 타깃 후보 영역에 추가하는 처리
를 포함하는
타깃 획득 방법.
제 1 항에 있어서,
상기 하나 이상의 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 상기 하나 이상의 타깃 후보 영역 모두에 따라서, 각각의 비디오 프레임 내의 상기 타깃 실제 영역을 판정하는 단계는,
각각의 비디오 프레임의 모든 스케일의 상기 하나 이상의 타깃 후보 영역에 대해서 영역 트리 구조를 큰 스케일부터 작은 스케일의 순서로 설정하는 단계와,
각각의 비디오 프레임의 상기 영역 트리 구조 및 상기 하나 이상의 타깃 후보 영역의 상기 신뢰도 레벨에 따라서 각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하는 단계
를 포함하는
타깃 획득 방법.
제 13 항에 있어서,
상기 각각의 비디오 프레임의 상기 영역 트리 구조 및 상기 하나 이상의 타깃 후보 영역의 상기 신뢰도 레벨에 따라서 각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하는 단계는,
각각의 비디오 프레임의 상기 영역 트리 구조의 각각의 노드 영역을 큰 스케일부터 작은 스케일의 순서로 트래버스하는 단계와,
각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하도록 반복 과정을 수행하는 단계
를 포함하는
타깃 획득 방법.
제 14 항에 있어서,
상기 각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하도록 반복 과정을 수행하는 단계는,
부모 노드 영역 및 자식 노드 영역이 싱글 자식 트리라고 판정하는 단계와,
신뢰도 레벨이 높은 노드 영역을 상기 타깃 실제 영역으로서 선택하는 단계와,
상기 반복 과정을 종료하는 단계
를 포함하는
타깃 획득 방법.
제 14 항에 있어서,
상기 각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하도록 반복 과정을 수행하는 단계는,
부모 노드 영역 및 2개의 자식 노드 영역이 멀티 자식 트리이고, 상기 부모 노드 영역의 신뢰도 레벨이 상기 2개의 자식 노드 영역 모두의 신뢰도 레벨보다 높다고 판정하는 단계와,
상기 부모 노드 영역을 상기 타깃 실제 영역으로서 선택하는 단계와,
상기 반복 과정을 종료하는 단계
를 포함하는
타깃 획득 방법.
제 14 항에 있어서,
상기 각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하도록 반복 과정을 수행하는 단계는,
부모 노드 영역 및 2개의 자식 노드 영역이 멀티 자식 트리이고, 상기 2개의 자식 노드 영역의 신뢰도 레벨이 상기 부모 노드 영역의 신뢰도 레벨보다 높다고 판정하는 단계와,
상기 2개의 자식 노드 영역을 상기 타깃 실제 영역으로서 선택하는 단계
를 포함하는
타깃 획득 방법.
제 14 항에 있어서,
상기 각각의 비디오 프레임의 상기 타깃 실제 영역을 획득하도록 반복 과정을 수행하는 단계는,
부모 노드 영역 및 2개의 자식 노드 영역이 멀티 자식 트리이고, 상기 부모 노드 영역의 신뢰도 레벨이 상기 2개의 자식 노드 영역 중 하나의 신뢰도 레벨보다는 높고 상기 2개의 자식 노드 영역 중 다른 하나의 신뢰도 레벨보다는 낮다고 판정하는 단계와,
상기 신뢰도 레벨이 더 높은 자식 노드 영역을 상기 타깃 실제 영역으로서 선택하는 단계
를 포함하는
타깃 획득 방법.
타깃 획득 장치로서,
각각의 비디오 프레임의 글로벌 특성에 따라서, 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하는 제 1 장치와,
상기 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 하나 이상의 타깃 후보 영역을 획득하는 제 2 장치와,
상기 하나 이상의 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 상기 하나 이상의 타깃 후보 영역 모두에 따라서, 각각의 비디오 프레임 내의 타깃 실제 영역을 판정하는 제 3 장치
를 포함하는 타깃 획득 장치.
하나 이상의 프로세서에 의해서 실행 가능한 컴퓨터 실행 가능 인스트럭션이 저장된 하나 이상의 메모리로서,
상기 컴퓨터 실행 가능 인스트럭션은 상기 하나 이상의 프로세서로 하여금,
각각의 비디오 프레임의 글로벌 특성에 따라서, 복수의 비디오 프레임의 각각의 비디오 프레임 내의 복수의 스케일의 타깃 사전 예상 위치를 획득하게 하는 동작과,
상기 각각의 비디오 프레임 내의 타깃 사전 예상 위치를 수집해서 하나 이상의 타깃 후보 영역을 획득하게 하는 동작과,
상기 하나 이상의 타깃 후보 영역의 신뢰도 레벨 및 대응하는 스케일 처리와 조합해서, 각각의 비디오 프레임 내의 상기 하나 이상의 타깃 후보 영역 모두에 따라서, 각각의 비디오 프레임 내의 타깃 실제 영역을 판정하게 하는 동작
을 수행하게 하는,
메모리.