KR20210096473A

KR20210096473A - 신뢰도 추정을 통한 글로벌 및 로컬 검색을 기반으로 한 견고한 시각적 물체 추적

Info

Publication number: KR20210096473A
Application number: KR1020200009987A
Authority: KR
Inventors: 조근식; 방양
Original assignee: 인하대학교 산학협력단
Priority date: 2020-01-28
Filing date: 2020-01-28
Publication date: 2021-08-05
Also published as: KR102339727B1

Abstract

일 실시예에 따른 추적 시스템에 의해 수행되는 글로벌 및 로컬 검색 방법은, 다중 스케일 기반의 타겟 인식 탐지기에 지역 제안 네트워크(Region proposal)를 구축하는 단계; DCF 기반의 추적 모델과 상기 다중 스케일 기반의 타겟 인식 탐지기가 협력적으로 결합하여 글로벌 및 로컬 검색을 수행하는 단계; 및 상기 수행된 글로벌 및 로컬 검색을 통해 타겟 객체의 위치를 추정하는 단계를 포함할 수 있다.

Description

신뢰도 추정을 통한 글로벌 및 로컬 검색을 기반으로 한 견고한 시각적 물체 추적{ROBUST VISUAL OBJECT TRACKING BASED ON GLOBAL AND LOCAL SEARCH WITH CONFIDENCE ESTIMATION}

아래의 설명은 객체(Object) 추적 기술에 관한 것이다.

시각적 객체 추적은 개방적이고 도전적인 문제로서, 온라인 추적자는 심지어 타겟 이동과 배경 폐쇄와 같은 복잡한 시나리오에서도 오랫동안 타겟 객체를 추적할 수 있어야 한다. 차별적 상관 필터(DCF)는 원형 밀도 샘플링 메커니즘과 이산 푸리에(Fourier) 변환을 통한 빠른 계산 덕분에 단기 타겟 추적 문제에서 탁월한 성능을 보였다. 그러나 타겟이 급격한 변형, 빠른 움직임, 또는 배경 폐쇄에 부딪쳤을 때 타겟으로부터 변형되는 경향이 있다. 이는 추적기가 이전 프레임에 타겟이 위치했던 위치의 로컬 지역에서 타겟을 검색하기 때문에 잘못된 모델 업데이트를 초래할 수 있다. 타겟 재확인과 위치 재확인을 위한 복구 메커니즘이 없는 것이다.

현대의 객체 탐지에서 지배적인 패러다임은 PASCAL VOC 2007/2012와 같은 표준 벤치마크와 최근 도전적인 COCO 데이터 세트에서 일관되게 최고의 정확도를 달성하는 2단계 탐지기에 기초한다. 고속 R-CNN 네트워크는 전체 이미지와 객체 제안 세트를 입력으로 한다. 네트워크는 먼저 입력 이미지를 전방으로 전파하여 CNN 특징맵을 제작한 다음 관심 영역(ROI) 풀링 계층을 적용하여 각 객체 제안 시 특징맵에서 고정 길이의 특징 벡터를 추출한다. 그런 다음 각 특징 벡터는 최종 객체 분류 및 경계 박스 회귀 분석을 위해 완전히 연결된 여러 계층으로 공급된다. 더 빠른 훈련과 시험 속도, 더 높은 정확도를 위해, 더 빠른 R-CNN에서 후보 객체 경계 박스를 제안하기 위해 지역 제안 네트워크(Region Proposal Network)이 제안되었다. 더 빠른 추론을 위해 객체 제안 생성, 객체 분류 및 경계 박스 회귀 분석을 위한 공유 콘볼루션 특징을 사용한다.

이에, 기존의 최첨단 상관 필터(CF) 기반 추적 방법의 잠재적 약점을 탐구할 필요가 있다. 다시 말해서, 단순한 합성 원형 샘플링 메커니즘 때문에 타겟이 급격한 변형, 빠른 움직임, 또는 배경 폐쇄 등의 극단적인 경우에 이동하는 경향이 있다. 추적기 이동 문제가 발생하면 타겟 재지정 및 재배치를 위한 복구 메커니즘이 없어 추적 실패를 초래한다.

새로운 타겟 인식 탐지기와 함께 차별적 상관 필터(DCF) 기반 추적 모델을 공동으로 적용하는 글로벌 및 로컬 검색 기법을 제안한다.

추적 시스템에 의해 수행되는 글로벌 및 로컬 검색 방법은, 다중 스케일 기반의 타겟 인식 탐지기에 지역 제안 네트워크(Region proposal)를 구축하는 단계; DCF 기반의 추적 모델과 상기 다중 스케일 기반의 타겟 인식 탐지기가 협력적으로 결합하여 글로벌 및 로컬 검색을 수행하는 단계; 및 상기 수행된 글로벌 및 로컬 검색을 통해 타겟 객체의 위치를 추정하는 단계를 포함할 수 있다.

상기 타겟 객체의 위치를 추정하는 단계는, 현재 프레임의 추적 결과에 따른 추적 모델의 신뢰도를 측정하기 위한 피크대 사이드로브(sidelobe) 비율(EPSR)을 제안하고, 상기 피크대 사이드로브 비율에 기초하여 단일 추적 또는 공동 추적 여부를 결정하고, 계산 효율성을 위한 추적 모델을 업데이트하는 단계를 포함할 수 있다.

상기 타겟 객체의 위치를 추정하는 단계는, 상기 다중 스케일 기반의 타겟 인지 탐지기가 공간 및 스케일 제약 조건과 함께 유사한 객체 후보를 생성하고, 상기 DCF 기반의 추적 모델을 통하여 전경 및 백그라운드 간섭을 구별하기 위한 역할을 수행하여 객체 재확인을 위해 객체 후보의 순위를 재정렬하는 단계를 포함할 수 있다.

상기 타겟 객체의 위치를 추정하는 단계는, 상기 다중 스케일 기반의 타겟 인식 탐지기에서 추적 객체가 탐지되는 것을 보장하기 위해 객체 회수율이 기 설정된 탐지 점수 이상을 가진 객체 제안을 선택하고, 상기 선택된 객체 제안의 중심점과 이전에 추정된 추적 객체의 중심점 사이의 상대적 거리를 계산함으로써 공간 제약을 적용하고, 상기 선택된 객체 제안과 추정된 추적 출력 사이의 통합 함수에 대한 교차점 조합 함수에 의한 스케일 제약을 적용하는 단계를 포함할 수 있다.

상기 타겟 객체의 위치를 추정하는 단계는, 상기 공간 제약 및 스케일 제약을 적용함에 따라 타겟 객체 후보를 생성하고, 상기 생성된 타겟 객체 후보 내에서 새로운 프레임에서 추적 타겟 객체가 될 가능성이 높은 후보 경계 박스를 나타내고, 각각의 후보 경계 박스의 상관 신뢰도를 계산하여 최종의 타겟 객체를 추정하는 단계를 포함할 수 있다.

글로벌 및 로컬 검색을 위한 추적 시스템은, 다중 스케일 기반의 타겟 인식 탐지기에 지역 제안 네트워크(Region proposal)를 구축하는 네트워크 구축부; DCF 기반의 추적 모델과 상기 다중 스케일 기반의 타겟 인식 탐지기가 협력적으로 결합하여 글로벌 및 로컬 검색을 수행하는 검색 수행부; 및 상기 수행된 글로벌 및 로컬 검색을 통해 타겟 객체의 위치를 추정하는 위치 추정부를 포함할 수 있다.

극단적인 시나리오에서 드리프트 문제를 피하는 데 효과적으로 도움을 줄 수 있으며 실행 시간을 희생하지 않으면서 추적 견고성을 크게 향상시킬 수 있다.

향후 작업을 위해보다 효율적인 모델 업데이트 방법론을 탐색하고 협업 메커니즘을 최적화하여 성능을 더욱 향상시킬 수 있다.

도 1은 일 실시예에 따른 추적 시스템의 구성을 설명하기 위한 블록도이다.
도 2는 일 실시예에 있어서, 멀티 스케일(Multi-scale) 지역 제안 네트워크를 나타낸 도면이다.
도 3은 일 실시예에 있어서, 글로벌 및 로컬 검색 알고리즘의 전반적인 프로세스를 설명하기 위한 도면이다.
도 4는 일 실시예에 있어서, 그라운드 트루 경계 박스, 알고리즘 1에 의해 생성된 9개의 앵커 상자, 앵커 상자에서 회귀된 최종의 객체 영역을 나타낸 예이다.
도 5는 일 실시예에 있어서, 공간 제약 및 스케일 제약을 설명하기 위한 도면이다.
도 6은 일 실시예에 있어서, 향상된 피크 대 sidelobe 비율(EPSR) 값 및 DCF의 탐지 점수를 나타낸 도면이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

실시예에서 제안하는 추적 모델은 높은 추적 신뢰도로 로컬 검색 프로세스를 수행하고, 제안된 추적 시스템에 의해 추적 모델의 불안정성 및 신뢰 변동이 탐지되었을 때 전체 프레임에서 글로벌 검색을 통해 타겟을 재지정하고 위치를 파악하기 위해 타겟 인식 탐지기를 실행할 수 있다. 또한, 신뢰도 추정을 위해 향상된 피크 대 사이드로브(sidelobe) 비율(EPSR)을 설계하여 불안정성과 변동 정도를 나타내기로 한다. 이에 따라 최종 타겟의 상태 추정과 추정 모델의 업데이트 과정에 대해 로컬 추적 모델과 타겟 인식 탐지기가 공동으로 적용될 수 있다. 이에, 불량 업데이트로부터 모델 손상을 피할 수 있을 뿐만 아니라, 장기적인 추적을 위해 문제를 이동시키는 것을 방지한다.

도 1은 일 실시예에 따른 추적 시스템의 구성을 설명하기 위한 블록도이다.

추적 시스템(100)은 글로벌 및 로컬 검색을 수행하기 위한 것으로, 네트워크 구축부(110), 검색 수행부(120) 및 위치 추정부(130)를 포함할 수 있다.

네트워크 구축부(110)는 다중 스케일 기반의 타겟 인식 탐지기에 지역 제안 네트워크를 구축할 수 있다.

검색 수행부(120)는 DCF 기반의 추적 모델과 다중 스케일 기반의 타겟 인식 탐지기가 협력적으로 결합하여 글로벌 및 로컬 검색을 수행할 수 있다.

위치 추정부(130)는 수행된 글로벌 및 로컬 검색을 통해 타겟 객체의 위치를 추정할 수 있다. 위치 추정부(130)는 현재 프레임의 추적 결과에 따른 추적 모델의 신뢰도를 측정하기 위한 피크대 사이드로브(sidelobe) 비율(EPSR)을 제안하고, 피크대 사이드로브 비율에 기초하여 단일 추적 또는 공동 추적 여부를 결정하고, 계산 효율성을 위한 추적 모델을 업데이트할 수 있다. 위치 추정부(130)는 다중 스케일 기반의 타겟 인지 탐지기가 공간 및 스케일 제약 조건과 함께 유사한 객체 후보를 생성하고, DCF 기반의 추적 모델을 통하여 전경 및 백그라운드 간섭을 구별하기 위한 역할을 수행하여 객체 재확인을 위해 객체 후보의 순위를 재정렬할 수 있다. 위치 추정부(130)는 다중 스케일 기반의 타겟 인식 탐지기에서 추적 객체가 탐지되는 것을 보장하기 위해 객체 회수율이 기 설정된 탐지 점수 이상을 가진 객체 제안을 선택하고, 선택된 객체 제안의 중심점과 이전에 추정된 추적 객체의 중심점 사이의 상대적 거리를 계산함으로써 공간 제약을 적용하고, 선택된 객체 제안과 추정된 추적 출력 사이의 통합 함수에 대한 교차점 조합 함수에 의한 스케일 제약을 적용할 수 있다. 위치 추정부(130)는 공간 제약 및 스케일 제약을 적용함에 따라 타겟 객체 후보를 생성하고, 생성된 타겟 객체 후보 내에서 새로운 프레임에서 추적 타겟 객체가 될 가능성이 높은 후보 경계 박스를 나타내고, 각각의 후보 경계 박스의 상관 신뢰도를 계산하여 최종의 타겟 객체를 추정할 수 있다.

도 3은 일 실시예에 따른 글로벌 및 로컬 검색 알고리즘의 전반적인 프로세스를 설명하기 위한 도면이다.

실시예에 따른 추적 시스템은 추적 필드에 멀티 스케일(Multi-scale) RPN 기반의 타겟 인식 탐지기를 구성할 수 있다. 마지막 콘볼루션 특징맵 위에 단일 RPN을 사용하는 대신, 두 번째 콘볼루션 계층을 통과 계층 위에 한 개의 지역 제안 네트워크를 추가할 수 있다. 이러한 방식으로 상기 지역 제안 네트워크는 더 높은 공간 해상도 정보와 풍부한 차별적 정보를 모두 학습하여 타겟 객체를 더 잘 지역화할 수 있다.

멀티 스케일 RPN 기반의 타겟 인식 탐지기는 콘볼루션 계층의 미세한 특징과 심층 콘볼루션 계층의 의미적 특징을 모두 처리할 수 있다. 얕은 계층의 특징은 정확한 객체 위치 추정에 우수하며, 깊은 콘볼루션 계층의 특징은 타겟 객체와 배경 사이를 효율적으로 구별할 수 있다.

실시예에 따른 추적 시스템은 DCF 기반 추적 모델과 장기적인 객체 추적을 위해 제안된 타겟 인식 탐지기를 협력적으로 결합하는 글로벌 및 로컬 검색 알고리즘을 제안할 수 있다. 또한, 추적 모델 신뢰성 정도를 나타내는 모델 신뢰도 추정기로 향상된 피크 대 sidelobe 비율(EPSR)을 설계할 수 있다. 추적 알고리즘은 계산 효율을 위해 EPSR 값으로 표시된 로컬 기반 검색과 글로벌 및 로컬 검색 사이를 전환한다.

실시예에 따른 추적 시스템은 글로벌 및 로컬 검색 프로세스로 수행되는 협업 모델 업데이트 메커니즘을 확립할 수 있다. 추적 신뢰도 변동 또는 모델 불안정성이 탐지될 때, 다른 DCF 기반 추적 알고리즘에 적용되는 자체 감독 업데이트 접근 방식 대신 타겟 인식 탐지기가 제안한 가장 가능성이 높은 타겟 후보들을 DCF 모델을 업데이트하는 데 사용할 수 있다. 이것은 모델 순도를 유지하고 견고성을 추적하는데 중요한 것으로 입증될 수 있다.

실시예에 따른 추적 시스템에서 글로벌 및 로컬 검색 기반의 시각적 추적 동작을 설명하기로 한다. 구체적으로, 도 3은 제안된 글로벌 및 로컬 검색 알고리즘의 전반적인 프로세스를 설명하기 위한 것으로, 현재 프레임은 다중 스케일 영역 제안 네트워크에 공급되어 객체 제안을 생성하고 DCF 기반 추적 모델의 표현으로 Colorname 및 Hog 기능을 추출하기 위해 현재 프레임에서 로컬 검색 영역을 자를 수 있다. 구속 조건 후 추적 알고리즘은 객체 재식별 및 모델 업데이트를 협업 방식으로 실행할 수 있다.

도 2는 일 실시예에 있어서, 멀티 스케일(Multi-scale) 지역 제안 네트워크를 나타낸 도면이다.

5개의 콘볼루션(conv) 계층과 2번째 콘볼루션 계층의 활성화를 따르는 1개의 통과 계층, 2개의 지역 제안 계층 RPN 1과 RPN 2로 구성될 수 있다. 여기서 지역 제안 계층 RPN 1은 통과 확인 매핑 계층 위에 구축될 수 있다. RPN 2는 5번째 콘볼루션 계층의 콘볼루션 특징맵 위에 구축될 수 있다. RPN 1은 세분화된 특징맵에서 지역 제안을 생성할 수 있다. 세분화된 특징은 소규모의 객체를 지역화하는데 도움이 될 수 있다. RPN 2는 대략적인 특징맵에서 지역 제안을 생성하며, 이러한 특징맵은 일반 정보를 제공할 수 있다. RPN 1 및 RPN 2 이후, 각 ROI 위치 상단에 관심 영역 풀링 계층을 적용할 수 있다. 그런 다음, 두 개의 완전히 연결된 계층(fully-connected layers)을 더 정밀한 경계 박스 회귀(bounding box regressor)로 사용할 수 있다. 네트워크에 대한 입력은 단일 스케일의 전체 프레임이며, 더 짧은 크기 = 600 픽셀이 되도록 이미지의 크기를 조절할 수 있다. 도 2는 고정 크기 1000 ×600 픽셀의 입력을 나타낸 예이다.

지역 제안 네트워크는 앵커 박스(anchor boxes)에 의해 회귀된 지역 제안을 생성할 수 있다. 앵커 박스에 더 나은 우선권을 부여하고, 엄격한 경계 박스를 더 잘 예측하기 위한 지역 제안 네트워크를 보다 쉽게 수렴하게 하기 위해, 먼저 표준 K-평균 클러스터링 알고리즘을 사용하여 훈련 데이터 중 그라운드 트루(ground truth) 경계 박스를 m(m은 자연수) 개의 클러스터로 클러스터링할 수 있다. 여기서, 모든 경계 박스에서 m 개의 클러스터 중심이 앵커 박스로 선택할 수 있다. 실시예에서 사용하는 훈련 세트는 M(M = 19, 780)의 그라운드 트루 경계 박스를 포함하고 있으며, 이러한 그라운드 트루 경계 박스들은 서로 다른 스케일과 가로 세로 비율(종횡비)을 가질 수 있다. 이에 따라 이러한 경계 박스는 스케일과 가로 세로 비율 측면에서 N클러스터에 클러스터링 되어야 한다.

b_i가 i번째 경계 박스를 나타내고, c_j가 j번째 클러스터의 중심인 경우, 거리 메트릭은

로 정의된다. 이때,

, j,

임계값인 모든 그라운드 트루 경계 박스에서 N개의 박스

를 랜덤으로 선택하여 N 중심부를 초기화할 수 있다. 앵커 박스 클러스터링 알고리즘은 다음의 알고리즘 1에 언급되어 있으며, m스케일과 가로 세로비를 가진 앵커 박스를 생성할 수 있다.

도 4에서 왼쪽 이미지는 훈련 세트로부터 19,780개의 객체 기반의 그라운드 트루 경계 박스를 포함하며, 중간 이미지는 알고리즘 1에서 생성된 9개의 앵커 박스를 나타낸 것이다. 앵커 박스 각각은 하나의 클러스터 중심을 나타내며 오른쪽 이미지는 다중 스케일 지역 제안 네트워크에 의해 생성된 최종 객체를 나타낸 것이다.

표 1은 앵커 박스의 크기를 나타낸 것이다. 첫 번째 행은 높이, 두 번째 행은 앵커 박스의 폭(너비)이다.

표 1:

실시예에 따른 추적 시스템의 다중 도메인 학습 메커니즘에 대하여 설명하기로 한다.

추적 시스템은 네트워크의 끝에 있는 K 분기를 분류 계층으로 설계할 수 있다. 각 분기는 하나의 특정 비디오 도메인을 의미하며, 각 도메인은 하나의 특정 트레이닝 시퀀스를 나타낸다. 네트워크 훈련 과정에서 표준 확률적 경사도 강하(SGD) 방법을 적용하고, 훈련이 k(k는 자연수)번째 반복에 있을 때 네트워크가 융합되거나 사전 정의된 최대 반복 횟수에 도달할 때까지 분류기의 k번째 분기 계층만 사용하여 네트워크를 업데이트할 수 있다. 구체적으로, 다중 스케일 지역 제안 네트워크의 훈련의 경우, 멀티 태스크 손실(Multi-task loss)로 목적 함수를 최소화할 수 있다. 멀티 태스크 손실 함수는 다음과 같이 정의된다.

수학식 1:

여기서 {p*}는 객체를 포함하는 앵커 박스의 라벨(label)을 나타낸다. IoU(앵커박스, 그라운드 트루 박스)≥0.7일 때 p*=1이다. IoU≤0.3 일 때 p*=0이다. 그리고

는 분류 손실과 박스 회귀 손실 사이의 중요성을 제어하기 위한 하이퍼 파라미터이다. 실시예에서는 정확한 경계 박스 회귀에 더 많은 초점을 맞추고 있기 때문에 훈련 과정에서

=20으로 설정한 것을 예를 들어 설명하기로 한다. N_cls와 N_reg는 각각 미니 bach 크기와 앵커 위치 수를 나타낸다. 회귀 손실은 p*=1인 앵커에 대해서만 활성화될 수 있다. t_i와 t_i*는 예측된 좌표 파라미터와 양(positive)의 앵커와 관련된 그라운드 트루이다.

최종의 경계 박스를 개선하기 위해 비특허문헌 1<R. Girshick, Fast r-CNN, in: IEEE International Conference on Computer Vision (ICCV), 2015, pp. 1440-1448.>에 제시된 방법을 따른다. 추적하는 동안 객체 클래스를 예측할 필요가 없기 때문에, 손실 함수는 경계 박스 회귀에만 초점을 맞추기 때문에 학습 과정이 단순화될 수 있다. 손실 함수는 다음과 같다.

수학식 2:

여기서,

이다.

예측된 경계 박스의 스케일 불변 변환(scale-invariant translation) 및 로그 공간 높이/폭 이동과 객체 제안에 대한 그라운드 트루 t_i 및 t_i*(i = x, y, w, h)는 다음과 같이 정의된다.

수학식 3:

이때, x, x* 및 x _p 는 각각 예측, 그라운드 트루 및 지역 제안 조정을 나타낸다. 여기서, x _p 는 지역 제안 네트워크의 출력 결과이다.

실시예에서 최대 반복 횟수는 100K, 콘볼루션 계층의 경우 10^-4, 완전 연결된 계층의 경우 10^-3의 학습률을 가지고 있으며, 훈련 중 운동량과 가중치 붕괴는 각각 0.9와 5.0 Х10^-4로 설정될 수 있다. 시험 과정에서 도메인별 특정 계층이 테스트 시퀀스를 위한 새로운 분류기 계층으로 대체될 수 있다.

실시예에 따른 추적 시스템은 모델 신뢰도 추정을 통한 DCF 기반 추적기를 제공할 수 있다. 이에, 차별적 상관 필터 기반의 추적 모델을 설명하고, 모델 신뢰도 추정을 위한 새로운 방법을 제안한다.

우선적으로 차별적 상관 필터 기반의 추적 모델에 대하여 설명하기로 한다. 객체 인식, 객체 탐지 및 포즈 추정에 탁월한 결과를 얻는 것으로 입증되었기 때문에 우리는 객체의 출현을 나타내는 색상 특징을 적용할 수 있다. 강력한 분류기를 위해 상관 필터 연산자를 적용할 수 있다. 추적 모델을 업데이트하기 위해 프레임 1에서 프레임 t까지 추출된 모든 타겟 객체 모양 패치

를 분류기 필터와 외관 모델을 업데이트하기 위한 학습 샘플로 간주할 수 있다. 구체적으로, x _i 는 프레임 i에서 타겟을 중심으로 한 크기의 M×N의 단일 이미지 패치로서, 그 모든 주기적 이동

,

는 분류기를 훈련시키는 훈련 사례로 사용할 수 있다. 그것들은 Gaussian 함수 y로 라벨이 표시되어 있으므로,

은

의 라벨이다. 필터 f는 다음과 같은 목적 함수를 최소화하여 학습될 수 있다.

수학식 4:

여기서

은 커널

에 의해 유도된 Hilbert 공간에 색상 이름(CN)을 매핑하여, 내적을

로 정의한다. 해결책은 입력의 선형 조합

으로 확장할 수 있으며

는 정규화 파라미터이다. 이러한 비용 함수는 다음을 통해 최소화된다.

수학식 5:

이때,

를 이산 푸리에 변환 연산자로 정의할 수 있다. 분류기의 필터는 푸리에 도메인인

에서 학습되며, 또한 푸리에 도메인의 가우스 라벨을

로 변환할 수 있다. 푸리에 변환된 커널 출력은

로 정의되며, 여기서

로 정의될 수 있다. 현재 프레임 t에서 추적할 타겟 객체의 신뢰 점수는 크기 M ×N의 단일 패치 z에 대한 분류기 응답으로 계산될 수 있다.

수학식 6:

여기서,

와

이다. 이때,

는 복수 개의 프레임에 걸쳐 이전 타겟 외관의 학습된 모델을 나타낸다. 새 프레임의 타겟 위치는 탐지 점수

를 최대화하여 추정할 수 있다.

대적이 폐쇄, 변형 및 갑작스러운 움직임을 겪을 때 타겟 모델은 다가오는 타겟의 상태와 일치하도록 적응적으로 업데이트되어야 하지만 이전 타겟 특성도 유지해야 한다. 이에 따라 타겟 객체의 외관 모델은 학습률

으로 업데이트 되고, 이전의 모든 타겟 외관 저장을 피하고 추적 속도를 최적화하기 위해 비특허문헌 2< M. Danelljan, F. Khan, M. Felsberg , J. Weijer, Adaptive color attributes for re- al-time visual tracking, in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, pp. 1090-1097 .>의 업데이트 개요를 채택할 수 있다.

를

(분자 부분)와

(분모 부분)의 분할 결과로 간주하며,

는 다음과 같이

와

를 별도로 업데이트하여 갱신할 수 있다.

수학식 7:

여기서,

,

이고, 추정 타겟 상태

는 모델 안정성 및 추적의 강력함을 유지하기 위해 사용될 수 있다.

실시예에 따른 추적 시스템에서 모델 신뢰성 메커니즘에 대하여 설명하기로 한다. 대부분의 기존 온라인 학습 추적기는 모델 손상 위험이 높은 각 프레임에서 외관 모델과 상관 필터를 업데이트한다. 특히 타겟 객체가 극적인 외관 변경, 배경 폐색 또는 빠른 움직임에 대응하면 이러한 요인들은 잘못된 업데이트로 이어진다. 잘못된 최신 모델은 추적기가 후속 프레임에서 타겟 객체를 추적하지 못하게 할 수 있다.

실시예에서는 현재 프레임의 추적 결과가 충분히 신뢰할 수 있는지 여부를 결정하기 위해 신뢰도를 측정하기 위해 도 6에 도시된 향상된 피크 대 sidelobe 비율(EPSR)을 제안할 수 있다. 여기서

는 각 비디오에 대한 첫 번째 프레임의 초기 EPSR 값에 대한 현재 프레임의 EPSR 값의 규모 요인을 나타내는 EPSR 값의 사전 정의된 임계값이며, 실시예에서는

= 0.8로 설정한 것으로 예를 들어 설명하기로 한다. 신뢰도 값이 사전 정의된 임계값

보다 클 경우, 추적 출력을 새 프레임에서 최종 타겟의 위치로 간주할 수 있다. 신뢰도 값이 사전 정의된 임계값

보다 크지 않을 경우, 제안된 타겟 인식 탐지기를 사용하여 객체 재탐지를 수행한 다음, re-ranking 알고리즘을 적용하여 진실 양성 확률을 가진 타겟 객체 후보들을 다시 정렬시킬 수 있다. 각 프레임에서 기준 DCF 추적기는 각 샘플링 패치에 대한 이산 신뢰도 점수

를 추정하며 이상적으로는 한 프레임에 있는 MХN 샘플링 패치 중 하나의 급격한 피크가 있어야 한다.

그러나, 신뢰도 맵에 피크가 2개 이상 있을 경우, 추적 결과는 실제 탐지 결과로서 설득력이 없다. 이에 따라 배경 폐색 또는 추적 실패에 대한 힌트를 제거하고, 불량 업데이트를 방지하고 실시예에서 제안된 타겟 인식 탐지기로 타겟 객체를 다시 식별하기 위해 향상된 피크 대 sidelobe 비율이라는 신뢰도 탐지 메커니즘을 탐구할 수 있다. 신뢰도 탐지값(EPSR)은 다음과 같이 정의할 수 있다.

수학식 8:

여기서 S_max, S_max2는 최대값(주 피크)과 부 피크 값,

와

는 신뢰도 점수 S_m,n의 평균값과 공분산을 나타낸다. PVPR은 1차 대 2차 피크 비율을 나타내며, 초 단위 피크까지의 1차 피크의 억제 정도를 나타낸다. PSVR 값이 커질 수록 위치의 정확도가 향상될 수 있다. PSR 값은 피크 대 sidelobe 비율이며, 타겟 객체가 정확히 피크 위치에 존재하는지에 대한 신뢰도를 나타낸다.

실시예에 따른 추적 시스템에서 타겟 객체 위치 및 모델 업데이트 동작에 대하여 설명하기로 한다. 강력한 추적기는 계산적으로 효율적이어야 하며, 차별적인 힘을 가져야 한다. 실시예에 따른 추적 시스템은 제안된 멀티 스케일 지역 제안 네트워크의 높은 객체 회수율의 이점을 이용하여 추적별 메커니즘으로 모델링되며, 추적기는 타겟 객체의 공간과 스케일 상태와 고유한 패턴을 기반으로 모든 객체 후보자들 사이에서 타겟과 정답이 아닌 선택지를 구별해야 한다. 추적 프로세스는 공간 및 스케일 제약과 객체 제안 재정렬이라는 두 단계로 구분될 수 있다.

추적 시스템은 제1 단계(공간 및 스케일 제약)을 적용할 수 있다. 원래의 다중 스케일 RPN 기반의 타겟 인식 탐지기 D_ta는

의 경계 박스 풀을 생성한다. 각 경계 박스는 객체가 속하는 범주를 나타내는 탐지 점수

로 할당된 타겟성을 제안한다. 기준 j의 하한 임계값을 나타내는

를 이용할 수 있다.

는 타겟성 확률이고,

는 스케일 제약 기준이며,

은 공간 제약 기준이다.

를 이용하여 각각 기준

,

의 하한 임계값을 나타낸다.

여기서, 타겟 인식 탐지기에 의해 추적 객체가 탐지되는 것을 보장하기 위해 높은 회수율에 대해 탐지 점수

를 가진 객체 제안을 선택하고,

는

의 하한 임계값이며,

로 설정할 수 있다. 후속 프레임에서 추적된 객체가 다음과 같은 이전 위치 근처에 위치해야 한다는 가정에 근거하여 타겟 객체가 나타난 것을 motion smoothness라고 하며,

에 의해 객체 제안의 중심점과 이전에 추정된 추적 객체의 중심점 사이의 상대적 거리를 계산함으로써 공간 제약을 적용할 수 있다. 연속 프레임에서 추적 객체의 스케일 변화는 스케일 범위 일관성을 만족시키기 위하여 특정 범위 내에서 제어되어야 하며, 객체 제안과 추정된 추적 출력 사이의 통합 함수에 대한 교차점 조합 함수

에 의한 스케일 제한으로 정의될 수 있다. 공간적, 스케일 제약을 만족시키는 객체 제안을 매우 유사한 객체 후보

로 유보할 수 있다.

수학식 9:

여기서

와

는 각각 0.60과 0.50으로 설정된 공간 제약과 스케일 제약의 사전 정의된 하한 임계값이다. 도 5는 공간과 스케일 제약의 프로세스를 나타낸 것이다.

추적 시스템은 제2 단계(타겟 위치와 재식별)을 수행할 수 있다. 상기 언급한 공간 및 스케일 제약 프로세스 후, 글로벌 검색 기반 탐지에 의해 생성된 타겟 객체 후보

를 유지하며, 세트

내의 각 요소는 n에서 새로운 프레임에서 추적 타겟 객체가 될 가능성이 가장 높은 상위 K의 후보 경계 박스를 나타낸다. 그리고 나서, 각 후보들은 외관 모델

와의 상관도 점수 재계산을 위한 검색 영역 R_t ^k를 확립하기 위하여 즉각적인 샘플로 제공되며, 각 후보자들의 상관 신뢰도는

로 계산될 수 있다. 최대 상관도 점수를 가진 후보자는 다음을 통해 최종 추적 타겟 객체로 추정된다.

수학식 10:

모델 안정성 및 추적의 강력함을 위해 가중 인스턴트 객체 후보로 추적 모델을 업데이트하며, 가중치는 상관도 점수의 지수함수이다. 이 업데이트 메커니즘은 모델 손상을 피할 수 있고 추적 알고리즘이 이동 문제를 피할 수 있도록 도와준다. 새로운 타겟 외관 모델은

라 할 때 다음과 같이 업데이트될 수 있다.

수학식 11:

실시예에서 제안된 글로벌 및 로컬 검색 기반 추적 알고리즘은 알고리즘 2에 제시되어 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

추적 시스템에 의해 수행되는 글로벌 및 로컬 검색 방법에 있어서,
다중 스케일 기반의 타겟 인식 탐지기에 지역 제안 네트워크(Region proposal)를 구축하는 단계;
DCF 기반의 추적 모델과 상기 다중 스케일 기반의 타겟 인식 탐지기가 협력적으로 결합하여 글로벌 및 로컬 검색을 수행하는 단계; 및
상기 수행된 글로벌 및 로컬 검색을 통해 타겟 객체의 위치를 추정하는 단계
를 포함하는 글로벌 및 로컬 검색 방법.
제1항에 있어서,
상기 타겟 객체의 위치를 추정하는 단계는,
현재 프레임의 추적 결과에 따른 추적 모델의 신뢰도를 측정하기 위한 피크대 사이드로브(sidelobe) 비율(EPSR)을 제안하고, 상기 피크대 사이드로브 비율에 기초하여 단일 추적 또는 공동 추적 여부를 결정하고, 계산 효율성을 위한 추적 모델을 업데이트하는 단계
를 포함하는 글로벌 및 로컬 검색 방법.
제1항에 있어서,
상기 타겟 객체의 위치를 추정하는 단계는,
상기 다중 스케일 기반의 타겟 인지 탐지기가 공간 및 스케일 제약 조건과 함께 유사한 객체 후보를 생성하고, 상기 DCF 기반의 추적 모델을 통하여 전경 및 백그라운드 간섭을 구별하기 위한 역할을 수행하여 객체 재확인을 위해 객체 후보의 순위를 재정렬하는 단계
제3항에 있어서,
상기 타겟 객체의 위치를 추정하는 단계는,
상기 다중 스케일 기반의 타겟 인식 탐지기에서 추적 객체가 탐지되는 것을 보장하기 위해 객체 회수율이 기 설정된 탐지 점수 이상을 가진 객체 제안을 선택하고, 상기 선택된 객체 제안의 중심점과 이전에 추정된 추적 객체의 중심점 사이의 상대적 거리를 계산함으로써 공간 제약을 적용하고, 상기 선택된 객체 제안과 추정된 추적 출력 사이의 통합 함수에 대한 교차점 조합 함수에 의한 스케일 제약을 적용하는 단계
를 포함하는 글로벌 및 로컬 검색 방법.
제4항에 있어서,
상기 타겟 객체의 위치를 추정하는 단계는,
상기 공간 제약 및 스케일 제약을 적용함에 따라 타겟 객체 후보를 생성하고, 상기 생성된 타겟 객체 후보 내에서 새로운 프레임에서 추적 타겟 객체가 될 가능성이 높은 후보 경계 박스를 나타내고, 각각의 후보 경계 박스의 상관 신뢰도를 계산하여 최종의 타겟 객체를 추정하는 단계
를 포함하는 글로벌 및 로컬 검색 방법.
글로벌 및 로컬 검색을 위한 추적 시스템에 있어서,
다중 스케일 기반의 타겟 인식 탐지기에 지역 제안 네트워크(Region proposal)를 구축하는 네트워크 구축부;
DCF 기반의 추적 모델과 상기 다중 스케일 기반의 타겟 인식 탐지기가 협력적으로 결합하여 글로벌 및 로컬 검색을 수행하는 검색 수행부; 및
상기 수행된 글로벌 및 로컬 검색을 통해 타겟 객체의 위치를 추정하는 위치 추정부
를 포함하는 추적 시스템.