KR101916573B1 - 다중 객체 추적 방법 - Google Patents

다중 객체 추적 방법 Download PDF

Info

Publication number
KR101916573B1
KR101916573B1 KR1020170037477A KR20170037477A KR101916573B1 KR 101916573 B1 KR101916573 B1 KR 101916573B1 KR 1020170037477 A KR1020170037477 A KR 1020170037477A KR 20170037477 A KR20170037477 A KR 20170037477A KR 101916573 B1 KR101916573 B1 KR 101916573B1
Authority
KR
South Korea
Prior art keywords
matching network
depth
data set
image
frame
Prior art date
Application number
KR1020170037477A
Other languages
English (en)
Other versions
KR20180108123A (ko
Inventor
강행봉
오상일
Original Assignee
가톨릭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가톨릭대학교 산학협력단 filed Critical 가톨릭대학교 산학협력단
Priority to KR1020170037477A priority Critical patent/KR101916573B1/ko
Publication of KR20180108123A publication Critical patent/KR20180108123A/ko
Application granted granted Critical
Publication of KR101916573B1 publication Critical patent/KR101916573B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 다중 객체 추적 방법에 관한 것으로, (a) 이전 2D 영상 프레임의 타겟 객체와 현재 2D 영상 프레임의 타겟 후보 객체로 구성된 2D 영상 데이터세트와, 이전 깊이 프레임의 타겟 객체와 현재 2D 영상 프레임의 타겟 후보 객체로 구성된 깊이 데이터세트를 생성하는 단계와; (b) 상기 2D 영상 데이터세트와 상기 깊이 데이터세트가 상호 독립된 제1 매칭 네트워크 및 매칭 네트워크에 각각 적용되고, 상기 제1 매칭 네트워크로부터 상기 2D 영상 데이터세트에 대한 2D 영상 추적 결과가 출력되고 상기 제2 매칭 네트워크로부터 상기 깊이 데이터세트에 대한 깊이 추적 결과가 출력되는 단계와; (c) 기본 신념 할당(Basic belief assignment)을 이용하여 상기 2D 영상 추적 결과와 상기 깊이 추적 결과가 융합되어 최종 추적 결과가 결정되는 단계를 포함하는 것을 특징으로 한다. 이에 따라, 다중 센서로부터 취득된 2D 영상 프레임 및 깊이 프레임을 이용하여 다중의 타겟 객체를 추적하는데 있어 데이터의 오류로 인한 추적 실패를 극복하고, 보다 정확하고 안정적인 추적이 가능하게 된다.

Description

다중 객체 추적 방법{METHOD FOR TRACKING MULTI OBJECT}
본 발명은 다중 객체 추적 방법에 관한 것으로서, 다중 센서로부터 취득된 2D 영상 프레임 및 깊이 프레임을 이용하여 다중의 타겟 객체를 추적하는데 있어 데이터의 오류로 인한 추적 실패를 극복하고, 보다 정확하고 안정적인 추적이 가능한 다중 객체 추적 방법에 관한 것이다.
객체 추적은 보안, 스포츠 분석, 인간-컴퓨터 상호작용, 자율 주행 시스템과 같은 다양한 분야에서 사용되는 중요한 작업이다. 이로 인해, 다양한 추적기의 형태가 개발되어지고 있는데 다중 객체 추적, 다중 센서를 이용한 추적, 모델없는 추적기 등이 제안되고 있다.
다중 객체 추적의 중요 목적은 주어진 비디오 시퀀스의 프레임들로부터 타겟 객체의 상태를 추적하는 것이다. 하지만, 다양한 형태의 다중 객체 추적기가 제안되었음에도 불구하고, 조명의 변화나 객체의 크기 변화, 가려짐과 같은 다양한 방해 요소로 인해 추적 성능을 발전시키는데 여전히 한계가 존재하고 있다.
이러한 방해 요소를 해결하는 하나의 방법은 해당 방해 요소를 추적기에 선험적으로 모델링하는 것이다. 예를 들어, Lucas, B.D., Kanade, T. 등의 논문 "An iterative image registration technique with an application to stereo vision(IJCAI, 1981, Vol. 81, pp. 674-679.)"에서는 어파인 변형(Affine transformation)을 제안하고 있고, Nguyen, H.T. 및 Smeulders, A.W.의 논문 "Robust tracking using foreground-background texture discrimination(International Journal of Computer Vision 2006, 69, 277-293.)"에서는 조명 처리를 제안하고 있고, Pan, J. 및 Hu, B.의 논문 "Robust occlusion handling in object tracking. 2007 IEEE Conference on Computer Vision and Pattern Recognition(IEEE, 2007, pp. 1-8.)"에서는 가려짐 검출과 관련된 기술을 제안하고 있다. 하지만, 특정 방해요소가 모델링된 추적기는 해당 방해요소에 대해서는 강건한 성능을 보여주지만, 다른 방해 요소가 입력되었을 때는 이를 극복하는데 한계가 있다.
또 다른 방법으로는 추적기가 작동하는 동안에 적응적으로 형태 모델을 업데이트하는 방법이다. 하지만 역시 형태 모델이 적응적으로 업데이트 되었더라도 일시적으로 변화하는 상황이 새롭게 업데이트된 형태 모델에 유입될 경우 극적으로 변하는 형태를 놓칠 수 있게 된다.
더욱이, 추적기가 RGB 프레임에서만 작동할 경우, 추적 중인 타겟 객체의 바운딩 박스(Bounding box)가 다음 프레임에서 유사한 형태나 색상을 가지고 있는 유사한 객체로 여겨지는 이른바 바운딩 박스의 쉬프팅(shifting) 문제가 쉽게 발생할 수 있다.
각각의 모달리티(Modality)에서 다양한 방해 요소로부터 야기되는 추적 실패를 보상하기 위해, 다중 센서 융합이 제안되었다. RGB 프레임 상에서의 추적 실패는 3D 포인트 클라우드 및 스테레오 비전 센서로부터의 깊이 정보를 사용하여 보상될 수 있다. 하지만, 기존의 다중 센서를 이용한 추적기들은 모든 센서가 정상적으로 작동한다는 가정 하에 모델링되었기 때문에 하나 혹은 그 이상의 센서에서 발생하는 잡음에 대해서는 다루지 못한다는 약점이 존재한다.
이에, 본 발명은 상기와 같은 문제점을 해소하기 위해 안출된 것으로서, 다중 센서로부터 취득된 2D 영상 프레임 및 깊이 프레임을 이용하여 다중의 타겟 객체를 추적하는데 있어 데이터의 오류로 인한 추적 실패를 극복하고, 보다 정확하고 안정적인 추적이 가능한 다중 객체 추적 방법을 제공하는데 그 목적이 있다.
상기 목적은 본 발명에 따라, 다중 객체 추적 방법에 있어서, (a) 이전 2D 영상 프레임의 타겟 객체와 현재 2D 영상 프레임의 타겟 후보 객체로 구성된 2D 영상 데이터세트와, 이전 깊이 프레임의 타겟 객체와 현재 2D 영상 프레임의 타겟 후보 객체로 구성된 깊이 데이터세트를 생성하는 단계와; (b) 상기 2D 영상 데이터세트와 상기 깊이 데이터세트가 상호 독립된 제1 매칭 네트워크 및 매칭 네트워크에 각각 적용되고, 상기 제1 매칭 네트워크로부터 상기 2D 영상 데이터세트에 대한 2D 영상 추적 결과가 출력되고 상기 제2 매칭 네트워크로부터 상기 깊이 데이터세트에 대한 깊이 추적 결과가 출력되는 단계와; (c) 기본 신념 할당(Basic belief assignment)을 이용하여 상기 2D 영상 추적 결과와 상기 깊이 추적 결과가 융합되어 최종 추적 결과가 결정되는 단계를 포함하는 것을 특징으로 하는 다중 객체 추적 방법에 의해서 달성된다.
여기서, 상기 (a) 단계에서는 기 훈련된 컨벌루션 신경망(Pre-trained convolution neural network)을 이용하여 상기 2D 영상 프레임의 상기 타겟 객체와 상기 타겟 후보 객체를 포함하는 인스턴스가 표현되며; 상기 (a) 단계는 (a1) 상기 기 훈련된 컨벌루션 신경망(Pre-trained convolution neural network)으로부터 상기 2D 영상 프레임의 컨벌루션 레이어(Convolution layer)의 출력이 추출되어 상기 2D 영상 프레임의 출력 특성 지도가 생성되는 되는 단계와; (a2) 각각의 상기 인스턴스의 표현이 ROI 풀링을 이용하여 각각의 상기 인스턴스의 스케일에 따라 상기 출력 특성 지도로부터 풀링되는 단계와; (a) 상기 인스턴스의 표현이 정규화되는 단계를 포함할 수 있다.
또한, 상기 (a1) 단계에서는 상기 제1 매칭 네트워크의 입력보다 큰 스케일의 인스턴스에는 서브 샘플링을 위해 최대값 풀링(Max pooling)이 적용되고, 상기 제1 매칭 네트워크의 입력보다 작은 스케일의 인스턴스에는 업샘플링을 위해 디컨벌루션(Deconvolution) 연산이 적용될 수 있다.
또한, 상기 (a) 단계에서는 슈퍼비전 트랜스퍼(Supervision transfer)가 적용되어 상기 깊이 프레임의 상기 타겟 객체와 상기 타겟 후보 객체를 포함하는 인스턴스가 표현될 수 있다.
그리고, 상기 (b) 단계에서 상기 제1 매칭 네트워크 및 제2 매칭 네트워크에는 가중치를 공유하는 두 개의 서브 네트워크와 두 개의 상기 서브 네트워크가 연결되어 매칭 여부를 판단하는 소프트맥스 레이어로 구성된 컨벌루션 신경망(Convolution neural network)이 적용되며; 상기 타겟 객체 및 상기 타겟 후보 객체는 상기 컨벌루션 신경망(Convolution neural network)의 상기 서브 네트워크에 각각 분리되어 입력될 수 있다.
그리고, 기 설정된 개수의 상기 2D 영상 프레임 및 상기 깊이 프레임에 대해 상기 (a) 단계 내지 상기 (c) 단계가 수행된 후, 상기 최종 추적 결과의 매칭 점수에 기초하여 상기 제1 매칭 네트워크 및 상기 제2 매칭 네트워크가 파인 튜닝(Fine tuning)되어 상기 제1 매칭 네트워크 및 상기 제2 매칭 네트워크의 타겟 형태 모델(Target appearance model)이 업데이트되는 단계를 더 포함할 수 있다.
상기와 같은 구성에 따라 본 발명에 따르면, 다중 센서로부터 취득된 2D 영상 프레임 및 깊이 프레임을 이용하여 다중의 타겟 객체를 추적하는데 있어 데이터의 오류로 인한 추적 실패를 극복하고, 보다 정확하고 안정적인 추적이 가능한 다중 객체 추적 방법이 제공된다.
도 1은 본 발명에 따른 다중 객체 추적 시스템의 구성을 도시한 도면이고,
도 2는 본 발명에 따른 다중 객체 추적 방법을 설명하기 위한 도면이고,
도 3은 본 발명에 따른 다중 객체 추적 방법에서 인스턴스를 표현하는 방법을 설명하기 위한 도면이고,
도 4는 본 발명에 따른 다중 객체 추적 방법에 적용되는 컨벌루션 신경망의 구조를 설명하기 위한 도면이다.
이하에서는 첨부된 도면을 참조하여 본 발명에 따른 실시예들을 상세히 설명한다.
도 1은 본 발명에 따른 다중 객체 추적 시스템의 구성을 도시한 도면이다. 도 1을 참조하여 설명하면 본 발명에 따른 다중 객체 추적 시스템은 2D 프레임 취득부, 깊이 프레임 취득부(12), 데이터세트 생성부(20), 제1 매칭 네트워크(30), 제2 매칭 네트워크(40) 및 추적 결과 융합부(50)를 포함한다.
2D 영상 프레임 취득부(11)는 2D 영상 프레임을 취득한다. 일 예로, 2D 영상 카메라나 레이저 스캐너와 같은 2D 영상 센서를 통해 2D 영상 프레임을 취득한다. 이하에서는, 본 발명에서는 2D 영상 프레임이 RGB 프레임인 것을 예로 하여 설명하며, 본 발명의 기술적 사상이 이에 국한되지 않음은 물론이다.
깊이 프레임 취득부(12)는 깊이 프레임을 취득한다. 예를 들어, 2개의 영상 센서를 이용한 앙안 카메라에 의해 촬영된 3차원 영상으로부터 깊이 프레임이 취득될 수 있으며, 깊이 프레임에는 깊이 정보가 포함된다.
데이터세트 생성부(20)는 2D 영상 프레임 취득부(11) 및 깊이 프레임 취득부(12)로부터 각각 RGB 프레임과 깊이 프레임을 입력받고, RGB 프레임에 대응하는 2D 영상 데이터세트, 즉 RGB 데이터 스트를 생성하고, 깊이 프레임에 대응하는 깊이 데이터세트를 생성한다.
여기서, RGB 데이터세트는 이전 RGB 프레임(k)의 타겟 객체와, 현재 RGB 프레임(k+1)의 타겟 후보 객체로 구성되며, 마찬가지로 깊이 데이터세트는 이전 깊이 프레임(k)의 타겟 객체와, 현재 깊이 프레임(k+1)의 타겟 후보 객체로 구성된다.
제1 매칭 네트워크(30)와 제2 매칭 네트워크(40)는 상호 독립적으로 동작한다. 제1 매칭 네트워크(30)는 RGB 데이터세트를 입력받아 타겟 객체와 타겟 후보 객체 간의 매칭 여부를 판단하여 2D 영상 추적 결과, 즉 RGB 추적 결과를 출력한다. 그리고, 제2 매칭 네트워크(40)는 깊이 데이터세트를 입력받아 타겟 객체와 타겟 후보 객체 간의 매칭 여부를 판단하여 깊이 추적 결과를 출력한다.
추적 결과 융합부(50)는 RGB 추적 결과와 깊이 추적 결과를 융합하여 최종 추적 결과를 결정하는데, 본 발명에서는 기본 신념 할당(Basic belief assignment)을 이용하여 두 추적 결과를 융합하는 것을 예로 한다.
상기와 같이, RGB 프레임을 이용한 추적 결과와, 깊이 프레임에 대한 추적 결과가 독립적으로 진행되어 도출되고, 독립적으로 도출된 추적 결과가 최종 결정 과정에서 융합됨으로써, 어느 하나의 센서에서 발생하는 오류에 의한 영향을 최소화하여 보다 정확하고 안정적인 타겟 객체의 추적이 가능하게 된다.
이하에서는, 도 2를 참조하여 본 발명에 따른 다중 객체 추적 시스템에 적용된 다중 객체 추적 방법에 대해 상세히 설명한다.
도 2에 도시된 바와 같이, 본 발명에 따른 다중 객체 추적 방법에서는 프레임 k에서의 타겟 객체와 프레임 k+1에서의 타겟 후보 객체로 구성된 표현(Representation)을 제1 매칭 네트워크(30) 및 제2 매칭 네트워크(40)로 입력되는 RGB 데이터세트 및 깊이 데이터세트로 생성한다.
여기서, RGB 프레임 및 깊이 프레임 내의 인스턴스, 즉 타겟 객체나 타겟 후보 객체를 표현하기 위해 컨벌루션 레이어(Convolutional layer)의 출력을 인스턴스의 스케일에 따라 인스턴스의 표현으로 적응적으로 사용한다.
보다 구체적으로 설명하면, 타겟 객체는 포즈의 변화나 이동 상태와 같은 요소에 따라 그 스케일에 큰 변화가 발생한다. 만약, 낮은 해상도, 예를 들어 작은 스케일의 인스턴스(Instance)가 매칭 네트워크 상의 다음 레이어(Layer)를 통과하게 되면, 그 미세 특성은 컨벌루션(Convolution)과 풀링(Pooling)과 같은 동작에 의해 점진적으로 사라질 수 있다. 이에, 본 발명에서는 인스턴스를 인스턴스의 스케일에 따라 분류하여 표현(Representation)한다.
도 3은 본 발명에 따른 다중 객체 추적 방법에서 인스턴스를 표현하는 방법을 설명하기 위한 도면이다. 도 3을 참조하여 설명하면, 본 발명에 따른 다중 객체 추적 방법에서 RGB 데이터세트를 생성하는 과정에서는 기 훈련된 컨벌루션 신경망(Pre-trained convolution neural network, 이하 'CNN'이라 함)을 이용하여 인스턴스가 표현된다. 여기서, 인스턴스 전체를 CNN에 입력하는 경우 높은 계산 비용이 발생하는 바, 본 발명에서는 ROI 풀링(Pooling)을 인스턴스의 표현에 적용한다.
먼저, 기 훈련된 CNN으로부터 RGB 프레임의 컨벌루션 레이어의 모든 출력이 추출된다. 그리고, 각각의 인스턴스의 표현이 ROI 풀링을 이용하여 그 스케일 레벨에 따라 해당 RGB 프레임의 출력 특성 지도(Output Feature Map)로부터 풀링된다. 각각의 컨벌루션 라이로부터의 출력 사이즈가 다르기 때문에, 본 발명에서는 다른 샘플링 레이어를 매칭 함수로 적용하는 것에 의해 개별적으로 샘플링된다. 즉, 제1 매칭 네트워크(30)의 입력보다 큰 스케일의 인스턴스에는 서브 샘플링을 위해 최대값 풀링(Max pooling)이 적용되고, 제1 매칭 네트워크(30)의 입력보다 작은 스케일의 인스턴스에는 업샘플링을 위해 디컨벌루션(Deconvolution) 연산이 적용된다. 그리고, 인스턴스의 표현의 정규화가 수행되는데, 본 발명에서는 지역 응답 정규화(Local response normalization, LRN)가 적용되는 것을 예로 한다.
한편, 본 발명에 따른 다중 객체 추적 방법에서, 깊이 프레임에는 슈퍼비전 트랜스퍼(Supervision transfer)가 적용되어 인스턴스가 표현되는 것을 예로 한다.
먼저,
Figure 112017029229365-pat00001
,
Figure 112017029229365-pat00002
를 각각 RGB 프레임과 깊이 프레임의 레이어드 표현(layered representation)한다. 여기서, i는 레이어의 개수이다. 슈퍼비전 트랜스퍼는 고정된 CNN 구조로부터 언어노우티드(Unannotated)된 깊이 이미지를 표현하기 위해 가중치 파라미터
Figure 112017029229365-pat00003
를 충분히 훈련시킨다. 슈퍼비전 트랜스퍼는 손실 함수
Figure 112017029229365-pat00004
(본 발명에서는 L2 거리가 손실함수로 사용하는 것을 예로 한다)를 이용하여 RGB 프레임과 깊이 프레임의 표현 간의 유사성의 측정한다. 유사성은 [수학식 1]과 같이 측정된다.
[수학식 1]
Figure 112017029229365-pat00005
[수학식 1]에서 t()는
Figure 112017029229365-pat00006
Figure 112017029229365-pat00007
의 동일 차원(same dimension)으로 임베딩(embedding)하기 위한 변환 함수(transformation function)이고,
Figure 112017029229365-pat00008
는 학습된 가중치 파라이터이다. 본 발명에서는 만약 깊이 이미지가 3D 포인트 클라우드로부터 얻어지면, 업-스케일링 방법이 변환 함수로 사용될 수 있다.
상기와 같은 방법을 통해 RGB 데이터세트 및 깊이 데이터세트를 구성하는 인스턴스, 즉 타겟 객체와 타겟 후보 객체가 표현되면, RGB 데이터세트 및 깊이 데이터세트는 각각 제1 매칭 네트워크(30) 및 제2 매칭 네트워크(40)로 입력된다. 본 발명에서는 제1 매칭 네트워크(30) 및 제2 매칭 네트워크(40)에 가중치를 공유하는 2개의 서브 네트워크로 구성된 컨벌루션 신경망이 적용되는 것을 예로 한다.
도 4는 본 발명에 따른 다중 객체 추적 방법에 적용되는 컨벌루션 신경망의 구조를 설명하기 위한 도면이다. 도 4에 도시된 컨벌루션 신경망은 제1 매칭 네트워크(30) 및 제2 매칭 네트워크(40) 각각 적용된 구조로, 제1 매칭 네트워크(30)에 적용되는 컨벌루션 신경망을 예로 하여 설명하며, 제2 매칭 네트워크(40)에 적용되는 컨벌루션 신경망에 대한 설명은 생략한다.
RGB 데이터세트
Figure 112017029229365-pat00009
를 구성하는 타겟 객체
Figure 112017029229365-pat00010
와 타겟 후보 객체
Figure 112017029229365-pat00011
는 컨벌루션 신경망의 두 개의 서브 네트워크로 각각 분리되어 입력된다. 본 발명에 따른 컨벌루션 신경망의 서브 네트워크는 각각 3개의 컨벌루션 레이어(Convolution layer)와 2개의 풀리-커넥티드 레이어(Fully-connected layer)로 구성되는 것을 예로 한다.
기존의 컨벌루션 신경망 구조에서는, 최대값 풀링(Max pooling)이 입력으로 적용될 경우, 지역적인 이웃에서 강한 값만이 다음 단계의 레이어로 전이되기 위해 활성화되었다. 즉, 활성화된 값의 공간 분해능이 상당히 감소하게 된다. 최대값 풀링의 이점은 지역적인 변형에 대해 강하지만, 시간에 따른 객체의 작은 형태 변화를 유지하는 것은 중요하다. 따라서, 본 발명에서는 최대값 풀링 레이어가 각각의 서브 네트워크에서 제외된다.
각각의 서브 네트워크의 마지막 풀리-커넥티드 레이어의 출력이 연결되어 하나의 벡터로 이루어진 상태로 투-웨이(Two-way) 소프트맥스 레이어로 전이된다. 소프트맥스 레이어는
Figure 112017029229365-pat00012
Figure 112017029229365-pat00013
이 매칭이 되는지 판단한다. 본 발명에서는 1 및 0이 매칭(positive)과 비매칭(dis-matching, negative)을 각각 나타내는 분류로 제1 매칭 네트워크(30)의 출력, 즉 RGB 프레임에 대한 RGB 추적 결과(깊이 프레임의 경우 깊이 추적 결과)로 출력된다.
상기와 같이, RGB 프레임에 대한 RGB 추적 결과와, 깊이 프레임에 대한 깊이 추적 결과가 독립적으로 생성되면, RGB 추적 결과와 깊이 추적 결과가 융합되어, 보다 정확한 추적 결과가 획득된다. 본 발명에서는 기본 신념 할당(Basic belief assignment, 이하 'BBA'라 함)을 이용하여 RGB 추적 결과와 깊이 추적 결과가 융합되어 최종 추적 결과가 결정되는 것을 예로 한다.
BBA를 사용하여 RGB 추적 결과와 깊이 추적 결과가 할인 요소(Discounting factor)를 평가한다. 할인 요소 α는 각각의 추적 결과에 대한 신뢰도를 나타낸다.
Figure 112017029229365-pat00014
을 경우의 수라고 할 때, 0, 1, Ω는 각각 비매칭, 매칭 및 불확실을 나타내는 것으로 가정하면, 추적 결과에 대한 BBA는 [수학식 2]와 같이 정의될 수 있다.
[수학식 2]
Figure 112017029229365-pat00015
[수학식 2]에서 m(A)는 서브 세트에 대해 결정된 신뢰성(Belief)의 부분을 나타내는 BBM(Basic belief mass)이다. 컨정크티브 규칙(Conjunctive rule)이 RGB 프레임의 BBA와 깊이 프레임의 BBA의 조합에 사용된다. mD 및 mR을 각각 깊이 프레임과 RGB 프레임의 추적 결과에 대한 BBM이라 하면, 컨정크티브 콤비네이션(Conjunctive combination)
Figure 112017029229365-pat00016
가 [수학식 3]과 같이 정의된다.
[수학식 3]
Figure 112017029229365-pat00017
본 발명에 따른 다중 객체 추적 방법의 융합은 추적 결과에 따른 가중치를 배정한다. 이를 위해, 본 발명에서는 할인 요소를 각각의 BBM에 추가하였다. RGB 추적 결과 및 깊이 추적 결과에 대한 할인 요소는 [수학식 4] 및 [수학식 5]와 같이 정의될 수 있다.
[수학식 4]
Figure 112017029229365-pat00018
[수학식 5]
Figure 112017029229365-pat00019
본 발명에서는 Smets, P의 논문 "The combination of evidence in the transferable belief model. IEEE Transactions on pattern analysis and machine intelligence(1990, 12, 447-458.)"에 개시된 정규화된 신뢰 함수를 이용하여 할인 요소 α가 설정되는 것을 예로 한다.
RGB 추적 결과와 깊이 추적 결과를 병합하기 전에, 각 추적 결과는 그들의 할인 요소에 의해 할인된다. RGB 프레임의 할인된 BBM
Figure 112017029229365-pat00020
와 깊이 프레임의 할인된 BBM
Figure 112017029229365-pat00021
로부터 결합된 BBM
Figure 112017029229365-pat00022
는 [수학식 6]을 통해 계산된다.
[수학식 6]
Figure 112017029229365-pat00023
[수학식 6]에서 α는 상기 Smets, P의 논문의 최소화 프로그램의 선형 함수와 이차 함수를 통해 계산되는데, 본 발명에서는 αR 및 αD를 각각 0.22와 0.31로 설정하는 것을 예로 하였다.
다시 도 1 및 도 2를 참조하여 설명하면, 본 발명에 따른 다중 객체 추적 방법은 제1 매칭 네트워크(30) 및 제2 매칭 네트워크(40)의 파인 튜닝(Fine tuning) 과정을 더 포함할 수 있다.
강인한 제1 매칭 네트워크(30) 및 제2 매칭 네트워크(40)의 구성을 위해, 외부 비디오 시퀀스에서 초기화된 상태였던 제1 매칭 네트워크(30) 및 제2 매칭 네트워크(40)는 구조화된 모델(Structured model)에서 일정 수 이상의 프레임의 추적이 수행된 후 파인 튜닝된다. 여기서, 추적 결과는 추적 결과 누적부(60)에 누적된 상태로, 파인 튜닝부(70)가 누적 결과를 이용하여 파인 튜닝 과정을 수행한다.
파인 튜닝된 제1 매칭 네트워크(30) 및 제2 매칭 네트워크(40)는 모델 연관성(model consistency)을 보전하면서도 일시적으로 변하는 타겟 형태에 강인해질 수 있다. 여기서, 이전에 파인 튜닝된 매칭 네트워크는 타겟 형태 모델(Target appearance model)의 경로(path)로서 유지된다.
본 발명에 따른 구조화된 타겟 형태 모델은 적응적으로 제1 매칭 네트워크(30) 및 제2 매칭 네트워크(40)를 파인 튜닝하는 것에 의해 계층적 구조(Hierarchical structure)로 구성된다.
Figure 112017029229365-pat00024
를 파인 튜닝된 매칭 네트워크(제1 매칭 네트워크(30) 또는 제2 매칭 네트워크(40), 이하 동일)에 대한 노드라 하고,
Figure 112017029229365-pat00025
Figure 112017029229365-pat00026
는 각각 파인 튜닝된 매칭 네트워크와 관련된 정점(vertex)과, 정점 간의 경로 관계(path relationship)를 나타내는 방향성 엣지(Directed edge)라 하면, 두 정점(하나의 에지)은 [수학식 7]과 같이 정의될 수 있다.
[수학식 7]
Figure 112017029229365-pat00027
[수학식 7]에서,
Figure 112017029229365-pat00028
는 정점
Figure 112017029229365-pat00029
Figure 112017029229365-pat00030
사이의 관계 점수(Relationship score)를 의미하고,
Figure 112017029229365-pat00031
는 정점
Figure 112017029229365-pat00032
까지 매칭 네트워크를 이용하여 추적이 수행된 연속된 프레임의 세트이고,
Figure 112017029229365-pat00033
Figure 112017029229365-pat00034
가 정점
Figure 112017029229365-pat00035
를 이용하여 이전의 타겟 객체
Figure 112017029229365-pat00036
와 매칭된 후보로 판단되었을 때의 매칭 점수이다.
Figure 112017029229365-pat00037
가 프레임
Figure 112017029229365-pat00038
에서의 타겟 객체의 세트라고 하면, 프레임
Figure 112017029229365-pat00039
에서의 타겟 후보 객체는
Figure 112017029229365-pat00040
이다. 본 발명에서는 세트
Figure 112017029229365-pat00041
Figure 112017029229365-pat00042
중 가장 유사한 쌍 C의 세트를 찾는 것이다. 이는 [수학식 8]을 만족시킨다.
[수학식 8]
Figure 112017029229365-pat00043
[수학식 8]에서
Figure 112017029229365-pat00044
는 n번째 타겟 객체의 활성화된 파인 튜닝 경로로부터 얻은 가중치 평균 매칭 점수이다.
Figure 112017029229365-pat00045
가 n번째 타겟 형태 모델의 활성화된 파인 튜닝 경로라 하면, 가중치 평균 매칭 점수는 [수학식 9]와 같이 측정될 수 있다.
[수학식 9]
Figure 112017029229365-pat00046
[수학식 9]에서
Figure 112017029229365-pat00047
는 n번째 타겟 형태 모델의 정점
Figure 112017029229365-pat00048
에 대응하는
Figure 112017029229365-pat00049
Figure 112017029229365-pat00050
사이의 매칭 점수이고, 분류 1(matching)에 대한 확률이다. 그리고,
Figure 112017029229365-pat00051
는 n번째 타겟 객체의 경로에서 프레임
Figure 112017029229365-pat00052
안의 정점
Figure 112017029229365-pat00053
의 가중치이다. 후보가 타겟 객체와 매칭되지 않으면, 추적에서 새로운 삭제된 객체로 여겨진다. 또한, 타겟 객체가 모든 후보에 대해
Figure 112017029229365-pat00054
보다 작은 매칭 점수를 가지면, 사라진 객체로 여겨진다. 본 발명에서는 실험적으로
Figure 112017029229365-pat00055
을 0.6으로 설정하는 것을 예로 한다.
가중치
Figure 112017029229365-pat00056
를 결정하기 위해, 본 발명에서는 매칭 네트워크의 신뢰성(reliability)을 고려한다. 이와 같은 가중치는 노이즈 인스턴스에도 불구하고 높은 매칭 점수가 측정되는 것과 같이, 파인 튜닝이 신뢰할 수 없는 케이스로 생성되는 것을 방지하기 위해 할당된다. 매칭 네트워크의 신뢰성 측정을 위해, 파인 튜닝 경로(모든 경로가 아님)는 [수학식 10]과 같이 회귀적으로 탐색(Recursively explored)된다.
[수학식 10]
Figure 112017029229365-pat00057
[수학식 10]에서,
Figure 112017029229365-pat00058
는 정점
Figure 112017029229365-pat00059
의 부모 노드(Parent node)이다.
구조화된 타겟 형태 모델에서, 노드는 파인 튜닝 매칭 네트워크를 포함한다. 본 발명에서는 새로운 훈련 프레임에 대한 파인 튜닝 매칭 네트워크를 위한 적응적인 모델 업데이트 방법이 적용된다.
z를 매칭 네트워크의 파인 튜닝을 위한 새로이 생성된 노드라 한다. 매칭 네트워크의 파인 튜닝은 15개의 연속된 프레임(
Figure 112017029229365-pat00060
)의 추적이 완료된 후에 수행되는 것을 예로 한다. 새로운 파인 튜닝된 매칭 네트워크는 부모 노드
Figure 112017029229365-pat00061
를 가지며, [수학식 11]을 만족한다.
[수학식 11]
Figure 112017029229365-pat00062
[수학식 11]에서
Figure 112017029229365-pat00063
는 임시 엣지(Interim edge)이다. 새로 생성된 노드 크의 부모 노드를 찾은 후에, 두 세트의 프레임
Figure 112017029229365-pat00064
Figure 112017029229365-pat00065
에 대한 파인 튜닝이 수행된다. 마지막으로 노드 z의 새로이 파인 튜닝된 매칭 네트워크가
Figure 112017029229365-pat00066
에 추가됨으로써, 파인 튜닝이 완료된다.
비록 본 발명의 몇몇 실시예들이 도시되고 설명되었지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 당업자라면 본 발명의 원칙이나 정신에서 벗어나지 않으면서 본 실시예를 변형할 수 있음을 알 수 있을 것이다. 발명의 범위는 첨부된 청구항과 그 균등물에 의해 정해질 것이다.
11 : 2D 영상 프레임 취득부 12 : 깊이 프레임 취득부
20 : 데이터세트 생성부 30 : 제1 매칭 네트워크
40 : 제2 매칭 네트워크 50 : 추적 결과 융합부
60 : 추적 결과 누적부 70 : 파인 튜닝부

Claims (6)

  1. 다중 객체 추적 방법에 있어서,
    (a) 이전 2D 영상 프레임의 타겟 객체와 현재 2D 영상 프레임의 타겟 후보 객체로 구성된 2D 영상 데이터세트와, 이전 깊이 프레임의 타겟 객체와 현재 2D 영상 프레임의 타겟 후보 객체로 구성된 깊이 데이터세트를 생성하는 단계와;
    (b) 상기 2D 영상 데이터세트와 상기 깊이 데이터세트가 상호 독립된 제1 매칭 네트워크 및 제2 매칭 네트워크에 각각 적용되고, 상기 제1 매칭 네트워크로부터 상기 2D 영상 데이터세트에 대한 2D 영상 추적 결과가 출력되고 상기 제2 매칭 네트워크로부터 상기 깊이 데이터세트에 대한 깊이 추적 결과가 출력되는 단계와;
    (c) 기본 신념 할당(Basic belief assignment)을 이용하여 상기 2D 영상 추적 결과와 상기 깊이 추적 결과가 융합되어 최종 추적 결과가 결정되는 단계를 포함하는 것을 특징으로 하는 다중 객체 추적 방법.
  2. 제1항에 있어서,
    상기 (a) 단계에서는 기 훈련된 컨벌루션 신경망(Pre-trained convolution neural network)을 이용하여 상기 2D 영상 프레임의 상기 타겟 객체와 상기 타겟 후보 객체를 포함하는 인스턴스가 표현되며;
    상기 (a) 단계는
    (a1) 상기 기 훈련된 컨벌루션 신경망(Pre-trained convolution neural network)으로부터 상기 2D 영상 프레임의 컨벌루션 레이어(Convolution layer)의 출력이 추출되어 상기 2D 영상 프레임의 출력 특성 지도가 생성되는 되는 단계와;
    (a2) 각각의 상기 인스턴스의 표현이 ROI 풀링을 이용하여 각각의 상기 인스턴스의 스케일에 따라 상기 출력 특성 지도로부터 풀링되는 단계와;
    (a3) 상기 인스턴스의 표현이 정규화되는 단계를 포함하는 것을 특징으로 하는 다중 객체 추적 방법.
  3. 제2항에 있어서,
    상기 (a1) 단계에서는
    상기 제1 매칭 네트워크의 입력보다 큰 스케일의 인스턴스에는 서브 샘플링을 위해 최대값 풀링(Max pooling)이 적용되고,
    상기 제1 매칭 네트워크의 입력보다 작은 스케일의 인스턴스에는 업샘플링을 위해 디컨벌루션(Deconvolution) 연산이 적용되는 것을 특징으로 하는 다중 객체 추적 방법.
  4. 제1항에 있어서,
    상기 (a) 단계에서는 슈퍼비전 트랜스퍼(Supervision transfer)가 적용되어 상기 깊이 프레임의 상기 타겟 객체와 상기 타겟 후보 객체를 포함하는 인스턴스가 표현되는 것을 특징으로 하는 다중 객체 추적 방법.
  5. 제1항에 있어서,
    상기 (b) 단계에서 상기 제1 매칭 네트워크 및 제2 매칭 네트워크에는 가중치를 공유하는 두 개의 서브 네트워크와 두 개의 상기 서브 네트워크가 연결되어 매칭 여부를 판단하는 소프트맥스 레이어로 구성된 컨벌루션 신경망(Convolution neural network)이 적용되며;
    상기 타겟 객체 및 상기 타겟 후보 객체는 상기 컨벌루션 신경망(Convolution neural network)의 상기 서브 네트워크에 각각 분리되어 입력되는 것을 특징으로 하는 다중 객체 추적 방법.
  6. 제1항에 있어서,
    기 설정된 개수의 상기 2D 영상 프레임 및 상기 깊이 프레임에 대해 상기 (a) 단계 내지 상기 (c) 단계가 수행된 후, 상기 최종 추적 결과의 매칭 점수에 기초하여 상기 제1 매칭 네트워크 및 상기 제2 매칭 네트워크가 파인 튜닝(Fine tuning)되어 상기 제1 매칭 네트워크 및 상기 제2 매칭 네트워크의 타겟 형태 모델(Target appearance model)이 업데이트되는 단계를 더 포함하는 것을 특징으로 하는 다중 객체 추적 방법.
KR1020170037477A 2017-03-24 2017-03-24 다중 객체 추적 방법 KR101916573B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170037477A KR101916573B1 (ko) 2017-03-24 2017-03-24 다중 객체 추적 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170037477A KR101916573B1 (ko) 2017-03-24 2017-03-24 다중 객체 추적 방법

Publications (2)

Publication Number Publication Date
KR20180108123A KR20180108123A (ko) 2018-10-04
KR101916573B1 true KR101916573B1 (ko) 2018-11-07

Family

ID=63863169

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170037477A KR101916573B1 (ko) 2017-03-24 2017-03-24 다중 객체 추적 방법

Country Status (1)

Country Link
KR (1) KR101916573B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102127946B1 (ko) * 2019-02-21 2020-06-30 동국대학교 산학협력단 사람 재식별 장치 및 방법
KR102261894B1 (ko) * 2019-06-13 2021-06-08 네이버 주식회사 객체인식장치 및 객체인식방법
KR20210116953A (ko) 2020-03-18 2021-09-28 삼성전자주식회사 타겟 트래킹 방법 및 장치
KR20230057867A (ko) * 2021-10-22 2023-05-02 삼성전자주식회사 실시간 사람 감지 및 추적 시스템을 위한 전자 장치 및 그 제어 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010102586A (ja) * 2008-10-24 2010-05-06 Hiroshima Univ 物体追跡装置および物体追跡方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010102586A (ja) * 2008-10-24 2010-05-06 Hiroshima Univ 物体追跡装置および物体追跡方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Allodi et al. Machine learning in tracking associations with stereo vision and lidar observations for an autonomous vehicle. IEEE IV, 2016년 6월, pp. 648-653.*

Also Published As

Publication number Publication date
KR20180108123A (ko) 2018-10-04

Similar Documents

Publication Publication Date Title
CN107980150B (zh) 对三维空间建模
Tang et al. Ba-net: Dense bundle adjustment network
Urban et al. Multicol-slam-a modular real-time multi-camera slam system
KR101916573B1 (ko) 다중 객체 추적 방법
Kamencay et al. Improved Depth Map Estimation from Stereo Images Based on Hybrid Method.
Košecka Detecting changes in images of street scenes
Li et al. Review of vision-based Simultaneous Localization and Mapping
Piniés et al. CI‐Graph simultaneous localization and mapping for three‐dimensional reconstruction of large and complex environments using a multicamera system
CN111340922A (zh) 定位与地图构建的方法和电子设备
Pu et al. Visual SLAM integration with semantic segmentation and deep learning: A review
WO2022003740A1 (en) Method for determining the confidence of a disparity map through a self-adaptive learning of a neural network, and sensor system thereof
CN111354022A (zh) 基于核相关滤波的目标跟踪方法及系统
Saleem et al. Neural network-based recent research developments in SLAM for autonomous ground vehicles: A review
CN116266359A (zh) 目标物的跟踪方法、装置、计算机设备和存储介质
Poggi et al. Self-adapting confidence estimation for stereo
Singh et al. Fast semantic-aware motion state detection for visual slam in dynamic environment
WO2023072269A1 (zh) 对象跟踪
Zheng et al. 6d camera relocalization in visually ambiguous extreme environments
CN114399532A (zh) 一种相机位姿确定方法和装置
He et al. Manhattan‐world urban building reconstruction by fitting cubes
CN113570713A (zh) 一种面向动态环境的语义地图构建方法及装置
Tamayo et al. Improving Object Distance Estimation in Automated Driving Systems Using Camera Images, LiDAR Point Clouds and Hierarchical Clustering
Chen et al. MetaComp: Learning to Adapt for Online Depth Completion
Bai et al. Deep semantic matching for optical flow
Blanton Revisiting Absolute Pose Regression

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant