KR20230073976A - 신경망 기반의 객체 추적 방법 및 장치 - Google Patents

신경망 기반의 객체 추적 방법 및 장치 Download PDF

Info

Publication number
KR20230073976A
KR20230073976A KR1020220129769A KR20220129769A KR20230073976A KR 20230073976 A KR20230073976 A KR 20230073976A KR 1020220129769 A KR1020220129769 A KR 1020220129769A KR 20220129769 A KR20220129769 A KR 20220129769A KR 20230073976 A KR20230073976 A KR 20230073976A
Authority
KR
South Korea
Prior art keywords
region
features
target object
neural network
present disclosure
Prior art date
Application number
KR1020220129769A
Other languages
English (en)
Inventor
엄기문
이희경
김원준
김진희
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20230073976A publication Critical patent/KR20230073976A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

본 개시는 신경망 기반의 영상 내 객체 추적 방법 및 장치에 대한 것이다. 본 개시의 일 실시예에 의한 객체 추적 장치는, 데이터를 처리하는 적어도 하나의 프로세서를 포함하되, 상기 프로세서는 입력 영상의 제1 프레임에 대해 제1 영역 및 제2 영역을 생성하여 각 영역에 해당하는 특징을 추출하고, 상기 제1 영역에는 목표 객체가 포함되며, 상기 입력 영상의 전역적 특징을 기반으로 상기 제1 영역 및 상기 제2 영역에 대해 추출된 특징을 재조정하고, 상기 재조정된 제1 영역 및 제2 영역의 특징을 이용하여 상기 제1 영역의 상기 목표 객체에 대한 특징에 가중치를 부여하고, 상기 가중치가 부여된 상기 목표 객체에 대한 특징을 기반으로 상기 입력 영상의 제2 프레임에서 상기 목표 객체를 추적할 수 있다.

Description

신경망 기반의 객체 추적 방법 및 장치 {Method and Apparatus for Tracking an Object Based on Neural Network}
본 개시는 영상 내 하나 이상의 프레임에 포함된 객체를 추적하는 기술에 대한 것이다. 보다 상세하게는, 신경망을 이용하여 움직이는 객체의 특징을 추출하여 객체를 추적하는 기술에 대한 것이다.
최근 들어, 스마트 폰, CCTV, 블랙박스, 고화질 카메라 등으로부터 수집되는 영상 데이터가 급격히 증가되고 있다. 이에 따라, 비정형의 영상 데이터들을 기반으로 인물이나 사물 등을 인식하여 의미 있는 정보를 추출하고 내용을 시각적으로 분석하고 활용하기 위한 요구 사항이 증대되고 있다.
영상 데이터 분석 기술은 이러한 다양한 영상들에 대해 학습 및 분석을 수행하여 원하는 영상을 검색하거나 영상 내 객체를 인식하고, 추적하는 기술 및 이벤트 발생 등의 상황 인식을 위한 제반기술들을 포함하는 기술을 포함하는 개념이다.
이 중, 영상 내 객체를 인식 및 추적하는 기술은 인공 지능의 발전에 따라 함께 발전되어 왔는데, 특히 심층학습(Deep Learning) 기술이 접목되어 상당한 성능의 개선이 있었다.
본 개시의 목적은 피드백 기반 특징 개선에 기반한 객체 추적 기술을 제안하는 데 있다.
또한, 본 개시의 목적은 객체의 움직임에 의한 가려짐이나 빠른 움직임에 강인한 객체 추적 기술을 제안하는 데 있다.
또한, 본 개시의 목적은 방대한 학습 파라미터 수를 이용하지 않는 효율적인 객체 추적 기술을 제안하는 데 있다.
또한, 본 개시의 목적은 신경망을 이용하여 영상 내 객체 추적 성능을 향상시키는 데 있다.
또한, 본 개시의 목적은 목표 객체의 특징을 전역적 정보를 고려하여 개선하는 객체 추적 기술을 제안하는 데 있다.
본 개시의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 개시의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 개시의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한, 본 개시의 일 실시예에 따른 객체 추적 장치는 데이터를 처리하는 적어도 하나의 프로세서를 포함하되, 상기 프로세서는 입력 영상의 제1 프레임에 대해 제1 영역 및 제2 영역을 생성하여 각 영역에 해당하는 특징을 추출하고, 상기 제1 영역에는 목표 객체가 포함되며, 상기 입력 영상의 전역적 특징을 기반으로 상기 제1 영역 및 상기 제2 영역에 대해 추출된 특징을 재조정하고, 상기 재조정된 제1 영역 및 제2 영역의 특징을 이용하여 상기 제1 영역의 상기 목표 객체에 대한 특징에 가중치를 부여하고, 상기 가중치가 부여된 상기 목표 객체에 대한 특징을 기반으로 상기 입력 영상의 제2 프레임에서 상기 목표 객체를 추적할 수 있다.
한편, 상기 제2 프레임에서 상기 목표 객체의 추적은 상기 제1 프레임의 상기 가중치가 부여된 특징과 상기 제2 프레임의 특징 간의 상관도 계산을 통해 수행될 수 있다.
한편, 상기 목표 객체에 대한 특징은 상기 제1 영역의 특징을 기반으로 자기
주의(self-attention) 방식으로 결정된 제1 전역적 유사도와, 상기 제1 영역의 특징 및 상기 제2 영역의 특징을 기반으로 결정된 제2 전역적 유사도를 기반으로 결정될 수 있다.
한편, 상기 제1 영역 및 상기 제2 영역에 대한 특징은 제1 신경망을 기반으로 추출되고, 상기 제2 프레임에서 목표 객체에 대한 추적은 제2 신경망을 기반으로 수행될 수 있다.
한편, 상기 제1 영역 및 상기 제2 영역에 대한 특징은 상기 제1 신경망의 하나 이상의 레벨에서 추출된 특징을 결합하여 유도될 수 있다.
한편, 상기 제2 신경망은 샴 신경망(Siamese Network)을 포함할 수 있다.
한편, 상기 제2 신경망은 SiamRPN 방식을 기반으로 할 수 있다.
한편, 상기 제2 프레임에서 상기 목표 객체의 추적은 상기 가중치가 부여된 상기 목표 객체에 대한 특징을 기반으로 자기 주의(self-attention) 방식으로 결정된 제3 전역적 유사도와, 상기 가중치가 부여된 상기 목표 객체에 대한 특징 및 상기 제2 영역의 특징을 기반으로 결정된 제4 전역적 유사도를 기반으로 결정될 수 있다.
한편, 상기 제2 영역은 상기 제1 영역의 주변을 포함하는 영역일 수 있다.
상기 목적을 달성하기 위한, 본 개시의 일 실시예에 따른 객체 추적 방법은 입력 영상의 제1 프레임에 대해 제1 영역 및 제2 영역을 생성하여 각 영역에 해당하는 특징을 추출하는 단계, 상기 제1 영역에는 목표 객체가 포함되며, 상기 입력 영상의 전역적 특징을 기반으로 상기 제1 영역 및 상기 제2 영역에 대해 추출된 특징을 재조정하는 단계, 상기 재조정된 제1 영역 및 제2 영역의 특징을 이용하여 상기 제1 영역의 상기 목표 객체에 대한 특징에 가중치를 부여하는 단계, 상기 가중치가 부여된 상기 목표 객체에 대한 특징을 기반으로 상기 입력 영상의 제2 프레임에서 상기 목표 객체를 추적하는 단계를 포함할 수 있다.
상기의 목적을 달성하기 위한, 본 개시의 일 실시예에 따른 객체 추적 시스템은 입력 영상의 제1 프레임에 대해 제1 영역 및 제2 영역을 생성하여 각 영역에 해당하는 특징을 추출하는 제1 신경망, 상기 제1 영역에는 목표 객체가 포함되며, 상기 입력 영상의 전역적 특징을 기반으로 상기 제1 영역 및 상기 제2 영역에 대해 추출된 특징을 재조정하고, 상기 재조정된 제1 영역 및 제2 영역의 특징을 이용하여 상기 제1 영역의 상기 목표 객체에 대한 특징에 가중치를 부여하는 피드백부 및 상기 가중치가 부여된 상기 목표 객체에 대한 특징을 기반으로 상기 입력 영상의 제2 프레임에서 상기 목표 객체를 추적하는 제2 신경망을 포함할 수 있다.
상기의 목적을 달성하기 위한, 본 개시의 일 실시예에 따른 비 일시적 컴퓨터 판독가능한 매체에 저장된 객체 추적 프로그램은 컴퓨터에서, 입력 영상의 제1 프레임에 대해 제1 영역 및 제2 영역을 생성하여 각 영역에 해당하는 특징을 추출하는 단계, 상기 제1 영역에는 목표 객체가 포함되며, 상기 입력 영상의 전역적 특징을 기반으로 상기 제1 영역 및 상기 제2 영역에 대해 추출된 특징을 재조정하는 단계, 상기 재조정된 제1 영역 및 제2 영역의 특징을 이용하여 상기 제1 영역의 상기 목표 객체에 대한 특징에 가중치를 부여하는 단계, 상기 가중치가 부여된 상기 목표 객체에 대한 특징을 기반으로 상기 입력 영상의 제2 프레임에서 상기 목표 객체를 추적하는 단계를 실행할 수 있다.
본 개시에 의하면 신경망을 이용하여 영상 내 효율적인 객체 추적이 가능할 수 있다.
본 개시에 의하면 연속하는 프레임을 이용하여 객체의 움직임에 의한 가려짐에 강인한 객체 추적이 가능할 수 있다.
본 개시에 의하면 영상 내 객체의 빠른 움직임에 강인한 객체 추적이 가능할 수 있다.
본 개시에 의하면 후처리를 위한 별도의 신경망 없이 객체 추적이 가능할 수 있다.
본 개시에 의하면 학습 파라미터 수의 증가 없이 향상된 객체 추적이 가능할 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시에 적용될 수 있는 샴 신경망의 일 예를 도시한 것이다.
도 2는 본 개시의 일 실시예에 따른 신경망 구조를 도시한 것이다.
도 3 및 도 4는 본 개시의 일 실시예에 따른 피드백 블록의 구조를 도시한 것이다.
도 5는 본 개시의 일 실시예에 따른 가중치 모듈의 구조를 도시한 것이다.
도 6은 본 개시의 일 실시예에 따른 객체 추적 방법을 도시한 것이다.
도 7은 본 개시의 일 실시예에 따른 객체 추적 장치를 도시한 것이다.
도 8은 본 개시의 일 실시예에 따른 객체 추적 결과를 도시한 것이다.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 개시의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들을 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들을 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들 간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시 예에서의 제1 구성요소는 다른 실시 예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시예에서의 제2 구성요소를 다른 실시예에서 제1 구성요소라고 칭할 수도 있다.
본 개시의 어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 “직접 연결되어” 있다거나, “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 개시는 신경망을 이용한 객체 추적 기술을 제안한다. 보다 상세하게는, 신경망 피드백(Feedback) 기반 특징 개선에 기반한 객체 추적 기술을 제안한다. 제안하는 피드백 기반 객체 추적 기술은 객체의 전역적 문맥 정보(Contextual Information)를 효과적으로 추출할 수 있는 자기 주의 모듈(Self-Attention Module)과 특징 개선을 위한 가중치 모듈(Weighting Module)을 기반으로 수행될 수 있다. 본 개시에 의하면, 자기 주의 모듈을 기반으로 특징 추출을 수행하고, 전역적 특징 중 객체 특징을 부각하기 위한 가중치를 부여하는 피드백 과정을 통해 추출된 원본 특징을 개선할 수 있다.
한편, 본 개시를 설명함에 있어서 객체 추적에 이용되는 신경망을 영상에서 특징을 추출하는 뼈대 신경망과 뼈대 신경망에서 추출된 특징을 처리하는 신경망, 즉 헤드 신경망으로 나누어 설명하나, 이는 설명의 명료함을 위한 것이며, 반드시 신경망이 나누어 구성되어야 하는 것은 아니다. 또한, 아래에서 본 개시에서 추출된 특징을 처리하는 신경망은 설명의 편의를 위해 샴 신경망(Siamese Network) 구조이고, 샴 신경망을 기반으로 한 SiamRPN 기법이 적용됨에 기초하여 설명하나, 다른 신경망 구조를 기반으로도 구성될 수도 있다.
이하, 도면을 참조하여 본 개시를 상세히 설명한다.
본 개시에는 샴 신경망 구조를 이용하여 목표 객체에 대한 후보 영역을 제시하는 SiamRPN 기법이 적용될 수 있다. SiamRPN 기법에 의하면 객체 추적 성능이 향상될 수 있는데, 목표 객체와 배경 및 다른 객체와의 대비를 통해 학습 효과를 개선하고, 목표 객체 영역을 포함하는 객체 영역 마스크를 생성하여 객체 영역 마스크를 추적에 적용할 수 있기 때문이다. 특히, SiamRPN 구조에 자기 주의 모델(Self-Attention Model)을 적용하면, 목표 객체와 다음 프레임에서 추출한 특징의 상관 관계가 전역적 관점에서 계산될 수 있다.
도 1은 본 개시에 적용될 수 있는 샴 신경망(Siamese Network)의 일 예를 도시한 것이다. 보다 상세하게는, 샴 신경망(101)과 RPN(102)를 포함한 SiamRPN의 구조를 나타낸 것이다.
샴 신경망(101)이란, 심층 학습을 위한 신경망 구조 중 하나로 입력 간의 유사도를 판단하는데 사용될 수 있다. 샴 신경망을 기반으로 유사도를 판단함에 있어서, 추적하고자 하는 목표 객체가 포함된 템플릿(Template)과 영상의 프레임 간 상관도(Correlation)가 계산될 수 있다. 상관도가 계산되기에 앞서, 템플릿 프레임(template frame, 예를 들어, 템플릿 영역)과 탐색 프레임(detection frame, 예를 들어, 탐색 영역) 간의 특징이 추출될 수 있다. 여기서, 템플릿 프레임은 목표 객체가 포함된 영역일 수 있으며, 탐색 프레임과 템플릿 프레임은 입력 영상에 포함될 수 있다. 또한, 탐색 프레임이 템플릿 프레임을 포함할 수 있으며, 현재 프레임의 전체 혹은 일부 영역을 포함할 수 있다. 일 예로서, 탐색 프레임 및 템플릿 프레임은 CNN(Convolution Neural Network)을 기반으로 특징이 추출될 수 있다.
SiamRPN에서 샴 신경망은 RPN(Region Proposal Network, 102)과 연결되어, 분류 브랜치(classification branch) 및 리그레션 브랜치(regression branch)를 통해 클래스 라벨(class label) 및 오프셋(offset) 등을 산출할 수 있으며, 이를 통해 제1 프레임과 제2 프레임 간의 상관도(correlation)이 산출될 수 있다. RPN(102)의 리그레션 브랜치에서는 추적 대상의 위치를 결정하기 위해 바운딩 박스(bounding box)의 리그레션(regression)을 수행할 수 있다. 이로 인해 추적 대상의 크기를 정확하게 추정할 수 있게 됨과 동시에 영상 피라미드의 채택으로 인한 반복적 계산을 회피함으로써 추정 속도도 향상시킬 수 있다.
도 2는 본 개시의 일 실시예에 따른 신경망 구조를 도시한 것이다. 보다 상세하게는, 신경망을 포함하는 객체 추적 시스템을 도시한 것이다.
일 예로서, 객체 추적 시스템은 목표 객체 영역과 전체 프레임 영역에서 각 영역에 해당하는 특징을 추출하는 뼈대 신경망(Backbone, 예를 들어, 제1 신경망)(201, 202), 추출한 특징을 이용하여 피드백(Feedback) 블록을 구성하는 피드백부(203), 피드백 블록을 통해 개선된 특징을 기반으로 객체 추적을 위한 영역 간 상관도(Correlation)을 유도하는 제2 신경망(204)을 포함할 수 있다.
일 예로서, 뼈대 신경망(201, 202)은 영상에서 특징을 추출하기 위한 신경망일 수 있으며, 예를 들어, 컨볼루션 레이어를 포함하는 ResNet-50 구조를 기반으로 할 수 있다. 일 예로서, 템플릿 영역과 타겟 영역은 별도의 뼈대 신경망에 각각 입력될 수 있다. 즉, 각 영역에서의 특징 추출은 독립적이고 병렬적으로 수행될 수 도 있으며, 템플릿 영역에는 목표 객체가 포함되고, 타겟 영역에는 템플릿 영역과 템플릿 영역의 주변 영역이 포함될 수 있다. 일 예로서, 타겟 영역은 현재 프레임의 전체 혹은 일부 영역에 해당할 수 있다. 템플릿 영역 및 타겟 영역 각각은 하나 이상의 컨볼루션 레이어(convolution layer)를 거쳐 독립적으로 특징(feature)이 추출될 수 있다. 각 영역의 특징은 맵(map) 형태로 추출될 수도 있으며, 입력된 영상 데이터를 벡터로 변환화는 과정을 통해 추출될 수 있다. 템플릿 영역 및 타겟 영역 각각에 대해 특징이 추출될 수 있다. 여기서 템플릿 영역 및 타겟 영역은 입력 영상의 임의의 프레임(예를 들어, 특정 프레임, 영상 시퀀스의 n번째 프레임)에 포함된 것일 수 있다. 한편, 템플릿 영역 혹은 타겟 영역의 특징은 뼈대 신경망의 다양한 컨볼루션 레이어 레벨에서 복수의 특징을 추출하여 그 결과를 결합하여 생성될 수 있다.
영역 별로 추출된 특징은 피드백부(203)의 입력이 될 수 있으며, 피드백부에는 자기 주의(self-attention) 모듈과 가중치(weighting) 모듈이 포함될 수 있다. 자기 주의 모듈은 입력된 영상의 영역과 자신 간의 어텐션(attention)을 구하되, 자신과의 유사도 뿐만 아니라 다른 특징을 함께 사용한 전역적 유사도를 구할 수 있다. 또한, 가중치 모듈은 목표 객체에 대한 특징을 강조하기 위해 해당 특징에 가중치를 부여할 수 있다. 자기 주의 모듈과 가중치 모듈에 대하여는, 도 3 내지 도 5를 참조하여 더욱 상세하게 설명할 것이다.
피드백부를 통해 개선된 특징은 SiamRPN(204)의 입력으로 사용될 수 있다. 일 예로서, SiamRPN은 헤드 신경망으로 불릴 수 있다. SiamRPN(204)에 의해 입력 영상의 다른 프레임(예를 들어, 제2 프레임)에 목표 객체가 포함되어 있는지가 판별되며, 다른 프레임과 특정 프레임의 최종적으로 개선된 특징 간 상관도(Correlation)를 산출할 수 있다. 이로 인해 목표 객체의 종류 등의 분류나 다른 프레임에서 탐지된 목표 객체에 대한 바운딩 박스(bounding box)가 설정될 수 있다.
입력 영상의 다른 프레임에 특정 프레임에 포함되어 있던 목표 객체가 포함되어 있는지를 판별하여 객체 추적을 실행함에 있어서, 목표 객체가 포함된 영역뿐 아니라 주변 영역에서도 특징이 추출되므로, 객체 가려짐, 객체 형태 변화 등에 강인한 객체 추적 동작이 가능하도록 성능이 개선될 수 있다.
도 3 및 도 4는 본 개시의 일 실시예에 따른 피드백 블록의 구조를 도시한 것이며, 도 5는 본 개시의 일 실시예에 따른 가중치 모듈의 구조를 도시한 것이다.
일 예로서, 도 3의 피드백 블록은 도 2의 피드백부(203)에 대응되거나, 피드백 부(203)에 포함될 수 있다. 또한, 도 5의 가중치 모듈은 도 3의 가중치 모듈(302)에 해당할 수 있으며, 도 4의 블록은 도 3의 자기주의 모듈(301)에 포함될 수 있다.
설명의 명료함을 위하여, 상기에서 설명한 바와 같이, 템플릿 영역 및 타겟 영역은 입력 영상의 임의의 프레임(예를 들어, 특정 프레임)에 포함되는 영역이라고 가정하고, 피드백 블록(피드백부)에 대하여 설명하나, 본 개시가 이에 한정되는 것은 아니다.
일 예로서, 도 3의 피드백 블록은 템플릿 영역 및 타겟 영역 모두에서 추출된 특징을 입력으로 받을 수 있다. 템플릿 영역에 대해 추출된 특징 및 타겟 영역에 대해 추출된 특징 각각은 자기 주의 모듈 및 가중치 모듈을 거침으로써 재조정될 수 있으며, 각 영역에 대한 재조정 과정은 독립적이고 병렬적으로 수행될 수도 있다.
일 예로서, 먼저 각 특징은 자기 주의 모듈을 이용하여 전역적 문맥 정보를 고려한 특징으로 재조정(Recalibration)될 수 있다. 자기 주의 모듈은 각각 추출된 특징 자신과의 전역적 유사도뿐만 아니라, 다른 특징을 함께 사용한 전역적 유사도를 결합하여 목표 객체 주변의 문맥 정보를 학습한 것일 수 있다. 일 예로서, 전역적 유사도는 템플릿 영역의 목표 객체 특징과 타겟 영역, 즉 현재 프레임의 전체 영역에 대한 특징을 모두 이용하여 유도된 것일 수 있다.
이후, 자기 주의 모듈을 통해 각각 재조정된 템플릿 영역(예를 들어, 목표 객체 영역)의 특징과 타겟 영역(예를 들어, 현재 프레임의 전체 영역)의 특징에 대하여, 가중치 모듈(Weighting Module)을 적용하여 잠재공간(Embedding Space)에서의 객체 형태 변이를 효과적으로 고려할 수 있다. 즉, 재조정된 특징은 가중치 모듈을 통해 잠재 공간에서 공간 및 채널 특성을 고려하여 객체 특징을 잘 부각할 수 있도록 재조정될 수 있다.
가중치 모듈은 자기 주의 모듈을 통해 재조정된 특징을 입력으로 받아, 채널 주의 블록(Channel Attention Block) 및 공간 주의 블록(Spatial Attention Block)와 시그모이드(Sigmoid)를 통해 처리할 수 있다. 한편, 가중치 모듈을 통해 도출된 특징은 피드백 블록의 입력과 결합(Concatenation)되어, 다시 입력됨으로써 자기 주의 모듈 및 가중치 모듈을 거칠 수 있다. 즉, 피드백부에서 수행되는 특징 개선 과정은 복수 회 수행될 수 있으며, 이로써 객체 가려짐, 객체 형태 변화 등에 강인한 동작이 가능하도록 성능을 개선하는 역할을 수행할 수 있다.
일 예로서, 피드백 루프 수행 완료 후 결과, 즉, 피드백부의 출력은 SiamRPN의 입력으로 사용될 수 있으며, 이는 도 2에서 설명한 바와 같다. 입력 영상의 다른 프레임에 대해 목표 객체 추적을 수행할 때, 다른 프레임에서 추출된 특징과 특정 프레임에 대한 최종적으로 개선된 특징 간 상관도(Correlation) 계산을 통해 객체 추적이 수행될 수 있다.
도 6은 본 개시의 일 실시예에 따른 객체 추적 방법을 도시한 것이다.
일 예로서, 도 6의 객체 추적 방법은 도 7의 객체 추적 장치에 의해 수행될 수 있으며, 도 2의 객체 추적 시스템에서 수행될 수 있으며, 상기의 설명이 적용될 수 있다.
일 예로서, 입력 영상에 제1 영역 및 제2 영역을 생성하고 각 영역에 해당하는 특징을 추출(S601)될 수 있다. 이 과정은, 객체 추적을 위해 입력 영상의 특정 프레임(예를 들어, 제1 프레임)에 대해 제1 영역 및 제2 영역을 생성하여 각 영역에 해당하는 특징이 추출되는 과정을 포함할 수 있다. 일 예로서, 제1 영역에는 목표 객체가 포함될 수 있다. 일 예로서, 제1 영역 및 상기 제2 영역에 대한 특징은 제1 신경망을 기반으로 추출될 수 있으며, 제1 신경망은 뼈대 신경망 일 수 있다. 또한, 제1 영역 및 제2 영역에 대한 특징은 제1 신경망의 하나 이상의 레벨에서 추출된 특징을 결합하여 유도된 것일 수 있다. 즉, 제1 신경망이 하나 이상의 레이어를 포함하면, 하나 이상의 레이어 레벨에서 추출된 특징을 결합하여 유도된 것일 수 있으며, 레이어는 컨볼루션 레이어(convolution layer)일 수 있다. 한편, 제2 영역은 특정 프레임 내 제1 영역의 주변을 포함하는 영역일 수 있으며, 특정 프레임 전체 혹은 일부 영역일 수 있다.
이후, 입력 영상의 전역적 특징을 기반으로 제1 영역 및 제2 영역에 대해 추출된 특징이 재조정(S602)될 수 있다. 제1 영역, 즉 목표 객체를 포함하는 영역의 목표 객체에 대한 특징은 제1 영역의 특징을 기반으로, 제1 영역 자신과의 자기 주의(self-attention) 방식으로 결정된 전역적 유사도와, 제1 영역의 특징 및 상기 제2 영역의 특징 모두를 기반으로 결정된 전역적 유사도를 기반으로 재조정될 수 있다.
재조정된 제1 영역 및 제2 영역의 특징을 이용하여 제1 영역의 목표 객체에 대한 특징에 가중치가 부여(S603)될 수 있다. 그리고 가중치가 부여된 목표 객체에 대한 특징을 기반으로 입력 영상에서 목표 객체가 추적(S604)될 수 있다. 즉, 입력 영상의 다른 프레임에서 특정 프레임의 목표 객체가 추적될 수 있다. 다른 프레임에서 목표 객체의 추적은 특정 프레임의 가중치가 부여된 특징과 다른 프레임의 특징 간의 상관도 계산을 통해 수행될 수 있다. 일 예로서, 다른 프레임에서 목표 객체에 대한 추적은 제2 신경망을 기반으로 수행될 수 있으며, 제2 신경망은 헤드 신경망일 수 있다. 일 예로서, 제2 신경망은 샴 신경망(Siamese Network)일 수 있으며, SiamRPN 기법이 적용될 수 있다.
한편, 일 예로서, 다른 프레임에서 목표 객체의 추적은 가중치가 부여된 목표 객체에 대한 특징을 기반으로 자기 주의(self-attention) 방식으로 결정된 전역적 유사도와, 가중치가 부여된 목표 객체에 대한 특징 및 제2 영역의 특징을 기반으로 결정된 전역적 유사도를 기반으로 결정될 수 있다. 즉, 자기 주의 방식 및 가중치를 부여하는 방식은 여러 번 반복될 수 있으며, 이전에 이미 자기 주의 방식 및 가중치를 부여하는 방식에 의해 개선된 특징이 다시 자기 주의 방식 및 가중치를 부여하는 방식에 의해 재개선될 수 있다. 이는, 상기에서 피드백 블록(피드백부)을 참조하여 설명한 바와 같다.
또한, 도 7은 본 개시의 일 실시예에 해당하므로, 일부 단계는 삭제되거나, 변경될 수 있으며, 각 단계 간의 순서가 변경될 수도 있다.
도 7은 본 개시의 일 실시예에 따른 객체 추적 장치를 도시한 것이다. 일 예로서, 도 7은 도 2의 객체 추적 시스템에 포함되거나, 도 2의 객체 추적 시스템에 대응될 수 있다.
일 예로서, 도 7의 객체 추적 장치(701)는 데이터를 송수신하는 송수신부 혹은 데이터를 저장하는 메모리(702)와 데이터를 처리하는 적어도 하나의 프로세서(703)를 포함할 수 있다.
상기에서 설명한 바와 같이, 프로세서(703)는 입력 영상의 특정 프레임에 대해 제1 영역 및 제2 영역을 생성하여 각 영역에 해당하는 특징을 추출하고, 제1 영역에는 목표 객체가 포함되며, 입력 영상의 전역적 특징을 기반으로 제1 영역 및 제2 영역에 대해 추출된 특징을 재조정하고, 재조정된 제1 영역 및 제2 영역의 특징을 이용하여 제1 영역의 목표 객체에 대한 특징에 가중치를 부여하고, 가중치가 부여된 목표 객체에 대한 특징을 기반으로 입력 영상의 다른 프레임에서 목표 객체를 추적할 수 있다.
상기에서 설명한 바와 같이, 다른 프레임에서 목표 객체의 추적은 제1 프레임의 가중치가 부여된 특징과 다른 프레임의 특징 간의 상관도 계산을 통해 수행될 수 있으며, 목표 객체에 대한 특징은 제1 영역의 특징을 기반으로 자기 주의(self-attention) 방식으로 결정된 전역적 유사도와, 제1 영역의 특징 및 제2 영역의 특징을 기반으로 결정된 전역적 유사도를 기반으로 결정될 수도 있다. 또한, 제1 영역 및 제2 영역에 대한 특징은 제1 신경망(예를 들어, 뼈대 신경망)을 기반으로 추출되고, 다른 프레임에서 목표 객체에 대한 추적은 제2 신경망(예를 들어, 헤드 신경망)을 기반으로 수행될 수 있다. 또한, 다른 일 예로서, 제1 영역 및 제2 영역에 대한 특징은 제1 신경망의 하나 이상의 레벨에서 추출된 특징을 결합하여 유도될 수 있다. 예를 들어, 제2 신경망은 샴 신경망(Siamese Network)을 포함할 수 있다. 한편, 입력 영상의 다른 프레임에서 목표 객체의 추적은 특정 프레임에 대한 가중치가 부여된 목표 객체에 대한 특징을 기반으로 자기 주의(self-attention) 방식으로 결정된 전역적 유사도와, 가중치가 부여된 상기 목표 객체에 대한 특징 및 제2 영역의 특징을 기반으로 결정된 전역적 유사도를 기반으로 결정될 수 있다. 즉, 자기 주의 방식 및 가중치 부여 방식은 여러 번 반복될 수 있다. 또한, 제2 영역은 제1 영역의 주변을 포함하는 영역으로서, 특정 프레임에 포함된 영역일 수 있다.
도 8은 본 개시의 일 실시예에 따른 객체 추적 결과를 도시한 것이다. 보다 상세하게는, 상기에서 설명한 피드백 기반의 특징 개선을 통한 객체 추적 기술을 통해 영상의 객체 추적을 수행하였을 때, 향상된 결과의 일 예를 설명하기 위한 도면이다.
도 8은 본 개시에서 제안한 신경망 구조 기반으로 객체를 추적한 결과의 예를 보여주고 있다. 결과 도출을 위해 적용된 본 개시에 의한 실시예를 좀더 구체적으로 살펴보면 다음과 같다.
객체 추적 결과 도출을 위해, 대용량 영상 데이터를 기반으로, 뼈대 신경망(예를 들어, ResNet-50 뼈대 신경망)을 통해 주어진 목표 객체 영역과 프레임의 전체 영역으로부터 객체 추적을 위한 특징이 추출되었다.
이후, 추출된 특징을 이용하여 다중 브랜치(Multi-Branch)를 통해 목표 객체의 종류 (예를 들어, MS COCO 데이터셋 기반 80종), 목표 객체의 스케일 (예를 들어, 객체 영역 표시를 위한 박스의 중심 좌표 및 가로/세로 길이)에 대한 신경망 학습이 수행되었다. 학습이 완료된 신경망은 입력된 영상을 기반으로 객체 추적 결과를 도 8과 같이 도출하였다.
본 개시에서 제안하는 객체 추적 기법은, 신경망을 ILSVRC (4,000 Video)와 YouTube-BB (200,000 Video) 데이터셋(VOT2016 데이터셋)을 이용하여 학습한 후 정량적 성능을 평가한 결과를 기존의 객체 추적 기법과 비교한 결과를 표 1에 나타냈다.
SiamRPN+
[2]
DiSiamRPN
[3]
SiamMask
[4]
SiamRPN++
[5]
Siam-Deform
[6]
Ours
EAO 0.37 0.41 0.47 0.46 0.53 0.52
표 1은 특징 추출을 위한 뼈대 신경망으로는 ResNet-50 구조를 기반으로 산출되었으며, 객체 추적을 위한 헤드 신경망, 즉 상관도 계산을 위한 신경망으로는 SiamRPN++ 구조가 사용되었다. 성능 평가를 위한 척도로는 객체 추적 분야에서 널리 사용되는 EAO (Expected Average Overlap) 값이 사용되었다.
한편, 본 개시에서 제안하는 객체 추적 기법을 동일한 뼈대 신경망 및 동일한 헤드 신경망을 이용하되, 상이한 데이터셋(VOT2018 데이터셋)을 이용하여 학습한 후 정량적 성능을 평가한 결과를 기존의 객체 추적 기법과 비교한 결과는 하기 표 2와 같이 산출되었다.
DiSiamRPN
[3]
SiamMask
[4]
SiamRPN++
[5]
Siam-Deform
[6]
Ours
EAO 0.38 0.39 0.42 0.47 0.46
위와 같은 정량적 성능 평가 결과에 의하면, 본 개시에 의할 때 객체가 겹쳐지거나 가려진 경우에도 정밀하게 객체 추적이 가능하며, 기존 방법과 달리, 후처리를 위한 별도의 신경망 브랜치(Branch)를 사용하지 않으며, 피드백 수행에는 추가 파라미터가 소요되지 않기 때문에 효율적임을 알 수 있다.
본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다. 예를 들어, 종단 혹은 에지에서 사용될 수 있는 비 일시적 컴퓨터 판독가능한 매체에 저장된 프로그램의 형식이나, 에지 혹은 클라우드에서 사용될 수 있는 비 일시적 컴퓨터 판독 가능한 매체에 저장된 프로그램의 형식으로도 구현될 수 있음은 자명하다. 또한, 다양한 하드웨어 및 소프트웨어의 결합으로도 구현될 수 있다.
본 개시의 일 실시예에 따른 객체 추적 프로그램은 컴퓨터에서 입력 영상의 제1 프레임에 대해 제1 영역 및 제2 영역을 생성하여 각 영역에 해당하는 특징을 추출하는 단계, 상기 제1 영역에는 목표 객체가 포함되며, 상기 입력 영상의 전역적 특징을 기반으로 상기 제1 영역 및 상기 제2 영역에 대해 추출된 특징을 재조정하는 단계, 상기 재조정된 제1 영역 및 제2 영역의 특징을 이용하여 상기 제1 영역의 상기 목표 객체에 대한 특징에 가중치를 부여하는 단계, 상기 가중치가 부여된 상기 목표 객체에 대한 특징을 기반으로 상기 입력 영상의 제2 프레임에서 상기 목표 객체를 추적하는 단계를 실행할 수 있으며, 비 일시적 컴퓨터 판독 가능한 매체에 저장된 프로그램일 수 있다.
본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행 가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.
이상에서 설명한 본 개시는, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 개시의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로, 본 개시의 범위는 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
701:객체 추적 장치
702: 메모리
703: 프로세서

Claims (1)

  1. 객체 추적 장치에 있어서,
    데이터를 처리하는 적어도 하나의 프로세서를 포함하되,
    상기 프로세서는
    입력 영상의 제1 프레임에 대해 제1 영역 및 제2 영역을 생성하여 각 영역에 해당하는 특징을 추출하고, 상기 제1 영역에는 목표 객체가 포함되며,
    상기 입력 영상의 전역적 특징을 기반으로 상기 제1 영역 및 상기 제2 영역에 대해 추출된 특징을 재조정하고,
    상기 재조정된 제1 영역 및 제2 영역의 특징을 이용하여 상기 제1 영역의 상기 목표 객체에 대한 특징에 가중치를 부여하고,
    상기 가중치가 부여된 상기 목표 객체에 대한 특징을 기반으로 상기 입력 영상의 제2 프레임에서 상기 목표 객체를 추적하는, 객체 추적 장치.
KR1020220129769A 2021-11-19 2022-10-11 신경망 기반의 객체 추적 방법 및 장치 KR20230073976A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210160274 2021-11-19
KR20210160274 2021-11-19

Publications (1)

Publication Number Publication Date
KR20230073976A true KR20230073976A (ko) 2023-05-26

Family

ID=86536942

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220129769A KR20230073976A (ko) 2021-11-19 2022-10-11 신경망 기반의 객체 추적 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20230073976A (ko)

Similar Documents

Publication Publication Date Title
US10672131B2 (en) Control method, non-transitory computer-readable storage medium, and control apparatus
US10860837B2 (en) Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
US10769480B2 (en) Object detection method and system
US10699170B2 (en) Apparatuses and methods for semantic image labeling
Najibi et al. G-cnn: an iterative grid based object detector
Felsberg et al. The thermal infrared visual object tracking VOT-TIR2015 challenge results
US9865042B2 (en) Image semantic segmentation
US20180114071A1 (en) Method for analysing media content
US20230042187A1 (en) Behavior recognition method and system, electronic device and computer-readable storage medium
JP2019075116A (ja) トラッキングネットワークを含むCNN(Convolutional Neural Network)を用いてイメージ上の客体に対応するバウンディングボックスを獲得するための方法及びこれを利用した装置
CN112639873A (zh) 基于单对象姿态估计器的多个对象的姿态跟踪设备和方法
CN114787865A (zh) 轻追踪:用于在线自顶向下人体姿态追踪的系统和方法
US11527000B2 (en) System and method for re-identifying target object based on location information of CCTV and movement information of object
Yan et al. Combining the best of convolutional layers and recurrent layers: A hybrid network for semantic segmentation
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
CN109598735A (zh) 使用马尔科夫链跟踪和分割图像中的目标对象的方法以及使用该方法的设备
US9153203B2 (en) Temporally consistent superpixels
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
Getahun et al. A deep learning approach for lane detection
Zhou Yolact++ Better Real-Time Instance Segmentation
Lee et al. Visual compiler: synthesizing a scene-specific pedestrian detector and pose estimator
KR102424326B1 (ko) 주목도 기반 객체 분할을 이용한 비지도 비디오 객체 분할장치 및 방법
EP4174770B1 (en) Monocular-vision-based detection of moving objects
KR20230073976A (ko) 신경망 기반의 객체 추적 방법 및 장치
CN111401286B (zh) 一种基于部件权重生成网络的行人检索方法