KR102585258B1

KR102585258B1 - 실시간 다중 객체 검출 장치 및 방법

Info

Publication number: KR102585258B1
Application number: KR1020200169937A
Authority: KR
Inventors: 권기룡
Original assignee: 부경대학교 산학협력단
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2023-10-05
Also published as: KR20220080631A

Abstract

본 발명은 실시간 다중 객체 검출 장치 및 방법에 관한 것으로, 더욱 상세하게는 적어도 하나 이상의 인터넷 리소스를 통해 데이터 세트를 수집하는 수집부; 상기 수집된 데이터 세트에 대해 LSTM 네트워크를 기반으로 학습을 수행하여 객체 검출 모델을 획득하는 학습부; 실시간 비디오 시퀀스를 획득하는 카메라부; 상기 실시간 비디오 시퀀스를 객체 검출 모델에 입력하여 다중 객체를 검출하는 검출부; 및 상기 검출부로부터의 출력을 기반으로 다중 객체를 추적하는 추적부를 포함할 수 있다.

Description

실시간 다중 객체 검출 장치 및 방법{APPARATUS AND METHOD FOR TRACKING MULTI-OBJECT IN REAL TIME}

본 발명은 실시간 다중 객체 검출 장치 및 방법에 관한 것으로, 보다 상세하게는 장기 추적이 가능한 LSTM 네트워크를 기반으로 비디오 시퀀스에서 다중 객체를 보다 빠르고 정확하게 실시간으로 추적할 수 있도록 하는 실시간 다중 객체 검출 장치 및 방법에 관한 것이다.

대부분의 다중 객체 추적 연구 결과는 신경망 기반 접근 방식을 적용할 때, 복수개의 객체를 동시에 작업하는 것이 더 어렵고 까다로운 작업이라는 것을 보여줬다. CNN(Convolutional Neural Network)이나 RNN(Recurrent Neural Network) 기반 추적 기술을 다루는데 어려움을 겪을 수 있는 불분명하고 불확실한 상황이 많이 있다. 그러나 대부분의 최첨단 접근법들은 딥러닝 네트워크로 개발되었다. 비록 다중 객체 추적 시스템이 추적 시스템의 정확성 측정과 고도의 기능성을 위해 작업할 경우 실제 도구에 대해 더 복잡하고 계산적으로 과부하된다. 유사한 외관, 잦은 폐색, 동시다발적인 물체들의 움직임 및 에지(edge) 문제와 같은 다중 객체 추적의 가장 일반적인 문제를 해결하려는 많은 시도에 딥러닝 접근법들이 적용되기 위해서는 비디오 시퀀스와 이산 탐지 세트로부터 불필요한 정보를 분석하는 추가 비용이 발생할 수 있다. 또한, 탐지를 통한 추적 기법이 하나 더 있지만, 시점 변화, 스케일, 객체 분포 밀도와 폐색 등의 다양한 문제 때문에 추적 알고리즘을 위한 딥 어소시에이션 네트워크(deep association network)와 객체 검출을 위한 딥 소트 네트워크(deep sort network)와 함께 동작하는 채널 별 특징 응답을 적응적으로 재조정하는 SE(Squeeze-and-Excitation) 블럭을 이용하여 채널간 상호 의존성으로서 탐지 모델을 제안했다.

현재 대부분의 다중 객체 추적 기술은 탐지 접근에 의한 추적에 의해 중계된다. 그러나, 이러한 방법은 성능이 완전히 다른 환경에서 탐지할 때, 첨단 탐지기의 정확성과 성취도에 따라 좌우되는 반면에, 효율성은 그리 높지 않다. 이러한 방법은 대부분 바운딩 박스 복구에 기초한 위치 추정 방법이지만, 평면 영상 표면에서 객체를 찾는데 도움이 될 수 있다.

다수의 매개 변수로 실행되는 다중 객체 추적 프로세스에 있어서, 딥 검출 모델은 비디오 프레임에서 객체를 추적하는 동안 최첨단 접근 방식을 교착 상태에 빠지거나 객체의 필수적인 특징 요소를 잃을 수 있는 엄청난 양의 입력을 필요로 한다.

따라서, 비디오 시퀀스에서 다중 객체 및 상이한 타입의 객체를 보다 빠르고 정확하게 실시간으로 추적할 수 있도록 하는 기술이 개발될 필요가 있다.

따라서, 본 발명은 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 장기 추적이 가능한 LSTM 네트워크를 기반으로 비디오 시퀀스에서 다중 객체 및 상이한 타입의 객체를 보다 빠르고 정확하게 실시간으로 추적할 수 있도록 하는 실시간 다중 객체 검출 장치 및 방법을제공함에 있다.

본 발명의 목적은 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 실시간 다중 객체 검출 장치는, 적어도 하나 이상의 인터넷 리소스를 통해 데이터 세트를 수집하는 수집부; 상기 수집된 데이터 세트에 대해 LSTM 네트워크를 기반으로 학습을 수행하여 객체 검출 모델을 획득하는 학습부; 실시간 비디오 시퀀스를 획득하는 카메라부; 상기 실시간 비디오 시퀀스를 객체 검출 모델에 입력하여 다중 객체를 검출하는 검출부; 및 상기 검출부로부터의 출력을 기반으로 다중 객체를 추적하는 추적부를 포함할 수 있다.

또한, 본 발명에 따른 실시간 다중 객체 검출 방법은, 적어도 하나 이상의 인터넷 리소스를 통해 데이터 세트를 수집하는 단계; 상기 수집된 데이터 세트에 대해 LSTM 네트워크를 기반으로 학습을 수행하여 객체 검출 모델을 획득하는 단계; 실시간 비디오 시퀀스를 획득하는 단계; 상기 실시간 비디오 시퀀스를 객체 검출 모델에 입력하여 다중 객체를 검출하는 단계; 및 상기 검출부로부터의 출력을 기반으로 다중 객체를 추적하는 단계를 포함할 수 있다.

본 발명에 의하면, 장기 추적이 가능한 LSTM 네트워크를 기반으로 비디오 시퀀스에서 다중 객체 및 상이한 타입의 객체를 보다 빠르고 정확하게 실시간으로 추적할 수 있도록 한다.

본 발명의 효과는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.

도 1은 본 발명의 실시예에 따른 다중 객체 검출을 위해 비디오 시퀀스를 처리하는 일련의 절차를 나타내는 도면이다.
도 2는 일반적인 LSTM의 아키텍처를 나타내는 도면이다.
도 3은 본 발명의 실시예에 따른 LSTM 네트워크 모델의 구조를 나타내는 도면이다.
도 4는 도 3의 LSTM 네트워크 모델을 기반으로 다중 객체를 검출하는 일련의 절차를 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 LSTM 네트워크 모델을 기반으로 다중 객체를 검출 시스템의 구성을 나타내는 블록도이다.
도 6은 본 발명의 실시예에 따른 LSTM 네트워크 모델을 기반으로 다중 객체를 검출하는 방법을 나타내는 순서도이다.
도 7은 본 발명의 실시예에 따른 다중 객체 추적 방법을 기반으로 테스트를 수행한 결과를 나타내는 도면이다.

본 발명의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기증을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.

그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

한편, 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.

본 발명은 비디오 시퀀스에서 다중 객체 및 상이한 타입의 객체를 추적 또는 식별하는 것을 목표로 하는 것으로, 정확한 추적 결과를 제공하는 LSTM 네트워크와 추적 연관법의 두 가지 핵심적인 기술을 포함한다. 먼저, 이 LSTM 네트워크는 이미지 시퀀스의 트레이닝 세트를 탐색하는 레이어들 기반 LSTM 셀로 형성된다.

또한, 시작점에서 사물의 객체의 초기 위치를 추정하고, 시퀀스 프레임의 분류된 특징에 따라 네트워크 셀에 저장함으로써, 사물의 외관 및 위치에 포커스를 맞추는 것이다. 한편, 학습과 추적 단계의 전체 과정은 개별적으로 구분되며, 초기 단계에서 오프라인 모드에서 데이터 세트를 트레이닝시킴으로써 네트워크를 트레이닝하고, 다음 단계에서 통합적인 추적 연관법으로 다중 객체를 추적한다. 여기서, 추적 과정은 동일한 개수의 객체를 추적하는 순차적인 비디오 프레임을 통해 온라인으로 진행된다.

현재 대부분의 재분배 다중 객체 추적 기술은 탐지 접근에 의한 추적에 의해 중계된다. 그런, 이러한 기술은 성능이 완전히 다른 환경에서 탐지할 때 첨단 탐지기의 정확성과 성취도에 따라 좌우되는 반면 효율성은 그리 높지 않다. 이러한 방법은 대부분 경계 상자 복구를 기반으로 하는 위치 측정 방법이지만, 평면 영상 표면에서 개체를 찾는 데 도움이 될 수 있다. 다중 객체 추적을 위한 프로세스에서는 다수의 매개 변수로 실행되는데, 여기서 딥 검출 모델은 비디오 프레임에서 객체를 추적하는 동안 최첨단 접근 방식을 교착 상태에 빠지거나 객체의 필수적인 특징 요소를 잃을 수 있는 엄청난 양의 입력을 필요로 한다.

이하에서는 도면을 기반으로 본 발명에 대해 보다 구체적으로 설명하도록 한다.

도 1은 본 발명의 실시예에 따른 다중 객체 검출을 위해 비디오 시퀀스를 처리하는 일련의 절차를 나타내는 도면이다.

다중 객체 추적은 비디오 시퀀스에 다중 및 다른 유형의 객체를 추적하거나 식별하기 위한 것으로, 본 발명의 실시예에 따라 다중 객체를 검출하기 위해서는 새로운 LSTM 네트워크와 추적 연관 방법을 포함하도록 구성된다.

여기서, 새로운 LSTM 네트워크는 영상 시퀀스의 훈련 세트를 탐색하는 LSTM 셀 기반 레이어들로 형성된다. 본 발명에서는 시작점에서 사물의 초기 위치를 추정하고 시퀀스 프레임의 분류된 특징과 함께 네트워크 셀에 저장함으로써 사물의 외관과 위치에 초점을 맞춘다. 또한, 학습과 추적 단계의 전체 과정은 개별로 나뉘어져 있으며, 먼저 오프라인 모드에서 데이터 세트로 네트워크를 훈련시키고, 다음 단계에서 통합적인 추적 연관 방법으로 다중 객체를 추적한다. 추적 과정은 동일한 숫자의 객체를 추적하는 순차적 비디오 프레임을 통해 온라인으로 진행된다. 새로운 LSTM 네트워크는 추적 대상의 특징을 분석하고 발견하기 위한 데이터 시퀀스를 얻고 임의의 시간 간격에 걸쳐 바운딩 박스의 값을 기억하는데 적용되며, 이는 셀 내외로 들어오는 정보의 흐름이 세 개의 게이트에 의해 제어될 수 있다.

도 2는 일반적인 LSTM의 아키텍처를 나타내는 도면이다.

기본적으로 LSTM은 RNN의 기본 요소를 포함하고 딥러닝 분야에서 널리 사용되는 인공 순환 신경망(artificial RNN)의 클래스 아키텍처 유형 중 하나이다. 이 기능으로 인해 단일 데이터 포인트(예를 들어, 영상)의 프로세스뿐만 아니라 음성 또는 비디오 처리와 같은 전체 순차 데이터에 이 아키텍처를 적용할 수 있다. 예를 들어, 손글씨 인식, 음성 인식, 네트워크 트래픽의 이상 감지 또는 IDS(Intrusion Detection Systems)처럼 다른 여러 가지 순차적 데이터 처리 분야에서 제안된 여러 LSTM 기반 연구가 있다. 일반적으로 사용되는 대부분의 LSTM 아키텍처는 셀, 입력 게이트, 출력 게이트 및 망각 게이트로 구성되며, 셀 내외의 정보의 조절 흐름의 전체 프로세스는 순차 데이터의 학습된 값을 기억하며 임의의 시간 간격에 의해 수행된다. 시간 순 데이터를 기반으로 분류 및 처리, 예측 생성에 적합한 유명하고 인기있는 LSTM 네트워크가 있다. 무한한 순차적 데이터 시계열 또는 시계열의 중요한 이벤트 사이의 알려지지 않은 기간으로 인해 LSTM 네트워크는 시퀀스 데이터의 중요한 부분을 차지하고 기존 RNN을 훈련할 때 발생할 수 있는 기울기 소실 문제를 처리할 수 있다.

LSTM 네트워크의 핵심 개념은 데이터 전달 과정이 앞으로 전파될 때 정보를 전달하는 순환 신경 네트워크로서 제어 흐름 차트에서 유사하게 보인다. 이론적으로 세포 상태는 시퀀스의 모든 처리에 걸쳐 일시적으로 관련 세부 정보를 전달하거나 유지할 수 있다. 방법의 이름에서부터 초기 시간 단계의 세부 사항조차도 단기 기억의 효과를 줄이면서 이후 시간 단계로 나아갈 수 있다.

앞서 언급했듯이, LSTM 셀은 게이트를 가지고 있고, 셀 스테이트는 진행 중에 특징들은 게이트를 통해 셀 스테이트로 삽입되거나 지워진다. LSTM 네트워크 게이트는 훈련 중에 다른 작업을 수행하고, 셀 상태에서 허용되는 정보를 결정하며, 또한 훈련 과정 중에 정보를 유지하거나 망각하기 위해 필요한 기능을 배울 수 있다. 네트워크 운용에서 LSTM 셀 내부에는 sigmoid, tanh, pointwise multiplication, pointwise addition 및 vector concatenation과 같은 각 단계별로 수행해야 하는 작업이 있다. 이러한 운영은 네트워크의 학습된 특성 정보를 제어하는 동시에 프로세스를 예측하고 추적한다.

망각 게이트가 있는 셀 상태 단위의 전방 통과에 대한 LSTM의 수학 방정식은 아래에 제시되어 있으며, 이는 연산 계산을 <수학식 1>로 나타낼 수 있다.

여기서, 초기 값은 및 이고 연산자 는 Hadamard 곱 (요소 별 곱)을 나타낸다. 아래 첨자 t는 시간 단계를 인덱싱한다.

한편, 는 LSTM 유닛의 입력 벡터, 는 망각 게이트의 활성 벡터, 는 입력/업데이트 게이트의 활성 벡터, 는 출력 게이트의 활성 벡터, 는 유닛의 출력 벡터인 히든 스테이트 벡터, 는 셀 입력 활성 벡터, 는 셀 스테이트 벡터, 및 는 트레이닝 중에 학습해야 하는 가중치 행렬 및 편향 벡터 매개 변수를 나타낸다. 이때, 위 첨자 및 각각은 입력되는 특징과 히든 유닛의 개수이다.

또한, 활성함수인 는 시그모이드 함수(sigmoid function), 는 하이퍼볼릭 탄젠트 함수(hyperbolic tangent function), 는 하이퍼볼릭 탄젠트 함수 또는 핍홀 LSTM 논문에서 제안하는 이다(hyperbolic tangent function or peephode LSTM paper suggests .).

1. 시그모이드 활성화 연산

시그모이드 함수는 세부 사항을 학습하고 셀 상태 단위 게이트로 제어하는 데 큰 역할을 한다. 일반적으로 시그모이드 함수는 tanh 활성화와 동일하게 수행되지만 시그모이드 활성화는 -1과 1 사이의 값 대신 0에서 1 사이의 값을 사용한다. 이 형식은 셀 스테이트 단위의 게이트 프로세스를 업데이트하거나 망각하는데 도움이 될 수 있다. 취해진 값 숫자가 0을 곱하기 때문에 결과도 0이되므로 값을 유발하면 결과가 사라지거나 망각한다. 반대의 경우 1을 곱한 숫자가 동일한 값이면 동일하거나 유지된다. 따라서 네트워크는 학습 중에 어떤 데이터를 가져오거나 망각할 것인지 결정한다.

2. 망각 게이트 연산

첫째로, 망각 게이트는 폐기 또는 보관할 정보를 결정하는 LSTM 네트워크의 필수 단위다. 초기에, 이전 히든 스테이트 와 현재 입력 으로부터의 정보는 시그모이드 함수를 통해 전달된다. 출력으로 값이 0과 1 사이에 나오며, 그 값이 0에 가까우면 <수학식 1>에서 첫번째 수학식에 따른 를 망각하고, 1이면 특징을 유지한다.

3. 입력 게이트 연산

셀 스테이트 입력 게이트를 업데이트하기 위해, 이전에 히든 스테이트와 현재 입력값이 시그모이드 활성화 함수를 통과하며 동일한 입력이 동시에 tanh 함수에 들어간다. 이 두 값이 <수학식 1>에서 두번째 수학식과 같이 점별로 곱하여지는데 이것은 0과 1사이 전달값으로 어떤 입력 값이 업데이트 되는지를 결정한다. 이때, 0은 중요하지 않음, 1은 중요함을 의미한다. 입력이 tanh 함수를 통과할 때 네트워크를 조절하기 위해 -1과 1 사이의 값으로 변화시킨다.

4. 셀 스테이트 연산

이제 전달된 모든 망각 게이트와 입력 게이트 정보는 셀 스테이트 계산으로 들어간다. 초기에 셀스테이트는 점별 과 망각 활성화 벡터의 곱셈 값을 갖는다(<수학식 1>에서 네번째 수학식). 이 단계에서 0에 가까운 값으로 곱하면 셀 스테이트에서 값을 떨어뜨릴 가능성이 있다. 입력 게이트로부터 얻은 출력은 점별 덧셈을 한다. 여기서 신경망 네트워크가 예측을 위해 유지해야하는 것과 관련된 값을 찾아 셀 스테이트의 값을 새로운 값으로 업데이트 하고(<수학식 1>에서 다섯번째 수학식), 새로운 셀 스테이트를 제공한다.

5. 출력 게이트 연산

최종 단계에서, 출력 게이트는 다음 히든 스테이트 h_t를 결정하는데(<수학식 1>에서 여섯번째 수학식), 이때 히든 스테이트는 이전의 입력값에 관한 정보를 포함하고 예측에 사용된다. 첫번째로, 이전 히든 스테이트와 현재 입력은 시그모이드 활성화 함수(<수학식 1>에서 세번째 수학식)를 통과한다. 두번째로 새로 수정된 셀 스테이트는 tanh 함수를 통과한다. 이 후 두 결과값은 히든 스테이트가 옮겨야할 정보를 결정하기 위해 곱해지며, 그 결과값은 히든 스테이트이다. 이후 새로운 셀 스테이트와 새로운 히든 스테이트는 학습 프로세스의 다음 시간 순서 단계를 위해 옮겨진다.

나머지 시간 단계 학습와 예측 과정은 앞서 설명한 바에 따르며, 여기서 망각 게이트는 초기 시간 단계 정보를 유지하는데 어떤 학습 정보가 관련이 있는지 결정한다. 또한, 정보 업데이트를 위해 입력 게이트는 현재 단계에서 필요한 학습된 특징을 추가하기로 결정할 것이다. 마지막으로 출력 게이트는 다음 시간 단계에 대한 다음 히든 스테이트를 결정한다. LSTM의 제어 흐름은 몇 가지 텐서 조작과 루프 섹션으로, 예측을 위해 히든 스테이트를 적용할 수 있으며, 이러한 모든 메커니즘의 조합은 LSTM 네트워크를 형성하며, 그 조합에서 LSTM은 학습과 예측에 관련된 정보를 선택할 것이다.

본 발명에서는 트레이닝 절차를 위한 라벨링된 이미지, 지상 실측 정보, 시퀀스 정보, 추적 가능한 객체 세부사항의 감지 조정을 포함한 특징 있는 데이터 세트에서 직접 정보를 학습하는 네트워크를 만드는 것이 핵심이다.

트레이닝 연산의 접근방식은 학습 특징에 대해 오프라인으로 진행되며, 추적 연관성과 통합하기 위한 적절한 출력을 얻기 위한 객체 이동 방향을 추정한다. LSTM 네트워크는 폐색, 객체 유사성, 다중 상호연결 객체 등과 같은 분류 문제와 기타 전형적인 문제를 해결하기 위해 객체의 특징을 이용할 수 있는 자체적인 능력을 가지고 있다. 기본적으로 제안한 LSTM 네트워크 구조는 더 생산적인 학습 모델을 활용하기 위해 다중 네트워크 레이어에 생성된다. 이때, 추적 방법과 관련된 더 좋은 성능을 얻기 위해 데이터 세트 이미지의 특징을 사용한다. 이러한 접근 방식을 증명하기 위해 다른 방법론과 함께 일반적으로 사용되는 데이터 세트를 사용하였다. 이 데이터 세트 KITTI 트래킹과 MOT16은 인간과 차량의 단일 및 다중 객체 장면을 포함하는 내부 및 외부 환경 콘텐츠 비디오와는 완전히 다르다.

본 발명은 특징 추적 프로세스에 대한 보다 정확한 결과 모델을 얻기 위해 이미지 시퀀스를 통합하여 라벨이 부착된 이미지 데이터 세트를 네트워크에 적용한다. 이 네트워크 모델에서는 레이블이 지정된 이미지가 대개 LSTM 레이어를 따르고 예측을 출력하는데 사용되는 네트워크의 결합 레이어(fully-connected layer)라고도 불리는 dense 레이어에 입력으로 적용되며, 이 입력은 우리가 영상 차원 구성뿐만 아니라 위치된 객체 구성과 회귀의 좌표로 객체의 위치와 특징을 학습할 것이다.

도 3은 본 발명의 실시예에 따른 LSTM 네트워크 모델의 구조를 나타내는 도면이다.

도 3을 참조하면, 본 발명에 따른 LSTM 네트워크 모델은 추적 연관성과 병행하여 훈련된 출력 결과를 사용하기 위해 두 가지 데이터 세트로 개별적으로 훈련되었다.

LSTM 네트워크 모델은 이미지의 특징을 깊이 발굴하기 위해 라벨링된 이미지로부터 직접 학습하기 위한 시퀀스 영상의 값을 취한다. 이때, 관심 영역만을 취함으로써 순차적 이미지에서 외관 유사성을 심층적으로 탐구할 수 있다. 동시에, 네트워크는 라벨링된 이미지, 관심 영역(프레임 내의 다중 객체의 위치) 등과 같은 데이터 세트의 입력 파라미터로 추적 가능한 객체의 위치를 추정할 수 있다. 도 3은 LSTM 네트워크 구조의 학습 모델의 세부 단계를 보여준다. 여기서, 네트워크가 추적 가능한 객체 클래스도 예측하면서, 특징을 학습하기 위한 객체의 위치 좌표와 회귀의 값을 구성하는 것을 알 수 있다. 또한, LSTM 네트워크는 LSTM 셀 상태 유닛들의 규칙들에 의해 예측된 객체 위치를 저장할 수 있다. 예측 유닛과 기억의 필수 단계는 특징 학습과 동시에 비디오 시퀀스의 모든 프레임을 따른다. 오프라인 모드에서 훈련된 모델 출력을 받은 후, 추적 프로세스를 시작하기 위한 초기 공급 예제로 사용할 것이며, 또한 본 발명에 따른 LSTM 네트워크 모델의 평가에도 사용될 것이다.

이러한 LSTM 네트워크를 구축하기 위해 네트워크의 특징 추출 부분을 통합하는 것으로 시작한다. 따라서, 데이터 세트를 제대로 학습하기 위해 네트워크에 바운딩 박스 정보를 제공하는 경우, 간단한 기능 추출기를 만들고, 객체의 위치, 관심 영역 등을 포함하는 객체 위치 맵을 이용하여 네트워크를 제작한다. 이미지와 바운딩 박스의 특징 추출은 관심 지역 검색을 학습하는데 도움을 주면서 더 작게 생성한다. 또한, 세부 특징의 불균형으로부터 네트워크를 유지한다. 네트워크는 레이어, 환경설정 등과 같은 모든 유용한 모듈 및 라이브러리를 포함하는 Keras 모델에서 만든다. 트레이닝 모델의 예측 섹션은 트레이닝된 모델 특징, 바운딩 박스, 학습 섹션 등 으로부터 정보를 획득한다. 트레이닝 모드의 손실 함수는 잘못된 예측의 결과를 보여주는데, 숫자가 단일 예제에서 해당 모델의 예측이 얼마나 잘못되었는지 나타낸다. 본 발명의 실시예에 따른 LSTM 네트워크 모델에서는 거리 점을 2차에서 선형으로 변경하는 Huber 손실 함수를 사용했으며, 손실을 계산하기 위해 여러 레이블 클래스를 식별하는 소프트맥스(SoftMax) 교차 엔트로피를 적용했다. 최적화 문제는 어떤 종류의 데이터에 대한 문제를 해결하고 학습 과정에서 모델 선택 및 검증 세트를 줄이기 위한 분석 작업으로 간주된다. 본 발명에서는 신경망 트레이닝에서 비용 함수를 최소화하기 위해 Adam(adaptive moment estimation) 옵티마이저를 사용하였다. 학습된 특징과 라벨 정보로부터 입력 세부사항을 취함으로써 예측, 레이블 및 정확도 측정과 같은 다른 지표를 계산하였다.

한편, 트레이닝 과정 평가는 예측 지표, 손실, 라벨, 예측과 라벨의 정확도, 정밀도 등으로 계산된다. 트레이닝 과정은 오프라인 모드로 진행되는데, 요구되는 모든 옵션과 입력 데이터 세트는 보조의 필요한 부분으로 설정된다. 본 발명의 실시예에서는 트레이닝 된 모델 출력, 그래프 출력과 평가 파일도 얻기 위해 100 epoch를 트레이닝 하였다. 일반적인 두 데이터 세트를 개별적으로 적용하여 이 모델을 테스트하였으며, 트레이닝 과정은 개별적으로 유지되고 다른 위치에 결과를 얻었다. 학습 속도는 객체의 특징을 깊게 탐구할 경우 수동으로 0.001로 설정하였는데, 속도가 느릴 수록 학습 시간이 오래 걸린다. 트레이닝과 추정 과정은 트레이닝 중 한 동작으로 동시에 진행되며, 매 1000 iteration 마다 훈련 평가 예측, 정확도, 손실 및 기타 결과를 포함한 평가 결과를 보여준다. 또한, 트레이닝 결과 파일의 결과는 제공된 위치에 저장된다. 트레이닝 과정의 추정 결과는 모델의 생산성, 학습 능력, 모델의 상호 호환성을 보여준다.

도 4는 도 3의 LSTM 네트워크 모델을 기반으로 다중 객체를 검출하는 일련의 절차를 나타내는 도면으로서, 도 3의 LSTM 네트워크 모델과의 추적 연관성 구조를 보여준다.

다중 객체 추적 시스템은 비디오 시퀀스에서 단일 객체를 관찰하는 것보다 조금 더 복잡한 메커니즘이다. LSTM 네트워크 모델은 LSTM 셀 스테이트 유닛의 예측 능력으로 추적 설비를 네트워크에 통합을 통한 추적 프로세스와 관련이 있다. LSTM 네트워크 모델은 LSTM 셀 상태 단위의 예측 능력의 도움으로 추적 기능을 네트워크에 통합하여 추적 프로세스와 연관되어 있으며, 특징을 추출하고 객체 라벨을 학습하기 위해 객체 위치 바운딩 박스를 제공함으로써, 네트워크 예측 바운딩 박스와 비교함으로써 추적 연관성이 제공된다.

동시에 다중 객체를 추적하는 것은 객체를 개별로 식별하면서 추적 기반 문제를 해결해야 하므로 상당히 어려운 작업이다. 단일 표적 추적의 경우 바운딩 박스의 위치와 높이 및 폭이 적용된 상태 공간을 추적한다. 이는 초기 상태의 공분산 행렬을 취함으로써 객체의 모양과 클래스를 얻는 시작점으로 각 객체에 고유한 트랙 독자성을 제공하는 더 중요한 단계이다. 또한, 네트워크로 오랜 시간 추적을 학습하고 기억할 때, 모든 객체를 한 프레임 내 다중 객체 중 하나의 동일한 객체로 인지하는 것은 더 많은 시간을 요구하는 작업이다. 다중 표적 추적은 단일 표적 추적과정과 눈에 띄게 다르며, 트레이닝 된 LSTM 모델을 적용할 것이라는 점을 고려해야한다. 본 발명의 실시예에 따른 LSTM 네트워크 모델을 트레이닝 하면서 만든 LSTM 파일은 그래프 러너 유닛(graph runner unit)을 실행하여 다음 표적을 예측하는데 사용할 수 있다. 추적될 한 타임스텝 시퀀스 안의 객체 클래스의 수와 현재 타임스텝의 활성 트랙의 목록이 있다. 각 트랙에서 다음 예측을 얻기 위해 트랙 수와 클래스 수가 포함된 형상 배열을 반환한다.

추적의 성능을 업데이트하는 것은 표적 형상의 타임 스텝에서 일련의 탐지와 예측을 수행하는 것으로 진행되며, 추가적으로 전체 업데이트 프로세스가 반복된다. 다음 단계는 주어진 이미지의 각 트랙의 바운딩 박스를 그리는 것이다. 트랙 상태가 바운딩 박스와 일치하면 추적 ID를 버리고, 그렇지 않으면 프로세스가 이전 단계로 되돌아 간다.

도 5는 본 발명의 실시예에 따른 LSTM 네트워크 모델을 기반으로 다중 객체를 검출 시스템의 구성을 나타내는 블록도이다.

도 5를 참조하면, 본 발명의 실시예에 따른 실시간 다중 객체 검출 장치(1)는 수집부(10), 학습부(30), 생성부(50), 검출부(70) 및 추적부(90)를 포함한다.

먼저, 수집부(10)는 포스트 블록, 미디어 사이트, Google 리소스 등과 같은 다양한 종류의 인터넷 리소스를 통해 데이터 세트를 수집한다.

한편, 학습부(30)는 수집부(10)에서 수집된 데이터 세트를 사전 학습하는데, 이때, 앞서 설명한 도 3에 따른 LSTM 네트워크를 기반으로 학습을 수행한다. 이로써, LSTM 네트워크 모델, 즉, 객체 검출 모델을 획득할 수 있다. 이 객체 검출 모델은 포스트 블록, 미디어 사이트, Google 리소스 등과 같은 다양한 종류의 인터넷 리소스를 통해 수집되는 데이터 세트를 기반으로 추적하고 수집할 대상을 학습함으로써 생성되는 것이다. 이 객체 검출 모델은 추적 대상의 특징을 분석하고 검출하기 위한 데이터 시퀀스를 획득하고, 미리 설정된 시간 간격으로 바운딩 박스의 값을 기억하도록 하기 위해 적용된다.

또한, 학습부(30)는 비디오 시퀀스의 모든 프레임 내에서 객체를 학습하기 위해 레이블이 지정된 비디오 시퀀스를 입력으로 사용하여 데이터 세트의 특징을 학습하며, 객체 구성과 회귀의 좌표로 객체의 위치와 특징을 학습한다.

카메라부(50)는 영상, 즉 실시간 비디오 시퀀스를 획득한다. 카메라부(50)는 드론에 설치된 적어도 하나 이상의 카메라일 수 있으며, 그 적어도 하나 이상의 카메라를 이용하여 실시간 비디오 시퀀스를 획득할 수 있다.

검출부(70)는 실시간 비디오 시퀀스를 객체 검출 모델에 입력하여 객체를 검출한다. 이와 같이 수집된 데이터 세트에 대해 LSTM 네트워크를 기반으로 학습을 수행하여 획득된 객체 검출 모델을 이용하여 객체를 검출하는 것이다.

추적부(90)는 검출부(50)로부터의 출력을 기반으로 객체를 추적한다.

도 6은 본 발명의 실시예에 따른 LSTM 네트워크 모델을 기반으로 다중 객체를 검출하는 방법을 나타내는 순서도이다.

도 6을 참조하면, 수집부(10)가 적어도 하나 이상의 인터넷 리소스를 통해 데이터 세트를 수집하고, 학습부(30)가 수집부(10)에 의해 수집된 데이터 세트에 대해 LSTM 네트워크를 기반으로 학습을 수행하여 객체 검출 모델을 획득한다.

이후, 드론과 같은 장치에 구비된 카메라부(50)가 실시간 비디오 시퀀스를 획득하면, 검출부(70)가 그 실시간 비디오 시퀀스를 객체 검출 모델에 입력하여 다중 객체를 검출한다.

이로써, 그 검출부(70)로부터의 출력을 기반으로 추적부(90)가 다중 객체를 추적할 수 있다.

이하에서는 본 발명의 실시예에 따른 LSTM 네트워크 모델을 테스트 한 내용에 대해 설명하도록 한다.

본 발명의 실시예에 따른 LSTM 네트워크 모델의 성능, 적응성 및 다른 데이터와의 작업 안전성을 탐색하기위해 서로 다른 두 오픈 소스 데이터 세트로 테스트를 진행하였다.

트레이닝 과정은 오프라인 모드에서 수행됐으며, KITTI-tracking에 약 8K개 이미지인 20개의 비디오 시퀀스를, MOT16에 약 5.3K개 이미지인 7개 비디오 시퀀스를 적용하여, 총 KITTI-tracking과 MOT16의 훈련 세트에 약 13K개 이미지를 적용했다. 이 데이터 세트는 비디오 시퀀스 내의 단일 및 다중 표적의 다른 위치를 포함하며, 이것은 데이터 세트의 테스트셋으로 훈련 및 테스트를 진행하면 네트워크의 학습 및 예측 기능을 테스트하는데 도움이 된다.

이하에서 설명하는 평가들은 본 발명에 따른 기술과 다른 기술의 다중 객체 추적 성능의 결과만을 보여준다.

1. 트레이닝 평가(Training evaluation)

트레이닝에 대한 평가는 훈련 프로그램 및 이니셔티브가 효과적이고 효율적이며 다른 클래스 데이터 세트와 작업 가능한지 여부를 분석하는 체계적인 프로세스와 같다. 본 발명에 따른 학습 과정은 네트워크의 가능성을 계산해 평가되는데, 이는 트레이닝 정확도와 손실, 정밀도, 평균 IoU(Interconnected over Union), 평가의 정확도를 포함한다. 트레이닝 평가 결과는 하기 <표 1>과 같이 나타낼 수 있다.

상기 <표 1>과 같은 트레이닝 평가 결과는 네트워크를 트레이닝 하는 동안 무작위로 취한 반복 단계 결과를 보여준다. 마지막 열은 트레이닝 결과가 포함된 최종 반복 횟수이다. 이 <표 1>에서 트레이닝 정확도 열은 트레이닝 품질의 계산으로 본 발명의 실시예에 따른 LSTM 네트워크의 성능이 과하지 않았음을 의미한다. 이 <표 1>에서 손실 열은 본 발명의 실시예에 따른 LSTM 네트워크 모델에서 트레이닝 과정 중 학습되지 않았거나 건너뛴 데이터 비율을 보여준다. 표의 정밀도 평가 유닛은 LSTM 네트워크 예측의 정확도를 나타낸다. 평균 IoU 섹션 파트는 모든 이미지에서 상호 연결된 객체를 학습하는 동안의 네트워크 성능을 보여준다. <표 1>의 마지막 열은 트레이닝 과정에서의 전반적인 성능을 설명한다.

2. 트래킹 평가(Tracking evaluation)

테스트 결과의 다음 유닛은 LSTM 네트워크 모델과의 추적 연관 성능을 설명한다. 다중 객체 추적 모델을 생성하는 경우 LSTM 네트워크 모델과 추적 연관을 통합했다. 전체 시스템은 온라인 모드로 작동할 수 있다. LSTM 네트워크 기반 다중 객체 추적 모델은 다른 상황에서 모델 성능을 평가하기 위해 다양한 유형의 오픈 소스 데이터 세트로 테스트되었다. KITTI-tracking 데이터 세트에서 LSTM 네트워크 기반 다중 객체 추적 평가는 하기 <표 2>와 같이 나타낼 수 있다.

상기 <표 2>는 KITTI-tracking 데이터 세트에 대한 LSTM 네트워크 기반 다중 객체 추적의 결과를 보여준다. KITTI 추적 데이터 세트에서 모든 비디오 시퀀스는 다른 시나리오와 다른 프레임 수를 갖도록 비디오 시퀀스 ID를 무작위로 추출하였다. 또한, 이 표는 다중 객체 추적 정확도(MOTA, multi object tracking accuracy), 다중 객체 추적 정밀도(MOTP, multi object tracking precision), 대부분 추적된 객체의 비율(MT, mostly tracked)과 대부분 손실된 비율(ML, mostly loss) 등을 보여준다. 일치된 수(Number of matched) 열은 프레임에서 같은 표적이 추적되었다는 것을 나타낸다. 즉, 하나의 단일 표적 또는 유사한 표적이 여러 번 추적 되었음을 의미한다.

3. 비교 결과(Comparison results)

본 발명에 따른 추적 방법의 성능을 탐구하기 위해 추적 결과를 다른 추적 방법의 결과와 비교하였다. 하기 <표 3>과 <표 4>의 비교 결과는 적은 LSTM 기반 MOT 연구로 인해, LSTM 기반 MOT 모델만이 아닌 다른 MOT 방법론으로 두 가지 오픈 소스 테이터셋 테스트 결과를 설명한다. 게다가 다중 객체 추적 절차에서 본 발명의 실시예에 따른 LSTM 네트워크 모델을 적절히 비교하고 평가하기 위해 RNN 기반 연구를 시도하였다. KITTI-traking 데이터 세트에서 다중 객체 추적의 비교 결과는 하기 <표 3>과 같이 나타낼 수 있고, MOT16 데이터 세트에서 다중 객체 추적 의 비교 결과는 하기 <표 4>와 같이 나타낼 수 있다.

상기 <표 3>은 새로 추가된 열인 추적 모드과 함께 KITTI 데이터 세트에서 추적 방법의 비교 결과를 보여준다. 이 <표 3>에서 대부분의 기본적인 성능 특성(MOTA, MOTP, MT)으로부터 본 발명의 실시예에 따른 LSTM 네트워크 기반 다중 객체 추적 모델이 최근 다중 객체 추적 방법들 중 가장 뛰어나다고 말할 수 있다.

한편, <표 4>는 MOT16 데이터 세트를 사용한 대부분의 최근 연구와의 다중 객체 추적 비교 결과를 보여준다. 이 <표 4>의 숫자적인 결과는 MOT16을 사용한 다른 다중 객체 추적 접근법들과의 평균 성능의 백분율을 보여준다. 본 발명에 따른 방법의 정확도 백분율은 69.12로 최고의 정확도를 보였지만, 정밀도면에서는 두번째를 기록하였다. 그러나 LSTMNET_TA 모델의 MOT 정확도와 정밀도 성능은 RNN_LSTM 기반 MOT보다 높았다. 또한, 다른 측량에서도 본 발명의 실시예에 따른 LSTM 네트워크 모델은 월등한 결과를 보여주었다.

도 7은 본 발명의 실시예에 따른 다중 객체 추적 방법을 기반으로 테스트를 수행한 결과를 나타내는 도면으로서, KITTI-tracking 데이터 세트 테스트 결과를 일 예로서 도시한 것이다.

본 발명의 ID로 동시에 다중 표적을 추적하는 새로운 다중 객체 추적 방법에 관한 것으로, 이러한 다중 객체 추적 방법은 LSTM 네트워크 기반 추적 연관법이 효과가 있고, 새로운 표적을 쉽게 받아들일 수 있다는 것을 보여준다. 즉, 도 6에 도시된 바와 같이, 본 발명에 따른 다중 객체 추적 방법의 KITTI-tracking 데이터 세트 테스트 결과, 시각적으로 우수한 결과를 보여주는 것을 확인할 수 있다.

앞서 본 발명을 설명함에 있어서, 트레이닝 및 테스트를 위해 KITTI 및 MOT2016이라는 두 오픈 소스 데이터 세트를 활용하였으나, 이는 설명의 편의를 위한 것으로 일 실시예에 해당하며, 이에 한정되지 않는다.

본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

1: 실시간 다중 객체 검출 장치 10: 수집부
30: 학습부30 50: 생성부
70: 검출부 90: 추적부

Claims

실시간 다중 객체 검출 장치에 있어서,
적어도 하나 이상의 인터넷 리소스를 통해 훈련을 위한 비디오 시퀀스의 데이터 세트를 수집하는 수집부;
상기 수집된 데이터 세트에 대해 LSTM 네트워크를 기반으로 학습을 수행하여 LSTM 네트워크 기반 객체 검출 모델을 획득하는 학습부;
실시간 비디오 시퀀스를 획득하는 카메라부;
상기 실시간 비디오 시퀀스를 상기 객체 검출 모델에 입력하여 다중 객체를 검출하는 검출부; 및
상기 검출부로부터의 출력을 기반으로 다중 객체를 추적하는 추적부를 포함하고,
상기 LSTM 네트워크는 비디오 시퀀스의 모든 프레임 내에서 객체를 학습하기 위해 레이블이 지정된 비디오 시퀀스를 입력으로 사용하여 학습하되, 라벨링된 이미지로부터 직접 학습하기 위한 시퀀스 영상의 관심 영역만을 취함으로써 순차적 이미지에서 외관 유사성을 심층적으로 탐구하는 한편, 시작점에서 사물의 초기 위치를 추정하고 시퀀스 프레임의 분류된 특징과 함께 네트워크 셀에 저장함으로써 사물의 외관과 위치에 초점을 맞추어 학습하고,
상기 LSTM 네트워크는 상기 네트워크 셀 기반의 다중 레이어로 구성되고,
상기 객체 검출 모델은 상기 모든 프레임 내 적어도 하나의 객체에 대한 객체 위치 바운딩 박스 및 상기 LSTM 네트워크를 통해 예측된 상기 적어도 하나의 객체에 대한 네트워크 예측 바운딩 박스 간의 비교를 통해 상기 적어도 하나의 객체에 대한 이동방향을 추정함으로써 상기 적어도 하나의 객체에 대한 추적 연관성 정보를 제공하는 것을 특징으로 하는 실시간 다중 객체 검출 장치.
제1항에 있어서,
상기 객체 검출 모델은,
추적 대상의 특징을 분석하고 검출하기 위한 데이터 시퀀스를 획득하고, 미리 설정된 시간 간격으로 바운딩 박스의 값을 기억하도록 하기 위해 적용되는 것을 특징으로 하는 실시간 다중 객체 검출 장치.
삭제
제1항에 있어서,
상기 학습부는,
객체 구성과 회귀의 좌표로 객체의 위치와 특징을 학습하는 것을 특징으로 하는 실시간 다중 객체 검출 장치.
제1항에 있어서,
상기 수집부는 드론을 통해 촬영한 이미지를 데이터 세트로 수집하고, 상기 카메라부는 드론에 구비되어 실시간 비디오 시퀀스를 획득하는 것을 특징으로 하는 실시간 다중 객체 검출 장치.
실시간 다중 객체 검출 방법은,
적어도 하나 이상의 인터넷 리소스를 통해 훈련을 위한 비디오 시퀀스의 데이터 세트를 수집하는 단계;
상기 수집된 데이터 세트에 대해 LSTM 네트워크를 기반으로 학습을 수행하여 객체 검출 모델을 획득하는 단계;
실시간 비디오 시퀀스를 획득하는 단계;
상기 실시간 비디오 시퀀스를 객체 검출 모델에 입력하여 다중 객체를 검출하는 단계; 및
검출 결과를 기반으로 다중 객체를 추적하는 단계를 포함하고,
상기 객체 검출 모델을 획득하는 단계는,
비디오 시퀀스의 모든 프레임 내에서 객체를 학습하기 위해 레이블이 지정된 비디오 시퀀스를 입력으로 사용하여 학습하되, 라벨링된 이미지로부터 직접 학습하기 위한 시퀀스 영상의 관심 영역만을 취함으로써 순차적 이미지에서 외관 유사성을 심층적으로 탐구하는 한편, 시작점에서 사물의 초기 위치를 추정하고 시퀀스 프레임의 분류된 특징과 함께 네트워크 셀에 저장함으로써 사물의 외관과 위치에 초점을 맞추어 학습하고,
상기 LSTM 네트워크는 상기 네트워크 셀 기반의 다중 레이어로 구성되고,
상기 객체 검출 모델을 획득하는 단계는,
상기 객체 검출 모델은 상기 모든 프레임 내 적어도 하나의 객체에 대한 객체 위치 바운딩 박스 및 상기 LSTM 네트워크를 통해 예측된 상기 적어도 하나의 객체에 대한 네트워크 예측 바운딩 박스 간의 비교를 통해 상기 적어도 하나의 객체에 대한 이동방향을 추정함으로써 상기 적어도 하나의 객체에 대한 추적 연관성 정보를 제공하는 것을 특징으로 하는 실시간 다중 객체 검출 방법.
제6항에 있어서,
상기 객체 검출 모델은,
추적 대상의 특징을 분석하고 검출하기 위한 데이터 시퀀스를 획득하고, 미리 설정된 시간 간격으로 바운딩 박스의 값을 기억하도록 하기 위해 적용되는 것을 특징으로 하는 실시간 다중 객체 검출 방법.
삭제
제6항에 있어서,
상기 객체 검출 모델을 획득하는 단계는,
객체 구성과 회귀의 좌표로 객체의 위치와 특징을 학습하는 것을 특징으로 하는 실시간 다중 객체 검출 방법.
제6항에 있어서,
상기 데이터 세트는 드론을 통해 촬영한 이미지이며, 상기 실시간 비디오 시퀀스는 드론에 구비된 카메라를 통해 획득하는 것을 특징으로 하는 실시간 다중 객체 검출 방법.