WO2022080844A1

WO2022080844A1 - 스켈레톤 분석을 이용한 객체 추적 장치 및 방법

Info

Publication number: WO2022080844A1
Application number: PCT/KR2021/014078
Authority: WO
Inventors: 조엘홀스워쓰; 후삼허바이시; 롭두프레
Original assignee: (주)유디피
Priority date: 2020-10-14
Filing date: 2021-10-13
Publication date: 2022-04-21
Also published as: KR102416825B1; KR20220049389A

Abstract

본 발명은 스켈레톤 분석을 이용한 객체 추적 장치 및 방법에 관한 것으로서, 더욱 상세히는 영상의 프레임에서 사람에 해당하는 객체의 관절을 분석하여 스켈레톤 정보를 생성한 후 기존 프레임에서 생성된 객체별 스켈레톤 정보를 기초로 다음 프레임에서 예측되는 위치에서의 객체의 관절 포인트 및 스케일의 변화에 대해 생성한 객체별 예측정보와 비교하여 동일 객체를 검출하고, 동일 객체에 대한 추적 정보를 갱신하여 정확하게 동일 객체를 추적할 수 있도록 지원하는 스켈레톤 분석을 이용한 객체 추적 장치 및 방법에 관한 것이다. 본 발명은 기존과 같이 시각적 특성에 의존한 객체 추적 방식일 때 영상에서 다수의 객체가 군집하여 분산되어 객체 추적이 어려운 경우에도 동일 객체를 단절 없이 연속적으로 정확하게 추적할 수 있어 객체 추적에 대한 신뢰성을 높이는 효과가 있다.

Description

스켈레톤 분석을 이용한 객체 추적 장치 및 방법

본 발명은 스켈레톤 분석을 이용한 객체 추적 장치 및 방법에 관한 것으로서, 더욱 상세히는 영상의 프레임에서 사람에 해당하는 객체의 관절을 분석하여 스켈레톤 정보를 생성한 후 기존 프레임에서 생성된 객체별 스켈레톤 정보를 기초로 다음 프레임에서 예측되는 위치에서의 객체의 관절 포인트 및 스케일의 변화에 대해 생성한 객체별 예측정보와 비교하여 동일 객체를 검출하고, 동일 객체에 대한 추적 정보를 갱신하여 정확하게 동일 객체를 추적할 수 있도록 지원하는 스켈레톤 분석을 이용한 객체 추적 장치 및 방법에 관한 것이다.

최근 영상에서 사람에 해당하는 객체를 식별하여 동일 객체를 연속적으로 추적하기 위한 다양한 객체 추적 알고리즘이 개발되고 있으며, 이러한 알고리즘은 보안 시스템이나 출입 통제 시스템과 같은 다양한 시스템에 적용되어 사용자가 지정한 객체를 추적하면서 사용자가 지정한 이벤트가 발생한 객체를 감지하고 사용자에게 알림을 제공하는 기능을 수행할 수 있다.

기존에 객체 추적을 위한 알고리즘은 차분 영상, SIFT(Scale Invariant Feature Transform), HOG(Histogram of Oriented Gradient), Haar feature 등과 같은 다양한 알고리즘의 조합을 통해, 기존 영상과 현재 영상에서 객체에 해당되는 특징을 검출하고 동일한 특징을 가진 객체를 동일 객체로 식별하여 추적하는 방식이 일반적으로 이용되고 있다.

그러나, 이러한 기존의 객체 추적을 위한 알고리즘들은 대부분 영상에 포함된 픽셀을 구성하는 속성에 기반한 객체의 시각적인 특징에 의존하므로, 추적 대상 객체에 해당하는 다수의 사람들이 동일 위치에 상호 겹치도록 모인 후 분산되는 경우에 있어서 다수의 사람들이 동일한 옷을 입고 있는 경우 객체를 구별하여 추적하는데 어려움이 있을 뿐만 아니라 외부 환경 변화에 의해 영상의 조도나 화질에 변경이 발생한 경우 동일 객체를 추적하는데 실패하는 경우가 빈번히 발생하여, 객체 추적에 대한 신뢰도가 떨어지는 문제가 있다.

본 발명은 영상 분석을 통해 사람에 해당하는 객체의 관절을 식별하여 스켈레톤 정보를 획득하면서 상기 스켈레톤 정보를 기초로 객체의 예상 위치에서의 객체의 크기와 특정 관절의 위치에 대한 예측 정보를 산출하며, 다음 영상에서 얻어진 스켈레톤 정보와 예측 정보의 비교를 통해 동일 객체를 판단하는 방식으로 객체를 추적하여 영상의 시각적 특징에 의존하지 않고 정확하게 동일 객체를 검출하여 추적할 수 있도록 지원함으로써, 객체 추적에 대한 신뢰도를 높일 수 있도록 지원하는데 그 목적이 있다.

또한, 본 발명은 스켈레톤 정보를 기초로 이전 영상과 현재 영상에서 동일 객체로 판단된 객체의 시각적 특징을 추가 비교하여 동일 객체 판단에 대한 정확도 및 신뢰도를 더욱 높일 수 있도록 지원하는데 그 목적이 있다.

본 발명의 실시예에 따른 스켈레톤 분석을 이용한 객체 추적 방법은, 객체 추적 장치가 영상에 대한 프레임을 수신하고, 상기 프레임을 사람에 해당하는 객체의 관절 인식에 따른 스켈레톤 정보를 생성하도록 학습된 학습 모델에 적용하여 상기 영상에서 식별된 객체에 대해 인식된 관절별 키 포인트 및 객체의 스케일(scale)을 포함하는 스켈레톤 정보를 생성하고, 상기 식별된 객체에 대응되어 고유 식별자를 할당하여 상기 고유 식별자 및 상기 식별된 객체의 지면 상 접지 위치인 지면 접지 위치를 포함하는 추적 정보를 상기 식별된 객체에 대응되어 생성하는 스켈레톤 분석 단계와, 상기 객체 추적 장치가 상기 스켈레톤 분석 단계를 통해 상기 프레임에서 식별된 객체별로 생성된 상기 스켈레톤 정보를 칼만필터에 적용하여 상기 프레임의 다음 프레임에서 목에 해당하는 키 포인트인 기준 포인트 및 객체의 스케일에 대해 예측된 정보인 예측 정보를 상기 객체별로 생성하는 예측 단계와, 상기 객체 추적 장치가 신규 프레임에 대해 상기 스켈레톤 분석 단계를 수행하여 생성된 특정 객체의 스켈레톤 정보를 기존 프레임에 대해 상기 예측 단계를 통해 생성된 객체별 예측 정보와 상기 기준 포인트 및 스케일을 기초로 비교하여 상기 기존 프레임에 대응되는 하나 이상의 객체 중 상기 특정 객체와 일치하는 관심 객체가 존재하는지 판단하는 매칭 단계 및 상기 객체 추적 장치가 상기 매칭 단계를 통해 상기 특정 객체와 일치하는 상기 관심 객체가 존재하면 상기 특정 객체에 대해 상기 스켈레톤 분석 단계를 통해 생성된 상기 추적 정보를 기초로 상기 관심 객체에 대응되는 추적 정보를 업데이트하는 업데이트 단계를 포함할 수 있다.

본 발명과 관련된 일 예로서, 상기 업데이트 단계는 상기 객체 추적 장치가 상기 특정 객체와 상기 관심 객체가 상호 일치할 때 상기 신규 프레임에서의 특정 객체에 대응되는 추적 정보에 포함된 고유 식별자를 상기 관심 객체에 할당된 고유 식별자와 동일한 고유 식별자로 변환하여 일치시키고, 상기 특정 객체의 추적 정보를 기초로 상기 특정 객체의 지면 접지 위치를 상기 관심 객체의 추적 정보에 추가하여 상기 특정 객체와 동일한 상기 관심 객체의 시간별 이동 위치에 대한 정보가 포함되도록 상기 관심 객체의 추적 정보를 업데이트하는 것을 특징으로 할 수 있다.

본 발명과 관련된 일 예로서, 상기 스켈레톤 분석 단계는 상기 객체 추적 장치가 상기 식별된 객체에 바운딩 박스를 설정하여 생성된 상기 바운딩 박스에 대한 정보를 상기 추적 정보에 포함시키는 단계를 더 포함하며, 상기 업데이트 단계는 상기 객체 추적 장치가 상기 특정 객체의 추적 정보에 포함된 바운딩 박스에 대한 정보를 상기 관심 객체의 추적 정보에 추가하여 상기 관심 객체의 시간별 바운딩 박스의 위치 변화에 대한 정보가 포함되도록 상기 관심 객체의 추적 정보를 업데이트하는 단계를 더 포함하는 것을 특징으로 할 수 있다.

본 발명과 관련된 일 예로서, 상기 매칭 단계는, 상기 객체 추적 장치가 상기 신규 프레임에 대해 생성된 특정 객체의 스켈레톤 정보에 포함된 기준 포인트와 기존 프레임에 대해 생성된 객체별 예측 정보에 포함된 기준 포인트를 미리 설정된 제 1 수학식에 따라 객체별로 비교하여 객체별 위치 점수를 산출하고, 상기 특정 객체의 스켈레톤 정보에 포함된 스케일과 상기 객체별 예측 정보에 포함된 스케일을 미리 설정된 제 2 수학식에 따라 객체별로 비교하여 객체별 스케일 점수를 산출한 후 상기 위치 점수 및 스케일 점수를 객체별로 합산한 최종 점수를 산출하여, 상기 기존 프레임에서 식별된 객체 중 상기 최종 점수가 가장 낮으면서 미리 설정된 기준치 이하인 객체를 상기 관심 객체로 식별하는 단계를 더 포함하는 것을 특징으로 할 수 있다.

본 발명과 관련된 일 예로서, 상기 제 1 수학식은

이며, 상기 Pscore는 상기 위치 점수이고, 상기 특정 객체의 스켈레톤 정보에 포함된 기준 포인트의 좌표와 상기 기존 프레임에 대해 생성된 객체의 예측 정보에 포함되는 기준 포인트의 좌표가 상기 맨하탄 거리(Manhattan distance)에 적용되는 것을 특징으로 할 수 있다.

본 발명과 관련된 일 예로서, 상기 제 2 수학식은,

이며, 상기 Sscore는 상기 스케일 점수이며, 상기 minScale은 상기 특정 객체의 스켈레톤 정보에 포함된 스케일과 상기 기존 프레임에 대해 생성된 객체의 예측 정보에 포함된 스케일 중 더 작은 값이고, 상기 maxScale은 상기 특정 객체의 스켈레톤 정보에 포함된 스케일과 상기 기존 프레임에 대해 생성된 객체의 예측 정보에 포함된 스케일 중 더 큰 값인 것을 특징으로 할 수 있다.

본 발명과 관련된 일 예로서, 상기 스켈레톤 정보에 포함된 스케일은

을 통해 산출되며, 상기 r_limb는 상기 기준 포인트를 기준으로 팔꿈치에 대응되는 제 1 키 포인트와, 엉덩이에 대응되는 제 2 키 포인트와, 무릎에 대응되는 제 3 키 포인트 및 발목에 대응되는 제 4 키 포인트를 포함하는 관절별 키 포인트 각각에 대해 픽셀을 기초로 산출된 반경이며, 상기 C_limb는 상기 학습 모델에 의해 산출되어 상기 스켈레톤 정보에 포함된 상기 기준 포인트를 제외한 관절별 키 포인트 각각에 대한 신뢰도이며, 상기 R_limb는 상기 기준 포인트를 제외한 관절별 키 포인트 각각에 대해 미리 설정된 가중치인 것을 특징으로 할 수 있다.

본 발명과 관련된 일 예로서, 상기 업데이트 단계 이후, 상기 업데이트된 상기 관심 객체에 대응되는 추적 정보가 미리 설정된 조건 만족시 이벤트를 발생시키는 이벤트 감지 단계를 더 포함하는 것을 특징으로 할 수 있다.

본 발명과 관련된 일 예로서, 상기 매칭 단계는, 상기 객체 추적 장치가 상기 특정 객체와 일치하는 상기 관심 객체가 복수로 존재하면 상기 특정 객체에 대응되는 스켈레톤 정보를 기준으로 상기 특정 객체의 경계 영역을 식별하여 상기 특정 객체에 대한 마스크 영역을 설정하고, 상기 기존 프레임에서 상기 특정 객체와 일치하는 것으로 식별된 상기 복수의 관심 객체 각각에 대해서도 상기 특정 객체에 대한 마스크 영역의 설정 방식과 동일하게 마스크 영역을 설정하며, 상기 특정 객체의 마스크 영역에 포함된 복수의 픽셀을 대상으로 SMOG 기반의 가우시안 모델링을 통해 산출된 복수의 가우시안 분포 중 미리 설정된 대역에 속하는 픽셀의 비율에 대한 가우시안 점수를 산출하고, 상기 복수의 관심 객체별 마스크 영역에 대해서 상기 특정 객체의 마스크 영역에 대해 상기 가우시안 점수를 산출하는 방식과 동일하게 가우시안 점수를 산출한 후 상기 특정 객체에 대응되는 가우시안 점수와 비교하며, 상기 복수의 관심 객체 중 상기 특정 객체와의 상기 가우시안 점수의 차이가 가장 작은 객체를 상기 특정 객체와 일치하는 관심 객체로 선정하는 시각 비교 단계를 더 포함하는 것을 특징으로 할 수 있다.

본 발명의 실시예에 따른 스켈레톤 분석을 이용한 객체 추적 장치는, 영상에 대한 프레임을 수신하고, 상기 프레임을 사람에 해당하는 객체의 관절 인식에 따른 스켈레톤 정보를 생성하도록 학습된 학습 모델에 적용하여 상기 영상에서 식별된 객체에 대해 인식된 관절별 키 포인트 및 객체의 스케일(scale)을 포함하는 스켈레톤 정보를 생성하고, 상기 식별된 객체에 대응되어 고유 식별자를 할당하여 상기 고유 식별자 및 상기 식별된 객체의 지면 상 접지 위치인 지면 접지 위치를 포함하는 추적 정보를 상기 식별된 객체에 대응되어 생성하는 스켈레톤 분석부와, 상기 스켈레톤 분석부를 통해 상기 프레임에서 식별된 객체별로 생성된 상기 스켈레톤 정보를 칼만필터에 적용하여 상기 프레임의 다음 프레임에서 목에 해당하는 키 포인트인 기준 포인트 및 객체의 스케일에 대해 예측된 정보인 예측 정보를 상기 객체별로 생성하는 예측부와, 신규 프레임에 대해 상기 스켈레톤 분석부를 통해 생성된 특정 객체의 스켈레톤 정보를 기존 프레임에 대해 상기 예측부를 통해 생성된 객체별 예측 정보와 상기 기준 포인트 및 스케일을 기초로 비교하여 상기 기존 프레임에 대응되는 하나 이상의 객체 중 상기 특정 객체와 일치하는 관심 객체가 존재하는지 판단하는 매칭부 및 상기 매칭부를 통해 상기 특정 객체와 일치하는 관심 객체가 존재하면 상기 특정 객체에 대해 상기 스켈레톤 분석부를 통해 생성된 상기 추적 정보를 기초로 상기 관심 객체에 대응되는 추적 정보를 업데이트하는 갱신부를 포함할 수 있다.

본 발명의 실시예에 따른 객체 추적 장치는 영상을 구성하는 프레임 수신시마다 프레임에서 식별된 특정 객체에 대해 관절 및 스케일 분석을 통한 스켈레톤 정보와 객체 추적을 위한 추적 정보를 생성하면서 상기 객체의 스켈레톤 정보를 기초로 다음 프레임에서 상기 특정 객체의 목에 해당하는 키 포인트에 대해 예상되는 이동 위치 및 객체의 스케일 변화를 칼만 필터를 통해 예측한 예측 정보를 생성하고, 상기 다음 프레임에서 상기 기존 프레임에서 상기 특정 객체에 대해 생성된 예측 정보와 가장 근접한 스켈레톤 정보가 생성된 객체를 상기 특정 객체와 동일한 동일 객체로 검출하면서 상기 동일 객체의 추적 정보를 상기 특정 객체의 추적 정보로 업데이트하여 동일 객체를 정확하게 추적할 수 있으며, 이를 통해 기존과 같이 시각적 특성에 의존한 객체 추적 방식일 때 영상에서 다수의 객체가 군집하여 분산되어 객체 추적이 어려운 경우에도 동일 객체를 단절 없이 연속적으로 정확하게 추적할 수 있어 객체 추적에 대한 신뢰성을 높이는 효과가 있다.

또한, 본 발명은 스켈레톤 정보를 기초로 이전 프레임과 현재 프레임에서 동일 객체로 판단된 객체의 시각적 특징을 추가 비교하여 동일 객체 판단에 대한 결과를 검증함으로써, 동일 객체 판단에 대한 정확도 및 신뢰도를 더욱 높이는 효과가 있다.

도 1은 본 발명의 실시예에 따른 스켈레톤 분석을 이용한 객체 추적 장치의 구성도.

도 2 내지 도 6은 본 발명의 실시예에 따른 스켈레톤 분석을 이용한 객체 추적 장치의 동작 예시도.

도 7은 본 발명의 실시예에 따른 스켈레톤 분석을 이용한 객체 추적 장치의 객체 추적 방법에 대한 순서도.

이하, 도면을 참고하여 본 발명의 실시예에 따른 스켈레톤 분석을 이용한 객체 추적 장치(이하, 객체 추적 장치)에 대한 상세 실시예를 설명한다.

도 1은 본 발명의 실시예에 따른 객체 추적 장치(100)의 구성도이고, 도 2는 상기 객체 추적 장치(100)의 동작 예시도이다.

우선, 도 1에 도시된 바와 같이 상기 객체 추적 장치(100)는 통신부(110), 저장부(130) 및 제어부(120)를 포함하여 구성될 수 있다.

상기 통신부(110)는 외부 장치와 통신망을 통해 통신 가능하도록 연결되어 감시 대상 공간에 대한 영상을 수신할 수 있다.

이때, 본 발명에서 설명하는 통신망은 유/무선 통신망을 포함할 수 있으며, 이러한 무선 통신망의 일례로 무선랜(Wireless LAN: WLAN), DLNA(Digital Living Network Alliance), 와이브로(Wireless Broadband: Wibro), 와이맥스(World Interoperability for Microwave Access: Wimax), GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), IEEE 802.16, 롱 텀 에볼루션(Long Term Evolution: LTE), LTE-A(Long Term Evolution-Advanced), 광대역 무선 이동 통신 서비스(Wireless Mobile Broadband Service: WMBS), 5G 이동통신 서비스, 블루투스(Bluetooth), LoRa(Long Range), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association: IrDA), UWB(Ultra Wideband), 지그비(ZigBee), 인접 자장 통신(Near Field Communication: NFC), 초음파 통신(Ultra Sound Communication: USC), 가시광 통신(Visible Light Communication: VLC), 와이 파이(Wi-Fi), 와이 파이 다이렉트(Wi-Fi Direct) 등이 포함될 수 있다. 또한, 유선 통신망으로는 유선 LAN(Local Area Network), 유선 WAN(Wide Area Network), 전력선 통신(Power Line Communication: PLC), USB 통신, 이더넷(Ethernet), 시리얼 통신(serial communication), 광/동축 케이블 등이 포함될 수 있다.

또한, 상기 외부 장치는 카메라(camera)이거나 영상을 저장하는 영상 저장 장치(일례로, DVR(Digital Video Recorder) 또는 NVR(Network Video Recorder))일 수 있다.

이때, 상기 객체 추적 장치(100)는 상기 외부 장치의 구성부로 구성될 수도 있다.

또한, 상기 제어부(120)는 상기 객체 추적 장치(100)의 전반적인 제어 기능을 수행할 수 있으며, 제어부(120)는 RAM, ROM, CPU, GPU, 버스를 포함할 수 있으며, RAM, ROM, CPU, GPU 등은 버스를 통해 서로 연결될 수 있다.

또한, 상기 객체 추적 장치(100)는 저장부(130)를 더 포함하여 구성될 수 있으며, 상기 저장부(130)는 본 발명에서 설명하는 상기 제어부(120)의 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있고, 상기 영상을 저장할 수도 있다.

이때, 상기 저장부(130) 및 통신부(110)는 상기 제어부(120)의 구성 요소로 포함될 수도 있다.

한편, 도 1 및 도 2에 도시된 바와 같이, 상기 제어부(120)는 스켈레톤 분석부(121), 예측부(122), 매칭부(123), 갱신부(124) 및 이벤트 검출부(125)를 포함하여 구성될 수 있다.

우선, 도 3에 도시된 바와 같이, 상기 스켈레톤 분석부(121)는 영상을 구성하는 프레임(frame)을 수신하고, 상기 프레임 수신시 상기 프레임에서 사람에 해당하는 객체를 식별하면서 상기 식별된 객체의 관절 인식에 따른 스켈레톤(skeleton) 정보를 생성하도록 학습 완료되어 상기 스켈레톤 분석부(121)에 미리 설정된 학습 모델에 적용하여 상기 프레임에서 식별된 객체에 대해 인식된 관절별 키 포인트(key point) 및 객체의 스케일(scale)을 포함하는 스켈레톤 정보를 생성할 수 있다.

이때, 상기 학습 모델은 딥러닝(Deep learning) 알고리즘으로 구성될 수 있으며, 상기 딥러닝 알고리즘은 하나 이상의 신경망 모델로 구성될 수 있다.

또한, 본 발명에서 설명하는 신경망 모델(또는 신경망)은 입력층(Input Layer), 하나 이상의 은닉층(Hidden Layers) 및 출력층(Output Layer)으로 구성될 수 있으며, 상기 신경망 모델에는 DNN(Deep Neural Network), RNN(Recurrent Neural Network), CNN(Convolutional Neural Network) 등과 같은 다양한 종류의 신경망이 적용될 수 있다.

즉, 상기 학습 모델은 상기 프레임에서 사람에 해당하는 객체를 식별하고, 식별된 객체에 대해 관절에 해당하는 지점을 식별할 수 있으며, 상기 관절에 해당하는 지점에 대한 좌표를 상기 키 포인트로 설정할 수 있다. 이때, 상기 좌표는 x 좌표값 및 y 좌표값을 가질 수 있다.

또한, 상기 관절별 키 포인트는 인접한 키 포인트 상호간 선으로 연결되어 상기 스켈레톤 정보에 포함될 수 있다.

또한, 상기 학습 모델은 상기 사람에 해당하는 객체에서 식별된 하나 이상 관절 각각에 대해 실제 관절(또는 실제 관절의 위치)과의 일치 확률에 대한 신뢰도(또는 관절 신뢰도)를 산출할 수 있으며, 상기 스켈레톤 분석부(121)는 상기 스켈레톤 정보에 포함된 각 관절의 키 포인트별로 상기 학습 모델에 의해 산출된 신뢰도를 매칭하여 관절별 신뢰도를 상기 스켈레톤 정보에 포함시킬 수 있다.

또한, 상기 학습 모델은 상기 객체에서 식별된 하나 이상의 관절 각각을 목(neck)에 대응되는 키 포인트, 팔꿈치(elbow)에 대응되는 키 포인트, 엉덩이(hip)에 대응되는 키 포인트, 무릎(knee)에 대응되는 키 포인트 및 발목(ankle)에 대응되는 키 포인트가 구분되도록 관절별 키 포인트를 생성할 수 있다.

이때, 목에 대응되는 키 포인트는 사람에 해당하는 객체에서 식별된 양 쪽 어깨의 중간 지점일 수 있다.

일례로, 상기 학습 모델은 관절별 키 포인트 각각에 대해 상기 목, 팔꿈치, 엉덩이, 무릎 및 발목 중 어느 관절에 대한 키 포인트인지 식별 가능하도록 상기 키 포인트에 라벨링한 라벨 정보를 상기 스켈레톤 정보에 포함시킬 수 있다.

즉, 상기 키 포인트는 어느 관절에 대한 키 포인트인지 식별 가능하도록 생성될 수 있다.

이때, 상기 팔꿈치에 대응되는 키 포인트와, 엉덩이에 대응되는 키 포인트, 무릎에 대응되는 키 포인트 및 발목에 대응되는 키 포인트는 복수로 생성될 수 있다.

상술한 구성에서, 상기 관절별 키 포인트는 상기 프레임에서 객체의 일부가 프레임에 나타나지 않은 경우 복수의 관절별 키 포인트 중 일부가 생략될 수 있다.

또한, 상기 스켈레톤 분석부(121)는 상기 학습 모델에 의해 산출된 관절별 키 포인트를 기초로 객체의 스케일에 대한 정보를 생성할 수 있다.

일례로, 상기 스켈레톤 분석부(121)는 상기 목에 해당하는 키 포인트를 기준 포인트로 설정하여 상기 기준 포인트를 기준으로 상기 기준 포인트를 제외한 상기 프레임에서 식별된 하나 이상의 관절별 키 포인트 각각에 대한 반경을 산출하고, 상기 식별된 하나 이상의 관절별로 관절에 대해 상기 스켈레톤 분석부(121)에 미리 설정된 가중치 및 상기 관절에 대응되어 얻어진 상기 신뢰도를 상기 관절의 반경에 가중시켜 관절별로 가중치 반영값을 획득한 후 모든 관절별 가중치 반영값을 평균하여 상기 객체의 스케일을 산출할 수 있다.

이와 같이, 상기 스켈레톤 분석부(121)는 상기 기준 포인트를 제외한 상기 프레임에서 식별된 하나 이상의 관절별 키 포인트 각각에 대한 반경을 산출하고, 관절 각각에 대해 산출한 반경에 관절에 대응되는 가중치 및 신뢰도를 가중 평균하여 상기 스케일을 산출할 수 있다.

이때, 상기 반경은 상기 기준 포인트와 기준 포인트가 아닌 관절의 키 포인트와의 거리일 수도 있다.

이에 대한 상세 예시로, 상기 스켈레톤 분석부(121)는 상기 객체에서 목에 해당하는 제 1 관절과, 팔꿈치에 해당하는 제 2 관절 및 엉덩이에 해당하는 제 3 관절이 식별된 경우 상기 제 1 관절에 해당하는 키 포인트를 기준 포인트로 설정한 후 상기 기준 포인트를 기준으로 상기 제 2 관절에 대응되는 키 포인트와 상기 기준 포인트 사이의 반경에 상기 제 2 관절에 대응되어 미리 설정된 가중치 및 상기 제 2 관절에 대응되는 신뢰도(스켈레톤 정보에 포함)를 가중시켜 제 1 가중치 반영값을 획득하고, 상기 기준 포인트를 기준으로 상기 제 3 관절에 대응되는 키 포인트와 상기 기준 포인트 사이의 반경에 상기 제 3 관절에 대응되어 미리 설정된 가중치 및 상기 제 3 관절에 대응되는 신뢰도를 가중시켜 제 2 가중치 반영값을 획득하며, 상기 제 1 가중치 반영값과 상기 제 2 가중치 반영값을 평균하여 상기 객체의 스케일을 산출할 수 있다.

이때, 도 4에 도시된 바와 같이 상기 스켈레톤 분석부(121)에는 관절별로 가중치가 미리 설정된 설정 정보가 포함될 수 있으며, 상기 관절별 키 포인트 각각에 대응되어 상기 설정 정보에 미리 설정된 복수의 가중치 중 상기 발목에 대응되는 키 포인트의 가중치가 가장 높은 값으로 설정될 수 있다.

상기 발목에 대응되는 가중치가 가장 높은 값으로 설정된 이유는, 상기 발목에 대응되는 키 포인트가 기준 포인트인 목에 해당하는 키 포인트와의 거리가 가장 길어 다른 관절의 키 포인트에 비해 가장 낮은 불확실성과 분산을 가지므로 객체의 스케일을 가장 높은 정확도로 반영할 수 있기 때문이다.

또한, 상기 관절별 가중치로서, 팔꿈치에 대한 관절에 대응되는 가중치는 0.273으로 설정되고, 엉덩이에 대한 관절에 대응되는 가중치는 0.416으로 설정되며, 무릎에 대한 관절에 대응되는 가중치는 0.713으로 설정되고, 발목에 대한 관절에 대응되는 가중치는 1.0으로 상기 설정 정보에 설정되는 것이 바람직하다.

또한, 상기 스켈레톤 분석부(121)는 상기 프레임에서 식별된 객체에 대응되어 다른 객체와의 구별(구분)을 위한 고유 식별자를 할당할 수 있으며, 상기 고유 식별자 및 상기 프레임에서 식별된 지면 상에서 상기 식별된 객체의 지면과 접지하는 위치인 지면 접지 위치를 포함하는 추적 정보를 상기 식별된 객체에 대응되어 생성할 수 있다.

이때, 상기 스켈레톤 분석부(121)는 상기 추적 정보에 대응되는 스켈레톤 정보에 상기 추적 정보에 포함된 고유 식별자를 설정할 수도 있다.

또한, 본 발명에서 설명하는 프레임에 대응되어 식별된 객체는 스켈레톤 정보가 생성된 객체를 의미할 수 있다.

상술한 구성에서, 상기 스켈레톤 분석부(121)에 설정된 학습 모델은 상기 관절 이외에도 다른 관절에 대한 키 포인트를 산출할 수 있으나, 상기 스켈레톤 분석부(121)는 상기 스켈레톤 정보에 포함되는 미리 설정된 관절별 키 포인트로서 상기 라벨 정보를 기초로 목(neck)에 대응되는 키 포인트, 팔꿈치(elbow)에 대응되는 키 포인트, 엉덩이(hip)에 대응되는 키 포인트, 무릎(knee)에 대응되는 키 포인트 및 발목(ankle)에 대응되는 키 포인트만을 포함시키고, 이러한 관절별 키 포인트를 기초로 스케일을 산출할 수 있다.

즉, 상기 스켈레톤 분석부(121)는 미리 설정된 복수의 관절에 대한 키 포인트만을 객체 추적에 이용할 수 있다.

한편, 상기 예측부(122)는 상기 스켈레톤 분석부(121)와 연동하여, 상기 스켈레톤 분석부(121)를 통해 상기 프레임에서 식별된 객체별로 생성된 상기 스켈레톤 정보를 칼만필터(Kalman Filter)에 적용하여 상기 프레임의 다음 프레임에서 목에 해당하는 키 포인트인 기준 포인트 및 객체의 스케일에 대해 예측된 정보인 예측 정보를 상기 식별된 객체별로 생성할 수 있다.

일례로, 상기 예측부(122)는 상기 칼만필터를 통해 특정 프레임에서 식별된 특정 객체의 목에 해당하는 키 포인트인 기준 포인트에 대응되어 상기 특정 프레임의 다음 프레임에서 상기 특정 객체에 대응되어 예측되는 상기 기준 포인트의 예측 위치(예측 이동 위치)와 상기 특정 프레임에서 산출된 스켈레톤 정보에 포함되는 상기 특정 객체의 스케일에 대응되어 상기 다음 프레임에서 예측되는 상기 특정 객체의 스케일(스케일 변화)에 대한 예측값을 포함하는 예측 정보를 생성할 수 있다.

이때, 상기 예측부(122)는 3개의 칼만필터를 사용할 수 있으며, 상기 기준 포인트의 x좌표를 상기 3개의 칼만필터 중 제 1 칼만필터에 적용하여 상기 다음 프레임에서 예측되는 기준 포인트의 x좌표를 산출하고, 상기 기준 포인트의 y좌표를 상기 3개의 칼만필터 중 제 2 칼만필터에 적용하여 상기 다음 프레임에서 예측되는 상기 기준 포인트의 y좌표를 산출하며, 상기 객체의 스케일(값)을 상기 3개의 칼만필터 중 제 3 칼만필터에 적용하여 상기 다음 프레임에서 예측되는 상기 객체의 예측 스케일(값)을 산출할 수 있다.

상술한 바와 같이, 스켈레톤 분석부(121)는 프레임 수신시마다 프레임에 포함된 객체별로 스켈레톤 정보 및 추적 정보를 생성하고, 상기 예측부(122)는 상기 스켈레톤 분석부(121)에 의해 식별된 객체에 대응되어 예측 정보를 생성할 수 있다.

또한, 상기 스켈레톤 분석부(121) 또는 예측부(122)는 특정 프레임에서 식별된 특정 객체에 대응되어 생성된 스켈레톤 정보와 추적 정보 및 예측 정보를 상호 매칭한 후 상기 특정 프레임 또는 상기 특정 프레임의 프레임 식별정보와 매칭하여 상기 저장부(130)에 저장할 수 있다.

이때, 상기 스켈레톤 분석부(121) 또는 예측부(122)는 프레임 기준으로 상기 예측 정보에 대응되는 상기 추적 정보에 상기 예측 정보를 포함시켜 상기 저장부(130)에 저장할 수 있다.

또한, 상기 스켈레톤 분석부(121) 또는 예측부(122)는 상기 프레임 수신시마다 프레임에서 식별된 객체에 대응되어 생성한 스켈레톤 정보를 상기 매칭부(123)에 제공할 수 있다.

한편, 상기 매칭부(123)는 상기 스켈레톤 분석부(121) 또는 예측부(122)로부터 상기 영상에 포함되는 신규 프레임에서 식별된 특정 객체에 대응되어 상기 스켈레톤 분석부(121)를 통해 생성된 스켈레톤 정보를 수신할 수 있다.

또한, 상기 매칭부(123)는 상기 특정 객체의 스켈레톤 정보를 상기 신규 프레임의 생성 이전에 생성된 기존 프레임에 대해 상기 예측부(122)를 통해 생성된 객체별 예측 정보와 상기 기준 포인트 및 스케일을 기초로 비교하여 상기 기존 프레임에 대응되는 하나 이상의 객체 중 상기 특정 객체와 일치하는 관심 객체가 존재하는지 판단할 수 있다.

일례로, 상기 매칭부(123)는 상기 신규 프레임에서 식별된 특정 객체의 스켈레톤 정보와 상기 신규 프레임의 생성 직전에 생성된 기존 프레임인 이전 프레임에 대응되어 생성된 객체별 예측 정보를 상기 저장부(130)로부터 추출할 수 있다.

이때, 상기 기존 프레임은 상기 이전 프레임의 생성 이전에 생성된 프레임일 수도 있다.

또한, 상기 매칭부(123)는 상기 신규 프레임에서 식별된 상기 특정 객체에 대응되는 스켈레톤 정보에 포함된 기준 포인트와 상기 특정 객체의 스케일을 상기 이전 프레임에서 식별된 객체별로 상기 신규 프레임에서 예측되는 객체의 기준 포인트 및 객체의 스케일이 포함된 객체별 예측 정보와 동일 속성끼리 비교하여 상기 기존 프레임에서 식별된 하나 이상의 객체 중 상기 특정 객체와 일치하는 객체인 관심 객체가 존재하는지 판단할 수 있다.

이하, 상기 특정 객체와 일치하는 관심 객체를 식별하기 위한 상기 매칭부(123)의 상세 동작 구성을 설명한다.

우선, 상기 매칭부(123)는 상기 신규 프레임에 대해 생성된 특정 객체의 스켈레톤 정보에 포함된 기준 포인트와 기존 프레임에 대해 생성된 객체별 예측 정보에 포함된 기준 포인트를 미리 설정된 하기 수학식 1에 따라 상기 기존 프레임에서 식별된 객체별로 비교하여 상기 기존 프레임에서 식별된 객체별로 상기 특정 객체와의 기준 포인트 비교에 따른 위치 비교 점수를 산출할 수 있다.

이때, 상기 Pscore는 상기 위치 비교 점수이고, 상기 특정 객체의 스켈레톤 정보에 포함된 기준 포인트의 좌표와 상기 기존 프레임에 대해 생성된(기존 프레임에서 식별된) 객체의 예측 정보에 포함되는 기준 포인트의 좌표가 상기 맨하탄 거리(Manhattan distance)에 적용될 수 있다.

상기 위치 비교 점수가 낮을수록 상기 스케일 비교 점수에 대응되는 기존 프레임에서 식별된 제 1 객체에 대해 신규 프레임에서 예측되는 기준 포인트의 위치와 상기 신규 프레임에서 식별된 제 2 객체의 기준 포인트 사이의 차이가 작은 것을 의미하므로, 상기 제 1 객체와 상기 제 2 객체가 상호 동일한 객체일 확률이 높은 것으로 판단될 수 있다.

또한, 상기 매칭부(123)는 상기 특정 객체의 스켈레톤 정보에 포함된 스케일과 상기 객체별 예측 정보에 포함된 스케일을 미리 설정된 하기 수학식 2에 따라 상기 기존 프레임에서 식별된 객체별로 비교하여 상기 기존 프레임에서 식별된 객체별로 상기 특정 객체와의 스케일 비교에 따른 객체별 스케일 비교 점수를 산출할 수 있다.

이때, 상기 Sscore는 상기 스케일 비교 점수이며, 상기 minScale은 상기 특정 객체의 스켈레톤 정보에 포함된 스케일과 상기 기존 프레임에 대해 생성된(기존 프레임에서 식별된) 객체의 예측 정보에 포함된 스케일 중 더 작은 값이고, 상기 maxScale은 상기 특정 객체의 스켈레톤 정보에 포함된 스케일과 상기 예측 정보에 포함된 스케일 중 더 큰 값일 수 있다.

상기 스케일 비교 점수가 낮을수록 상기 스케일 비교 점수에 대응되는 기존 프레임에서 식별된 제 1 객체에 대해 상기 신규 프레임에서 예측되는 스케일과 상기 신규 프레임에서 식별된 제 2 객체의 스케일 사이의 차이가 작은 것을 의미하므로, 상기 제 1 객체와 상기 제 2 객체가 상호 동일한 객체일 확률이 높은 것으로 판단될 수 있다.

상술한 구성에서, 상기 스켈레톤 정보에 포함되는 스케일(scale)(또는 스케일 값, scale value)은 하기 수학식 3을 통해 산출될 수 있다.

이때, 상기 r_limb는 상기 기준 포인트를 기준으로 팔꿈치에 대응되는 제 1 키 포인트와, 엉덩이에 대응되는 제 2 키 포인트와, 무릎에 대응되는 제 3 키 포인트 및 발목에 대응되는 제 4 키 포인트를 포함하는 관절별 키 포인트 각각에 대해 픽셀(pixel)을 기초로 산출된 반경이며, 상기 C_limb는 상기 학습 모델에 의해 산출되어 상기 스켈레톤 정보에 포함된 상기 기준 포인트를 제외한 관절별 키 포인트 각각에 대한 신뢰도(관절 신뢰도)이며, 상기 R_limb는 상기 기준 포인트를 제외한 관절별 키 포인트 각각에 대해 미리 설정된 가중치일 수 있다.

여기서, 상기 스켈레톤 정보에 대응되는 프레임에서 상기 제 1 내지 제 4 키포인트 중 적어도 하나가 식별되지 않은 경우 해당 키 포인트는 상기 수학식 3에서 제외시킬 수 있다.

또한, 관절별 키 포인트 각각에 대해 미리 설정된 가중치는 상기 설정 정보에 포함될 수 있다.

다음, 상기 매칭부(123)는 상기 기존 프레임에서 식별된 객체의 예측 정보를 상기 특정 객체의 스켈레톤 정보와 비교하여 얻어진 상기 위치 비교 점수 및 스케일 비교 점수를 합산하여 최종 점수를 산출할 수 있으며, 이를 통해 상기 기존 프레임에서 식별된 하나 이상의 객체별로 상기 특정 객체와의 비교에 따라 얻어진 위치 비교 점수 및 스케일 비교 점수를 합산하여 상기 식별된 하나 이상의 객체별로 최종 점수를 산출할 수 있다.

또한, 상기 매칭부(123)는 상기 기존 프레임에서 식별된 하나 이상의 객체 중 상기 최종 점수가 가장 낮으면서 미리 설정된 기준치 이하인 객체를 상기 특정 객체와 일치하는 관심 객체로 식별할 수 있다.

즉, 상기 매칭부(123)는 상기 기존 프레임에서 식별된 기존 객체별로 기존 프레임에 대응되어 생성된 스켈레톤 정보를 기초로 신규 프레임에서 기존 객체의 이동에 따라 예측되는 목에 해당되는 키 포인트 및 객체의 스케일을 상기 신규 프레임에서 특정 객체에 대해 얻어진 목에 해당되는 키 포인트인 기준 포인트 및 특정 객체의 스케일과 비교하여, 상기 기존 프레임에서 식별된 하나 이상의 기존 객체 중 상기 특정 객체의 기준 포인트 및 스케일과 가장 근접한 예측 정보가 생성된 기존 객체를 상기 특정 객체와 일치하는 객체로 식별할 수 있다.

이때, 상기 매칭부(123)는 상기 가장 낮은 최종 점수가 미리 설정된 기준치(또는 제 1 기준치)를 초과하면 상기 가장 낮은 최종 점수에 대응되는 객체를 상기 특정 객체와 동일하지 않는 객체로 판단할 수 있으며, 상기 특정 객체와 동일한 객체가 상기 기존 프레임에서 검출되지 않은 것으로 판단할 수 있다.

또는, 상기 매칭부(123)는 상기 기존 프레임에서 식별된 객체 중 상기 위치 비교 점수가 미리 설정된 제 1 설정값보다 큰 경우(제 1 설정값을 초과하는 경우) 제 1 설정값보다 큰(제 1 설정값을 초과하는) 위치 비교 점수에 대응되는 객체는 상기 특정 객체와 동일하지 않은(일치하지 않는) 객체로 판단할 수 있다.

또는, 상기 매칭부(123)는 상기 스케일 비교 점수가 미리 설정된 제 2 설정값보다 큰 경우(제 2 설정값을 초과하는 경우) 상기 제 2 설정값보다 큰(제 2 설정값을 초과하는) 스케일 비교 점수에 대응되는 객체는 상기 특정 객체와 동일하지 않은(일치하지 않는) 객체로 판단할 수 있다.

한편, 상기 갱신부(124)는 상기 매칭부(123)와 연동하여 신규 프레임에서 식별된 특정 객체에 대응되어 상기 매칭부(123)를 통해 상기 기존 프레임에서 상기 특정 객체와 일치하는 관심 객체가 검출된 경우 상기 특정 객체에 대해 상기 스켈레톤 분석부(121)를 통해 생성된 상기 특정 객체의 추적 정보를 상기 저장부(130)로부터 추출할 수 있다.

또한, 상기 갱신부(124)는 상기 특정 객체와 일치하는 것으로 판단된 관심 객체가 검출되면, 상기 저장부(130)에 저장된 관심 객체에 대응되는 추적 정보를 상기 특정 객체에 대응되어 생성된 추적 정보를 기초로 업데이트(갱신)할 수 있다.

이때, 상기 매칭부(123)의 판단에 따라 상기 특정 객체와 상기 관심 객체가 상호 일치할 때, 상기 갱신부(124)는 상기 신규 프레임에서의 특정 객체에 대응되는 추적 정보에 포함된 고유 식별자를 상기 관심 객체에 대해 할당된 고유 식별자(관심 객체의 추적 정보에 포함된 고유 식별자)와 동일한 고유 식별자로 변환하여 일치시키고, 상기 특정 객체의 추적 정보를 기초로 상기 특정 객체의 추적 정보에 포함된 지면 접지 위치를 상기 관심 객체의 추적 정보에 추가하여 상기 특정 객체와 동일한 상기 관심 객체의 시간별 이동 위치에 대한 정보가 포함되도록 상기 관심 객체의 추적 정보를 업데이트(update)(또는 갱신)할 수 있다.

또한, 상기 갱신부(124)는 상기 특정 객체의 추적 정보를 기초로 상기 관심 객체의 추적 정보를 업데이트하는 경우 상기 특정 객체의 추적 정보는 상기 저장부(130)에 저장하지 않고 상기 저장부(130)에서 삭제할 수 있다.

또한, 상술한 구성에서 상기 매칭부(123)는 하나 이상의 기존 프레임에서 식별된 객체가 없어 기존 프레임에 대응되는 객체의 예측 정보가 존재하지 않거나 서로 다른 시간에 생성된 하나 이상의 서로 다른 기존 프레임에 대응되어 식별된 하나 이상의 객체 중 상기 신규 프레임에서 식별된 특정 객체와 일치하는 관심 객체가 존재하지 않는 경우 상기 특정 객체를 신규 객체로 판단하고, 상기 갱신부(124)는 상기 매칭부(123)와 연동하여 신규 객체로 판단된 상기 특정 객체의 추적 정보를 상기 특정 객체의 추적 정보에 할당된 고유 식별자를 유지한 상태로 상기 저장부(130)에 저장할 수 있다.

이때, 상기 매칭부(123)는 상기 특정 객체에 대응되는 신규 프레임을 기준으로 과거에 생성된 미리 설정된 개수의 기존 프레임만을 비교 대상으로 하여 상기 특정 객체와 기존 객체를 비교할 수 있으며, 상기 비교 대상인 하나 이상의 기존 프레임에서 상기 특정 객체와 일치하는 관심 객체가 존재하지 않으면 상기 특정 객체를 신규 객체로 판단할 수 있다.

상술한 구성에 따라, 도 5에 도시된 바와 같이, 상기 객체 추적 장치(100)의 제어부(120)는 기존 프레임에서 최초 식별된 관심 객체의 추적 정보를 상기 기존 프레임 이후에 수신되는 복수의 프레임에서 상기 관심 객체와 일치하는 객체가 검출될때마다 상기 복수의 프레임과 각각 대응되어 생성된 상기 검출된 객체별 추적 정보를 기초로 상기 관심 객체의 추적 정보를 상술한 바와 같이 업데이트할 수 있다.

이를 통해, 상기 제어부(120)는 복수의 프레임에서 검출되는 동일 객체를 정확하게 추적하고, 해당 동일 객체의 시간 경과에 따른 위치를 포함하는 추적 정보를 생성할 수 있다.

또한, 관심 객체에 대해 업데이트되는 추적 정보는 관심 객체의 고유 식별자, 관심 객체가 지면과 접지하는 현재 위치, 가장 최근에 업데이트된 시점까지 상기 관심 객체의 지면 접지 위치에 대한 내역(히스토리), 상기 가장 최근에 업데이트된 시점까지 추가된 하나 이상의 지면 접지 위치에 따른 이동 경로 등을 포함할 수 있다.

한편, 상기 이벤트 검출부(125)는 상기 저장부(130)에 저장된 객체별 추적 정보를 미리 설정된 이벤트 발생 조건과 비교하여 이벤트 발생 조건을 만족하는 추적 정보에 대응되는 특정 객체(또는 이벤트 발생 객체) 검출시 상기 특정 객체(이벤트 발생 객체)의 고유 식별자를 포함하는 이벤트 정보를 생성할 수 있다.

즉, 상기 이벤트 검출부(125)는 상기 업데이트된 상기 관심 객체에 대응되는 추적 정보가 미리 설정된 조건 만족시 이벤트를 발생시킬 수 있다.

또한, 상기 이벤트 검출부(125)는 상기 이벤트 정보 생성시 상기 통신부(110)를 통해 미리 설정된 외부 단말로 상기 이벤트 정보를 전송하거나 상기 통신부(110)에 연결된 출력 장치를 통해 상기 이벤트 정보를 출력할 수 있다.

상술한 구성을 통해, 본 발명의 실시예에 따른 객체 추적 장치(100)는 영상을 구성하는 프레임 수신시마다 프레임에서 식별된 특정 객체에 대해 관절 및 스케일 분석을 통한 스켈레톤 정보와 객체 추적을 위한 추적 정보를 생성하면서 상기 객체의 스켈레톤 정보를 기초로 다음 프레임에서 상기 특정 객체의 목에 해당하는 키 포인트에 대해 예상되는 이동 위치 및 객체의 스케일 변화를 칼만 필터를 통해 예측한 예측 정보를 생성하고, 상기 다음 프레임에서 상기 기존 프레임에서 상기 특정 객체에 대해 생성된 예측 정보와 가장 근접한 스켈레톤 정보가 생성된 객체를 상기 특정 객체와 동일한 동일 객체로 식별하면서 상기 동일 객체의 추적 정보를 상기 특정 객체의 추적 정보로 업데이트하여 동일 객체를 정확하게 추적할 수 있으며, 이를 통해 기존과 같이 시각적 특성에 의존한 객체 추적 방식일 때 영상에서 다수의 객체가 군집하여 분산되어 객체 추적이 어려운 경우에도 동일 객체를 단절 없이 연속적으로 정확하게 추적할 수 있어 객체 추적에 대한 신뢰성을 높일 수 있다.

즉, 본 발명은 영상을 구성하는 특정 프레임에서 식별된 특정 객체에 대응되어 특정 객체의 목에 해당하는 키 포인트에 대해 상기 특정 프레임의 다음 프레임에서 예측되는 예상 위치 및 상기 특정 객체의 목에 해당하는 키 포인트를 기준으로 상기 특정 객체의 다른 관절별 키 포인트의 분포 패턴에 대한 스케일에 대해 상기 다음 프레임에서 예측되는 스케일 변화에 대한 예상 스케일을 포함하는 예측 정보를 생성한 후 상기 다음 프레임에서 예측 정보와 가장 근접한 스켈레톤 정보가 생성된 객체를 상기 특정 객체와 동일한 객체로서 검출함으로써, 기존과 같이 개별 픽셀이 가진 정보를 기반으로 하는 시각적 특성에 의존하여 객체를 추적할 때 유사한 시각적 특성을 가진 객체가 특정 프레임에서 복수로 존재하여 어느 객체가 기존 프레임에서 식별된 객체인지 구별하기 어려운 경우에도 서로 다른 프레임에서 객체의 관절 변화를 예측하여 동일 객체를 식별하는 방식으로 서로 다른 프레임에서 동일 객체를 정확하게 추적할 수 있어 객체 추적에 대한 신뢰도를 높일 수 있다.

한편, 상술한 구성에서, 도 5에 도시된 바와 같이 상기 스켈레톤 분석부(121)는 상기 프레임에서 식별된 객체에 바운딩 박스(bounding box)를 설정하여 생성된 상기 바운딩 박스에 대한 정보를 상기 식별된 객체에 대응되는 추적 정보에 포함시킬 수 있다.

또한, 상기 갱신부(124)는 신규 프레임에서 식별된 특정 객체의 추적 정보에 포함된 바운딩 박스에 대한 정보를 상기 관심 객체의 추적 정보에 추가하여 상기 관심 객체의 시간별 바운딩 박스의 위치 변화에 대한 정보가 포함되도록 상기 관심 객체의 추적 정보를 업데이트할 수 있다.

한편, 상기 스켈레톤 분석부(121)는 신규 객체로 판단된 객체의 상기 추적 정보에 상기 예측 정보에 대한 신뢰도 값인 예측 신뢰도에 대한 초기값을 설정할 수 있다.

또한, 상기 매칭부(123)는 상기 기존 프레임에서 식별된 객체 중 신규 프레임에서 식별된 객체별로 스켈레톤 정보와 상기 객체별 예측 정보 사이의 비교에 따라 상기 신규 프레임에서 식별된 하나 이상의 객체 모두와 일치하지 않는 객체의 추적 정보에 포함된 예측 신뢰도에 미리 설정된 점수를 감산할 수 있다.

또한, 상기 매칭부(123)는 상기 신규 프레임에서 식별된 하나 이상의 객체 중 어느 하나와 일치하는 것으로 판단된 기존 프레임에 대응되는 객체의 추적 정보에 포함된 예측 신뢰도에 미리 설정된 점수를 가산할 수 있다.

또한, 갱신부(124)는 상기 매칭부(123)의 판단 결과를 기초로 상기 기존 프레임에서 식별된 객체 중 상기 신규 프레임에서 식별된 하나 이상의 객체 모두와 일치하지 않는 객체의 추적 정보를 해당 객체의 예측 정보를 기초로 갱신할 수 있다.

이때, 상기 갱신부(124)는 예측 정보를 기초로 추적 정보 갱신시 추적 정보의 갱신에 이용되는 예측 정보는 추적 정보에 대응되는 신규 프레임의 직전에 생성된 이전 프레임에 대응되는 예측 정보일 수 있다.

또한, 상기 갱신부(124)는 상기 저장부(130)에 저장된 객체별 추적 정보를 확인하여 기존 객체에 대해 최초 추적 정보가 생성된 이후 수신되는 미리 설정된 개수의 후속 프레임 중 적어도 일부 또는 모두에서 상기 기존 객체와 동일한 객체가 검출되지 않아 상기 기존 객체의 예측 신뢰도가 미리 설정된 기준 신뢰도 이하가 되면, 상기 기존 객체의 추적 정보를 상기 저장부(130)에서 삭제할 수 있다.

상술한 바와 같이, 본 발명은 특정 프레임에서 특정 객체에 대해 스켈레톤 정보 및 추적 정보가 생성된 이후 상기 특정 프레임 이후의 미리 설정된 프레임들 각각에 대해 예측한 상기 특정 객체의 잠재적 이동 위치로 상기 특정 객체가 실제로 이동하지 않아 상기 특정 객체와 동일한 객체가 지속적으로 검출되지 않으면, 상기 특정 객체의 추적에 대한 신뢰도를 지속적으로 감소시켜 추적 정확도가 낮은 객체를 배제할 수 있으며, 이를 통해 객체 추적에 대한 신뢰도를 높일 수 있다.

한편, 상술한 구성 이외에도, 본 발명의 실시예에 따른 객체 추적 장치(100)는 객체의 목에 대응되는 키 포인트 및 스케일을 이용한 비교를 통해 동일 객체로 판단된 신규 프레임의 객체와 기존 프레임의 객체 사이의 동일 객체 여부에 대한 정확도를 더욱 높이기 위해 시각적 비교를 수행할 수 있는데, 이를 상세히 설명한다.

상기 매칭부(123)는 상기 기존 프레임에서 상기 신규 프레임에서 식별된 상기 특정 객체와 일치하는 상기 관심 객체가 복수로 존재하면 상기 특정 객체에 대응되는 스켈레톤 정보를 기준으로 상기 특정 객체의 경계 영역을 식별하여 상기 특정 객체에 대한 마스크(mask) 영역을 설정할 수 있다.

이때, 상기 매칭부(123)는 상기 마스크 영역을 도 5에 도시된 바와 같이 설정할 수 있다.

또한, 상기 매칭부(123)는 상기 기존 프레임에서 상기 신규 프레임의 특정 객체와 일치하는 것으로 식별된 상기 복수의 관심 객체 각각에 대해서도 상기 특정 객체에 대한 마스크 영역의 설정 방식과 동일하게 마스크 영역을 설정할 수 있다.

또한, 상기 매칭부(123)는 상기 신규 프레임에서 식별된 특정 객체의 마스크 영역에 포함된 복수의 픽셀을 대상으로 SMOG(Spatial Mixture of Gaussians) 기반의 가우시안 모델링을 통해 산출된 복수의 가우시안 분포 중 미리 설정된 대역에 속하는 픽셀의 비율에 대한 가우시안 점수를 산출할 수 있다.

또한, 상기 매칭부(123)는 상기 복수의 관심 객체별 마스크 영역에 대해서 상기 특정 객체의 마스크 영역에 대해 상기 가우시안 점수를 산출하는 방식과 동일하게 가우시안 점수를 산출한 후 상기 특정 객체에 대응되는 가우시안 점수와 비교할 수 있다.

또한, 상기 매칭부(123)는 상기 복수의 관심 객체 중 상기 특정 객체와 상기 가우시안 점수의 차이가 가장 작은 객체를 상기 특정 객체와 일치하는 관심 객체로 선택할 수 있다.

이때, 상기 가우시안 점수는 하기 수학식 4를 통해 산출될 수 있다.

상기 SMOGscore는 가우시안 점수이고, 상기 pixel_match는 상기 마스크 영역을 구성하는 복수의 픽셀 중 상기 미리 설정된 복수의 대역에 포함되는 픽셀의 비율일 수 있다.

상술한 구성에서, 도 6에 도시된 바와 같이, 상기 매칭부(123)는 상기 마스크 영역에 포함된 복수의 픽셀을 상기 SMOG 기반으로 샘플링하여 8개의 가우스 분포를 생성할 수 있다. 각 가우스 분포는 하기 4개의 값에 대한 평균과 분산(mean and variance)을 샘플링하여 생성된다.

1. R (Normalized Redness)

2. G (Normalized Greeness)

3. I (Intensity)

4. Y (Relative Normalized Y-Coordinate)

이때, 상기 Y 값은 공간 구성 요소를 나타낸다. 초기화시(특정 객체에 대해 스켈레톤 정보가 최초 생성된 첫 번째 프레임), SMOG는 마스크 영역을 수직으로 8 개 밴드로 분할하여 초기화된다.

또한, 상기 매칭부(123)는 상기 SMOG를 통해 상기 8개 밴드 각각에 대해 각 밴드에 포함된 모든 픽셀을 대상으로 RGIY(상기 4개의 값)에 대한 평균과 분산을 계산한다.

또한, 상기 매칭부(123)는 하기 수학식 5와 같이 상기 신규 프레임의 특정 객체에 대해 상기 기존 프레임에서 식별된 기존 객체별로 상기 특정 객체와의 상술한 바와 같은 비교에 따른 상기 위치 비교 점수와 상기 스케일 비교 점수 및 상기 가우시안 점수를 합산한 합산 점수를 산출하고, 상기 합산 점수가 미리 설정된 기준치(또는 제 2 기준치) 이하이면서 상기 합산 점수가 가장 낮은 기존 객체를 상기 특정 객체와 동일한 객체로서 판단하여 검출할 수 있다.

이때, 상기 score는 합산 점수이며, 상기 Pscore_w는 위치 비교 점수, 상기 Sscore_w는 스케일 비교 점수, 상기 SMOGscore_w는 가우시안 점수이다.

상술한 바와 같이, 본 발명은 스켈레톤 정보를 기초로 이전 프레임과 현재 프레임에서 동일 객체로 판단된 객체의 시각적 특징을 추가 비교하여 동일 객체 판단에 대한 결과를 검증함으로써, 동일 객체 판단에 대한 정확도 및 신뢰도를 더욱 높일 수 있다.

도 7은 본 발명의 실시예에 따른 객체 추적 장치(100)의 객체 추적 방법에 대한 순서도이다.

도시된 바와 같이, 객체 추적 장치(100)는 영상에 대한 프레임을 수신하고(S1), 상기 프레임을 사람에 해당하는 객체의 관절 인식에 따른 스켈레톤 정보를 생성하도록 학습된 학습 모델에 적용하여 상기 영상에서 식별된 객체에 대해 인식된 관절별 키 포인트 및 객체의 스케일(scale)을 포함하는 스켈레톤 정보를 생성하고(S2), 상기 식별된 객체에 대응되어 고유 식별자를 할당하여 상기 고유 식별자 및 상기 식별된 객체의 지면 상 접지 위치인 지면 접지 위치를 포함하는 추적 정보를 상기 식별된 객체에 대응되어 생성하는 스켈레톤 분석 단계를 수행할 수 있다(S3).

또한, 상기 객체 추적 장치(100)는 상기 스켈레톤 분석 단계를 통해 상기 프레임에서 식별된 객체별로 생성된 상기 스켈레톤 정보를 칼만필터에 적용하여 상기 프레임의 다음 프레임에서 목에 해당하는 키 포인트인 기준 포인트 및 객체의 스케일에 대해 예측된 정보인 예측 정보를 상기 객체별로 생성하는 예측 단계를 수행할 수 있다(S4).

또한, 상기 객체 추적 장치(100)는 신규 프레임에 대해 상기 스켈레톤 분석 단계를 수행하여 생성된 특정 객체의 스켈레톤 정보를 기존 프레임에 대해 상기 예측 단계를 통해 생성된 객체별 예측 정보와 상기 기준 포인트 및 스케일을 기초로 비교하여 상기 기존 프레임에 대응되는 하나 이상의 객체 중 상기 특정 객체와 일치하는 관심 객체가 존재하는지 판단하는 매칭 단계를 수행할 수 있다(S5, S6).

또한, 상기 객체 추적 장치(100)는 상기 매칭 단계를 통해 상기 특정 객체와 일치하는 관심 객체가 존재하면(S7) 상기 특정 객체에 대해 상기 스켈레톤 분석 단계를 통해 생성된 상기 추적 정보를 기초로 상기 관심 객체에 대응되는 추적 정보를 업데이트하는 업데이트 단계를 수행할 수 있다(S8).

본 명세서에 기술된 다양한 장치 및 구성부는 하드웨어 회로(예를 들어, CMOS 기반 로직 회로), 펌웨어, 소프트웨어 또는 이들의 조합에 의해 구현될 수 있다. 예를 들어, 다양한 전기적 구조의 형태로 트랜지스터, 로직게이트 및 전자회로를 활용하여 구현될 수 있다.

전술된 내용은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

객체 추적 장치가 영상에 대한 프레임을 수신하고, 상기 프레임을 사람에 해당하는 객체의 관절 인식에 따른 스켈레톤 정보를 생성하도록 학습된 학습 모델에 적용하여 상기 영상에서 식별된 객체에 대해 인식된 관절별 키 포인트 및 객체의 스케일(scale)을 포함하는 스켈레톤 정보를 생성하고, 상기 식별된 객체에 대응되어 고유 식별자를 할당하여 상기 고유 식별자 및 상기 식별된 객체의 지면 상 접지 위치인 지면 접지 위치를 포함하는 추적 정보를 상기 식별된 객체에 대응되어 생성하는 스켈레톤 분석 단계;

상기 객체 추적 장치가 상기 스켈레톤 분석 단계를 통해 상기 프레임에서 식별된 객체별로 생성된 상기 스켈레톤 정보를 칼만필터에 적용하여 상기 프레임의 다음 프레임에서 목에 해당하는 키 포인트인 기준 포인트 및 객체의 스케일에 대해 예측된 정보인 예측 정보를 상기 객체별로 생성하는 예측 단계;

상기 객체 추적 장치가 신규 프레임에 대해 상기 스켈레톤 분석 단계를 수행하여 생성된 특정 객체의 스켈레톤 정보를 기존 프레임에 대해 상기 예측 단계를 통해 생성된 객체별 예측 정보와 상기 기준 포인트 및 스케일을 기초로 비교하여 상기 기존 프레임에 대응되는 하나 이상의 객체 중 상기 특정 객체와 일치하는 관심 객체가 존재하는지 판단하는 매칭 단계; 및

상기 객체 추적 장치가 상기 매칭 단계를 통해 상기 특정 객체와 일치하는 상기 관심 객체가 존재하면 상기 특정 객체에 대해 상기 스켈레톤 분석 단계를 통해 생성된 상기 추적 정보를 기초로 상기 관심 객체에 대응되는 추적 정보를 업데이트하는 업데이트 단계

를 포함하는 스켈레톤 분석을 이용한 객체 추적 방법.
청구항 1에 있어서,

상기 업데이트 단계는

상기 객체 추적 장치가 상기 특정 객체와 상기 관심 객체가 상호 일치할 때 상기 신규 프레임에서의 특정 객체에 대응되는 추적 정보에 포함된 고유 식별자를 상기 관심 객체에 할당된 고유 식별자와 동일한 고유 식별자로 변환하여 일치시키고, 상기 특정 객체의 추적 정보를 기초로 상기 특정 객체의 지면 접지 위치를 상기 관심 객체의 추적 정보에 추가하여 상기 특정 객체와 동일한 상기 관심 객체의 시간별 이동 위치에 대한 정보가 포함되도록 상기 관심 객체의 추적 정보를 업데이트하는 것을 특징으로 하는 스켈레톤 분석을 이용한 객체 추적 방법.
청구항 2에 있어서,

상기 스켈레톤 분석 단계는

상기 객체 추적 장치가 상기 식별된 객체에 바운딩 박스를 설정하여 생성된 상기 바운딩 박스에 대한 정보를 상기 추적 정보에 포함시키는 단계를 더 포함하며,

상기 업데이트 단계는

상기 객체 추적 장치가 상기 특정 객체의 추적 정보에 포함된 바운딩 박스에 대한 정보를 상기 관심 객체의 추적 정보에 추가하여 상기 관심 객체의 시간별 바운딩 박스의 위치 변화에 대한 정보가 포함되도록 상기 관심 객체의 추적 정보를 업데이트하는 단계를 더 포함하는 것을 특징으로 하는 스켈레톤 분석을 이용한 객체 추적 방법.
청구항 1에 있어서,

상기 매칭 단계는,

상기 객체 추적 장치가 상기 신규 프레임에 대해 생성된 특정 객체의 스켈레톤 정보에 포함된 기준 포인트와 기존 프레임에 대해 생성된 객체별 예측 정보에 포함된 기준 포인트를 미리 설정된 제 1 수학식에 따라 객체별로 비교하여 객체별 위치 점수를 산출하고, 상기 특정 객체의 스켈레톤 정보에 포함된 스케일과 상기 객체별 예측 정보에 포함된 스케일을 미리 설정된 제 2 수학식에 따라 객체별로 비교하여 객체별 스케일 점수를 산출한 후 상기 위치 점수 및 스케일 점수를 객체별로 합산한 최종 점수를 산출하여, 상기 기존 프레임에서 식별된 객체 중 상기 최종 점수가 가장 낮으면서 미리 설정된 기준치 이하인 객체를 상기 관심 객체로 식별하는 단계를 더 포함하는 것을 특징으로 하는 스켈레톤 분석을 이용한 객체 추적 방법.
청구항 4에 있어서,

상기 제 1 수학식은

이며, 상기 Pscore는 상기 위치 점수이고, 상기 특정 객체의 스켈레톤 정보에 포함된 기준 포인트의 좌표와 상기 기존 프레임에 대해 생성된 객체의 예측 정보에 포함되는 기준 포인트의 좌표가 상기 맨하탄 거리(Manhattan distance)에 적용되는 것을 특징으로 하는 스켈레톤 분석을 이용한 객체 추적 방법.
청구항 4에 있어서,

상기 제 2 수학식은,

이며, 상기 Sscore는 상기 스케일 점수이며, 상기 minScale은 상기 특정 객체의 스켈레톤 정보에 포함된 스케일과 상기 기존 프레임에 대해 생성된 객체의 예측 정보에 포함된 스케일 중 더 작은 값이고, 상기 maxScale은 상기 특정 객체의 스켈레톤 정보에 포함된 스케일과 상기 기존 프레임에 대해 생성된 객체의 예측 정보에 포함된 스케일 중 더 큰 값인 것을 특징으로 하는 스켈레톤 분석을 이용한 객체 추적 방법.
청구항 1에 있어서,

상기 스켈레톤 정보에 포함된 스케일은

을 통해 산출되며,

상기 r_limb는 상기 기준 포인트를 기준으로 팔꿈치에 대응되는 제 1 키 포인트와, 엉덩이에 대응되는 제 2 키 포인트와, 무릎에 대응되는 제 3 키 포인트 및 발목에 대응되는 제 4 키 포인트를 포함하는 관절별 키 포인트 각각에 대해 픽셀을 기초로 산출된 반경이며, 상기 C_limb는 상기 학습 모델에 의해 산출되어 상기 스켈레톤 정보에 포함된 상기 기준 포인트를 제외한 관절별 키 포인트 각각에 대한 신뢰도이며, 상기 R_limb는 상기 기준 포인트를 제외한 관절별 키 포인트 각각에 대해 미리 설정된 가중치인 것을 특징으로 하는 스켈레톤 분석을 이용한 객체 추적 방법.
청구항 1에 있어서,

상기 업데이트 단계 이후,

상기 업데이트된 상기 관심 객체에 대응되는 추적 정보가 미리 설정된 조건 만족시 이벤트를 발생시키는 이벤트 감지 단계

를 더 포함하는 것을 특징으로 하는 스켈레톤 분석을 이용한 객체 추적 방법.
청구항 1에 있어서,

상기 매칭 단계는,

상기 객체 추적 장치가 상기 특정 객체와 일치하는 상기 관심 객체가 복수로 존재하면 상기 특정 객체에 대응되는 스켈레톤 정보를 기준으로 상기 특정 객체의 경계 영역을 식별하여 상기 특정 객체에 대한 마스크 영역을 설정하고, 상기 기존 프레임에서 상기 특정 객체와 일치하는 것으로 식별된 상기 복수의 관심 객체 각각에 대해서도 상기 특정 객체에 대한 마스크 영역의 설정 방식과 동일하게 마스크 영역을 설정하며, 상기 특정 객체의 마스크 영역에 포함된 복수의 픽셀을 대상으로 SMOG 기반의 가우시안 모델링을 통해 산출된 복수의 가우시안 분포 중 미리 설정된 대역에 속하는 픽셀의 비율에 대한 가우시안 점수를 산출하고, 상기 복수의 관심 객체별 마스크 영역에 대해서 상기 특정 객체의 마스크 영역에 대해 상기 가우시안 점수를 산출하는 방식과 동일하게 가우시안 점수를 산출한 후 상기 특정 객체에 대응되는 가우시안 점수와 비교하며, 상기 복수의 관심 객체 중 상기 특정 객체와의 상기 가우시안 점수의 차이가 가장 작은 객체를 상기 특정 객체와 일치하는 관심 객체로 선정하는 시각 비교 단계를 더 포함하는 것을 특징으로 하는 스켈레톤 분석을 이용한 객체 추적 방법.
영상에 대한 프레임을 수신하고, 상기 프레임을 사람에 해당하는 객체의 관절 인식에 따른 스켈레톤 정보를 생성하도록 학습된 학습 모델에 적용하여 상기 영상에서 식별된 객체에 대해 인식된 관절별 키 포인트 및 객체의 스케일(scale)을 포함하는 스켈레톤 정보를 생성하고, 상기 식별된 객체에 대응되어 고유 식별자를 할당하여 상기 고유 식별자 및 상기 식별된 객체의 지면 상 접지 위치인 지면 접지 위치를 포함하는 추적 정보를 상기 식별된 객체에 대응되어 생성하는 스켈레톤 분석부;

상기 스켈레톤 분석부를 통해 상기 프레임에서 식별된 객체별로 생성된 상기 스켈레톤 정보를 칼만필터에 적용하여 상기 프레임의 다음 프레임에서 목에 해당하는 키 포인트인 기준 포인트 및 객체의 스케일에 대해 예측된 정보인 예측 정보를 상기 객체별로 생성하는 예측부;

신규 프레임에 대해 상기 스켈레톤 분석부를 통해 생성된 특정 객체의 스켈레톤 정보를 기존 프레임에 대해 상기 예측부를 통해 생성된 객체별 예측 정보와 상기 기준 포인트 및 스케일을 기초로 비교하여 상기 기존 프레임에 대응되는 하나 이상의 객체 중 상기 특정 객체와 일치하는 관심 객체가 존재하는지 판단하는 매칭부; 및

상기 매칭부를 통해 상기 특정 객체와 일치하는 관심 객체가 존재하면 상기 특정 객체에 대해 상기 스켈레톤 분석부를 통해 생성된 상기 추적 정보를 기초로 상기 관심 객체에 대응되는 추적 정보를 업데이트하는 갱신부

를 포함하는 스켈레톤 분석을 이용한 객체 추적 장치.