KR102429379B1

KR102429379B1 - 배경 분류 방법, 배경 분류 장치, 및 이를 포함하는 몰입형 오디오-비디오 데이터 생성 방법 및 장치

Info

Publication number: KR102429379B1
Application number: KR1020200065470A
Authority: KR
Inventors: 백중환; 박성준; 황승준; 김규민
Original assignee: 한국항공대학교산학협력단
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2022-08-03
Also published as: KR20210147759A

Abstract

배경 분류 장치는 깊이 추정부 및 배경 분류기를 포함한다. 깊이 추정부는 외부로부터 수신되는 이미지에 대해 깊이 정보를 추정하여 각 픽셀의 깊이 정보를 포함하는 깊이 이미지를 생성한다. 배경 분류기는 제1 내지 제m 배경 타입들 중의 하나에 상응하는 배경을 갖는 복수의 배경 학습 이미지들 및 복수의 배경 학습 이미지들에 대해 깊이 추정부로부터 생성되는 복수의 깊이 이미지들을 사용하여 복수의 배경 학습 이미지들 각각의 배경 타입을 제1 내지 제m 배경 타입들 중의 하나로 분류하는 학습을 수행하여 배경 추정 모델을 생성한다. 배경 분류기는 외부로부터 수신되는 입력 이미지, 입력 이미지에 대해 깊이 추정부로부터 생성되는 깊이 이미지, 및 배경 추정 모델에 기초하여 입력 이미지의 배경 타입을 제1 내지 제m 배경 타입들 중의 하나로 분류한다.

Description

배경 분류 방법, 배경 분류 장치, 및 이를 포함하는 몰입형 오디오-비디오 데이터 생성 방법 및 장치{APPARATUS AND METHOD FOR CLASSIFYING BACKGROUND, AND APPARATUS AND METHOD FOR GENERATING IMMERSIVE AUDIO-VIDEO DATA}

본 발명은 오디오 및 비디오 처리 기술에 관한 것으로, 보다 상세하게는 영상 데이터에 포함되는 배경의 타입을 분류하는 방법 및 장치와 분류된 배경의 타입에 따른 음향 효과를 영상 데이터에 포함되는 객체의 움직임과 연관시켜 몰입형(immersive) 오디오-비디오 데이터를 생성하는 방법 및 장치에 관한 것이다.

최근 오디오 및 비디오 처리에 관한 기술이 발전함에 따라 사용자에게 보다 현장감 있는 영상 데이터를 제공하기 위한 연구가 활발히 진행되고 있다.

이를 위해, 영상 데이터에 포함되는 객체의 움직임을 추적한 후, 상기 객체의 움직임에 따라 상기 객체에 해당하는 오디오의 송출 방향을 조절하는 기술이 알려져 있다.

그러나 고음질의 녹음 기술 및 고성능 음향 기기가 개발됨에 따라 단순히 객체의 이동에 따라 오디오의 송출 방향을 조절하는 것만으로는 현장감 있는 영상 데이터에 대한 소비자의 욕구를 충족하기에 부족하다는 문제점이 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 일 목적은 영상 데이터에 포함되는 배경을 분석하여 배경의 타입을 정확하게 분류할 수 있는 배경 분류 장치를 제공하는 것이다.

본 발명의 다른 목적은 상기 배경 분류 장치를 포함하는 몰입형(immersive) 오디오-비디오 데이터 생성 장치를 제공하는 것이다.

본 발명의 다른 목적은 영상 데이터에 포함되는 배경을 분석하여 배경의 타입을 정확하게 분류할 수 있는 배경 분류 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 배경 분류 방법을 사용하는 몰입형 오디오-비디오 데이터 생성 방법을 제공하는 것이다.

상술한 본 발명의 일 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 배경 분류 장치는 깊이 추정부 및 배경 분류기를 포함한다. 상기 깊이 추정부는 외부로부터 수신되는 이미지에 대해 깊이 정보를 추정하여 각 픽셀의 깊이 정보를 포함하는 깊이 이미지를 생성한다. 상기 배경 분류기는 제1 내지 제m(m은 2 이상의 정수) 배경 타입들 중의 하나에 상응하는 배경을 갖는 복수의 배경 학습 이미지들 및 상기 복수의 배경 학습 이미지들에 대해 상기 깊이 추정부로부터 생성되는 복수의 깊이 이미지들을 사용하여 상기 복수의 배경 학습 이미지들 각각의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류하는 학습을 수행하여 배경 추정 모델을 생성한다. 상기 배경 분류기는 외부로부터 수신되는 입력 이미지, 상기 입력 이미지에 대해 상기 깊이 추정부로부터 생성되는 깊이 이미지, 및 상기 배경 추정 모델에 기초하여 상기 입력 이미지의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류한다.

상술한 본 발명의 일 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 몰입형 오디오-비디오 데이터 생성 장치는 객체 추적 장치, 깊이 추정부, 배경 분류기, 3차원 좌표 변환부, 및 오디오 믹서를 포함한다. 상기 객체 추적 장치는 입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 2차원 좌표를 출력한다. 상기 깊이 추정부는 외부로부터 수신되는 이미지에 대해 깊이 정보를 추정하여 각 픽셀의 깊이 정보를 포함하는 깊이 이미지를 생성한다. 상기 배경 분류기는 제1 내지 제m 배경 타입들 중의 하나에 상응하는 배경을 갖는 복수의 배경 학습 이미지들 및 상기 복수의 배경 학습 이미지들에 대해 상기 깊이 추정부로부터 생성되는 복수의 깊이 이미지들을 사용하여 상기 복수의 배경 학습 이미지들 각각의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류하는 학습을 수행하여 배경 추정 모델을 생성하고, 상기 복수의 입력 프레임들, 상기 복수의 입력 프레임들에 대해 상기 깊이 추정부로부터 생성되는 복수의 깊이 이미지들, 및 상기 배경 추정 모델에 기초하여 상기 복수의 입력 프레임들 각각의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류한다. 상기 3차원 좌표 변환부는 상기 객체 추적 장치로부터 수신되는 상기 복수의 입력 프레임들 각각에 대한 상기 2차원 좌표 및 상기 깊이 추정부로부터 수신되는 상기 복수의 입력 프레임들 각각에 대한 상기 깊이 이미지에 기초하여 상기 복수의 입력 프레임들 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표를 생성한다. 상기 오디오 믹서는 상기 배경 분류기로부터 수신되는 상기 복수의 입력 프레임들 각각의 배경 타입에 기초하여 상기 복수의 입력 프레임들 각각의 잔향 시간(reverberation time)을 결정하고, 상기 잔향 시간을 사용하여 상기 목표 객체에 상응하는 오디오 데이터를 편집하고, 상기 편집된 오디오 데이터를 상기 복수의 입력 프레임들 각각의 상기 3차원 좌표와 연결하여 몰입형(immersive) 오디오-비디오 데이터를 생성한다.

상술한 본 발명의 일 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 배경 분류 방법에서, 복수의 깊이 학습 이미지들 각각에 대해 깊이 정보를 추정하여 깊이 이미지를 생성하는 학습을 수행하여 깊이 추정 모델을 생성하고, 상기 깊이 추정 모델을 사용하여 제1 내지 제m 배경 타입들 중의 하나에 상응하는 배경을 갖는 복수의 배경 학습 이미지들에 대한 복수의 깊이 이미지들을 생성하고, 상기 복수의 배경 학습 이미지들 및 상기 복수의 배경 학습 이미지들에 대한 상기 복수의 깊이 이미지들을 사용하여 상기 복수의 배경 학습 이미지들 각각의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류하는 학습을 수행하여 배경 추정 모델을 생성하고, 상기 깊이 추정 모델을 사용하여 외부로부터 수신되는 입력 이미지에 대한 깊이 이미지를 생성하고, 상기 입력 이미지, 상기 입력 이미지에 대한 상기 깊이 이미지, 및 상기 배경 추정 모델에 기초하여 상기 입력 이미지의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류한다.

상술한 본 발명의 일 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 몰입형 오디오-비디오 데이터 생성 방법에서, 입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 2차원 좌표를 출력하고, 복수의 깊이 학습 이미지들 각각에 대해 깊이 정보를 추정하여 깊이 이미지를 생성하는 학습을 수행하여 깊이 추정 모델을 생성하고, 상기 깊이 추정 모델을 사용하여 제1 내지 제m 배경 타입들 중의 하나에 상응하는 배경을 갖는 복수의 배경 학습 이미지들에 대한 복수의 깊이 이미지들을 생성하고, 상기 복수의 배경 학습 이미지들 및 상기 복수의 배경 학습 이미지들에 대한 상기 복수의 깊이 이미지들을 사용하여 상기 복수의 배경 학습 이미지들 각각의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류하는 학습을 수행하여 배경 추정 모델을 생성하고, 상기 깊이 추정 모델을 사용하여 상기 복수의 입력 프레임들에 대한 복수의 깊이 이미지들을 생성하고, 상기 복수의 입력 프레임들, 상기 복수의 입력 프레임들에 대한 상기 복수의 깊이 이미지들, 및 상기 배경 추정 모델에 기초하여 상기 복수의 입력 프레임들 각각의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류하고, 상기 복수의 입력 프레임들 각각에 대한 상기 2차원 좌표 및 상기 복수의 입력 프레임들 각각에 대한 상기 깊이 이미지에 기초하여 상기 복수의 입력 프레임들 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표를 생성하고, 상기 복수의 입력 프레임들 각각의 배경 타입에 기초하여 상기 복수의 입력 프레임들 각각의 잔향 시간을 결정하고, 상기 잔향 시간을 사용하여 상기 목표 객체에 상응하는 오디오 데이터를 편집하고, 상기 편집된 오디오 데이터를 상기 복수의 입력 프레임들 각각의 상기 3차원 좌표와 연결하여 몰입형(immersive) 오디오-비디오 데이터를 생성한다.

본 발명의 실시예들에 따른 배경 분류 장치 및 배경 분류 방법은 원본 이미지에 대해 배경 타입을 추정하는 제1 컨볼루션 신경망 및 상기 원본 이미지에 대한 깊이 이미지에 대해 배경 타입을 추정하는 제2 컨볼루션 신경망을 사용하여 상기 원본 이미지의 배경 타입을 분류하므로, 이미지의 배경 타입을 정확하게 분류할 수 있다.

본 발명의 실시예들에 따른 몰입형 오디오-비디오 데이터 생성 장치 및 방법은 각 프레임 별로 추정되는 배경 타입에 기초하여 상이한 잔향 효과를 제공함으로써 관객들의 영상에 대한 몰입도를 효과적으로 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 배경 분류 장치를 나타내는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 배경 분류 방법을 나타내는 순서도이다.
도 3은 도 1의 배경 분류 장치에 포함되는 깊이 추정부로부터 생성되는 깊이 이미지의 예들을 나타내는 도면이다.
도 4는 도 1의 배경 분류 장치에 포함되는 배경 분류기의 일 예를 나타내는 블록도이다.
도 5는 도 2의 배경 추정 모델을 생성하는 단계의 일 예를 나타내는 순서도이다.
도 6은 본 발명의 일 실시예에 따른 몰입형(immersive) 오디오-비디오 데이터 생성 장치를 나타내는 블록도이다.
도 7은 본 발명의 일 실시예에 따른 몰입형 오디오-비디오 데이터 생성 방법을 나타내는 순서도이다.
도 8은 도 6의 몰입형 오디오-비디오 데이터 생성 장치에 포함되는 객체 추적 장치의 일 예를 나타내는 블록도이다.
도 9는 도 7의 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 2차원 좌표를 출력하는 단계의 일 예를 나타내는 순서도이다.
도 10 내지 13은 도 9의 n번째 입력 프레임의 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 단계의 예들을 나타내는 순서도들이다.

본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 배경 분류 장치를 나타내는 블록도이다.

도 2는 본 발명의 일 실시예에 따른 배경 분류 방법을 나타내는 순서도이다.

도 2에 도시된 배경 분류 방법은 도 1의 배경 분류 장치(10)를 통해 수행될 수 있다.

이하, 도 1 및 2를 참조하여 배경 분류 장치(10)의 구성 및 동작과 배경 분류 장치(10)에 의해 수행되는 배경 분류 방법에 대해 상세히 설명한다.

도 1을 참조하면, 배경 분류 장치(10)는 깊이 추정부(100) 및 배경 분류기를 포함한다.

깊이 추정부(100)는 외부로부터 이미지를 수신하는 경우, 상기 이미지에 대해 깊이 정보를 추정하여 각 픽셀의 깊이 정보를 포함하는 깊이 이미지를 생성한다.

일 실시예에 있어서, 깊이 추정부(100)는 복수의 깊이 학습 이미지들(DT_IMGs) 각각에 대해 깊이 정보를 추정하여 깊이 이미지(D_IMG)를 생성하는 학습을 수행하여 깊이 추정 모델을 생성할 수 있다(단계 S200).

예를 들어, 깊이 추정부(100)는 비지도 학습(unsupervised learning) 기반의 깊이 추정 알고리즘을 사용하여 복수의 깊이 학습 이미지들(DT_IMGs) 각각에 대한 깊이 이미지(D_IMG)를 생성하는 상기 깊이 추정 모델을 생성할 수 있다.

다양한 형태의 비지도 학습 기반의 깊이 추정 알고리즘이 널리 알려져 있으며, 본 발명에 따른 배경 분류 장치(10)에 포함되는 깊이 추정부(100)는 다양한 형태의 비지도 학습 기반의 깊이 추정 알고리즘을 사용하여 구현될 수 있다. 비지도 학습 기반의 깊이 추정 알고리즘은 널리 알려져 있으므로, 깊이 추정부(100)의 세부 동작에 대한 상세한 설명은 생략한다.

깊이 추정부(100)가 상기 깊이 추정 모델을 생성한 이후, 깊이 추정부(100) 및 배경 분류기(200)는 복수의 배경 학습 이미지들(BT_IMGs)을 수신할 수 있다.

이 때, 복수의 배경 학습 이미지들(BT_IMGs) 각각은 미리 정해진 제1 내지 제m(m은 2 이상의 정수) 배경 타입들(BT1~BTm) 중의 하나에 상응하는 배경을 가질 수 있다.

일 실시예에 있어서, 제1 내지 제m 배경 타입들(BT1~BTm)은 복수의 실내 장면들에 상응하는 배경 타입들 및 야외 장면에 상응하는 하나의 배경 타입을 포함할 수 있다.

예를 들어, 제1 내지 제m 배경 타입들(BT1~BTm)은 교회, 교실, 강의실, 사무실, 콘서트홀, 대형 사무 공간, 녹음실, 집, 터널, 야외 등을 포함할 수 있다. 그러나 본 발명은 이에 한정되지 않으며, 제1 내지 제m 배경 타입들(BT1~BTm)은 다양한 종류의 실내 장면들에 상응하는 배경 타입들을 포함할 수 있다.

깊이 추정부(100)는 상기 깊이 추정 모델을 사용하여 복수의 배경 학습 이미지들(BT_IMGs)에 대한 복수의 깊이 이미지들(D_IMG)을 생성할 수 있다(단계 S300).

도 3은 도 1의 배경 분류 장치에 포함되는 깊이 추정부로부터 생성되는 깊이 이미지의 예들을 나타내는 도면이다.

도 3에는 교회, 교실, 강의실, 사무실, 콘서트홀, 대형 사무 공간, 녹음실, 집, 터널, 및 야외에 상응하는 배경 타입들 각각에 대한 배경 학습 이미지(BT_IMG)와 배경 학습 이미지(BT_IMG)에 대해 깊이 추정부(100)로부터 생성되는 깊이 이미지(D_IMG)가 예시적으로 도시된다.

각각의 배경 타입에서, 좌측에 있는 이미지가 배경 학습 이미지(BT_IMG)를 나타내고, 우측에 있는 이미지가 배경 학습 이미지(BT_IMG)에 대한 깊이 이미지(D_IMG)를 나타낸다.

다시 도 1 및 2를 참조하면, 깊이 추정부(100)로부터 생성되는 복수의 배경 학습 이미지들(BT_IMGs) 각각에 대한 깊이 이미지(D_IMG)는 배경 분류기(200)에 제공될 수 있다.

배경 분류기(200)는 복수의 배경 학습 이미지들(BT_IMGs) 및 복수의 배경 학습 이미지들(BT_IMGs)에 대한 복수의 깊이 이미지들(D_IMG)을 사용하여 복수의 배경 학습 이미지들(BT_IMGs) 각각의 배경 타입을 제1 내지 제m 배경 타입들(BT1~BTm) 중의 하나로 분류하는 학습을 수행하여 배경 추정 모델을 생성할 수 있다(단계 S400).

도 4는 도 1의 배경 분류 장치에 포함되는 배경 분류기의 일 예를 나타내는 블록도이다.

도 5는 도 2의 배경 추정 모델을 생성하는 단계(S400)의 일 예를 나타내는 순서도이다.

도 4 및 5를 참조하면, 배경 분류기(200)는 제1 컨볼루션 신경망(Convolution Neural Network; CNN)(CNN1) 및 제2 컨볼루션 신경망(CNN2)을 포함할 수 있다.

제1 컨볼루션 신경망(210) 및 제2 컨볼루션 신경망(220)은 각각 적어도 하나의 컨볼루션 레이어(convolution layer), 적어도 하나의 폴링 레이어(polling layer), 및 적어도 하나의 완전 연결 레이어(fully connected layer)를 포함할 수 있다.

제1 컨볼루션 신경망(210)은 배경 학습 이미지(BT_IMG)를 수신하고, 배경 학습 이미지(BT_IMG)에 기초하여 제1 내지 제m 값들 중의 하나를 제1 출력값(OUTPUT1)으로 출력할 수 있다(단계 S410).

제2 컨볼루션 신경망(220)은 배경 학습 이미지(BT_IMG)에 대한 깊이 이미지(D_IMG)를 수신하고, 배경 학습 이미지(BT_IMG)에 대한 깊이 이미지(D_IMG)에 기초하여 상기 제1 내지 제m 값들 중의 하나를 제2 출력값(OUTPUT2)으로 출력할 수 있다(단계 S420).

일 실시예에 있어서, 제1 컨볼루션 신경망(210) 및 제2 컨볼루션 신경망(220)은 각각 one-hot 인코딩 방식으로 인코딩된 출력값을 생성할 수 있다.

이 경우, 제1 컨볼루션 신경망(210)은 제1 내지 제m 출력 노드들을 포함하고, 제2 컨볼루션 신경망(220)은 제(m+1) 내지 제(2m) 출력 노드들을 포함할 수 있다.

배경 학습 이미지(BT_IMG)의 배경이 제1 내지 제m 배경 타입들(BT1~BTm) 중에서 제i(i는 m이하의 양의 정수) 배경 타입에 상응하는 경우, 배경 분류기(200)는 제1 컨볼루션 신경망(210)이 상기 제1 내지 제m 출력 노드들을 통해 제i 값에 상응하는 제1 출력값(OUTPUT1)을 출력하고, 제2 컨볼루션 신경망(220)이 상기 (m+1) 내지 제(2m) 출력 노드들을 통해 상기 제i 값에 상응하는 제2 출력값(OUTPUT2)을 출력하도록 제1 컨볼루션 신경망(210) 및 제2 컨볼루션 신경망(220)을 학습시킬 수 있다.

예를 들어, 배경 학습 이미지(BT_IMG)의 배경이 상기 제i 배경 타입에 상응하는 경우, 배경 분류기(200)는 제1 컨볼루션 신경망(210)의 상기 제1 내지 제m 출력 노드들 중에서 제i 노드만 1을 출력하고 나머지 노드들은 0을 출력하고, 제2 컨볼루션 신경망(220)의 상기 제(m+1) 내지 제(2m) 출력 노드들 중에서 제(m+i) 노드만 1을 출력하고 나머지 노드들은 0을 출력하도록 제1 컨볼루션 신경망(210) 및 제2 컨볼루션 신경망(220)을 학습시킬 수 있다.

일 실시예에 있어서, 배경 분류기(200)는 제1 컨볼루션 신경망(210) 및 제2 컨볼루션 신경망(220)을 독립적으로 학습시키지 않고, 제1 컨볼루션 신경망(210)으로부터 출력되는 제1 출력값(OUTPUT1) 및 제2 컨볼루션 신경망(220)으로부터 출력되는 제2 출력값(OUTPUT2)을 종합적으로 고려하여 제1 컨볼루션 신경망(210) 및 제2 컨볼루션 신경망(220)을 동시에 학습시킬 수 있다.

예를 들어, 배경 분류기(200)는 제1 출력값(OUTPUT1) 및 제2 출력값(OUTPUT2)에 기초하여 하나의 손실 함수를 결정할 수 있다(단계 S430).

일 실시예에 있어서, 상기 하나의 손실 함수는 제1 컨볼루션 신경망(210)에 대해 개별적으로 계산되는 제1 손실 함수와 제2 컨볼루션 신경망(220)에 대해 개별적으로 계산되는 제2 손실 함수의 가중 평균에 상응할 수 있다.

배경 분류기(200)는 상기 하나의 손실 함수에 기초하여 제1 컨볼루션 신경망(210) 및 제2 컨볼루션 신경망(220)을 동시에 학습시켜 상기 배경 추정 모델을 생성할 수 있다(단계 S440).

따라서 배경 분류기(200)로부터 생성되는 상기 배경 추정 모델은 제공되는 이미지의 배경 타입을 더욱 정확하게 제1 내지 제m 배경 타입들(BT1~BTm) 중의 하나로 분류할 수 있다.

다시 도 1 및 2를 참조하면, 깊이 추정부(100)가 상기 깊이 추정 모델을 생성하고 배경 분류기(200)가 상기 배경 추정 모델을 생성한 이후, 배경 분류 장치(10)가 외부로부터 입력 이미지(IN_IMG)를 수신하는 경우, 배경 분류 장치(10)는 상기 깊이 추정 모델 및 상기 배경 추정 모델을 사용하여 입력 이미지(IN_IMG)의 배경 타입을 제1 내지 제m 배경 타입들(BT1~BTm) 중의 하나로 분류할 수 있다.

구체적으로, 깊이 추정부(100)는 상기 깊이 추정 모델을 사용하여 입력 이미지(IN_IMG)에 대한 깊이 이미지(D_IMG)를 생성하고(단계 S500), 배경 분류기(200)는 입력 이미지(IN_IMG), 입력 이미지(IN_IMG)에 대한 깊이 이미지(D_IMG), 및 상기 배경 추정 모델에 기초하여 입력 이미지(IN_IMG)의 배경 타입을 제1 내지 제m 배경 타입들(BT1~BTm) 중의 하나로 분류할 수 있다(단계 S600).

일 실시예에 있어서, 도 4 및 5를 참조하여 상술한 바와 같이, 제1 컨볼루션 신경망(210)은 입력 이미지(IN_IMG)에 기초하여 상기 제1 내지 제m 값들 중의 하나를 제1 출력값(OUTPUT1)으로 출력하고, 제2 컨볼루션 신경망(220)은 입력 이미지(IN_IMG)에 대한 깊이 이미지(D_IMG)에 기초하여 상기 제1 내지 제m 값들 중의 하나를 제2 출력값(OUTPUT2)으로 출력할 수 있다.

이 경우, 배경 분류기(200)는 제1 출력값(OUTPUT1) 및 제2 출력값(OUTPUT2)에 기초하여 입력 이미지(IN_IMG)의 배경 타입을 제1 내지 제m 배경 타입들(BT1~BTm) 중의 하나로 분류할 수 있다.

예를 들어, 제1 출력값(OUTPUT1) 및 제2 출력값(OUTPUT2)이 모두 상기 제i 값에 상응하는 경우, 배경 분류기(200)는 입력 이미지(IN_IMG)의 배경 타입을 제i 배경 타입으로 분류할 수 있다.

도 1 내지 5를 참조하여 상술한 바와 같이, 본 발명의 실시예들에 따른 배경 분류 장치(10) 및 배경 분류 방법은 원본 이미지에 대해 배경 타입을 추정하는 제1 컨볼루션 신경망(210) 및 상기 원본 이미지에 대한 깊이 이미지(D_IMG)에 대해 배경 타입을 추정하는 제2 컨볼루션 신경망(220)을 포함하고, 제1 컨볼루션 신경망(210)으로부터 출력되는 제1 출력값(OUTPUT1) 및 제2 컨볼루션 신경망(220)으로부터 출력되는 제2 출력값(OUTPUT2)을 종합적으로 고려하여 결정되는 하나의 손실 함수에 기초하여 학습을 수행하므로, 배경 분류 장치(10) 및 배경 분류 방법은 이미지의 배경 타입을 더욱 정확하게 제1 내지 제m 배경 타입들(BT1~BTm) 중의 하나로 분류할 수 있다.

도 6은 본 발명의 일 실시예에 따른 몰입형(immersive) 오디오-비디오 데이터 생성 장치를 나타내는 블록도이다.

도 7은 본 발명의 일 실시예에 따른 몰입형 오디오-비디오 데이터 생성 방법을 나타내는 순서도이다.

도 7에 도시된 몰입형 오디오-비디오 데이터 생성 방법은 도 6의 몰입형 오디오-비디오 데이터 생성 장치(20)를 통해 수행될 수 있다.

이하, 도 6 및 7을 참조하여 몰입형 오디오-비디오 데이터 생성 장치(20)의 구성 및 동작과 몰입형 오디오-비디오 데이터 생성 장치(20)에 의해 수행되는 몰입형 오디오-비디오 데이터 생성 방법에 대해 상세히 설명한다.

도 6 및 7을 참조하면, 몰입형 오디오-비디오 데이터 생성 장치(20)는 배경 분류 장치(10), 객체 추적 장치(300), 3차원 좌표 변환부(400), 및 오디오 믹서(500)를 포함한다. 배경 분류 장치(10)는 깊이 추정부(100) 및 배경 분류기를 포함한다.

객체 추적 장치(300)는 입력 영상 데이터에 상응하는 복수의 입력 프레임들(IFs) 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 복수의 입력 프레임들(IFs) 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S100).

도 8은 도 6의 몰입형 오디오-비디오 데이터 생성 장치에 포함되는 객체 추적 장치의 일 예를 나타내는 블록도이다.

도 8을 참조하면, 객체 추적 장치(300)는 목표 객체 설정부(310), GOTURN(General Object Tracking Using Regression Network) 추적기(320), Mean-shift 추적기(330), 컬러 히스토그램 분석기(340), 학습 데이터 생성부(350), 추적기 분류기(360), 및 판단부(370)를 포함할 수 있다.

GOTURN 추적기(320)는 컨볼루션 신경망(Convolutional Neural Network; CNN) 기반의 객체 추적 알고리즘인 GOTURN 추적 알고리즘을 사용하여 영상 데이터에 포함되는 객체의 위치를 프레임 단위로 추적할 수 있다.

구체적으로, GOTURN 추적기(320)는 학습 단계에서 연속된 프레임 쌍을 무작위로 선택하고, 이전 프레임에서 추적할 객체의 영역을 지정하여 자르고 현재 프레임에서는 동일 위치의 영역을 잘라 각각의 컨볼루션 레이어(convolution layer)에서 객체와 객체 주변에 대한 정보를 학습하고, 완전 연결 레이어(fully connected layer)에서 상기 각각의 컨볼루션 레이어의 가중치(weight)를 공유하여 현재 프레임에서 경계 박스(bounding box)의 위치를 예측하도록 학습할 수 있다.

따라서 GOTURN 추적기(320)는 최초의 프레임에서 추적할 객체의 위치에 상응하는 경계 박스를 설정하는 경우, 상기 학습된 모델을 사용하여 이후의 프레임들에서 상기 객체의 이동된 위치를 추적하고 상기 객체의 추적된 위치에 상응하는 경계 박스를 생성할 수 있다.

다양한 형태의 GOTURN 추적 알고리즘이 널리 알려져 있으며, 본 발명에 따른 객체 추적 장치(300)에 포함되는 GOTURN 추적기(320)는 다양한 형태의 GOTURN 추적 알고리즘을 사용하여 구현될 수 있다. GOTURN 추적 알고리즘은 널리 알려져 있으므로, GOTURN 추적기(320)의 세부 동작에 대한 상세한 설명은 생략한다.

Mean-shift 추적기(330)는 현재 위치의 주변에서 데이터가 가장 밀집된 방향으로 이동하는 방식으로 데이터 분포의 중심을 찾는 알고리즘인 Mean-shift 추적 알고리즘을 영상 데이터에 포함되는 객체의 추적에 적용하여 영상 데이터에 포함되는 객체의 위치를 프레임 단위로 추적할 수 있다.

구체적으로, Mean-shift 추적기(330)는 최초의 프레임에서 추적할 객체의 위치에 상응하는 경계 박스를 설정하는 경우, 상기 최초의 프레임에서 상기 경계 박스의 컬러 히스토그램과 가장 유사한 컬러 히스토그램을 갖는 영역을 이후의 프레임들 각각에서 찾아 해당 영역을 상기 객체의 추적된 위치에 상응하는 경계 박스로 생성할 수 있다.

다양한 형태의 Mean-shift 추적 알고리즘이 널리 알려져 있으며, 본 발명에 따른 객체 추적 장치(300)에 포함되는 Mean-shift 추적기(330)는 다양한 형태의 Mean-shift 추적 알고리즘을 사용하여 구현될 수 있다. Mean-shift 추적 알고리즘은 널리 알려져 있으므로, Mean-shift 추적기(330)의 세부 동작에 대한 상세한 설명은 생략한다.

이와 같이, 본 발명에 따른 객체 추적 장치(300)는 컨볼루션 신경망 기반의 GOTURN 추적기(320)와 컬러 히스토그램 기반의 Mean-shift 추적기(330)를 동시에 사용하여 영상 데이터에 포함되는 객체의 위치를 추적할 수 있다.

또한, 본 발명에 따른 객체 추적 장치(300)는 머신 러닝(Machine Learning) 기반의 이진 분류기에 상응하는 추적기 분류기(360)를 사용하여 매 프레임마다 GOTURN 추적기(320)와 Mean-shift 추적기(330) 중에서 추적 정확도가 더 높은 추적기를 선택하고, 판단부(370)는 매 프레임마다 추적기 분류기(360)의 선택 결과에 기초하여 GOTURN 추적기(320)가 객체를 추적한 결과에 상응하는 제1 경계 박스(BB_G)와 Mean-shift 추적기(330)가 객체를 추적한 결과에 상응하는 제2 경계 박스(BB_M) 중의 하나를 최종적으로 선택하고, 상기 선택된 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다.

도 9는 도 7의 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 2차원 좌표를 출력하는 단계(S100)의 일 예를 나타내는 순서도이다.

도 9에 도시된 각 단계들은 도 8에 도시된 객체 추적 장치(300)를 통해 수행될 수 있다.

이하, 도 8 및 9를 참조하여 객체 추적 장치(300)의 상세 구성 및 동작에 대해 상세히 설명한다.

객체 추적 장치(300)는 학습 영상 데이터를 사용하여 머신 러닝을 수행하여 추적 알고리즘 선택 모델을 생성할 수 있다(단계 S110).

구체적으로, 학습 데이터 생성부(350)는 상기 학습 영상 데이터에 상응하는 복수의 학습 프레임들(TFs) 중의 첫 번째 학습 프레임에서 학습 객체를 설정하고, 상기 학습 객체의 위치에 상응하는 경계 박스를 생성할 수 있다.

이후, 학습 데이터 생성부(350)는 복수의 학습 프레임들(TFs) 각각에 대해, 현재 학습 프레임에서 GOTURN 추적기(320)를 사용하여 추적한 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 첫 번째 학습 프레임에서 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도, 상기 현재 학습 프레임에서 Mean-shift 추적기(330)를 사용하여 추적한 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 첫 번째 학습 프레임에서 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도, 상기 현재 학습 프레임에서 GOTURN 추적기(320)를 사용하여 추적한 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 현재 학습 프레임과 상기 첫 번째 학습 프레임 사이에 존재하는 비교 학습 프레임에서 상기 학습 객체의 실제 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도, 및 상기 현재 학습 프레임에서 Mean-shift 추적기(330)를 사용하여 추적한 상기 학습 객체의 위치에 상응하는 경계 박스의 컬러 히스토그램과 상기 비교 학습 프레임에서 상기 학습 객체의 실제 위치에 상응하는 경계 박스의 컬러 히스토그램 사이의 유사도를 입력값들로 하고, GOTURN 추적기(320)와 Mean-shift 추적기(330) 중에서 상기 현재 학습 프레임에서 더 높은 추적 정확도를 갖는 추적기를 나타내는 값을 상기 입력값들에 대한 라벨로 하는 학습 데이터(TR_DATA)를 생성할 수 있다.

일반적으로 GOTURN 추적 알고리즘이 객체 추적에 실패하는 경우, 객체 추적 실패의 결과가 세 프레임 이후에 생성되는 경계 박스에 나타난다. 따라서 상기 비교 학습 프레임은 상기 현재 학습 프레임보다 세 번째 이전의 학습 프레임에 상응할 수 있다.

추적기 분류기(360)는 머신 러닝 기반의 이진 분류기에 상응할 수 있다. 예를 들어, 추적기 분류기(360)는 SVM(Support Vector Machine) 알고리즘을 이용하여 구현될 수 있다.

추적기 분류기(360)는 학습 데이터 생성부(350)로부터 생성되는 학습 데이터(TR_DATA)를 사용하여 상기 네 개의 유사도들을 GOTURN 추적기(320)와 Mean-shift 추적기(330) 중의 하나로 분류하는 학습을 수행하여 상기 추적 알고리즘 선택 모델을 생성할 수 있다.

추적기 분류기(360)가 상술한 학습을 수행하여 상기 추적 알고리즘 선택 모델을 생성한 이후, 객체 추적 장치(300)는 상기 입력 영상 데이터를 수신하고, 상기 입력 영상 데이터에 포함되는 객체를 추적하여 상기 추적된 객체의 위치에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다.

구체적으로, 목표 객체 설정부(310)는 상기 입력 영상 데이터에 상응하는 복수의 입력 프레임들(IFs) 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 목표 객체의 위치에 상응하는 최초 경계 박스(BB_INIT)를 생성할 수 있다(단계 S120).

예를 들어, 목표 객체 설정부(310)는 사용자의 선택에 의해 상기 첫 번째 입력 프레임에 포함되는 복수의 객체들 중의 하나를 상기 목표 객체로 설정할 수 있다.

목표 객체 설정부(310)는 최초 경계 박스(BB_INIT)를 GOTURN 추적기(320), Mean-shift 추적기(330), 및 컬러 히스토그램 분석기(340)에 제공할 수 있다.

GOTURN 추적기(320)는 목표 객체 설정부(310)로부터 수신되는 최초 경계 박스(BB_INIT)에 기초하여 복수의 입력 프레임들(IFs) 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 GOTURN 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제1 경계 박스(BB_G)를 생성할 수 있다(단계 S130).

또한, Mean-shift 추적기(330)는 목표 객체 설정부(310)로부터 수신되는 최초 경계 박스(BB_INIT)에 기초하여 복수의 입력 프레임들(IFs) 중에서 상기 첫 번째 입력 프레임을 제외한 상기 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제2 경계 박스(BB_M)를 생성할 수 있다(단계 S140).

도 9에 도시된 바와 같이, GOTURN 추적기(320)가 상기 목표 객체의 위치를 추적하여 제1 경계 박스(BB_G)를 생성하는 동작(단계 S130)과 Mean-shift 추적기(330)가 상기 목표 객체의 위치를 추적하여 제2 경계 박스(BB_M)를 생성하는 동작(단계 S140)은 동시에 수행될 수 있다.

컬러 히스토그램 분석기(340)는 목표 객체 설정부(310)로부터 최초 경계 박스(BB_INIT)를 수신할 수 있다. 또한, 컬러 히스토그램 분석기(340)는 매 입력 프레임마다 GOTURN 추적기(320)로부터 생성되는 제1 경계 박스(BB_G)와 매 입력 프레임마다 Mean-shift 추적기(330)로부터 생성되는 제2 경계 박스(BB_M)를 수신할 수 있다.

한편, 컬러 히스토그램 분석기(340)는 n(n은 2 이상의 정수)번째 입력 프레임에서 제1 경계 박스(BB_G)의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 최초 경계 박스(BB_INIT)의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도(CHS1), 상기 n번째 입력 프레임에서 제2 경계 박스(BB_M)의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 최초 경계 박스(BB_INIT)의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도(CHS2), 상기 n번째 입력 프레임에서 제1 경계 박스(BB_G)의 컬러 히스토그램과 (n-k)(k는 n 미만의 자연수)번째 입력 프레임에서 제1 경계 박스(BB_G)의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도(CHS3), 및 상기 n번째 입력 프레임에서 제2 경계 박스(BB_M)의 컬러 히스토그램과 상기 (n-k)번째 입력 프레임에서 제2 경계 박스(BB_M)의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도(CHS4)를 결정할 수 있다(단계 S150).

일 실시예에 있어서, 두 개의 컬러 히스토그램들 사이의 유사도는 상기 두 개의 컬러 히스토그램들에서 동일한 그레이 레벨(gray level)에 상응하는 값들의 곱이 클수록 큰 값을 갖고, 동일한 그레이 레벨에 상응하는 값들의 곱이 작을수록 작은 값을 갖도록 결정할 수 있다.

추적기 분류기(360)는 컬러 히스토그램 분석기(340)로부터 매 프레임 별로 제1 내지 제4 유사도들(CHS1, CHS2, CHS3, CHS4)을 수신할 수 있다.

상술한 바와 같이, 추적기 분류기(360)는 학습 데이터 생성부(350)로부터 생성되는 학습 데이터(TR_DATA)를 사용하여 네 개의 유사도들을 GOTURN 추적기(320)와 Mean-shift 추적기(330) 중의 하나로 분류하는 학습을 수행하여 상기 추적 알고리즘 선택 모델을 생성할 수 있다.

따라서 추적기 분류기(360)는 상기 추적 알고리즘 선택 모델을 통해 제1 내지 제4 유사도들(CHS1, CHS2, CHS3, CHS4)에 기초하여 GOTURN 추적기(320) 및 Mean-shift 추적기(330) 중에서 상기 n번째 입력 프레임에서 더 높은 추적 정확도를 가질 것으로 추정되는 추적기를 선택하고, 상기 선택된 추적기를 나타내는 분류값(CLS_R)을 출력할 수 있다.

즉, 추적기 분류기(360)는 제1 내지 제4 유사도들(CHS1, CHS2, CHS3, CHS4)을 상기 추적 알고리즘 선택 모델에 입력하여 GOTURN 추적기(320) 및 Mean-shift 추적기(330) 중의 하나를 나타내는 분류값(CLS_R)을 출력할 수 있다(단계 S160).

일반적으로 GOTURN 추적 알고리즘이 객체 추적에 실패하는 경우, 객체 추적 실패의 결과가 세 프레임 이후에 생성되는 경계 박스에 나타난다. 따라서 현재의 입력 프레임과 세 번째 이전의 입력 프레임을 비교하여 제3 유사도(CHS3) 및 제4 유사도(CHS4)를 결정할 때 추적기 분류기(360)가 GOTURN 추적기(320) 및 Mean-shift 추적기(330) 중에서 상기 n번째 입력 프레임에서 더 높은 추적 정확도를 갖는 추적기를 추정하는 정확도가 향상될 수 있다. 따라서 상기 k는 3에 상응할 수 있다.

판단부(370)는 매 입력 프레임마다 추적기 분류기(360)로부터 분류값(CLS_R)을 수신하고, GOTURN 추적기(320)로부터 제1 경계 박스(BB_G)를 수신하고, Mean-shift 추적기(330)로부터 제2 경계 박스(BB_M)를 수신할 수 있다.

일 실시예에 있어서, 판단부(370)는 추적기 분류기(360)로부터 수신되는 분류값(CLS_R)에 기초하여 상기 n번째 입력 프레임의 제1 경계 박스(BB_G) 및 제2 경계 박스(BB_M) 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다.

예를 들어, 분류값(CLS_R)이 GOTURN 추적기(320)를 나타내는 경우, 판단부(370)는 상기 n번째 입력 프레임의 제1 경계 박스(BB_G)를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다.

이에 반해, 분류값(CLS_R)이 Mean-shift 추적기(330)를 나타내는 경우, 판단부(370)는 상기 n번째 입력 프레임의 제2 경계 박스(BB_M)를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다.

다른 실시예에 있어서, 판단부(370)는 상기 n번째 입력 프레임에서 제2 경계 박스(BB_M)에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 제2 경계 박스(BB_M)와 (n-1)번째 입력 프레임의 제2 경계 박스(BB_M) 사이의 이격 거리 중의 적어도 하나와 추적기 분류기(360)로부터 수신되는 분류값(CLS_R)에 기초하여 상기 n번째 입력 프레임의 제1 경계 박스(BB_G) 및 제2 경계 박스(BB_M) 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S170).

도 10 내지 13은 도 9의 n번째 입력 프레임의 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 단계(S170)의 예들을 나타내는 순서도들이다.

도 10을 참조하면, 판단부(370)는 GOTURN 추적기(320) 및 Mean-shift 추적기(330) 중에서 분류값(CLS_R)이 나타내는 추적기를 판단할 수 있다(단계 S1701).

분류값(CLS_R)이 GOTURN 추적기(320)를 나타내는 경우, 판단부(370)는 상기 n번째 입력 프레임의 제1 경계 박스(BB_G)를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S1702).

이에 반해, 분류값(CLS_R)이 Mean-shift 추적기(330)를 나타내는 경우, 판단부(370)는 상기 n번째 프레임에서 제2 경계 박스(BB_M)에 상응하는 영역의 평균 밝기 레벨을 계산한 후(단계 S1703), 상기 평균 밝기 레벨을 제1 문턱 레벨(THL1) 및 제2 문턱 레벨(THL2)과 비교할 수 있다(단계 S1704).

일 실시예에 있어서, 제1 문턱 레벨(THL1) 및 제2 문턱 레벨(THL2)은 미리 정해질 수 있다. 여기서, 제2 문턱 레벨(THL2)은 제1 문턱 레벨(THL1)보다 높은 레벨을 나타낸다.

상술한 바와 같이, Mean-shift 추적기(330)는 경계 박스의 컬러 히스토그램을 사용하여 객체의 위치를 추적한다. 그런데 경계 박스의 밝기가 너무 밝거나 너무 어두운 경우, 상기 경계 박스는 실제 객체의 색상 정보를 정상적으로 포함하지 않을 수 있다. 따라서 Mean-shift 추적기(330)로부터 생성된 제2 경계 박스(BB_M)의 밝기가 너무 밝거나 너무 어두운 경우, Mean-shift 추적기(330)는 상기 목표 객체의 추적에 실패했을 가능성이 높다.

따라서 상기 평균 밝기 레벨이 제1 문턱 레벨(THL1)보다 낮거나 제2 문턱 레벨(THL2)보다 높은 경우, 판단부(370)는 Mean-shift 추적기(330)로부터 생성된 제2 경계 박스(BB_M)가 아니라 GOTURN 추적기(320)로부터 생성된 제1 경계 박스(BB_G)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S1702).

이에 반해, 상기 평균 밝기 레벨이 제1 문턱 레벨(THL1) 이상이고 제2 문턱 레벨(THL2) 이하인 경우, 판단부(370)는 Mean-shift 추적기(330)로부터 생성된 제2 경계 박스(BB_M)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S1707).

도 11은 도 9의 n번째 입력 프레임의 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 단계(S170)의 다른 예를 나타내는 순서도이다.

도 11에 도시된 상기 n번째 입력 프레임의 상기 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 과정은 도 10에 도시된 상기 n번째 입력 프레임의 상기 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 과정과 일부 단계들(S1701, S1702, S1703, S1704)이 동일하다.

따라서 여기서는 도 10과 동일한 단계들(S1701, S1702, S1703, S1704)에 대한 상세한 설명은 생략한다.

도 11을 참조하면, 상기 평균 밝기 레벨이 제1 문턱 레벨(THL1) 이상이고 제2 문턱 레벨(THL2) 이하인 경우, 판단부(370)는 상기 n번째 입력 프레임의 제2 경계 박스(BB_M)와 상기 (n-1)번째 입력 프레임의 제2 경계 박스(BB_M) 사이의 이격 거리를 계산한 후(단계 S1705), 상기 이격 거리를 문턱 거리(THD)와 비교할 수 있다(단계 S1706).

상술한 바와 같이, Mean-shift 추적기(330)는 경계 박스의 컬러 히스토그램을 사용하여 객체의 위치를 추적하므로, 상기 목표 객체와 유사한 컬러를 갖는 유사 물체가 프레임 내에 새롭게 등장하는 경우, 상기 경계 박스는 상기 유사 물체의 위치로 튀는 현상이 발생할 수 있다. 따라서 연속적인 두 개의 프레임들에서 Mean-shift 추적기(330)로부터 생성된 제2 경계 박스(BB_M)들 사이의 거리가 많이 이격되는 경우, Mean-shift 추적기(330)는 상기 목표 객체의 추적에 실패했을 가능성이 높다.

따라서 상기 이격 거리가 문턱 거리(THD)보다 먼 경우, 판단부(370)는 Mean-shift 추적기(330)로부터 생성된 제2 경계 박스(BB_M)가 아니라 GOTURN 추적기(320)로부터 생성된 제1 경계 박스(BB_G)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S1702).

이에 반해, 상기 이격 거리가 문턱 거리(THD) 이하인 경우, 판단부(370)는 Mean-shift 추적기(330)로부터 생성된 제2 경계 박스(BB_M)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S1707).

일 실시예에 있어서, 문턱 거리(THD)는 복수의 입력 프레임들(IFs) 각각의 대각선 길이의 100분의 1의 값으로 설정될 수 있다.

그러나 본 발명은 이에 한정되지 않으며, 문턱 거리(THD)는 상기 입력 영상 데이터의 내용에 따라 적절한 값으로 설정될 수 있다.

도 12는 도 9의 n번째 입력 프레임의 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 단계(S170)의 또 다른 일 예를 나타내는 순서도이다.

도 12를 참조하면, 판단부(370)는 GOTURN 추적기(320) 및 Mean-shift 추적기(330) 중에서 분류값(CLS_R)이 나타내는 추적기를 판단할 수 있다(단계 S1711).

분류값(CLS_R)이 GOTURN 추적기(320)를 나타내는 경우, 판단부(370)는 상기 n번째 입력 프레임의 제1 경계 박스(BB_G)를 상기 n번째 입력 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S1712).

이에 반해, 분류값(CLS_R)이 Mean-shift 추적기(330)를 나타내는 경우, 판단부(370)는 상기 n번째 입력 프레임의 제2 경계 박스(BB_M)와 상기 (n-1)번째 입력 프레임의 제2 경계 박스(BB_M) 사이의 이격 거리를 계산한 후(단계 S1713), 상기 이격 거리를 문턱 거리(THD)와 비교할 수 있다(단계 S1714).

상기 이격 거리가 문턱 거리(THD)보다 먼 경우, 판단부(370)는 Mean-shift 추적기(330)로부터 생성된 제2 경계 박스(BB_M)가 아니라 GOTURN 추적기(320)로부터 생성된 제1 경계 박스(BB_G)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S1712).

이에 반해, 상기 이격 거리가 문턱 거리(THD) 이하인 경우, 판단부(370)는 Mean-shift 추적기(330)로부터 생성된 제2 경계 박스(BB_M)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S1717).

도 13은 도 9의 n번째 입력 프레임의 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 단계(S170)의 또 다른 예를 나타내는 순서도이다.

도 13에 도시된 상기 n번째 입력 프레임의 상기 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 과정은 도 12에 도시된 상기 n번째 입력 프레임의 상기 추적 경계 박스를 결정하고, 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 과정과 일부 단계들(S1711, S1712, S1713, S1714)이 동일하다.

따라서 여기서는 도 12와 동일한 단계들(S1711, S1712, S1713, S1714)에 대한 상세한 설명은 생략한다.

도 13을 참조하면, 상기 이격 거리가 문턱 거리(THD) 이하인 경우, 판단부(370)는 상기 n번째 프레임에서 제2 경계 박스(BB_M)에 상응하는 영역의 평균 밝기 레벨을 계산한 후(단계 S1715), 상기 평균 밝기 레벨을 제1 문턱 레벨(THL1) 및 제2 문턱 레벨(THL2)과 비교할 수 있다(단계 S1716).

상기 평균 밝기 레벨이 제1 문턱 레벨(THL1)보다 낮거나 제2 문턱 레벨(THL2)보다 높은 경우, 판단부(370)는 Mean-shift 추적기(330)로부터 생성된 제2 경계 박스(BB_M)가 아니라 GOTURN 추적기(320)로부터 생성된 제1 경계 박스(BB_G)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S1712).

이에 반해, 상기 평균 밝기 레벨이 제1 문턱 레벨(THL1) 이상이고 제2 문턱 레벨(THL2) 이하인 경우, 판단부(370)는 Mean-shift 추적기(330)로부터 생성된 제2 경계 박스(BB_M)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표(COOR_2D)를 출력할 수 있다(단계 S1717).

일 실시예에 있어서, 도 8에 도시된 바와 같이, 판단부(370)는 매 입력 프레임마다 컬러 히스토그램 분석기(340)로부터 제3 유사도(CHS3) 및 제4 유사도(CHS4)를 수신할 수 있다.

이 경우, 판단부(370)는 제3 유사도(CHS3)의 크기 및 제4 유사도(CHS4)의 크기에 기초하여 GOTURN 추적기(320) 및 Mean-shift 추적기(330) 중에서 상기 추적 경계 박스로 결정되지 않은 경계 박스를 생성한 추적기를 상기 추적 경계 박스로 초기화할 수 있다.

예를 들어, 판단부(370)가 상기 n번째 입력 프레임의 제1 경계 박스(BB_G)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 경우, 판단부(370)는 컬러 히스토그램 분석기(340)로부터 수신되는 제3 유사도(CHS3)와 기준값을 비교할 수 있다. 상기 기준값은 미리 정해진 값일 수 있다.

제3 유사도(CHS3)가 상기 기준값보다 큰 경우, GOTURN 추적기(320)가 추적한 상기 목표 객체의 위치에 상응하는 제1 경계 박스(BB_G)의 정확도는 상당히 높은 것으로 판단할 수 있다.

따라서 제3 유사도(CHS3)가 상기 기준값보다 큰 경우, 판단부(370)는 Mean-shift 추적기(330)에 상기 n번째 입력 프레임의 제1 경계 박스(BB_G)를 제공하고, Mean-shift 추적기(330)는 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치를 판단부(370)로부터 수신되는 제1 경계 박스(BB_G)로 초기화한 후, 상기 n번째 입력 프레임 이후로 수신되는 입력 프레임들에 대해 상기 목표 객체의 위치를 추적하여 제2 경계 박스(BB_M)를 생성하는 동작을 계속하여 수행할 수 있다.

마찬가지로, 판단부(370)가 상기 n번째 입력 프레임의 제2 경계 박스(BB_M)를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 경우, 판단부(370)는 컬러 히스토그램 분석기(340)로부터 수신되는 제4 유사도(CHS4)와 상기 기준값을 비교할 수 있다.

제4 유사도(CHS4)가 상기 기준값보다 큰 경우, Mean-shift 추적기(330)가 추적한 상기 목표 객체의 위치에 상응하는 제2 경계 박스(BB_M)의 정확도는 상당히 높은 것으로 판단할 수 있다.

따라서 제4 유사도(CHS4)가 상기 기준값보다 큰 경우, 판단부(370)는 GOTURN 추적기(320)에 상기 n번째 입력 프레임의 제2 경계 박스(BB_M)를 제공하고, GOTURN 추적기(320)는 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치를 판단부(370)로부터 수신되는 제2 경계 박스(BB_M)로 초기화한 후, 상기 n번째 입력 프레임 이후로 수신되는 입력 프레임들에 대해 상기 목표 객체의 위치를 추적하여 제1 경계 박스(BB_G)를 생성하는 동작을 계속하여 수행할 수 있다.

이와 같이, 판단부(370)는 매 입력 프레임마다 상기 추적 경계 박스의 정확도가 상당히 높은 것으로 판단되는 경우, GOTURN 추적기(320) 및 Mean-shift 추적기(330) 중에서 상기 추적 경계 박스로 결정되지 않은 경계 박스를 생성한 추적기를 상기 추적 경계 박스로 초기화함으로써, 복수의 학습 프레임들(TFs)에 대한 전체적인 상기 목표 객체의 추적 정확도를 더욱 향상시킬 수 있다.

다시 도 6 및 7을 참조하면, 깊이 추정부(100)는 복수의 깊이 학습 이미지들(DT_IMGs) 각각에 대해 깊이 정보를 추정하여 깊이 이미지(D_IMG)를 생성하는 학습을 수행하여 깊이 추정 모델을 생성할 수 있다(단계 S200).

이 때, 복수의 배경 학습 이미지들(BT_IMGs) 각각은 미리 정해진 제1 내지 제m 배경 타입들(BT1~BTm) 중의 하나에 상응하는 배경을 가질 수 있다.

깊이 추정부(100)로부터 생성되는 복수의 배경 학습 이미지들(BT_IMGs) 각각에 대한 깊이 이미지(D_IMG)는 배경 분류기(200)에 제공될 수 있다.

깊이 추정부(100)가 상기 깊이 추정 모델을 생성하고 배경 분류기(200)가 상기 배경 추정 모델을 생성한 이후, 깊이 추정부(100)는 상기 깊이 추정 모델을 사용하여 복수의 입력 프레임들(IFs)에 대한 복수의 깊이 이미지들(D_IMG)을 생성하고(단계 S500), 배경 분류기(200)는 복수의 입력 프레임들(IFs), 복수의 입력 프레임들(IFs)에 대한 복수의 깊이 이미지들(D_IMG), 및 상기 배경 추정 모델에 기초하여 복수의 입력 프레임들(IFs) 각각의 배경 타입을 제1 내지 제m 배경 타입들(BT1~BTm) 중의 하나로 분류할 수 있다(단계 S600).

도 7에 도시된 복수의 단계들(S200, S300, S400, S500, S600)은 도 6의 몰입형 오디오-비디오 데이터 생성 장치(20)에 포함되는 배경 분류 장치(10)에 의해 수행될 수 있다.

한편, 도 6의 몰입형 오디오-비디오 데이터 생성 장치(20)에 포함되는 배경 분류 장치(10)는 도 1에 도시된 배경 분류 장치(10)로 구현될 수 있다.

도 1에 도시된 배경 분류 장치(10)의 구성 및 동작에 대해서는 도 1 내지 5를 참조하여 상세히 설명하였으므로, 여기서는 배경 분류 장치(10)의 상세 구성 및 동작과 배경 분류 장치(10)에 의해 수행되는 도 7의 복수의 단계들(S200, S300, S400, S500, S600)에 관한 중복되는 설명은 생략한다.

3차원 좌표 변환부(400)는 객체 추적 장치(300)로부터 수신되는 복수의 입력 프레임들(IFs) 각각에 대한 2차원 좌표(COOR_2D) 및 깊이 추정부(100)로부터 수신되는 복수의 입력 프레임들(IFs) 각각에 대한 깊이 이미지(D_IMG)에 기초하여 복수의 입력 프레임들(IFs) 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표(COOR_3D)를 생성할 수 있다(단계 S700).

예를 들어, 3차원 좌표 변환부(400)는 복수의 입력 프레임들(IFs) 각각에 대한 깊이 이미지(D_IMG)에서 복수의 입력 프레임들(IFs) 각각에 대한 2차원 좌표(COOR_2D)에 상응하는 위치의 값을 독출하여 2차원 좌표(COOR_2D)와 병합함으로써 복수의 입력 프레임들(IFs) 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표(COOR_3D)를 생성할 수 있다.

일 실시예에 있어서, 상기 입력 영상 데이터가 등장방형도법 영상에 상응하는 경우, 3차원 좌표 변환부(400)는 3차원 좌표(COOR_3D)를 구면 좌표계로 변환한 후 3차원 좌표(COOR_3D)를 출력할 수 있다.

오디오 믹서(500)는 외부로부터 상기 목표 객체에 상응하는 오디오 데이터(A_DATA)를 수신하고, 3차원 좌표 변환부(400)로부터 복수의 입력 프레임들(IFs) 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표(COOR_3D)를 수신하고, 배경 분류기(200)로부터 복수의 입력 프레임들(IFs) 각각의 배경 타입(BT1~BTm)을 수신할 수 있다.

오디오 믹서(500)는 복수의 입력 프레임들(IFs) 각각의 배경 타입(BT1~BTm)에 기초하여 복수의 입력 프레임들(IFs) 각각의 잔향 시간(reverberation time)을 결정하고, 상기 잔향 시간을 사용하여 상기 목표 객체에 상응하는 오디오 데이터(A_DATA)를 편집하고, 상기 편집된 오디오 데이터를 복수의 입력 프레임들(IFs) 각각의 3차원 좌표(COOR_3D)와 연결하여 몰입형 오디오-비디오 데이터(AV_DATA)를 생성할 수 있다(단계 S800).

일 실시예에 있어서, 오디오 믹서(500)는 제1 내지 제m 배경 타입들(BT1~BTm)에 대응되는 제1 내지 제m 잔향 시간들을 미리 저장할 수 있다.

예를 들어, 오디오 믹서(500)는 제1 내지 제m 배경 타입들(BT1~BTm)에 각각 대응되는 RT60 국제 표준값들을 상기 제1 내지 제m 잔향 시간들로 미리 저장할 수 있다.

오디오 믹서(500)는 h(h는 양의 정수)번째 입력 프레임의 배경 타입에 기초하여 상기 제1 내지 제m 잔향 시간들 중의 하나를 선택하고, 상기 h번째 입력 프레임에서의 상기 목표 객체에 상응하는 오디오 데이터(AV_DATA)가 상기 선택된 잔향 시간을 갖도록 오디오 데이터(AV_DATA)를 편집하고, 상기 편집된 오디오 데이터를 상기 h번째 입력 프레임의 3차원 좌표(COOR_3D)와 연결하여 몰입형 오디오-비디오 데이터(AV_DATA)를 생성할 수 있다.

예를 들어, 배경 분류기(200)로부터 수신되는 상기 h번째 입력 프레임의 배경 타입이 제1 내지 제m 배경 타입들(BT1~BTm) 중에서 제i(i는 m이하의 양의 정수) 배경 타입에 상응하는 경우, 오디오 믹서(500)는 상기 h번째 입력 프레임에서의 상기 목표 객체에 상응하는 오디오 데이터(A_DATA)가 제i 잔향 시간을 갖도록 오디오 데이터(A_DATA)를 편집하고, 상기 편집된 오디오 데이터를 상기 h번째 입력 프레임의 3차원 좌표(COOR_3D)와 연결하여 몰입형 오디오-비디오 데이터(AV_DATA)를 생성할 수 있다.

따라서 본 발명의 실시예들에 따른 몰입형 오디오-비디오 데이터 생성 장치(20)로부터 생성되는 몰입형 오디오-비디오 데이터(AV_DATA)가 내부의 다양한 위치에 복수의 스피커들이 설치된 장소에서 상영되는 경우, 영상 내의 캐릭터가 움직이는 방향에 따라 상기 캐릭터가 생성하는 오디오가 상기 복수의 스피커들을 통해 송출되는 방향이 제어될 뿐만 아니라, 상기 캐릭터가 위치하는 공간의 특성에 따라 상이한 잔향 효과를 제공함으로써 관객들의 영상에 대한 몰입도를 효과적으로 향상시킬 수 있다.

본 발명은 영상 내의 객체가 움직이는 방향 및 객체가 위치하는 공간의 종류에 따라 상기 캐릭터가 생성하는 오디오에 상이한 음향 효과를 적용하여 몰입형 오디오-비디오 데이터를 생성하는 데에 유용하게 이용될 수 있다.

상술한 바와 같이, 본 발명의 바람직한 실시예를 참조하여 설명하였지만 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10: 배경 분류 장치 100: 깊이 추정부
200: 배경 분류기 210: 제1 컨볼루션 신경망
220: 제2 컨볼루션 신경망
20: 몰입형 오디오-비디오 데이터 생성 장치
300: 객체 추적 장치 310: 목표 객체 설정부
320: GOTURN 추적기 330: Mean-shift 추적기
340: 컬러 히스토그램 분석기 350: 학습 데이터 생성부
360: 추적기 분류기 370: 판단부
400: 3차원 좌표 변환부 500: 오디오 믹서

Claims

삭제
삭제
삭제
삭제
입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 2차원 좌표를 출력하는 객체 추적 장치;
외부로부터 수신되는 이미지에 대해 깊이 정보를 추정하여 상기 외부로부터 수신되는 이미지에 대한 깊이 이미지를 생성하는 깊이 추정부;
제1 내지 제m 배경 타입들 중의 하나에 상응하는 배경을 갖는 복수의 배경 학습 이미지들 및 상기 복수의 배경 학습 이미지들에 대해 상기 깊이 추정부로부터 생성되는 복수의 깊이 이미지들을 사용하여 상기 복수의 배경 학습 이미지들 각각의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류하는 학습을 수행하여 배경 추정 모델을 생성하고, 상기 복수의 입력 프레임들, 상기 복수의 입력 프레임들에 대해 상기 깊이 추정부로부터 생성되는 복수의 깊이 이미지들, 및 상기 배경 추정 모델에 기초하여 상기 복수의 입력 프레임들 각각의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류하는 배경 분류기;
상기 객체 추적 장치로부터 수신되는 상기 복수의 입력 프레임들 각각에 대한 상기 2차원 좌표 및 상기 깊이 추정부로부터 수신되는 상기 복수의 입력 프레임들 각각에 대한 상기 깊이 이미지에 기초하여 상기 복수의 입력 프레임들 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표를 생성하는 3차원 좌표 변환부; 및
상기 배경 분류기로부터 수신되는 상기 복수의 입력 프레임들 각각의 배경 타입에 기초하여 상기 복수의 입력 프레임들 각각의 잔향 시간(reverberation time)을 결정하고, 상기 잔향 시간을 사용하여 상기 목표 객체에 상응하는 오디오 데이터를 편집하고, 상기 편집된 오디오 데이터를 상기 복수의 입력 프레임들 각각의 상기 3차원 좌표와 연결하여 몰입형(immersive) 오디오-비디오 데이터를 생성하는 오디오 믹서를 포함하는 몰입형 오디오-비디오 데이터 생성 장치.
제5 항에 있어서, 상기 배경 분류기는,
상기 입력 프레임에 기초하여 제1 내지 제m 값들 중의 하나를 제1 출력값으로 출력하는 제1 컨볼루션 신경망; 및
상기 입력 프레임에 대한 상기 깊이 이미지에 기초하여 상기 제1 내지 제m 값들 중의 하나를 제2 출력값으로 출력하는 제2 컨볼루션 신경망을 포함하고,
상기 배경 분류기는 상기 제1 출력값 및 상기 제2 출력값에 기초하여 상기 입력 프레임의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류하는 몰입형 오디오-비디오 데이터 생성 장치.
제5 항에 있어서, 상기 오디오 믹서는,
상기 제1 내지 제m 배경 타입들에 대응되는 제1 내지 제m 잔향 시간들을 미리 저장하고,
상기 배경 분류기로부터 수신되는 h(h는 양의 정수)번째 입력 프레임의 배경 타입이 제i(i는 m이하의 양의 정수) 배경 타입에 상응하는 경우, 상기 h번째 입력 프레임에서의 상기 목표 객체에 상응하는 상기 오디오 데이터가 상기 제i 잔향 시간을 갖도록 상기 오디오 데이터를 편집하고, 상기 편집된 오디오 데이터를 상기 h번째 입력 프레임의 상기 3차원 좌표와 연결하여 상기 몰입형 오디오-비디오 데이터를 생성하는 몰입형 오디오-비디오 데이터 생성 장치.
제5 항에 있어서, 상기 객체 추적 장치는,
상기 첫 번째 입력 프레임에서 상기 목표 객체를 설정하고, 상기 목표 객체의 위치에 상응하는 최초 경계 박스(bounding box)를 생성하는 목표 객체 설정부;
상기 나머지 입력 프레임들 각각에 대해 GOTURN(General Object Tracking Using Regression Network) 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제1 경계 박스를 생성하는 GOTURN 추적기;
상기 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제2 경계 박스를 생성하는 Mean-shift 추적기;
n(n은 2 이상의 정수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도, 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도, 상기 n번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 (n-k)(k는 n 미만의 자연수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도, 및 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 (n-k)번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도를 결정하는 컬러 히스토그램 분석기;
상기 제1 내지 제4 유사도들을 사용하여 상기 GOTURN 추적기 및 상기 Mean-shift 추적기 중의 하나를 나타내는 분류값을 출력하는 머신 러닝(Machine Learning) 기반의 추적기 분류기; 및
상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 2차원 좌표를 출력하는 판단부를 포함하는 몰입형 오디오-비디오 데이터 생성 장치.
제8 항에 있어서, 상기 분류값이 상기 Mean-shift 추적기를 나타내는 경우, 상기 판단부는,
상기 n번째 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 레벨을 계산하고,
상기 평균 밝기 레벨이 제1 문턱 레벨보다 낮거나 상기 제1 문턱 레벨보다 높은 제2 문턱 레벨보다 높은 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고,
상기 평균 밝기 레벨이 상기 제1 문턱 레벨 이상이고 상기 제2 문턱 레벨 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 몰입형 오디오-비디오 데이터 생성 장치.
제8 항에 있어서, 상기 분류값이 상기 Mean-shift 추적기를 나타내는 경우, 상기 판단부는,
상기 n번째 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 레벨을 계산하고,
상기 평균 밝기 레벨이 제1 문턱 레벨보다 낮거나 상기 제1 문턱 레벨보다 높은 제2 문턱 레벨보다 높은 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고,
상기 평균 밝기 레벨이 상기 제1 문턱 레벨 이상이고 상기 제2 문턱 레벨 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리를 계산하고,
상기 이격 거리가 문턱 거리보다 먼 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고,
상기 이격 거리가 상기 문턱 거리 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 몰입형 오디오-비디오 데이터 생성 장치.
제8 항에 있어서, 상기 분류값이 상기 Mean-shift 추적기를 나타내는 경우, 상기 판단부는,
상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리를 계산하고,
상기 이격 거리가 문턱 거리보다 먼 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고,
상기 이격 거리가 상기 문턱 거리 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 몰입형 오디오-비디오 데이터 생성 장치.
제8 항에 있어서, 상기 분류값이 상기 Mean-shift 추적기를 나타내는 경우, 상기 판단부는,
상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리를 계산하고,
상기 이격 거리가 문턱 거리보다 먼 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고,
상기 이격 거리가 상기 문턱 거리 이하인 경우, 상기 n번째 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 레벨을 계산하고,
상기 평균 밝기 레벨이 제1 문턱 레벨보다 낮거나 상기 제1 문턱 레벨보다 높은 제2 문턱 레벨보다 높은 경우, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하고,
상기 평균 밝기 레벨이 상기 제1 문턱 레벨 이상이고 상기 제2 문턱 레벨 이하인 경우, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 몰입형 오디오-비디오 데이터 생성 장치.
제8 항에 있어서, 상기 분류값이 상기 GOTURN 추적기를 나타내는 경우,
상기 판단부는, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 몰입형 오디오-비디오 데이터 생성 장치.
제8 항에 있어서, 상기 판단부는, 상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 경우, 상기 컬러 히스토그램 분석기로부터 수신되는 상기 제3 유사도와 기준값을 비교하고, 상기 제3 유사도가 상기 기준값보다 큰 경우, 상기 Mean-shift 추적기에 상기 n번째 입력 프레임의 상기 제1 경계 박스를 제공하고,
상기 Mean-shift 추적기는 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치를 상기 판단부로부터 수신되는 상기 제1 경계 박스로 초기화한 후, 상기 n번째 입력 프레임 이후로 수신되는 입력 프레임들에 대해 상기 목표 객체의 위치를 추적하는 동작을 수행하는 몰입형 오디오-비디오 데이터 생성 장치.
제8 항에 있어서, 상기 판단부는, 상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 경우, 상기 컬러 히스토그램 분석기로부터 수신되는 상기 제4 유사도와 기준값을 비교하고, 상기 제4 유사도가 상기 기준값보다 큰 경우, 상기 GOTURN 추적기에 상기 n번째 입력 프레임의 상기 제2 경계 박스를 제공하고,
상기 GOTURN 추적기는 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치를 상기 판단부로부터 수신되는 상기 제2 경계 박스로 초기화한 후, 상기 n번째 입력 프레임 이후로 수신되는 입력 프레임들에 대해 상기 목표 객체의 위치를 추적하는 동작을 수행하는 몰입형 오디오-비디오 데이터 생성 장치.
삭제
삭제
삭제
입력 영상 데이터에 상응하는 복수의 입력 프레임들 중의 첫 번째 입력 프레임에서 목표 객체를 설정하고, 상기 복수의 입력 프레임들 중에서 상기 첫 번째 입력 프레임을 제외한 나머지 입력 프레임들 각각에 대해 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 2차원 좌표를 출력하는 단계;
복수의 깊이 학습 이미지들 각각에 대해 깊이 정보를 추정하여 상기 복수의 깊이 학습 이미지들 각각에 대한 깊이 이미지를 생성하는 학습을 수행하여 깊이 추정 모델을 생성하는 단계;
상기 깊이 추정 모델을 사용하여 제1 내지 제m 배경 타입들 중의 하나에 상응하는 배경을 갖는 복수의 배경 학습 이미지들에 대한 복수의 깊이 이미지들을 생성하는 단계;
상기 복수의 배경 학습 이미지들 및 상기 복수의 배경 학습 이미지들에 대한 상기 복수의 깊이 이미지들을 사용하여 상기 복수의 배경 학습 이미지들 각각의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류하는 학습을 수행하여 배경 추정 모델을 생성하는 단계;
상기 깊이 추정 모델을 사용하여 상기 복수의 입력 프레임들에 대한 복수의 깊이 이미지들을 생성하는 단계;
상기 복수의 입력 프레임들, 상기 복수의 입력 프레임들에 대한 상기 복수의 깊이 이미지들, 및 상기 배경 추정 모델에 기초하여 상기 복수의 입력 프레임들 각각의 배경 타입을 상기 제1 내지 제m 배경 타입들 중의 하나로 분류하는 단계;
상기 복수의 입력 프레임들 각각에 대한 상기 2차원 좌표 및 상기 복수의 입력 프레임들 각각에 대한 상기 깊이 이미지에 기초하여 상기 복수의 입력 프레임들 각각에서 상기 목표 객체의 추적된 위치에 상응하는 3차원 좌표를 생성하는 단계; 및
상기 복수의 입력 프레임들 각각의 배경 타입에 기초하여 상기 복수의 입력 프레임들 각각의 잔향 시간을 결정하고, 상기 잔향 시간을 사용하여 상기 목표 객체에 상응하는 오디오 데이터를 편집하고, 상기 편집된 오디오 데이터를 상기 복수의 입력 프레임들 각각의 상기 3차원 좌표와 연결하여 몰입형(immersive) 오디오-비디오 데이터를 생성하는 단계를 포함하는 몰입형 오디오-비디오 데이터 생성 방법.
제19 항에 있어서, 상기 배경 추정 모델을 생성하는 단계는,
제1 내지 제m 출력 노드들을 포함하는 제1 컨볼루션 신경망에 상기 배경 학습 이미지를 입력하는 단계;
제(m+1) 내지 제(2m) 출력 노드들을 포함하는 제2 컨볼루션 신경망에 상기 배경 학습 이미지에 대한 상기 깊이 이미지를 입력하는 단계;
상기 제1 컨볼루션 신경망에 포함되는 상기 제1 내지 제m 출력 노드들로부터 출력되는 제1 출력값 및 상기 제2 컨볼루션 신경망에 포함되는 상기 제(m+1) 내지 제(2m) 출력 노드들로부터 출력되는 제2 출력값에 기초하여 하나의 손실 함수를 결정하는 단계; 및
상기 하나의 손실 함수에 기초하여, 상기 배경 학습 이미지의 배경이 제i(i는 m이하의 양의 정수) 배경 타입에 상응하는 경우 상기 제1 컨볼루션 신경망이 상기 제1 내지 제m 출력 노드들을 통해 제i 값에 상응하는 상기 제1 출력값을 출력하고 상기 제2 컨볼루션 신경망이 상기 (m+1) 내지 제(2m) 출력 노드들을 통해 상기 제i 값에 상응하는 상기 제2 출력값을 출력하도록 상기 제1 컨볼루션 신경망 및 상기 제2 컨볼루션 신경망을 동시에 학습시키는 단계를 포함하는 몰입형 오디오-비디오 데이터 생성 방법.
제19 항에 있어서, 상기 몰입형 오디오-비디오 데이터를 생성하는 단계는,
h(h는 양의 정수)번째 입력 프레임의 배경 타입에 기초하여 미리 정해진 제1 내지 제m 잔향 시간들 중의 하나를 선택하는 단계;
상기 h번째 입력 프레임에서의 상기 목표 객체에 상응하는 상기 오디오 데이터가 상기 선택된 잔향 시간을 갖도록 상기 오디오 데이터를 편집하는 단계; 및
상기 편집된 오디오 데이터를 상기 h번째 입력 프레임의 상기 3차원 좌표와 연결하는 단계를 포함하는 몰입형 오디오-비디오 데이터 생성 방법.
제19 항에 있어서, 상기 첫 번째 입력 프레임에서 상기 목표 객체를 설정하고, 상기 복수의 입력 프레임들 중에서 상기 나머지 입력 프레임들 각각에 대해 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 상기 2차원 좌표를 출력하는 단계는,
학습 영상 데이터를 사용하여 머신 러닝을 수행하여 추적 알고리즘 선택 모델을 생성하는 단계;
상기 첫 번째 입력 프레임에서 상기 목표 객체를 설정하고, 상기 목표 객체의 위치에 상응하는 최초 경계 박스를 생성하는 단계;
상기 나머지 입력 프레임들 각각에 대해 GOTURN 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제1 경계 박스를 생성하는 단계;
상기 나머지 입력 프레임들 각각에 대해 Mean-shift 추적 알고리즘을 사용하여 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 제2 경계 박스를 생성하는 단계;
n(n은 2 이상의 정수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제1 유사도, 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 첫 번째 입력 프레임에서 상기 최초 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제2 유사도, 상기 n번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램과 (n-k)(k는 n 미만의 자연수)번째 입력 프레임에서 상기 제1 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제3 유사도, 및 상기 n번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램과 상기 (n-k)번째 입력 프레임에서 상기 제2 경계 박스의 컬러 히스토그램 사이의 유사도에 상응하는 제4 유사도를 결정하는 단계;
상기 제1 내지 제4 유사도들을 상기 추적 알고리즘 선택 모델에 입력하여 상기 GOTURN 추적 알고리즘 및 상기 Mean-shift 추적 알고리즘 중의 하나를 나타내는 분류값을 출력하는 단계; 및
상기 n번째 입력 프레임에서 상기 제2 경계 박스에 상응하는 영역의 평균 밝기 및 상기 n번째 입력 프레임의 상기 제2 경계 박스와 (n-1)번째 입력 프레임의 상기 제2 경계 박스 사이의 이격 거리 중의 적어도 하나와 상기 분류값에 기초하여 상기 n번째 입력 프레임의 상기 제1 경계 박스 및 상기 제2 경계 박스 중의 하나를 상기 n번째 입력 프레임의 추적 경계 박스로 결정하고, 상기 n번째 입력 프레임에서 상기 목표 객체의 추적된 위치로서 상기 추적 경계 박스에 상응하는 상기 2차원 좌표를 출력하는 단계를 포함하는 몰입형 오디오-비디오 데이터 생성 방법.
제22 항에 있어서, 상기 첫 번째 입력 프레임에서 상기 목표 객체를 설정하고, 상기 복수의 입력 프레임들 중에서 상기 나머지 입력 프레임들 각각에 대해 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 상기 2차원 좌표를 출력하는 단계는,
상기 n번째 입력 프레임의 상기 제1 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 경우, 상기 제3 유사도와 기준값을 비교하는 단계; 및
상기 제3 유사도가 상기 기준값보다 큰 경우, 상기 n번째 입력 프레임에서 상기 Mean-shift 추적 알고리즘을 사용하여 추적된 상기 목표 객체의 위치를 상기 제1 경계 박스로 초기화하는 단계를 더 포함하는 몰입형 오디오-비디오 데이터 생성 방법.
제22 항에 있어서, 상기 첫 번째 입력 프레임에서 상기 목표 객체를 설정하고, 상기 복수의 입력 프레임들 중에서 상기 나머지 입력 프레임들 각각에 대해 상기 목표 객체의 위치를 추적하고, 상기 추적된 위치에 상응하는 상기 2차원 좌표를 출력하는 단계는,
상기 n번째 입력 프레임의 상기 제2 경계 박스를 상기 n번째 프레임의 상기 추적 경계 박스로 결정하는 경우, 상기 제4 유사도와 기준값을 비교하는 단계; 및
상기 제4 유사도가 상기 기준값보다 큰 경우, 상기 n번째 입력 프레임에서 상기 GOTURN 추적 알고리즘을 사용하여 추적된 상기 목표 객체의 위치를 상기 제2 경계 박스로 초기화하는 단계를 더 포함하는 몰입형 오디오-비디오 데이터 생성 방법.