WO2022065981A1

WO2022065981A1 - 동영상 처리 장치 및 방법

Info

Publication number: WO2022065981A1
Application number: PCT/KR2021/013231
Authority: WO
Inventors: 남우현; 손윤재; 정현권; 황성희
Original assignee: 삼성전자 주식회사
Priority date: 2020-09-28
Filing date: 2021-09-28
Publication date: 2022-03-31
Also published as: US20230239643A1; CN116210233A; EP4203518A4; EP4203518A1

Abstract

적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는, 제 1 DNN(Deep Neural Network)을 기반으로 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성하고,, 제 2 DNN을 기반으로 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하고, 제 3 DNN을 이용하여 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출하고, 제 1 고도 성분, 제 1 평면 성분 및 제 2 평면 성분으로부터 제 2 고도 성분을 생성하고, 특징 정보를 기반으로 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력하고, 상기 제 2 오디오 신호 및 상기 동영상 신호를 동기화하여 출력하는, 일 실시예에 따른 동영상 처리 장치가 개시된다.

Description

동영상 처리 장치 및 방법

본 개시는 동영상을 처리하는 분야에 관한 것으로, 구체적으로, 3차원 오디오 신호를 생성하는 분야에 관한 것이다. 보다 구체적으로, 본 개시는 2차원 오디오 신호로부터 AI(artificial intelligence) 기반으로 다수의 채널을 포함하는 3차원 오디오 신호를 생성하는 분야에 관한 것이다.

오디오 신호는 일반적으로 2 채널, 5.1 채널, 7.1 채널, 및 9.1 채널의 오디오 신호와 같은 2차원 오디오 신호가 일반적이다.

하지만, 2차원 오디오 신호는 높이 방향의 오디오 정보(고도 성분의 오디오 정보)가 불확실하거나 없기 때문에 음향의 공간적인 입체감을 제공하기 위해 3차원 오디오 신호(n채널 오디오 신호, 혹은 다채널 오디오 신호; n은 2보다 큰 정수)를 생성할 필요성이 있다.

일반적인 오디오 신호 획득 장치(예를 들어, 마이크)는 2차원 오디오 신호만을 획득할 수 있다는 점에서, 2차원 오디오 신호에서 개별 음원을 확보하고, 음원의 움직임을 고려하여, 믹싱 및 모니터링을 통해 3차원 오디오 신호를 생성하였으나, 이는 매우 난이도가 높고, 오랜 시간이 걸리는 작업이었다.

따라서, 2차원 오디오 신호에 대응하는 동영상 신호를 2차원 오디오 신호와 함께 활용하여 3차원 오디오 신호를 생성하는 방안이 요구된다.

일 실시예는 2차원 오디오 신호 및 2차원 오디오 신호에 대응하는 동영상 정보를 이용하여, 보다 용이하게 3차원 오디오 신호를 생성하는 것을 기술적 과제로 한다.

본 개시의 일 실시예에 따른 동영상 처리 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 제 1 DNN(Deep Neural Network)을 기반으로 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성하고,, 제 2 DNN을 기반으로 상기 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하고, 제 3 DNN을 이용하여 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출하고, 상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터 제 2 고도 성분을 생성하고, 상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력하고, 상기 제 2 오디오 신호 및 상기 동영상 신호를 동기화하여 출력한다.

상기 적어도 하나의 프로세서는 상기 복수의 시간별 주파수별 특징 정보를 생성할 때, 상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하고, 상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 상기 제 1 DNN을 이용하여 상기 동영상 신호로부터 동영상 내 객체의 움직임에 따른 M개(M은 1보다 크거나 같은 정수)의 1차원 영상 특징 맵 정보를 생성하고, 상기 1차원 영상 특징 맵 정보에 대하여 주파수 관련 타일링(tiling)을 수행하여 시간 및 주파수에 대한 M개의 영상 특징 맵 정보를 포함하는 상기 복수의 시간별 주파수별 특징 정보를 생성하는 것을 특징으로 한다.

상기 적어도 하나의 프로세서는 상기 제 2 DNN을 기반으로, 상기 제 1 고도 성분 및 제 1 평면 성분을 추출하고, 상기 제 3 DNN을 기반으로, 상기 제 2 평면 성분을 추출할 때, 상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하고, 상기 제 1 고도 성분에 대응하는, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-1 DNN을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하고, 상기 제 1 평면 성분에 대응하는, 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-2 DNN 을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하고, 상기 제 2 평면 성분에 대응하는, 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 3 DNN을 이용하여 상기 제 1 오디오 신호로부터 N+M개(N, M은 1보다 크거나 같은 정수)의 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하고, 상기 프로세서는 상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터, 제 2 고도 성분을 생성할 때, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보, 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보 및 상기 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 기초로, 상기 제 2 고도 성분에 대응하는, 시간에 대한 N+M개의 보정 맵 정보를 생성하고, 상기 시간에 대한 N+M개의 보정 맵 정보에 대하여 주파수 관련 타일링을 수행하여 상기 제 2 고도 성분에 대응하는, 시간 및 주파수에 대한 N+M개의 보정 맵 정보를 생성하는 것을 특징으로 한다.

상기 적어도 하나의 프로세서가 상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 상기 제 2 오디오 신호를 출력할 때, 상기 제 1 오디오 신호에 대한 주파수 변환 동작을 수행하여, 2채널에 대한 시간 및 주파수 정보를 생성하고, 상기 제 1 오디오 신호 내 오디오 특징을 생성하기 위한 제 4-1 DNN을 이용하여 상기 2채널에 대한 시간 및 주파수 정보로부터 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 생성하고, 상기 복수의 시간별 주파수별 특징 정보에 포함된 시간 및 주파수에 대한 M개의 영상 특징 맵 정보와 상기 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 기초로, N+M개의 오디오/영상 통합 특징 맵 정보를 생성하고, 주파수 도메인 제 2 오디오 신호를 생성하기 위한 제 4-2 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보로부터 n채널(n은 2보다 큰 정수)에 대한 상기 주파수 도메인 제 2 오디오 신호를 생성하고, 오디오 보정 맵 정보를 생성하기 위한 제 4-3 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보 및 상기 제 2 고도 성분에 대응하는, 시간 및 주파수에 대한 N+M개의 보정 맵 정보로부터 n채널에 대한 오디오 보정 맵 정보를 생성하고, 상기 n채널에 대한 오디오 보정 맵 정보를 기초로, 상기 n채널에 대한 주파수 도메인 제 2 오디오 신호에 대한 보정을 수행하여, n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 생성하고, 상기 n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 주파수 역변환하여 n채널에 대한 상기 제 2 오디오 신호를 출력하는 것을 특징으로 한다.

상기 적어도 하나의 프로세서는, 상기 시간에 대한 N+M개의 보정 맵 정보를 생성할 때, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보의 제 1 값과 상기 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보의 제 2 값의 관계를 고려하여 설정된 비례수 및 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보의 제 3 값을 기초로, 상기 시간에 대한 N+M개의 보정 맵 정보의 제 4 값을 생성하고, 상기 제 4 값을 포함하는 상기 시간에 대한 N+M개의 보정 맵 정보를 생성하는 것을 특징으로 한다.

상기 제 2 오디오 신호를 출력할 때, 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN을 기반으로 하고, 상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 제 1 DNN, 상기 제 1 고도 성분 및 상기 제 1 평면 성분을 추출하기 위한 제 2 DNN, 상기 제 2 평면 성분을 추출하기 위한 제 3 DNN 및 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN은 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호를 기초로 복원된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호와, 제 1 훈련 3차원 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련되는 것을 특징으로 한다.

상기 제 2 오디오 신호를 출력할 때, 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN을 기반으로 하고, 상기 시간 및 주파수에 대한 N+M개의 보정 맵 정보는, 사용자 입력 파라메터 정보를 기초로 수정되고, 상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 제 1 DNN, 상기 제 1 고도 성분 및 상기 제 1 평면 성분을 추출하기 위한 제 2 DNN, 상기 제 2 평면 성분을 추출하기 위한 제 3 DNN 및 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN은 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호 및 상기 사용자 입력 파라메터 정보를 기초로 복원된 주파수 도메인 훈련 복원 3차원 오디오 신호와 제 1 훈련 3차원 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련되는 것을 특징으로 한다.

제 1 훈련 2차원 오디오 신호 및 제 1 훈련 영상 신호는 상기 동영상 처리 장치와 동일한 장치이거나 상기 동영상 처리 장치와 연결된 다른 장치인, 휴대용 단말로부터 획득되고, 상기 제 1 훈련 3차원 오디오 신호는 상기 휴대용 단말에 포함되거나 장착된 앰비소닉 마이크로부터 획득되는 것을 특징으로 한다.

상기 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 결과 획득된 제 1 내지 제 4 DNN의 파라메터 정보는, 상기 동영상 처리 장치에 저장되거나, 상기 동영상 처리 장치와 연결된 단말로부터 수신되는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 동영상 처리 장치의 동영상 처리 방법은 제 1 DNN(Deep Neural Network)을 기반으로 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성하는 단계; 제 2 DNN을 기반으로 상기 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하는 단계; 제 3 DNN을 기반으로, 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출하는 단계; 상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터 제 2 고도 성분을 생성하는 단계; 상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력하는 단계; 및 상기 제 2 오디오 신호 및 상기 동영상 신호를 동기화하여 출력하는 단계를 포함한다.

상기 복수의 시간별 주파수별 특징 정보를 생성하는 단계는, 상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하는 단계; 상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 상기 제 1 DNN(Deep Neural Network)을 이용하여 상기 동영상 신호로부터 동영상 내 객체의 움직임에 따른 M개(M은 1보다 크거나 같은 정수)의 1차원 영상 특징 맵 정보를 생성하는 단계; 및 상기 1차원 영상 특징 맵 정보에 대하여 주파수 관련 타일링(tiling)을 수행하여 시간 및 주파수에 대한 M개의 영상 특징 맵 정보를 포함하는 상기 복수의 시간별 주파수별 특징 정보를 생성하는 단계를 포함하는 것을 특징으로 한다.

상기 제 2 DNN을 기반으로, 상기 제 1 고도 성분 및 제 1 평면 성분을 추출하는 단계 및 상기 제 3 DNN을 기반으로, 상기 제 2 평면 성분을 추출하는 단계는, 상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하는 단계; 상기 제 1 고도 성분에 대응하는, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-1 DNN을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하는 단계; 상기 제 1 평면 성분에 대응하는, 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-2 DNN 을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하는 단계; 상기 제 2 평면 성분에 대응하는, 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 3 DNN을 이용하여 상기 제 1 오디오 신호로부터 N+M개(N, M은 1보다 크거나 같은 정수)의 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하는 단계; 상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터, 제 2 고도 성분을 생성할 때, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보, 상기 수직 방향으로의 움직임 대응 특징 맵 정보 및 상기 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 기초로, 상기 제 2 고도 성분에 대응하는, 시간에 대한 N+M개의 보정 맵 정보를 생성하는 단계; 및 상기 시간에 대한 N+M개의 보정 맵 정보에 대하여 주파수 관련 타일링을 수행하여 상기 제 2 고도 성분에 대응하는, 시간 및 주파수에 대한 N+M개의 보정 맵 정보를 생성하는 단계를 포함한다.

상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 상기 제 2 오디오 신호를 출력하는 단계는,상기 제 1 오디오 신호에 대한 주파수 변환 동작을 수행하여, 2채널에 대한 시간 및 주파수 정보를 획득하는 단계; 상기 제 1 오디오 신호 내 오디오 특징을 생성하기 위한 제 4-1 DNN을 이용하여 상기 2채널에 대한 시간 및 주파수 정보로부터 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 생성하는 단계; 상기 복수의 시간별 주파수별 특징 정보에 포함된 시간 및 주파수에 대한 M개의 영상 특징 맵 정보와, 상기 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 기초로, N+M개의 오디오/영상 통합 특징 맵 정보를 생성하는 단계; 및 주파수 도메인 제 2 오디오 신호를 생성하기 위한 제 4-2 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보로부터 n채널(n은 2보다 큰 정수)에 대한 상기 주파수 도메인 제 2 오디오 신호를 획득하는 단계; 오디오 보정 맵 정보를 생성하기 위한 제 4-3 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보로부터 상기 제 2 고도 성분에 대응하는, n채널에 대한 상기 오디오 보정 맵 정보를 생성하는 단계; 상기 n채널에 대한 N+M개의 오디오/영상 보정 맵 정보를 기초로, 상기 n채널에 대한 주파수 도메인 제 2 오디오 신호에 대한 보정을 수행하여, n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 생성하는 단계; 및 상기 n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 주파수 역변환하여 n채널에 대한 상기 제 2 오디오 신호를 출력하는 단계를 포함한다.

상기 제 2 오디오 신호를 출력할 때, 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN을 기반으로 하고, 상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 제 1 DNN, 상기 제 1 고도 성분 및 상기 제 1 평면 성분을 추출하기 위한 제 2 DNN, 제 2 평면 성분을 추출하기 위한 제 3 DNN 및 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN은 제 1 2차원 훈련 오디오 신호, 제 1 대응 훈련 영상 신호를 기초로 복원된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호와, 제 1 대응 3차원 훈련 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련되는 것을 특징으로 한다.

*본 개시의 일 실시예에 따른 컴퓨터로 읽을 수 있는 기록매체는 상기 방법을 실행하기 위한 프로그램을 기록한다.

본 명세서에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.

도 1은 일 실시예에 따른 동영상 처리 장치의 구성을 도시하는 블록도이다.

도 2는 일 실시예에 따른, 영상 특징 정보 생성부(110)의 구체적인 동작을 설명하기 위한 도면이다.

도 3은 일 실시예에 따른 제 1 DNN(300)을 설명하기 위한 도면이다.

도 4는 일 실시예에 따른, 보정 정보 생성부(120)의 구체적인 동작을 설명하기 위한 도면이다.

도 5a 내지 5b는 도메인 매칭 파라메터 α_inf 를 획득하기 위해 이용된 수학식 1이 도출된 이론적 배경을 설명하기 위한 도면이다.

도 5c는, 동영상 신호 내 객체의 움직임과 2차원 오디오 신호 내 음원의 움직임을 분석하여 3차원 오디오 신호를 생성하기 위해 필요한, 오디오 신호 내 음원의 고도 성분을 추정하는 알고리즘을 설명하기 위한 도면이다.

도 6a는 제 2-1 DNN(600)을 설명하기 위한 도면이다.

도 6b는 제 2-2 DNN(650)을 설명하기 위한 도면이다.

도 7는 제 3 DNN(700)을 설명하기 위한 도면이다.

도 8은 일 실시예에 따른, 3차원 오디오 출력부(130)의 구체적인 동작을 설명하기 위한 도면이다.

도 9는 일 실시예에 따른 제 4-1 DNN(900)을 설명하기 위한 도면이다.

도 10은 일 실시예에 따른 제 4-2 DNN(1000)을 설명하기 위한 도면이다.

도 11는 일 실시예에 따른 제 4-3 DNN(1100)을 설명하기 위한 도면이다.

도 12는 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 방법을 설명하기 위한 도면이다.

도 13은 사용자 파라메터 신호를 고려한 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 방법을 설명하기 위한 도면이다.

도 14는 훈련 장치(1400)에 의한 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 과정을 설명하기 위한 흐름도이다.

도 15는 사용자 파라메터를 고려하여, 훈련 장치(1500)에 의한 제 1 DNN, 제 2 DNN, 제 3 DNN, 및 제 4 DNN의 훈련 과정을 설명하기 위한 흐름도이다.

도 16은 사용자가 사용자 단말(1610)을 이용하여 훈련을 위한 데이터를 수집하는 과정을 설명하기 위한 도면이다.

도 17은 일 실시예에 따른 동영상 처리 방법을 설명하는 순서도이다.

일 실시예에 의하면, 2차원 오디오 신호 및 이에 대응하는 동영상 신호를 이용하여 3차원 오디오 신호를 생성할 수 있다.

다만, 일 실시예에 따른 동영상 처리 장치 및 방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 실시예의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 명세서에서 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 명세서에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.

또한, 본 명세서에서 'DNN(deep neural network)'은 뇌 신경을 모사한 인공신경망 모델의 대표적인 예시로써, 특정 알고리즘을 사용한 인공신경망 모델로 한정되지 않는다.

또한, 본 명세서에서 '파라메터'는 뉴럴 네트워크를 이루는 각 레이어의 연산 과정에서 이용되는 값으로서 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용되는 가중치(및 바이어스)를 포함할 수 있다. 파라메터는 매트릭스 형태로 표현될 수 있다. 파라메터는 훈련의 결과로 설정되는 값으로서, 필요에 따라 별도의 훈련 데이터(training data)를 통해 갱신될 수 있다.

또한, 본 명세서에서 '제 1 DNN'은 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성하기 위해 이용되는 DNN을 의미하고, '제 2 DNN'은 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하기 위해 이용되는 DNN을 의미하고, '제 3 DNN'은 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출하기 위해 이용되는 DNN을 의미할 수 있다. '제 2 DNN' 및 '제 3 DNN'은 동영상 신호 및 동영상 신호에 대응하는 2차원 오디오 신호로부터, 2차원 오디오 신호 내 오디오 특징과 동영상 신호 내 영상 특징 간 보정 정보를 생성하기 위해 이용되는 DNN을 의미할 수 있다. 이때, 오디오 신호 내 오디오 특징과 동영상 신호 내 영상 특징 간 보정 정보는 후술할 3차원 오디오 신호에 포함될 제 2 고도 성분에 대응하는 정보로, 동영상/오디오 신호의 도메인 간에 불일치하는 고도 성분을 매칭하기 위해 이용되는 정보일 수 있다. '제 4 DNN'은 상기 보정 정보 및 복수의 시간별 주파수별 특징 정보를 기초로, 고도 성분을 갖지 않는 제 1 오디오 신호로부터 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력하기 위해 이용되는 DNN을 의미할 수 있다. 이때, 제 2 고도 성분은 제 1 고도 성분, 제 1 평면 성분 및 제 2 평면 성분으로부터 생성될 수 있다. 한편, '제 2 DNN'은 영상 신호의 수평 방향의 움직임 대응 특징 정보를 생성하기 위해 이용되는 '제 2-1 DNN', 영상 신호의 수직 방향의 움직임 대응 특징 정보를 생성하기 위해 이용되는 '제 2-2 DNN'을 포함할 수 있다.

'제 3 DNN'은 2차원 오디오 신호의 수평 방향의 움직임 대응 특징 정보를 생성하기 위해 이용될 수 있다.

'제 4 DNN'은 2차원 오디오 신호로부터 오디오 특징 정보를 생성하기 위해 이용되는 '제 4-1 DNN', 오디오 특징 정보와 영상 특징 정보가 통합된 오디오/영상 통합 특징 정보로부터 3차원 오디오 신호를 생성하기 위해 이용되는 '제 4-2 DNN', 오디오/영상 통합 특징 정보와 상기 보정 정보를 기초로 주파수에 대한 보정 정보를 생성하기 위해 이용되는 '제 4-3 DNN'을 포함할 수 있다.

이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.

전술한 바와 같이, 음향의 공간적인 입체감을 제공하기 위해, 많은 오디오 신호의 채널 수를 갖는 3차원 오디오 신호를 손쉽게 생성하기 위한 방안이 필요하다.

도 1에 도시된 바와 같이, 동영상 처리 장치(100)는 2차원 오디오 신호(102) 및 2차원 오디오 신호(102)에 대응하는 동영상 신호(101)를 입력으로 하여, 3차원 오디오 신호(103)를 생성할 수 있다. 여기서 2차원 오디오 신호(102)는 2 채널, 5.1 채널, 7.1 채널 및 9.1 채널의 오디오 신호와 같이, 높이 방향의 오디오 정보(고도 성분의 오디오 정보)가 불확실하거나 포함되지 않고, 좌우 방향 및 앞뒤 방향의 오디오 정보(평면 성분의 오디오 정보)가 확실한 오디오 신호를 의미한다. 예를 들어, 2차원 오디오 신호(102)는 L(left) 채널과 R(right) 채널을 포함하는 스테레오 오디오일 수 있다.

이때, 2차원 오디오 신호(102)는 동일한 높이에 위치하는 오디오 신호 출력 장치들을 통하여 출력될 수 있고, 사용자는 따라서, 좌우 방향 및 앞뒤 방향에 대하여 음향의 공간적인 입체감을 느낄 수 있다.

한편, 3차원 오디오 신호(103)는 좌우 방향 및 앞뒤 방향의 오디오 정보뿐 아니라, 높이 방향의 오디오 정보를 포함하는 오디오 신호를 의미한다. 예를 들어, 3차원 오디오 신호(103)는 W 채널, X 채널, Y 채널 및 Z 채널을 포함하는 4 채널 앰비소닉(ambisonic) 오디오 신호일 수 있으나, 이에 제한되지 않는다. 여기서, W 채널 신호는 전 방향 음원의 세기의 합을 나타내고, X 채널 신호는 전후 음원의 세기의 차이를 나타내고, Y 채널 신호는 좌우 음원의 세기의 차이를 나타내고, Z 채널 신호는 상하 음원의 세기의 차이를 나타낼 수 있다.

즉, 높이 방향의 오디오 신호(고도 성분의 오디오 신호)를 효과적으로 포함할 수 있도록 채널이 구성된다면, 일반적으로 3차원 오디오 신호(103)는 2 채널보다 많은 채널 수를 갖는 다 채널의 앰비소닉 오디오 신호를 포함할 수 있다. 이때, 3차원 오디오 신호는 다른 높이에 위치하는 오디오 신호 출력 장치들을 통하여 출력될 수 있고, 사용자는 따라서, 좌우 방향 및 앞뒤 방향뿐 아니라, 상하 방향(높이 방향)에 대하여 음향의 공간적인 입체감을 느낄 수 있다.

본 개시의 실시예에서는, 2차원 오디오 신호에 대응하는 동영상 신호(101)로부터 영상 특징 정보(시간별 주파수별 특징 정보)를 획득하고, 영상 특징 정보에 포함된 동영상 내 객체(오디오 내 음원에 대응됨)의 움직임 대응 특징(제 1 고도 성분, 제 1 평면 성분에 대응)을 기초로, 2차원 오디오 신호가 확실하게 갖고 있지 않은 음원(동영상 내 객체에 대응됨)의 상하 방향(높이 방향)의 움직임 대응 특징(제 2 고도 성분에 대응)을 생성함으로써, 2차원 오디오 신호(102)로부터 3차원 오디오 신호(103)를 생성할 수 있다.

한편, 오디오의 도메인과 영상의 도메인 간에 약간의 차이가 존재할 수 있다. 즉, 동영상 내 객체 움직임 정보는 좌우(X축), 상하 방향(Z축)의 움직임 정보는 비교적 명확하나, 앞뒤 방향(Y축)의 움직임 정보는 불확실하다. 동영상의 특성상 동영상 내 객체 움직임 정보는 앞뒤 방향 관련 정보를 포함하기 어렵기 때문이다.

따라서, 동영상 내 객체 움직임 정보를 그대로 이용하여 2차원 오디오 신호로부터 3차원 오디오 신호를 생성한다면, 오차가 발생할 수 있다. 한편, 2차원 오디오 신호는 2채널의 스테레오 신호의 경우, 2차원 오디오 신호 내 음원(객체에 대응) 움직임 정보는 좌우(X축), 앞뒤 방향(Y축)의 움직임 정보는 비교적 명확하나, 상하 방향(Z축)의 움직임 정보는 불확실하다.

따라서, 동영상 내 객체 움직임 정보의 좌우(X축) 방향(수평 방향)의 움직임 정보와 2차원 오디오 신호 내 음원의 움직임 정보의 좌우(X축) 방향(수평 방향)의 움직임 정보 간의 차이(즉, 오디오의 도메인과 영상의 도메인 간의 차이/불일치)를 고려하여 보정한다면, 동영상 신호를 이용하여 효과적으로, 2차원 오디오 신호로부터 3차원 오디오 신호를 생성하여 출력할 수 있다. 한편, 동영상 처리 장치(100) 내 영상 특징 정보 생성부(110), 보정 정보 생성부(120) 및 3차원 오디오 출력부(130)는 AI 기반으로 구현될 수 있고, 영상 특징 정보 생성부(110), 보정 정보 생성부(120) 및 3차원 오디오 출력부(130)를 위한 AI는 DNN(deep neural network)으로 구현될 수 있다.

도 1을 참조하면, 일 실시예에 따른 동영상 처리 장치(100)는 영상 특징 정보 생성부(110), 보정 정보 생성부(120), 3차원 오디오 출력부(130) 및 동기화부(140)를 포함할 수 있다. 이에 제한되지 않고, 도 1에 도시된 바와 같이, 일 실시예에 따른 동영상 처리 장치(100)는 주파수 변환부(125)를 더 포함할 수 있다. 또는, 주파수 변환부(125)는 3차원 오디오 출력부(130)에 포함될 수 있다.

도 1은 영상 특징 정보 생성부(110), 보정 정보 생성부(120), 주파수 변환부(125), 3차원 오디오 출력부(130) 및 동기화부(140)를 개별적인 구성으로 도시하고 있으나, 영상 특징 정보 생성부(110), 보정 정보 생성부(120), 주파수 변환부(125), 3차원 오디오 출력부(130) 및 동기화부(140)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 전용 프로세서로 구현될 수도 있고, AP(application processor) 또는 CPU(central processing unit), GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.

영상 특징 정보 생성부(110), 보정 정보 생성부(120), 주파수 변환부(125), 3차원 오디오 출력부(130) 및 동기화부(140)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP 또는 CPU, GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.

영상 특징 정보 생성부(110)는 2차원 오디오 신호(102)에 대응하는 동영상 신호(101)로부터 영상 특징 정보를 획득할 수 있다. 영상 특징 정보는, 영상 내 객체와 같이 움직임이 존재하는 대응 특징과 관련된 (시간별/주파수별) 성분에 관한 정보로, 복수의 시간별 주파수별 특징 정보일 수 있다. 해당 객체는 2차원 오디오 신호(102)의 음원에 대응될 수 있고, 따라서, 영상 특징 정보는 3차원 오디오 생성을 위한 음원에 대응하는 비주얼 특징 패턴 맵 정보일 수 있다.

영상 특징 정보 생성부(110)는 AI를 기반으로 구현될 수 있다. 영상 특징 정보 생성부(110)는 제 1 DNN을 기반으로, 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성할 수 있다. 제 1 DNN에 관한 일 예는, 도 3을 참조하여 후술하기로 한다.

영상 특징 정보 생성부(110)는 동영상 신호를 2차원 오디오 신호와 동기화하고, 제 1 DNN을 이용하여 동영상 신호(101)로부터 동영상 내 객체의 (위치 또는) 움직임에 따른 M(M은 1보다 크거나 같은 정수)개의 1차원 영상 특징 맵 정보를 획득할 수 있다. 즉, M개의 샘플은 영상 내 객체의 (위치 또는) 움직임에 대응하는 특징 패턴을 나타낼 수 있다. 즉, 적어도 하나의 프레임(또는 프레임 빈)으로부터 1차원 영상 특징 맵 정보가 생성될 수 있다. 한편, 1차원 영상 특징 맵 정보를 반복적으로 획득함으로써, 복수의 프레임 빈을 갖는 2차원 영상 특징 맵 정보(시간별 특징 정보)가 획득될 수 있다.

영상 특징 정보 생성부(110)는 주파수에 대한 타일링을 수행하여, 모든 주파수 빈에 대하여 동일한 값을 채움으로써, 영상 특징, 프레임 빈 및 주파수 빈 성분을 갖는 3차원 영상 특징 맵 정보(시간별 주파수별 특징 정보)가 획득될 수 있다. 즉, 시간 및 주파수에 대한 M개의 영상 특징 맵 정보가 획득될 수 있다. 여기서, 주파수 빈이란, 각 샘플이 어느 주파수(범위)에 해당하는 값을 가지고 있는지를 나타내는 일종의 주파수 인덱스를 의미한다. 또한, 프레임 빈이란, 각 샘플이 어느 프레임(범위)에 해당하는 값을 가지고 있는지를 나타내는 일종의 프레임 인덱스를 의미한다.

영상 특징 정보 생성부(110)의 구체적인 동작과 관련하여, 도 2를 참조하여 후술하고, 제 1 DNN에 관한 일 예는, 도 3을 참조하여 후술하기로 한다.

보정 정보 생성부(120)는 동영상 신호(101) 및 2차원 오디오 신호(102)로부터, 2차원 오디오 신호(102) 내 오디오 특징과 동영상 신호(101) 내 영상 특징 간 보정 정보를 생성할 수 있다. 2차원 오디오 신호(102) 내 오디오 특징은, 오디오 내 음원(객체에 대응됨)의 움직임에 대응하는 특징 성분을 의미할 수 있다. 보정 정보 생성부(120)는 AI를 기반으로 구현될 수 있다. 보정 정보 생성부(120)는 제 2 DNN을 기반으로, 동영상 신호(101)로부터 동영상 내 객체(음원에 대응됨)의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하고, 제 3 DNN을 기반으로, 고도 성분을 갖지 않는 2차원 오디오 신호(102)로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출할 수 있다. 보정 정보 생성부(120)는 제 1 고도 성분, 제 1 평면 성분, 상기 제 2 평면 성분으로부터 제 2 고도 성분에 대응하는 보정 정보를 생성할 수 있다.

즉, 보정 정보 생성부(120)는 제 2 DNN 및 제 3 DNN을 이용하여 동영상 신호 및 동영상 신호에 대응하는 2차원 오디오 신호로부터, 보정 정보를 생성할 수 있다. 제 2 DNN 및 제 3 DNN에 관한 일 예는, 도 6a 내지 도 7을 참조하여 후술하기로 한다.

보정 정보 생성부(120)는 동영상 신호(101)를 2차원 오디오 신호(102)와 동기화하고, 동영상 내 수평 방향으로의 움직임 대응 특징 정보(제 1 평면 성분에 대응) 및 영상 내 수직 방향으로의 움직임 대응 특징 정보(제 1 고도 성분에 대응)를 획득할 수 있다.

보정 정보 생성부(120)는 2차원 오디오 신호로부터 오디오 내 수평 방향으로의 움직임 대응 특징 정보(제 2 평면 성분에 대응)를 획득할 수 있다.

구체적으로, 보정 정보 생성부(120)는 제 2-1 DNN을 이용하여 동영상 신호(101)로부터 시간에 대한 N+M(N,M은 1보다 크거나 같은 정수)의 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 획득할 수 있다. 즉, 복수의 프레임 빈 성분, N+M 개의 움직임 대응 특징 성분을 포함하는 2차원 맵 정보가 획득될 수 있다.

한편, 보정 정보 생성부(120)는 제 2-2 DNN을 이용하여 동영상 신호(101)로부터 시간에 대한 N+M(N, M은 1보다 크거나 같은 정수)의 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 획득할 수 있다. 즉, 복수의 프레임 빈 성분, N+M개의 움직임 대응 특징 성분을 포함하는 2차원 맵 정보가 획득될 수 있다.

한편, 제 2-1 DNN 및 제 2-2 DNN의 일 예는, 도 6a 및 6b를 참조하여 후술하기로 한다.

보정 정보 생성부(120)는 제 3 DNN을 이용하여 2차원 오디오 신호(102)로부터 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 획득할 수 있다. 즉, 복수의 프레임 빈 성분, N+M개의 움직임 대응 특징 성분을 포함하는 2차원 맵 정보가 획득될 수 있다. 한편, 제 3 DNN의 일 예는, 도 7을 참조하여 후술하기로 한다.

보정 정보 생성부(120)는 동영상 내 수평 방향으로의 움직임 대응 특징 정보 및 동영상 내 수직 방향으로의 움직임 대응 특징 정보와 오디오 내 수평 방향으로의 움직임 대응 특징 정보를 기초로, 시간에 대한 보정 정보를 생성할 수 있다.

구체적으로, 보정 정보 생성부(120)는 시간에 대한 N+M 개의 영상 내 수평 및 수직 방향으로의 움직임 대응 특징 맵 정보 및 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 기초로, 시간에 대한 N+M개의 보정 맵 정보를 획득할 수 있다. 이때, 영상 내 수평 방향으로의 움직임 대응 특징 맵 정보의 제 1 값과, 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보의 제 2 값의 관계를 고려하여 설정된 비례수 및 영상 내 수직 방향으로의 움직임 대응 특징 맵 정보의 제 3 값을 기초로, 시간에 대한 N+M개의 보정 맵 정보의 제 4 값을 획득할 수 있고, 제 4 값을 포함하는 시간에 대한 N+M개의 보정 맵 정보를 생성할 수 있다.

보정 정보 생성부(120)는 시간에 대한 보정 정보에 대하여 주파수 관련 타일링을 수행하여 시간 및 주파수에 대한 보정 정보를 획득할 수 있다. 예를 들어, 보정 정보 생성부(120)는 복수의 프레임 빈 성분, 복수의 주파수 빈 성분 및 N+M 개의 보정 파라메터 성분을 포함하는 보정 맵 정보를 획득할 수 있다. 즉, 보정 정보 생성부(120)는 모든 주파수 빈에 대하여 보정 파라메터 성분을 동일한 값으로 채움으로써, 보정 파라메터(또는 도메인 매칭 파라메터라 함), 프레임 빈, 주파수 빈 성분을 갖는 3차원 보정 맵 정보가 획득될 수 있다.

보정 정보 생성부(120)의 구체적인 동작과 관련하여, 도 4를 참조하여 후술하기로 한다.

주파수 변환부(125)는 STFT(Short Time Fourier Transform) 등의 다양한 변환 방법에 따라 2차원 오디오 신호(102)를 주파수 도메인 2차원 오디오 신호로 변환할 수 있다. 2차원 오디오 신호(102)는 채널 및 시간에 따라 구분되는 샘플들을 포함하며, 주파수 도메인 신호는 채널, 시간 및 주파수 빈(frequency bin)에 따라 구분되는 샘플들을 포함한다.

3차원 오디오 출력부(130)는 주파수 도메인 2차원 오디오 신호, 영상 특징 정보(복수의 시간별 주파수별 특징 정보) 및 보정 정보를 기초로, 3차원 오디오 신호를 생성 및 출력할 수 있다. 3차원 오디오 출력부(130)는 AI를 기반으로 구현될 수 있다. 3차원 오디오 출력부(130)는 제 4 DNN을 이용하여 2차원 오디오 신호로부터 영상 특징 정보를 기반으로 3차원 오디오 신호를 생성 및 출력할 수 있다. 제 4 DNN에 관한 일 예는, 도 9 내지 11을 참조하여 후술하기로 한다.

3차원 오디오 출력부(130)는 2차원 신호에 대한 주파수 변환 동작을 수행하여, 2채널에 대한, 시간 및 주파수 정보를 획득할 수 있다. 다만 이에 제한되지 않고, 전술한 바와 같이 주파수 변환부(125)가 3차원 오디오 출력부(130)와 별도로 존재하는 경우, 주파수 변환 동작 수행 없이, 주파수 도메인 2차원 오디오 신호 정보를 주파수 변환부(125)로부터 획득할 수 있다.

주파수 도메인 2차원 오디오 신호 정보는 2채널에 대한 시간(프레임 빈) 및 주파수 정보(주파수 빈)을 포함할 수 있다. 즉, 주파수 도메인 2차원 오디오 신호 정보는 주파수 빈 및 시간에 의해 구분되는 샘플 정보를 포함할 수 있다.

3차원 오디오 출력부(130)는 2채널에 대한 시간 및 주파수 정보로부터 시간 및 주파수에 대한 오디오 특징 정보를 생성할 수 있다. 구체적으로, 3차원 오디오 출력부(130)는 제 4-1 DNN을 이용하여 2채널에 대한 시간 및 주파수 정보로부터 시간 및 주파수에 대한 N개의 오디오 특징 맵 정보를 생성할 수 있다. 제 4-1 DNN의 일 예는, 도 9를 참조하여 후술하기로 한다.

3차원 오디오 출력부(130)는 시간 및 주파수에 대한 오디오 특징 정보(시간별 주파수별 오디오 특징 정보)와 시간 및 주파수에 대한 영상 특징 정보(시간별 주파수별 영상 특징 정보)를 기초로, 오디오/영상 통합 특징 정보를 생성할 수 있다. 구체적으로, 3차원 오디오 출력부(130)는 시간 및 주파수에 대한 M개의 영상 특징 맵 정보와 시간 및 주파수에 대한 N개의 오디오 특징 맵 정보를 기초로, N+M개의 오디오/영상 통합 특징 맵 정보를 생성할 수 있다.

3차원 오디오 출력부(130)는 오디오/영상 통합 특징 맵 정보로부터 n채널(n은 2보다 큰 정수)에 대한 주파수 도메인 3차원 오디오 신호를 생성할 수 있다. 구체적으로, 3차원 오디오 출력부(130)는 제 4-2 DNN을 이용하여 N+M개의 오디오/영상 통합 특징 맵 정보로부터 n채널에 대한 주파수 도메인 3차원 오디오 신호를 생성할 수 있다. 제 4-2 DNN의 일 예로, 도 10을 참조하여 후술하기로 한다.

3차원 오디오 출력부(130)는 오디오/영상 통합 특징 정보와, 시간 및 주파수에 대한 보정 정보를 기초로, n 채널에 대한 오디오 보정 정보를 획득할 수 있다. 구체적으로, 3차원 오디오 출력부(130)는 제 4-3 DNN을 이용하여 시간 및 주파수에 대한 N+M개의 오디오/영상 통합 특징 맵 정보 및 시간 및 주파수에 대한 N+M개의 보정 맵 정보로부터 n채널에 대한 오디오 보정 맵 정보(주파수에 대한 보정 정보)를 생성할 수 있다.

3차원 오디오 출력부(130)는 n채널에 대한 오디오 보정 맵 정보를 기초로, n 채널에 대한 주파수 도메인 3차원 오디오 신호에 대한 보정을 수행하여 n 채널에 대한 보정된 주파수 도메인 3차원 오디오 신호를 획득할 수 있다. 이때, 제 2 고도 성분을 포함하는 3차원 오디오 신호가 출력될 수 있고, 특히, 제 2 고도 성분은, n 채널에 대한 주파수 도메인 3차원 오디오 신호에 포함된 고도 성분에 대하여, 보정 정보를 기초로 보정함으로써 생성된 고도 성분이기 때문에, 오디오 내 음원의 움직임이 잘 반영된 성분일 수 있다. 3차원 오디오 출력부(130)는 n채널에 대한 보정된 주파수 도메인 3차원 오디오 신호를 주파수 역변환하여, n채널에 대한 3차원 오디오 신호를 생성 및 출력할 수 있다.

3차원 오디오 출력부(130)의 구체적인 모듈 및 동작과 관련하여, 도 8을 참조하여 후술하기로 한다.

한편, 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN은 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호를 기초로 복원된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호와, 제 1 훈련 3차원 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련될 수 있다. 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련과 관련하여 도 12를 참조하여 후술하기로 한다.

한편, 시간 및 주파수에 대한 보정 정보는, 사용자 (입력) 파라메터 정보를 기초로 수정될 수 있다. 이때, 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN은 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호 및 사용자 파라메터 정보를 기초로 복원된 주파수 도메인 훈련 복원 3차원 오디오 신호와, 제 1 훈련 3차원 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련될 수 있다. 사용자 입력 파라메터를 추가적으로 고려한 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련과 관련하여 도 13을 참조하여 후술하기로 한다.

한편, 제 1 훈련 2차원 오디오 신호 및 제 1 훈련 영상 신호는 동영상 처리 장치(또는 후술할 훈련 장치)와 동일한 장치이거나 상기 동영상 처리 장치(또는 후술한 훈련 장치)와 연결된 다른 장치인 휴대용 단말로부터 획득될 수 있다. 제 1 훈련 3차원 오디오 신호는 휴대용 단말에 포함되거나 장착된 앰비소닉 마이크로부터 획득될 수 있다. 휴대용 단말에서의 훈련 신호 획득과 관련하여, 도 16을 참조하여 후술하기로 한다.

한편, 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 결과 획득된 제 1 내지 제 3 DNN의 파라메터 정보는 동영상 처리 장치에 저장되거나, 동영상 처리 장치(또는 후술할 훈련 장치)와 연결된 단말로부터 수신될 수 있다.

동기화부(140)는 동영상 신호(101) 및 3차원 오디오 신호(103)를 동기화하여 동기화된 3차원 오디오 신호 및 동영상 신호를 출력할 수 있다. 이하에서는, 동영상 처리 장치(100)에 포함된 영상 특징 정보 생성부(110), 보정 정보 생성부(120) 및 3차원 오디오 출력부(130)의 구체적인 모듈 및 그 동작과 영상 특징 정보 생성부(110), 보정 정보 생성부(120) 및 3차원 오디오 출력부(130)에 포함된 제 1 DNN 내지 제 4 DNN에 대해 도 3 내지 도 11을 참조하여 설명한다.

도 2를 참조하면, 영상 특징 정보 생성부(110)는 동기화부(210), 제 1 DNN(220) 및 타일링부(230)을 포함할 수 있다.

먼저 동기화부(210)는 동영상 신호 V (t, h, w, 3)를 2차원 오디오 신호와 동기화할 수 있다. 즉, 2차원 오디오 신호의 샘플링 주파수(예를 들어, 48kHz)와 동영상 신호의 샘플링 주파수(예를 들어, 60Hz)는 상이하고, 특히, 오디오 신호의 샘플링 주파수가 영상 신호의 샘플링 주파수보다 상당히 크므로, 2차원 오디오 신호의 샘플과 이에 대응하는 동영상 신호의 샘플(프레임)을 매칭시키는 동기화 작업이 수행될 수 있다.

제 1 DNN(220)은 동기화된 동영상 신호 V (t, h, w, 3)로부터 영상 특징 정보 V_inf(1, 1, M')를 획득하기 위해 이용되는 DNN일 수 있다. 이때, 영상 특징 정보는 1차원의 M'개의 영상 특징 정보일 수 있다. 타일링부(230)는 제 1 DNN(220)을 이용하여 프레임 빈마다 1차원의 M'개의 영상 특징 정보를 누적하여, 복수의 프레임 빈(τ)(즉, 시간)에 대한 2차원의 M'개의 영상 특징 정보 V_inf (1, τ, M')를 획득할 수 있다.

타일링부(230)는 복수의 프레임 빈에 대한 2차원의 M'개의 영상 특징 정보 V_inf (1, τ, M')에 대하여 주파수 성분에 대한 타일링을 수행하여 복수의 프레임 빈(τ)(즉, 시간) 및 복수의 주파수 빈(f)(즉, 주파수)에 대한 3차원의 영상 특징 정보 V_inf (f, τ, M')를 획득할 수 있다. 즉, 2차원의 영상 특징 정보 V_inf (1, τ, M')를 기초로, 모든 주파수 성분에 대하여, 동일한 영상 특징 값을 채움으로써, 3차원의 영상 특징 정보 V_inf (1, τ, M')가 획득될 수 있다.

제 1 DNN(300)은 적어도 하나의 컨볼루션(convolution) 레이어, 풀링(Pooling) 레이어 및 풀리-커넥티드(Fully-Connected)(완전-연결) 레이어를 포함할 수 있다. 컨볼루션 레이어는 미리 결정된 크기의 필터로 입력 데이터를 처리하여 특징 데이터를 획득한다. 컨볼루션 레이어의 필터의 파라메터들은 후술하는 훈련 과정을 통해 최적화될 수 있다. 풀링 레이어는 입력 데이터의 크기를 줄이기 위해, 특징 데이터의 전체 샘플의 특징 값 중 일부 샘플의 특징 값만을 취하여 출력하기 위한 레이어로, 최대 풀링 레이어(Max Pooling Layer) 및 평균 풀링 레이어(Average Pooling Layer) 등을 포함할 수 있다. 풀리-커넥티드 레이어는 한 레이어의 뉴런이 그 다음 레이어의 모든 뉴런과 연결된 레이어로, 특징을 분류하기 위한 레이어이다.

다운스케일링 레이어는 풀링 레이어의 일 예로, 주로, 컨볼루션 레이어에 입력되기 전 입력 영상의 데이터 크기를 줄이기 위한 풀링 레이어를 의미할 수 있다.

도 3을 참조하면, 동영상 신호(301)가 제 1 DNN(300)으로 입력된다. 동영상 신호(301)는 입력 채널, 시간, 높이 및 너비로 구분되는 샘플들을 포함한다. 즉, 동영상 신호(301)는 샘플들의 4차원 데이터일 수 있다. 동영상 신호(301)의 각 샘플은 픽셀값일 수 있다. 동영상 신호(301)의 입력 채널은 RGB 채널로 3일 수 있으나, 이에 제한되지 않는다.

도 3은 동영상 신호(301)의 크기가 (t, h, w, 3)임을 도시하고 있는데, 이는, 동영상 신호(301)의 시간 길이가 t이고, 입력 채널 수는 3이고, 영상의 높이는 h이고, 영상의 너비는 w임을 나타낸다. t라는 시간 길이는 프레임의 개수가 t개임을 의미하고, 각 프레임은 소정의 시간 구간(예를 들어, 5ms)에 대응한다. 동영상 신호(301)의 크기가 (t, h, w, 3)라는 것은 하나의 예시일 뿐이며, 구현 예에 따라 동영상 신호(301)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다. 예를 들어, h,w는 224일 수 있으나, 이에 제한되지 않는다.

다운 스케일링 레이어(310)의 처리 결과, 동영상 신호(301)이 다운 스케일링되어, 제 1 중간 신호(302)가 획득될 수 있다. 즉, 다운 스케일링에 의해 동영상 신호(301)의 높이(h) 및 너비(w)에 의해 구분되는 샘플들의 개수가 줄어들게 되고, 동영상 신호(301)의 높이 및 너비가 줄어들게 된다. 예를 들어, 동영상 신호(301)의 높이 및 너비는 112일 수 있으나, 이에 제한되지 않는다.

제 1 컨볼루션 레이어(320)는 axb 크기의 c개의 필터로, 다운 스케일링된 영상 신호(제 1 중간 신호)(302)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(320)의 처리 결과, (112, 112, c) 크기의 제 2 중간 신호(303)가 획득될 수 있다. 이때, 제 1 컨볼루션 레이어(320)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.

제 1 풀링 레이어(330)을 이용하여, 제 2 중간 신호(303)에 대한 풀링이 수행될 수 있다. 예를 들어, 풀링 레이어(330)의 처리 결과, 제 3 중간 신호(14,14,c)가 획득될 수 있다.

제 2 컨볼루션 레이어(340)는 dxe 크기의 f개의 필터로 입력된 신호를 처리한다. 제 2 컨볼루션 레이어(340)의 처리 결과, (14, 14, f) 크기의 제 4 중간 신호(305)가 획득될 수 있다.

한편, 제 3 컨볼루션 레이어(350)는 1x1 컨볼루션 레이어일 수 있다. 제 3 컨볼루션 레이어(350)는 채널 수를 조절하기 위해 이용될 수 있다. 제 3 컨볼루션 레이어(350)의 처리 결과, (14,14,g) 크기의 제 5 중간 신호(306)가 획득될 수 있다.

제 1 풀리 커넥티드 레이어(360)은 입력된 특징 신호를 분류하여 1차원의 특징 신호를 출력할 수 있다. 제 1 풀리 커넥티드 레이어(360)의 처리 결과, (1, 1, M') 크기의 영상 특징 신호(307)가 획득될 수 있다.

본 개시의 일 실시예에 따른 제 1 DNN(300)은 동영상 신호(301)로부터 영상 객체(음원에 대응)의 움직임에 대응하는 영상 특징 신호(307)를 획득한다. 즉, 도 3은 제 1 DNN(300)이 3개의 컨볼루션 레이어, 1개의 다운스케일링 레이어 및 1개의 풀링 레이어 및 1개의 풀리 커넥티드 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 동영상 신호(301)로부터 M개의 영상 특징을 포함하는 영상 특징 신호(307)를 획득할 수 있다면, 제 1 DNN(300)에 포함되는 컨볼루션 레이어, 다운 스케일링 레이어, 풀링 레이어, 풀리 커넥티드 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.

도 4를 참조하면, 보정 정보 생성부(120)는 동기화부(410), 제 2 DNN 및 제 3 DNN(420), 보정 맵 정보 생성부(430) 및 타일링부(440)을 포함할 수 있다.

도 4를 참조하면, 동기화부(410)는 동영상 신호 V (t, h, w, 3)를 2차원 오디오 신호와 동기화할 수 있다. 즉, 2차원 오디오 신호의 샘플과 이에 대응하는 영상 신호의 샘플(프레임)을 매칭시키는 동기화 작업이 수행될 수 있다.

제 2-1 DNN(421)은 동기화된 동영상 신호 V (t, h, w, 3)로부터 수평 방향으로의 영상 움직임 대응 특징 맵 정보 m_v_H (1, τ, N+M')(제 1 평면 성분에 대응)를 생성하기 위해 이용되는 DNN일 수 있다. 이때, 수평 방향으로의 영상 움직임 대응 특징 맵 정보는 2차원의 시간(프레임 빈)에 대한 N+M'개(N과 M'는 1보다 크거나 같은 정수)의 영상 특징 정보일 수 있다.

제 2-2 DNN(422)는 동기화된 동영상 신호 V (t, h, w, 3)로부터 수직 방향으로의 영상 움직임 대응 특징 맵 정보 m_v_V (1, τ, N+M')(제 1 고도 성분에 대응)를 생성하기 위해 이용되는 DNN일 수 있다. 이때, 수직 방향으로의 영상 움직임 대응 특징 맵 정보는 2차원의 시간(프레임 빈)에 대한 N+M'개(N과 M'는 1보다 크거나 같은 정수)의 영상 특징 정보일 수 있다.

제 3 DNN(423)는 2차원 오디오 신호 A_In__2D(t,2)로부터 수평 방향으로의 오디오 움직임 대응 특징 맵 정보 m_a_H (1, τ, N+M')(제 2 평면 성분에 대응)를 생성하기 위해 이용되는 DNN일 수 있다. 이때, 수평 방향으로의 오디오 움직임 대응 특징 맵 정보는 2차원의 시간(프레임 빈)에 대한 N+M'개(N과 M'는 1보다 크거나 같은 정수)의 영상 특징 정보일 수 있다.

보정 맵 정보 생성부(430)는 수평 방향으로의 영상 움직임 대응 특징 맵 정보

m_v_H (1, τ, N+M'), 수직 방향으로의 영상 움직임 대응 특징 맵 정보

m_v_V (1, τ, N+M'), 수평 방향으로의 오디오 움직임 대응 특징 맵 정보

m_a_H (1, τ, N+M')로부터 보정 맵 정보 α_inf(1, τ, N+M')를 획득할 수 있다. 구체적으로, 보정 맵 정보 생성부(430)는 다음 수학식 1에 따라, 보정 맵 정보 α_inf(1, τ, N+M')를 획득할 수 있다.

상기 수학식 1은 다음과 같은 이론적 배경을 기반으로 한다. 이하 도 5a 내지 5b를 참조하여 도메인 매칭 파라메터 α_inf 를 획득하기 위해 이용된 수학식 1이 도출된 이론적 배경을 설명하겠다.

도 5a 및 도 5b를 참조하면, 케이스 1(510)과 케이스 2(520)와 같이 영상 내 객체의 움직임 정보(mv1, mv2)가 동일한 경우라고 하더라도, 케이스 1(510)의 영상 내 음원(영상 객체에 대응)의 움직임 정도 S와 케이스 2(520)의 영상 내 음원(객체에 대응)의 움직임 정도 S가 일치하지 않는 경우가 존재할 수 있다. 영상 센서 및 카메라 이미징 시스템이 근본적으로 가지는 영상 씬(scene)별 depth-wise perspective의 변형 정도의 차이가 존재하여 왜곡이 발생하기 때문으로, 영상 내 음원 객체의 정보와 오디오 내의 음원 객체의 움직임 정보가 근본적으로 대응되지 않기 때문이다.

따라서, 영상의 객체 움직임 대응 특징 정보를 그대로 이용하여 3차원 오디오의 생성에 이용하는데 이용하기 보다는, 움직임 정보의 불일치를 해결하기 위해 보정 파라메터(또는, 도메인 매칭 파라메터)를 획득할 수 있다.

즉, 영상 내 객체 움직임 정보는 좌우 방향(X 축 방향), 상하 방향(Z축 방향)의 움직임 정보는 이용할 수 있으나, 앞뒤 방향(Y축 방향)의 움직임 정보는 불확실하기 때문에 해당 움직임 정보를 그대로 3차원 오디오의 생성에 이용하는 경우, 오차가 클 수 있다.

한편, 오디오 내 음원 움직임 정보는 좌우 방향(X 축 방향), 앞뒤 방향(Y축 방향)의 움직임 정보는 이용할 수 있으나, 상하 방향(Z축 방향)의 움직임 정보는 불확실성이 존재할 수 있다.

이러한 움직임 정보의 불일치를 해결하기 위해, 공통적으로 확실성이 존재하는 X축 방향의 움직임 정보를 기반으로 보정 파라메터를 획득할 수 있다.

이때, 비교적 정확한 오디오 내 음원 움직임 정보 중 X축 방향 정보와, 영상 내 객체 움직임 정보 중 X축 방향 정보 간의 비교를 통해, 영상 도메인의 Z 축 방향의 객체 움직임 정보를 오디오 도메인의 Z축 방향의 음원 움직임 정보에 맞게 보정(도메인 매칭)할 수 있다. 예를 들어, 케이스 1(510)의 영상 내 객체의 움직임 정보에 포함된 X축/Z축 방향의 정보(mv1_x, mv1_z)가 (10,2)이고, 케이스 1(510)의 오디오 내 음원의 움직임 정보에 포함된 X축 방향의 정보(Smv1_x)가 5라면, 비례식을 기초로, 오디오 내 음원의 Z축 방향의 정보(Smv1_y)이 1로 획득될 수 있다. 케이스 2(520)의 영상 내 객체의 움직임 정보에 포함된 X축/Z축 방향의 정보(mv1_x,mv1_z)가 (10,2)이고, 케이스 2(520)의 오디오 내 음원의 움직임 정보에 포함된 X축 방향의 정보(Smv1_x)가 8라면, 비례식을 기초로, 오디오 내 음원의 Z축 방향의 정보(Smv1_y)이 1.6로 획득될 수 있다. 즉, Smv1_x : mv1_x=Smv1_z:mv1_z의 비례식을 기초로, Smv1_z = Smv1_x * mv1_z / mv1_x이 될 수 있다. 이때, Smv1_z 값이 보정 파라메터로 이용될 수 있다.

전술한 보정 파라메터 도출 방법을 기초로, 전술한 수학식 1이 도출될 수 있다. 타일링부(440)는 보정 맵 정보 생성부(430)로부터 수신한 2차원의 N+M' 보정 맵 정보에 대하여 주파수 성분에 대한 타일링을 수행하여 보정 맵 정보α_inf(f, t, N+M')를 획득할 수 있다. 즉, 2차원의 보정 맵 정보 α_inf(1, t, N+M')를 기초로, 모든 주파수 성분에 대하여, 동일한 영상 특징 값을 채움으로써, 3차원의 보정 맵 정보 α_inf(1, t, N+M')가 획득될 수 있다.

도 5c를 참조하면, 동영상 처리 장치(100)는 동영상 신호를 분석하여 동영상 내 객체의 움직임 관련 제 1 고도 성분 및 제 1 평면 성분 관련 특징 정보를 추출할 수 있다. 한편, 동영상 처리 장치(100)는 2차원 오디오 신호를 분석하여 2차원 오디오 신호 내 음원의 움직임 관련 제 2 평면 성분 관련 특징 정보를 추출할 수 있다. 동영상 처리 장치(100)는 제 1 고도 성분, 제 1 평면 성분 및 제 2 평면 성분 특징 정보를 기초로, 음원의 움직임 관련 제 2 고도 성분 특징 정보를 추정할 수 있다. 동영상 처리 장치(100)는 제 2 고도 성분 관련 특징 정보를 기초로, 2차원 오디오 신호로부터 제 2 고도 성분을 포함하는 3차원 오디오 신호를 출력할 수 있다. 이때, 제 2 고도 성분 관련 특징 정보는 도 4에서 전술한 보정 맵 정보에 대응될 수 있다.

도 6a는 제 2-1 DNN(600)을 설명하기 위한 도면이다.

제 2-1 DNN(600)은 적어도 하나의 컨볼루션(convolution) 레이어, 풀링(Pooling) 레이어 및 풀리-커넥티드(Fully-Connected)(완전-연결) 레이어를 포함할 수 있다. 다운스케일링 레이어는 풀링 레이어의 일 예로, 주로, 컨볼루션 레이어에 입력되기 전 입력 영상의 데이터 크기를 줄이기 위한 풀링 레이어를 의미할 수 있다.

도 6a를 참조하면, 동영상 신호(601)가 제 2-1 DNN(600)으로 입력된다. 동영상 신호(601)는 입력 채널, 시간, 높이 및 너비로 구분되는 샘플들을 포함한다. 즉, 동영상 신호(601)는 샘플들의 4차원 데이터일 수 있다.

동영상 신호(601)의 크기가 (t, h, w, 3)라는 것은 하나의 예시일 뿐이며, 구현 예에 따라 동영상 신호(601)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다. 예를 들어, h,w는 224일 수 있으나, 이에 제한되지 않는다.

다운 스케일링 레이어(610)를 이용하여 동영상 신호(601)이 다운 스케일링되어 제 1 중간 신호(602)가 획득된다. 즉, 다운 스케일링에 의해 동영상 신호(601)의 높이(h) 및 너비(w)에 의해 구분되는 샘플들의 개수가 줄어들게 되고, 동영상 신호(601)의 높이 및 너비가 줄어들게 된다. 예를 들어, 제 1 중간 신호(602)의 높이 및 너비는 112 일 수 있으나, 이에 제한되지 않는다.

제 1 컨볼루션 레이어(615)는 axb 크기의 c개의 필터로 다운 스케일링된 영상 신호를 처리한다. 이때, 수평 방향의 움직임 대응 특징 성분을 획득하기 위해, 3x1 크기의 수평 방향의 필터가 이용될 수 있다. 예를 들어, 제 1 컨볼루션 레이어(615)의 처리 결과, (112, 112, c) 크기의 제 2 중간 신호(603)가 획득될 수 있다. 이때, 제 1 컨볼루션 레이어(615)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.

제 1 풀링 레이어(620)을 이용하여, 제 2 중간 신호(603)에 대한 풀링이 수행되어 제 3 중간 신호(604)가 획득될 수 있다. 예를 들어, 풀링 레이어(620)의 처리 결과, 제 3 중간 신호(14,14,c)가 획득될 수 있으나, 이에 제한되지 않는다.

제 2 컨볼루션 레이어(625)는 dxe 크기의 f개의 필터로 입력된 신호를 처리하여 제 4 중간 신호(605)가 획득될 수 있다. 제 2 컨볼루션 레이어(625)의 처리 결과, (14, 14, f) 크기의 제 4 중간 신호(605)가 획득될 수 있으나, 이에 제한되지 않는다.

한편, 제 3 컨볼루션 레이어(630)는 1x1 컨볼루션 레이어일 수 있다. 제 3 컨볼루션 레이어(630)는 채널 수를 조절하기 위해 이용될 수 있다. 제 3 컨볼루션 레이어(630)의 처리 결과, (14,14,g) 크기의 제 5 중간 신호(606)가 획득될 수 있으나, 이에 제한되지 않는다.

제 1 풀리 커넥티드 레이어(635)는 입력된 특징 신호를 분류하여 1차원의 특징 신호를 출력할 수 있다. 제 1 풀리 커넥티드 레이어(635)의 처리 결과, (1, 1, N+M') 크기의 수평 방향의 움직임 대응 특징 성분 신호(607)이 획득될 수 있다.

본 개시의 일 실시예에 따른 제 2-1 DNN(600)은 동영상 신호(601)로부터 수평 방향의 영상 객체(음원에 대응)의 움직임에 대응하는 영상 특징 신호(607)를 획득한다. 즉, 도 6a는 제 2-1 DNN(600)이 3개의 컨볼루션 레이어, 1개의 다운스케일링 레이어, 1개의 풀링 레이어 및 1개의 풀리 커넥티드 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 동영상 신호(601)로부터 수평 방향으로의 N+M'개의 영상 특징을 포함하는 특징 신호(607)를 획득할 수 있다면, 제 2-1 DNN(600)에 포함되는 컨볼루션 레이어, 다운 스케일링 레이어, 풀링 레이어, 풀리 커넥티드 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.

도 6b는 제 2-2 DNN(650)을 설명하기 위한 도면이다.

제 2-2 DNN(650)은 적어도 하나의 컨볼루션(convolution) 레이어, 풀링(Pooling) 레이어 및 풀리-커넥티드(Fully-Connected)(완전-연결) 레이어를 포함할 수 있다. 다운스케일링 레이어는 풀링 레이어의 일 예로, 주로, 컨볼루션 레이어에 입력되기 전 입력 영상의 데이터 크기를 줄이기 위한 풀링 레이어를 의미할 수 있다.

도 6b를 참조하면, 동영상 신호(651)가 제 2-2 DNN(650)으로 입력된다. 동영상 신호(651)는 입력 채널, 시간, 높이 및 너비로 구분되는 샘플들을 포함한다. 즉, 영상 신호(651)는 샘플들의 4차원 데이터일 수 있다.

동영상 신호(651)의 크기가 (t, h, w, 3)라는 것은 하나의 예시일 뿐이며, 구현 예에 따라 동영상 신호(651)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다. 예를 들어, h,w는 224일 수 있으나,. 이에 제한되지 않는다.

다운 스케일링 레이어(660)를 이용하여 동영상 신호(651)이 다운 스케일링되어 제 1 중간 신호(652)가 획득된다. 즉, 다운 스케일링에 의해 영상 신호(651)의 높이(h) 및 너비(w)에 의해 구분되는 샘플들의 개수가 줄어들게 되고, 동영상 신호(651)의 높이 및 너비가 줄어들게 된다. 예를 들어, 제 1 중간 신호(652)의 높이 및 너비는 112일 수 있으나, 이에 제한되지 않는다.

제 1 컨볼루션 레이어(665)는 axb 크기의 c개의 필터로 다운 스케일링된 영상 신호를 처리한다. 이때, 수직 방향의 움직임 대응 특징 성분을 획득하기 위해, 1x3 크기의 수직 방향의 필터가 이용될 수 있다. 예를 들어, 제 1 컨볼루션 레이어(665)의 처리 결과, (112, 112, c) 크기의 제 2 중간 신호(653)가 획득될 수 있다. 이때, 제 1 컨볼루션 레이어(665)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.

제 1 풀링 레이어(670)을 이용하여, 제 2 중간 신호(653)에 대한 풀링이 수행될 수 있다. 예를 들어, 풀링 레이어(670)의 처리 결과, 제 3 중간 신호(14,14,c)가 획득될 수 있으나, 이에 제한되지 않는다.

제 2 컨볼루션 레이어(675)는 dxe 크기의 f개의 필터로 입력된 신호를 처리하여 제 4 중간 신호(655)가 획득될 수 있다. 제 2 컨볼루션 레이어(675)의 처리 결과, (14, 14, f) 크기의 제 4 중간 신호(655)가 획득될 수 있으나, 이에 제한되지 않는다.

한편, 제 3 컨볼루션 레이어(680)는 1x1 컨볼루션 레이어일 수 있다. 제 3 컨볼루션 레이어(680)는 채널 수를 조절하기 위해 이용될 수 있다. 제 3 컨볼루션 레이어(680)의 처리 결과, (14,14,g) 크기의 제 5 중간 신호 (656)가 획득될 수 있다.

제 1 풀리 커넥티드 레이어(685)는 입력된 특징 신호를 분류하여 1차원의 특징 신호를 출력할 수 있다. 제 1 풀리 커넥티드 레이어(685)의 처리 결과, (1, 1, N+M') 크기의 수평 방향의 움직임 대응 특징 성분 신호(657)가 획득될 수 있다.

본 개시의 일 실시예에 따른 제 2-2 DNN(650)은 동영상 신호(651)로부터 수직 방향의 영상 객체(음원)의 움직임에 대응하는 영상 특징 신호(657)를 획득한다. 즉, 도 6b는 제 2-2 DNN(650)이 3개의 컨볼루션 레이어, 1개의 다운스케일링 레이어, 1개의 풀링 레이어 및 1개의 풀리 커넥티드 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 동영상 신호(651)로부터 수평 방향으로의 N+M'개의 영상 특징을 포함하는 영상 특징 신호(657)를 획득할 수 있다면, 제 1 DNN(600)에 포함되는 컨볼루션 레이어, 다운 스케일링 레이어, 풀링 레이어, 풀리 커넥티드 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.

도 7는 제 3 DNN(700)을 설명하기 위한 도면이다.

제 3 DNN(700)은 적어도 하나의 컨볼루션(convolution) 레이어, 풀링(Pooling) 레이어 및 풀리-커넥티드(Fully-Connected)(완전-연결) 레이어를 포함할 수 있다. 다운스케일링 레이어는 풀링 레이어의 일 예로, 주로, 컨볼루션 레이어에 입력되기 전 입력 영상의 데이터 크기를 줄이기 위한 풀링 레이어를 의미할 수 있다.

도 7을 참조하면, 2차원 오디오 신호(701)가 제 3 DNN(700)으로 입력된다. 2차원 오디오 신호(701)는 입력 채널, 시간으로 구분되는 샘플들을 포함한다. 즉, 2차원 오디오 신호(701)는 샘플들의 2차원 데이터일 수 있다. 2차원 오디오 신호(701)의 각 샘플은 진폭값(Amplitude)일 수 있다. 2차원 오디오 신호(701)의 입력 채널은 2채널일 수 있으나, 이에 제한되지 않는다.

도 7는 2차원 오디오 신호(701)의 크기가 (t,2)임을 도시하고 있는데, 이는, 2차원 오디오 신호(701)의 시간 길이가 t이고, 입력 채널 수는 2임을 나타낸다. 2차원 오디오 신호(701)의 크기가 (t,2)라는 것은 하나의 예시일 뿐이며, 구현 예에 따라 2차원 오디오 신호(701)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다.

제 1 컨볼루션 레이어(710)는 ax1 크기의 b개의 필터(1차원 필터)로 2차원 오디오 신호(701)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(710)의 처리 결과, (512, 1, b) 크기의 제 1 중간 신호(702)가 획득될 수 있다. 이때, 제 1 컨볼루션 레이어(710)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.

제 1 풀링 레이어(720)을 이용하여, 제 1 중간 신호(702) 에 대한 풀링이 수행될 수 있다. 예를 들어, 풀링 레이어(720)의 처리 결과, (28,1,b) 크기의 제 2 중간 신호(703)가 획득될 수 있다.

제 2 컨볼루션 레이어(730)는 cx1 크기의 d개의 필터로 입력된 신호를 처리한다. 제 2 컨볼루션 레이어(730)의 처리 결과, (28 1, d) 크기의 제 3 중간 신호(704)가 획득될 수 있다.

한편, 제 3 컨볼루션 레이어(740)는 1x1 컨볼루션 레이어일 수 있다. 제 3 컨볼루션 레이어(740)는 채널 수를 조절하기 위해 이용될 수 있다. 제 4 컨볼루션 레이어(740)의 처리 결과, (28,1,g) 크기의 제 4 중간 신호(705)가 획득될 수 있다.

제 1 풀리 커넥티드 레이어(750)은 입력된 특징 신호를 분류하여 1차원의 특징 신호를 출력할 수 있다. 제 1 풀리 커넥티드 레이어(750)의 처리 결과, (1, 1, N+M') 크기의 수평 방향의 움직임 대응 특징 성분 신호(706)가 획득될 수 있다.

본 개시의 일 실시예에 따른 제 3 DNN(700)은 2차원 오디오 신호(701)로부터 수평 방향의 2차원 오디오 음원(동영상 내 객체에 대응)의 움직임에 대응하는 오디오 특징 신호(706)를 획득한다. 즉, 도 7은 제 3 DNN(700)이 3개의 컨볼루션 레이어, 1개의 풀링 레이어 및 1개의 풀리 커넥티드 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 2차원 오디오 신호(701)로부터 수평 방향으로의 N+M'개의 오디오 특징을 포함하는 오디오 특징 신호(706)를 획득할 수 있다면, 제 3 DNN(700)에 포함되는 컨볼루션 레이어, 풀링 레이어, 풀리 커넥티드 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.

도 8을 참조하면, 3차원 오디오 출력부(130)는 주파수 변환부(810), 제 4-1 DNN(821), 오디오/영상 특징 통합부(830), 제 4-2 DNN(822), 제 4-3 DNN(823), 보정부(840) 및 주파수 역변환부(850)를 포함할 수 있다.

주파수 변환부(810)는 2차원 오디오 신호 A_In__2D(t,2)에 대한 주파수 변환을 수행하여 주파수 도메인 2차원 오디오 신호 s(f, τ, 2)를 획득할 수 있다. 다만, 전술한 바와 같이, 주파수 도메인 2차원 오디오 신호 s(f, τ, 2)가 주파수 변환부(125)로부터 수신된다면, 주파수 변환부(810)은 포함되지 않을 수 있다.

제 4-1 DNN(821)은 주파수 도메인 2차원 오디오 신호 s(f, τ, 2)로부터 오디오 특징 정보 s(f, τ, 2)를 생성하기 위해 이용되는 DNN일 수 있다. 이때, 오디오 특징 정보는 1차원의 N개의 오디오 특징 정보일 수 있다.

오디오/영상 특징 통합부(830)는 영상 특징 정보 V_inf (f, τ, M ')와 오디오 특징 정보 s(f, τ, N)를 통합하여 오디오/영상 통합 특징 정보 s(f, τ, N+M ')를 생성할 수 있다. 예를 들어, 오디오/영상 특징 통합부(830)는 영상 특징 정보와 오디오 특징 정보가 주파수 빈 및 프레임 빈 성분의 크기가 동일하기 때문에, 오디오 특징 정보에 영상 특징 맵 정보를 겹쳐서, 오디오/영상 통합 특징 정보를 생성할 수 있으나, 이에 제한되지는 않는다.

제 4-2 DNN(822)은 오디오/영상 통합 특징 정보 s(f, τ, N+M ')로부터 주파수 도메인 3차원 오디오 신호 s(f, τ, N _3D)를 생성하기 위해 이용되는 DNN일 수 있다. 이때, N _3D는 3차원 오디오의 채널 수를 의미할 수 있다.

제 4-3 DNN(823)은 오디오/영상 통합 특징 정보 s(f, τ, N+M ')와 보정 정보 α _inf(f, τ, N+M ')를 기초로, 보정 맵 정보 c(f, τ, N _3D)를 획득할 수 있다.

*보정부(840)는 주파수 도메인 3차원 오디오 신호 s(f, τ,, N _3D) 및 보정 맵 정보 c(f, τ,, N _3D)를 기초로, 보정된 주파수 도메인 3차원 오디오 신호 Cs(f, , N _3D)를 획득할 수 있다. 예를 들어, 보정부(860)는 주파수 도메인 3차원 오디오 신호 s(f, τ, N _3D)의 샘플값에 보정 맵 정보 c(f, τ, N _3D)의 샘플값을 합하여, 보정된 주파수 도메인 3차원 오디오 신호 Cs(f, τ, N _3D)의 샘플값을 획득할 수 있으나 이에 제한되지는 않는다. 보정부(840)를 통해 주파수 도메인 3차원 오디오 신호 내 음원의 움직임에 대응하는, 불확실한 고도 성분을 보정(영상 도메인과 오디오 도메인을 매칭)함으로써, 출력되는 주파수 도메인 3차원 오디오 신호는 보다 확실한 주파수 도메인 3차원 오디오 신호 내 음원의 고도 성분을 가질 수 있다.

주파수 역변환부(850)는 보정된 주파수 도메인 3차원 오디오 신호 Cs(f,τ,N _3D)에 대하여, 주파수 역변환을 수행하여, 3차원 오디오 신호 A_{Pred_B}(t, N_3D)를 출력할 수 있다.

제 4-1 DNN(900)은 적어도 하나의 컨볼루션(convolution) 레이어를 포함할 수 있다. 컨볼루션 레이어는 미리 결정된 크기의 필터로 입력 데이터를 처리하여 오디오 특징 데이터를 획득한다. 컨볼루션 레이어의 필터의 파라메터들은 후술하는 훈련 과정을 통해 최적화될 수 있다.

도 9를 참조하면, 주파수 도메인 2차원 오디오 신호(901)가 제 4-1 DNN(900)으로 입력된다. 주파수 도메인 2차원 오디오 신호(901)는 입력 채널, 프레임 빈 및 주파수 빈으로 구분되는 샘플들을 포함한다. 즉, 주파수 도메인 2차원 오디오 신호(901)는 샘플들의 3차원 데이터일 수 있다. 주파수 도메인 2차원 오디오 신호(901)의 각 샘플은 주파인 도메인 2차원 오디오 신호 값일 수 있다. 주파수 도메인 2차원 오디오 신호(901)의 입력 채널은 2 채널일 수 있으나, 이에 제한되지 않는다.

도 9는 주파수 도메인 2차원 오디오 신호(901)의 크기가 (f, τ, 2)임을 도시하고 있는데, 이는, 주파수 도메인 2차원 오디오 신호(901)의 시간 길이(프레임 빈의 수)가 τ이고, 입력 채널 수는 2이고, 주파수 빈의 수는 f일 수 있다. 구현 예에 따라 주파수 도메인 2차원 오디오 신호(901)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다.

제 1 컨볼루션 레이어(910)는 axb 크기의 c개의 필터로 주파수 도메인 2차원 오디오 신호(901)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(910)의 처리 결과, (f, τ, 32) 크기의 제 1 중간 신호(902)가 획득될 수 있다.

제 2 컨볼루션 레이어(920)는 cxd 크기의 e개의 필터로 제 1 중간 신호(902)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(920)의 처리 결과, (f, τ, 32) 크기의 제 2 중간 신호(903)가 획득될 수 있다.

이때, 제 2 컨볼루션 레이어(920)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.

제 3 컨볼루션 레이어(930)는 exf 크기의 N개의 필터로 입력된 제 2 중간 신호(903)를 처리한다. 제 3 컨볼루션 레이어(930)의 처리 결과, (f, τ, N) 크기의 오디오 특징 정보(904)가 획득될 수 있다.

본 개시의 일 실시예에 따른 제 3-1 DNN(900)은 주파수 도메인 2차원 오디오 신호(901)로부터 수평 방향의 오디오(음원)의 움직임에 대응하는 오디오 특징 신호(904)를 획득한다. 즉, 도 9는 제 3-1 DNN(900)이 3개의 컨볼루션 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 주파수 도메인 2차원 오디오 신호(901)로부터 N개의 오디오 특징을 포함하는 오디오 특징 신호(904)를 획득할 수 있다면, 주파수 도메인 2차원 오디오 신호(901)에 포함되는 컨볼루션 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.

제 4-2 DNN(1000)은 적어도 하나의 컨볼루션(convolution) 레이어를 포함할 수 있다. 컨볼루션 레이어는 미리 결정된 크기의 필터로 입력 데이터를 처리하여 오디오 특징 데이터를 획득한다. 컨볼루션 레이어의 필터의 파라메터들은 후술하는 훈련 과정을 통해 최적화될 수 있다.

도 10를 참조하면, 오디오/영상 통합 특징 정보(1001)가 제 4-2 DNN(1000)으로 입력된다. 오디오/영상 통합 특징 정보(1001)는 특징 개수, 시간(프레임 빈), 주파수 빈으로 구분되는 샘플들을 포함한다. 즉, 오디오/영상 통합 특징 정보(1001)는 샘플들의 관한 3차원 데이터일 수 있다. 즉, 오디오/영상 통합 특징 정보(1001)의 각 샘플은 오디오/영상 통합 특징 값일 수 있다.

도 10는 오디오/영상 통합 특징 정보(1001)의 크기가 (f,τ, N+M')임을 도시하고 있는데, 이는, 오디오/영상 통합 특징 정보(1001)의 시간 길이(프레임 빈)가 τ이고, 프레임 빈 및 주파수 빈에 대응하는 특징의 수는 N+M', 주파수 빈의 수는 f일 수 있다. 구현 예에 따라 오디오/영상 통합 특징 정보(1001)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다.

제 1 컨볼루션 레이어(1010)는 axb 크기의 c개의 필터로 오디오/영상 통합 특징 정보(1001)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(1010)의 처리 결과, (f,τ, c) 크기의 제 1 중간 신호(1002)가 획득될 수 있다.

제 2 컨볼루션 레이어(1020)는 cxd 크기의 e개의 필터로 제 1 중간 신호(1002)를 처리한다. 예를 들어, 제 2 컨볼루션 레이어(1020)의 처리 결과, (f, τ, e) 크기의 제 2 중간 신호(1003)가 획득될 수 있다.

이때, 제 2 컨볼루션 레이어(1020)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.

제 3 컨볼루션 레이어(1030)는 exf 크기의 N_3D개의 필터로 입력된 신호를 처리한다. 제 3 컨볼루션 레이어(1030)의 처리 결과, (f, τ, N_3D) 크기의 주파수 도메인 3차원 오디오 신호(1004)가 획득될 수 있다.

본 개시의 일 실시예에 따른 제 4-2 DNN(1000)은 오디오/영상 통합 특징 정보(1001)로부터 주파수 도메인 3차원 오디오 신호(1004)를 획득한다. 즉, 도 10은 제 4-2 DNN(1000)이 3개의 컨볼루션 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 오디오/영상 통합 특징 정보(1001)로부터 주파수 도메인 3차원 오디오 신호(1004)를 획득할 수 있다면, 제 4-2 DNN(1000)에 포함되는 컨볼루션 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.

제 4-3 DNN(1100)은 적어도 하나의 컨볼루션(convolution) 레이어를 포함할 수 있다. 컨볼루션 레이어는 미리 결정된 크기의 필터로 입력 데이터를 처리하여 오디오 특징 데이터를 획득한다. 컨볼루션 레이어의 필터의 파라메터들은 후술하는 훈련 과정을 통해 최적화될 수 있다.

도 11을 참조하면, 오디오/영상 통합 특징 정보(1101) 및 보정 정보(1102)를 결합(Concatenate)(1110)하여 새로운 차원의 제 1 중간 신호(1103)를 획득할 수 있다. 오디오/영상 통합 특징 정보(1001)는 특징 개수, 시간(프레임 빈), 주파수 빈으로 구분되는 샘플들을 포함한다. 즉, 오디오/영상 통합 특징 정보(1001)는 3차원 데이터일 수 있다. 오디오/영상 통합 특징 정보(1001)의 각 샘플은 오디오/영상 통합 특징 값일 수 있다. 보정 정보(1102)는 특징 개수, 시간(프레임 빈), 주파수 빈으로 구분되는 샘플들을 포함한다. 즉, 보정 정보(1102)는 3차원 데이터일 수 있다. 보정 정보(1102)의 각 샘플은 보정 관련 특징 값일 수 있다.

도 11는 오디오/영상 통합 특징 정보(1101) 및 보정 정보(1102)의 크기가 (f, τ, N+M')임을 도시하고 있는데, 이는 오디오/영상 통합 특징 정보(1101) 및 보정 정보(1102)의 시간 길이(프레임 빈의 수)가 τ 이고, 프레임 빈 및 주파수 빈에 대응하는 특징의 수는 N+M', 주파수 빈의 수는 f일 수 있다. 구현 예에 따라 오디오/영상 통합 특징 정보(1101) 및 보정 정보(1102)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다.

제 1 컨볼루션 레이어(1120)는 axb 크기의 c개의 필터로 제 1 중간 신호(1103)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(1120)의 처리 결과, (f, τ, c) 크기의 제 2 중간 신호(1104) 가 획득될 수 있다. 즉, 제 1 컨볼루션 레이어(1120)의 처리 결과, (f, τ, M'') 크기의 제 2 중간 특징 신호(325)가 획득될 수 있다. 여기서 M''는 2x(N+M')일 수 있으나, 이에 제한되지 않는다.

제 2 컨볼루션 레이어(1130)는 cxd 크기의 e개의 필터로 제 2 중간 신호(1104)를 처리한다. 예를 들어, 제 2 컨볼루션 레이어(1130)의 처리 결과, (f, τ, e) 크기의 제 3 중간 특징 신호(325)가 획득될 수 있다. 즉, 제 2 컨볼루션 레이어(1130)의 처리 결과, (f, t, M'') 크기의 제 3 중간 신호(1105) 가 획득될 수 있다. 여기서 M''는 2x(N+M')일 수 있으나, 이에 제한되지 않는다.

이때, 제 2 컨볼루션 레이어(1130)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.

제 3 컨볼루션 레이어(1140)는 exf 크기의 N_3D 개의 필터로 입력된 신호를 처리한다. 제 3 컨볼루션 레이어(1140)의 처리 결과, (f, τ, N_3D) 크기의 보정 맵 정보(1106)가 획득될 수 있다.

본 개시의 일 실시예에 따른 제 4-3 DNN(1100)은 오디오/영상 통합 특징 정보(1101) 및 보정 정보(1102)로부터 보정 맵 정보(1106)를 획득한다. 즉, 도 11은 제 4-3 DNN(1100)이 3개의 컨볼루션 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 오디오/영상 통합 특징 정보(1101) 및 보정 정보(1102)로부터 보정 맵 정보(1106)를 획득할 수 있다면, 제 4-3 DNN(1100)에 포함되는 컨볼루션 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.

도 12에서 제 1 훈련 2차원 오디오 신호(1202)는 2차원 오디오 신호(102)에 대응하고, 제 1 훈련 영상 신호(1201)는 동영상 신호(101)에 대응한다. 이와 유사하게 각 훈련 신호들은 도 2, 4 및 8를 참조하여 전술된 신호/정보들에 대응한다.

제 1 훈련 영상 신호(1201)는 제 1 DNN(220)으로 입력된다. 제 1 DNN(220)은 미리 설정된 파라메터에 따라, 제 1 훈련 영상 신호(1201)를 처리하여 제 1 훈련 영상 특징 신호(1203)를 획득한다.

제 1 훈련 2차원 오디오 신호(1202)에 대한 주파수 변환부(1220)를 통해 제 1 주파수 도메인 훈련 2차원 오디오 신호(1204)가 획득되고, 제 1 주파수 도메인 훈련 2차원 오디오 신호(1204)는 제 4-1 DNN(821)으로 입력된다. 제 4-1 DNN(821)은 미리 설정된 파라메터에 따라, 제 1 주파수 도메인 훈련 2차원 오디오 신호(1204)을 처리하여 제 1 훈련 오디오 특징 신호(1205)를 획득한다. 제 1 훈련 오디오 특징 신호(1205) 및 제 1 훈련 영상 특징 신호(1203)를 오디오/영상 특징 통합부(1220)를 통해 처리하여 제 1 훈련 오디오/영상 통합 특징 신호(1206)가 획득될 수 있다.

제 1 훈련 영상 신호(1201) 및 제 1 훈련 2차원 오디오 신호(1202)는 제 2 DNN 및 제 3 DNN(420)으로 입력된다. 제 2 DNN 및 제 3 DNN(420)(에 포함된 제 2-1 DNN(421), 제 2-2 DNN(422), 및 제 3 DNN(423))는 미리 설정된 파라메터에 따라, 제 1 훈련 2차원 오디오 신호(1202)을 처리하여 제 1 훈련 보정 신호(1208)를 획득한다.

제 1 훈련 오디오/영상 통합 특징 신호(1206)는 제 4-2 DNN(822)으로 입력된다. 제 4-2 DNN(822)은 미리 설정된 파라메터에 따라, 제 1 훈련 오디오/영상 통합 특징 신호(1206)을 처리하여 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1207)를 획득한다.

제 1 훈련 보정 신호(1207)와 제 1 훈련 오디오/영상 통합 특징 신호(1206)가 제 4-3 DNN(823)으로 입력된다.

제 4-3 DNN(823)는 미리 설정된 파라메터에 따라, 제 1 훈련 보정 신호(1208)와 제 1 훈련 오디오/영상 통합 특징 신호(1206)를 처리하여 제 1 훈련 주파수 보정 신호(1209)를 획득한다.

오디오 보정부(1230)는 제 1 훈련 주파수 보정 신호(1209)를 기초로, 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1207)를 보정하여, 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211)를 출력할 수 있다.

한편, 제 1 훈련 3차원 오디오 신호(1212)에 대한 주파수 변환부(1210)를 통해 제 1 주파수 도메인 훈련 3차원 오디오 신호(1213)가 획득된다.

보정된 제 1 주파수 도메인 훈련 3차원 오디오 신호(1213)와 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211) 사이의 비교 결과에 따라 생성 손실 정보(Loss)(1214)가 획득된다. 생성 손실 정보(Loss)(1214)는 보정된 제 1 주파수 도메인 훈련 3차원 오디오 신호(1213)와 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211) 사이의 L1-norm 값, L2-norm 값, SSIM(Structural Similarity) 값, PSNR-HVS(Peak Signal-To-Noise Ratio-Human Vision System) 값, MS-SSIM(Multiscale SSIM) 값, VIF(Variance Inflation Factor) 값 및 VMAF(Video Multimethod Assessment Fusion) 값 중 적어도 하나를 포함할 수 있다. 일 예로, 손실 정보(1214)는 다음의 수학식 2로 표현될 수 있다.

수학식 2에서 F()는 주파수 변환부(1210)에 의한 주파수 변환을 의미하고, Cs는 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211)를 나타낸다.

생성 손실 정보(1214)는 제 1 DNN(220), 제 2 DNN) 및 제 3 DNN(420)이 제 1 훈련 2차원 오디오 신호(1202)를 처리하여 획득된 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211)가 주파수 변환부(1210)을 통해 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호(1212)와 어느 정도로 유사한 주파수 도메인 훈련 신호를 생성하였는지를 나타낸다.

제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 및 제 4 DNN(820)은 생성 손실 정보(1214)가 감소 또는 최소화되도록 파라메터를 갱신할 수 있다. 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 및 제 4 DNN(820)의 훈련을 수식으로 표현하면 다음과 같다.

수학식 3에서

는 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 및 제 4 DNN(820)의 파라메터 세트를 나타낸다. 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 및 제 3 DNN(820)은 훈련을 통해 생성 손실 정보(Loss)(1214)를 최소화하는 파라메터 세트를 획득한다.

도 13을 참조하면, 도 12와 달리, 제 2 DNN 및 제 3 DNN(420)과 제 4-3 DNN(823)의 사이에 보정 신호 수정부(1340)가 존재하고, 보정 신호 수정부(1340)는 제 2 DNN 및 제 3 DNN(420)의 제 1 훈련 보정 신호(1308)에 대하여 사용자 파라메터(1316)을 이용하여 수정할 수 있고, 수정된 제 1 훈련 보정 신호(1315)는 제 4-3 DNN(823)으로 입력될 수 있다. 예를 들어, 보정 신호 수정부(1340)는 제 1 훈련 보정 신호(1308)의 값에 사용자 파라메터(C_user)를 곱하는 연산을 수행하여, 수정된 제 1 훈련 보정 신호(1315)를 획득할 수 있으나, 이에 제한되지 않는다. 즉, 사용자 파라메터는 오디오 보정부(1330)에서 3차원 오디오 신호의 보정 정도를 조절하기 위해 이용되는 파라메터로, 사용자(3차원 오디오 제작자)가 직접 사용자 파라메터를 입력하여, 사용자의 의도에 따라 3차원 오디오 신호가 적절하게 보정되어 복원될 수 있다.

도 13에서도, 도 12를 참조하여 설명한 바와 같이, 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1311)과 제 1 주파수 도메인 훈련 3차원 오디오 신호(1313)와의 비교 결과를 기초로 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420) 및 제 4 DNN(820)의 파라메터가 훈련될 수 있음을 당업자는 이해할 수 있다.

도 13과 관련하여 설명한 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련은 훈련 장치(1400)에 의해 수행될 수 있다. 훈련 장치(1400)는 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 및 제 4 DNN(820)을 포함한다. 훈련 장치(1400)는 예를 들어, 동영상 처리 장치(100) 또는 별도의 서버일 수 있다.

훈련 장치(1400)는 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420) 및 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터를 초기 세팅한다. (S1405)

훈련 장치(1400)는 제 1 훈련 영상 신호(1201)를 제 1 DNN(220)로 입력한다. (S1410)

훈련 장치(1400)는 제 1 훈련 영상 신호(1201) 및 제 1 훈련 2차원 오디오 신호(1202)를 제 2 DNN 및 제 3 DNN(420)로 입력한다. (S1415)

훈련 장치(1400)는 제 1 훈련 2차원 오디오 신호(1202)를 주파수 변환부(1210)를 통해 획득된 제 1 주파수 도메인 훈련 2차원 오디오 신호(1204)를 제 4-1 DNN(821)로 입력한다. (S1420)

제 1 DNN(220)는 제 1 훈련 영상 특징 신호(1203)를 오디오/영상 특징 통합부(1410)로 출력할 수 있다. (S1425)

제 4-1 DNN(821)는 제 1 훈련 오디오 특징 신호(1205)를 오디오/영상 특징 통합부(1410)로 출력할 수 있다. (S1430)

오디오/영상 특징 통합부(1410)는 제 1 훈련 오디오/영상 통합 특징 신호(1206)를 제 4-2 DNN(822) 및 제 4-3 DNN(823)로 출력할 수 있다. (S1435)

제 4-2 DNN(822)는 제 1 훈련 3차원 오디오 신호를 보정부(1420)로 출력할 수 있다. (S1440)

훈련 장치(1400)는 제 1 훈련 2차원 오디오 신호(1202) 및 제 1 주파수 도메인 훈련 2차원 오디오 신호(1204)를 제 2 DNN 및 제 3 DNN(420)으로 입력할 수 있다. (S1445)

제 2 DNN 및 제 3 DNN(420)는 제 1 훈련 보정 신호(1208)를 제 4-3 DNN(823)로 출력할 수 있다. (S1450)

제 4-3 DNN(823)는 제 1 훈련 주파수 보정 신호(1209)를 보정부(1420)로 출력할 수 있다. (S1455)

보정부(1420)는 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211)를 훈련 장치(1400)로 출력할 수 있다. (S1460)

훈련 장치(1400)는 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211)와 주파수 변환을 통해 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호(1213)를 비교하여 생성 손실 정보(1214)를 산출한다(S1465). 그리고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822) 및 제 4-3 DNN(823)은 생성 손실 정보(1214)에 따라 파라메터를 갱신한다(S1470 내지 S1490).

훈련 장치(1400)는 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822) 및 제 4-3 DNN(823)의 파라메터들이 최적화될때까지 전술한 S1410 단계 내지 S1490 단계를 반복할 수 있다.

도 14과 관련하여 설명한 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련은 훈련 장치(1500)에 의해 수행될 수 있다. 훈련 장치(1500)는 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 및 제 4 DNN(820)을 포함한다. 훈련 장치(1500)는 예를 들어, 동영상 처리 장치(100) 또는 별도의 서버일 수 있다. 별도의 서버에서 훈련된 경우, 동영상 처리 장치(100)로 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN 관련 파라메터 정보가 전송될 수 있고, 동영상 처리 장치(100)는 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN 관련 파라메터 정보를 저장할 수 있다. 동영상 처리 장치(100)는 2차원 오디오 신호로부터 3차원 오디오 신호를 생성하기 위해, 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN 관련 파라메터 정보를 기초로, 제 1 DNN, 제 2 DNN, 제 3 DNN, 제 4 DNN의 파라메터를 업데이트하고, 업데이트된 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN를 이용하여 3차원 오디오 신호를 생성 및 출력할 수 있다.

도 15는, 도 14를 참조하여 전술한 바와 달리, 보정 신호 수정부(1530)를 더 포함할 수 있고, 보정 신호 수정부(1530)는 제 1 훈련 보정 신호(1308)를 사용자 파라메터(1316)를 이용하여 수정하고, 수정된 제 1 훈련 보정 신호(1315)를 제 4-3 DNN(823)으로 출력하는 과정이 추가될 수 있다. 따라서, 도 15는, 도 14와 달리, 사용자 파라메터를 고려하여 훈련되므로, 사용자의 의도가 더 반영되어 보정된 3차원 오디오 신호를 생성 및 출력할 수 있다.

도 16은 사용자(1600)는 사용자 단말(1610)의 마이크와 카메라를 이용하여 제 1 훈련 2차원 오디오 신호 및 제 1 훈련 영상 신호를 획득할 수 있다. 한편, 이와 동시에 사용자(1600)는 앰비소닉 마이크(1620)를 별도로 사용자 단말(1610)에 장착하여 제 1 훈련 3차원 오디오 신호를 획득하거나 사용자 단말(1610)에 포함된 앰비소닉 마이크(1620)를 이용하여 제 1 훈련 3차원 오디오 신호를 획득할 수 있다.

이때, 사용자 단말(1610)은 동영상 처리 장치(100)의 일 예일 수 있고, 사용자 단말(1610)은 획득된 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호 및 제 1 훈련 3차원 오디오 신호와 같은 훈련 데이터를 기초로, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420)(에 포함된 제 2-1 DNN(421), 제 2-2 DNN(422), 제 3 DNN(423)), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)을 훈련시킬 수 있다. 또는, 사용자 단말(1610)은 훈련 데이터를 별도의 서버 등과 같이 사용자 단말(1610)과 연결된 장치로 전송할 수 있다. 해당 장치는 훈련 장치(1400,1500)의 일 예로, 훈련 데이터를 기초로 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)을 훈련시킬 수 있다. 훈련된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보가 획득될 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 사용자 단말(1610)로 전송할 수 있다. 사용자 단말(1610)은 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 저장할 수 있다.

이후, 사용자 단말(1610)은 2차원 오디오 신호 및 영상 신호를 획득할 수 있다. 사용자 단말(1610)은 미리 저장된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 기초로 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터를 업데이트하고, 업데이트된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)을 이용하여, 2차원 오디오 신호 및 영상 신호로부터 3차원 오디오 신호를 생성 및 출력할 수 있다.

다만, 이에 제한되지 않고, 사용자 단말(1610)은 단순 훈련 정보 수집 장치에 불과하고, 사용자 단말(1610)과 네트워크를 통해 연결된 별도의 서버와 같은 장치로 훈련 데이터를 전송할 수 있다. 이때, 해당 장치는 훈련 장치(1400,1500) 및 동영상 처리 장치(100)의 일 예일 수 있다.

해당 장치는 훈련 데이터를 기초로 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)을 훈련시킬 수 있다. 훈련된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보가 획득될 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보가 획득될 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 사용자 단말(1610)로 전송하거나, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보는 사용자 단말(1610)이나 사용자 단말(1610)의 식별자에 대응되도록 해당 장치나 연결된 별도의 데이터 베이스에 저장할 수 있다.

이후, 사용자 단말(1610)은 2차원 오디오 신호 및 영상 신호를 획득할 수 있다. 사용자 단말(1610)은 미리 저장된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보와 함께 2차원 오디오 신호 및 영상 신호를 해당 장치로 전송할 수 있다. 해당 장치는 사용자 단말(1610)로부터 수신한 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터를 업데이트하고, 업데이트된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)를 이용하여, 사용자 단말(1610)로부터 수신한 2차원 오디오 신호 및 영상 신호로부터, 3차원 오디오 신호를 획득할 수 있다. 또는, 사용자 단말(1610)은 2차원 오디오 신호 및 영상 신호를 해당 장치로 전송할 수 있다. 해당 장치는 사용자 단말(1610)의 식별자에 대응되어 미리 저장된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 이용하여, 사용자 단말(1610)로부터 수신한 2차원 오디오 신호 및 영상 신호로부터, 3차원 오디오 신호를 획득할 수 있다.

한편, 사용자 단말(1610)와 네트워크를 통해 연결된 훈련 장치(1400,1500)는 동영상 처리 장치(100)와 별도로 존재할 수 있다.

이 경우, 사용자 단말(1610)은 훈련 데이터를 훈련 장치(1400,1500)로 전송하여, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득하고, 2차원 오디오 신호 및 영상 신호와 함께 이전에 획득된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 동영상 처리 장치(100)로 전송하여, 동영상 처리 장치(100)로부터 3차원 오디오 신호를 수신할 수 있다.

S1710 단계에서, 동영상 처리 장치(100)는 제 1 DNN을 기반으로, 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성할 수 있다.

S1720 단계에서, 동영상 처리 장치(100)는 제 2 DNN을 기반으로, 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출할 수 있다.

S1730 단계에서, 동영상 처리 장치(100)는 제 3 DNN을 기반으로, 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출할 수 있다.

S1740 단계에서, 동영상 처리 장치(100)는 제 1 고도 성분, 제 1 평면 성분, 제 2 평면 성분으로부터 제 2 고도 성분을 생성할 수 있다. 이때 생성된 제 2 고도 성분은 제 2 고도 성분 그 자체일 수 있으나, 이에 제한되지 않고, 제2 고도 성분 관련 정보일 수 있다.

S1750 단계에서, 동영상 처리 장치(100)는 특징 정보를 기반으로, 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력할 수 있다. 이에 제한되지 않고, 동영상 처리 장치(100)는 특징 정보 및 제2 고도 성분 관련 정보를 기반으로, 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력할 수 있다.

S1760 단계에서, 동영상 처리 장치(100)는 제 2 오디오 신호 및 동영상 신호를 동기화하여 출력할 수 있다.

한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 작성된 프로그램은 매체에 저장될 수 있다.

매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.

Claims

하나 이상의 인스트럭션을 저장하는 메모리; 및

상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고,

상기 적어도 하나의 프로세서는, 제 1 DNN(Deep Neural Network)을 기반으로 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성하고,, 제 2 DNN을 기반으로 상기 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하고,

제 3 DNN을 이용하여 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출하고,

상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터 제 2 고도 성분을 생성하고,

상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력하고,

상기 제 2 오디오 신호 및 상기 동영상 신호를 동기화하여 출력하는, 동영상 처리 장치.
제 1 항에 있어서,

상기 적어도 하나의 프로세서는 상기 복수의 시간별 주파수별 특징 정보를 생성할 때, 상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하고, 상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 상기 제 1 DNN을 이용하여 상기 동영상 신호로부터 동영상 내 객체의 움직임에 따른 M개(M은 1보다 크거나 같은 정수)의 1차원 영상 특징 맵 정보를 생성하고, 상기 1차원 영상 특징 맵 정보에 대하여 주파수 관련 타일링(tiling)을 수행하여 시간 및 주파수에 대한 M개의 영상 특징 맵 정보를 포함하는 상기 복수의 시간별 주파수별 특징 정보를 생성하는 것을 특징으로 하는, 동영상 처리 장치.
제 1 항에 있어서,

상기 적어도 하나의 프로세서는 상기 제 2 DNN을 기반으로, 상기 제 1 고도 성분 및 제 1 평면 성분을 추출하고, 상기 제 3 DNN을 기반으로, 상기 제 2 평면 성분을 추출할 때, 상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하고,

상기 제 1 고도 성분에 대응하는, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-1 DNN을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하고,

상기 제 1 평면 성분에 대응하는, 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-2 DNN 을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하고,

상기 제 2 평면 성분에 대응하는, 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 3 DNN을 이용하여 상기 제 1 오디오 신호로부터 N+M개(N, M은 1보다 크거나 같은 정수)의 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하고,

상기 프로세서는 상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터, 제 2 고도 성분을 생성할 때, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보, 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보 및 상기 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 기초로, 상기 제 2 고도 성분에 대응하는, 시간에 대한 N+M개의 보정 맵 정보를 생성하고,

상기 시간에 대한 N+M개의 보정 맵 정보에 대하여 주파수 관련 타일링을 수행하여 상기 제 2 고도 성분에 대응하는, 시간 및 주파수에 대한 N+M개의 보정 맵 정보를 생성하는 것을 특징으로 하는, 동영상 처리 장치.
제 1 항에 있어서,

상기 적어도 하나의 프로세서가 상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 상기 제 2 오디오 신호를 출력할 때, 상기 제 1 오디오 신호에 대한 주파수 변환 동작을 수행하여, 2채널에 대한 시간 및 주파수 정보를 생성하고,

상기 제 1 오디오 신호 내 오디오 특징을 생성하기 위한 제 4-1 DNN을 이용하여 상기 2채널에 대한 시간 및 주파수 정보로부터 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 생성하고,

상기 복수의 시간별 주파수별 특징 정보에 포함된 시간 및 주파수에 대한 M개의 영상 특징 맵 정보와 상기 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 기초로, N+M개의 오디오/영상 통합 특징 맵 정보를 생성하고,

주파수 도메인 제 2 오디오 신호를 생성하기 위한 제 4-2 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보로부터 n채널(n은 2보다 큰 정수)에 대한 상기 주파수 도메인 제 2 오디오 신호를 생성하고,

오디오 보정 맵 정보를 생성하기 위한 제 4-3 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보 및 상기 제 2 고도 성분에 대응하는, 시간 및 주파수에 대한 N+M개의 보정 맵 정보로부터 n채널에 대한 오디오 보정 맵 정보를 생성하고,

상기 n채널에 대한 오디오 보정 맵 정보를 기초로, 상기 n채널에 대한 주파수 도메인 제 2 오디오 신호에 대한 보정을 수행하여, n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 생성하고,

상기 n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 주파수 역변환하여 n채널에 대한 상기 제 2 오디오 신호를 출력하는 것을 특징으로 하는, 동영상 처리 장치.
제 3 항에 있어서,

상기 적어도 하나의 프로세서는, 상기 시간에 대한 N+M개의 보정 맵 정보를 생성할 때,

상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보의 제 1 값과 상기 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보의 제 2 값의 관계를 고려하여 설정된 비례수 및 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보의 제 3 값을 기초로, 상기 시간에 대한 N+M개의 보정 맵 정보의 제 4 값을 생성하고,

상기 제 4 값을 포함하는 상기 시간에 대한 N+M개의 보정 맵 정보를 생성하는 것을 특징으로 하는 동영상 처리 장치.
제 1 항에 있어서,

상기 제 2 오디오 신호를 출력할 때, 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN을 기반으로 하고,

상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 제 1 DNN, 상기 제 1 고도 성분 및 상기 제 1 평면 성분을 추출하기 위한 제 2 DNN, 상기 제 2 평면 성분을 추출하기 위한 제 3 DNN 및 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN은 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호를 기초로 복원된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호와, 제 1 훈련 3차원 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련되는 것을 특징으로 하는 동영상 처리장치.
제 3 항에 있어서,

상기 제 2 오디오 신호를 출력할 때, 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN을 기반으로 하고,

상기 시간 및 주파수에 대한 N+M개의 보정 맵 정보는, 사용자 입력 파라메터 정보를 기초로 수정되고,

상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 제 1 DNN, 상기 제 1 고도 성분 및 상기 제 1 평면 성분을 추출하기 위한 제 2 DNN, 상기 제 2 평면 성분을 추출하기 위한 제 3 DNN 및 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN은 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호 및 상기 사용자 입력 파라메터 정보를 기초로 복원된 주파수 도메인 훈련 복원 3차원 오디오 신호와 제 1 훈련 3차원 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련되는 것을 특징으로 하는, 동영상 처리 장치.
제 6 항에 있어서,

제 1 훈련 2차원 오디오 신호 및 제 1 훈련 영상 신호는 상기 동영상 처리 장치와 동일한 장치이거나 상기 동영상 처리 장치와 연결된 다른 장치인, 휴대용 단말로부터 획득되고,

상기 제 1 훈련 3차원 오디오 신호는 상기 휴대용 단말에 포함되거나 장착된 앰비소닉 마이크로부터 획득되는 것을 특징으로 하는, 동영상 처리 장치.
제 6 항에 있어서,

상기 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 결과 획득된 제 1 내지 제 4 DNN의 파라메터 정보는, 상기 동영상 처리 장치에 저장되거나, 상기 동영상 처리 장치와 연결된 단말로부터 수신되는 것을 특징으로 하는, 동영상 처리 장치.
제 1 DNN(Deep Neural Network)을 기반으로 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성하는 단계;

제 2 DNN을 기반으로 상기 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하는 단계;

제 3 DNN을 기반으로, 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출하는 단계;

상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터 제 2 고도 성분을 생성하는 단계;

상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력하는 단계; 및

상기 제 2 오디오 신호 및 상기 동영상 신호를 동기화하여 출력하는 단계를 포함하는, 동영상 처리 장치의 동영상 처리 방법.
제 10 항에 있어서,

상기 복수의 시간별 주파수별 특징 정보를 생성하는 단계는,

상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하는 단계;

상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 상기 제 1 DNN(Deep Neural Network)을 이용하여 상기 동영상 신호로부터 동영상 내 객체의 움직임에 따른 M개(M은 1보다 크거나 같은 정수)의 1차원 영상 특징 맵 정보를 생성하는 단계; 및

상기 1차원 영상 특징 맵 정보에 대하여 주파수 관련 타일링(tiling)을 수행하여 시간 및 주파수에 대한 M개의 영상 특징 맵 정보를 포함하는 상기 복수의 시간별 주파수별 특징 정보를 생성하는 단계를 포함하는 것을 특징으로 하는, 동영상 처리 방법.
제 10 항에 있어서,

상기 제 2 DNN을 기반으로, 상기 제 1 고도 성분 및 제 1 평면 성분을 추출하는 단계 및 상기 제 3 DNN을 기반으로, 상기 제 2 평면 성분을 추출하는 단계는,

상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하는 단계;

상기 제 1 고도 성분에 대응하는, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-1 DNN을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하는 단계;

상기 제 1 평면 성분에 대응하는, 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-2 DNN 을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하는 단계;

상기 제 2 평면 성분에 대응하는, 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 3 DNN을 이용하여 상기 제 1 오디오 신호로부터 N+M개(N, M은 1보다 크거나 같은 정수)의 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하는 단계;

상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터, 제 2 고도 성분을 생성할 때,

상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보, 상기 수직 방향으로의 움직임 대응 특징 맵 정보 및 상기 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 기초로, 상기 제 2 고도 성분에 대응하는, 시간에 대한 N+M개의 보정 맵 정보를 생성하는 단계; 및

상기 시간에 대한 N+M개의 보정 맵 정보에 대하여 주파수 관련 타일링을 수행하여 상기 제 2 고도 성분에 대응하는, 시간 및 주파수에 대한 N+M개의 보정 맵 정보를 생성하는 단계를 포함하는 동영상 처리 방법.
제 10 항에 있어서,

상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 상기 제 2 오디오 신호를 출력하는 단계는,

상기 제 1 오디오 신호에 대한 주파수 변환 동작을 수행하여, 2채널에 대한 시간 및 주파수 정보를 획득하는 단계;

상기 제 1 오디오 신호 내 오디오 특징을 생성하기 위한 제 4-1 DNN을 이용하여 상기 2채널에 대한 시간 및 주파수 정보로부터 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 생성하는 단계;

상기 복수의 시간별 주파수별 특징 정보에 포함된 시간 및 주파수에 대한 M개의 영상 특징 맵 정보와, 상기 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 기초로, N+M개의 오디오/영상 통합 특징 맵 정보를 생성하는 단계; 및

주파수 도메인 제 2 오디오 신호를 생성하기 위한 제 4-2 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보로부터 n채널(n은 2보다 큰 정수)에 대한 상기 주파수 도메인 제 2 오디오 신호를 획득하는 단계;

오디오 보정 맵 정보를 생성하기 위한 제 4-3 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보로부터 상기 제 2 고도 성분에 대응하는, n채널에 대한 상기 오디오 보정 맵 정보를 생성하는 단계;

상기 n채널에 대한 N+M개의 오디오/영상 보정 맵 정보를 기초로, 상기 n채널에 대한 주파수 도메인 제 2 오디오 신호에 대한 보정을 수행하여, n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 생성하는 단계; 및

상기 n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 주파수 역변환하여 n채널에 대한 상기 제 2 오디오 신호를 출력하는 단계를 포함하는 동영상 처리 방법.
제 10 항에 있어서,

상기 제 2 오디오 신호를 출력할 때, 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN을 기반으로 하고,

상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 제 1 DNN, 상기 제 1 고도 성분 및 상기 제 1 평면 성분을 추출하기 위한 제 2 DNN, 제 2 평면 성분을 추출하기 위한 제 3 DNN 및 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN은 제 1 2차원 훈련 오디오 신호, 제 1 대응 훈련 영상 신호를 기초로 복원된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호와, 제 1 대응 3차원 훈련 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련되는 것을 특징으로 하는 동영상 처리 방법.
하드웨어와 결합하여 제 10 항의 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.