KR102468780B1

KR102468780B1 - DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리, 및 다른 절차를 위한 장치, 방법, 및 컴퓨터 프로그램

Info

Publication number: KR102468780B1
Application number: KR1020207012249A
Authority: KR
Inventors: 구일라우메 푸흐스; 유에르겐 헤레; 파비안 쿠에흐; 스테판 될라; 마르쿠스 물트루스; 올리버 티에르가르트; 올리버 부에볼트; 플로린 기도; 스테판 바이어; 볼프강 예거스
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2017-10-04
Filing date: 2018-10-01
Publication date: 2022-11-21
Also published as: CN117395593A; KR20200053614A; KR20220133311A; PT3692523T; AR117384A1; TW202016925A; AU2018344830A8; BR112020007486A2; PL3692523T3; CA3219566A1; US20220150635A1; RU2020115048A3; EP3975176A3; AR125562A2; JP7297740B2; CA3219540A1; AU2021290361A1; EP3975176A2; AU2021290361B2; RU2759160C2

Abstract

제1 포맷의 제1 장면의 제1 설명 및 제2 포맷의 제2 장면의 제2 설명을 수신하기 위한 입력 인터페이스(100) - 제2 포맷은 제1 포맷과 상이함 -; 제1 설명을 공통 포맷으로 변환하고, 제2 포맷이 상기 공통 포맷과 상이한 경우 제2 설명을 공통 포맷으로 변환하기 위한 포맷 변환기(120); 및 결합된 오디오 장면을 획득하기 위해 공통 포맷의 제1 설명 및 공통 포맷의 제2 설명을 결합하기 위한 포맷 결합기(140);를 포함하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.

Description

DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리, 및 다른 절차를 위한 장치, 방법, 및 컴퓨터 프로그램

본 발명은 오디오 신호 처리에 관한 것으로, 특히 오디오 장면의 오디오 설명의 오디오 신호 처리에 관한 것이다.

오디오 장면을 3차원으로 송신하려면 일반적으로 많은 양의 데이터를 송신하는 여러 채널을 처리해야 한다. 또한, 3D 사운드는 다른 방식으로 표현될 수 있다: 각각의 송신 채널이 스피커 위치와 관련된 전통적인 채널 기반 사운드; 라우드스피커 위치와 독립적으로 3차원으로 위치될 수 있다 오디오 객체를 통해 운반되는 사운드; 및 장면 기반(또는 앰비소닉스(Ambisonics)), 여기서 오디오 장면은 공간적으로 직교하는 기본 함수, 예를 들어 구형 고조파의 선형 가중치인 계수 신호 세트로 표현됨. 채널 기반 표현과 달리 장면 기반 표현은 특정 라우드스피커 설정과 무관하며 디코더에서 추가 렌더링 절차를 희생하여 모든 라우드스피커 설정에서 재생할 수 있다.

이들 각각의 포맷에 대해, 오디오 신호를 낮은 비트 전송률(bit-rate)로 효율적으로 저장 또는 송신하기 위해 전용 코딩 체계가 개발되었다. 예를 들어, MPEG 서라운드는 채널 기반 서라운드 사운드를 위한 파라메트릭 코딩 방식이며, MPEG 공간 오디오 객체 코딩(Spatial Audio Object Coding, SAOC)은 객체 기반 오디오를 위한 파라메트릭 코딩 방법이다. 최신 표준 MPEG-H 2 단계에서 높은 차수의 앰비소닉스를 위한 파라메트릭 코딩 기술이 제공되었다.

이러한 맥락에서, 채널 기반, 객체 기반, 및 장면 기반 오디오의 세 가지 오디오 장면 표현이 모두 사용되며 지원되어야 하는 경우, 세 가지 3D 오디오 표현 모두의 효율적인 파라메트릭 코딩을 허용하는 범용 체계를 설계할 필요가 있다. 또한, 상이한 오디오 표현의 믹스로 구성된 복잡한 오디오 장면을 인코딩, 송신, 및 재생할 수 있어야 한다.

방향성 오디오 코딩(Directional Audio Coding, DirAC) 기술 [1]은 공간 사운드의 분석 및 재생에 대한 효율적인 접근 방식이다. DirAC는 도착 방향(direction of arrival, DOA) 및 주파수 대역당 측정된 확산도(diffuseness)에 따라 지각적으로 동기화된 음장의 표현을 사용한다. 한 순간에 그리고 하나의 임계 대역에서, 청각 시스템의 공간 해상도는 방향에 대한 하나의 큐와 청각적 간섭에 대한 하나의 큐를 디코딩하는 것으로 제한된다는 가정에 기초한다. 공간 사운드는 2개의 스트림, 즉 비방향성 확산 스트림 및 방향성 비확산 스트림을 교차 페이딩함으로써 주파수 영역에서 표현된다.

DirAC는 원래 레코딩된 B-포맷 사운드용으로 설계되었지만 다른 오디오 포맷을 믹스하기 위한 일반적인 포맷으로도 사용할 수 있다. DirAC는 [3]에서 기존 서라운드 사운드 포맷 5.1을 처리하기 위해 이미 확장되었다. 또한, [4]에서 여러 DirAC 스트림을 병합할 것을 제안했다. 또한, DirAC는 B-포맷 이외의 마이크로폰 입력도 지원하도록 확장했다([6]).

그러나 DirAC를 오디오 객체의 개념을 지원할 수 있다 3D 오디오 장면의 범용 표현으로 만드는 보편적인 개념은 없다.

DirAC에서 오디오 객체를 처리하기 위해 이전에 고려한 사항은 거의 없다. DirAC는 공간 오디오 코더(Spatial Audio Coder, SAOC)의 음향 프론트 엔드로 소스 믹스에서 여러 토커를 추출하기 위한 블라인드 소스 분리로 [5]에 사용되었다. 그러나, DirAC 자체를 공간 오디오 코딩 체계로 사용하고 메타데이터와 함께 직접 오디오 객체를 처리하고 이들을 다른 오디오 표현과 함께 결합할 가능성은 없었다.

본 발명의 목적은 오디오 장면 및 오디오 장면 설명을 처리하고 처리하는 개선된 개념을 제공하는 것이다.

이 목적은 청구항 1의 결합 오디오 장면의 설명을 생성하기 위한 장치, 청구항 14의 결합 오디오 장면의 설명을 생성하는 방법, 또는 청구항 15의 관련 컴퓨터 프로그램에 의해 달성된다.

또한, 이 목적은 청구항 16의 복수의 오디오 장면의 합성을 수행하는 장치, 청구항 20의 복수의 오디오 장면의 합성을 수행하는 방법, 또는 청구항 21에 따른 관련 컴퓨터 프로그램에 의해 달성된다.

이 목적은 또한 청구항 22의 오디오 데이터 변환기, 청구항 28의 오디오 데이터 변환을 수행하는 방법, 또는 청구항 29의 관련 컴퓨터 프로그램에 의해 달성된다.

또한, 이 목적은 청구항 30의 오디오 장면 인코더, 청구항 34의 오디오 장면을 인코딩하는 방법, 또는 청구항 35의 관련 컴퓨터 프로그램에 의해 달성된다.

또한, 이 목적은 청구항 36의 오디오 데이터의 합성을 수행하는 장치, 청구항 40의 오디오 데이터의 합성을 수행하는 방법, 또는 청구항 41의 관련 컴퓨터 프로그램에 의해 달성된다.

본 발명의 실시예는 공간 오디오 처리를 위해 지각적으로 동기화된 기술인 방향성 오디오 코딩 패러다임(DirAC)을 중심으로 구축된 3D 오디오 장면을 위한 범용 파라메트릭 코딩 체계에 관한 것이다. 원래 DirAC는 오디오 장면의 B-포맷 레코딩을 분석하도록 설계되었다. 본 발명은 채널 기반 오디오, 앰비소닉스, 오디오 객체, 또는 이들의 믹스와 같은 임의의 공간 오디오 포맷을 효율적으로 처리하는 능력을 확장시키는 것을 목표로 한다.

임의의 라우드스피커 레이아웃 및 헤드폰을 위해 DirAC 재생을 쉽게 생성할 수 있다. 본 발명은 또한 추가로 앰비소닉스, 오디오 객체, 또는 포맷의 믹스를 출력하는 이러한 능력을 확장시킨다. 더욱 중요하게는, 본 발명은 사용자가 오디오 객체를 조작하고 예를 들어 디코더 단부에서 대화 향상을 달성할 수 있다 가능성을 가능하게 한다.

컨텍스트 : DirAC 공간 오디오 코더의 시스템 개요

다음에는 몰입형 음성 및 오디오 서비스(Imersive Voice and Audio Service, IVAS)를 위해 설계된 DirAC 기반의 새로운 공간 오디오 코딩 시스템의 개요가 나와 있다. 이러한 시스템의 목적은 오디오 장면을 나타내는 서로 다른 공간 오디오 포맷을 처리하고 이를 낮은 비트 전송률로 코딩하고 송신 후 가능한 한 충실하게 원본 오디오 장면을 재생하는 것이다.

시스템은 오디오 장면의 다른 표현을 입력으로 받아들일 수 있다. 입력 오디오 장면은 상이한 라우드스피커 위치에서 재생하기 위한 다중 채널 신호, 시간이 지남에 따른 객체의 위치를 설명하는 메타데이터와 함께 청각적인 객체, 또는 청취자 또는 기준 위치에서의 음장을 나타내는 1차 또는 고차의 앰비소닉스 포맷에 의해 캡처될 수 있다.

바람직하게는, 시스템은 3GPP 강하된 음성 서비스(Enhanced Voice Service, EVS)를 기반으로 하며, 이는 솔루션이 모바일 네트워크에서 대화 서비스를 가능하게 하기 위해 낮은 대기 시간으로 동작할 것으로 예상되기 때문이다.

도 9는 다른 오디오 포맷을 지원하는 DirAC 기반 공간 오디오 코딩의 인코더 측이다. 도 9에 도시된 바와 같이, 인코더(IVAS 인코더)는 시스템에 개별적으로 또는 동시에 제시된 상이한 오디오 포맷을 지원할 수 있다. 오디오 신호는 본질적으로 음향일 수 있고, 마이크로폰에 의해 픽업되거나 전기적으로 스피커에 송신되어야 하는 전기일 수 있다. 지원되는 오디오 포맷은 다중 채널 신호, 1차 및 고차 앰비소닉스 성분 및 오디오 객체일 수 있다. 다른 입력 포맷을 결합하여 복잡한 오디오 장면을 설명할 수도 있다. 모든 오디오 포맷은 전체 오디오 장면의 파라메트릭 표현을 추출하는 DirAC 분석(180)으로 송신된다. 시간-주파수 단위당 측정되는 도착 방향 및 확산도가 파라미터를 형성한다. DirAC 분석은 공간 메타데이터 인코더(190)에 의해 수행되며, 이는 낮은 비트 전송률 파라메트릭 표현을 획득하기 위해 DirAC 파라미터를 양자화 및 인코딩한다.

파라미터와 함께, 상이한 소스 또는 오디오 입력 신호로부터 도출된 다운믹스 신호(160)가 종래의 오디오 코어-코더(170)에 의한 송신을 위해 코딩된다. 이 경우, 다운믹스 신호를 코딩하기 위해 EVS 기반 오디오 코더가 채택된다. 다운믹스 신호는 전송 채널이라고 하는 상이한 채널로 구성된다: 타겟 비트 전송률에 따라 B-포맷 신호, 스테레오 쌍 또는 모노포닉 다운믹스를 구성하는 4개의 계수 신호. 코딩된 공간 파라미터 및 코딩된 오디오 비트스트림은 통신 채널을 통해 송신되기 전에 다중화된다.

도 10은 상이한 오디오 포맷을 전달하는 DirAC 기반 공간 오디오 코딩의 디코더이다. 도 10에 도시된 디코더에서, 전송 채널은 코어 디코더(1020)에 의해 디코딩되는 반면, DirAC 메타데이터는 디코딩된 전송 채널과 함께 DirAC 합성(220, 240)으로 전달되기 전에 먼저 디코딩된다(1060). 이 단계(1040)에서, 상이한 옵션이 고려될 수 있다. 일반적인 DirAC 시스템(도 10의 MC)에서 일반적으로 가능한 모든 라우드스피커 또는 헤드폰 구성에서 오디오 장면을 직접 재생하도록 요청할 수 있다. 또한 장면의 회전, 반사, 또는 이동과 같은 다른 추가 조작을 위해 장면을 앰비소닉스 포맷으로 렌더링하도록 요청할 수도 있다(도 10의 FOA/HOA). 마지막으로, 디코더는 인코더 측에 제시된 개별 객체를 전달할 수 있다(도 10의 객체).

오디오 객체도 교체할 수 있지만 청취자가 객체를 대화형으로 조작하여 렌더링된 믹스를 조정하는 것이 더 흥미롭다. 일반적인 객체 조작은 객체의 레벨, 이퀄라이제이션, 또는 공간 위치 조정이다. 예를 들어, 객체 기반 대화 향상은 이 상호 작용 기능에 의해 제공될 수 있다. 마지막으로, 인코더 입력에서 제시된 대로 원래 포맷을 출력할 수 있다. 이 경우, 오디오 채널과 객체가 믹스되거나 앰비소닉스와 객체가 믹스될 수 있다. 다중 채널 및 앰비소닉스 성분의 개별 송신을 달성하기 위해, 설명된 시스템의 몇몇 예가 사용될 수 있다.

본 발명은, 특히 제 양태에 따르면, 상이한 오디오 장면 설명을 결합 할 수 있게 하는 공통 포맷을 통해 상이한 장면 설명을 결합된 오디오 장면으로 결합하기 위해 프레임워크가 설정된다는 점에서 유리하다.

이 공통 포맷은 예를 들어 B-포맷일 수 있거나 압력/속도 신호 표현 포맷일 수 있거나, 바람직하게는 DirAC 파라미터 표현 포맷일 수도 있다.

이 포맷은 또한, 한편으로는 상당한 양의 사용자 상호 작용을 허용하고, 다른 한편으로는 오디오 신호를 나타내는 데 필요한 비트 전송률과 관련하여 유용한 컴팩트 포맷이다.

본 발명의 다른 양태에 따르면, 복수의 오디오 장면의 합성은 유리하게는 둘 이상의 상이한 DirAC 설명을 결합함으로써 수행될 수 있다. 이러한 서로 다른 DirAC 설명은 파라미터 영역의 장면을 결합하거나 각 오디오 장면을 개별적으로 렌더링한 다음 스펙트럼 영역 또는 대안으로 시간 영역에 이미 있는 개별 DirAC 설명에서 렌더링된 오디오 장면을 결합하여 또는 대안으로 처리할 수 있다.

이 절차는 단일 장면 표현, 특히 단일 시간 영역 오디오 신호로 결합될 상이한 오디오 장면의 매우 효율적이고 고품질 처리를 가능하게 한다.

본 발명의 또 다른 양태는 객체 메타데이터를 DirAC 메타데이터로 변환하기 위해 변환된 특히 유용한 오디오 데이터가 도출되는데, 이 오디오 데이터 변환기는 제1, 제2, 또는 제3 양태의 프레임워크에서 사용될 수 있거나 또한 서로 독립적으로 적용된다. 오디오 데이터 변환기는 오디오 객체 데이터, 예를 들어 오디오 객체에 대한 파형 신호 및 대응하는 위치 데이터를 전형적으로 재생 설정 내에서 오디오 객체의 특정 궤적을 나타내는 시간에 대해 매우 유용하고 컴팩트한 오디오 장면 설명, 및 특히 DirAC 오디오 장면 설명 포맷을 효율적으로 변환할 수 있게 한다. 오디오 객체 파형 신호 및 오디오 객체 위치 메타데이터를 갖는 전형적인 오디오 객체 설명은 특정 재생 설정과 관련되거나 일반적으로 특정 재생 좌표계와 관련되지만, DirAC 설명은 청취자 또는 마이크로폰 위치와 관련이 있으며 스피커 설정 또는 재생 설정과 관련하여 제한이 전혀 없다는 점에서 특히 유용하다.

따라서, 오디오 객체 메타데이터 신호로부터 생성된 DirAC 설명은 추가로 재생 설정에서 공간 오디오 객체 코딩 또는 객체의 진폭 패닝과 같은 다른 오디오 객체 결합 기술과는 다른 오디오 객체의 매우 유용하고 콤팩트하고 고품질의 결합을 허용한다.

본 발명의 다른 양태에 따른 오디오 장면 인코더는 DirAC 메타데이터를 갖는 오디오 장면 및 추가로 오디오 객체 메타데이터를 갖는 오디오 객체의 결합된 표현을 제공하는 데 특히 유용하다.

특히, 이 상황에서, 한편으로는 DirAC 메타데이터 및 다른 한편으로는 객체 메타데이터를 갖는 결합된 메타데이터 설명을 생성하기 위해 높은 상호 작용성에 특히 유용하고 유리하다. 따라서, 이 양태에서, 객체 메타데이터는 DirAC 메타데이터와 결합되지 않지만, 객체 메타데이터가 객체 신호와 함께 개별 객체의 방향 또는 추가로 거리 및/또는 확산도를 포함하도록 DirAC 유사 메타데이터로 변환된다. 따라서, 객체 신호는 DirAC 유사 표현으로 변환되어 제1 오디오 장면 및 이 제1 오디오 장면 내의 추가 객체에 대한 DirAC 표현의 매우 유연한 처리가 허용되고 가능해진다. 따라서, 예를 들어, 한편으로는 대응하는 전송 채널 및 다른 한편으로는 DirAC 스타일 파라미터가 여전히 이용 가능하기 때문에 특정 객체가 매우 선택적으로 처리될 수 있다.

본 발명의 다른 양태에 따르면, 오디오 데이터의 합성을 수행하기 위한 장치 또는 방법은 하나 이상의 오디오 객체의 DirAC 설명, 다중 채널 신호의 DirAC 설명 또는 1차 앰비소닉스 신호 또는 그 보다 높은 차수의 앰비소닉스 신호의 DirAC 설명을 조작하기 위해 조작기가 제공되는 점에서 특히 유용하다. 그리고, 조작된 DirAC 설명은 DirAC 합성기를 사용하여 합성된다.

이 양태은 임의의 오디오 신호에 대한 임의의 특정 조작이 DirAC 영역에서, 즉 DirAC 설명의 전송 채널을 조작하거나 또는 대안으로 DirAC 설명의 파라메트릭 데이터를 조작함으로써 매우 유용하고 효율적으로 수행된다는 특별한 이점을 갖는다 . 이러한 수정은 다른 영역에서의 조작과 비교하여 DirAC 영역에서 수행하는 것이 실질적으로 더 효율적이고 실용적이다. 특히, 바람직한 조작 동작으로서 위치 의존 가중 연산이 특히 DirAC 영역에서 수행될 수 있다. 따라서, 특정 실시예에서, DirAC 영역에서 대응하는 신호 표현의 변환 후, DirAC 영역 내에서 조작을 수행하는 것은 현대 오디오 장면 처리 및 조작에 특히 유용한 응용 시나리오이다.

바람직한 실시예는 첨부 도면과 관련하여 이후에 논의되며, 여기서:
도 1a는 본 발명의 제1 양태에 따라 결합된 오디오 장면의 설명을 생성하기 위한 장치 또는 방법의 바람직한 구현의 블록도이다;
도 1b는 공통 포맷이 압력/속도 표현인, 결합된 오디오 장면의 생성의 구현예이다;
도 1c는 DirAC 파라미터 및 DirAC 설명이 공통 포맷인, 결합된 오디오 장면의 생성의 바람직한 구현예이다;
도 1d는 상이한 오디오 장면 또는 오디오 장면 설명의 DirAC 파라미터의 결합기의 구현을 위한 2개의 상이한 대안을 도시한 도 1c의 결합기의 바람직한 구현예이다;
도 1e는 공통 포맷이 앰비소닉스 표현의 예로서 B-포맷인, 결합된 오디오 장면의 생성의 바람직한 구현예이다;
도 1f는 예를 들어 도 1c 또는 1d와 관련하여 유용하거나 메타데이터 변환기와 관련한 제3 양태와 관련하여 유용한 오디오 객체/DirAC 변환기의 예시이다;
도 1g는 DirAC 설명에 대한 5.1 다중채널 신호의 예시적인 도면이다;
도 1h는 인코더 및 디코더 측과 관련하여 다중채널 포맷을 DirAC 포맷으로 변환하는 것을 추가로 도시한 도면이다;
도 2a는 본 발명의 제2 양태에 따라 복수의 오디오 장면의 합성을 수행하기 위한 장치 또는 방법의 실시예를 도시한 도면이다;
도 2b는 도 2a의 DirAC 합성기의 바람직한 구현예를 도시한 도면이다;
도 2c는 렌더링된 신호의 결합을 갖는 DirAC 합성기의 추가 구현예를 도시한 도면이다;
도 2d는 도 2b의 장면 결합기(221) 전에 또는 도 2c의 결합기(225) 전에 연결된 선택적 조작기의 구현예를 도시한다;
도 3a는 본 발명의 제3 양태에 따른 오디오 데이터 변환을 수행하기 위한 장치 또는 방법의 바람직한 구현예이다;
도 3b는 도 1f에 또한 도시된 메타데이터 변환기의 바람직한 구현예이다;
도 3c는 압력/속도 영역을 통한 오디오 데이터 변환의 추가 구현을 수행하기 위한 흐름도이다;
도 3d는 DirAC 영역 내에서 결합을 수행하기 위한 흐름도를 도시한다;
도 3e는 예를 들어 본 발명의 제1 양태에 대하여 도 1d에 도시된 바와 같이 상이한 DirAC 설명을 결합하기 위한 바람직한 구현예를 도시한다;
도 3f는 객체 위치 데이터를 DirAC 파라미터 표현으로 변환하는 것을 도시한 도면이다;
도 4a는 DirAC 메타데이터 및 객체 메타데이터를 포함하는 결합된 메타데이터 설명을 생성하기 위한 본 발명의 제4 양태에 따른 오디오 장면 인코더의 바람직한 구현예를 도시한다;
도 4b는 본 발명의 제4 양태에 관한 바람직한 실시예를 도시한 도면이다;
도 5a는 본 발명의 제5 양태에 따른 오디오 데이터의 합성을 수행하기 위한 장치 또는 대응하는 방법의 바람직한 구현예를 도시한다;
도 5b는 도 5a의 DirAC 합성기의 바람직한 구현예를 도시한 도면이다;
도 5c는 도 5a의 조작기의 절차의 다른 대안을 도시한 도면이다;
도 5d는 도 5a의 조작기의 구현을 위한 추가 절차를 도시한 도면이다;
도 6은 모노 신호 및 도착 방향 정보, 즉 예시적인 DirAC 설명으로부터 생성하기 위한 오디오 신호 변환기를 도시한 도면이며, 여기서 확산도는 예를 들어 전방향(omnidirectional) 성분 및 X, Y, 및 Z 방향의 방향 성분을 포함하는 B-포맷 표현으로 0으로 설정된다;
도 7a는 B-포맷 마이크로폰 신호의 DirAC 분석의 구현예를 도시한다;
도 7b는 공지된 절차에 따른 DirAC 합성의 구현예를 도시한다;
도 8은 특히 도 1a 실시예의 추가 실시예를 설명하기 위한 흐름도를 도시한다;
도 9는 상이한 오디오 포맷을 지원하는 DirAC 기반 공간 오디오 코딩의 인코더 측이다;
도 10은 상이한 오디오 포맷을 전달하는 DirAC 기반 공간 오디오 코딩의 디코더이다;
도 11은 상이한 입력 포맷들을 결합된 B-포맷으로 결합하는 DirAC 기반 인코더/디코더의 시스템 개요이다;
도 12는 압력/속도 영역에서 DirAC 기반 인코더/디코더 결합의 시스템 개요이다;
도 13은 DirAC 영역에서 상이한 입력 포맷을 디코더 측에서의 객체 조작 가능성과 결합하는 DirAC 기반 인코더/디코더의 시스템 개요이다;
도 14는 DirAC 메타데이터 결합기를 통해 디코더 측에서 상이한 입력 포맷을 결합하는 DirAC 기반 인코더/디코더의 시스템 개요이다;
도 15는 DirAC 합성에서 디코더 측에서 상이한 입력 포맷을 결합하는 DirAC 기반 인코더/디코더의 시스템 개요이다; 그리고
도 16a-f는 본 발명의 제1 내지 제5 양태의 맥락에서 유용한 오디오 포맷의 여러 표현을 도시한다.

도 1a는 결합된 오디오 장면의 설명을 생성하기 위한 장치의 바람직한 실시예를 도시한다. 장치는 제1 포맷의 제1 장면의 제1 설명 및 제2 포맷의 제2 장면의 제2 설명을 수신하기 위한 입력 인터페이스(100)를 포함하며, 여기서 제2 포맷은 제1 포맷과 상이하다. 포맷은 도 16a 내지 16f에 도시된 포맷 또는 장면 설명 중 임의의 것과 같은 임의의 오디오 장면 포맷일 수 있다.

도 16a는 예를 들어 모노 채널 및 객체 1의 위치와 관련된 대응하는 메타데이터와 같은(인코딩된) 객체 1 파형 신호로 구성된 객체 설명을 도시하며, 여기서 이 정보는 일반적으로 각각의 시간 프레임 또는 시간 프레임 그룹에 대해 주어지고, 객체 1 파형 신호가 인코딩된다. 제2 또는 추가 객체에 대한 대응하는 표현이 도 16a에 도시된 바와 같이 포함될 수 있다.

다른 대안은 모노 신호인 객체 다운믹스, 2개의 채널을 가진 스테레오 신호, 또는 3개 이상의 채널 및 객체 에너지, 시간/주파수 빈당 상관 정보 및 선택적으로 객체 위치와 같은 관련 객체 메타데이터가 있는 신호로 구성되는 객체 설명일 수 있다. 그러나, 객체 위치는 또한 전형적인 렌더링 정보로서 디코더 측에서 주어질 수 있고, 따라서 사용자에 의해 수정될 수 있다. 도 16b의 포맷은 예를 들어 잘 알려진 SAOC(공간 오디오 객체 코딩) 포맷으로 구현될 수 있다.

장면의 다른 설명은 도 16c에 제1 채널, 제2 채널, 제3 채널, 제4 채널, 또는 제5 채널의 인코딩된 또는 인코딩되지 않은 표현을 갖는 다중채널 설명으로서 도시되며, 여기서 제1 채널은 왼쪽 채널(L)일 수 있고, 제2 채널은 오른쪽 채널(R)일 수 있고, 제3 채널은 중심 채널(C)일 수 있고, 제4 채널은 왼쪽 서라운드 채널(LS)일 수 있고, 제5 채널은 오른쪽 서라운드 채널(RS)일 수 있다. 당연히, 다중채널 신호는 스테레오 채널을 위한 2개의 채널, 또는 5.1 포맷을 위한 6 개의 채널, 또는 7.1 포맷을 위한 8 개의 채널 등과 같이 더 적거나 더 많은 수의 채널을 가질 수 있다.

다중채널 신호의 보다 효율적인 표현이 도 16d에 도시되어 있으며, 여기서, 모노 다운믹스와 같은 채널 다운믹스, 또는 스테레오 다운믹스 또는 3개 이상의 채널을 갖는 다운믹스는 전형적으로 각각의 시간 및/또는 주파수 빈에 대한 채널 메타데이터로서 파라메트릭 부가 정보(parametric side information)와 관련된다. 이러한 파라메트릭 표현은 예를 들어 MPEG 서라운드 표준에 따라 구현될 수 있다.

오디오 장면의 다른 표현은, 예를 들어, 전방향 신호(W) 및 도 16e에 도시된 바와 같이 방향성 성분(X, Y, Z)으로 구성된 B-포맷일 수 있다. 이것은 1차 또는 FoA 신호일 것이다. 더 높은 차수의 앰비소닉스 신호, 즉 HoA 신호는 당업계에 공지된 바와 같은 추가 성분을 가질 수 있다.

도 16e 표현은 도 16c 및 도 16d 표현과 대조적으로, 특정 라우드스피커 설정에 의존하지 않지만, 특정(마이크로폰 또는 청취자) 위치에서 경험되는 음장을 설명하는 표현이다.

이러한 다른 음장 설명은 예를 들어 도 16f에 도시된 바와 같은 DirAC 포맷이다. DirAC 포맷은 전형적으로 모노 또는 스테레오 또는 임의의 다운믹스 신호 또는 송신 신호 및 대응하는 파라메트릭 부가 정보인 DirAC 다운믹스 신호를 포함한다. 이 파라메트릭 부가 정보는, 예를 들어 시간/주파수 빈당 도착 방향 정보 및 선택적으로 시간/주파수 빈당 확산도 정보이다.

도 1a의 입력 인터페이스(100)로의 입력은 예를 들어 도 16a 내지도 16f와 관련하여 예시된 포맷 중 임의의 포맷일 수 있다. 입력 인터페이스(100)는 대응하는 포맷 설명을 포맷 변환기(120)로 포워딩한다. 포맷 변환기(120)는 제1 설명을 공통 포맷으로 변환하고, 제2 포맷이 공통 포맷과 다른 경우 제2 설명을 동일한 공통 포맷으로 변환하도록 구성된다. 그러나, 제2 포맷이 이미 공통 포맷인 경우, 제1 설명은 공통 포맷과 다른 포맷이므로 포맷 변환기는 제1 설명만 공통 포맷으로 변환한다.

따라서, 포맷 변환기의 출력에서, 또는 일반적으로 포맷 결합기의 입력에서, 공통 포맷으로 제1 장면의 표현 및 동일한 공통 포맷으로 제2 장면의 표현이 존재한다. 두 설명이 모두 하나의 동일한 공통 포맷에 포함되어 있기 때문에, 포맷 결합기는 이제 제1 설명과 제2 설명을 결합하여 결합된 오디오 장면을 획득할 수 있다.

도 1e에 도시된 실시예에 따르면, 포맷 변환기(120)는 예를 들어 도 1e의 127에 도시된 바와 같이 제1 설명을 제1 B-포맷 신호로 변환하고, 도 1e의 128에 도시된 바와 같이 제2 설명에 대한 B-포맷 표현을 계산하도록 구성된다.

그리고, 포맷 결합기(140)는 W 성분 가산기(146a)에 도시된 성분 신호 가산기, X 성분 가산기(146b)에 도시된 성분 신호 가산기, Y 성분 가산기에는 146c, Z 성분 가산기는 146d에 도시된 성분 신호 가산기로 구현된다.

따라서, 도 1e 실시예에서, 결합된 오디오 장면은 B-포맷 표현일 수 있고, B-포맷 신호는 전송 채널로서 동작할 수 있고, 그 다음에 도 1a의 전송 채널 인코더(170)를 통해 인코딩될 수 있다. 따라서, B-포맷 신호에 대한 결합된 오디오 장면은 도 1a의 인코더(170)에 직접 입력되어 출력 인터페이스(200)를 통해 출력될 수 있다 인코딩된 B-포맷 신호를 생성할 수 있다. 이 경우, 임의의 공간 메타데이터는 필요하지 않지만, 4개의 오디오 신호, 즉 전방향 성분(W) 및 방향 성분(X, Y, Z)의 인코딩된 표현의 대가로 제공된다.

대안으로, 일반적인 포맷은 도 1b에 도시된 바와 같이 압력/속도 포맷이다. 이를 위해, 포맷 변환기(120)는 제1 오디오 장면을 위한 시간/주파수 분석기(121) 및 제2 오디오 장면을 위한 시간/주파수 분석기(122), 또는 일반적으로 숫자 N을 갖는 오디오 장면(여기서 N은 정수)을 포함한다.

그 다음에, 스펙트럼 변환기(121, 122)에 의해 생성된 각각의 이러한 스펙트럼 표현에 대해, 압력 및 속도는 123 및 124에 도시된 바와 같이 계산되고, 포맷 결합기는 한편으로는 블록(123, 124)에 의해 생성된 대응하는 압력 신호를 합산함으로써 합산된 압력 신호를 계산하도록 구성된다. 또한, 각각의 블록(123, 124)에 의해서도 개별 속도 신호가 계산되며, 결합된 압력/속도 신호를 획득하기 위해 속도 신호가 함께 추가될 수 있다.

구현에 따라, 블록(142, 143)의 절차가 반드시 수행될 필요는 없다. 대신에, 결합 또는 "합산된" 압력 신호 및 결합 또는 "합산된" 속도 신호는 B-포맷 신호의도 1e에 도시된 바와 같이 유사하게 인코딩될 수 있으며, 이 압력/속도 표현은 도 1a의 인코더(170)를 통해 다시 한번 인코딩될 수 있고, 그 다음에 공간 파라미터와 관련하여 추가적인 부가 정보 없이 디코더로 송신될 수 있는데, 결합된 압력/속도 표현이 디코더 측에서 최종적으로 렌더링된 고품질 음장을 획득하기 위해 필요한 공간 정보를 이미 포함하기 때문이다.

그러나 일 실시예에서, 블록(141)에 의해 생성된 압력/속도 표현에 대해 DirAC 분석을 수행하는 것이 바람직하다. 이를 위해, 강도 벡터(142)가 계산되고, 블록(143)에서, 강도 벡터로부터의 DirAC 파라미터가 계산된 다음, 결합된 DirAC 파라미터가 결합된 오디오 장면의 파라메트릭 표현으로서 획득된다. 이를 위해, 도 1a의 DirAC 분석기(180)는 도 1b의 블록(142 및 143)의 기능을 수행하도록 구현된다. 또한, 바람직하게는, DirAC 데이터는 메타데이터 인코더(190)에서 메타데이터 인코딩 동작을 추가적으로 받는다. 메타데이터 인코더(190)는 일반적으로 DirAC 파라미터의 송신에 필요한 비트 전송률을 감소시키기 위해 양자화 기 및 엔트로피 코더를 포함한다.

인코딩된 DirAC 파라미터와 함께 인코딩된 전송 채널도 송신된다.인코딩된 전송 채널은 도 1a의 전송 채널 생성기(160)에 의해 생성되며, 이는 예를 들어, 제1 오디오 장면으로부터 다운믹스를 생성하기 위한 제1 다운믹스 생성기(161) 및 N 번째 오디오 장면으로부터 다운믹스를 생성하기 위한 제N 다운믹스 생성기(162)에 의해 도 1b에 도시된 바와 같이 구현될 수 있다.

그 다음에, 다운믹스 채널은 일반적으로 간단한 가산에 의해 결합기(163)에서 결합되고 결합된 다운믹스 신호는 도 1a의 인코더(170)에 의해 인코딩된 전송 채널이다. 결합된 다운믹스는 예를 들어 스테레오 쌍, 즉 스테레오 표현의 제1 채널 및 제2 채널일 수 있거나 모노 채널, 즉 단일 채널 신호일 수 있다.

도 1c에 도시된 다른 실시예에 따르면, 포맷 변환기(120)에서의 포맷 변환은 각각의 입력 오디오 포맷을 공통 포맷으로서 DirAC 포맷으로 직접 변환하기 위해 수행된다. 이를 위해, 포맷 변환기(120)는 다시 한번 제1 장면에 대한 대응 블록(121) 및 제2 또는 추가 장면에 대한 블록(122)에서 시간-주파수 변환 또는 시간/주파수 분석을 형성한다. 이어서, DirAC 파라미터는 125 및 126에 도시된 대응하는 오디오 장면의 스펙트럼 표현으로부터 도출된다. 블록 125 및 126에서의 절차의 결과는 시간/주파수 타일당 에너지 정보, 시간/주파수 타일당 도착 방향 정보(e_DOA), 및 각각의 시간/주파수 타일에 대한 확산도 정보(ψ로 구성된 DirAC 파라미터이다. 그리고, 포맷 결합기(140)는 확산 방향에 대한 결합된 DirAC 파라미터(ψ)와 도착 방향에 대한 e_DOA를 생성하기 위해 DirAC 파라미터 영역에서 직접 결합을 수행하도록 구성된다. 특히, 에너지 정보(E₁ 및 E_N)는 결합기(144)에 의해 요구되지만 포맷 결합기(140)에 의해 생성된 최종 결합된 파라메트릭 표현의 일부는 아니다.

따라서, 도 1c를 도 1e와 비교하면, 포맷 결합기(140)가 이미 DirAC 파라미터 영역에서 결합을 수행할 때, DirAC 분석기(180)는 필요하지 않고 구현되지 않음을 알 수 있다. 대신에, 도 1c의 블록(144)의 출력 인 포맷 결합기(140)의 출력은 도 1a의 메타데이터 인코더(190)로 직접 거기에서 출력 인터페이스(200)로 포워딩되어 인코딩된 공간 메타데이터가 되고, 특히, 인코딩되고 결합된 DirAC 파라미터는 출력 인터페이스(200)에 의해 출력되는 인코딩된 출력 신호에 포함된다.

또한, 도 1a의 전송 채널 생성기(160)는 입력 인터페이스(100)로부터 제1 장면에 대한 파형 신호 표현 및 제2 장면에 대한 파형 신호 표현을 이미 수신할 수 있다. 이들 표현은 다운믹스 생성기 블록(161, 162)에 입력되고, 결과는 도 1b와 관련하여 도시된 바와 같이 결합된 다운믹스를 획득하기 위해 블록(163)에 추가된다.

도 1d는 도 1c와 관련하여 유사한 표현을 도시한다. 그러나, 도 1d에서, 오디오 객체 파형은 오디오 객체 1을 위한 시간/주파수 표현 변환기(121) 및 오디오 객체 결합을 위한 122로 입력된다. 또한, 메타데이터는 도 1c에 도시된 바와 같이 스펙트럼 표현과 함께 DirAC 파라미터 산출기(125, 126)에 입력된다.

그러나, 도 1d는 결합기(144)의 바람직한 구현이 어떻게 동작하는지에 대한 보다 상세한 표현을 제공한다. 제1 대안에서, 결합기는 각각의 개별 객체 또는 장면에 대한 개별 확산의 에너지 가중 가산을 수행하고, 각각의 시간/주파수 타일에 대한 결합된 DoA의 상응하는 에너지 가중 계산은 대안 1의 하위 방정식에 도시된 바와 같이 수행된다.

그러나, 다른 구현도 수행될 수 있다. 특히, 또 다른 매우 효율적인 계산은 결합된 DirAC 메타데이터에 대해 확산도를 0으로 설정하고 각각의 시간/주파수 타일에 대한 도착 방향으로 특정 시간/주파수 타일 내에서 가장 높은 에너지를 갖는 특정 오디오 객체로부터 계산된 도착 방향을 선택하는 것이다. 바람직하게는, 도 1d의 절차는 입력 인터페이스로의 입력이 각각의 객체에 대한 파형 또는 단일 신호 및 대응하는 메타데이터, 예를 들어도 16a 또는 16b와 관련하여 도시된 위치 정보에 대응하는 개별 오디오 객체일 때 더 적절하다.

그러나, 도 1c 실시예에서, 오디오 장면은 도 16c, 16d, 16e 또는 16f에 도시된 임의의 다른 표현일 수 있다. 그러면, 메타데이터가 있을 수 있거나, 그렇지 않을 수 있는데, 즉 도 1c의 메타데이터는 선택 사항이다. 그 다음에, 그러나, 도 16e의 앰비소닉스 장면 설명과 같은 특정 장면 설명에 대해 일반적으로 유용한 확산도가 계산되고, 그 다음에, 파라미터가 결합되는 방식의 제1 대안은 도 1d의 제2 대안보다 선호된다. 따라서, 본 발명에 따르면, 포맷 변환기(120)는 고차 앰비소닉스 또는 1차 앰비소닉스 포맷을 B-포맷으로 변환하며, 여기서 고차 앰비소닉스 포맷은 B-포맷으로 변환되기 전에 잘린다(truncate).

다른 실시예에서, 포맷 변환기는 투영된 신호를 획득하기 위해 기준 위치에서 구형 고조파 상에 객체 또는 채널을 투영하도록 구성되며, 여기서 포맷 결합기는 투영 신호를 결합하여 B-포맷 계수를 획득하도록 구성되고, 여기서 객체 또는 채널은 지정된 위치의 공간에 있으며 기준 위치에서 선택적인 개별 거리를 갖는다. 이 절차는 특히 객체 신호 또는 다중채널 신호를 1차 또는 고차 앰비소닉스 신호로 변환하는 데 효과적이다.

다른 대안에서, 포맷 변환기(120)는 B-포맷 성분의 시간-주파수 분석 및 압력 및 속도 벡터의 결정을 포함하는 DirAC 분석을 수행하도록 구성되며, 여기서 포맷 결합기는 다른 압력/속도 벡터를 결합하도록 구성되고, 여기서 포맷 결합기는 결합된 압력/속도 데이터로부터 DirAC 메타데이터를 도출하기 위한 DirAC 분석기(180)를 더 포함한다.

다른 대안적인 실시예에서, 포맷 변환기는 오디오 객체 포맷의 객체 메타데이터로부터 직접 DirAC 파라미터를 제1 또는 제2 포맷으로서 추출하도록 구성되며, 여기서 DirAC 표현에 대한 압력 벡터는 객체 파형 신호이며, 방향은 공간의 객체 위치로부터 도출되거나 확산은 객체 메타데이터에 직접 제공되거나 0과 같은 기본값으로 설정된다.

다른 실시예에서, 포맷 변환기는 객체 데이터 포맷으로부터 도출된 DirAC 파라미터를 압력/속도 데이터로 변환하도록 구성되고, 포맷 결합기는 압력/속도 데이터를 하나 이상의 다른 오디오 객체의 상이한 설명으로부터 도출된 압력/속도 데이터와 결합하도록 구성된다.

그러나, 도 1c 및 1d와 관련하여 예시된 바람직한 구현예에서, 포맷 결합기는 도 1a의 블록(140)에 의해 생성되어 결합된 오디오 장면이 이미 최종 결과가 되도록 포맷 변환기(120)에 의해 도출된 DirAC 파라미터를 직접 결합하도록 구성되고, 도 1a에 도시된 DirAC 분석기(180)는 필요하지 않은데, 포맷 결합기(140)에 의해 출력된 데이터는 이미 DirAC 포맷이기 때문이다.

다른 구현예에서, 포맷 변환기(120)는 1차 앰비소닉스 또는 고차 앰비소닉스 입력 포맷 또는 다중 채널 신호 포맷을 위한 DirAC 분석기를 이미 포함한다. 또한, 포맷 변환기는 객체 메타데이터를 DirAC 메타데이터로 변환하기 위한 메타데이터 변환기를 포함하고, 이러한 메타데이터 변환기는 예를 들어 도 1f에서의 블록(121)에서 시간/주파수 분석에 대해 다시 동작하고, 147에 도시된 시간 프레임당 대역당 에너지, 도 1f의 블록(148)에 도시된 도착 방향, 및 도 1f의 블록(149)에 도시된 확산을 산출하는 150에 도시되어 있다. 그리고, 메타데이터는 개별 DirAC 메타데이터 스트림을 결합하기 위해 결합기(144)에 의해, 바람직하게는 도 1d 실시예의 2개의 대안 중 하나에 의해 예시된 바와 같이 가중 가산에 의해 결합된다.

다중채널 채널 신호를 B-포맷으로 직접 변환될 수 있다. 그 다음에, 획득된 B-포맷은 통상적인 DirAC에 의해 처리될 수 있다. 도 1g는 B- 포맷으로의 변환(127) 및 후속 DirAC 처리(180)를 도시한다.

참고 문헌 [3]은 다중 채널 신호에서 B-포맷으로의 변환을 수행하는 방식의 개요를 서술한다. 원칙적으로 다중 채널 오디오 신호를 B-포맷으로 변환하는 것은 간단하다: 가상 라우드스피커는 라우드스피커 레이아웃의 다른 위치에 있도록 정의된다. 예를 들어, 5.0 레이아웃의 경우, 라우드스피커는 수평면에 +/- 30 및 +/- 110도의 방위각으로 배치된다. 그 다음에, 가상 B-포맷 마이크로폰이 라우드스피커의 중앙에 있도록 정의되고 가상 레코딩이 수행된다. 따라서, W 채널은 5.0 오디오 파일의 모든 스피커 채널을 합산하여 생성된다. 그러면, W 및 기타 B-포맷 계수를 얻는 절차는 다음과 같이 요약될 수 있다:

여기서 s_i는 각각의 라우드스피커의 방위각(θ_i)및 앙각(φ_i)로 정의된 라우드스피커 위치의 공간에 위치한 다중채널 신호이며, w_i는 거리의 가중치 함수이다. 거리를 사용할 수 없거나 단순히 무시하면, w_i = 1이다. 그러나, 이 간단한 기술은 되돌릴 수 없는 절차이므로 제한되어 있다. 더욱이, 라우드스피커는 일반적으로 불균일하게 분배되므로, 가장 높은 라우드스피커 밀도를 갖는 방향으로의 후속 DirAC 분석에 의해 수행되는 추정에 바이어스가 존재한다. 예를 들어, 5.1 레이아웃에서는 전면보다 후면에 더 많은 라우드스피커가 있으므로 전면을 향한 편향이 있다.

이 문제를 해결하기 위해, DirAC로 5.1 다중채널 신호를 처리하기 위한 추가 기술이 [3]에서 제안되었다. 최종 코딩 방식은 도 1h에 도시된 바와 같이 B- 포맷 변환기(127),도 1의 요소(180) 및 다른 요소(190, 1000, 160, 170, 1020, 및/또는 220, 240)와 관련하여 일반적으로 설명된 바와 같이 DirAC 분석기(180)를 도시한다.

다른 실시예에서, 출력 인터페이스(200)는 오디오 객체에 대한 별도의 객체 설명을 결합된 포맷으로 추가하도록 구성되며, 여기서 객체 설명은 방향, 거리, 확산, 또는 임의의 다른 객체 속성 중 적어도 하나를 포함하고, 여기서 이 객체는 모든 주파수 대역에서 단일 방향을 가지며 정적이거나 속도 임계치보다 느리게 이동한다.

이 특징은 도 4a 및 도 4b와 관련하여 논의된 본 발명의 제4 양태와 관련하여 더욱 상세하게 설명된다.

제1 인코딩 대안 : B-포맷 또는 동등한 표현을 통해 다른 오디오 표현을 결합하고 처리

도 11과 같이 모든 입력 포맷을 결합된 B-포맷으로 변환하면 계획된 인코더를 처음으로 구현할 수 있다.

도 11 : 상이한 입력 포맷들을 결합된 B-포맷으로 결합하는 DirAC 기반 인코더/디코더의 시스템 개요.

DirAC는 원래 B-포맷 신호를 분석하기 위해 설계되었기 때문에, 시스템은 다른 오디오 포맷을 결합된 B-포맷 신호로 변환한다. 포맷은 먼저 그들의 B-포맷 성분(W, X, Y, Z)을 합산함으로써 결합되기 전에 B-포맷 신호로 개별적으로 변환된다(120). 1차 앰비소닉스(FOA) 성분이 정규화되고 B-포맷으로 다시 정렬될 수 있다 FOA가 ACN/N3D 포맷이라고 가정하면, B-포맷 입력의 네 가지 신호는 다음에 의해 획득된다:

여기서

은 차수 l 및 인덱스 m, -l≤m≤+l의 앰비소닉스 성분을 나타낸다. FOA 성분은 고차 앰비소닉스 포맷으로 완전히 포함되므로, HOA 포맷은 B-포맷으로 변환하기 전에 잘려야 한다.

객체와 채널이 공간에서 위치를 결정했으므로, 레코딩 또는 기준 위치와 같은 중앙 위치에서 구형 고조파(spherical Harmonics, SH)에 각 개별 객체와 채널을 투영할 수 있다. 투영의 합은 서로 다른 객체와 여러 채널을 단일 B-포맷으로 결합한 다음 DirAC 분석으로 처리될 수 있다. B-포맷 계수(W, X, Y, Z)는 다음과 같이 주어진다:

여기서 s_i는 방위각(θ_i)및 앙각(φ_i)에 의해 정의된 위치에서 공간에 위치한 독립 신호이고, w_i는 거리의 가중치 함수이다. 거리를 사용할 수 없거나 단순히 무시하면, w_i= 1이다. 예를 들어, 독립 신호는 주어진 위치에 위치한 오디오 객체 또는 지정된 위치에 있는 라우드스피커 채널과 관련된 신호에 해당할 수 있다.

1차보다 높은 차수의 앰비소닉스 표현이 필요한 응용 분야에서, 1차에 대해 상기에서 제시된 앰비소닉스 계수 생성은 고차 성분을 추가로 고려함으로써 확장된다.

전송 채널 생성기(160)는 다중채널 신호, 객체 파형 신호, 및 고차 앰비소닉스 성분을 직접 수신할 수 있다. 전송 채널 생성기는 다운믹스를 통해 송신하는 입력 채널 수를 줄인다. 모노 또는 스테레오 다운믹스에서 MPEG 서라운드처럼 채널을 함께 믹스할 수 있다 반면, 객체 파형 신호는 수동 방식으로 모노 다운믹스로 합산될 수 있다. 또한, 고차 앰비소닉스로부터, 저차 표현을 추출하거나 스테레오 다운믹스 또는 공간의 다른 섹션을 빔포밍함으로써 생성할 수 있다. 다른 입력 포맷에서 얻은 다운믹스가 서로 호환되는 경우, 간단한 추가 동작으로 결합할 수 있다.

대안으로, 전송 채널 생성기(160)는 DirAC 분석으로 전달된 것과 동일한 결합된 B-포맷을 수신할 수 있다. 이 경우에, 성분의 서브 세트 또는 빔포밍(또는 다른 처리)의 결과는 코딩되고 디코더로 송신될 전송 채널을 형성한다. 제안된 시스템에서, 표준 3GPP EVS 코덱에 기초할 수 있지만 이에 제한되지 않는 종래의 오디오 코딩이 요구된다. 3GPP EVS는 실시간 통신을 가능하게 하는 비교적 낮은 지연을 요구하면서 고품질 또는 낮은 비트 전송률로 음성 또는 음악 신호를 코딩할 수 있다는 능력으로 인해 선호되는 코덱 선택이다.

매우 낮은 비트 전송률에서, 송신할 채널의 수는 하나로 제한될 필요가 있고, 따라서 B-포맷의 전방향성 마이크로폰 신호(W)만이 송신된다. 비트 전송률이 허용되는 경우, B-포맷 성분의 서브 세트를 선택하여 전송 채널 수를 늘릴 수 있다. 대안으로, B-포맷 신호는 공간의 특정 파티션에 조향되는 빔포머(160)로 결합될 수 있다. 예로서, 2개의 카디오이드(cardioid)는 반대 방향, 예를 들어 공간 장면의 왼쪽 및 오른쪽을 가리키도록 설계될 수 있다 :

이 2개의 스테레오 채널 L 및 R은 조인트 스테레오 코딩에 의해 효율적으로 코딩될 수 있다(170). 그 다음에, 2개의 신호는 사운드 장면을 렌더링하기 위해 디코더 측에서 DirAC 합성에 의해 적절하게 이용될 것이다. 다른 빔포밍이 구상될 수 있는데, 예를 들어 가상 카디오이드 마이크로폰이 주어진 방위각(θ및 고도(φ)의 임의의 방향을 향할 수 있다 :

단일 모노포닉 송신 채널보다 더 많은 공간 정보를 전달하는 송신 채널을 형성하는 다른 방법이 구상될 수 있다.

대안으로, B-포맷의 4개의 계수가 직접 송신될 수 있다. 이 경우, 공간 메타데이터에 대한 추가 정보를 송신할 필요 없이, 디코더 측에서 DirAC 메타데이터가 직접 추출될 수 있다.

도 12는 다른 입력 포맷을 결합하기 위한 다른 대안적인 방법을 도시한다. 도 12는 또한 압력/속도 영역에서 결합된 DirAC 기반 인코더/디코더의 시스템 개요이다.

다중채널 신호 및 앰비소닉스 성분은 모두 DirAC 분석(123, 124)에 입력된다. 각각의 입력 포맷에 대해, B-포맷 성분

의 시간-주파수 분석 및 압력 및 속도 벡터의 결정으로 구성된 DirAC 분석이 수행된다 :

여기서 i는 입력의 인덱스이고, k와 n은 시간-주파수 타일의 시간과 주파수 인덱스이고,

는 데카르트 단위 벡터를 나타낸다.

P(n, k) 및 U(n, k)는 DirAC 파라미터, 즉 DOA 및 확산을 계산하는 데 필요하다. DirAC 메타데이터 결합기는 함께 재생되는 N개의 소스를 이용하여 단독으로 재생할 때 측정되는 압력 및 입자 속도의 선형 결합을 초래한다. 결합된 수량은 다음에 의해 도출된다 :

결합된 DirAC 파라미터는 결합된 강도 벡터의 계산을 통해 계산된다(143) :

여기서

는 복소 컨쥬게이션(complex conjugation)을 나타낸다. 결합된 음장의 확산은 다음과 같다 :

여기서 Ε{.}는 시간 평균화 연산자를 나타내고, c는 음속을 나타내고, E(k, n)는 음장 에너지를 나타내며, 이는 다음과 같이 주어진다 :

도착 방향(DOA)은 다음과 같이 정의된 단위 벡터 e_DOA(k,n)에 의해 표현된다 :

오디오 객체가 입력되면, DirAC 파라미터는 객체 메타데이터에서 직접 추출될 수 있으며, 한편 압력 벡터 Pⁱ(k,n)은 객체 에센스(essence)(파형) 신호이다. 보다 정확하게는, 방향은 공간의 객체 위치에서 간단하게 도출되는 반면, 확산은 객체 메타데이터에 직접 제공되거나 사용할 수 없는 경우 기본적으로 0으로 설정할 수 있다. DirAC 파라미터에서 압력 및 속도 벡터는 다음과 같이 직접 제공된다 :

객체의 결합 또는 상이한 입력 포맷을 갖는 객체의 결합은 전술한 바와 같이 압력 및 속도 벡터를 합함으로써 획득된다.

요약하면, 압력/속도 영역에서 서로 다른 입력 기여(앰비소닉스, 채널, 객체)의 결합이 수행된 다음 결과가 방향/확산도 DirAC 파라미터로 변환된다. 압력/속도 영역에서 동작하는 것은 이론적으로 B-포맷에서 동작하는 것과 같다. 이전 대안과 비교하여 이 대안의 주요 이점은 서라운드 포맷 5.1에 대해 [3]에서 제안된 대로 각각의 입력 포맷에 따라 DirAC 분석을 최적화할 수 있다는 것이다.

결합된 B-포맷 또는 압력/속도 영역에서의 이러한 융합의 주요 단점은 처리 체인의 프론트 엔드에서 발생하는 변환이 이미 전체 코딩 시스템에 병목 현상이라는 점이다. 실제로, 오디오 표현을 고차 앰비소닉스, 객체 또는 채널에서 (1차) B-포맷 신호로 변환하면 공간 해상도 손실이 크게 발생하여 나중에 복구할 수 없다.

제2 인코딩 대안 : DirAC 영역의 결합 및 처리

모든 입력 포맷을 결합된 B-포맷 신호로 변환하는 데 따른 한계를 극복하기 위해, 본 대안은 원래 포맷으로부터 직접 DirAC 파라미터를 도출한 다음 DirAC 파라미터 영역에서 이들을 결합하는 것을 제안한다. 이러한 시스템의 일반적인 개요는 도 13에 도시되어 있다. 도 13은 DirAC 영역에서 상이한 입력 포맷을 디코더 측에서의 객체 조작 가능성과 결합하는 DirAC 기반 인코더/디코더의 시스템 개요이다.

다음에서는 다중채널 신호의 개별 채널을 코딩 시스템의 오디오 객체 입력으로 간주할 수도 있다. 그러면, 객체 메타데이터는 시간이 지남에 따라 정적이고 청취자 위치와 관련된 라우드스피커 위치 및 거리를 나타낸다.

이 대안 솔루션의 목적은 서로 다른 입력 포맷이 결합된 B-포맷 또는 동등한 표현으로 체계적으로 결합되는 것을 피하는 것이다. 목표는 DirAC 파라미터를 결합하기 전에 계산하는 것이다. 그러면, 이 방법은 결합으로 인한 방향 및 확산도 추정에서의 임의의 바이어스를 피한다. 또한, DirAC 분석 중 또는 DirAC 파라미터를 결정하는 동안 각각의 오디오 표현의 특성을 최적으로 활용할 수 있다.

DirAC 메타데이터의 결합은 송신된 전송 채널에 포함된 압력뿐만 아니라 DirAC 파라미터, 확산, 방향, 및 각각의 입력 포맷에 대해 125, 126, 126a를 결정한 후에 발생한다. DirAC 분석은 앞에서 설명한대로 입력 포맷을 변환하여 얻은 중간 B-포맷의 파라미터를 추정할 수 있다. 대안으로, DirAC 파라미터는 유리하게는 B-포맷을 거치지 않고 입력 포맷으로부터 직접적으로 추정될 수 있으며, 이는 추정 정확도를 추가로 개선할 수 있다. 예를 들어 [7]에서, 고차 앰비소닉스로부터 직접 확산을 추정하는 것이 제안된다. 오디오 객체의 경우, 도 15의 간단한 메타데이터 변환기(150)는 각각의 객체에 대한 객체 메타데이터 방향 및 확산을 추출할 수 있다.

여러 Dirac 메타데이터 스트림의 단일의 결합된 DirAC 메타데이터 스트림으로의 결합(144)은 [4]에서 제안된 바와 같이 달성될 수 있다. 일부 내용의 경우, DirAC 분석을 수행하기 전에 먼저 결합된 B-포맷으로 변환하는 것보다 원래 포맷에서 DirAC 파라미터를 직접 추정하는 것이 훨씬 좋다. 실제로, 파라미터, 방향, 및 확산은 B-포맷 [3]으로 갈 때 또는 다른 소스를 결합할 때 바이어스될 수 있다. 또한, 이 대안은 허용한다.

또 다른 간단한 대안은 에너지에 따라 가중치를 부여하여 다른 소스의 파라미터를 평균화할 수 있다 :

각각의 객체에 대해, 인코더로부터 디코더로 송신된 비트 스트림의 일부로서 자신의 방향 및 선택적으로 거리, 확산, 또는 임의의 다른 관련 객체 속성을 여전히 전송할 수 있다(예를 들어, 도 4a, 4b 참조). 이 추가 양태 정보는 결합된 DirAC 메타데이터를 풍부하게 하고 디코더가 객체를 개별적으로 복원 및 조작할 수 있도록 한다. 객체는 모든 주파수 대역에서 단일 방향을 가지며 정적 또는 느리게 이동하는 것으로 간주될 수 있으므로, 추가 정보는 다른 DirAC 파라미터보다 덜 자주 업데이트해야 하며 추가 비트 전송률이 매우 낮다.

디코더 측에서, 객체를 조작하기 위해 [5]에 지시된 바와 같이 방향성 필터링이 수행될 수 있다. 방향성 필터링은 단시간 스펙트럼 감쇠 기술을 기반으로 한다. 스펙트럼 영역에서 객체의 방향에 따라 제로 위상 이득 함수에 의해 수행된다. 객체의 방향이 양태 정보로 송신된 경우 방향은 비트스트림에 포함될 수 있다. 그렇지 않으면, 사용자가 방향을 대화식으로 제공할 수도 있다.

제3 대안 : 디코더 측에서의 결합

대안으로, 결합은 디코더 측에서 수행될 수 있다. 도 14는 DirAC 메타데이터 결합기를 통해 디코더 측에서 서로 다른 입력 포맷을 결합한 DirAC 기반 인코더/디코더의 시스템 개요이다. 도 14에서, DirAC 기반 코딩 방식은 이전보다 높은 비트 전송률로 작동하지만 개별 DirAC 메타데이터의 송신을 허용한다. 상이한 DirAC 메타데이터 스트림은 예를 들어 DirAC 합성(220, 240) 이전의 디코더에서 [4]에서 제안된 바와 같이 결합된다(144). DirAC 메타데이터 결합기(144)는 또한 DirAC 분석에서 객체의 후속 조작을 위해 개별 객체의 위치를 획득할 수 있다.

도 15는 DirAC 합성의 디코더 측에서 서로 다른 입력 포맷을 결합한 DirAC 기반 인코더/디코더의 시스템 개요이다. 비트 전송률이 허용되는 경우, 각각의 입력 성분(FOA/HOA, MC, Object)마다 관련 DirAC 메타데이터와 함께 자체 다운믹스 신호를 전송하여 도 15에서 제안한대로 시스템을 더욱 향상시킬 수 있다. 여전히, 상이한 DirAC 스트림은 복잡성을 감소시키기 위해 디코더에서 공통 DirAC 합성(220, 240)을 공유한다.

도 2a는 본 발명의 추가의 제2 양태에 따라 복수의 오디오 장면의 합성을 수행하기 위한 개념을 도시한다. 도 2a에 도시된 장치는 제1 장면의 제1 DirAC 설명을 수신하고 제2 장면의 제2 DirAC 설명 및 하나 이상의 전송 채널을 수신하기 위한 입력 인터페이스(100)를 포함한다.

또한, DirAC 합성기(220)는 복수의 오디오 장면을 나타내는 스펙트럼 영역 오디오 신호를 획득하기 위해 스펙트럼 영역에서 복수의 오디오 장면을 합성하기 위해 제공된다. 또한, 예를 들어 스피커에 의해 출력될 수 있다 시간 영역 오디오 신호를 출력하기 위해 스펙트럼 영역 오디오 신호를 시간 영역으로 변환하는 스펙트럼-시간 변환기(214)가 제공된다. 이 경우, DirAC 합성기는 스피커 출력 신호의 렌더링을 수행하도록 구성된다. 대안으로, 오디오 신호는 헤드폰으로 출력될 수 있다 스테레오 신호일 수 있다. 다시, 대안으로, 스펙트럼-시간 변환기(214)에 의해 출력된 오디오 신호는 B-포맷 음장 설명일 수 있다. 이러한 모든 신호, 즉, 2개 이상의 채널에 대한 스피커 신호, 헤드폰 신호 또는 음장 설명은 스피커 또는 헤드폰에 의한 출력과 같은 추가 처리 또는 1차 앰비소닉스 신호 또는 고차 앰비소닉스 신호와 같은 음장 설명의 경우 송신 또는 저장을 위한 시간 영역 신호이다.

또한, 도 2a의 장치는 스펙트럼 영역에서 DirAC 합성기(220)를 제어하기 위한 사용자 인터페이스(260)를 추가로 포함한다. 또한, 제1 및 제2 DirAC 설명과 함께 사용될 하나 이상의 전송 채널이 입력 인터페이스(100)에 제공될 수 있으며, 제1 및 제2 DirAC 설명은 이 경우 각각의 시간/주파수 타일에 대해 도착 방향 정보 및 선택적으로 확산도 정보를 제공하는 파라메트릭 설명이다.

일반적으로, 도 2a의 인터페이스(100)에 입력된 2개의 상이한 DirAC 설명은 2개의 상이한 오디오 장면을 설명한다. 이 경우, DirAC 합성기(220)는 이들 오디오 장면의 결합을 수행하도록 구성된다. 결합의 하나의 대안이 도 2b에 도시되어 있다. 여기서, 장면 결합기(221)는 파라메트릭 영역에서 2개의 DirAC 설명을 결합하도록 구성되는데, 즉 파라미터는 결합되어 도착 방향(DoA) 파라미터 및 선택적으로 확산도 파라미터를 블록(221)의 출력에서 획득한다. 그 다음에, 이 데이터는 스펙트럼 영역 오디오 신호(222)를 획득하기 위해 채널들에 대해 하나 이상의 전송 채널을 추가로 수신하는 DirAC 렌더러(222)에 도입된다. DirAC 파라메트릭 데이터의 결합은 바람직하게는 도 1d에 도시된 바와 같이, 그리고 이 도면과 관련하여, 특히 제1 대안과 관련하여 설명된 바와 같이 수행된다.

장면 결합기(221)에 입력된 2개의 설명 중 적어도 하나가 0의 확산도 값 또는 확산도 값을 포함하지 않으면, 추가로, 제2 대안이 도 1d와 관련하여 논의된 바와 같이 적용될 수 있다.

다른 대안이 도 2c에 도시되어 있다. 이 절차에서, 개별 DirAC 설명은 제1 설명을 위한 제1 DirAC 렌더러(223) 및 제2 설명을 위한 제2 DirAC 렌더러(224) 및 블록(223 및 224)의 출력에 의해 렌더링되고, 제1 및 제2 스펙트럼 영역 오디오 신호가 이용 가능하고, 이들 제1 및 제2 스펙트럼 영역 오디오 신호는 결합기(225)의 출력에서 스펙트럼 영역 결합 신호를 획득하기 위해 결합기(225) 내에서 결합된다.

예시적으로, 제1 DirAC 렌더러(223) 및 제2 DirAC 렌더러(224)는 왼쪽 채널(L) 및 오른쪽 채널(R)을 갖는 스테레오 신호를 생성하도록 구성된다. 그 다음에, 결합기(225)는 블록(223)으로부터의 왼쪽 채널과 블록(224)으로부터의 왼쪽 채널을 결합하여 결합된 왼쪽 채널을 획득하도록 구성된다. 또한, 블록(223)으로부터의 오른쪽 채널은 블록(224)으로부터의 오른쪽 채널과 함께 추가되고, 결과는 블록(225)의 출력에서 결합된 오른쪽 채널이 된다.

다중채널 신호의 개별 채널에 대해, 유사한 절차가 수행되는데, 즉 개별 채널이 개별적으로 추가되어, DirAC 렌더러(223)로부터의 동일한 채널이 항상 다른 DirAC 렌더러의 대응하는 동일한 채널에 추가되는 등의 방식으로 수행된다. 예를 들어, B-포맷 또는 고차 앰비소닉스 신호에 대해서도 동일한 절차가 수행된다. 예를 들어, 제1 DirAC 렌더러(223)가 신호 W, X, Y, Z 신호를 출력하고, 제2 DirAC 렌더러(224)가 유사한 포맷을 출력하는 경우, 결합기는 2개의 전방향 신호를 결합하여 결합된 전방향 신호(W)를 획득하고, X, Y, 및 Z 결합 성분을 최종적으로 획득하기 위해 상응하는 성분들에 대해서도 동일한 절차가 수행된다.

또한, 도 2a와 관련하여 이미 개요가 서술된 바와 같이, 입력 인터페이스는 오디오 객체에 대한 추가 오디오 객체 메타데이터를 수신하도록 구성된다. 이 오디오 객체는 이미 제1 또는 제2 DirAC 설명에 포함되거나 제1 또는 제2 DirAC 설명과 별개이다. 이 경우, DirAC 합성기(220)는 예를 들어 추가의 오디오 객체 메타데이터 또는 사용자 인터페이스(260)로부터 획득된 사용자 제공 방향 정보에 기초하여 방향성 필터링을 수행하기 위해, 추가 오디오 객체 메타데이터 또는 이 추가 오디오 객체 메타데이터와 관련된 객체 데이터를 선택적으로 조작하도록 구성된다. 대안으로 또는 추가로, 그리고 도 2d에 도시된 바와 같이, DirAC 합성기(220)는 스펙트럼 영역에서 오디오 객체의 방향에 따라 제로 위상 이득 함수를 수행하도록 구성되며, 객체의 방향이 부가 정보로서 송신되면, 방향은 비트 스트림에 포함되거나, 방향은 사용자 인터페이스(260)로부터 수신된다. 도 2의 선택적 특징으로서 인터페이스(100)에 입력된 추가의 오디오 객체 메타데이터는 각각의 개별 객체에 대해 인코더로부터 디코더로 송신된 비트 스트림의 일부로서 자신의 방향 및 선택적으로 거리, 확산, 및 임의의 다른 관련 객체 속성을 여전히 전송할 가능성을 반영한다. 따라서, 추가의 오디오 객체 메타데이터는 제1 DirAC 설명 또는 제2 DirAC 설명에 이미 포함된 객체와 관련되거나 제1 DirAC 설명과 제2 DirAC 설명에 이미 포함되지 않은 추가 객체이다.

그러나 추가 오디오 객체 메타데이터를 이미 DirAC 스타일, 즉 도착 방향 정보 및 선택적으로 확산도 정보로 사용하는 것이 바람직하며, 비록 전형적인 오디오 객체는 0의 확산, 즉 실제 위치로 집중되어 있지만 모든 주파수 대역에 걸쳐 일정하고, 즉 프레임 속도와 관련하여 정적이고 느리게 움직이는 집중적이고 특정한 도착 방향을 초래한다. 따라서, 이러한 객체는 모든 주파수 대역에서 단일 방향을 가지며 정적 또는 느리게 이동하는 것으로 간주될 수 있기 때문에, 추가 정보는 다른 DirAC 파라미터보다 덜 자주 업데이트해야 하므로 추가 비트 전송률이 매우 낮다. 예시 적으로, 제1 및 제2 DirAC 설명은 각각의 스펙트럼 대역 및 각 프레임에 대한 DoA 데이터 및 확산도 데이터를 가지지만, 추가의 오디오 객체 메타데이터는 바람직한 실시예에서 모든 주파수 대역에 대한 단일 DoA 데이터만을 필요로 하고, 이 데이터는 매 2번째 프레임마다, 바람직하게는 3번째, 4번째, 5번째, 또는 10번째 프레임마다 필요하다.

또한, DirAC 합성기(220)에서 수행되는 방향성 필터링에 대하여, 전형적으로 인코더/디코더 시스템의 디코더 측의 디코더 내에 포함되며, DirAC 합성기는 도 2b의 대안에서 장면 결합 전에 파라미터 영역 내에서 방향성 필터링을 수행하거나 장면 결합에 이어서 방향성 필터링을 다시 수행할 수 있다. 그러나, 이 경우 방향성 필터링은 개별 설명이 아닌 결합된 장면에 적용된다.

또한, 오디오 객체가 제1 또는 제2 설명에 포함되지 않고 자체 오디오 객체 메타데이터에 포함된 경우, 선택적 조작기에 의해 도시된 바와 같은 방향성 필터링은 추가의 오디오 객체만이 선택적으로 적용될 수 있으며, 여기에 추가의 오디오 객체 메타데이터는 제1 또는 제2 DirAC 설명 또는 결합된 DirAC 설명에 영향을 미치지 않으면서 존재한다. 오디오 객체 자체의 경우, 객체 파형 신호를 나타내는 별도의 전송 채널이 존재하거나 객체 파형 신호가 다운믹스된 전송 채널에 포함된다.

예를 들어, 도 2b에 도시된 바와 같은 선택적 조작은 예를 들어 부가 정보로서 비트 스트림에 포함되거나 사용자 인터페이스로부터 수신된 도 2d에 도입된 오디오 객체의 방향에 의해 소정의 도착 방향이 제공되는 방식으로 진행될 수 있다. 그 다음에, 사용자가 제공한 방향 또는 제어 정보에 기초하여, 사용자는 예를 들어, 특정 방향으로부터 오디오 데이터가 향상되거나 약화 될 것이라고 개략할 수 있다. 따라서, 고려 중인 객체에 대한 객체(메타데이터)가 증폭되거나 감쇠된다.

도 2d에서 왼쪽으로부터 선택 조작기(226)에 도입된 객체 데이터로서의 실제 파형 데이터의 경우, 오디오 데이터는 제어 정보에 따라 실제로 감쇠되거나 향상될 것이다. 그러나, 도착 방향 및 선택적으로 확산도 또는 거리에 더하여 추가 에너지 정보를 갖는 객체 데이터의 경우, 객체에 대한 필요한 감쇠가 있는 경우 객체에 대한 에너지 정보가 감소되거나 객체 데이터의 필요한 증폭의 경우에 에너지 정보가 증가될 것이다.

따라서, 방향성 필터링은 단시간 스펙트럼 감쇠 기술에 기초하고, 객체의 방향에 의존하는 제로 위상 이득 함수에 의해 스펙트럼 영역에서 수행된다. 객체의 방향이 양태 정보로 송신된 경우 방향은 비트 스트림에 포함될 수 있다. 그렇지 않으면, 사용자가 방향을 대화식으로 제공할 수도 있다. 당연히, 동일한 절차가 모든 주파수 대역에 대해 DoA 데이터에 의해 일반적으로 제공되는 추가의 오디오 객체 메타데이터 및 프레임 레이트와 관련하여 낮은 업데이트 비율을 갖는 DoA 데이터에 의해 제공되고 반영되는, 그리고 객체의 에너지 정보에 의해 주어진 개별 객체에만 적용될 수 없지만, 방향성 필터링은 또한 제2 DirAC 설명과 독립적으로 제1 DirAC 설명에 적용되거나 그 반대의 경우도 가능하거나 결합된 DirAC 설명에도 적용될 수 있다.

또한, 추가의 오디오 객체 데이터에 관한 특징은 도 1a 내지 도 1f와 관련하여 예시된 본 발명의 제1 양태에 적용될 수 있음에 유의해야 한다. 그 다음에, 도 1a의 입력 인터페이스(100)는 도 2a와 관련하여 논의된 바와 같이 추가의 오디오 객체 데이터를 추가로 수신하고, 포맷 결합기는 사용자 인터페이스(260)에 의해 제어되는 스펙트럼 영역(220)에서 DirAC 합성기로서 구현될 수 있다.

또한, 도 2에 도시된 본 발명의 제2 양태은 입력 인터페이스가 이미 2개의 DirAC 설명, 즉 즉 동일한 포맷의 음장에 대한 설명을 수신하고, 따라서 제2 양태에 있어서는 제1 양태의 포맷 변환기(120)는 반드시 요구되는 것은 아니라는 점에서 제1 양태와 상이하다.

한편, 도 1a의 포맷 결합기(140) 로의 입력이 2개의 DirAC 설명으로 구성되는 경우, 포맷 결합기(140)는도 2a에 도시된 제2 양태와 관련하여 논의된 바와 같이 구현될 수 있거나, 대안으로, 도 2a의 장치(220, 240)는 제1 양태의 도 1a의 포맷 결합기(140)와 관련하여 논의된 바와 같이 구현될 수 있다.

도 3a는 오디오 객체 메타데이터를 갖는 오디오 객체의 객체 설명을 수신하기 위한 입력 인터페이스(100)를 포함하는 오디오 데이터 변환기를 도시한다. 또한, 입력 인터페이스(100) 다음에는 오디오 객체 메타데이터를 DirAC 메타데이터로 변환하기 위해 본 발명의 제1 양태와 관련하여 논의된 메타데이터 변환기(125, 126)에 대응하는 메타데이터 변환기(150)가 이어진다. 도 3a 오디오 변환기의 출력은 DirAC 메타데이터를 송신 또는 저장하기 위한 출력 인터페이스(300)로 구성된다. 입력 인터페이스(100)는 인터페이스(100)에 입력된 제2 화살표로 도시된 바와 같이 파형 신호를 추가로 수신할 수 있다. 또한, 출력 인터페이스(300)는 블록(300)에 의해 출력된 출력 신호에 파형 신호의 인코딩된 표현을 도입하도록 구현될 수 있다. 오디오 데이터 변환기가 메타데이터를 포함한 단일 객체 설명만 변환하도록 구성된 경우, 출력 인터페이스(300)는 또한 이 단일 오디오 객체의 DirAC 설명을 전형적으로 인코딩된 파형 신호와 함께 DirAC 전송 채널로서 제공한다.

특히, 오디오 객체 메타데이터는 객체 위치를 가지며, DirAC 메타데이터는 객체 위치로부터 도출된 기준 위치에 대한 도착 방향을 갖는다. 특히, 메타데이터 변환기(150, 125, 126)는 객체 데이터 포맷으로부터 도출된 DirAC 파라미터를 압력/속도 데이터로 변환하고, 메타데이터 변환기는 예를 들어 블록(302, 304, 306)으로 구성된 도 3c의 흐름도에 의해 도시된 바와 같이 이 압력/속도 데이터에 DirAC 분석을 적용하도록 구성된다. 이를 위해, 블록(306)에 의해 출력된 DirAC 파라미터는 블록(302)에 의해 획득된 객체 메타데이터로부터 도출된 DirAC 파라미터, 즉 향상된 DirAC 파라미터보다 우수한 품질을 갖는다. 도 3b는 특정 객체에 대한 기준 위치에 대한 객체의 위치를 도착 방향으로 변환하는 것을 도시한다.

도 3f는 메타데이터 변환기(150)의 기능을 설명하기 위한 개략도를 도시한다. 메타데이터 변환기(150)는 좌표계에서 벡터 P로 표시된 객체의 위치를 수신한다. 또한, DirAC 메타데이터가 관련될 기준 위치는 동일한 좌표 시스템에서 벡터 R에 의해 주어진다. 따라서, 도착 벡터(DoA)의 방향은 벡터 R의 팁으로부터 벡터 B의 팁으로 연장된다. 따라서, 실제 DoA 벡터는 객체 위치 P 벡터로부터 기준 위치 R 벡터를 빼서 획득된다.

벡터 DoA에 의해 지시된 정규화된 DoA 정보를 갖기 위해, 벡터 차이는 벡터 DoA의 크기 또는 길이로 나뉜다. 또한, 이것이 필요하고 의도된 경우, DoA 벡터의 길이는 또한 메타데이터 변환기(150)에 의해 생성된 메타데이터에 포함될 수 있어, 추가적으로, 기준점으로부터의 객체의 거리는 메타데이터에 또한 포함되어 이 객체의 선택적 조작이 기준 위치로부터의 객체의 거리에 기초하여 수행될 수도 있다. 특히, 도 1f의 추출 방향 블록(148)은 또한 도 3f와 관련하여 논의된 바와 같이 동작할 수 있지만, DoA 정보 및 선택적으로 거리 정보를 계산하기 위한 다른 대안이 적용될 수 있다. 또한, 도 3a와 관련하여 이미 논의된 바와 같이, 도 1c 또는 1d에 도시된 블록(125 및 126)은 도 3f와 관련하여 논의된 것과 유사한 방식으로 동작할 수 있다.

또한, 도 3a의 장치는 복수의 오디오 객체 설명을 수신하도록 구성될 수 있으며, 메타데이터 변환기는 각각의 메타데이터 설명을 DirAC 설명으로 직접 변환하도록 구성되고, 그 다음에 메타데이터 변환기는 개별 DirAC 메타데이터 설명을 결합하여 도 3a에 도시된 DirAC 메타데이터로서 결합된 DirAC 설명을 획득하도록 구성된다. 일 실시예에서, 결합은 제1 에너지를 사용하여 제1 도착 방향에 대한 가중치를 계산하고(320), 제2 에너지를 사용하여 제2 도착 방향에 대한 가중치를 계산하며(322), 여기서 도착 방향은 동일한 시간/주파수 빈과 관련된 블록(320, 332)에 의해 처리된다. 그 다음에, 블록(324)에서, 가중 가산이 도 1d의 항목(144)과 관련하여 논의된 바와 같이 수행된다. 따라서, 도 3a에 도시된 절차는 제1 대안적인 도 1d의 실시예를 나타낸다.

그러나, 제2 대안과 관련하여, 절차는 모든 확산이 0 또는 작은 값으로 설정되고, 시간/주파수 빈의 경우, 이 시간/주파수 빈에 대해 주어진 모든 다른 도착 방향 값이 고려되고, 가장 큰 도착 방향 값이 이 시간/주파수 빈에 대한 결합된 도착 방향 값이 되도록 선택된다. 다른 실시예에서, 이들 두 도착 방향 값에 대한 에너지 정보가 그렇게 다르지 않다면, 제2 내지 가장 큰 값을 선택할 수도 있다. 도착 시간 값은 이 시간 주파수 빈에 대한 다른 기여로부터 에너지 중 가장 큰 에너지 또는 두 번째 또는 세 번째 가장 높은 에너지인 에너지의 선택 값이다.

따라서, 도 3a 내지 3f와 관련하여 설명된 바와 같은 제3 양태는 제1 양태와 단일 객체 기술을 DirAC 메타데이터로 변환하는 데 유용하다는 점에서 제1 양태와 상이하다. 대안으로, 입력 인터페이스(100)는 동일한 객체/메타데이터 포맷인 여러 객체 설명을 수신할 수 있다. 따라서, 도 1a의 제1 양태와 관련하여 논의된 바와 같은 임의의 포맷 변환기는 필요하지 않다. 따라서, 도 3a의 실시예는 상이한 객체 파형 신호 및 상이한 객체 메타데이터를 제1 장면 기술로서 및 제2 기술을 포맷 결합기(140)에 입력으로서 사용하여 2개의 상이한 객체 설명을 수신하는 맥락에서 유용할 수 있고, 메타데이터 변환기(150, 125, 126 또는 148)의 출력은 DirAC 메타데이터를 갖는 DirAC 표현일 수 있으므로, 도 1의 DirAC 분석기(180)도 필요하지 않다. 그러나,도 3a의 다운믹서(163)에 대응하는 전송 채널 생성기(160)에 대한 다른 요소들이 제3 양태의 맥락, 뿐만 아니라 전송 채널 인코더(170)에서 사용될 수 있고, 이 맥락에서, 도 3a의 출력 인터페이스(300)는 도 1a의 출력 인터페이스(200)에 대응한다. 따라서, 제1 양태와 관련하여 주어진 모든 상응하는 설명은 또한 제3 양태에도 적용된다.

도 4a, 4b는 오디오 데이터의 합성을 수행하기 위한 장치와 관련하여 본 발명의 제4 양태를 도시한다. 특히, 장치는 DirAC 메타데이터를 갖는 오디오 장면의 DirAC 설명을 수신하고 추가로 객체 메타데이터를 갖는 객체 신호를 수신하기 위한 입력 인터페이스(100)를 갖는다. 도 4b에 도시된 이 오디오 장면 인코더는 한편으로는 DirAC 메타데이터 및 다른 한편으로는 객체 메타데이터를 포함하는 결합된 메타데이터 설명을 생성하기 위한 메타데이터 생성기(400)를 추가로 포함한다. DirAC 메타데이터는 개별 시간/주파수 타일에 대한 도착 방향을 포함하고, 객체 메타데이터는 개별 객체의 방향 또는 추가로 거리 또는 확산을 포함한다.

특히, 입력 인터페이스(100)는도 4b에 도시된 바와 같이 오디오 장면의 DirAC 설명과 관련된 송신 신호를 추가로 수신하도록 구성되고, 입력 인터페이스는 객체 신호와 관련된 객체 파형 신호를 수신하도록 추가로 구성된다. 따라서, 장면 인코더는 송신 신호 및 객체 파형 신호를 인코딩하기 위한 송신 신호 인코더를 더 포함하고, 송신 인코더(170)는 도 1a의 인코더(170)에 대응할 수 있다.

특히, 결합된 메타데이터를 생성하는 메타데이터 생성기(140)는 제1 양태, 제2 양태, 또는 제3 양태와 관련하여 논의된 바와 같이 구성될 수 있다. 바람직한 실시예에서, 또한, 바람직한 실시예에서, 메타데이터 생성기(400)는 객체 메타데이터에 대해 시간당 단일 광대역 방향, 즉 특정 시간 프레임에 대해 단일 광대역 방향을 생성하도록 구성되고, 메타데이터 생성기는 DirAC 메타데이터보다 덜 빈번한 시간당 단일 광대역 방향을 리프레시하도록(refresh) 구성된다.

도 4b와 관련하여 논의된 절차는 전체 DirAC 설명을 위한 메타데이터를 가지며 추가 오디오 객체를 위한 메타데이터를 갖는 메타데이터를 DirAC 포맷으로 결합하도록 하여, 매우 유용한 DirAC 렌더링이 동시에, 제2 양태와 관련하여 이미 논의된 바와 같이 선택적 방향성 필터링 또는 수정에 의해 수행될 수 있다.

따라서, 본 발명의 제4 양태, 특히 메타데이터 생성기(400)는 특정 포맷 변환기를 나타내며, 여기서 공통 포맷은 DirAC 포맷이고, 입력은 도 1a와 관련하여 논의된 제1 포맷의 제1 장면에 대한 DirAC 설명이고, 제2 장면은 단일 또는 SAOC 객체와 같은 결합된 신호이다. 따라서, 포맷 변환기(120)의 출력은 메타데이터 생성기(400)의 출력을 나타내지만, 예를 들어 도 1d와 관련하여 논의된 바와 같이 두 대안 중 하나에 의한 메타데이터의 실제 특정 결합과는 달리, 객체 메타데이터는 출력 신호, 즉 DirAC 설명에 대한 메타데이터와 분리된 "결합된 메타데이터"에 포함되어 객체 데이터에 대한 선택적 수정을 허용한다.

따라서,도 4a의 오른쪽의 항목 2에 표시된 "방향/거리/확산"은 도 2a의 입력 인터페이스(100)에 입력된 추가의 오디오 객체 메타데이터에 대응하지만, 도 4a의 실시예에서는 단일 DirAC 설명에만 대응한다. 따라서, 어떤 의미에서는, 도 2a는 도 2a의 디코더 측은 "추가 오디오 객체 메타데이터"와 동일한 비트 스트림 내에서 메타데이터 생성기(400)에 의해 생성된 객체 메타데이터 및 단일 DirAC 설명만을 수신한다는 조건으로, 도 4a, 4b에 도시된 인코더의 디코더 측 구현을 나타낸다.

따라서, 인코딩된 송신 신호가 DirAC 송신 스트림과 분리 객체 파형 신호의 별도의 표현을 가질 때 추가의 객체 데이터의 완전히 다른 수정이 수행될 수 있다. 그러나, 송신 인코더(170)는 데이터, 즉 DirAC 설명을 위한 전송 채널과 객체로부터의 파형 신호를 다운믹스하고, 그러면 분리가 덜 완벽하지만 추가적인 객체 에너지 정보, 심지어 결합된 다운믹스 채널로부터의 분리에 의해 DirAC 설명에 대한 대상의 선택적인 수정이 가능하다.

도 5a 내지 5d는 오디오 데이터의 합성을 수행하기 위한 장치와 관련하여 본 발명의 제5 양태의 추가를 나타낸다. 이를 위해, 하나 이상의 오디오 객체의 DirAC 설명 및/또는 다중 채널 신호의 DirAC 설명 및/또는 1차 앰비소닉스 신호 또는 고차 앰비소닉스 신호의 DirAC 설명 및/또는 그 이상을 수신하기 위한 입력 인터페이스(100)가 제공되며, 여기서 DirAC 설명은 하나 이상의 객체의 위치 정보 또는 1차 앰비소닉스 신호 또는 상위 앰비소닉스 신호에 대한 부가 정보 또는 부가 정보로서 또는 사용자 인터페이스로부터의 다중 채널 신호에 대한 위치 정보를 포함한다.

특히, 조작기(500)는 하나 이상의 오디오 객체의 DirAC 설명, 다중 채널 신호의 DirAC 설명, 1차 앰비소닉스 신호의 DirAC 설명, 또는 고차 앰비소닉스 신호의 DirAC 설명을 조작하여 조작된 DirAC 설명을 획득하도록 구성된다. 이 조작된 DirAC 설명을 합성하기 위해, DirAC 합성기(220, 240)는이 조작된 DirAC 설명을 합성하여 합성된 오디오 데이터를 획득하도록 구성된다.

바람직한 실시예에서, DirAC 합성기(220, 240)는 도 5b에 도시된 바와 같은 DirAC 렌더러(222) 및 조작된 시간 영역 신호를 출력하는 후속적으로 연결된 스펙트럼-시간 변환기(240)를 포함한다. 특히, 조작기(500)는 DirAC 렌더링 전에 위치-의존 가중 연산을 수행하도록 구성된다.

특히, DirAC 합성기가 1차 앰비소닉스 신호 또는 고차 앰비소닉스 신호 또는 다중 채널 신호의 복수의 객체를 출력하도록 구성된 경우, DirAC 합성기는 블록(506, 508)에서 도 5d에 도시된 바와 같이 1차 또는 고차 앰비소닉스 신호의 각각의 객체 또는 각 성분 또는 다중 채널 신호의 각각의 채널에 대해 별도의 스펙트럼-시간 변환기를 사용하도록 구성된다. 블록(510)에 요약된 바와 같이, 대응하는 개별 변환의 출력은 모든 신호가 공통 포맷, 즉 호환 포맷으로 제공되는 경우 함께 추가된다.

따라서, 도 5a의 입력 인터페이스(100)의 경우, 하나 이상의, 즉 2개 또는 3개의 표현을 수신하는 경우, 각각의 표현은 도 2b 또는 2c와 관련하여 이미 논의된 바와 같이 파라미터 영역에서 블록(502)에 도시된 바와 같이 개별적으로 조작될 수 있고, 그 다음에, 각각의 조작된 설명에 대해 블록(504)에 요약된 바와 같이 합성이 수행될 수 있고, 그 다음에, 합성은 도 5d의 블록(510)과 관련하여 논의된 바와 같이 시간 영역에서 추가될 수 있다. 대안으로, 스펙트럼 영역에서 개별 DirAC 합성 절차의 결과는 이미 스펙트럼 영역에 추가될 수 있고 단일 시간 영역 변환도 사용될 수 있다. 특히, 조작기(500)는 도 2d와 관련하여 논의되거나 이전의 다른 양태와 관련하여 논의된 조작기로 구현될 수 있다.

따라서, 본 발명의 제5 양태는 매우 상이한 사운드 신호의 개별 DirAC 설명이 입력되는 경우 및 개별 설명의 특정 조작이 도 5a의 블록 500과 관련하여 논의된 바와 같이 수행되는 경우와 관련하여 중요한 기능을 제공하며, 여기서 조작기(500) 로의 입력은 단일 포맷만을 포함하는 임의의 포맷의 DirAC 설명일 수 있는데 반해, 제2 양태는 적어도 2개의 다른 DirAC 설명의 수신에 집중하고 있었거나, 제4 양태는 예를 들어 한편으로는 DirAC 설명의 수신과 다른 한편으로는 객체 신호 설명과 관련되었다.

후속하여, 도 6을 참조한다. 도 6은 DirAC 합성기와 다른 합성을 수행하기 위한 다른 구현예를 도시한다. 예를 들어 음장 분석기가 각각의 소스 신호마다 별도의 모노 신호(S)와 원래 도착 방향을 생성하는 경우, 그리고 번환 정보에 따라 새로운 도착 방향이 산출되는 경우, 예를 들어, 도 6의 앰비소닉스 신호 발생기(430)는 음원 신호, 즉 수평각(θ)또는 앙각(θ)및 방위각(φ)으로 구성된 새로운 도착 방향(DoA) 데이터에 대한 모노 신호(S)에 대한 음장 설명을 생성하는 데 사용될 것이다. 그 다음에, 도 6의 음장 산출기(420)에 의해 수행되는 절차는 예를 들어 새로운 도착 방향을 갖는 각각의 음원에 대한 1차 앰비소닉스 음장 표현을 생성하는 것이고, 그 다음에, 음장마다 새로운 기준 위치까지의 거리에 따른 스케일링 인자를 사용하여 음원당 추가 수정이 수행될 수 있고, 그 다음에, 예를 들어, 개별 소스들로부터의 모든 음장들이 서로 겹쳐져서 특정의 새로운 기준 위치와 관련된 앰비소닉스 표현으로 최종적으로 수정된 음장을 다시 획득할 수 있다.

DirAC 분석기(422)에 의해 처리된 각각의 시간/주파수 빈이 특정(대역폭 제한) 음원을 나타내는 것으로 해석할 때, 앰비소닉스 신호 발생기(430)는 DirAC 합성기(425) 대신에, 시간/주파수 빈마다, 이 시간/주파수 빈에 대한 다운믹스 신호 또는 압력 신호 또는 전방향성 성분을 도 6의 "모노 신호(S)"로 사용하여 완전한 앰비소닉스 표현을 생성하기 위해 사용될 수 있다. 그 다음에, 각각의 W, X, Y, Z 성분에 대한 주파수-시간 변환기(426)에서의 개별 주파수-시간 변환은 도 6에 도시된 것과 다른 음장 설명을 야기할 것이다.

후속하여, DirAC 분석 및 DirAC 합성에 관한 추가 설명이 당업계에 공지된 바와 같이 제공된다. 도 7a는 예를 들어 참조 문헌 <"Directional Audio Coding", IWPASH, 2009>에 원래 공개된 DirAC 분석기를 도시한다. DirAC 분석기는 대역 필터 뱅크(1310), 에너지 분석기(1320), 강도 분석기(1330), 시간 평균화 블록(1340), 및 확산도 산출기(1350), 및 방향 산출기(1360)를 포함한다. DirAC에서는 주파수 영역에서 분석과 합성이 모두 수행된다. 서로 다른 속성 내에서 사운드를 주파수 대역으로 나누는 몇 가지 방법이 있다. 가장 일반적으로 사용되는 주파수 변환에는 STFT(Short Time Fourier Transform) 및 QMF(Quadrature Mirror Filter Bank)가 포함된다. 이외에도 특정 목적에 최적화된 임의의 필터로 필터 뱅크를 설계할 수 있다 자유가 있다. 방향 분석의 목표는 소리가 동시에 하나 또는 여러 방향에서 도착하는 경우의 추정치와 함께 각각의 주파수 대역에서 소리의 도착 방향을 추정하는 것이다. 원칙적으로, 이것은 많은 기술로 수행될 수 있지만, 음장의 에너지 분석이 적합한 것으로 밝혀졌으며, 이는 도 7a에 도시되어 있다. 1차원, 2차원, 또는 3차원의 압력 신호 및 속도 신호가 단일 위치로부터 캡처될 때, 에너지 분석이 수행될 수 있다. 1차 B-포맷 신호에서, 전방향 신호는 W- 신호라고 하며, 2의 제곱근에 의해 축소된다. 음압(sound pressure)은 STFT 영역으로 표현된

로 추정할 수 있다.

X, Y, 및 Z 채널은 데카르트 축을 따라 향하는 쌍극자의 방향성 패턴을 가지며, 이는 벡터 U = [X, Y, Z]를 함께 형성한다. 벡터는 음장 속도 벡터를 추정하고 STFT 영역으로도 표현된다. 음장의 에너지(E)가 계산된다. B-포맷 신호의 캡처는 방향성 마이크로폰의 일치 위치 또는 근접한 전방향 마이크로폰 세트로 획득될 수 있다. 일부 응용에서, 마이크로폰 신호는 계산 영역, 즉 시뮬레이션된 형태로 형성될 수 있다. 소리의 방향은 강도 벡터(I)의 반대 방향으로 정의된다. 방향은 송신된 메타데이터에서 대응하는 각도 방위 및 고도 값으로 표시된다. 음장의 확산이 또한 강도 벡터 및 에너지의 기대 연산자를 사용하여 계산된다. 이 방정식의 결과는 사운드 에너지가 단일 방향(확산이 0) 또는 모든 방향(확산이 1)에서 도착하는지를 나타내는 0과 1 사이의 실수 값이다. 이 절차는 전체 3D 이하의 차원 속도 정보를 사용할 수 있다 경우에 적합하다.

도 7b는 밴드 뱅크(1370)의 뱅크, 가상 마이크로폰 블록(1400), 직접/확산 합성기 블록(1450), 및 특정 라우드스피커 설정 또는 가상의 라우드스피커 설정(1460)을 다시 갖는 DirAC 합성을 도시한다. 또한, 확산도-이득 변환기(1380), 벡터 기반 진폭 패닝(VBAP) 이득 테이블 블록(1390), 마이크로폰 보상 블록(1420), 스피커 이득 평균화 블록(1430), 및 다른 채널에 대한 분배기(1440)가 사용된다. 라우드스피커를 이용한 이 DirAC 합성에서, 도 7b에 도시된 고품질 버전의 DirAC 합성은 모든 B-포맷 신호를 수신하고, 이를 위해 라우드스피커 설정(1460)의 각각의 라우드스피커 방향에 대해 가상 마이크로폰 신호가 계산된다. 이용되는 방향성 패턴은 전형적으로 쌍극자이다. 그 다음에, 메타데이터에 따라 가상 마이크로폰 신호가 비선형 방식으로 수정된다. DirAC의 낮은 비트 전송률 버전은 도 7b에 나와 있지 않지만, 이 상황에서는 도 6에 표시된 것처럼 하나의 오디오 채널만 송신된다. 처리 상의 차이점은 모든 가상 마이크로폰 신호가 수신된 단일 오디오 채널로 대체된다는 것이다. 가상 마이크로폰 신호는 확산 및 비확산 스트림의 두 가지 스트림으로 구분되며 별도로 처리된다.

비확산 사운드는 벡터베이스 진폭 패닝(vector base amplitude panning, VBAP)을 사용하여 포인트 소스로 재생된다. 패닝에서, 라우드스피커 특정 게인 계수와 곱한 후 모노포닉 사운드 신호가 라우드스피커의 서브 세트에 적용된다. 이득 인자는 라우드스피커 설정 정보 및 지정된 패닝 방향을 사용하여 계산된다. 낮은 비트 전송률 버전에서는 입력 신호가 메타데이터에 의해 암시된 방향으로 패닝된다. 고품질 버전에서 각각의 가상 마이크로폰 신호에는 해당 이득 인자가 곱해져 패닝과 동일한 효과를 나타내지만 비선형 아티팩트에는 덜 영향을 준다.

많은 경우에, 방향성 메타데이터는 일시적인 시간적 변화에 영향을 받는다. 아티팩트를 피하기 위해, VBAP로 계산된 라우드스피커의 이득 인자는 각각의 대역에서 약 50 사이클 주기와 동일한 주파수 종속 시간 상수와의 시간적 통합에 의해 평활화된다. 이렇게 하면 아티팩트가 효과적으로 제거되지만 방향 변경은 대부분의 경우 평균화하지 않고 느리게 인식되지 않는다. 확산 사운드 합성의 목적은 청취자를 둘러싸는 사운드 인식을 만드는 것이다. 낮은 비트 전송률 버전에서, 확산 신호는 입력 신호를 상관해제시키고 모든 스피커에서 재생함으로써 재생된다. 고품질 버전에서, 확산 스트림의 가상 마이크로폰 신호는 어느 정도 이미 불일치하므로 약간만 상관해제되어야 한다. 이 방법은 낮은 비트 전송률 버전보다 서라운드 잔향 및 주변 사운드에 더 나은 공간 품질을 제공한다. 헤드폰을 사용한 DirAC 합성의 경우, DirAC는 비확산 스트림을 위한 청취자 주변의 일정량의 가상 라우드스피커와 확산 스트림을 위한 특정 수의 라우드스피커로 구성된다. 가상 라우드스피커는 측정된 헤드 관련 송신 기능(head-related transfer function, HRTF)을 사용하여 입력 신호의 컨볼루션으로 구현된다.

후속하여, 상이한 양태, 특히 도 1a와 관련하여 논의된 바와 같은 제1 양태의 추가 구현에 관한 추가의 일반적인 관계가 제공된다. 일반적으로, 본 발명은 공통 포맷을 사용하여 상이한 장면에서 상이한 장면을 결합하는 것을 지칭하며, 여기서 공통 포맷은 예를 들어 도 1a의 항목(120, 140)에서 논의된 바와 같이 B-포맷 영역, 압력/속도 영역, 또는 메타데이터 영역일 수 있다.

결합이 DirAC 공통 포맷으로 직접 수행되지 않는 경우, DirAC 분석(802)은 도 1a의 항목(180)과 관련하여 이전에 논의된 바와 같이 인코더에서 송신 전에 하나의 대안으로 수행된다.

그 다음에, DirAC 분석에 후속하여, 결과는 인코더(170) 및 메타데이터 인코더(190)와 관련하여 이전에 논의된 바와 같이 인코딩되고, 인코딩된 결과는 출력 인터페이스(200)에 의해 생성된 인코딩된 출력 신호를 통해 송신된다. 그러나, 다른 대안에서, 결과는 도 1a의 블록(160)의 출력 및 도 1a의 블록(180)의 출력이 DirAC 렌더러로 전달될 때 결과가 도 1a 장치에 의해 직접 렌더링될 수 있다. 따라서, 도 1a의 장치는 특정 인코더 장치가 아니라 분석기 및 대응하는 렌더러일 것이다.

추가 대안은 인코더로부터 디코더로의 송신이 수행되는 도 8의 오른쪽 분기에 설명되어 있고, 블록(804)에 도시된 바와 같이, DirAC 분석 및 DirAC 합성은 송신 후에, 즉 디코더 측에서 수행된다. 이 절차는 도 1a의 대안이 사용될 때, 즉, 인코딩된 출력 신호가 공간 메타데이터가 없는 B-포맷 신호인 경우이다. 블록(808)에 이어서, 결과가 재생을 위해 렌더링될 수 있거나, 대안으로 결과가 인코딩되어 다시 송신될 수 있다. 따라서, 상이한 양태와 관련하여 정의되고 설명된 본 발명의 절차는 매우 유연하고 특정 사용 사례에 매우 잘 적용될 수 있음이 명백해진다.

발명의 제1 양태 : 범용 DirAC 기반 공간 오디오 코딩/렌더링

다중 채널 신호, 앰비소닉스 포맷 및 오디오 객체를 개별적으로 또는 동시에 인코딩할 수 있는 DirAC 기반 공간 오디오 코더.

최첨단 기술에 대비한 이점과 장점

가장 관련성이 높은 몰입형 오디오 입력 포맷을 위한 범용 DirAC 기반 공간 오디오 코딩 체계

다른 출력 포맷에서 다른 입력 포맷의 범용 오디오 렌더링

발명의 제2 양태 : 디코더에서 둘 이상의 DirAC 설명 결합

본 발명의 제2 양태는 스펙트럼 영역에서 둘 이상의 DirAC 설명을 결합하고 렌더링하는 것에 관한 것이다.

최첨단 기술에 대비한 이점과 장점

효율적이고 정확한 DirAC 스트림 결합

DirAC를 사용하면 모든 장면을 보편적으로 표현할 수 있으며 파라미터 영역 또는 스펙트럼 영역에서 다른 스트림을 효율적으로 결합할 수 있음

개별 DirAC 장면 또는 스펙트럼 영역에서 결합된 장면의 효율적이고 직관적인 장면 조작 및 조작된 결합 장면의 시간 영역으로의 변환

발명의 제3 양태 : 오디오 객체를 DirAC 영역으로 변환

본 발명의 제3 양태은 객체 메타데이터 및 선택적으로 객체 파형 신호를 DirAC 영역으로 직접 변환하는 것과 관련되며, 일 실시예에서는 여러 객체의 결합을 객체 표현으로 변환하는 것에 관한 것이다.

최첨단 기술에 대비한 이점과 장점

오디오 객체 메타데이터의 간단한 메타데이터 트랜스코더를 통한 효율적이고 정확한 DirAC 메타데이터 추정

DirAC가 하나 이상의 오디오 객체와 관련된 복잡한 오디오 장면을 코딩할 수 있음

완전한 오디오 장면의 단일 파라메트릭 표현으로 DirAC를 통해 오디오 객체를 코딩하는 효율적인 방법

발명의 제4 양태 : 객체 메타데이터와 규칙적인 DirAC 메타데이터의 결합

본 발명의 제3 양태는 DirAC 파라미터에 의해 표현된 결합된 오디오 장면을 구성하는 개별 객체의 방향 및 거리 또는 확산도를 이용하여 DirAC 메타데이터의 수정을 다룬다. 이 추가 정보는 쉽게 코딩되는데, 주로 시간 단위당 단일 광대역 방향으로 구성되며 다른 DirAC 파라미터보다 덜 자주 리프레시할 수 있기 때문에 객체가 정적이거나 느린 속도로 이동하는 것으로 가정할 수 있기 때문이다.

최첨단 기술에 대비한 이점과 장점

DirAC 영역에서 메타데이터를 효율적으로 결합하여 DirAC를 통해 오디오 객체를 코딩하는 보다 효율적인 방법

오디오 장면을 단일 파라메트릭 표현으로 효율적으로 결합하여 오디오 객체를 코딩하고 DirAC를 통해 효율적인 방법

발명의 제5 양태 : DirAC 합성에서 객체 MC 장면 및 FOA/HOA C의 조작

제4 양태는 디코더 측과 관련되고 오디오 객체의 알려진 위치를 이용한다. 위치는 대화식 인터페이스를 통해 사용자에 의해 제공될 수 있고 비트스트림 내에 추가적인 부가 정보로서 포함될 수 있다.

목표는 레벨, 등화, 및/또는 공간 위치와 같은 객체의 속성을 개별적으로 변경하여 여러 객체로 구성된 출력 오디오 장면을 조작할 수 있도록 하는 것이다. 또한 객체를 완전히 필터링하거나 결합된 스트림에서 개별 객체를 복원할 수 있다.

출력 오디오 장면의 조작은 DirAC 메타데이터의 공간 파라미터, 객체의 메타데이터, 존재하는 경우 대화형 사용자 입력 및 전송 채널로 전달되는 오디오 신호를 공동으로 처리하여 달성할 수 있다.

최첨단 기술에 대비한 이점과 장점

인코더의 입력에 표시된 대로 DirAC가 디코더 측 오디오 객체에서 출력할 수 있도록 함

DirAC 재생으로 이득, 회전 등을 적용하여 개별 오디오 객체를 조작할 수 있음

DirAC 합성이 끝날 때 렌더링 및 합성 필터 뱅크 이전에 위치 종속 가중 연산만 필요하기 때문에 이 기능은 최소한의 추가 계산 노력이 필요(추가 객체 출력에는 객체 출력당 하나의 추가 합성 필터 뱅크만 필요)

참조로 그 전체가 통합된 참고 문헌 :

[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajam

ki, "Directional audio coding - perception-based reproduction of spatial sound", International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.

[2] Ville Pulkki. "Virtual source positioning using vector base amplitude panning". J. Audio Eng. Soc., 45(6):456{466, June 1997.

[3] M. V. Laitinen and V. Pulkki, "Converting 5.1 audio recordings to B-format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), Prague, 2011, pp. 61-64.

[4] G. Del Galdo, F. Kuech, M. Kallinger and R. Schultz-Amling, "Efficient merging of multiple audio streams for spatial sound reproduction in Directional Audio Coding," 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, Taipei, 2009, pp. 265-268.

[5] J

rgen HERRE, CORNELIA FALCH, DIRK MAHNE, GIOVANNI DEL GALDO, MARKUS KALLINGER, AND OLIVER THIERGART, "Interactive Teleconferencing Combining Spatial Audio Object Coding and DirAC Technology", J. Audio Eng. Soc., Vol. 59, No. 12, 2011 December.

[6] R. Schultz-Amling, F. Kuech, M. Kallinger, G. Del Galdo, J. Ahonen, V. Pulkki, "Planar Microphone Array Processing for the Analysis and Reproduction of Spatial Audio using Directional Audio Coding," Audio Engineering Society Convention 124, Amsterdam, The Netherlands, 2008.

[7] Daniel P. Jarrett and Oliver Thiergart and Emanuel A. P. Habets and Patrick A. Naylor, "Coherence-Based Diffuseness Estimation in the Spherical Harmonic Domain", IEEE 27th Convention of Electrical and Electronics Engineers in Israel(IEEEI), 2012.

[8] US Patent 9,015,051.

본 발명은 추가의 실시예에서, 특히 제1 양태와 관련하여 그리고 다른 양태와 관련하여 다른 대안을 제공한다. 이러한 대안은 다음과 같다 :

첫째, B-포맷 영역에서 상이한 포맷을 결합하고 인코더에서 DirAC 분석을 수행하거나 결합된 채널을 디코더로 송신하고 DirAC 분석 및 합성을 수행한다.

둘째, 압력/속도 영역에서 상이한 포맷을 결합하고 인코더에서 DirAC 분석을 수행한다. 대안으로, 압력/속도 데이터가 디코더로 송신되고 DirAC 분석이 디코더에서 수행되고 합성도 디코더에서 수행된다.

셋째, 메타데이터 영역에서 서로 다른 포맷을 결합하고 단일 DirAC 스트림을 송신하거나 여러 DirAC 스트림을 결합하여 디코더에서 결합하기 전에 디코더로 송신한다.

또한, 본 발명의 실시 형태 또는 양태는 다음 양태에 관련된다 :

첫째, 위의 세 가지 대안에 따라 상이한 오디오 포맷을 결합한다.

둘째, 이미 동일한 포맷의 두 DirAC 설명의 수신, 결합, 및 렌더링이 수행된다.

셋째, 객체 데이터를 DirAC 데이터로 "직접 변환"하는 특정 객체 대 DirAC 변환기가 구현된다.

넷째, 일반적인 DirAC 메타데이터 및 두 메타데이터의 결합에 추가하여 객체 메타데이터; 두 데이터 모두 비트 스트림에 나란히 존재하지만 오디오 객체도 DirAC 메타데이터 스타일로 설명된다.

다섯째, 객체 및 DirAC 스트림은 개별적으로 디코더로 송신되고, 출력 오디오(라우드스피커) 신호를 시간 영역으로 변환하기 전에 디코더 내에서 객체가 선택적으로 조작된다.

본 명세서에서 전술한 모든 대안 또는 양태 및 다음의 청구항에서 독립항에 의해 정의된 모든 양태는 개별적으로, 즉 고려되는 대안, 목적 또는 독립 청구항과 다른 대안 또는 목적 없이 사용될 수 있다는 것이 언급되어야 한다. 그러나, 다른 실시예에서, 대안, 또는 양태, 또는 독립 청구항 중 둘 이상이 서로 결합될 수 있고, 다른 실시예에서, 모든 양태, 대안, 및 모든 독립 청구항이 서로 결합될 수 있다.

본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나 인터넷과 같은 유선 송신 매체 또는 무선 송신 매체와 같은 송신 매체를 통해 송신될 수 있다.

일부 양태가 장치의 맥락에서 설명되었지만, 이러한 양태가 또한 대응하는 방법의 설명을 나타내는 것이 명백하며, 여기서 블록 및 장치는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 양태는 또한 대응하는 블록 또는 아이템의 설명 또는 대응하는 장치의 특징을 나타낸다.

특정 구현 요건에 따라, 본 발명의 실시예는 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능한 제어 신호가 저장된, 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다.

본 발명에 따른 일부 실시예는 본원에 설명된 방법 중 하나가 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행되는 경우 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어 머신 판독 가능 캐리어에 저장될 수 있다.

다른 실시예는 기계 판독 가능 캐리어 또는 비일시적 저장 매체 상에 저장된 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다시 말해, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 실행되는 경우, 본원에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법의 다른 실시예는 그 위에 기록된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다.

따라서, 본 발명의 방법의 다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 송신되도록 구성될 수 있다.

다른 실시예는 본원에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 처리 수단, 예를 들어 컴퓨터 또는 프로그램 가능 논리 디바이스를 포함한다.

다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

일부 실시예에서, 프로그램 가능 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본원에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 본원에 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.

위에서 설명된 실시예는 본 발명의 원리를 예시하기 위한 것일 뿐이다. 본원에 설명된 구성 및 세부사항의 수정 및 변형은 본 기술분야의 통상의 기술자에게 명백할 것임을 이해한다. 따라서, 곧 나올 청구범위의 범위에 의해서만 제한되고 본원의 실시예에 대한 기술 및 설명에 의해 제공된 특정 세부사항에 의해서만 한정되는 것은 아니다.

Claims

결합된 오디오 장면에 대한 설명을 생성하기 위한 장치에 있어서,
제1 포맷의 제1 오디오 장면의 제1 설명 및 제2 포맷의 제2 오디오 장면의 제2 설명을 수신하기 위한 입력 인터페이스(100) - 상기 제2 포맷은 상기 제1 포맷과 상이함 -;
상기 제2 포맷이 공통 포맷과 상이한 경우 상기 제2 설명을 상기 공통 포맷으로 변환하고 상기 제1 설명을 공통 포맷으로 변환하기 위한 포맷 변환기(120); 및
상기 결합된 오디오 장면의 설명을 획득하기 위해 상기 공통 포맷의 제1 설명 및 상기 공통 포맷의 제2 설명을 결합하기 위한 포맷 결합기(140);를 포함하며,

상기 포맷 변환기(120)는 상기 제1 설명을 제1 B-포맷 신호 표현으로 변환하고 상기 제2 설명을 제2 B-포맷 신호 표현으로 변환하도록 구성되고,
상기 포맷 결합기(140)는 상기 제1 B-포맷 신호 표현 및 상기 제2 B-포맷 신호 표현의 개별 성분을 개별적으로 결합함으로써 상기 제1 B-포맷 신호 표현과 상기 제2 B-포맷 신호 표현을 결합하도록 구성되는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.
제1항에 있어서,
상기 제1 포맷은 1차 앰비소닉스 포맷, 고차 앰비소닉스 포맷, DirAC 포맷, 오디오 객체 포맷, 및 다중 채널 포맷을 포함하는 포맷의 그룹으로부터 선택되며,
상기 제2 포맷은 1차 앰비소닉스 포맷, 고차 앰비소닉스 포맷, 상기 공통 포맷, DirAC 포맷, 오디오 객체 포맷, 및 다중 채널 포맷을 포함하는 포맷의 그룹으로부터 선택되는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.
삭제
결합된 오디오 장면에 대한 설명을 생성하기 위한 장치에 있어서,
제1 포맷의 제1 오디오 장면의 제1 설명 및 제2 포맷의 제2 오디오 장면의 제2 설명을 수신하기 위한 입력 인터페이스(100) - 상기 제2 포맷은 상기 제1 포맷과 상이함 -;
상기 제2 포맷이 공통 포맷과 상이한 경우 상기 제2 설명을 상기 공통 포맷으로 변환하고 상기 제1 설명을 공통 포맷으로 변환하기 위한 포맷 변환기(120); 및
상기 결합된 오디오 장면의 설명을 획득하기 위해 상기 공통 포맷의 제1 설명 및 상기 공통 포맷의 제2 설명을 결합하기 위한 포맷 결합기(140);를 포함하며,

상기 포맷 변환기(120)는 상기 제1 설명을 제1 개별 성분을 갖는 제1 압력/속도 신호 표현으로 변환하고 상기 제2 설명을 제2 개별 성분을 갖는 제2 압력/속도 신호 표현으로 변환하도록 구성되고,
상기 포맷 결합기(140)는 결합된 개별 성분을 갖는 결합된 압력/속도 신호 표현을 획득하기 위해, 제1 압력/속도 신호 표현의 제1 개별 성분 및 대응하는 제2 압력/속도 신호 표현의 제2 개별 성분을 개별적으로 결합함으로써 상기 제1 압력/속도 신호 표현과 상기 제2 압력/속도 신호 표현을 결합하도록 구성되는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.
결합된 오디오 장면에 대한 설명을 생성하기 위한 장치에 있어서,
제1 포맷의 제1 오디오 장면의 제1 설명 및 제2 포맷의 제2 오디오 장면의 제2 설명을 수신하기 위한 입력 인터페이스(100) - 상기 제2 포맷은 상기 제1 포맷과 상이함 -;
상기 제2 포맷이 공통 포맷과 상이한 경우 상기 제2 설명을 상기 공통 포맷으로 변환하고 상기 제1 설명을 공통 포맷으로 변환하기 위한 포맷 변환기(120); 및
상기 결합된 오디오 장면의 설명을 획득하기 위해 상기 공통 포맷의 제1 설명 및 상기 공통 포맷의 제2 설명을 결합하기 위한 포맷 결합기(140);를 포함하며,

상기 포맷 변환기(120)는 상기 제2 설명의 포맷이 DirAC 포맷과 상이한 경우 상기 제2 설명을 DirAC 포맷인 제2 DirAC 파라미터 표현으로 변환하고 상기 제1 설명을 DirAC 포맷인 제1 DirAC 파라미터 표현으로 변환하도록 구성되고,
상기 포맷 결합기(140)는 상기 결합된 오디오 장면에 대한 DirAC 포맷에서의 결합된 DirAC 파라미터 표현을 획득하기 위해 상기 제1 DirAC 파라미터 표현 및 상기 제2 DirAC 파라미터 표현의 개별 성분을 개별적으로 결합함으로써 상기 제1 DirAC 파라미터 표현과 상기 제2 DirAC 파라미터 표현을 결합하도록 구성되는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.
제5항에 있어서,
상기 포맷 결합기(140)는 시간-주파수 타일에 대한 도착 방향 값 또는 상기 결합된 오디오 장면을 나타내는 상기 시간-주파수 타일에 대한 도착 방향 값 및 확산도 값을 생성하도록 구성되는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.
제1항에 있어서,
상기 결합된 오디오 장면에 대한 DirAC 파라미터를 도출하기 위해 상기 결합된 오디오 장면을 분석하기 위한 DirAC 분석기(180);를 더 포함하고,
상기 DirAC 파라미터는 시간-주파수 타일에 대한 도착 방향 값 또는 상기 결합된 오디오 장면을 나타내는 상기 시간-주파수 타일에 대한 도착 방향 값 및 확산도 값을 포함하는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.
결합된 오디오 장면에 대한 설명을 생성하기 위한 장치에 있어서,
제1 포맷의 제1 오디오 장면의 제1 설명 및 제2 포맷의 제2 오디오 장면의 제2 설명을 수신하기 위한 입력 인터페이스(100) - 상기 제2 포맷은 상기 제1 포맷과 상이함 -;
상기 제2 포맷이 공통 포맷과 상이한 경우 상기 제2 설명을 상기 공통 포맷으로 변환하고 상기 제1 설명을 공통 포맷으로 변환하기 위한 포맷 변환기(120); 및
상기 결합된 오디오 장면의 설명을 획득하기 위해 상기 공통 포맷의 제1 설명 및 상기 공통 포맷의 제2 설명을 결합하기 위한 포맷 결합기(140);를 포함하며,

상기 결합된 오디오 장면 또는 상기 제1 오디오 장면 및 상기 제2 오디오 장면으로부터 전송 채널 신호를 생성하기 위한 전송 채널 생성기(160); 및
상기 전송 채널 신호를 코어 인코딩하기 위한 전송 채널 인코더(170);를 더 포함하거나,
상기 전송 채널 생성기(160)는 각각 왼쪽 위치 또는 오른쪽 위치로 향하는 빔포머를 사용하여 1차 앰비소닉스 또는 고차 앰비소닉스 포맷인 상기 제1 오디오 장면 또는 상기 제2 오디오 장면으로부터 스테레오 신호를 생성하도록 구성되거나,
상기 전송 채널 생성기(160)는 다중채널 표현의 3개 이상의 채널을 다운믹싱함으로써 다중채널 표현인 상기 제1 오디오 장면 또는 상기 제2 오디오 장면으로부터 스테레오 신호를 생성하도록 구성되거나,
상기 전송 채널 생성기(160)는 객체의 위치를 사용하여 각각의 객체를 패닝하거나, 어떤 객체가 어떤 스테레오 채널에 있는지를 나타내는 정보를 사용하여 객체를 스테레오 다운믹스로 다운믹싱함으로써, 오디오 객체 표현인 상기 제1 오디오 장면 또는 상기 제2 오디오 장면으로부터 스테레오 신호를 생성하도록 구성되거나,
상기 전송 채널 생성기(160)는 상기 스테레오 신호의 왼쪽 채널만을 왼쪽 다운믹스 전송 채널에 추가하고 오른쪽 전송 채널을 획득하기 위해 상기 스테레오 신호의 오른쪽 채널만을 추가하도록 구성되거나,
상기 공통 포맷은 B-포맷이고, 상기 전송 채널 생성기(160)는 상기 전송 채널 신호를 도출하기 위해 결합된 B-포맷 표현을 처리하도록 구성되고, 상기 처리는 빔포밍 동작을 수행하거나 전방향 성분과 같은 상기 B-포맷의 B-포맷 신호의 성분의 서브 세트를 모노 전송 채널로서 추출하는 것을 포함하거나,
상기 처리는 상기 전방향 성분 및 상기 B-포맷의 반대 부호를 갖는 Y 성분을 사용하여 빔포밍하여 왼쪽 채널 및 오른쪽 채널을 산출하는 것을 포함하거나,
상기 처리는 상기 B-포맷의 성분과 주어진 방위각 및 주어진 앙각을 사용하는 빔포밍 동작을 포함하거나,
상기 전송 채널 생성기(160)는 상기 결합된 오디오 장면의 B-포맷 신호를 상기 전송 채널 인코더에 제공하도록 구성되고, 어떠한 공간 메타데이터도 상기 포맷 결합기(140)에 의해 출력된 상기 결합된 오디오 장면에 포함되지 않는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.
결합된 오디오 장면에 대한 설명을 생성하기 위한 장치에 있어서,
제1 포맷의 제1 오디오 장면의 제1 설명 및 제2 포맷의 제2 오디오 장면의 제2 설명을 수신하기 위한 입력 인터페이스(100) - 상기 제2 포맷은 상기 제1 포맷과 상이함 -;
상기 제2 포맷이 공통 포맷과 상이한 경우 상기 제2 설명을 상기 공통 포맷으로 변환하고 상기 제1 설명을 공통 포맷으로 변환하기 위한 포맷 변환기(120); 및
상기 결합된 오디오 장면의 설명을 획득하기 위해 상기 공통 포맷의 제1 설명 및 상기 공통 포맷의 제2 설명을 결합하기 위한 포맷 결합기(140);를 포함하며,

메타데이터 인코더(190);를 더 포함하고,
상기 메타데이터 인코더(190)는
인코딩된 DirAC 메타데이터를 획득하기 위해 상기 결합된 오디오 장면에 설명된 DirAC 메타데이터를 인코딩하거나,
제1 인코딩된 DirAC 메타데이터를 획득하기 위해 상기 제1 오디오 장면으로부터 도출된 DirAC 메타데이터를 인코딩하고, 제2 인코딩된 DirAC 메타데이터를 획득하기 위해 상기 제2 오디오 장면으로부터 도출된 DirAC 메타데이터를 인코딩하기 위한 것임을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.
제1항에 있어서,
상기 결합된 오디오 장면을 나타내는 인코딩된 출력 신호를 생성하기 위한 출력 인터페이스(200) - 상기 출력 신호는 인코딩된 DirAC 메타데이터 및 하나 이상의 인코딩된 전송 채널을 포함함 -;를 더 포함하는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.
결합된 오디오 장면에 대한 설명을 생성하기 위한 장치에 있어서,
제1 포맷의 제1 오디오 장면의 제1 설명 및 제2 포맷의 제2 오디오 장면의 제2 설명을 수신하기 위한 입력 인터페이스(100) - 상기 제2 포맷은 상기 제1 포맷과 상이함 -;
상기 제2 포맷이 공통 포맷과 상이한 경우 상기 제2 설명을 상기 공통 포맷으로 변환하고 상기 제1 설명을 공통 포맷으로 변환하기 위한 포맷 변환기(120); 및
상기 결합된 오디오 장면의 설명을 획득하기 위해 상기 공통 포맷의 제1 설명 및 상기 공통 포맷의 제2 설명을 결합하기 위한 포맷 결합기(140);를 포함하며,

상기 포맷 변환기(120)는 고차 앰비소닉스 포맷 또는 1차 앰비소닉스 포맷을 B-포맷으로 변환하도록 구성되며, 상기 고차 앰비소닉스 포맷은 상기 B-포맷으로 변환되기 전에 잘리거나,
상기 포맷 변환기(120)는 투영된 신호를 획득하기 위해 기준 위치에서 구형 고조파 상에 객체 또는 채널을 투영하도록 구성되며, 상기 포맷 결합기(140)는 투영된 신호를 결합하여 B-포맷 계수를 획득하도록 구성되고, 상기 객체 또는 상기 채널은 지정된 위치의 공간에 있으며 기준 위치로부터 선택적인 개별 거리를 갖거나,
상기 포맷 변환기(120)는 B-포맷 성분의 시간-주파수 분석 및 압력 및 속도 벡터의 결정을 포함하는 DirAC 분석을 수행하도록 구성되며, 상기 포맷 결합기(140)는 상이한 압력/속도 벡터를 결합하도록 구성되고, 상기 포맷 결합기(140)는 결합된 압력/속도 데이터로부터 DirAC 메타데이터를 도출하기 위한 DirAC 분석기를 더 포함하거나,
상기 포맷 변환기(120)는 오디오 객체 포맷의 객체 메타데이터로부터 DirAC 파라미터를 상기 제1 포맷 또는 상기 제2 포맷으로서 추출하도록 구성되며, 상기 압력 벡터는 객체 파형 신호이며, 방향은 공간의 객체 위치로부터 도출되거나, 확산도는 상기 객체 메타데이터에서 직접 제공되거나 0 값과 같은 기본 값으로 설정되거나,
상기 포맷 변환기(120)는 객체 데이터 포맷으로부터 도출된 DirAC 파라미터를 압력/속도 데이터로 변환하도록 구성되고, 상기 포맷 결합기(140)는 상기 압력/속도 데이터를 하나 이상의 상이한 오디오 객체의 상이한 설명으로부터 도출된 압력/속도 데이터와 결합하도록 구성되거나,
상기 포맷 변환기(120)는 DirAC 파라미터를 직접 도출하도록 구성되고, 상기 포맷 결합기(140)는 상기 결합된 오디오 장면을 획득하기 위해 상기 DirAC 파라미터를 결합하도록 구성되는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.
결합된 오디오 장면에 대한 설명을 생성하기 위한 장치에 있어서,
제1 포맷의 제1 오디오 장면의 제1 설명 및 제2 포맷의 제2 오디오 장면의 제2 설명을 수신하기 위한 입력 인터페이스(100) - 상기 제2 포맷은 상기 제1 포맷과 상이함 -;
상기 제2 포맷이 공통 포맷과 상이한 경우 상기 제2 설명을 상기 공통 포맷으로 변환하고 상기 제1 설명을 공통 포맷으로 변환하기 위한 포맷 변환기(120); 및
상기 결합된 오디오 장면의 설명을 획득하기 위해 상기 공통 포맷의 제1 설명 및 상기 공통 포맷의 제2 설명을 결합하기 위한 포맷 결합기(140);

1차 앰비소닉스 입력 포맷 또는 고차 앰비소닉스 입력 포맷 또는 다중 채널 신호 포맷을 분석하기 위한 DirAC 분석기(180);
객체 메타데이터를 DirAC 메타데이터로 변환하거나 시간 불변 위치를 갖는 다중 채널 신호를 상기 DirAC 메타데이터로 변환하기 위한 메타데이터 변환기(150, 125, 126, 148); 및
개별 DirAC 메타데이터 스트림을 결합하거나 여러 스트림으로부터 도착 방향 메타데이터를 결합하거나 여러 스트림으로부터 확산도 메타데이터를 결합하기 위한 메타데이터 결합기(144) - 상기 메타데이터 결합기는 가중 가산을 수행하도록 구성되고, 상기 가중 가산의 가중은 연관된 압력 신호 에너지의 에너지에 따라 수행됨 -;를 포함하고,

상기 메타데이터 결합기(144)는 상기 제1 오디오 장면의 제1 설명의 시간/주파수 빈에 대한 에너지 값 및 도착 방향 값을 산출하고, 상기 제2 오디오 장면의 제2 설명의 시간/주파수 빈에 대한 에너지 값 및 도착 방향 값을 산출하도록 구성되고, 상기 포맷 결합기(140)는 제1 에너지를 제1 도착 방향 값에 곱하고 제2 에너지 값 및 제2 도착 방향 값의 곱셈 결과를 더하여 결합된 도착 방향 값을 획득하거나, 또는
상기 메타데이터 결합기(144)는 상기 제1 오디오 장면의 제1 설명의 시간/주파수 빈에 대한 에너지 값 및 도착 방향 값을 산출하고, 상기 제2 오디오 장면의 제2 설명의 시간/주파수 빈에 대한 에너지 값 및 도착 방향 값을 산출하도록 구성되고, 상기 포맷 결합기(140)는 결합된 도착 방향 값으로서 더 높은 에너지와 연관되는 상기 제1 도착 방향 값 및 상기 제2 도착 방향 값 중의 도착 방향 값을 선택하도록 구성되는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.
제1항에 있어서,
오디오 객체에 대한 별도의 객체 설명을 결합된 포맷에 추가하도록 구성되는 출력 인터페이스(200) - 상기 별도의 객체 설명은 방향, 거리, 확산도, 또는 임의의 다른 객체 속성 중 적어도 하나를 포함하고, 상기 오디오 객체는 상기 오디오 객체의 모든 주파수 대역에 걸쳐 단일 방향을 가지며 정적이거나 속도 임계치보다 느리게 이동함 -;를 더 포함하는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하기 위한 장치.
결합된 오디오 장면에 대한 설명을 생성하는 방법에 있어서,
제1 포맷의 제1 오디오 장면의 제1 설명 및 제2 포맷의 제2 오디오 장면의 제2 설명을 수신하는 단계 - 상기 제2 포맷은 상기 제1 포맷과 상이함 -;
상기 제2 포맷이 공통 포맷과 상이한 경우 상기 제2 설명을 상기 공통 포맷으로 변환하고 상기 제1 설명을 공통 포맷으로 변환하는 단계; 및
상기 결합된 오디오 장면의 설명을 획득하기 위해 상기 공통 포맷의 제1 설명과 상기 공통 포맷의 제2 설명을 결합하는 단계;를 포함하며,

상기 변환은 상기 제1 설명을 제1 B-포맷 신호 표현으로 변환하고 상기 제2 설명을 제2 B-포맷 신호 표현으로 변환하는 것을 포함하고, 상기 결합은 상기 제1 B-포맷 신호 표현 및 상기 제2 B-포맷 신호 표현의 개별 성분을 개별적으로 결합함으로써 상기 제1 B-포맷 신호 표현과 상기 제2 B-포맷 신호 표현을 결합하는 것을 포함하며,

또는,
상기 변환은 상기 제1 설명을 제1 개별 성분을 갖는 제1 압력/속도 신호 표현으로 변환하고 상기 제2 설명을 제2 개별 성분을 갖는 제2 압력/속도 신호 표현으로 변환하는 것을 포함하고,
상기 결합은 결합된 개별 성분을 갖는 결합된 압력/속도 신호 표현을 획득하기 위해, 제1 압력/속도 신호 표현의 제1 개별 성분 및 대응하는 제2 압력/속도 신호 표현의 제2 개별 성분을 개별적으로 결합함으로써 상기 제1 압력/속도 신호 표현과 상기 제2 압력/속도 신호 표현을 결합하는 것을 포함하며,

또는,
상기 변환은 상기 제2 설명의 포맷이 DirAC 포맷과 상이한 경우 상기 제2 설명을 DirAC 포맷인 제2 DirAC 파라미터 표현으로 변환하고 상기 제1 설명을 DirAC 포맷인 제1 DirAC 파라미터 표현으로 변환하는 것을 포함하고,
상기 결합은 상기 결합된 오디오 장면에 대한 DirAC 포맷에서의 결합된 DirAC 파라미터 표현을 획득하기 위해 상기 제1 DirAC 파라미터 표현 및 상기 제2 DirAC 파라미터 표현의 개별 성분을 개별적으로 결합함으로써 상기 제1 DirAC 파라미터 표현과 상기 제2 DirAC 파라미터 표현을 결합하는 것을 포함하는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하는 방법.
결합된 오디오 장면에 대한 설명을 생성하는 방법에 있어서,
제1 포맷의 제1 오디오 장면의 제1 설명 및 제2 포맷의 제2 오디오 장면의 제2 설명을 수신하는 단계 - 상기 제2 포맷은 상기 제1 포맷과 상이함 -;
상기 제2 포맷이 공통 포맷과 상이한 경우 상기 제2 설명을 상기 공통 포맷으로 변환하고 상기 제1 설명을 공통 포맷으로 변환하는 단계; 및
상기 결합된 오디오 장면의 설명을 획득하기 위해 상기 공통 포맷의 제1 설명과 상기 공통 포맷의 제2 설명을 결합하는 단계;를 포함하며,

상기 결합된 오디오 장면 또는 상기 제1 오디오 장면 및 상기 제2 오디오 장면으로부터 전송 채널 신호를 생성하는 것, 및
상기 전송 채널 신호를 코어 인코딩하는 것을 더 포함하거나,
상기 생성은 각각 왼쪽 위치 또는 오른쪽 위치로 향하는 빔포머를 사용하여 1차 앰비소닉스 또는 고차 앰비소닉스 포맷인 상기 제1 오디오 장면 또는 상기 제2 오디오 장면으로부터 스테레오 신호를 생성하는 것을 포함하거나,
상기 생성은 다중채널 표현의 3개 이상의 채널을 다운믹싱함으로써 다중채널 표현인 상기 제1 오디오 장면 또는 상기 제2 오디오 장면으로부터 스테레오 신호를 생성하는 것을 포함하거나,
상기 생성은 객체의 위치를 사용하여 각각의 객체를 패닝하거나, 어떤 객체가 어떤 스테레오 채널에 있는지를 나타내는 정보를 사용하여 객체를 스테레오 다운믹스로 다운믹싱함으로써, 오디오 객체 표현인 상기 제1 오디오 장면 또는 상기 제2 오디오 장면으로부터 스테레오 신호를 생성하는 것을 포함하거나,
상기 생성은 상기 스테레오 신호의 왼쪽 채널만을 왼쪽 다운믹스 전송 채널에 추가하고 오른쪽 전송 채널을 획득하기 위해 상기 스테레오 신호의 오른쪽 채널만을 추가하는 것을 포함하거나,
상기 공통 포맷은 B-포맷이고, 상기 생성은 상기 전송 채널 신호를 도출하기 위해 결합된 B-포맷 표현을 처리하는 것을 포함하고, 상기 처리는 빔포밍 동작을 수행하거나 전방향 성분과 같은 상기 B-포맷의 B-포맷 신호의 성분의 서브 세트를 모노 전송 채널로서 추출하는 것을 포함하거나,
상기 처리는 상기 전방향 성분 및 상기 B-포맷의 반대 부호를 갖는 Y 성분을 사용하여 빔포밍하여 왼쪽 채널 및 오른쪽 채널을 산출하는 것을 포함하거나,
상기 처리는 상기 B-포맷의 성분과 주어진 방위각 및 주어진 앙각을 사용하는 빔포밍 동작을 포함하거나,
상기 생성은 전송 채널 신호를 코어 인코딩하기 위해 상기 결합된 오디오 장면의 B-포맷 신호를 전송 채널 인코더에 제공하는 것을 포함하고, 어떠한 공간 메타데이터도 상기 결합에 의해 출력된 상기 결합된 오디오 장면에 포함되지 않거나,

제1 인코딩된 DirAC 메타데이터를 획득하기 위해 상기 제1 오디오 장면으로부터 도출된 DirAC 메타데이터를 인코딩하고, 제2 인코딩된 DirAC 메타데이터를 획득하기 위해 상기 제2 오디오 장면으로부터 도출된 DirAC 메타데이터를 인코딩하는 것을 포함하는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하는 방법.
결합된 오디오 장면에 대한 설명을 생성하는 방법에 있어서,
제1 포맷의 제1 오디오 장면의 제1 설명 및 제2 포맷의 제2 오디오 장면의 제2 설명을 수신하는 단계 - 상기 제2 포맷은 상기 제1 포맷과 상이함 -;
상기 제2 포맷이 공통 포맷과 상이한 경우 상기 제2 설명을 상기 공통 포맷으로 변환하고 상기 제1 설명을 공통 포맷으로 변환하는 단계; 및
상기 결합된 오디오 장면의 설명을 획득하기 위해 상기 공통 포맷의 제1 설명과 상기 공통 포맷의 제2 설명을 결합하는 단계;를 포함하며,

상기 변환은 고차 앰비소닉스 포맷 또는 1차 앰비소닉스 포맷을 B-포맷으로 변환하는 것을 포함하고, 상기 고차 앰비소닉스 포맷은 상기 B-포맷으로 변환되기 전에 잘리거나,
상기 변환은 투영된 신호를 획득하기 위해 기준 위치에서 구형 고조파 상에 객체 또는 채널을 투영하는 것을 포함하고, 상기 결합은 투영된 신호를 결합하여 B-포맷 계수를 획득하는 것을 포함하고, 상기 객체 또는 상기 채널은 지정된 위치의 공간에 있으며 기준 위치로부터 선택적인 개별 거리를 갖거나,
상기 변환은 B-포맷 성분의 시간-주파수 분석 및 압력 및 속도 벡터의 결정을 포함하는 DirAC 분석을 수행하는 것을 포함하고, 상기 결합은 상이한 압력/속도 벡터를 결합하는 것을 포함하고, 상기 결합은 결합된 압력/속도 데이터로부터 DirAC 메타데이터를 도출하기 위한 DirAC 분석기를 더 포함하거나,
상기 변환은 오디오 객체 포맷의 객체 메타데이터로부터 DirAC 파라미터를 상기 제1 포맷 또는 상기 제2 포맷으로서 추출하는 것을 포함하고, 상기 압력 벡터는 객체 파형 신호이며, 방향은 공간의 객체 위치로부터 도출되거나, 확산도는 상기 객체 메타데이터에서 직접 제공되거나 0 값과 같은 기본 값으로 설정되거나,
상기 변환은 객체 데이터 포맷으로부터 도출된 DirAC 파라미터를 압력/속도 데이터로 변환하는 것을 포함하고, 상기 결합은 상기 압력/속도 데이터를 하나 이상의 상이한 오디오 객체의 상이한 설명으로부터 도출된 압력/속도 데이터와 결합하는 것을 포함하고,
상기 변환은 DirAC 파라미터를 직접 도출하는 것을 포함하고, 상기 결합은 상기 결합된 오디오 장면을 획득하기 위해 상기 DirAC 파라미터를 결합하는 것을 포함하는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하는 방법.
결합된 오디오 장면에 대한 설명을 생성하는 방법에 있어서,
제1 포맷의 제1 오디오 장면의 제1 설명 및 제2 포맷의 제2 오디오 장면의 제2 설명을 수신하는 단계 - 상기 제2 포맷은 상기 제1 포맷과 상이함 -;
상기 제2 포맷이 공통 포맷과 상이한 경우 상기 제2 설명을 상기 공통 포맷으로 변환하고 상기 제1 설명을 공통 포맷으로 변환하는 단계; 및
상기 결합된 오디오 장면의 설명을 획득하기 위해 상기 공통 포맷의 제1 설명과 상기 공통 포맷의 제2 설명을 결합하는 단계;

1차 앰비소닉스 입력 포맷 또는 고차 앰비소닉스 입력 포맷 또는 다중 채널 신호 포맷을 분석하기 위한 DirAC 분석하는 단계;
객체 메타데이터를 DirAC 메타데이터로 변환하거나 시간 불변 위치를 갖는 다중 채널 신호를 상기 DirAC 메타데이터로 변환하는 단계; 및
개별 DirAC 메타데이터 스트림을 결합하거나 여러 스트림으로부터 도착 방향 메타데이터를 결합하거나 여러 스트림으로부터 확산도 메타데이터를 결합하는 단계 - 상기 개별 DirAC 메타데이터 스트림을 결합하는 것은 가중 가산을 수행하는 것을 포함하며, 상기 가중 가산의 가중은 연관된 압력 신호 에너지의 에너지에 따라 수행됨 -;를 포함하고,

상기 개별 DirAC 메타데이터 스트림을 결합하는 것은 상기 제1 오디오 장면의 제1 설명의 시간/주파수 빈에 대한 에너지 값 및 도착 방향 값을 산출하고, 상기 제2 오디오 장면의 제2 설명의 시간/주파수 빈에 대한 에너지 값 및 도착 방향 값을 산출하는 것을 포함하고, 상기 결합은 제1 에너지를 제1 도착 방향 값에 곱하고 제2 에너지 값 및 제2 도착 방향 값의 곱셈 결과를 더하여 결합된 도착 방향 값을 획득하거나, 또는
상기 결합은 상기 제1 오디오 장면의 제1 설명의 시간/주파수 빈에 대한 에너지 값 및 도착 방향 값을 산출하고, 상기 제2 오디오 장면의 제2 설명의 시간/주파수 빈에 대한 에너지 값 및 도착 방향 값을 산출하는 것을 포함하고, 상기 결합은 결합된 도착 방향 값으로서 더 높은 에너지와 연관되는 상기 제1 도착 방향 값 및 상기 제2 도착 방향 값 중의 도착 방향 값을 선택하는 것을 포함하는 것을 특징으로 하는 결합된 오디오 장면에 대한 설명을 생성하는 방법.
컴퓨터 또는 프로세서 상에서 실행되는 경우, 제14, 15, 16, 17, 18항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터 프로그램을 저장한 저장 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제