KR102115345B1

KR102115345B1 - Ｈｏａ 라우드니스 레벨을 측정하기 위한 방법 및 ｈｏａ 라우드니스 레벨을 측정하기 위한 장치

Info

Publication number: KR102115345B1
Application number: KR1020197029440A
Authority: KR
Inventors: 요하네스 뵘; 플로리안 케일러
Original assignee: 돌비 인터네셔널 에이비
Priority date: 2013-01-16
Filing date: 2014-01-09
Publication date: 2020-05-26
Also published as: KR102031826B1; TWI679903B; CN108174341A; US9832584B2; CN108174341B; WO2014111308A3; CN104937843A; KR20200058598A; KR102143545B1; US20150373473A1; TWI630829B; CN104937843B; WO2014111308A2; EP2946468B1; TW201433185A; EP2946468A2; JP2016508343A; JP6271586B2; TW201824881A; KR20190119151A

Abstract

본 발명은 고차 앰비소닉(HOA; Higher-Order Ambisonics) 콘텐츠 라우드니스 레벨 조절에 관한 것이다. 전송측에서 HOA 오디오 신호의 라우드니스 레벨을 조절하기 위한 방법은, HOA 오디오 신호의 W-채널만의 라우드니스를 측정하는 단계, 및 W-채널의 측정된 라우드니스에 따라 HOA 신호의 모든 채널들에 대한 HOA 마스터 이득을 레벨링하는 단계를 포함한다.

Description

ＨＯＡ 라우드니스 레벨을 측정하기 위한 방법 및 ＨＯＡ 라우드니스 레벨을 측정하기 위한 장치{METHOD FOR MEASURING HOA LOUDNESS LEVEL AND DEVICE FOR MEASURING HOA LOUDNESS LEVEL}

본 발명은 고차 앰비소닉(HOA; Higher-Order Ambisonics) 콘텐츠에 대한 라우드니스(loudness) 레벨 조절에 관한 것이다. 특히, 본 발명은 HOA 라우드니스 레벨을 측정하기 위한 방법 및 HOA 라우드니스 레벨을 측정하기 위한 장치에 관한 것이다.

본 절은, 이하에서 설명되고 및/또는 청구되는 본 발명의 다양한 양태들에 관련될 수 있는 기술의 다양한 양태들을 독자에게 소개하기 위함이다. 본 논의는, 본 발명의 다양한 양태들의 더 나은 이해를 용이하게 하기 위해 독자에게 배경 정보를 제공하는데 도움이 될 것으로 믿어진다. 따라서, 이들 설명은 이러한 점에 비추어 읽혀져야 하고, 종래 기술로서의 인정으로서 받아들여져서는 안 된다는 것을 이해해야 한다.

예를 들어, 앰비소닉 등의 음장(Soundfield) 신호는 음장의 표현(a representation of a sound field)을 운반한다. 앰비소닉 포멧은 음장의 구면 고조파 분해에 기초하고 있다. 기본 앰비소닉 포멧 또는 B-포멧은 0차 및 1차의 구면 고조파를 이용하는 반면, 소위 고차 앰비소닉(HOA)은 또한, 나아가 적어도 2차의 구면 고조파를 이용한다. 즉, HOA 신호는, 0차(W-채널, N=0)의 신호, 1차(N=1)의 하나 이상의 신호, 2차(N=2)의 하나 이상의 신호 등의, 상이한 차수 N의 상이한 부분 신호들을 포함한다. 디코딩 프로세스는 개개의 확성기 신호를 취득할 것이 요구된다. 오디오 장면(audio scene)을 합성하기 위하여, 주어진 사운드 소스의 공간적 위치파악(spatial localization)을 얻기 위해 공간적 확성기 배열을 참조하는 팬닝 기능(panning function)이 요구된다.

디코더측에서 수행될 한 작업은 리플레이 레벨(replay level)을 셋업하는 것이다. 종래 기술 [1]에서 설명되고 도 1에 도시된 바와 같이, 각 확성기 피드(loudspeaker feed)의 증폭기 이득 G_l은, -18 dBFS_rms를 갖는 디지털 전대역 핑크 노이즈(digital full band pink noise) 입력이 78 +/- 5 dBA의 음압 레벨(SPL; Sound Pressure Level)을 야기하도록 설정된다. 도 1에서, 각 확성기에 대해 개별적으로 증폭기(12)의 스피커 증폭 G_l을 조절함으로써 각 확성기(13)의 음압 레벨을 레벨 조절하기 위해 핑크 노이즈 테스트 신호가 이용된다. 디지털 핑크 노이즈 테스트 신호는 D/A 변환기(11)에서 아날로그 신호로 변환된다. 믹싱 및 프리젠테이션 장소(mixing and presentation venues)에서의 SPL 레벨 조절과 믹싱 룸(mixing room)에서의 콘텐츠의 라우드니스 레벨 조절은 프로그램들 또는 아이템들간의 전환시에 일정하게 인지되는 라우드니스를 가능케 한다.

콘텐츠 라우드니스 레벨 캘리브레이션

믹싱 설비와 프리젠테이션 장소의 리플레이 레벨(replay level)이 이런 방식으로 셋업된다면, 아이템들 또는 프로그램들간의 전환은 추가 레벨 조절없이 가능해야 한다. 채널 기반의 콘텐츠의 경우, 이것은, 콘텐츠가 믹싱 사이트에서 쾌적한 라우드니스 레벨로 튜닝된다면 간단히 달성된다. 쾌적한 청취 레벨에 대한 기준은 전체 아이템 자체의 라우드니스 또는 앵커 신호(anchor signal)일 수 있다.

기준으로서 전체 아이템 자체를 이용하는 것은, 콘텐츠가 파일로서 저장된다면, '숏 폼 콘텐츠(short form content)'에 유용하다. 청취에 의한 조절 외에도, EBU R128 [2]에 따른 LUFS(Loudness Units Full Scale)에서의 라우드니스의 측정이 콘텐츠의 라우드니스 조절에 이용될 수 있다. LUFS에 대한 다른 명칭은 ITU-R BS.1770 [3]로부터의 'Loudness, K-weighted, relative to Full Scale'(1LUFS =1LKFS)이다. 불행히도, [2]의 해결책은 5채널 서라운드까지의 셋업에 대한 콘텐츠만을 지원한다. 모든 22개 채널이 동등한 채널 가중치 1에 의해 감안되는(factored) 22채널 파일들의 라우드니스 측정은 인지된 라우드니스와 상관될 수 있지만, 아직 철저한 청취 테스트에 의한 증명이나 증거가 없다.

다이얼로그(dialog) 등의 앵커 신호를 기준으로서 이용할 때, 레벨은 이 신호와 관련하여 선택된다. 이것은, 영화 사운드, 라이브 레코딩 및 방송 등의 '롱 폼 콘텐츠(long form content)'에 유용하다. 쾌적한 청취 레벨을 확장하는 추가적 요건은 여기서 발성된 단어의 명료도(intelligibility of the spoken word)이다.

다시 한번, 청취에 의한 조절 외에도, 콘텐츠는 ATSC A/85 [4]에 정의된 바와 같은 라우드니스 측정과 관련되어 정규화될 수 있다. 우선, 콘텐츠의 부분들이 앵커 부분들로서 식별된다. 그 다음, [3]에 정의된 측정이 계산되거나, 타겟 라우드니스에 도달하기 위한 이들 신호들과 이득 계수가 결정된다. 이득 계수는 전체 아이템을 스케일링(scale)하는데 이용된다. 불행히도, 또 다시, 지원되는 채널의 최대 수는 5로 제약된다.

ITU-R BS.1770 [3]의 도 2는 EBU R128 [2]와 ATSC A/85 [4]에서 이용되는 라우드니스 측정을 도시한다. [2]는 전체 콘텐츠 아이템의 측정된 라우드니스를 -23 dBLKFS로 이득 조절하는 것을 제안한다. [4]에서, 앵커 신호 라우드니스만이 측정되고 콘텐츠는 앵커 부분이 타겟 라우드니스 -24 dBLKFS에 도달하도록 이득 조절된다. 다양한 입력 신호들 L, R, C, Ls, Rs가 K-필터(21)에서 필터링되고, 각 채널의 전력은 전력 평균기(22)에서 평균되며, 각 채널은 가중치부여되고(weighted)(23), 가중치부여된 신호는 더해져(24) 측정된 라우드니스 값(25)을 얻는다.

예술적 고려에서, 콘텐츠는 믹싱 스튜디오에서 조절되어야 한다. 이것은 개별 청취에 의해 이루어진다. 자동 라우드니스 측정은 지원으로서 및 명시된 라우드니스를 초과하지 않는다는 것을 보여주기 위해 이용될 수 있다.

HOA 및 오디오 오브젝트(AO; Audio Object) 기반의 콘텐츠 뿐만 아니라 확성기의 상이한 개수 또는 상이한 위치로 리믹싱되어야 하는 채널 기반의 콘텐츠의 경우, 렌더링(rendering)이 반드시 감안되어야 한다. 렌더러(renderer)가 달성해야 하는 특별한 특성이 있을 필요가 있고, 이러한 렌더러는 믹싱 스튜디오에서 뿐만 아니라 소비자의 프리젠테이션 장소에 이용되어야 한다.

상기에 비추어, 해결되어야 할 한 문제는, 디코딩된 오디오 데이터의 리플레이가, 특히 상이한 오디오 아이템들간의 전환시에 또는 상이한 확성기 셋업들로 렌더링시에, 동일한 라우드니스로 인지되어야 한다는 것이다. 본 발명은 적어도 이 문제를 해결한다.

원칙적으로, 본 발명은, 오디오 신호의 W-채널(즉, 음장 신호의 0차의 부분 신호)만의 라우드니스를 측정하는 것, 및 W-채널의 측정된 라우드니스에 따라 신호의 모든 채널에 대해 마스터 이득(master gain)을 레벨링(leveling)하는(즉, 그의 레벨을 조정하는) 것을 포함한다.

본 발명의 한 실시예에 따르면, HOA 오디오 신호의 라우드니스 레벨을 조절하기 위한 방법은, 원하는 라우드니스 레벨을 얻기 위하여, HOA 오디오 신호의 W-채널의 라우드니스를 측정하는 단계, 및 W-채널의 측정된 라우드니스에 따라 HOA 신호의 모든 계수 채널들에 대해 HOA 마스터 이득을 레벨링하는 단계를 포함한다.

또한, 본 발명의 한 실시예에서, HOA 라우드니스 레벨 조절을 위한 장치는, HOA 신호의 W-채널의 라우드니스를 측정하기 위한 HOA 라우드니스 측정 유닛, 및 HOA 라우드니스 측정 유닛으로부터 수신된 W-채널의 측정된 라우드니스에 따라 HOA 신호의 모든 계수 채널들의 이득을 조정하기 위한 HOA 마스터 이득 유닛을 포함한다.

유익하게도, W-채널의 라우드니스를 측정하고 HOA 마스터 이득을 레벨링하는 것은, 전송측 상에서, 즉, HOA 포멧팅된 오디오 신호를 전송 또는 저장하기 이전에 수행될 수 있다. 또한 본 발명의 유익한 실시예들이, 종속항들, 이하의 상세한 설명, 및 도면들에서 개시된다.

본 발명의 예시적 실시형태들이 첨부된 도면을 참조하여 설명되며, 여기서,
도 1은 각 확성기의 음압 레벨을 레벨 조절하기 위해 핑크 노이즈 테스트 신호를 이용하기 위한 공지된 해결책을 도시한다;
도 2는 공지된 시스템에서 이용되는 ITU-R BS.1770 라우드니스 측정을 도시한다;
도 3은 본 발명의 한 실시예에 따른, 특별히 주어진 확성기 셋업으로의 콘텐츠 렌더링을 위한 구조를 도시한다;
도 4는 에너지 보존 렌더링 행렬들(energy preserving rendering matrices)의 현실적 예들에 대한 공간적 셋업 및 에너지 분포를 도시한다;
도 5는 차수 N=1-6을 렌더링하기 위한 22.0 채널 셋업으로 렌더링되는 3개의 테스트 아이템들의 바이노럴 라우드니스 값(binaural loudness value)들을 도시한다;
도 6은 본 발명에 따른 렌더링에서 5개의 상이한 스피커 셋업으로 렌더링되는 테스트 아이템들의 바이노럴 라우드니스 값들을 도시한다;
도 7은 렌더링 후에 평균 라우드니스에 비교한 HOA W-채널 신호의 라우드니스 값을 도시한다;
도 8은 예를 들어 HOA 라이브 방송에 이용가능한, 본 발명에 따른 시스템을 도시한다;
도 9는 채널 기반의 전송 시스템을 위한 시스템을 도시한다.

도 3은, 콘텐츠가 임의의 특정한 스피커 셋업으로 렌더링되는, 오디오 재생 장치 또는 그 일부를 도시한다. 콘텐츠 포멧은, HOA(Higher Order Ambisonics), AO(Audio Object), 또는 채널 기반일 수 있다(그 다음, 이것은 상이한 셋업으로 렌더링된다). 확성기 피드 w의 리플레이는, 특히 아이템들간의 전환시에 또는 상이한 확성기 셋업들로의 렌더링시에, 동일한 라우드니스로 인지되어야 한다. 입력 벡터 b는 단일 시간 샘플의 렌더링 이전의 신호 세트의 단일 시간 샘플을 기술한다. 벡터 w는 렌더러(31)에서의 단일 시간 샘플의 렌더링 이후의 스피커 피드 세트의 단일 시간 샘플을 기술한다. 렌더러(31)의 특성은 생성측과 소비자측에서 동일할 필요가 있으며, 또는 적어도 생성측에서 알려질 필요가 있다. 렌더링 이후에, 확성기 피드 w는 D/A 변환기(32)에서 디지털로부터 아날로그로 변환되었고, 증폭기(33)에서 증폭된 다음, 확성기(34)에 공급되었다.

이하에서는, 3개의 콘텐츠 포멧(HOA, AO, 채널 기반) 전부로 시작하고 나서, HOA에 대해 세부적인 내용으로 들어가, 원하는 렌더링 특성이 유도된다. HOA 신호는, 0차(W-채널, N=0)의 신호, 1차(N=1)의 하나 이상의 신호, 2차(N=2)의 하나 이상의 신호 등의, 상이한 차수 N의 상이한 부분 신호들을 포함한다는 점에 유의한다.

신호 에너지 및 인지된 라우드니스

이론적 분석을 간소화하기 위해, 다음과 같이(상세사항은 이하를 참조) 정의되는 τ-시간 샘플 블록의 신호 w(도 3)의 에너지에 집중할 것이다.

여기서, W는 L개의 확성기-채널들과 τ 샘플들의 행렬이고, W_l,i는 행렬 요소이며, l은 스피커 인덱스를 나타내고, i는 샘플 인덱스를 나타낸다. 에너지 E_w는, [5]로부터 알려진 바와 같이, 200 Hz에 걸친 주파수에 대한 이러한 앵커 신호의 인지된 라우드니스의 적당한 추정치를 준다. K-필터는 200 Hz보다 낮은 주파수를 억제하므로[2], E_w는 대략 라우드니스 측정치에 비례한다. 직접적 비교를 위해 라우드니스 측정치와 에너지 측정치는 이하의 표 1에서 제공된다. 명백해지는 바와 같이, HOA W-채널(컬럼 "HOA(W)")의 라우드니스 레벨과 신호 에너지는, 렌더링된 신호(컬럼 "렌더링된") 및 바이노럴 신호(컬럼 "바이노럴")의 라우드니스 레벨 및 신호 에너지와 매우 근접하고, 실질적으로 동일하다. 값들은 예시적으로 22.0 셋업(NHK), 즉, 22개 확성기 및 4차 HOA 신호(L=22, N=4)를 참조한다.

렌더러를 위한 요건

이하의 규격이 이용된다: 일반화를 잃지 않고(즉, 전제조건이 아님), DC 없는 테스트 신호(DC free test signal) x(t)가 가정된다. A는 이 신호의 RMS 값이고 E_A = A²는 그 에너지라고 한다. 테스트 신호는 방향 Ω = (θ, Φ)^T로부터의 단일 소스 신호이고, 여기서 θ는 고도이고, Φ는 방위각이다. 최적의 청취 영역, 소위 스위트 영역(sweet area)에 대해 에너지 고려사항이 적용된다.

테스트 신호는, 채널 기반의 신호, 오디오 오브젝트(Audio Object) 또는 HOA 신호로서 표현될 수 있다. 이하의 표는 이들 표현들을 나타내며, 여기서 b는 추상 입력 벡터(abstract input vector)이고, 렌더링 이후의 채널 기반의 표현은 벡터 w로 표기되며, 렌더링 이후의 에너지는 E _W 이고, 렌더링 이후의 동등한 에너지(라우드니스)를 위한 조건은 E _A =E _W 이다. D를 일반화된 렌더링 행렬이라고 한다:

표 2에서, 에너지 보존 요건 E _A = E _W 가, 오디오 오브젝트(최상위 행)로서, HOA 신호(중간 행)로서, 또는 채널 기반의 표현(최하부 행)으로서 코딩된 지향성 테스트 신호(directive test signal)에 대해 유도된다. 벡터 b는 렌더링 이전의 코딩된 입력이다. 벡터 w는 렌더링 이후의 신호(D/A 이전의 확성기 신호)이다. E _W 는 렌더링 이후의 에너지이다. E _A = A ² 은 테스트 신호 x(t)의 에너지이고, t_i는 시간 샘플 인덱스이다. 또한 이하에서, E _W 는 예시적으로 HOA 경우에 대해 유도된다.

오디오 오브젝트(AO) 렌더링과 관련하여, 오디오 오브젝트에 대한 고려사항은 제곱된 렌더링 가중치 c_w의 합이 1과 같다는 공지된 요건으로 이어진다.

이 요건은 독립된 AO들의 중첩(superposition)에도 적용되지만, 상관된 AO들의 경우 채널 기반의 고려사항이 적용된다.

채널 기반의 콘텐츠의 렌더링을 위한 요건은 다음과 같이 주어진다:

여기서 벡터 c _b 는 콘텐츠 생성 내에서 이용되는 팬닝 가중치를 포함하고 행렬 D는 일반화된 렌더링 행렬(디코딩 행렬이라고도 함)이다.

2개 타입의 콘텐츠가 예시적으로 고려된다:

1. 원래의 콘텐츠는 독립된 AO들의 팬닝을 이용하여 믹싱되었고, 제곱된 팬닝 가중치의 합은 1과 같다. 그 다음, 렌더링 요건은 D ^T D = I(크기 L_b x L_b의 항등 행렬)가 된다. 렌더링 행렬에 대한 결과적 요건은 이하에서 논의되고, 본 발명에 따른 해결책은 이 타입의 콘텐츠에 대해 이용될 수 있다.

2. 마이크로폰 레코딩 및 믹싱된 콘텐츠의 경우, 팬닝 가중치의 성질은 알려지지 않고, 대개 상이한 확성기 셋업으로의 믹싱시에 렌더링된 신호의 에너지의 어떠한 예측도 이루어질 수 없다. 따라서, 다운믹싱 또는 리-렌더링 이후의 라우드니스의 예측은 일반적으로 가능하지 않고, 본 발명은 적용될 수 없다. 여기서는 상이한 접근법만이 적용가능한 것처럼 보인다: 채널들간의 임의의 상관성을 제거하기 위한 지향성 및 비지향성 부분들의 분리와 지향성 콘텐츠에 대한 오브젝트 관련된 렌더링 방법의 이용. 그 다음 주변 믹스(ambient mix)가 원본의 지향성 대 비지향성 에너지 비율이 보존되도록 하는 방식으로 첨가된다. 믹싱 스튜디오에서 생성된 새로운 예술적 믹스(artistic mix)를 생성하기 위해 전통적인 방법이 이용되어 왔다.

에너지 보존 HOA 렌더러의 경우, HOA 렌더링 요건은 아래 식과 같다:

HOA 기반의 콘텐츠 내에서, 임의의 신호는 평면파의 중첩으로서 표현된다. 평면파 신호는 b = yx(t_i)에 의해 HOA로 인코딩되고, 여기서, y는 방향 Ω의 구면 고조파 (SH)로 구성된 인코딩 벡터이다. 벡터 b와 y는 (N+1)² 요소들로 구성되고, 여기서 N은 HOA 차수를 나타낸다. SH의 직교 성질로 인해, 벡터 곱 y ^T y= (N+1)² (N3D 정규화된 SH)이다.

요건 D ^T D = I은, [5]에서 논의되고, 여기서 I는 (N + 1)² x (N + 1)² 항등 행렬이다. 이러한 '에너지 보존' 디코딩 행렬을 구성하는 절차는 특이값 분해(Singular Value Decomposition; SVD)에 기초한다. [5]에서, 에너지 보존은

로 정의된다.

에너지 보존의 요건을 충족하는 렌더링 행렬 D _n을 유도하는 단계들은 다음과 같다:

1. 에너지 보존 렌더링 행렬 D _e를 유도한다. 이것은 스피커의 개수 L이 HOA 계수들의 개수 (N+1)² 보다 크거나 적어도 같은 한 많은 스피커 위치들에 대해 가능하다.

2. HOA 차수로부터 독립된 에너지 보존 렌더링 행렬을 구한다. D _e는,

이 되도록 구성되기 때문에, 요건

는 하기 계수에 의한 스케일링으로 이어진다:

실제적인 HOA 렌더러 구성을 위해, 하기가 적용된다. 실제로, 스피커의 위치는 종종 비-최적이고 L < (N+1)²이다. 따라서, 렌더링 행렬 설계는 이론에 근접하게 될 수 있을 뿐이다. 편차(deviations)는 대개 낮은 스피커 밀도를 갖는 지역에서 최대가 되고, HOA 차수가 증가하면 더 커진다. 예가 도 4에 도시되어 있다. 양호한 렌더링 행렬 설계는 낮은 스피커 밀도 영역으로부터의 에너지의 감쇠를 특징으로 한다, 즉, 이러한 방향으로부터 입사하는 사운드는 덜 크게 인지되어야 한다.

도 4는 에너지 보존 렌더링 행렬 D _HOA 의 현실 세계 예를 도시한다. 최상위 행에는, 상이한 HOA 차수들에 대한 다양한 확성기 셋업이 있고, 최하위 행에는 각각의 지향성 에너지 보존 특성이 있다. 구면을 샘플링하는 동일하게 이격된 방향들을 갖는 6724개의 평면파들은 HOA 인코딩되고 22 또는 12 채널 셋업으로 렌더링된다. 지향성 에너지 보존은 그레이 레벨로 도시되어 있고, 상이한 셋업들과 그들의 최소 및 최대값들은 다음과 같다:

도 4a는 HOA 차수 N=4: [-0,2dB; 0,0dB]인 22_NHK_45 셋업을 도시한다.

도 4b는 HOA 차수 N=6: [-1,2dB; 0,1dB]인 22_NHK_45 셋업을 도시한다.

도 4c는 HOA 차수 N=3: [-1,1dB; 0,2dB]인 12_SwissAudec_110 셋업을 도시한다.

알 수 있는 바와 같이, 신호 에너지는 N=4인 22 채널 셋업에 대해 다소 균등하게 분포되어 있어서, 단지 0.2 dB의 편차만이 발생한다. N=6인 22-채널 셋업과 N=3인 12채널 셋업의 경우, 신호 에너지는 여전히 다소 균등하게 분포되어 있지만, (심지어 확성기가 이용가능하지 않은 방향에 대해서도) 이미 1.3 dB의 편차를 가진다. 신호 에너지의 균등한 분포는 에너지 보존 렌더링의 이점이다.

에너지 보존은 확성기들이 청취 위치 주변에서 완전히 볼록 선체(convex hull)에 걸쳐 있는 경우에만 가능하기 때문에, 렌더링 구성의 단계들은 다음과 같이 된다:

1. 근사 에너지 보존 렌더링 행렬 D를 구성한다. 2개의 적절한 방법이 [5], [6]에 설명되어 있다. 에너지 보존은 정면 영역에서 정확해야 하고, 배면-바닥 또는 측면 영역에서 덜 정확할 수 있다.

2. 코시-슈바르츠(Cauchy-Schwarz) 부등식(이하 참조)으로 인해, 렌더링 행렬은 다음과 같이 정규화될 수 있다:

이것은 준 에너지 보존 행렬들(near energy preserving matrices)에 대해 수학식 (6)을 대체하고, 수학식 (6)은 수학식 (7)의 특별한 경우로 볼 수 있다. 대안적 방법은 중심(Ω _c = (0,0)^T)으로부터 입사하는 단위 에너지의 테스트 신호를 이용하는 렌더링 행렬을 정규화하는 것이다:

여기서, 모드 벡터

이고, 방향 Ω _c 의 구면 고조파는

이다. 모드 벡터 y는 방향 Ω _c 의 구면 고조파로 구성된 HOA 테스트 신호일 수 있다.

에너지 및 라우드니스 측정을 이용한 실제 연구에서 상기 고려사항을 평가하기 위해 기준 HOA 콘텐츠가 이용되었다. HOA 0차 계수 채널(W-채널)에 대해, (5개보다 많은 채널을 갖는 셋업에 대해 1의 채널 가중치를 갖는) 렌더링 이후의 다채널 신호에 대해, 및 테크니컬러(Technicolor)의 청취 룸(listening room)의 BRIR(Binaural Room Impulse Response)와 중앙 스피커 채널로부터의 -23LKFS 테스트 신호에 의한 캘리브레이션을 이용한 다채널 신호의 바이노럴 다운믹싱(binaural down-mix)에 대해, 라우드니스 측정이 수행되었다. 병렬로, 에너지 측정이 수행되었다. 에너지 측정(전체 파일)은, 조용한 통로(silent passage)를 갖는 아이템을 제외하고는, 라우드니스 측정과 매우 근접하게 정합한다. 이들 통로는 LKFS 측정에 대해 무시되므로, 값들이 여기서는 더 높다. 이것은 에너지 측정이 인지된 라우드니스의 추정치를 준다는 가정을 증명한다. 측정 데이터가 이하에 제공된다. 데이터의 일부 평가가 이하에 제시된다. 이들은 비공식 청취 테스트에 의해 확인된다. LKFS 측정 정확도는 +/- 2dB이다.

이하는 상이한 HOA 차수들에 대해 렌더링할 때의 라우드니스 보존을 언급한다. 도 5는 22.0 확성기 채널 셋업에 대한 상이한 HOA 차수들에 대해 렌더링할 때의 라우드니스 보존을 도시한다. 3개의 테스트 아이템 T₁, T₂, T₃의 바이노럴 라우드니스 측정이 본 발명에 따른 방식으로 렌더링 차수 N=1..6에 대한 22.0 채널 셋업으로 렌더링된다. 테스트 아이템 차수는 N=6이었고 렌더러는 더 낮은 차수에 대해 렌더링할 때 더 높은 차수의 컴포넌트들을 무시한다. 제1 테스트 아이템 T₁에 대한 측정은 차수 N=1의 경우 t₁₁, 차수 N=2의 경우 t₁₂ 등이고, 제2 및 제3 테스트 아이템 T₂, T₃에 대해서도 대응적이다. 알 수 있는 바와 같이, 상이한 렌더링 차수를 갖는 부분 신호들(즉, 각 테스트 아이템의 컴포넌트들)은, 그들의 렌더링 차수와는 독립적으로, 실질적으로 동일한 라우드니스로 렌더링된다.

이하는 상이한 확성기 셋업들로 렌더링할 때의 라우드니스 보존을 언급한다. 도 6은 N=4인(즉, 4차의) 14개의 HOA 테스트 아이템들 LT₁, ... ,LT₁₄을 5개의 상이한 확성기 셋업으로 렌더링할 때의 라우드니스 보존을 도시한다. 5개 컬럼의 각각의 그룹에서, 즉, 각각의 테스트 아이템에서, 컬럼들(좌에서 우)은, 22.0 (CfP), 12.0 (Auro3D), 9.0 (Auro3D), 5.0 (ITU), 2.0 (+/-30°) 중에서 선택된 확성기 셋업에 대응한다. 알 수 있는 바와 같이, 5개 컬럼의 각 그룹에서의 차이점은 매우 작다. 즉, 주어진 신호는, 확성기 셋업 및 확성기 개수와는 독립적으로, 실질적으로 동일한 라우드니스로 렌더링된다. 이론적 에너지 보존은 (특히 2D 셋업의 경우) 스피커가 적을수록 열화되므로, 수학식 (7)에 따른 렌더링 행렬의 정규화는 실제적으로 이용가능한 개선된 렌더러로 이어진다.

이하에서는 렌더링 이후의 1차 HOA W-채널 및 아이템 라우드니스를 언급한다. N3D 정규화를 이용하여, 0차 계수 채널은 대략적으로 동등한 에너지와 라우드니스의 렌더링된 출력의 비-스케일링된 모노 버전(non-scaled mono version)을 포함한다. 도 7은 테크니컬러로부터의 13개의 N=4 테스트 아이템 LM₁, ... ,LM₁₃(즉, 테스트 신호)에 대한 이러한 상관관계, 즉, 렌더링 이후의 평균 라우드니스에 비교한 HOA W-채널 신호의 라우드니스 측정을 도시한다. 모노 채널 LKFS 측정치(각 테스트 아이템에 대한 좌측 컬럼)는, 도 6의 5개의 상이한 스피커 셋업들의 바이노럴 LKFS 측정치(각 테스트 아이템에 대한 우측 컬럼)와 비교된다. 양쪽 모두가 실질적으로 동등하다는 것은 놀라운 관찰이다. 따라서, HOA W-채널은 렌더링 이후의 전체 라우드니스의 추정치로서 이용될 수 있다. 이러한 특징은, 마이크로폰 어레이를 이용할 때 또는 콘텐츠 생성 내에서 라우드니스를 모니터링할 때 라이브 HOA 방송 레코딩에 대한 라우드니스 레벨을 셋업하는데 이용될 수 있다.

본 발명에 따르면, 생성 사이트에서의 믹싱 설비와 소비자 사이트에서의 프리젠테이션 장소가 동일한 확성기 레벨 캘리브레이션 뿐만 아니라 특별한 에너지 보존 특성을 갖는 렌더러를 이용한다면, 인지된 라우드니스는 정규화될 수 있다. 에너지 보존은 임의 방향으로부터의 지향성 소스 신호의 에너지를 보존하는 렌더의 특성을 기술한다. 이것은, 모든 3D 오디오 출력 포멧, 특히, 적어도 오디오 오브젝트, 채널 기반 및 HOA에 적용된다.

HOA 콘텐츠는, 예를 들어, 믹싱 설비에서의 청취에 의해, 라우드니스 레벨 캘리브레이팅되며, 여기서, 에너지 보존 렌더링이 모니터링에 이용된다. 충분한 마스터 이득이 HOA 콘텐츠(모든 계수 채널)에 적용되고, 그 콘텐츠는 그 다음에 배포를 위해 저장된다. 또한, 에너지 보존 렌더링은 프리젠테이션 장소에서도 역시 이용된다.

사실상, 적어도 확성기들 사이의 영역(즉, 확성기 위치들 사이의 위치)에서 에너지를 보존하는 HOA 렌더러가 구성될 수 있다. 양호한 라우드니스 보존으로 이어지는 렌더링 행렬의 정규화는

에 의한 정규화이다.

HOA 0차 계수 채널(W-채널)의 LKFS 라우드니스 측정은 관련된 채널 표현들 또는 그들의 관련된 바이노럴 다운믹스의 라우드니스 측정과 대략 정합한다. 따라서, 이것은, 콘텐츠 생성 내에서, 특히, 방송 내에서 및 특히 라이브 방송에서, 라우드니스를 모니터링하는데 이용될 수 있다. 그러나, 이것은 레코딩된 콘텐츠를 모니터링하는데에도 유익할 수 있다.

본 발명은, 한 실시예에서, 고차 앰비소닉(HOA) 콘텐츠의 라우드니스 레벨을 조절하기 위한 방법을 제공하여, 음압 레벨 캘리브레이팅된 3D 오디오 시스템 상에서의 렌더링 및 리플레이가, 상이한 장소들에서 및/또는 상이한 스피커 셋업들로 청취될 때 동등한 라우드니스로 인지될 수 있다. 콘텐츠의 HOA 인코딩은 명시될 필요가 있고 렌더러는 에너지 보존의 공통된 특성을 공유할 필요가 있다.

한 실시예에서, 본 발명은, 예를 들어, HOA 마이크로폰 레코딩을 이용하여 생성되는 HOA 신호, AO 신호 또는 채널 기반의 신호의 라이브 방송에 대해, 이용될 수 있는 HOA 콘텐츠 라우드니스를 모니터링하기 위한 도구에 관한 것이다.

이하에서, 라이브 방송을 위한 HOA 시스템이 설명된다. HOA 마이크로폰 어레이는, 스튜디오에서의 사후 처리없이, 3D 오디오의 실시간 포착을 허용한다. 따라서, 이러한 콘텐츠 포착 시스템(content capturing system)은, 예를 들어, 스포츠 및/또는 콘서트 이벤트와 같은 라이브 방송 이벤트에 매우 적합하다. 이하에서는 3D 콘텐츠의 라우드니스를 셋업하고 모니터링하는 시스템을 설명한다.

도 8은 HOA 시스템(80)의 한 실시예를 도시한다. 우선, 마이크로폰(또는 마이크로폰 어레이)(81)은 레코딩할 이벤트의 임계 거리 내에 위치하여, (적절한 사전-증폭과 같은) 아날로그 셋업이 유지되도록 한다. 마이크로폰(81)은, 인코딩된 HOA 포멧팅된 신호를 생성하는 실시간 HOA 인코더(82)에 그 출력을 제공한다. HOA 포멧팅된 신호는 HOA 라우드니스 계측기(HOA Loudness Meter)(83), 즉, HOA 0차 채널(HOA W-채널)을 평가하고 LKFS(LUFS) 라우드니스 측정을 계산하는 유닛에 제공된다. W-채널은, HOA 인코더(82), HOA 라우드니스 계측기(83), 또는 W-채널 추출 유닛(미도시) 내에서 HOA 신호로부터 추출될 수 있다. HOA 라우드니스 계측기(83)는, 순간적, 단기간 및 통합된 라우드니스 측정치(q83)[1],[2]를 HOA 마스터 이득 유닛(84)에 제공한다. 한 실시예에서, 라우드니스 측정치는 또한 HOA 마스터 이득 유닛(84)에 제공되기 이전에 선택사항적 적응/선택 유닛(83x)에서, 수동으로 또는 자동으로, 적응 및/또는 선택될 수 있다. 한 실시예에서, HOA 라우드니스 계측기(83)는, HOA 마스터 이득 유닛(84)에서의 이득을 설정하고 라우드니스를 조절하는데 이용되는, 관련된 에너지 측정을 수행한다.

모니터링 이유로 HOA 마스터 이득 유닛(84) 이후에 선택사항적 제2 HOA 라우드니스 계측 유닛(83m)이 부착될 수 있고, 및/또는 - 특히, 더 복잡한 시스템에 대해 - 선택사항적 제1 HOA 라우드니스 보존 렌더러(85)가 모니터링에 이용될 수 있다. 양호한 실제적 해결책은 초기 마스터 이득을 셋업하기 위해 스피치 앵커 테스트 레코딩(speech anchor test recording)을 이용하는 것이다.

소비자 장치에서 전송기에 의한 전송(86)(또는 각각 저장 유닛에 의한 저장) 및 수신기에 의한 수신(또는 각각 검색 유닛에 의한 저장된 콘텐츠의 검색) 이후에, 제2 HOA 라우드니스 보존 렌더러(87)는 원하는 확성기 셋업(88)에 오디오 콘텐츠를 렌더링하는데 이용된다. 예를 들어, 바이노럴 st, 5.1 서라운드 음향 5.1sur, 기타의 3D 음장 sf 또는 헤드폰 hp 등의, 상이한 확성기 셋업(88)이 이용될 수 있다. HOA 포멧의 한 이점은, 임의의 특정한 확성기 셋업으로의 고품질 렌더링을 최적화하는 것이 비교적 간단하다는 것이다.

원칙적으로, HOA 시스템(80)은 적어도 2개의 부분: 인코딩 부분과 디코딩 부분을 포함하는 것으로 이해될 수 있다. 인코딩 부분은, 인코더 유닛(82), 라우드니스 계측기(83), 마스터 이득 유닛(84), 및 선택사항으로서, 적응/선택 유닛(83x), 라우드니스 계측 유닛(83m), 및 제1 라우드니스 보존 렌더러(85) 중 하나 이상을 포함한다. 수신기에서의 디코딩 부분은, 적어도 라우드니스 보존 렌더링 유닛(87)을 포함한다. 인코딩 부분과 디코딩 부분이 저장 장치를 통해 접속된다면, 저장 장치는 이들 중 어느 하나의 일부이거나 별개일 수 있다.

도 9는, 한 실시예에서, 채널 기반의 전송 또는 재생을 위한 시스템(90)을 도시한다. HOA 신호는, 마이크로폰/마이크로폰 어레이(91), HOA 인코더(92), HOA 마스터 이득 유닛(94), HOA 라우드니스 계측기(93) 및 HOA 라우드니스 보존 렌더러(95)를 이용하여, 전술된 바와 같이 포착 및 라우드니스 조절된다. 선택사항적 제2 HOA 라우드니스 계측 유닛(93m)은 모니터링 이유로 HOA 마스터 이득 유닛(94) 이후에 부착될 수 있다. HOA 라우드니스 보존 렌더러(95)는 이 실시예서는 더 이상 선택사항이 아니다. 한 실시예에서, 라우드니스 측정치는 또한 HOA 마스터 이득 유닛(94)에 제공되기 이전에 선택사항적 적응/선택 유닛(93x)에서, 수동으로 또는 자동으로, 적응 및/또는 선택될 수 있다.

그러면 HOA 라우드니스 보존 렌더러(95)에 의해 제공된 채널 기반의 오디오는 전송 유닛 또는 저장 유닛(96)에서 전송 또는 저장된다. 전송 셋업의 스피커 위치 및/또는 원래의 콘텐츠 포멧을 나타내는 플래그는 메타데이터로서 신호에 첨가된다. 따라서, 전송 셋업의 스피커 위치, 및/또는 원래의 콘텐츠가 HOA이었다는 것을 나타내는 플래그는 전송된 또는 저장된 신호에서 메타데이터로서 포함된다. 전송/저장 및 소비자측에서의 콘텐츠 수신 이후에, 에너지 보존 채널 기반의 렌더러(99)는, 한 실시예에서, 소비자의 확성기 셋업(98)에 데이터를 렌더링하는데 이용된다. (도시되지 않은) 또 다른 실시예에서, 에너지 보존 채널 기반의 렌더러(99)는 전송 또는 저장 이전에 미리결정된 또는 개개의 확성기 셋업(98)에 데이터를 렌더링하는데 이용된다. 어느 경우든, 채널 기반의 렌더러(99)는 수학식 (4)에 따라 동작한다. 전술된 바와 같이, 상이한 확성기 셋업들이 가능하다.

대안으로서, 채널 기반의 콘텐츠는 제2 HOA 인코딩 유닛(미도시, 예를 들어, 채널 기반의 렌더러(99) 대신)에서 전송된 메타데이터를 이용하여 HOA로 재인코딩될 수 있고, 여기서, 제2 HOA 인코딩 유닛은 바람직하게는 라우드니스 보존 HOA 렌더이다.

이제 HOA 라우드니스 계측기(83, 93)가 설명될 것이다. 입력 신호로서, N3D 정규화된 0차 HOA 계수 채널이 이용된다. 처리는 [1],[2]와 유사하고, 여기서 처리는 모노 채널에 대해서만 설명된다. 다양한 상이한 실시예에서, HOA 라우드니스 계측기(83, 93)는 순간적, 단기간 및 통합된 라우드니스 측정 중 하나 이상을 보여줄 수 있다. 이들은 주로 라우드니스 측정에 이용되는 시간 프레임에 의해 다르다.

라우드니스 보존 렌더러들이 이용되는 조건하에서, 이들 측정은 소비자의 확성기 셋업에서의 렌더링 이후에 얻어질 (타겟) 라우드니스에 대해 추론을 이끌어 낼 수 있게 한다. 예를 들어, 측정은 상이한 콘텐츠 또는 상이한 프로그램들 사이에서 전환할 때 라우드니스 점프 없이 적당한 청취 레벨을 유지하는데 이용될 수 있다. 음압 레벨(SPL) 캘리브레이팅된 시스템에 의해, 동등한 라우드니스가 실현될 수 있다.

라우드니스 보존 렌더러들은 (적어도 대략적으로) 다음과 같은 요건을 충족할 필요가 있다:

- AO 기반의 콘텐츠의 경우: 수학식 (3);

- 채널 기반의 콘텐츠의 경우: 수학식 (4); 및

- HOA 기반의 콘텐츠의 경우: 수학식 (5).

한 실시예에서, HOA 렌더러는 수학식 (6), (7), (8)에 따라 렌더링 행렬 정규화를 이용한다.

이하의 에너지 계산은 HOA 렌더링 이후의 신호 에너지 E_W를 유도한다. 테스트 신호는, 방향 Ω = (θ, Φ)^T (θ는 고도, Φ는 방위각)로부터 입사하는 RMS 값 A와 에너지 E_A = A²을 갖는 DC 없는 시간 신호 x(t)이다.

x는 τ개 샘플의 벡터

를 나타낸다고 한다.

HOA 인코딩은 다음과 같이 주어진다:

여기서 벡터

는, 방향 Ω의 실수값 구면 고조파로부터 어셈블링된다.

이고, 행렬 요소들 B_o,i(여기서, o는 차수 인덱스이고, i는 시간 샘플 인덱스임)을 갖는다, .

HOA 영역에서의 에너지는 행렬 B의 제곱된 프로베니우스 놈(Frobenius norm)에 의해 주어진다:

그리고 상기 인코딩 수학식은 다음과 같이 된다:

확성기 신호 W는 행렬

을 이용한 렌더링 이후에 하기와 같이 주어진다:

여기서

이다. W는 B의 컬럼 벡터들 b _i 로부터 다음과 같이 계산된다:

스피커 신호의 에너지는 행렬 W의 제곱된 프로베니우스 놈에 의해 주어진다:

이것은 컬럼 b _i 에 대한 유클리드 벡터 놈(Euclidian vector norm)과 컬럼들의 합을 이용하여 다음과 같이 다시 쓸 수 있다:

에 의해 다음과 같이 된다:

이하에서 디코딩 행렬 정규화가 설명된다, 즉, 수학식 (7) 및 수학식 (7)의 특별한 경우로서의 수학식 (6)이 어떻게 유도되는지가 설명된다. 프로베니우스 놈을 이용하여 임의의 행렬에 대해 코시-슈바르츠(Cauchy-Schwarz) 부등식이 정의된다:

이로부터, 렌더링 행렬 D에 대한 간단한 정규화는 다음과 같다:

확성기의 개수가 HOA 계수들의 개수보다 크거나 같을 경우에만(L ≤ (N + 1)²) 완벽한 에너지 보존이 발생할 수 있다. 렌더링 행렬 D가 완벽하게 에너지 보존적이라면, 그 특이값 분해는 D = UIV로 되고, 여기서, U, V는 유니터리 행렬(unitary matrix)이고, I는 크기 (N+1)² x (N+1)²의 단위 행렬이다. 프로베니우스 놈은 유니터리 변환하에서 불변이고 이 경우에는

이다. 이것은 바로 수학식 (6)으로 이어진다.

본 발명의 바람직한 실시예에 적용된 본 발명의 근본적인 신규한 특징들이 도시되고, 설명되고, 지목되었지만, 설명된 장치 및 방법에서, 개시된 장치의 형태와 세부사항에서 그리고 그들의 동작에서, 다양한 생략과 대체 및 변경이 본 발명의 사상으로부터 벗어나지 않고 이 기술분야의 통상의 기술자에 의해 이루어질 수 있다는 점을 이해할 것이다. 동일한 결과를 얻기 위해 실질적으로 동일한 기능을 실질적으로 동일한 방식으로 수행하는 요소들의 모든 조합들도 본 발명의 범위 내에 있음을 명시적으로 의도한다. 하나의 설명된 실시예로부터 또 다른 실시예로의 요소들의 대체도 역시 충분히 의도되고 고려되었다. 본 발명은 순전히 예를 통해 설명되었고, 본 발명의 범위로부터 벗어나지 않고 상세사항의 수정이 이루어질 수 있다는 점을 이해할 것이다. 상세한 설명과 (적절한 경우에는) 청구항 및 도면에 개시된 각 특징은 독립적으로 또는 임의의 적절한 조합으로 제공될 수 있다. 특징들은, 적절하다면, 하드웨어, 소프트웨어, 또는 이 둘의 조합으로 구현될 수도 있다. 접속은, 적용가능하다면, 무선 접속 또는 유선 - 반드시 직접 또는 전용일 필요는 없음 - 접속으로서 구현될 수 있다.

참조 문헌

[1] ISO/IEC JTC1/SC29/WG11/N13196, 'Calibration of 22.2 multichannel sound reproduction', Audio Subgroup, October 2012, Shanghai, China

[2] EBU Technical Recommendation R128, "Loudness Normalization and Permitted Maximum Level of Audio Signals", Geneva, 2010. [http://tech.ebu. ch/docs/r/r128.pdf]

[3] ITU-R Recommendation BS.1770-2, "Algorithms to measure audio programme loudness and true-peak audio level", Geneva, 2011

[4] ATSC A/85, "Techniques for Establishing and Maintaining Audio Loudness for Digital Television", Advanced Television Systems Committee, Washington, D.C., July 25, 2011

[5] F. Zotter, H. Pomberger, M. Noisternig, "Energy-Preserving Ambisonic Decoding", ACTA ACUSTICA UNITED with ACUSTICA, Vol. 98 (2012), pages 37 - 47

[6] F. Zotter, M. Frank, "All-Round Ambisonic Panning and Decoding", J. Audio End. Soc, Vol. 60, No. 10, 2012 October

Claims

오디오 재생을 위한 장치로서,
렌더링 행렬에 기초하여 콘텐츠를 렌더링하도록 구성된 HOA 라우드니스 보존 렌더러를 포함하는 디코더를 포함하고,
상기 렌더링 행렬은 정규화되고,
상기 렌더링 행렬은 실질적으로 에너지 보존적이며, 상기 렌더링 행렬은,
에 따라, 또는
- D는 근사 에너지 보존 렌더링 행렬이고, y는 방향 Ω _c 의 구면 고조파로 구성된 HOA 테스트 신호임 - 에 따라, 또는
- D _e 는 에너지 보존 렌더링 행렬임 - 에 따라 정규화 유닛에서 정규화되는, 장치.