KR20180088738A

KR20180088738A - 적응형 양자화

Info

Publication number: KR20180088738A
Application number: KR1020187021237A
Authority: KR
Inventors: 니콜라스 알. 칭고스; 제커리 기드온 코헨; 비벡 쿠마
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2016-01-26
Filing date: 2017-01-26
Publication date: 2018-08-06
Also published as: WO2017132366A1; KR101968456B1; US10395664B2; CN108496221A; JP6467561B1; EP3408851A1; JP2019505842A; US20190027157A1; EP3408851B1; CN108496221B

Abstract

에너지 메트릭에 적어도 부분적으로 기초하는 중요도 메트릭이 복수의 수신된 오디오 객체들 각각에 대해 결정될 수 있다. 일부 방법은: 오디오 객체들 각각의 에너지 메트릭을 합산함으로써 계산된 총 에너지 값에 적어도 부분적으로 기초하여 오디오 객체들 모두에 대한 전역적 중요도 메트릭을 결정하는 단계; 오디오 객체들 각각에 대한 추정된 양자화 비트 깊이 및 양자화 에러를 결정하는 단계; 오디오 객체들 모두에 대한 총 노이즈 메트릭을 계산하는 단계 - 총 노이즈 메트릭은 추정된 양자화 비트 깊이에 대응하는 총 양자화 에러에 적어도 부분적으로 기초함 - ; 총 노이즈 메트릭 및 총 에너지 값에 대응하는 총 신호-대-노이즈 비를 계산하는 단계; 및 신호-대-노이즈 비 임계값을 총 신호-대-노이즈 비에 적용함으로써 오디오 객체들 각각에 대한 최종 양자화 비트 깊이를 결정하는 단계를 수반할 수 있다.

Description

적응형 양자화

관련 출원의 상호참조

본 출원은, 참조로 본 명세서에 포함되는 2016년 1월 26일 출원된 미국 가출원번호 제62/287,348호와 2016년 1월 26일 출원된 유럽 특허 출원 제16152783.3호의 우선권을 주장한다.

본 개시내용은 오디오 데이터 처리에 관한 것이다. 특히, 본 개시내용은 오디오 데이터의 효율적인 코딩에 관한 것이다.

1927년에 영화에서 사운드의 도입 이래, 활동 사진(motion picture) 사운드 트랙의 예술적 의도를 포착하고 이를 시네마 환경에서 재생하는데 이용되는 기술의 꾸준한 발전이 있어 왔다. 1930년대에, 디스크 상의 동기화된 사운드가 필름 상의 가변 영역 사운드로의 길을 열어 주었고, 이것은, 1940년대에, (사운드를 이동시키는 제어 톤을 이용한) 멀티-트랙 레코딩 및 조향가능한 리플레이의 초기 도입과 더불어, 극장 음향 고려사항 및 향상된 라우드스피커 설계와 함께 더욱 개선되었다. 1950년대와 1960년대에, 필름의 자기 스트라이핑은 극장에서 멀티-채널 재생을 허용하여, 프리미엄 극장에서 서라운드 채널과 최대 5개의 스크린 채널을 도입했다.

1970년대에, Dolby는, 3개의 스크린 채널 및 모노 서라운드 채널과의 믹스를 인코딩 및 배포하는 비용-효율적인 수단과 더불어, 녹음후 및 필름제작시에 노이즈 감소를 도입했다. 시네마 사운드의 품질은, 1980년대에, THX 등의 Dolby Spectral Recording(SR) 노이즈 감소 및 인증 프로그램을 통해 더욱 향상되었다. Dolby는, 1990년대 동안에, 별개의 좌, 중앙 및 우 스크린 채널과, 좌우 서라운드 어레이 및 저주파 효과를 위한 서브우퍼 채널을 제공하는 5.1 채널 포맷과 함께 디지털 사운드를 시네마에 도입했다. 2010년에 도입된 Dolby Surround 7.1은 기존의 좌우 서라운드 채널을 4개의 "존(zone)"으로 분할함으로써 서라운드 채널 수를 증가시켰다.

채널 수가 증가하고 라우드스피커 레이아웃이 평면 2차원(2D) 어레이로부터 높이 스피커를 포함하는 3차원(3D) 어레이로 천이함에 따라, 사운드를 저작하고(authoring) 렌더링하는 작업은 점점 더 복잡해지고 있다. 일부 경우에, 증가된 복잡성은 저장 및/또는 스트리밍될 필요가 있는 오디오 데이터의 양에서의 비례하는 증가를 수반했다. 향상된 방법 및 디바이스가 바람직하다.

본 개시내용에서 설명되는 주제의 일부 양태는, 임의의 특정한 재생 환경을 참조하지 않고 생성된 오디오 객체를 포함하는 오디오 데이터를 수반한다. 본 명세서에서 사용될 때, 용어 "오디오 객체"는 오디오 신호의 스트림 및 연관된 오디오 객체 메타데이터를 지칭할 수 있다. 메타데이터는 적어도 오디오 객체의 위치를 나타낼 수 있다. 그러나, 일부 예에서, 메타데이터는 또한, 비상관 데이터(decorrelation data), 렌더링 제약 데이터, 콘텐츠 유형 데이터(예를 들어 대화, 효과 등), 이득 데이터, 궤적 데이터 등을 나타낼 수 있다. 일부 오디오 객체는 정적일 수 있는 반면, 다른 오디오 객체는 시변동 메타데이터를 가질 수 있다: 이러한 오디오 객체는 시간경과에 따라 움직이거나, 크기를 변경하거나 및/또는 기타의 속성을 가질 수 있다.

오디오 객체가 재생 환경(reproduction environment)에서 모니터링되거나 재생될 때, 오디오 객체는 적어도 오디오 객체 위치 데이터에 따라 렌더링될 수 있다. 렌더링 프로세스는 한 세트의 출력 채널들의 각각의 채널에 대한 한 세트의 오디오 객체 이득 값들을 계산하는 것을 수반할 수 있다. 각각의 출력 채널은 재생 환경의 하나 이상의 재생 스피커에 대응할 수 있다. 따라서, 렌더링 프로세스는, 적어도 부분적으로 오디오 객체 메타데이터에 기초하여, 오디오 객체를 하나 이상의 스피커 공급 신호(speaker feed signal)로 렌더링하는 것을 수반할 수 있다. 스피커 공급 신호는 재생 환경 내의 재생 스피커 위치에 대응할 수 있다.

본 명세서에서 상세하게 설명된 바와 같이, 일부 구현에서, 한 방법은 복수의 오디오 객체를 포함하는 오디오 데이터를 수신하는 단계를 수반할 수 있다. 오디오 객체는 오디오 신호 및 연관된 오디오 객체 메타데이터를 포함할 수 있다. 일부 예에서, 복수의 오디오 객체는 오디오 데이터의 단일 프레임에 대응할 수 있다. 에너지 메트릭(energy metric)에 적어도 부분적으로 기초할 수 있는 중요도 메트릭(importance metric)이, 오디오 객체들 각각에 대해 결정될 수 있다. 일부 구현에서, 에너지 메트릭은 주파수의 함수로서 인간 청각 민감도에 대응하는 인지적 에너지 메트릭(perceptual energy metric)일 수 있다. 일부 예는 각각의 오디오 객체의 에너지 메트릭에 따라 오디오 객체들을 정렬(sorting)하는 것을 수반할 수 있다.

일부 방법은, 오디오 객체들 각각의 에너지 메트릭을 합산함으로써 계산된 총 에너지 값에 적어도 부분적으로 기초하여 오디오 객체들 모두에 대한 전역적 중요도 메트릭(global importance metric)을 결정하는 단계를 수반할 수 있다. 이러한 방법들은 오디오 객체들 각각에 대한 추정된 양자화 비트 깊이(estimated quantization bit depth) 및 양자화 에러(quantization error)를 결정하는 단계를 수반할 수 있다. 일부 이러한 방법은 오디오 객체들 모두에 대한 총 노이즈 메트릭을 계산하는 단계를 수반할 수 있다. 일부 구현에 따르면, 총 노이즈 메트릭은 추정된 양자화 비트 깊이에 대응하는 총 양자화 에러에 적어도 부분적으로 기초할 수 있다. 대안적으로 또는 추가로, 총 노이즈 메트릭은 주파수의 함수로서 인간 청각 민감도에 대응하는 인지적 노이즈 메트릭에 적어도 부분적으로 기초할 수 있다. 일부 구현은, 총 노이즈 메트릭 및 총 에너지 값에 대응하는 총 신호-대-노이즈 비(total signal-to-noise ratio)를 계산하는 단계, 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같은지를 결정함으로써 오디오 객체들 각각에 대한 최종 양자화 비트 깊이를 결정하는 단계를 수반할 수 있고, 신호-대-노이즈 비가 신호-대-노이즈 비 임계값을 초과하는 것으로 결정되면, 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같다고 결정될 때까지 하기의 단계들이 반복적으로 수행된다: 최대 양자화 에러에 대응하는 오디오 객체를 식별하는 단계, 최대 양자화 에러에 대응하는 오디오 객체를 양자화하기 위한 비트 깊이를 증가시키는 단계, 총 노이즈 메트릭을 재계산하는 단계; 총 신호-대-노이즈 비를 재계산하는 단계.

이 방법은 최종 양자화 비트 깊이에 따라 오디오 객체들 각각에 대응하는 오디오 신호를 양자화하는 단계를 수반할 수 있다. 일부 이러한 예는 양자화된 오디오 신호를 무손실 인코더에 출력하는 단계를 수반할 수 있다.

일부 이러한 방법은, 오디오 객체들 각각에 대해, 복수의 양자화 비트 깊이 각각에 대응하는 오디오 객체 양자화 에러를 추정하는 단계; 오디오 객체들 모두에 대해, 복수의 양자화 비트 깊이 각각에 대응하는 총 양자화 에러를 계산하는 단계; 및 추정된 오디오 객체 양자화 에러 및 계산된 총 양자화 에러를 적어도 일시적으로 저장하는 단계를 수반할 수 있다.

일부 예에서, 추정된 양자화 비트 깊이를 결정하는 단계는, 총 에너지 값에 대한 각각의 오디오 객체의 에너지 메트릭의 에너지 비를 결정하는 단계, 및 에너지 비에 따라 각각의 오디오 객체에 대한 추정된 양자화 비트 깊이를 결정하는 단계를 수반할 수 있다.

일부 구현에서, 중요도 메트릭은 오디오 객체 메타데이터에 적어도 부분적으로 기초할 수 있다. 예를 들어, 메타데이터는 오디오 객체 위치 데이터를 포함할 수 있고 중요도 메트릭은 오디오 객체 위치 데이터에 적어도 부분적으로 기초할 수 있다. 일부 구현에 따르면, 메타데이터는 오디오 객체 우선순위 데이터를 포함할 수 있고 중요도 메트릭은 오디오 객체 우선순위 데이터에 적어도 부분적으로 기초할 수 있다.

일부 방법은 오디오 신호를 디더링(dithering)하는 단계를 수반할 수 있다. 총 노이즈 메트릭은 디더링 노이즈를 포함할 수 있다.

오디오 객체들 중 적어도 일부는 정적 오디오 객체일 수 있다. 그러나, 오디오 객체들 중 적어도 일부는, 시변 위치 데이터 등의, 시변 메타데이터를 갖는 동적 오디오 객체일 수 있다.

여기서 설명된 방법들 중 일부 또는 전부는, 비일시적인 매체에 저장된 명령어(예를 들어, 소프트웨어)에 따라 하나 이상의 디바이스에 의해 수행될 수 있다. 이러한 비일시적인 매체는, 랜덤 액세스 메모리(RAM) 디바이스, 판독 전용 메모리(ROM) 디바이스 등을 포함한 그러나 이것으로 제한되지 않는, 본 명세서에서 설명된 것들 등의 메모리 디바이스를 포함할 수 있다. 예를 들어, 소프트웨어는 하나 이상의 오디오 객체를 포함한 오디오 데이터를 수신하기 위해 하나 이상의 디바이스를 제어하기 위한 명령어들을 포함할 수 있다. 오디오 객체는 오디오 신호 및 연관된 오디오 객체 메타데이터를 포함할 수 있다.

소프트웨어는 복수의 오디오 객체를 포함하는 오디오 데이터를 수신하기 위한 명령어들을 포함할 수 있다. 오디오 객체는 오디오 신호 및 연관된 오디오 객체 메타데이터를 포함할 수 있다. 일부 예에서, 복수의 오디오 객체는 오디오 데이터의 단일 프레임에 대응할 수 있다. 에너지 메트릭에 적어도 부분적으로 기초할 수 있는 중요도 메트릭이, 오디오 객체들 각각에 대해 결정될 수 있다. 일부 구현에서, 에너지 메트릭은 주파수의 함수로서 인간 청각 민감도에 대응하는 인지적 에너지 메트릭일 수 있다. 일부 예는 각각의 오디오 객체의 에너지 메트릭에 따라 오디오 객체들을 정렬하는 것을 수반할 수 있다.

소프트웨어는: 오디오 객체들의 각각의 에너지 메트릭을 합산함으로써 계산된 총 에너지 값에 적어도 부분적으로 기초하여 오디오 객체들 모두에 대한 전역적 중요도 메트릭을 결정하고; 오디오 객체들 각각에 대한 추정된 양자화 깊이 및 양자화 에러를 결정하며; 오디오 객체들 각각에 대한 총 노이즈 메트릭 - 총 노이즈 메트릭은 추정된 양자화 비트 깊이에 대응하는 총 양자화 에러에 적어도 부분적으로 기초함 - 을 계산하고; 총 노이즈 메트릭 및 총 에너지 값에 대응하는 총 신호-대-노이즈 비를 계산하며; 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같은지를 결정하고, 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값을 초과한다고 결정되면, 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같다고 결정될 때까지 하기의 단계들: 최대 양자화 에러에 대응하는 오디오 객체를 식별하는 단계; 최대 양자화 에러에 대응하는 오디오 객체를 양자화하기 위한 비트 깊이를 증가시키는 단계; 총 노이즈 메트릭을 재계산하는 단계; 및 총 신호-대-노이즈 비를 재계산하는 단계를 반복적으로 수행함으로써, 오디오 객체들 각각에 대한 최종 양자화 비트 깊이를 결정하기 위한 명령어들을 포함할 수 있다.

소프트웨어는 최종 양자화 비트 깊이에 따라 오디오 객체들 각각에 대응하는 오디오 신호를 양자화하기 위한 명령어들을 포함할 수 있다. 소프트웨어는 양자화된 오디오 신호를 무손실 인코더에 출력하기 위한 명령어들을 포함할 수 있다.

소프트웨어는: 오디오 객체들 각각에 대해, 복수의 양자화 비트 깊이 각각에 대응하는 오디오 객체 양자화 에러를 추정하고; 오디오 객체들 모두에 대해, 복수의 양자화 비트 깊이 각각에 대응하는 총 양자화 에러를 계산하며; 추정된 오디오 객체 양자화 에러 및 계산된 총 양자화 에러를 적어도 일시적으로 저장하기 위한 명령어들을 포함할 수 있다.

일부 예에서, 추정된 양자화 비트 깊이를 결정하는 것은, 총 에너지 값에 대한 각각의 오디오 객체의 에너지 메트릭의 에너지 비를 결정하는 것, 및 에너지 비에 따라 각각의 오디오 객체에 대한 추정된 양자화 비트 깊이를 결정하는 것을 포함할 수 있다.

일부 구현에서, 중요도 메트릭은 오디오 객체 메타데이터에 적어도 부분적으로 기초할 수 있다. 예를 들어, 메타데이터는 오디오 객체 위치 데이터를 포함할 수 있고 중요도 메트릭은 오디오 객체 위치 데이터에 적어도 부분적으로 기초할 수 있다.

소프트웨어는 오디오 신호를 디더링하기 위한 명령어들을 포함할 수 있다. 총 노이즈 메트릭은 디더링 노이즈를 포함할 수 있다.

본 개시내용의 적어도 일부 양태는 인터페이스 시스템 및 제어 시스템을 포함하는 장치에서 구현될 수 있다. 제어 시스템은, 범용 단일 칩 또는 다중 칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 또는 기타의 프로그램가능한 로직 디바이스, 개별 게이트 또는 트랜지스터 로직, 또는 개별 하드웨어 컴포넌트 중 적어도 하나를 포함할 수 있다. 인터페이스 시스템은 네트워크 인터페이스를 포함할 수 있다. 일부 구현에서, 장치는 메모리 시스템을 포함할 수 있다. 인터페이스 시스템은 제어 시스템과, 메모리 시스템(예를 들어, 적어도 하나의 메모리 디바이스)의 적어도 일부 사이에 인터페이스를 포함할 수 있다.

제어 시스템은 오디오 객체를 포함하는 오디오 데이터를 인터페이스 시스템을 통해 수신하도록 구성될 수 있다. 오디오 객체는 오디오 신호 및 연관된 오디오 객체 메타데이터를 포함할 수 있다.

제어 시스템은: 오디오 객체들의 각각의 에너지 메트릭을 합산함으로써 계산된 총 에너지 값에 적어도 부분적으로 기초하여 오디오 객체들 모두에 대한 전역적 중요도 메트릭을 결정하고; 오디오 객체들 각각에 대한 추정된 양자화 비트 깊이 및 양자화 에러를 결정하며; 오디오 객체들 각각에 대한 총 노이즈 메트릭 - 총 노이즈 메트릭은 추정된 양자화 비트 깊이에 대응하는 총 양자화 에러에 적어도 부분적으로 기초함 - 을 계산하고; 총 노이즈 메트릭 및 총 에너지 값에 대응하는 총 신호-대-노이즈 비를 계산하며; 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같은지를 결정하고, 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값을 초과한다고 결정되면, 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같다고 결정될 때까지 하기의 단계들: 최대 양자화 에러에 대응하는 오디오 객체를 식별하는 단계; 최대 양자화 에러에 대응하는 오디오 객체를 양자화하기 위한 비트 깊이를 증가시키는 단계; 총 노이즈 메트릭을 재계산하는 단계; 및 총 신호-대-노이즈 비를 재계산하는 단계를 반복적으로 수행함으로써 오디오 객체들 각각에 대한 최종 양자화 비트 깊이를 결정하도록 구성될 수 있다.

제어 시스템은 최종 양자화 비트 깊이에 따라 오디오 객체들 각각에 대응하는 오디오 신호를 양자화하도록 구성될 수 있다. 제어 시스템은 양자화된 오디오 신호를 무손실 인코더에 출력하도록 구성될 수 있다.

제어 시스템은: 오디오 객체들 각각에 대해, 복수의 양자화 비트 깊이 각각에 대응하는 오디오 객체 양자화 에러를 추정하고; 오디오 객체들 모두에 대해, 복수의 양자화 비트 깊이 각각에 대응하는 총 양자화 에러를 계산하며; 추정된 오디오 객체 양자화 에러 및 계산된 총 양자화 에러를 적어도 일시적으로 저장하도록 구성될 수 있다.

제어 시스템은 오디오 신호를 디더링하도록 구성될 수 있다. 총 노이즈 메트릭은 디더링 노이즈를 포함할 수 있다.

본 명세서에서 설명되는 주제의 하나 이상의 구현의 상세사항이 첨부된 도면과 이하의 상세한 설명에 개시되어 있다. 다른 피처들, 양태들, 및 이점들은, 상세한 설명, 도면, 및 청구항들로부터 명백해질 것이다. 이하의 도면들의 상대적 크기는 축척비율대로 그려지지 않을 수도 있다는 점에 유의한다.

도 1은 Dolby Surround 5.1 구성을 갖는 재생 환경의 한 예를 도시한다.
도 2는 Dolby Surround 7.1 구성을 갖는 재생 환경의 한 예를 도시한다.
도 3a 및 도 3b는 높이 스피커 구성을 포함하는 홈 씨어터 재생 환경의 2가지 예를 나타낸다.
도 4a는 가상 재생 환경에서의 변화하는 고도에서 스피커 존(speaker zone)을 묘사하는 그래픽 사용자 인터페이스(GUI)의 한 예를 도시한다.
도 4b는 또 다른 재생 환경의 한 예를 도시한다.
도 5는 여기서 설명된 다양한 방법을 구현할 수 있는 장치의 컴포넌트들의 예를 제공하는 블록도이다.
도 6은 일부 구현에 따른 적응형 양자화 프로세스의 예시적인 블록들을 도시하는 흐름도이다.
도 7은 최종 양자화 비트 깊이를 결정하는 반복적 프로세스의 블록들의 예를 도시하는 흐름도이다.
도 8은 적응형 양자화의 또 다른 방법의 블록들의 예를 도시하는 흐름도이다.
다양한 도면에서 유사한 참조 번호 및 명칭은 유사한 요소를 가리킨다.

이하의 설명은 본 개시내용의 일부 혁신적인 양태를 기술하기 위한 목적의 소정 구현들 뿐만 아니라 이들 혁신적 양태들이 구현될 수 있는 정황들의 예에 관한 것이다. 그러나, 여기서의 교시는 다양한 상이한 방법으로 적용될 수 있다. 예를 들어, 다양한 구현들이 특정한 재생 환경의 관점에서 설명되지만, 여기서의 교시는 기타의 공지된 재생 환경 뿐만 아니라 미래에 도입될 수도 있는 재생 환경에도 널리 적용될 수 있다. 또한, 설명된 구현들은, 다양한 하드웨어, 소프트웨어, 펌웨어 등으로 구현될 수 있는 다양한 저작 및/또는 렌더링 툴에서 구현될 수 있다. 따라서, 본 개시내용의 교시는, 도면에 도시된 및/또는 여기서 설명되는 구현들로 제한되고자 함이 아니고, 대신에 넓은 응용성을 갖는다.

도 1은 Dolby Surround 5.1 구성을 갖는 재생 환경의 한 예를 도시한다. Dolby Surround 5.1은 1990년대에 개발되었지만, 이 구성은 여전히 시네마 사운드 시스템 환경에서 널리 배치된다. 프로젝터(105)는, 예를 들어, 영화를 위한 비디오 이미지를 스크린(150) 상에 투사하도록 구성될 수 있다. 오디오 재생 데이터는 비디오 이미지와 동기화되고 사운드 프로세서(110)에 의해 처리될 수 있다. 전력 증폭기들(115)은 재생 환경(100)의 스피커들에 스피커 공급 신호를 제공할 수 있다.

Dolby Surround 5.1 구성은 좌측 서라운드 어레이(120) 및 우측 서라운드 어레이(125)를 포함하며, 이들 각각은 단일 채널에 의해 집단-구동되는(gang-driven) 스피커 그룹을 포함한다. Dolby Surround 5.1 구성은 또한, 좌측 스크린 채널(130), 중앙 스크린 채널(135), 및 우측 스크린 채널(140)을 위한 별개의 채널들을 포함한다. 서브우퍼(145)에 대한 별개의 채널이 저주파 효과(low-frequency effect)(LFE)를 위해 제공된다.

2010년에, Dolby는 Dolby Surround 7.1을 도입함으로써 디지털 시네마 사운드에 대한 향상을 제공했다. 도 2는 Dolby Surround 7.1 구성을 갖는 재생 환경의 한 예를 도시한다. 디지털 프로젝터(205)는 디지털 비디오 데이터를 수신하고 비디오 이미지를 스크린(150) 상에 투사하도록 구성될 수 있다. 오디오 재생 데이터는 사운드 프로세서(210)에 의해 처리될 수 있다. 전력 증폭기들(215)은 스피커 공급 신호를 재생 환경(200)의 스피커들에 제공할 수 있다.

Dolby Surround 7.1 구성은, 좌측 서라운드 어레이(220) 및 우측 서라운드 어레이(225)를 포함하며, 이들 각각은 단일 채널에 의해 구동될 수 있다. Dolby Surround 5.1처럼, Dolby Surround 7.1 구성은, 좌측 스크린 채널(230), 중앙 스크린 채널(235), 우측 스크린 채널(240), 및 서브우퍼(245)를 위한 별개의 채널들을 포함한다. 그러나, Dolby Surround 7.1은 Dolby Surround 5.1의 좌측 및 우측 서라운드 채널들을 4개의 존으로 분할하여 서라운드 채널의 수를 증가시킨다: 좌측 서라운드 어레이(220) 및 우측 서라운드 어레이(225) 이외에, 좌측 후방 서라운드 스피커(224) 및 우측 후방 서라운드 스피커(226)를 위한 별개의 채널들이 포함된다. 재생 환경(200) 내의 서라운드 존의 수를 증가시키면, 사운드의 국지화(localization)를 상당히 개선할 수 있다.

더욱 몰입형의 환경을 생성하기 위한 노력으로, 일부 재생 환경은, 증가된 수의 채널에 의해 구동되는, 증가된 수의 스피커로 구성될 수 있다. 게다가, 일부 재생 환경은 다양한 고도에 배치된 스피커들을 포함할 수 있고, 그 중 일부는 재생 환경의 좌석 영역 위에 있을 수 있다.

도 3a 및 도 3b는 높이 스피커 구성을 포함하는 홈 씨어터 재생 환경의 2가지 예를 나타낸다. 이들 예에서, 재생 환경(300a 및 300b)은, 좌측 서라운드 스피커(322), 우측 서라운드 스피커(327), 좌측 스피커(332), 우측 스피커(342), 중앙 스피커(337) 및 서브우퍼(145)를 포함하는, Dolby Surround 5.1 구성의 주요 피처를 포함한다. 그러나, 재생 환경(300)은 Dolby Surround 5.1.2 구성이라고 지칭될 수 있는, 높이 스피커를 위한 Dolby Surround 5.1 구성의 확장을 포함한다.

도 3a는 홈 씨어터 재생 환경의 천장(360)에 장착된 높이 스피커들을 갖는 재생 환경의 한 예를 나타낸다. 이 예에서, 재생 환경(300a)은, 좌측 상부 중간(Ltm) 위치에 있는 높이 스피커(352) 및 우측 상부 중간(Rtm) 위치에 있는 높이 스피커(357)를 포함한다. 도 3b에 도시된 예에서, 좌측 스피커(332) 및 우측 스피커(342)는 천장(360)으로부터의 사운드를 반사하도록 구성된 Dolby Elevation 스피커이다. 적절히 구성된다면, 반사된 사운드는, 마치 사운드 소스가 천장(360)에서 시작되는 것처럼, 청취자(365)에 의해 인지될 수 있다. 그러나, 스피커의 수와 구성은 단지 예로서 제공된 것일 뿐이다. 일부의 현재 홈 씨어터 구현은 최대 34개의 스피커 위치를 제공할 수 있고, 고려중인 씨어터 구현은 훨씬 많은 스피커 위치를 허용할 수 있다.

따라서, 현대의 추세는, 더 많은 스피커 및 더 많은 채널을 포함할 뿐만 아니라, 상이한 높이들의 스피커들을 포함하는 것이다. 채널 수가 증가하고 스피커 레이아웃이 2D 어레이로부터 3D 어레이로 천이됨에 따라, 사운드를 위치결정하고 렌더링하는 작업은 점점 어려워지고 있다. 따라서, 본 양수인은, 3D 오디오 사운드 시스템에 대한 기능을 증가시키고 및/또는 저작 복잡성을 감소시키는, 다양한 툴 뿐만 아니라, 관련된 사용자 인터페이스를 개발하였다.

도 4a는 가상 재생 환경에서의 변화하는 고도에서 스피커 존을 묘사하는 그래픽 사용자 인터페이스(GUI)의 한 예를 도시한다. GUI(400)는, 예를 들어, 사용자 입력 디바이스 등으로부터 수신된 신호에 따라, 제어 시스템으로부터의 명령어에 따라 디스플레이 디바이스 상에 디스플레이될 수 있다.

가상 재생 환경(404) 등의 가상 재생 환경을 참조하여 본 명세서에서 사용될 때, "스피커 존"이라는 용어는, 일반적으로 실제 재생 환경의 재생 스피커와 일대일 대응을 가질 수도 있고 그렇지 않을 수도 있는 논리적 구성을 말한다. 예를 들어, "스피커 존 위치"는 시네마 재생 환경의 특정한 재생 스피커 위치에 대응하거나 대응하지 않을 수 있다. 대신, "스피커 존 위치"라는 용어는 일반적으로 가상 재생 환경의 존을 말할 수 있다. 일부 구현에서, 가상 재생 환경의 스피커 존은, 예를 들어, 2-채널 스테레오 헤드폰 세트를 이용하여 실시간으로 가상 서라운드 사운드 환경을 생성하는, (때때로 Mobile Surround^TM이라고 하는) Dolby Headphone^TM 등의 가상 기술의 이용을 통해, 가상 스피커에 대응할 수 있다. GUI(400)에서, 제1 고도에는 7개의 스피커 존(402a)이 있고 제2 고도에는 2개의 스피커 존(402b)이 있어서, 가상 재생 환경(404)에서 총 9개의 스피커 존을 형성한다. 이 예에서, 스피커 존 1 내지 3은 가상 재생 환경(404)의 전방 영역(405)에 있다. 전방 영역(405)은, 예를 들어, 스크린(150)이 위치해 있는 시네마 재생 환경의 한 영역, 텔레비전 스크린이 위치해 있는 가정의 한 영역 등에 대응할 수 있다.

여기서, 스피커 존 4는 일반적으로 좌측 영역(410)의 스피커들에 대응하고, 스피커 존 5는 가상 재생 환경(404)의 우측 영역(415)의 스피커들에 대응한다. 스피커 존(6)은 좌측 후방 영역(412)에 대응하고 스피커 존(7)은 가상 재생 환경(404)의 우측 후방 영역(414)에 대응한다. 스피커 존(8)은 상위 영역(420a)에서의 스피커들에 대응하고 스피커 존(9)은 가상 천장 영역일 수 있는 상위 영역(420b)에서의 스피커들에 대응한다. 따라서, 도 4a에 도시된 스피커 존 1-9의 위치는 실제 재생 환경의 재생 스피커의 위치에 대응하거나 대응하지 않을 수도 있다. 게다가, 다른 구현들은 더 많거나 더 적은 수의 스피커 존 및/또는 고도를 포함할 수 있다.

다양한 구현에서, GUI(400) 등의 사용자 인터페이스는 저작 툴 및/또는 렌더링 툴의 일부로서 이용될 수 있다. 일부 구현에서, 저작 툴 및/또는 렌더링 툴은 하나 이상의 비일시적인 매체에 저장된 소프트웨어를 통해 구현될 수 있다. 저작 툴 및/또는 렌더링 툴은 (적어도 부분적으로) 하드웨어, 펌웨어 등에 의해 구현될 수 있다. 일부 저작 구현에서, 연관된 저작 툴은 연관된 오디오 데이터에 대한 메타데이터를 생성하는데 이용될 수 있다. 메타데이터는, 예를 들어, 3차원 공간에서의 오디오 객체의 위치 및/또는 궤적을 나타내는 데이터, 스피커 존 제약 데이터 등을 포함할 수 있다. 메타데이터는, 실제 재생 환경의 특정한 스피커 레이아웃에 관해서가 아니라, 가상 재생 환경(404)의 스피커 존(402)에 관하여 생성될 수 있다. 렌더링 툴은 오디오 데이터 및 연관된 메타데이터를 수신할 수 있고, 재생 환경에 대한 오디오 이득 및 스피커 공급 신호를 계산할 수 있다. 이러한 오디오 이득 및 스피커 공급 신호는, 재생 환경 내의 위치 P로부터 사운드가 오고 있다는 인식을 생성할 수 있는, 진폭 패닝 프로세스(amplitude panning process)에 따라 계산될 수 있다. 예를 들어, 스피커 공급 신호는, 다음과 같은 수학식에 따라 재생 환경의 재생 스피커 1 내지 N에 제공될 수 있다:

수학식 1에서, x _i (t)는 스피커 i에 인가될 스피커 공급 신호를 나타내고, g _i 는 대응하는 채널의 이득 인자를 나타내며, x(t)는 오디오 신호를 나타내고, t는 시간을 나타낸다. 이득 인자들은, 예를 들어, 참조로 본 명세서에 포함되는, Section 2, pages 3-4 of V. Pulkki, Compensating Displacement of Amplitude-Panned Virtual Sources (Audio Engineering Society (AES) International Conference on Virtual, Synthetic and Entertainment Audio)에 설명된 진폭 패닝 방법에 따라 결정될 수 있다. 일부 구현에서, 이득은 주파수 의존적일 수 있다. 일부 구현에서, x(t)를 x(t-Δt)로 대체함으로써 시간 지연이 도입될 수 있다.

일부 렌더링 구현에서, 스피커 존(402)을 참조하여 생성된 오디오 재생 데이터는, Dolby Surround 5.1 구성, Dolby Surround 7.1 구성, 또는 Hamasaki 22.2 구성 또는 다른 구성일 수 있는, 광범위한 재생 환경의 스피커 위치들에 매핑될 수 있다. 예를 들어, 도 2를 참조하면, 렌더링 툴은 스피커 존 4 및 5에 대한 오디오 재생 데이터를 Dolby Surround 7.1 구성을 갖는 재생 환경의 좌측 서라운드 어레이(220) 및 우측 서라운드 어레이(225)에 매핑할 수 있다. 스피커 존 1, 2 및 3에 대한 오디오 재생 데이터는, 각각, 좌측 스크린 채널(230), 우측 스크린 채널(240), 및 중앙 스크린 채널(235)에 매핑될 수 있다. 스피커 존 6 및 7에 대한 오디오 재생 데이터는, 좌측 후방 서라운드 스피커(224) 및 우측 후방 서라운드 스피커(226)에 매핑될 수 있다.

도 4b는 또 다른 재생 환경의 한 예를 도시한다. 일부 구현에서, 렌더링 툴은, 스피커 존 1, 2 및 3에 대한 오디오 재생 데이터를 재생 환경(450)의 대응하는 스크린 스피커(455)에 매핑할 수 있다. 렌더링 툴은, 스피커 존 4 및 5에 대한 오디오 재생 데이터를 좌측 서라운드 어레이(460) 및 우측 서라운드 어레이(465)에 매핑하고, 스피커 존 8 및 9에 대한 오디오 재생 데이터를 좌측 오버헤드 스피커(470a) 및 우측 오버헤드 스피커(470b)에 매핑할 수 있다. 스피커 존 6 및 7에 대한 오디오 재생 데이터는 좌측 후방 서라운드 스피커(480a) 및 우측 후방 서라운드 스피커(480b)에 매핑될 수 있다.

일부 저작 구현에서, 저작 툴은 오디오 객체에 대한 메타데이터를 생성하는데 이용될 수 있다. 앞서 언급된 바와 같이, 용어 "오디오 객체"는 오디오 데이터 신호의 스트림 및 연관된 메타데이터를 지칭할 수 있다. 메타데이터는, 오디오 객체의 위치, 오디오 객체의 겉보기 크기, 렌더링 제약뿐만 아니라 콘텐츠 유형(예를 들어, 대화, 효과) 등 중 하나 이상을 나타낼 수 있다. 구현에 따라, 메타데이터는, 이득 데이터, 궤적 데이터 등의 다른 유형의 데이터를 포함할 수 있다. 일부 오디오 객체는 정적일 수 있는 반면, 다른 오디오 객체는 움직일 수 있다. 오디오 객체 상세는, 특히, 주어진 시점에서 2차원 공간 또는 3차원 공간에서의 오디오 객체의 위치를 나타낼 수 있는, 연관된 메타데이터에 따라 저작되거나 렌더링될 수 있다. 오디오 객체가 재생 환경에서 모니터링되거나 재생될 때, 오디오 객체들은, 재생 환경의 재생 스피커 레이아웃에 따라, 그들의 위치 메타데이터 및 크기 메타데이터 등의 다른 메타데이터에 따라 렌더링될 수 있다.

전술된 이점들에 비추어, 영화 스튜디오 및 다른 콘텐츠 제작자는 종종 오디오 객체를 포함하는 오디오 데이터를 제공한다. 예를 들어, 많은 콘텐츠 제작자는, 홈 씨어터 재생 환경을 위한 광학 디스크 상에서, 비디오 콘텐츠와 함께, 오디오 객체를 포함하는 오디오 데이터를 인코딩하기 위해, Dolby TrueHD^TM 등의 무손실 오디오 코덱을 이용한다. 이러한 오디오 데이터는 또한, 홈 씨어터 시스템의 오디오/비디오 수신기(AVR)로의 다운로드를 통해 제공될 수 있다.

일부 경우에, 비디오 콘텐츠와 함께 광 디스크 등의 저장 매체 상에 기록될 수 있는 오디오 데이터의 양에 대한 제한, 및/또는 비디오 콘텐츠와 함께 스트리밍될 수 있는 오디오 데이터의 양에 대한 제한이 있을 수 있다. 저장 매체에 기록될 수 있는 오디오 데이터의 양에 관한 제한 또는 스트리밍될 수 있는 오디오 데이터의 양에 관한 제한은, 일부 경우에, 홈 씨어터 시스템에서 동시 재생을 위해 인코딩될 수 있는 오디오 객체의 수에 제한을 둘 수 있다. 일부 오디오 코덱은, 인에이블될 때 비트레이트를 추가로 제한할 수 있는, 노이즈 정형(noise shaping) 등의 피처를 포함한다. 이러한 피처를 인에이블하는 것은 잠재적으로, 동시 재생을 위해 인코딩될 수 있는 오디오 객체의 수를 증가시킬 수 있다. 이러한 오디오 코덱들 중 일부 기존 버전은, 노이즈 정형을 제공하지만 고정된 비트 수와 함께 제공한다.

따라서, 오디오 객체를 포함하는 오디오 데이터를 포함한, 그러나 이것으로 제한되지 않는 오디오 데이터를 더욱 효율적으로 인코딩하는 것이 바람직할 것이다. 여기서 개시된 일부 구현은 시간-의존 기반으로 오디오 인코딩을 위한 비트들을 할당한다. 일부 개시된 방법은, 프레임별로, 오디오 객체 기반으로, 양자화를 위한 비트의 할당을 변경할 수 있는 적응형 양자화 프로세스를 수반한다. 일부 예에 따르면, 적응형 양자화 프로세스는, 중요도 메트릭에 적어도 부분적으로 기초하여, 양자화를 위한 비트 할당을 변경할 수 있다. 일부 이러한 예들에서, 복수의 오디오 객체 각각에 대한 추정된 양자화 비트 깊이는 중요도 메트릭에 적어도 부분적으로 기초할 수 있다. 중요도 메트릭은 에너지 메트릭에 적어도 부분적으로 기초할 수 있다. 일부 예에서, 에너지 메트릭은 주파수의 함수로서 인간 청각 민감도에 대응하는 인지적 에너지 메트릭일 수 있다.

일부 구현은, 신호-대-노이즈 비가 항상 미리결정된 임계값 이상이 되도록, 양자화 에러를 반복적으로 최소화하는 것을 수반할 수 있다. 일부 이러한 구현에 따르면, 오디오 객체 각각에 대한 최종 양자화 비트 깊이는, 추정된 양자화 비트 깊이에 따라 결정되는 총 신호-대-노이즈 비에 신호-대-노이즈 비 임계값을 적용함으로써 결정될 수 있다. 일부 예에서, 오디오 데이터는 오디오 객체들 각각에 대한 최종 양자화 비트 깊이에 따라 양자화될 수 있다. 양자화된 오디오 데이터는, 일부 예에서, Dolby TrueHD^TM코덱, Apple Lossless Audio Codec, Windows Media Lossless Codec, MPEG-4 Audio Lossless Coding 등의 무손실 코덱에 따라 기능하는 인코더에 입력될 수 있다.

도 5는 여기서 설명된 다양한 방법을 구현할 수 있는 장치의 컴포넌트들의 예를 제공하는 블록도이다. 장치(500)는, 예를 들어, 오디오 인코딩 시스템일 수 있다(또는 오디오 코딩 시스템의 일부일 수 있다). 일부 예에서, 장치(500)는 또 다른 디바이스의 한 컴포넌트로서 구현될 수 있다.

이 예에서, 장치(500)는 인터페이스 시스템(505) 및 제어 시스템(510)을 포함한다. 제어 시스템(510)은 여기서 개시된 방법들 중 일부 또는 전부를 구현할 수 있다. 제어 시스템(510)은, 예를 들어, 범용 단일 칩 또는 다중 칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 또는 기타의 프로그램가능한 로직 디바이스, 개별 게이트 또는 트랜지스터 로직, 또는 개별 하드웨어 컴포넌트를 포함할 수 있다.

이 구현에서, 장치(500)는 메모리 시스템(515)을 포함한다. 메모리 시스템(515)은, 플래시 메모리, 하드 드라이브 등의 하나 이상의 적절한 유형의 비일시적인 저장 매체를 포함할 수 있다. 인터페이스 시스템(505)은, 네트워크 인터페이스, 제어 시스템과 메모리 시스템 사이의 인터페이스 및/또는 (범용 직렬 버스(USB) 인터페이스 등의) 외부 디바이스 인터페이스를 포함할 수 있다. 메모리 시스템(515)이 도 5에서는 별개의 요소로서 도시되어 있지만, 제어 시스템(510)은, 메모리 시스템의 일부로 간주될 수 있는, 적어도 일부 메모리를 포함할 수 있다. 유사하게, 일부 구현에서, 메모리 시스템(515)은 일부 제어 시스템 기능을 제공할 수 있다.

이 예에서, 제어 시스템(510)은 인터페이스 시스템(505)을 통해 오디오 데이터 및 기타의 정보를 수신할 수 있다. 일부 구현에서, 제어 시스템(510)은 오디오 인코딩 장치를 포함할 수 있다(또는 구현할 수도 있다).

일부 구현에서, 제어 시스템(510)은 하나 이상의 비일시적인 매체에 저장된 소프트웨어에 따라 여기서 설명된 방법들 중 적어도 일부를 수행할 수 있다. 비일시적인 매체는, 랜덤 액세스 메모리(RAM) 및/또는 판독-전용 메모리(ROM) 등의, 제어 시스템(510)과 연관된 메모리를 포함할 수 있다. 비일시적인 매체는, 메모리 시스템(515)의 메모리를 포함할 수 있다.

도 6은 일부 구현에 따른 적응형 양자화 프로세스의 예시적인 블록들을 도시하는 흐름도이다. 도 6의 블록들(및 본 명세서에 제공된 기타의 흐름도들의 블록들)은, 예를 들어, 도 5의 제어 시스템(510)에 의해 또는 유사한 장치에 의해 수행될 수 있다. 따라서, 도 6의 일부 블록은 도 5의 하나 이상의 요소를 참조하여 이하에서 설명된다. 여기에 개시된 다른 방법들에서와 같이, 도 6에 개요된 방법은 표시된 것보다 많거나 적은 블록들을 포함할 수 있다. 게다가, 여기에 개시된 방법들의 블록들은 반드시 표시된 순서대로 수행될 필요는 없다.

여기서, 블록 605은 복수의 오디오 객체를 포함하는 오디오 데이터를 수신하는 단계를 수반한다. 이 예에서, 오디오 객체는 오디오 신호 및 연관된 오디오 객체 메타데이터를 포함한다. 일부 예에서, 복수의 오디오 객체는 오디오 데이터의 단일 프레임에 대응할 수 있다. 블록 605는, 도 5의 인터페이스 시스템(605) 등의, 인터페이스 시스템을 통해 오디오 데이터를 수신하는 단계를 수반할 수 있다.

이 예에서, 블록 610은 오디오 객체들 각각에 대한 중요도 메트릭을 결정하는 단계를 수반한다. 이 구현에 따르면, 중요도 메트릭은 적어도 부분적으로 에너지 메트릭에 기초한다. 일부 이러한 구현에서, 에너지 메트릭은 주파수의 함수로서 인간 청각 민감도에 대응하는 인지적 에너지 메트릭일 수 있다. 일부 예에서, 인지적 에너지 메트릭은, Fletcher-Munson 곡선 등의, 인간 청각에 대한 많은 공지된 동등-라우드니스 윤곽선(equal-loudness contour) 세트들 중 하나에 대응할 수 있다.

일부 예에서, 에너지 메트릭을 결정하는 단계는, 오디오 객체들 각각에 대응하는 신호에 주파수-가중 필터(frequency-weighting filter)를 적용하는 단계를 수반할 수 있다. 일부 이러한 예는, 각각의 주파수 서브대역에서 가중 필터의 에너지에 따라 다중 주파수 서브대역에서 에너지를 가중하는 것을 수반할 수 있다. 주파수 가중 필터는, International Electrotechnical Commission (IEC) standard IEC 61672:2003에 의해 정의된 A-가중 곡선 또는 International Organization for Standardization (ISO) 226:2003에 의해 정의된 A-가중 곡선이거나, 이와 유사할 수 있다. 일부 예에 따르면, 에너지 메트릭은, 각각의 오디오 객체에 대응하는 에너지 또는 이득에 A-가중 필터를 적용한 후의 결과의 제곱일 수 있다. 일부 예는 각각의 오디오 객체의 에너지 메트릭에 따라 오디오 객체들을 정렬하는 것을 수반할 수 있다.

일부 구현에서, 중요도 메트릭은 오디오 객체 메타데이터에 적어도 부분적으로 기초할 수 있다. 예를 들어, 메타데이터는 오디오 객체 위치 데이터를 포함할 수 있고 중요도 메트릭은 오디오 객체 위치 데이터에 적어도 부분적으로 기초할 수 있다. 이 위치 데이터는, 공간 마스킹(spatial masking)을 이용하여 오디오 객체 신호를 추가로 양자화하는데 이용될 수 있다. 예를 들어, 비교적 가까운 위치에 있는 오디오 객체들은, 더 중요하다고 간주될 수 있는, 공간 내의 다른 오디오 객체들로부터 격리된 객체보다 덜 중요한 것으로 간주될 수 있다. 비교적 서로 가까운 오디오 객체들은 도입된 양자화 노이즈에 대해 비교적 더 효율적인 마스커(masker)로서 역할할 것이다.

이 예에 따르면, 블록 615는 오디오 객체들 모두에 대한 전역적 중요도 메트릭을 결정하는 단계를 수반한다. 이 구현에서, 전역적 중요도 메트릭은 오디오 객체들 모두의 에너지를 포함하는 총 에너지 값에 적어도 부분적으로 기초한다. 따라서, 이 예시에서, 블록 615는 오디오 객체들 각각의 에너지 메트릭을 합산함으로써 총 에너지 값을 계산하는 단계를 수반한다.

이 구현에 따르면, 블록 620은 블록 615를 뒤따른다. 그러나, 일부 대안적인 구현에서, 블록 620은 하나 이상의 조건이 충족되는 경우에만 수행될 수 있다. 일부 이러한 구현에 따르면, 제어 시스템은 총 에너지 값이 비-제로(non-zero)인지를 결정할 수 있다. 총 에너지 값이 비-제로인 경우에만, 제어 시스템은 (추정된 양자화 비트 깊이를 결정하고, 총 노이즈 메트릭을 계산하고, 총 신호-대-노이즈 비를 계산하는 것 등의) 방법(600)의 후속 동작들을 수행할 수 있다. 총 에너지 값이 제로이거나 임계 에너지 값보다 작다면, 제어 시스템은 미리결정된 비트 깊이를 오디오 객체(들)에 할당할 수 있다.

이 구현에서, 블록 620은 오디오 객체들 각각에 대한 추정된 양자화 비트 깊이 및 양자화 에러를 결정하는 단계를 수반한다. 일부 이러한 구현에 따르면, 블록 620은, 오디오 객체가 총 에너지 값에 기여하는 에너지의 비율에 따라 오디오 객체에 대한 추정된 양자화 비트 깊이를 결정하는 단계를 수반할 수 있다. 예를 들어, 오디오 객체가 총 에너지 값에 기여하는 에너지 비율은 다음과 같은 수학식에 따른다:

수학식 2에서, E _Total 은 블록 615에서 결정된 총 에너지 값을 나타내고, E _n 은 오디오 객체 "n"의 에너지 메트릭을 나타내며, Prop _n 은 오디오 객체 "n"이 총 에너지 값에 기여하는 에너지의 비율을 나타낸다. 일부 이러한 예에 따르면, 블록 620은 Prop _n 을 대응하는 비트 깊이에 매핑하는 단계를 수반한다. 예를 들어, 블록 620은, 최저 에너지 오디오 객체를 저에너지 비트 깊이에, 중간 에너지 객체를 하나 이상의 중간 에너지 비트 깊이에, 및 최고 에너지 객체를 고에너지 비트 깊이에 매핑하는 단계를 수반할 수 있다. 일부 이러한 예에서, 저에너지 비트 깊이는 20 비트이고, 중간 에너지 비트 깊이는 16 비트이며, 고에너지 비트 깊이는 12 비트일 수 있다. 그러나, 이들은 단지 예시적인 예일 뿐이다. 하나의 대안적인 구현에서, 저에너지 비트 깊이는 24 비트이고, 중간 에너지 비트 깊이는 20 비트 및 16 비트이며, 고에너지 비트 깊이는 12 비트이다. 또 다른 대안적인 구현에서, 저에너지 비트 깊이는 20 비트이고, 중간 에너지 비트 깊이는 16 비트 및 12 비트이며, 고에너지 비트 깊이는 8 비트다.

유사하게, Prop _n 을 대응하는 비트 깊이에 매핑하기 위한 임계 에너지 값은 특정한 구현에 따라 변할 수 있다. 일부 이러한 예에서, 저에너지 비트 깊이는 총 에너지의 0.1% 미만을 갖는 오디오 객체에 할당될 수 있고, 중간 에너지 비트 깊이는 총 에너지의 6% 미만을 갖는 오디오 객체에 할당될 수 있고, 고에너지 비트 깊이는 총 에너지의 6% 이상을 갖는 오디오 객체에 할당될 수 있다. 다른 예에서, 저에너지 비트 깊이는 총 에너지의 0.1% 미만을 갖는 오디오 객체에 할당될 수 있고, 제1 중간 에너지 비트 깊이는 총 에너지의 1% 미만을 갖는 오디오 객체에 할당될 수 있고, 제2 중간 에너지 비트 깊이는 총 에너지의 10% 미만을 갖는 오디오 객체에 할당될 수 있고, 고에너지 비트 깊이는 총 에너지의 10% 이상을 갖는 오디오 객체에 할당될 수 있다. 다른 구현은, 더 많거나 더 적은 비트 깊이들, 각각의 비트 깊이에 대한 상이한 비트 값들, 비트 깊이들에 대한 상이한 임계 에너지 값들 등을 포함할 수 있다.

이 예에 따르면, 블록 620은 또한, 오디오 객체들 각각에 대한, 추정된 양자화 비트 깊이에 대응하는 양자화 에러를 결정하는 단계를 수반한다. 양자화 에러는, 오디오 신호를 일시적으로 양자화하고, 양자화된 오디오 신호를, 예를 들어, 샘플-바이-샘플 차감(subtraction by sample by sample)을 통해 원래의 오디오 신호와 비교함으로써 추정될 수 있다. 각각의 샘플 양자화 에러는 제곱되고 합산되어, 각각의 오디오 객체에 대한 양자화 프로세스에 의해 도입된 노이즈 레벨을 결정하기 위한 단일 메트릭인 양자화 에러 에너지를 결정할 수 있다. 일부 예에서, 양자화 에러 에너지는 샘플들의 각각의 프레임에 대해 계산될 수 있다. 양자화 에러를 결정하는 것은, 추정된 양자화 비트 깊이 뿐만 아니라 수신된 오디오 데이터를 인코딩하는데 이용된 비트 수에 의존할 수 있다. 예를 들어, 오디오 객체에 대한 추정된 양자화 비트 깊이가 (저에너지 비트 깊이에 대응할 수 있는) 24 비트이고 수신된 오디오 데이터가 24 비트로 인코딩된 경우, 블록 620은 오디오 객체에 대한 제로의 양자화 에러를 결정하는 단계를 수반할 수 있다.

이 예에서, 블록 625는 오디오 객체들 모두에 대한 총 노이즈 메트릭을 계산하는 단계를 수반한다. 여기서, 총 노이즈 메트릭은 오디오 객체들 각각에 대한 추정된 양자화 비트 깊이에 대응하는 총 양자화 에러에 적어도 부분적으로 기초한다. 예를 들어, 총 노이즈 메트릭은 오디오 객체들 각각에 대한 양자화 에러 에너지를 합산함으로써 결정될 수 있다. 일부 구현은 오디오 신호들 중 적어도 일부를 디더링하는 단계를 수반할 수 있다. 이러한 구현에서, 총 노이즈 메트릭은 또한, 디더링 노이즈를 포함할 수 있다.

일부 구현은, 오디오 객체들 각각에 대해, 복수의 양자화 비트 깊이들 각각에 대응하는 오디오 객체 양자화 에러를 추정하는 단계를 수반할 수 있다. 이러한 구현은, 오디오 객체들 모두에 대한, 복수의 양자화 비트 깊이의 각각에 대응하는 총 양자화 에러를 계산하는 단계를 수반할 수 있다. 총 양자화 에러는 오디오 객체 양자화 에러들 각각의 합일 수 있다. 일부 이러한 구현은 또한, 추정된 오디오 객체 양자화 에러 및 계산된 총 양자화 에러를 적어도 일시적으로 저장하는 단계를 수반할 수 있다. 예를 들어, 이러한 구현은, 추정된 오디오 객체 양자화 에러 및 계산된 총 양자화 에러를 메모리 시스템(515)에 또는 제어 시스템(510)의 메모리 시스템에 저장하는 단계를 수반할 수 있다.

도 6에 도시된 예에서, 블록 630은, 총 노이즈 메트릭 및 총 에너지 값에 대응하는 총 신호-대-노이즈 비를 계산하는 단계를 수반한다. 총 신호-대-노이즈 비는, 예를 들어, 총 에너지 값을 총 노이즈 메트릭으로 나눈 값일 수 있다.

이 구현에서, 블록 635는, 신호-대-노이즈 비 임계값을 총 신호-대-노이즈 비에 적용함으로써 오디오 객체들 각각에 대한 최종 양자화 비트 깊이를 결정하는 단계를 수반한다. 신호-대-노이즈 비 임계값은 특정한 구현에 따라 달라질 수 있다. 일부 예에서, 신호-대-노이즈 비 임계값은, 40dB, 45dB, 50dB, 55dB, 60dB 등일 수 있다. 이러한 구현은 최종 양자화 비트 깊이에 따라 오디오 객체들 각각에 대응하는 오디오 신호를 양자화하는 단계를 수반할 수 있다. 일부 예는 양자화된 오디오 신호를 무손실 인코더에 출력하는 단계를 수반할 수 있다. 양자화된 오디오 데이터는, 일부 예에서, Dolby TrueHD^TM 코덱, Apple Lossless Audio Codec, Windows Media Lossless Codec, MPEG-4 Audio Lossless Coding 등의 무손실 코덱에 따라 기능하는 인코더에 입력될 수 있다.

오디오 객체들 각각에 대한 추정된 양자화 비트 깊이에 대응하는 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같다면, 오디오 객체들 각각에 대한 최종 양자화 비트 깊이는 오디오 객체들 각각에 대한 추정된 양자화 비트 깊이로 설정될 수 있다. 그렇지 않다면, 일부 구현은 최종 양자화 비트 깊이를 결정하기 위한 반복적 프로세스를 수반한다.

도 7은 최종 양자화 비트 깊이를 결정하는 반복적 프로세스의 블록들의 예를 도시하는 흐름도이다. 도 7의 블록들 705 내지 735는, 한 예에 따른, 도 6의 블록 635를 구현하기 위한 상세한 흐름도를 제공한다. 도 7의 블록들은, 예를 들어, 도 5의 제어 시스템(510)에 의해 또는 유사한 장치에 의해 수행될 수 있다. 본 명세서에 개시된 다른 방법들에서와 같이, 도 7에 개요된 방법은 표시된 것보다 많거나 적은 수의 블록들을 포함할 수 있고, 도 7의 블록들은 반드시 표시된 순서대로 수행되는 것은 아니다.

이 예에서, 방법(600)의 블록 630으로부터의 출력은, 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같은지를 결정하는 단계를 수반하는 블록 730에 입력된다. 만일 그렇다면, 이 예에서 프로세스는 계속해서, 현재의 양자화 비트 깊이를 최종 양자화 비트 깊이로 설정하는 단계를 수반하는 블록 735로 진행한다.

그러나, 블록 730에서 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같지 않은 것으로 결정되면, 이 예에서, 프로세스는 계속해서, 최대 양자화 에러에 대응하는 오디오 객체를 식별하는 단계를 수반하는 블록 710으로 진행한다. 이 예에서, 블록 715는 최대 양자화 에러에 대응하는 오디오 객체를 양자화하기 위한 비트 깊이를 증가시키는 단계를 수반한다. 비트 깊이를 증가시키는 것은 그 오디오 객체에 대한 양자화 에러를 감소시킨다.

이 구현에서, 블록 720은, 블록 710에서 식별된 오디오 객체에 대한 감소된 양자화 에러를 포함한, 총 노이즈 메트릭을 재계산하는 단계를 수반한다. 여기서, 블록 725는 총 신호-대-노이즈 비를 재계산한 다음, 블록 730에서, 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같은지를 결정하는 단계를 수반한다. 이 구현에 따르면, 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같다고 블록 730에서 결정될 때까지, 식별, 증가, 재계산 프로세스가 반복적으로 수행된다. 블록 735에서 현재의 양자화 비트 깊이가 최종 양자화 비트 깊이로 설정된다.

도 8은 적응형 양자화의 또 다른 방법의 블록들의 예를 도시하는 흐름도이다. 도 8의 블록들은, 예를 들어, 도 5의 제어 시스템(510)에 의해 또는 유사한 장치에 의해 수행될 수 있다. 본 명세서에 개시된 다른 방법들에서와 같이, 도 8에 개요된 방법은 표시된 것보다 많거나 적은 수의 블록들을 포함할 수 있고, 도 8의 블록들은 반드시 표시된 순서대로 수행되는 것은 아니다. 예를 들어, 일부 구현에서는, 블록 815가 블록 820 이후에 수행될 수 있다.

이 예에서, 블록 805는 복수의 오디오 객체를 포함하는 오디오 데이터의 프레임을 수신하는 단계를 수반한다. 오디오 객체는 오디오 신호 및 연관된 오디오 객체 메타데이터를 포함한다. 여기서, 블록 810은 도 6의 블록들 610-635를 수행하는 단계를 수반한다. 일부 구현에서, 최종 양자화 비트 깊이를 결정하는 단계는 도 7의 블록들 705 내지 735를 수행하는 단계를 수반할 수 있다. 이 예에서, 블록 815는 최종 양자화 비트 깊이에 따라 프레임의 오디오 객체들 각각에 대응하는 오디오 신호를 양자화하는 단계를 수반한다.

이 구현에 따르면, 블록 820은 처리될 오디오 데이터의 추가 프레임들이 있는지를 결정하는 단계를 수반한다. 만일 그렇다면, 이 방법은 블록 805로 되돌아 간다. 그렇지 않다면, 이 예에서, 블록 825에서 양자화된 오디오 신호가 무손실 인코더에 출력된다. 대안적인 예에서, 블록 815 이후에, 각각의 프레임은, 무손실 인코더일 수 있는, 인코더에 직접 전달될 수 있다. 이러한 예에서, 블록 825는 블록 815 이후에 수행될 것이다.

본 개시내용에서 설명된 구현들에 대한 다양한 수정이 본 기술분야의 통상의 기술자에게는 자명할 것이다. 여기서 정의된 일반 원리는 본 개시내용의 사상과 범위로부터 벗어나지 않고 다른 구현들에 적용될 수 있다. 따라서, 청구항들은 여기서 도시된 구현들로 제한되도록 의도한 것은 아니며, 본 개시내용과 여기서 개시된 원리 및 신규한 피처들과 일치하는 가장 넓은 범위에 따라야 한다.

본 개시내용의 다양한 양태는 다음과 같은 열거된 예시적 실시예(Enumerated example Embodiment)(EEE)로부터 이해될 수 있다:

EEE 1. 오디오 데이터를 처리하는 방법으로서, 상기 방법은:

복수의 오디오 객체를 포함하는 오디오 데이터를 수신하는 단계 - 상기 오디오 객체들은 오디오 신호 및 연관된 오디오 객체 메타데이터를 포함함 - ;

상기 오디오 객체들 각각에 대한 중요도 메트릭을 결정하는 단계 - 상기 중요도 메트릭은 에너지 메트릭에 적어도 부분적으로 기초함 - ;

상기 오디오 객체들 모두에 대한 전역적 중요도 메트릭을 결정하는 단계 - 상기 전역적 중요도 메트릭은 상기 오디오 객체들 각각의 에너지 메트릭을 합산함으로써 계산된 총 에너지 값에 적어도 부분적으로 기초함 - ;

상기 오디오 객체들 각각에 대한 추정된 양자화 비트 깊이 및 양자화 에러를 결정하는 단계;

상기 오디오 객체들 모두에 대한 총 노이즈 메트릭을 계산하는 단계 - 상기 총 노이즈 메트릭은 상기 추정된 양자화 비트 깊이에 대응하는 총 양자화 에러에 적어도 부분적으로 기초함 - ;

총 노이즈 메트릭 및 상기 총 에너지 값에 대응하는 총 신호-대-노이즈 비를 계산하는 단계; 및

신호-대-노이즈 비 임계값을 상기 총 신호-대-노이즈 비에 적용함으로써 상기 오디오 객체들 각각에 대한 최종 양자화 비트 깊이를 결정하는 단계

를 포함한다.

EEE 2. EEE 1의 방법에서, 상기 최종 양자화 비트 깊이를 결정하는 단계는:

최대 양자화 에러에 대응하는 오디오 객체를 식별하는 단계;

상기 최대 양자화 에러에 대응하는 상기 오디오 객체를 양자화하기 위한 비트 깊이를 증가시키는 단계;

상기 총 노이즈 메트릭을 재계산하는 단계;

상기 총 신호-대-노이즈 비를 재계산하는 단계; 및

상기 총 신호-대-노이즈 비가 상기 신호-대-노이즈 비 임계값보다 작거나 같은지를 결정하는 단계

를 수반한다.

EEE 3. EEE 2의 방법에서, 상기 식별, 증가 및 재계산 프로세스들은, 상기 총 신호-대-노이즈 비가 상기 신호-대-노이즈 비 임계값보다 작거나 같다고 결정될 때까지 반복적으로 수행된다.

EEE 4. EEE 1 내지 EEE 3 중 어느 하나의 방법은,

상기 오디오 객체들 각각에 대해, 복수의 양자화 비트 깊이들 각각에 대응하는 오디오 객체 양자화 에러를 추정하는 단계;

상기 오디오 객체들 모두에 대해, 상기 복수의 양자화 비트 깊이들 각각에 대응하는 총 양자화 에러를 계산하는 단계; 및

추정된 오디오 객체 양자화 에러 및 계산된 총 양자화 에러를 적어도 일시적으로 저장하는 단계

를 더 포함한다.

EEE 5. EEE 1 내지 EEE 4 중 어느 하나의 방법에서, 상기 중요도 메트릭은 오디오 객체 메타데이터에 적어도 부분적으로 기초한다.

EEE 6. EEE 5의 방법에서, 상기 오디오 객체 메타데이터는 오디오 객체 위치 데이터를 포함하고, 상기 중요도 메트릭은 상기 오디오 객체 위치 데이터에 적어도 부분적으로 기초한다.

EEE 7. EEE 1 내지 EEE 6 중 어느 하나의 방법은, 상기 오디오 신호를 디더링하는 단계를 더 포함하고, 상기 총 노이즈 메트릭은 디더링 노이즈를 포함한다.

EEE 8. EEE 1 내지 EEE 7 중 어느 하나의 방법에서, 상기 추정된 양자화 비트 깊이를 결정하는 단계는:

상기 총 에너지 값에 대한 각각의 오디오 객체의 에너지 메트릭의 에너지 비를 결정하는 단계; 및

상기 에너지 비에 따라 오디오 객체들 각각에 대한 상기 추정된 양자화 비트 깊이를 결정하는 단계

를 수반한다.

EEE 9. EEE 1 내지 EEE 8 중 어느 하나의 방법에서, 상기 에너지 메트릭은 주파수의 함수로서 사람의 청각 민감도에 대응하는 인지적 에너지 메트릭이다.

EEE 10. EEE 1 내지 EEE 9 중 어느 하나의 방법은, 각각의 오디오 객체의 에너지 메트릭에 따라 상기 오디오 객체들을 정렬하는 단계를 더 포함한다.

EEE 11. EEE 1 내지 EEE 10 중 어느 하나의 방법에서, 상기 복수의 오디오 객체는 오디오 데이터의 단일 프레임에 대응한다.

EEE 12. EEE 1 내지 EEE 11 중 어느 하나의 방법은, 상기 최종 양자화 비트 깊이에 따라 상기 오디오 객체들 각각에 대응하는 오디오 신호를 양자화하는 단계를 더 포함한다.

EEE 13. EEE 12의 방법은, 양자화된 오디오 신호를 무손실 인코더에 출력하는 단계를 더 포함한다.

EEE 14. 소프트웨어가 저장된 비일시적인 매체로서, 상기 소프트웨어는:

복수의 오디오 객체를 포함하는 오디오 데이터를 수신하고 - 상기 오디오 객체는 오디오 신호 및 연관된 오디오 객체 메타데이터를 포함함 - ;

상기 오디오 객체들 각각에 대한 중요도 메트릭을 결정하며 - 상기 중요도 메트릭은 에너지 메트릭에 적어도 부분적으로 기초함 - ;

상기 오디오 객체들 모두에 대한 전역적 중요도 메트릭을 결정하고 - 상기 전역적 중요도 메트릭은 상기 오디오 객체들 각각의 에너지 메트릭을 합산함으로써 계산된 총 에너지 값에 적어도 부분적으로 기초함 - ;

상기 오디오 객체들 각각에 대한 추정된 양자화 비트 깊이 및 양자화 에러를 결정하며;

상기 오디오 객체들 모두에 대한 총 노이즈 메트릭을 계산하고 - 상기 총 노이즈 메트릭은 상기 추정된 양자화 비트 깊이에 대응하는 총 양자화 에러에 적어도 부분적으로 기초함 - ;

상기 총 노이즈 메트릭 및 상기 총 에너지 값에 대응하는 총 신호-대-노이즈 비를 계산하며;

신호-대-노이즈 비 임계값을 상기 총 신호-대-노이즈 비에 적용함으로써 상기 오디오 객체들 각각에 대한 최종 양자화 비트 깊이를 결정

하기 위해 하나 이상의 디바이스를 제어하기 위한 명령어들을 포함한다.

EEE 15. EEE 14의 비일시적인 매체에서, 상기 최종 양자화 비트 깊이를 결정하는 것은:

최대 양자화 에러에 대응하는 오디오 객체를 식별하는 것;

상기 최대 양자화 에러에 대응하는 상기 오디오 객체를 양자화하기 위한 비트 깊이를 증가시키는 것;

상기 총 노이즈 메트릭을 재계산하는 것;

상기 총 신호-대-노이즈 비를 재계산하는 것; 및

상기 총 신호-대-노이즈 비가 상기 신호-대-노이즈 비 임계값보다 작거나 같은지를 결정하는 것

을 수반한다.

EEE 16. EEE 15의 비일시적인 매체에서, 상기 소프트웨어는, 상기 식별, 증가 및 재계산 프로세스들을, 상기 총 신호-대-노이즈 비가 상기 신호-대-노이즈 비 임계값보다 작거나 같다고 결정될 때까지 반복적으로 수행하기 위한 명령어들을 포함한다.

EEE 17. 장치는,

인터페이스 시스템; 및

제어 시스템을 포함하고, 상기 제어 시스템은:

상기 인터페이스 시스템을 통해, 복수의 오디오 객체를 포함하는 오디오 데이터를 수신하고 - 상기 오디오 객체는 오디오 신호 및 연관된 오디오 객체 메타데이터를 포함함 - ;

총 노이즈 메트릭 및 상기 총 에너지 값에 대응하는 총 신호-대-노이즈 비를 계산하며;

신호-대-노이즈 비 임계값을 상기 총 신호-대-노이즈 비에 적용함으로써 상기 오디오 객체들 각각에 대한 최종 양자화 비트 깊이를 결정하고;

상기 최종 양자화 비트 깊이에 따라 상기 오디오 객체들 각각에 대응하는 오디오 신호를 양자화

할 수 있다.

EEE 18. EEE 17의 장치에서, 상기 최종 양자화 비트 깊이를 결정하는 것은:

최대 양자화 에러에 대응하는 오디오 객체를 식별하는 것;

상기 총 노이즈 메트릭을 재계산하는 것;

상기 총 신호-대-노이즈 비를 재계산하는 것; 및

을 수반한다.

EEE 19. EEE 18의 장치에서, 상기 제어 시스템은, 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같다고 상기 제어 시스템이 결정할 때까지, 상기 식별, 증가 및 재계산 프로세스들을 반복적으로 수행할 수 있다.

EEE 20. EEE 17 내지 EEE 19 중 어느 하나의 장치에서, 상기 제어 시스템은, 상기 총 에너지 값이 비-제로인지를 결정하고 상기 총 에너지 값이 비-제로인 경우에만, 상기 추정된 양자화 비트 깊이를 결정하고, 상기 총 노이즈 메트릭을 계산하고, 상기 총 신호-대-노이즈 비를 계산할 수 있다.

EEE 21. EEE 17 내지 EEE 20 중 어느 하나의 장치에서, 상기 제어 시스템은, 범용 단일 또는 다중 칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 또는 기타의 프로그램가능한 로직 디바이스, 개별 게이트 또는 트랜지스터 로직, 또는 개별 하드웨어 컴포넌트 중 적어도 하나를 포함한다.

EEE 22. EEE 17 내지 EEE 21 중 어느 하나의 장치에서, 상기 인터페이스 시스템은, 네트워크 인터페이스, 상기 제어 시스템과 메모리 시스템 사이의 인터페이스, 상기 제어 시스템과 또 다른 디바이스 사이의 인터페이스, 또는 외부 디바이스 인터페이스 중 적어도 하나를 포함한다.

EEE 23. 장치는,

인터페이스 시스템; 및

제어 수단을 포함하고, 상기 제어 수단은:

하기 위한 것이다.

EEE 24. EEE 23의 장치에서, 상기 최종 양자화 비트 깊이를 결정하는 것은:

최대 양자화 에러에 대응하는 오디오 객체를 식별하는 것;

상기 총 노이즈 메트릭을 재계산하는 것;

상기 총 신호-대-노이즈 비를 재계산하는 것; 및

을 수반한다.

EEE 25. EEE 24의 장치에서, 상기 제어 시스템은, 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같다고 상기 제어 수단이 결정할 때까지, 상기 식별, 증가 및 재계산 프로세스들을 반복적으로 수행하기 위한 수단을 포함한다.

Claims

오디오 데이터를 처리하는 방법으로서,
복수의 오디오 객체를 포함하는 오디오 데이터를 수신하는 단계 - 상기 오디오 객체들은 오디오 신호들 및 연관된 오디오 객체 메타데이터를 포함함 - ;
상기 오디오 객체들 각각에 대한 중요도 메트릭을 결정하는 단계 - 상기 중요도 메트릭은 에너지 메트릭에 적어도 부분적으로 기초함 - ;
상기 오디오 객체들 모두에 대한 전역적 중요도 메트릭(global importance metric)을 결정하는 단계 - 상기 전역적 중요도 메트릭은 상기 오디오 객체들 각각의 에너지 메트릭을 합산함으로써 계산된 총 에너지 값에 적어도 부분적으로 기초함 - ;
상기 오디오 객체들 각각에 대한 추정된 양자화 비트 깊이 및 양자화 에러를 결정하는 단계;
상기 오디오 객체들 모두에 대한 총 노이즈 메트릭을 계산하는 단계 - 상기 총 노이즈 메트릭은 상기 추정된 양자화 비트 깊이에 대응하는 총 양자화 에러에 적어도 부분적으로 기초함 - ;
상기 총 노이즈 메트릭 및 상기 총 에너지 값에 대응하는 총 신호-대-노이즈 비를 계산하는 단계; 및
상기 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같은지를 결정하고;
상기 총 신호-대-노이즈 비가 상기 신호-대-노이즈 비 임계값을 초과하는 것으로 결정된다면, 상기 총 신호-대-노이즈 비가 상기 신호-대-노이즈 비 임계값보다 작거나 같다고 결정될 때까지 하기의 단계들:
최대 양자화 에러에 대응하는 오디오 객체를 식별하는 단계;
상기 최대 양자화 에러에 대응하는 상기 오디오 객체를 양자화하기 위한 비트 깊이를 증가시키는 단계;
상기 총 노이즈 메트릭을 재계산하는 단계; 및
상기 총 신호-대-노이즈 비를 재계산하는 단계
를 반복적으로 수행함으로써, 상기 오디오 객체들 각각에 대한 최종 양자화 비트 깊이를 결정하는 단계
를 포함하고,
상기 방법은 상기 최종 양자화 비트 깊이들에 따라 상기 오디오 객체들 각각에 대응하는 상기 오디오 신호들을 양자화하는 단계를 더 포함하는 방법.
제1항에 있어서,
상기 오디오 객체들 각각에 대해, 복수의 양자화 비트 깊이들 각각에 대응하는 오디오 객체 양자화 에러를 추정하는 단계;
상기 오디오 객체들 모두에 대해, 상기 복수의 양자화 비트 깊이들 각각에 대응하는 총 양자화 에러를 계산하는 단계; 및
추정된 오디오 객체 양자화 에러들 및 계산된 총 양자화 에러들을 적어도 일시적으로 저장하는 단계
를 더 포함하는 방법.
제1항 또는 제2항에 있어서, 상기 중요도 메트릭은 상기 오디오 객체 메타데이터에 적어도 부분적으로 기초하는, 방법.
제3항에 있어서, 상기 오디오 객체 메타데이터는 오디오 객체 위치 데이터를 포함하고, 상기 중요도 메트릭은 상기 오디오 객체 위치 데이터에 적어도 부분적으로 기초하는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 오디오 신호들을 디더링(dithering)하는 단계를 더 포함하고, 상기 총 노이즈 메트릭은 디더링 노이즈를 포함하는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 추정된 양자화 비트 깊이를 결정하는 단계는:
상기 총 에너지 값에 대한 각각의 오디오 객체의 에너지 메트릭의 에너지 비를 결정하는 단계; 및
상기 에너지 비에 따라 각각의 오디오 객체에 대한 상기 추정된 양자화 비트 깊이를 결정하는 단계
를 수반하는, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 에너지 메트릭은 주파수의 함수로서 사람의 청각 민감도에 대응하는 인지적 에너지 메트릭(perceptual energy metric)인, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 각각의 오디오 객체의 상기 에너지 메트릭에 따라 상기 오디오 객체들을 정렬하는(sorting) 단계를 더 포함하는 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 복수의 오디오 객체는 오디오 데이터의 단일 프레임에 대응하는, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서, 양자화된 오디오 신호들을 무손실 인코더에 출력하는 단계를 더 포함하는 방법.
장치로서,
인터페이스 시스템; 및
제어 시스템을 포함하고, 상기 제어 시스템은:
상기 인터페이스 시스템을 통해, 복수의 오디오 객체를 포함하는 오디오 데이터를 수신하고 - 상기 오디오 객체들은 오디오 신호들 및 연관된 오디오 객체 메타데이터를 포함함 - ;
상기 오디오 객체들 각각에 대한 중요도 메트릭을 결정하며 - 상기 중요도 메트릭은 에너지 메트릭에 적어도 부분적으로 기초함 - ;
상기 오디오 객체들 모두에 대한 전역적 중요도 메트릭을 결정하고 - 상기 전역적 중요도 메트릭은 상기 오디오 객체들 각각의 에너지 메트릭을 합산함으로써 계산된 총 에너지 값에 적어도 부분적으로 기초함 - ;
상기 오디오 객체들 각각에 대한 추정된 양자화 비트 깊이 및 양자화 에러를 결정하며;
상기 오디오 객체들 모두에 대한 총 노이즈 메트릭을 계산하고 - 상기 총 노이즈 메트릭은 상기 추정된 양자화 비트 깊이에 대응하는 총 양자화 에러에 적어도 부분적으로 기초함 - ;
상기 총 노이즈 메트릭 및 상기 총 에너지 값에 대응하는 총 신호-대-노이즈 비를 계산하며;
상기 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같은지를 결정하고;
상기 총 신호-대-노이즈 비가 상기 신호-대-노이즈 비 임계값을 초과하는 것으로 결정된다면, 상기 총 신호-대-노이즈 비가 상기 신호-대-노이즈 비 임계값보다 작거나 같다고 결정될 때까지 하기의 단계들:
최대 양자화 에러에 대응하는 오디오 객체를 식별하는 단계;
상기 최대 양자화 에러에 대응하는 상기 오디오 객체를 양자화하기 위한 비트 깊이를 증가시키는 단계;
상기 총 노이즈 메트릭을 재계산하는 단계; 및
상기 총 신호-대-노이즈 비를 재계산하는 단계
를 반복적으로 수행함으로써, 상기 오디오 객체들 각각에 대한 최종 양자화 비트 깊이를 결정
하도록 구성되고,
상기 제어 시스템은 상기 최종 양자화 비트 깊이들에 따라 상기 오디오 객체들 각각에 대응하는 상기 오디오 신호들을 양자화하도록 추가로 구성되는, 장치.
제11항에 있어서, 상기 제어 시스템은, 상기 총 에너지 값이 비-제로인지를 결정하고 상기 총 에너지 값이 비-제로인 경우에만, 상기 추정된 양자화 비트 깊이를 결정하고, 상기 총 노이즈 메트릭을 계산하고, 상기 총 신호-대-노이즈 비를 계산하도록 구성되는, 장치.
소프트웨어가 저장된 비일시적인 매체로서, 상기 소프트웨어는:
복수의 오디오 객체를 포함하는 오디오 데이터를 수신하고 - 상기 오디오 객체들은 오디오 신호들 및 연관된 오디오 객체 메타데이터를 포함함 - ;
상기 오디오 객체들 각각에 대한 중요도 메트릭을 결정하며 - 상기 중요도 메트릭은 에너지 메트릭에 적어도 부분적으로 기초함 - ;
상기 오디오 객체들 모두에 대한 전역적 중요도 메트릭을 결정하고 - 상기 전역적 중요도 메트릭은 상기 오디오 객체들 각각의 상기 에너지 메트릭을 합산함으로써 계산된 총 에너지 값에 적어도 부분적으로 기초함 - ;
상기 오디오 객체들 각각에 대한 추정된 양자화 비트 깊이 및 양자화 에러를 결정하며;
상기 오디오 객체들 모두에 대한 총 노이즈 메트릭을 계산하고 - 상기 총 노이즈 메트릭은 상기 추정된 양자화 비트 깊이에 대응하는 총 양자화 에러에 적어도 부분적으로 기초함 - ;
상기 총 노이즈 메트릭 및 상기 총 에너지 값에 대응하는 총 신호-대-노이즈 비를 계산하며;
상기 총 신호-대-노이즈 비가 신호-대-노이즈 비 임계값보다 작거나 같은지를 결정하고;
상기 총 신호-대-노이즈 비가 상기 신호-대-노이즈 비 임계값을 초과하는 것으로 결정된다면, 상기 총 신호-대-노이즈 비가 상기 신호-대-노이즈 비 임계값보다 작거나 같다고 결정될 때까지 하기의 단계들:
최대 양자화 에러에 대응하는 오디오 객체를 식별하는 단계;
상기 최대 양자화 에러에 대응하는 오디오 객체를 양자화하기 위한 비트 깊이를 증가시키는 단계;
상기 총 노이즈 메트릭을 재계산하는 단계; 및
상기 총 신호-대-노이즈 비를 재계산하는 단계
를 반복적으로 수행함으로써, 상기 오디오 객체들 각각에 대한 최종 양자화 비트 깊이를 결정
하기 위해 하나 이상의 디바이스를 제어하기 위한 명령어들을 포함하고,
상기 소프트웨어는 상기 최종 양자화 비트 깊이들에 따라 상기 오디오 객체들 각각에 대응하는 상기 오디오 신호들을 양자화하기 위해 하나 이상의 디바이스를 제어하기 위한 명령어들을 더 포함하는, 비일시적인 매체.