KR101849612B1

KR101849612B1 - 새로운 미디어 장치 상에 내장된 라우드니스 메타데이터를 갖거나 또는 갖지 않고 미디어의 정규화된 오디오 재생을 위한 방법 및 장치

Info

Publication number: KR101849612B1
Application number: KR1020157022271A
Authority: KR
Inventors: 로버트 블레이드
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2013-01-28
Filing date: 2014-01-27
Publication date: 2018-04-18
Also published as: MX2015009534A; BR122022020319A8; BR112015017295A2; JP6445460B2; BR122022020284A8; BR122022020326A8; RU2639663C2; BR122022020276B1; CN105190750B; EP2948947A1; JP2016509693A; BR122021011658B1; MX351187B; BR112015017295B1; BR122022020319B1; US9576585B2; BR122022020276A8; AR096574A1; US20150332685A1; CN110853660B

Abstract

오디오 출력 신호를 생산하기 위하여 비트스트림을 디코딩하기 위한 디코더 장치가 제공되는데, 비트스트림은 오디오 데이터 및 선택적으로 기준 라우드니스 값을 포함하는 라우드니스 메타데이터를 포함하며, 디코더 장치는 오디오 데이터로부터 오디오 신호를 재구성하도록 구성되는 오디오 디코더 장치; 및 오디오 신호를 기초로 하여 오디오 출력 신호를 생산하도록 구성되는 신호 프로세서;를 포함하고, 신호 프로세서는 오디오 출력 신호의 레벨을 조정하도록 구성되는 이득 제어 장치를 포함하며, 이득 제어 장치는 라우드니스 값을 생성하도록 구성되는 기준 라우드니스 디코더를 포함하고, 기준 라우드니스 값이 비트스트림 내에 존재하는 경우에 라우드니스 값은 기준 라우드니스 값이며, 이득 제어 장치는 사용자가 볼륨 제어 값을 제어하도록 허용하는 사용자 인터페이스에 의해 제공되는, 라우드니스 값을 기초로 하고 볼륨 제어 값을 기초로 하여 이득 값을 계산하도록 구성되는 이득 계산기를 포함하며, 이득 제어 장치는 이득 값을 기초로 하여 오디오 출력 신호의 라우드니스 레벨을 제어하도록 구성되는 라우드니스 프로세서를 포함한다.

Description

새로운 미디어 장치 상에 내장된 라우드니스 메타데이터를 갖거나 또는 갖지 않고 미디어의 정규화된 오디오 재생을 위한 방법 및 장치{METHOD AND APPARATUS FOR NORMALIZED AUDIO PLAYBACK OF MEDIA WITH AND WITHOUT EMBEDDED LOUDNESS METADATA ON NEW MEDIA DEVICES}

본 발명은 전자 재생 장치들 상에서 디지털 형태로 재생되는 오디오, 비디오, 및 멀티미디어 콘텐츠의 라우드니스(loudness)의 제어, 특히, 그러나 전적으로는 아닌 새로운 미디어 장치들에서 발생할 수 있는 것과 같이 내장된 라우드니스 메타데이터로 그리고 내장된 라우드니스 메타데이터 없이 준비되는 콘텐츠를 갖는 재생 라우드니스의 제어에 관한 것이다.

음악, 비디오, 및 다른 멀티미디어 콘텐츠의 제작과 전송에 있어서, 소비자가 노래 간(song to song) 또는 프로그램 간 적절한 라우드니스로 오디오 신호를 청취하는 것을 보장하기 위한 라우드니스 정규화 과정이 수행된다. 녹음과 영화의 초기 이후에, 이는 제작 과정 동안에 또는 극장용 재생 표준을 통하여 수행되었다. 음악과 라디오 방송 산업에서의 오늘날 통상적 관행은 미디어의 최대 피크 레벨 근처의 값으로 라우드니스를 조정하는 것이나. 영화 또는 텔레비전 산업에서의 관행은 최대 피크 레벨 아래의 20 내지 31 dB일 수 있는 몇몇 표준 라우드니스 레벨들 중 어느 하나를 사용하는 것이다. 미디어 융합 이전의 시대에, 이는 소비자들에 의해 간과되었는데 그 이유는 각각의 콘텐츠의 형태를 재생하기 위하여 개별 장치들 또는 볼륨 설정들이 사용되었기 때문이다.

음악과 영화 콘텐츠 모두를 재생하기 위한 휴대폰 또는 휴대용 미디어 플레이어와 같은 모바일 장치들의 출현으로, 제작 관행에서의 이러한 차이는 만일 콘텐츠가 변형 없이 장치에 전송되면, 30 dB 정도일 수 있는 라우드니스 차이에 이르게 한다. 이는 하나의 콘텐츠의 형태로부터 다른 형태로 전환할 때, 너무 조용한 영화, 또는 너무 시끄러운 음악에 이르게 할 수 있다.

관련 동향은 녹음의 마스터링(mastering) 동안에 강력한 동적 범위(dynamic range) 압축, 제한, 및 클리핑(clipping)의 사용을 통한 많은 장르의 녹음된 음악의 라우드니스의 증가이다. 그러한 마스터링은 오늘날 판매되는 대부분의 음악이 MPEG 고급 오디오 코딩 및 MP3와 같은 손실 데이터 압축된 포맷들이더라도, 콤팩트 디스크들과 같은 무손실 녹음 미디어만을 고려하여 수행된다. 데이터 압축 과정은 신호의 완전 스케일(full-scale) 한계 또는 최대 피크 값 위의 파형의 오버슈트(overshoot)를 야기하는 재생 동안에 디코더 내에서 재구성되는 시간 도메인 파형의 변화를 도입할 수 있다. 일반적으로 모바일 장치들에서 사용되는 고정점(fixed-point) 디코더(또는 포화 부동 소수점 디코더)에서, 이는 재생된 신호 내의 부가적인 가청 클리핑을 야기하는, 완전-스케일 한계에 대한 오버슈트의 클리핑에 이를 수 있다.

예술 목적을 위한 일부 경우에 있어서 이러한 음악의 강력한 압축 및 클리핑이 수행되나, 이는 통상적으로 다른 것보다 이를 더 크게 들리도록 함으로써 녹음의 상업적 호소를 증가시키거나, 또는 공항 또는 시끄러운 장소뿐만 아니라 조용한 환경과 같은, 모든 청취 환경에서 이해될 수 있는 콘텐츠를 제공하기 위한 시도로서 수행된다.

영화 및 비디오 산업에서, 극적인 효과를 위하여 그리고 더 매력적인 경험을 생성하기 위하여 일부 장르들에서 광범위한 오디오 동적 범위들이 사용된다. 돌비 디지털(Dolby Digital) 또는 MPEG-4 고급 오디오 코딩 코덱들을 통하여 소비자에 전달될 때, 오디오 동적 범위 제어 메타데이터는 종종 잡음 환경이 존재하거나 또는 시끄러운 장면들이 심하게 방해할 수 있는 경우들을 위하여 동적 범위가 선택적으로 수신기 또는 재생기에서 감소되는 것을 허용하도록 포함된다.

돌비 디지털로 인코딩된 DVD 또는 블루레이(BluRay) 콘텐츠에 포함되거나, 혹은 돌비 디지털(Advanced Television Systtem Committee, Inc. 고급 압축 표준 A/52에서 표준화된) 또는 MPEG-4 고급 오디오 코딩(ISO/IEC 14496-3 및 ETSI TS 101 154에서 표준화된)으로 인코딩된 텔레비전 신호들로 전송된 종래의 메타데이터는 다음의 성분들을 포함한다:

1. MPEG 표준들에서 프로그램 기준 레벨로 불리는, 프로그램의 전체 장기간 통합된 라우드니스를 나타내는 단일의, 고정된 메타데이터 값.

2. 스테레오 또는 모노포닉(monophonic) 장치를 통한 출력을 위하여 다중 채널 콘텐츠의 다운믹싱을 제어하도록 사용되는 다운믹스 이득들을 위한 고정된 메타데이터 값들.

3. 오디오 신호 내의 복수의 주파수 대역 또는 영역을 위한 각각의 데이터 압축된 비트스트림 프레임을 위하여 전송된, 동적 범위 제어 이득들 또는 스케일링 인자들의 세트. 하나는 산업 용어로서 "가벼운(light)" 압축을 위하여 사용되고 나머지는 "심한(heavy)" 압축을 위하여 사용된다. 이러한 가볍고 심한 동적 범위 제어 값들의 사용은 일반적으로 작동 모드들 "라인 모드" 및 "무선 주파수 모드"를 위하여 설정되는 디코더 라우드니스 표적 레벨들에서의 연산과 연관된다. 이러한 모드들을 위한 명명 규칙들과 연산점들은 디지털 오디오를 기저대역 케이블들에 대하여 뒤따르는 장치 상의 라인 입력들로 전송되거나 또는 무선 주파수 캐리어에 대하여 아날로그 텔레비전 세트로 전송되는 아날로그 신호들로 전환할 필요가 있었을 때 디지털 미디어의 초기에 확립되었다.

이러한 메타데이터의 사용은 재생 동안에 비-파괴적인 방식으로 재생이 청취 환경에 들어맞도록 허용한다. 서로 다른 동적 범위를 생산하기 위하여, 메타데이터의 서로 다른 세트로, 또는 메타데이터가 전혀 사용되지 않고, 동일한 스트림 또는 파일이 재생될 수 있다. 재생 장치 내에 단독으로 남아있는 압축기의 사용과 달리, 메타데이터를 사용하는 동적 범위 제어는 만일 원하면, 생산 과정 동안에 창조적 예술가들에 의한 압축의 본질의 모니터링 및 제어를 허용한다.

불행하게도, MPEG 고급 오디오 코딩 또는 돌비 디지털 군과 같은 손실 코덱들에서 구현되는 것과 같은 동적 범위 제어는 현대 음악의 라우드니스를 일치시키도록 충분히 강력하게 신호를 압축할 수 없는데, 그 이유는 메타데이터가 20-40 ms의 통상의 프레임 주기들을 갖는, 오디오 압축 프레임에 근거하여 신호의 평균 파워에(잠재적으로 일부 주파수 대역들에서) 영향을 미치기 때문이다. 이러한 프레임 단위의 이득 제어는 높게 처리된 현대 음악의 평균 비율에 대하여 신호의 평균 비율에 대한 피크를 감소시키기에 충분히 빠르지 않다.

이러한 문제를 해결하기 위하여 [5]에서 설명되는 것과 같이 Wolter 등에 의해 설명되는 접근법은 평균 라우드니스를 증가시키기 위하여 재생 장치 내의 디코더 뒤에 오디오 제한기(limiter)를 사용하는 것이다. 이는 라우드니스 일치 문제를 해결할 수 있고, 따라서 음악 및 영화 콘텐츠는 동일한 라우드니스를 가지나, 일부 단점들을 갖는다. 소비자가 아마도 조용한 실내에서 스피커들과 연결된 모바일 장치로 조용한 환경에서 콘텐츠를 재생할 때, 또는 강력한 음향 분리를 갖는 헤드폰들 또는 이어폰들을 사용할 때, 필름 콘텐츠는 바람직하지 않게 음악만큼 강력하게 압축될 것이다. 또한 제한기는 장치 중앙 처리 유닛 또는 디지털 처리 프로세서 상에 부가적인 작업 부하를 도입하고 배터리 수명을 단축시킨다.

음악 파일들 내의 메타데이터로서 국제 전기 통신 연합(ITU) 표준 BS. 1770-2에서 설명된 것과 같이 라우드니스 측정의 인코딩 및 장치의 볼륨 제어에 의해 설정되는 표적 레벨로의 각각의 파일의 재생의 정규화를 제안하는 [6]에서 Camerer 등에 의해 서로 다른 접근법이 설명된다. 이는 아이포드(iPod)와 같은 일부 음악 재생기들이 선택적인 특징이었던, 사운드체크(SoundCheck, www.spple.com) 및 리플레이게인(ReplayGain, www.replaygain.com)과 같은 음악 라우드니스 정규화의 이전 시스템들을 기반으로 한다. 그것들의 접근법에서, 그것들은 디폴트에 의한 설정으로서 라우드니스 정규화의 명령을 지지하나, 그들은 사용자가 라우드니스 정규화를 끌 때 발생하는 것, 또는 더 중요하게는, 라우드니스 메타데이터로 인코딩되지 않은 콘텐츠가 재생될 때 발생하는 것을 지정하지 않는다. 그들의 가정은 모든 콘텐츠가 재생 장치에 의하거나 재생 이전에 아이튠즈(iTunes)와 같은 보증된 신뢰할 수 있는 배급자에 의해 분석될 것이라는 것이다. 부가적으로, 이를 청취 환경에 들어맞도록 콘텐츠의 전체 동적 범위를 조정하기 위한 어떠한 제공도 존재하지 않는다.

따라서, 본 발명의 목적은 소비자들에 의해 이미 보유되었거나 또는 교환된 막대한 양의 종래의 음악 콘텐츠에 기인하여, 잠재적으로 광범위한 동적 범위와 가능한 내장된 라우드니스 메타데이터를 갖는 필름/비디오 스타일 콘텐츠, 및 잠재적으로, 그러나 내장된 라우드니스 메타데이터를 포함하지 않을 것 같은, 잠재적으로 극도로 좁은 동적 범위 및 강력한 압축, 제한, 그리고 클리핑을 갖는 음악 또는 라디오/팟캐스트(podcast) 콘텐츠 모두의 재생 라우드니스의 정규화의 문제에 대한 통일된 접근법을 제공하는 것이다.

본 발명의 또 다른 목적은 동적 범위 제어 메타데이터를 포함하는 콘텐츠의 동적 범위가 소비자의 청취 환경 또는 취향으로 조정되는 것을 허용하는 것이다.

본 발명의 또 다른 목적은 데이터 압축 과정에 의해 도입되는 신호 성분들의 변화에 의해 야기되는, 고급 오디오 코딩, MP3, 또는 돌비 디지털 디코더와 같은, 손실 데이터 압축 오디오 디코더들에서의 잠재적인 클리핑을 방지하는 것이다.

본 발명의 또 다른 목적은 그것들의 콘텐츠 내의 항상 강력한 동적 범위 압축, 제한, 및 클리핑의 추구를 포기하기 위하여 음악 녹음 산업을 위한 가벼운 인센티브를 제공하는 것이다.

본 발명의 또 다른 목적은 라우드니스 처리 또는 클리핑 방지에 의해 야기되는 장치 중앙 처리 유닛 또는 디지털 신호 처리 상의 부가적인 작업부하를 제한하는 것이다.

본 발명의 일 실시 예는 그것으로부터 오디오 출력 신호를 생산하기 위하여 비트스트림을 디코딩하기 위한 디코더 장치를 포함하고, 비트스트림은 오디오 데이터 및 선택적으로 기준 라우드니스 값을 포함하는 라우드니스 메타데이터를 포함하며, 디코더 장치는:

오디오 데이터로부터 오디오 신호를 재구성하도록 구성되는 오디오 디코더 장치; 및

오디오 신호를 기초로 하여 오디오 출력 신호를 생산하도록 구성되는 신호 프로세서;를 포함하고,

신호 프로세서는 오디오 출력 신호의 레벨을 조정하도록 구성되는 이득 제어 장치를 포함하며,

이득 제어 장치는 라우드니스 값을 생성하도록 구성되는 기준 라우드니스 디코더를 포함하고, 기준 라우드니스 값이 비트스트림 내에 존재하는 경우에 라우드니스 값은 기준 라우드니스 값이며,

이득 제어 장치는 사용자가 볼륨 제어 값을 제어하도록 허용하는 사용자 인터페이스에 의해 제공되는, 라우드니스 값을 기초로 하고 볼륨 제어 값을 기초로 하여 이득 값을 계산하도록 구성되는 이득 계산기를 포함하며,

이득 제어 장치는 이득 값을 기초로 하여 오디오 출력 신호의 라우드니스 레벨을 제어하도록 구성되는 라우드니스 프로세서를 포함한다.

오디오 디코더 장치는 압축된 비트스트림의 오디오 데이터로부터 오디오 신호를 재구성할 수 있는 어떠한 장치일 수 있다. 신호 프로세서는 오디오 디코더 장치로부터의 오디오 신호가 거기에 설정될 때 오디오 출력 신호를 생산할 수 있고 아래에 설명되는 것과 같이 이득 제어 장치를 갖는 어떠한 장치일 수 있다. 이득 제어 장치는 오디오 출력 신호의 라우드니스를 제어하도록 설치된 장치이다.

기준 라우드니스 디코더는 비트스트림 내에 포함된 라우드니스 메타데이터를 디코딩하도록 구성된다. 만일 라우드니스 메타데이터가 기준 라우드니스 값을 포함하면, 기준 라우드니스 디코더는 라우드니스 값으로서 바로 이러한 기준 라우드니스 값을 출력한다.

이득 계산기는 기준 라우드니스 값에 의해 출력되는 라우드니스 값 및 디코더 장치의 사용자에 의해 설정되는 볼륨 제어 값을 기초로 하여 이득 값을 계산하기 위한 장치이다. 볼륨 제어 값의 설정을 위하여 어떠한 사용자 인터페이스도 사용될 수 있다. 이득 계산기는 특히 감산기(substractor)일 수 있다.

라우드니스 프로세서는 이득 계산기에 의해 제공되는 이득 값을 기초로 하여 오디오 출력 신호의 라우드니스 레벨을 제어할 수 있다. 라우드니스 프로세서는 특히 곱셈기(multiplier)일 수 있다.

휴대용 장치 또는 소비자 전자 장비에서 사용되는, 돌비 디지털 또는 고급 오디오 코딩 디코더 장치와 같은, 종래의 압축된 디코더 장치와 달리, 압축된 디코더 장치는 사용자의 볼륨 제어에 의해 제어되는 가변 이득 값 또는 디코더 표적 임계 값(decoder target threshold value, 완전-스케일 비트스트림의 디코딩된 레벨과 상응하는)으로 작동될 수 있다. 이는 디코더 장치가 장치의 디지털 오디오 시스템의 최대 완전-스케일 범위 아래에서 정상적으로 잘 작동하도록 허용한다. 그러한 작동은 디코더 오버슈트의 클리핑의 가능성을 방지하고, 정상적으로 필요한 것과 같이, 필름-스타일 콘텐츠의 또 다른 압축 또는 제한 없이, 심한 동적 범위 압축 및 심한 압축과 제한을 갖는 음악 콘텐츠의 라우드니스 정규화에 대한 제한이 없는 필름-스타일 콘텐츠의 라우드니스 정규화를 허용한다.

본 발명의 바람직한 실시 예에서, 라우드니스 값은 기준 라우드니스 값이 비트스트림 내에 존재하지 않는 경우에 미리 설정된 라우드니스 값이다. 이러한 특징은 어떠한 라우드니스 메타데이터도 갖지 않는 비트 스트림들의 고품질 재생을 허용한다.

본 발명의 바람직한 실시 예에서 미리 설정된 라우드니스 값은 -4 dB 및 -10 dB 사이, 특히 완전-스케일 진폭에 언급되는, -6 dB 및 -8 dB 사이의 값으로 설정된다. 현대 음악의 경험적 연구들은 완전-스케일 재생을 위하여 의도된 음악 콘텐츠를 위하여 관찰된 라우드니스의 상한은 약 -7 dB 것을 나타낸다. 따라서, 청구된 것과 같은 미리 설정된 라우드니스 값들은 어떠한 라우드니스 메타데이터도 갖지 않는 비트 스트림들의 재생을 위한 최적화된 모드를 제공한다.

본 발명의 바람직한 실시 예에서 신호 프로세서는 오디오 출력 신호의 동적 범위를 조정하도록 구성되는 동적 범위 제어 장치를 포함하고,

동적 범위 제어 장치는 라우드니스 메타데이터로부터 적어도 하나의 동적 범위 제어 값을 유도하고 대안으로서 유도된 동적 범위 제어 값들 또는 미리 설정된 동적 범위 제어 값 중 하나를 출력하도록 구성되는 동적 범위 제어 스위치를 포함하며,

동적 범위 제어 장치는 동적 범위 제어 스위치에 의해 출력된 동적 범위 제어 값을 기초로 하고 사용자가 압축 제어 값을 제어하도록 허용하는 사용자 인터페이스에 의해 제공되는, 압축 제어 값을 기초로 하여 동적 범위 값을 계산하도록 구성되는 동적 범위 계산기를 포함하며,

동적 범위 제어 장치는 동적 범위 값을 기초로 하여 오디오 출력 신호의 동적 범위를 제어하도록 구성되는 동적 범위 프로세서를 포함한다.

동적 범위 제어 장치는 적어도 하나의 동적 범위 제어 값이 유도되는 것과 같은 방법으로 비트스트림의 라우드니스 메타데이터를 디코딩하도록 구성되는 동적 범위 제어 스위치를 포함한다. 일반적으로 동적 범위 제어 스위치는 가벼운 동적 범위 제어를 위한 하나의 동적 범위 제어 값 및 심한 동적 범위 제어를 위한 또 다른 동적 범위 제어 값이 유도될 수 있는 것과 같은 방법으로 구성된다. 동적 범위 제어 스위치는 이러한 유도된 동적 범위 제어 값들 중 어느 하나 또는 대안으로서 미리 설정된 동적 범위 제어 값을 출력할 수 있다. 동적 범위 제어 스위치는 예를 들면 오디오 출력 신호를 사용하는 뒤따르는 장비에 의존하여, 자동으로 제어될 수 있거나, 또는 사용자 작동에 의해 수동으로 제어될 수 있다. 미리 설정된 동적 범위 제어 값은 예를 들면 0 dB로 설정될 수 있다.

동적 범위 제어 장치는 동적 범위 제어 스위치에 의해 출력되는 동적 범위 제어 값을 기초로 하고 사용자가 압축 제어 값을 제어하도록 허용하는 사용자 인터페이스에 의해 제공되는, 압축 제어 값을 기초로 하여 동적 범위 값을 계산할 수 있는 동적 범위 계산기를 포함할 수 있다. 동적 범위 계산기는 특히 곱셈기일 수 있다.

게다가, 동적 범위 값을 기초로 하여 오디오 출력 신호의 동적 범위를 제어할 수 있는 동적 범위 프로세서가 고려된다. 이러한 특징들에 의해 비트스트림의 재생은 청취 환경을 통하거나 및/또는 청취자 취향에 적용될 수 있다.

본 발명의 바람직한 실시 예에 따르면 신호 프로세서는 출력 오디오 신호의 진폭을 제한하도록 구성되는 제한기 장치를 포함하고, 제한기 장치는 제한기를 갖는 제한기 부품(limiter component), 및 제한기 부품을 제어하도록 구성되는 제어 부품을 포함하며, 적어도 이득 제어 장치에 의해 처리됨으로써 오디오 신호로부터 유도되는, 처리된 신호는 제한기 부품에 입력되며, 오디오 출력 신호는 제한기 부품으로부터 출력된다.

제한기 장치는 디코더 오버슈트 클리핑 방지의 목적을 위한 제한, 청각 손실 방지 및 사용자 선호도를 위한 볼륨 제한, 및 청취 환경 또는 사용자 취향 때문에 필요할 때 피크 제한을 갖는 콘텐츠의 가역 발생을 허용하기 위한 예술적 압축(artistic compression)을 제공한다.

본 발명의 바람직한 실시 예에 따르면 제어 부품은 비트스트림의 비트 레이트에 의존하여 제한기 부품을 제어하도록 구성된다. 비트 레이트가 낮을 때 디코더 오버슈트 클리핑의 가능성은 증가한다. 따라서, 비트스트림의 비트 레이트에 의존하여 제한기 부품dl 제어될 때 디코더 오버슈트 클리핑 방지는 향상된다.

본 발명의 바람직한 실시 예에 따르면 제어 부품은 오디오 디코더 장치의 압축 효율에 의존하여 제한기 부품을 제어하도록 구성된다. 비트스트림을 생산하는 오디오 인코더 장치 및 동시에 비트스트림을 디코딩하는 오디오 디코더 장치의 압축 효율은 비트스트림을 생산하기 위하여 원래 오디오 데이터를 인코딩할 때 얼마나 많은 데이터 양이 감소되는지를 설명한다. 데이터 양이 많이 감소될수록 디코더 오버슈트 클리핑의 가능성은 증가한다. 따라서, 디코더 오버슈트 클리핑 방지는 제한기 부품이 오디오 디코더 장치의 압축 효율에 의존하여 제어될 때 향상된다.

본 발명의 바람직한 실시 예에 따르면 제어 부품은 비트스트림의 라우드니스 메타데이터 내에 전송되고 외부 인코더에 의해 비트스트림으로 전환되는 오디오 소스의 최대 피크 레벨을 나타내는 참 피크 값(true peak value)에 의존하여 제한기 부품을 제어하도록 구성된다. 이러한 참 피크 값의 사용은 오디오 출력 신호의 최대 가능한 피크 레벨을 위한 더 정확한 값의 계산을 허용한다.

본 발명의 바람직한 실시 예에 따르면 제어 부품은 이득 제어 장치의 이득 값에 의존하여 제한기 부품을 제어하도록 구성된다. 오디오 출력 신호의 최대 가능한 피크 레벨은 이러한 하위 경우(sub-case)에 있어서 이득 제어 장치의 이득 값에 의해 결정된다. 만일 상기 값이 0 dB이면, 디코더 장치는 볼륨 제어 장치의 최대 설정에 의해 명령되는 것과 같이 그것의 완전-스케일 제한들에서 작동한다. 상기 볼륨 제어 값이 감소되기 때문에, 디코더 장치는 완전-스케일 비트스트림이 이득 제어 장치의 이득 값에 의해 설정된 최대 레벨에만 도달하는 것과 같이 작동할 것이다.

본 발명의 바람직한 실시 예에 따르면 제어 부품은 청각 손상을 방지하기 위하여 사용자 또는 제조사에 의해 설정된 볼륨 제한 값에 의존하여 제한기 부품을 제어하도록 구성된다. 이러한 특징들에 의해 청각 손상이 효율적으로 방지될 수 있다.

본 발명의 바람직한 실시 예에 따르면 제어 부품은 비트스트림의 라우드니스 메타데이터 내에 전송되고 예술적 제한기 임계 값들, 예술적 제한기 어택(attack) 시간 값들 및/또는 예술적 제한기 해제 시간 값들을 나타내는 예술적 제한기 파라미터들을 기초로 하여 제한기 부품을 제어하도록 구성된다. 이러한 특징은 제한기 장치의 작동이 예술가 또는 콘텐츠 생산자의 창조적 제어 하에서 존재하도록 허용한다. 이전에 설명된 라우드니스 메타데이터 내에 포함된 동적 범위 제어 값들은 콘텐츠의 전체 동적 범위가 100 마이크로초 또는 3초의 일반적인 시간 상수로 작동하는 압축 이득들의 사용을 통한 청취 환경에 들어맞도록 허용한다. 새로운 청취 환경들에서, 이러한 시간 상수들로의 오디오 신호의 압축은 불쾌하게 높은 피크 레벨들 없이 양해도(intelligibility) 또는 즐거움을 위한 충분한 라우드니스를 갖는 신호를 생산하지 않을 수 있다. 또한 종래에 고도로 압축된 "크러싱된(crushed)" 믹스만을 생산한, 음악 창작자들이 "크러싱된" 믹스 및 덜한 제한과 압축을 갖는 "크러싱되지 않은" 믹스 모두를 생산하기 위하여 본 발명의 융통성을 사용하기를 원할 수 있는 가능성이 존재하고, 따라서 소비자들은 조용한 환경들 또는 원할 때 "크러싱되지 않은" 버전을 들을 수 있다.

본 발명의 바람직한 실시 예에 따르면 제어 부품은 제한기 부품을 연속적으로 또는 반복적으로 제어하도록 구성된다. 이러한 특징은 시간에 따른 제한기 부품의 가변 제어를 허용한다.

본 발명의 바람직한 실시 예에 따르면 제한기 장치는 이득 및 지연과 관련하여, 제한기의 전달 함수와 유사한 전달 함수를 갖는 우회 장치(bypass device)에 의해 제한기를 우회하도록 구성된다. 이러한 특징에 의해 신호 프로세서의 작업 부하는 상당히 감소될 수 있다.

본 발명의 일 실시 예는 디코더 및 인코더를 포함하는 시스템을 포함하고, 인코더는 청구된 것과 같이 구성된다.

본 발명의 일 실시 예는 그것으로부터 오디오 출력 신호를 생산하기 위하여 비트스트림을 디코딩하는 방법을 포함하고, 비트스트림은 오디오 데이터 및 선택적으로 기준 라우드니스 값을 포함하는 라우드니스 메타데이터를 포함하며, 방법은:

오디오 디코더 장치를 사용하여 오디오 데이터로부터 오디오 신호를 재구성하는 단계; 및

신호 프로세서를 사용하여 오디오 신호를 기초로 하여 오디오 출력 신호를 생산하는 단계;를 포함하고,

오디오 출력 신호의 라우드니스 레벨은 신호 프로세서에 의해 포함되는 이득 제어 장치를 사용하고 조정되며,

라우드니스 값은 이득 제어 장치에 의해 포함되는 기준 라우드니스 디코더에 의해 생성되고, 비트스트림 내에 기준 라우드니스 값이 존재하는 경우에 라우드니스 값은 기준 라우드니스 값이며,

이득 값은 라우드니스 값을 기초로 하고, 이득 제어 장치에 의해 포함되는 이득 계산기에 의해, 사용자가 볼륨 제어 값을 제어하도록 허용하는 사용자 인터페이스에 의해 제공되는, 볼륨 제어 값을 기초로 하여 계산되며,

오디오 출력 신호의 라우드니스 레벨은 이득 제어 장치에 의해 포함되는 라우드니스 프로세서에 의한 이득 값을 기초로 하여 제어된다.

본 발명의 일 실시 예는 컴퓨터 또는 프로세서 상에서 구동할 때 여기에 청구되는 것과 같은 방법을 실행하기 위한 컴퓨터 프로그램을 포함한다.

본 발명의 바람직한 실시 예들은 이후에 첨부된 도면들과 관련하여 설명된다.
도 1은 일반적인 휴대폰, 태블릿 컴퓨터, 또는 휴대용 미디어 플레이어 내에 통합되는 것과 같은, ISO/IEC 14496-3 및 유럽 전기 통신 표준 협회(ETSI) TS 101154와 같은, 라우드니스 메타데이터 지원을 갖는 현존하는 종래 기술의 데이터 압축된 오디오 디코더의 블록 다이어그램을 도시한다.
도 2는 일반적인 휴대폰, 태블릿 컴퓨터, 또는 휴대용 미디어 플레이어 내로 의 통합에 적합한, 본 발명에 따른 데이터 압축된 오디오 디코더 장치 및 선택적인 오디오 제한기 장치를 갖는 디코더의 일 실시 예를 도시한다.
도 3은 고급 오디오 코딩-저 복잡도(AAC-LC) 스테레오 디코더 대 비트스트림 비트 레이트 내의 재구성된 신호 파형의 오버슈트에 기인하는 가능한 부가적인 클리핑의 경험적으로 유도된 기능을 도시한다.
도 4는 본 발명에 따른 선택적인 제한기 장치의 바람직한 실시 예의 블록 다이어그램을 도시한다.
도 5는 본 발명에 따른 예술적 제한 내에서 작동하는 선택적인 제한기 장치의 바람직한 실시 예의 블록 다이어그램을 도시한다.

본 발명의 작동을 이해하는데 도움을 주기 위하여, 일반적인 휴대폰, 태플릿 컴퓨터, 또는 휴대용 미디어 플레이어 내로 통합되는 것과 같은, ISO/IEC 14496-3 및 유럽 전기 통신 표준 협회 TS 101 154에 의해 명시된 것과 같은, 현존하는 종래 기술의 메타데이터로 가능한 데이터 압축된 디코더 장치(21)가 도 1에 도시된다. 압축된 오디오 비트스트림(1)은 압축된 오디오 에센스 데이터(compressed audio essence data, 2) 및 라우드니스 메타데이터(3)를 포함할 수 있다. 디코더 장치(21)는 오디오 데이터(2)로부터 오디오 신호(8)를 재구성하도록 구성되는 오디오 디코더 장치(9); 및 오디오 신호(8)를 기초로 하여 오디오 출력 신호(18)를 생산하도록 구성되는 신호 프로세서(26)를 포함한다. 라우드니스 메타데이터(3)는 ISO/IEC 14496-3에서 프로그램 기준 레벨로서 알려진, 전체 파일, 프로그램, 노래, 또는 앨범의 전체 통합된 라우드니스를 위한 기준 라우드니스 값(4)을 포함한다. 이러한 기준 라우드니스 값(4)은 파일 당 한 번 또는 프로그램이 진행중인 동안에 방송 비트스트림(1)이 연결되는 것을 허용하기에 충분한 반복률로 비트스트림 내에 전송될 수 있다. 기준 라우드니스 값(4)은 감산기(16)로서 디자인되는 이득 계산기(16)에 의해, 정적 표적 레벨 제공기(static target level provider, 17)에 의해 제공되는, 고정된 디코더 표적 레벨 값과 비교된다. 이득 계산기(16)의 출력은 들어오는 비트스트림(1) 및 원하는 표적 레벨 사이의 라우드니스의 차이이다. 이는 노래 또는 프로그램을 위한 표적 장기간 라우드니스가 획득되도록 오디오 출력 신호(18)의 레벨을 조정하기 위하여 곱셈기(15)로서 디자인되는, 라우드니스 프로세서(15)에 적용된다.

동적 범위 제어 스위치(12)는 일반적으로 "라인 모드"에서 사용되는 것과 같은, 가벼운 동적 범위 제어 값들(6) 또는 일반적으로 무선 주파수 모드에서 사용되는 것과 같은, 심한 동적 범위 제어 값들(7)의 적용을 허용하거나 혹은 이들의 적용을 전혀 허용하지 않는다. 이러한 값들(6, 7)은 비트스트림(1) 내의 복수의 주파수 대역 또는 영역을 위한 각각의 데이터 압축된 비트스트림 프레임을 위하여 전송되고 오디오 출력 신호(18)의 단기간(초 단위의)) 라우드니스가 원하는 동적 범위에 따라 압축되도록 오디오 디코더 장치(9)의 출력 레벨을 변경하기 위하여 곱셈기(13)로서 디자인되는, 동적 범위 프로세서(13)에 적용된다. 일반적으로, 정적 표적 레벨 제공기(17)에 의해 제공되는 디코더 표적 레벨이 또한 무선 주파수 모드를 위한 12 내지 20 dB의 선택 및 라인 모드를 위한 -31 dB의 선택으로 조정된다. 동적 범위 제어 값들(6 및/또는 7)의 작동은 일반적으로 곱셈기(13)와 결합하여 곱셈기(16)에 의해 생성되는 레벨의 어떠한 증가가 오디오 출력 신호(18)에서의 클리핑이 방지되는 것과 같이 제어되도록 미리 계산된다.

메타 데이터(3)는 또한 필요할 때 다중 채널 콘텐츠의 채널들(5.1 채널 서라운드 프로그램과 같은)의 스테레오 또는 모노 출력 내로의 믹싱을 조정하도록 사용되는 다운믹스 이득 값들(5)을 포함한다. 본 발명이 많은 수의 채널을 포함하는 비트스트림(1)에 적용될 수 있기 때문에, 이러한 특징은 더 설명되지 않는다.

중요하게는, 만일 주어진 비트스트림(1) 내에 존재하는 어떠한 기준 라우드니스 값(4)도 존재하지 않으면, 기준 라우드니스 디코더(1)에 의해 출력되는 라우드니스 값(31)은 오디오 출력 신호의 어떠한 이득 조정 값도 존재하지 않도록 정적 표적 레벨 제공기(17)에 의해 출력되는 디코더 표적 레벨과 동일하게 설정되고, 디코더 장치(21)는 오디오 출력 신호(18)의 완전 스케일 동적 범위와 동일한 출력 레벨을 갖는 단순한 디코더 장치로서 작동한다.

오디오 디코더(21)의 출력은 그리고 나서 일반적으로 믹싱된 오디오 신호(19)가 생성되도록 오디오 출력 신호(18)가 사용자 인터페이스 음성(UI sound)들, 호출음(ringing tone)들 또는 다른 오디오 신호들과 결합되는 시스템 오디오 믹서(23)에 제공된다. 전체 볼륨은 볼륨 제어 값(20)에 의해 제어된다. 오디오 신호 믹서(23)의 작동은 오디오 신호의 각각의 형태의 상대적 레벨들을 조정하거나 또는 본 발명의 작동의 이해에 적절하지 않은, 장치의 작동 모드에 의존하여 그것들의 진폭을 변경하기 위한 2차 볼륨 제어들을 포함할 수 있다. 중요한 사실은 디코더 장치(21)의 오디오 출력 신호(18)가 일반적으로 최대 고정 소수점 또는 공칭(nominal) 완전 스케일(일반적으로 -1.0 내지 1.0 범위의) 부동 소수점 값과 상응하도록 스케일링된다는 것이다. 현대 음악에 일반적인 것과 같이, 심하게 압축된 오디오 데이터를 갖는 디코더 출력 신호(18)는 공칭 청취 레벨들에서 청취할 때 그것의 완전 스케일 값들에 도달하는 피크들을 가질 것이다. 따라서 0 dB 완전-스케일(FS, 오디오 출력 신호의 완전 스케일 진폭에 언급되는) 피크는 시스템 오디오 믹서(23) 내에서 감쇠될 것이고 조용한 환경에서 청취할 때 아마도 75 dB 음향 압력 레벨(SPL)의 청취자의 귀에서의 음향 압력 레벨과 상응할 것이다.

도 2는 그것으로부터 오디오 출력 신호를 생산하기 위하여 비트스트림(1)을 디코딩하기 위한 디코더 장치(41)를 도시하고, 비트스트림(1)은 오디오 데이터(2) 및 선택적으로 기준 라우드니스 값(4)을 포함하는 라우드니스 메타데이터(3)를 포함하며, 디코더 장치(41)는:

오디오 데이터(2)로부터 오디오 신호(8)를 재구성하도록 구성되는 오디오 디코더 장치(9); 및

오디오 신호(8)를 기초로 하여 오디오 출력 신호(42)를 생산하도록 구성되는 신호 프로세서(27);를 포함하고,

신호 프로세서(27)는 오디오 출력 신호(42)의 레벨을 조정하도록 구성되는 이득 제어 장치(10, 15, 28)를 포함하며;

이득제어 장치(10, 15, 28)는 라우드니스 값(37)을 생성하도록 구성되는 기준 라우드니스 디코더(10)를 포함하고, 비트스트림(1) 내에 기준 라우드니스 값(4)이 존재하는 경우에 라우드니스 값(37)은 기준 라우드니스 값(4)이며,

이득제어 장치(10, 15, 28)는 사용자가 볼륨 제어 값(20)을 제어하도록 허용하는 사용자 인터페이스에 의해 제공되는, 라우드니스 값(37)을 기초로 하고 볼륨 제어 값(20)을 기초로 하여 이득 값(33)을 계산하도록 구성되는 이득 계산기(28)를 포함하며,

이득제어 장치(10, 15, 28)는 이득 값(33)을 기초로 하여 오디오 출력 신호(42)의 라우드니스 레벨을 제어하도록 구성되는 라우드니스 프로세서(28)를 포함한다.

오디오 디코더 장치(9)는 압축된 비트스트림(1)의 오디오 데이터(2)로부터 오디오 신호(8)를 재구성할 수 있는 어떠한 장치(9)일 수 있다. 신호 프로세서(37)는 오디오 디코더 장치(9)로부터 오디오 신호(8)가 제공될 때 오디오 출력 신호(42)를 생산할 수 있고 아래에 설명되는 것과 같은 이득 제어 장치(10, 15, 28)를 갖는 어떠한 장치(37)일 수 있다. 이득제어 장치(10, 15, 28)는 오디오 출력 신호(42)의 라우드니스를 제어하도록 설치되는 장치이다.

기준 라우드니스 디코더(10)는 비트스트림(1) 내에 포함된 라우드니스 메타데이터(3)를 디코딩하도록 구성된다. 만일 라우드니스 메타데이터(3)가 기준 라우드니스 값(4)을 포함하면, 기준 라우드니스 디코더(10)는 라우드니스 값(37)으로서 바로 이러한 기준 라우드니스 값(4)을 출력한다.

이득 계산기(28)는 기준 라우드니스 디코더(10)에 의해 출력된 라우드니스 값(37) 및 디코더 장치(41)의 사용자에 의해 설정되는 볼륨 제어 값(20)을 기초로 하여 이득 값(33)을 계산하기 위한 장치이다. 볼륨 제어 값(20)의 설정을 위하여 어떠한 사용자 인터페이스도 사용될 수 있다. 이득 계산기(28)는 특히 감산기(28)일 수 있다.

라우드니스 프로세서(15)는 이득 계산기(28)에 의해 제공되는 이득 값(33)을 기초로 하여 오디오 출력 신호(42)의 라우드니스 레벨을 제어할 수 있다. 라우드니스 프로세서(15)는 특히 곱셈기(15)일 수 있다.

휴대용 장치 또는 소비자 전자 장비에서 사용되는, 돌비 디지털 또는 고급 오디오 코딩 디코더 장치와 같은, 종래의 압축된 디코더 장치(21)와 달리, 압축된 디코더 장치(41)는 사용자의 볼륨 제어에 의해 제어되는 가변 이득 값(33) 또는 디코더 표적 임계 값(33, 완전-스케일 비트스트림의 디코딩된 레벨과 상응하는)으로 작동될 수 있다. 이는 디코더 장치(41)가 장치의 디지털 오디오 시스템의 최대 완전-스케일 범위 아래에서 정상적으로 잘 작동하도록 허용한다. 그러한 작동은 디코더 오버슈트의 클리핑의 가능성을 방지하고, 정상적으로 필요한 것과 같이, 필름-스타일 콘텐츠의 또 다른 압축 또는 제한 없이, 심한 동적 범위 압축 및 심한 압축과 제한을 갖는 음악 콘텐츠의 라우드니스 정규화에 대한 제한이 없는 필름-스타일 콘텐츠의 라우드니스 정규화를 허용한다.

본 발명의 바람직한 실시 예에서, 기준 라우드니스 값이 비트스트림 내에 존재하지 않는 경우에 라우드니스 값(37)은 미리 설정된 라우드니스 값이다. 이러한 특징은 어떠한 라우드니스 메타데이터(3)도 갖지 않는 비트 스트림들(1)의 고품질 재생을 허용한다.

본 발명의 바람직한 실시 예에서 미리 설정된 라우드니스 값(37)은 -4 dB 및 -10 dB 사이, 특히 완전-스케일 진폭에 언급되는, -6 dB 및 -8 dB 사이의 값으로 설정된다. 현대 음악의 경험적 연구들은 완전-스케일 재생을 위하여 의도된 음악 콘텐츠를 위하여 관찰된 라우드니스의 상한은 약 -7 dB 것을 나타낸다. 따라서, 청구된 것과 같은 미리 설정된 라우드니스 값(37)들은 어떠한 라우드니스 메타데이터(3)도 갖지 않는 비트 스트림들의 재생을 위한 최적화된 모드를 제공한다.

본 발명의 바람직한 실시 예에서 신호 프로세서(27)는 오디오 출력 신호(42)의 동적 범위를 조정하도록 구성되는 동적 범위 제어 장치(12, 13, 14)를 포함하고,

동적 범위 제어 장치(12, 13, 14)는 라우드니스 메타데이터(3)로부터 적어도 하나의 동적 범위 제어 값(6, 7)을 유도하고 대안으로서 유도된 동적 범위 제어 값들(6, 7) 또는 미리 설정된 동적 범위 제어 값(43) 중 하나를 출력하도록 구성되는 동적 범위 제어 스위치(12)를 포함하며,

동적 범위 제어 장치(12, 13, 14)는 동적 범위 제어 스위치(12)에 의해 출력된 동적 범위 제어 값(6, 7, 43)을 기초로 하고 사용자가 압축 제어 값(25)을 제어하도록 허용하는 사용자 인터페이스에 의해 제공되는, 압축 제어 값(25)을 기초로 하여 동적 범위 값(44)을 계산하도록 구성되는 동적 범위 계산기(14)를 포함하며,

동적 범위 제어 장치(12, 13, 14)는 동적 범위 값(44)을 기초로 하여 오디오 출력 신호(42)의 동적 범위를 제어하도록 구성되는 동적 범위 프로세서(13)를 포함한다.

동적 범위 제어 장치(12, 13, 14)는 적어도 하나의 동적 범위 제어 값(6, 7)이 유도되는 것과 같은 방법으로 비트스트림(1)의 라우드니스 메타데이터(3)를 디코딩하도록 구성되는 동적 범위 제어 스위치(12)를 포함한다. 일반적으로 동적 범위 제어 스위치(12)는 가벼운 동적 범위 제어를 위한 하나의 동적 범위 제어 값(6) 및 심한 동적 범위 제어를 위한 또 다른 동적 범위 제어 값(7)이 유도될 수 있는 것과 같은 방법으로 구성된다. 동적 범위 제어 스위치(12)는 이러한 유도된 동적 범위 제어 값들(6, 7) 중 어느 하나 또는 대안으로서 미리 설정된 동적 범위 제어 값(43)을 출력할 수 있다. 동적 범위 제어 스위치(12)는 예를 들면 오디오 출력 신호(42)를 사용하는 뒤따르는 장비에 의존하여, 자동으로 제어될 수 있거나, 또는 사용자 작동에 의해 수동으로 제어될 수 있다. 미리 설정된 동적 범위 제어 값은 예를 들면 0 dB로 설정될 수 있다.

동적 범위 제어 장치(12, 13, 14)는 동적 범위 제어 스위치(12)에 의해 출력되는 동적 범위 제어 값(6, 7, 43)을 기초로 하고 사용자가 압축 제어 값(25)을 제어하도록 허용하는 사용자 인터페이스에 의해 제공되는, 압축 제어 값(25)을 기초로 하여 동적 범위 값(44)을 계산할 수 있는 동적 범위 계산기(14)를 포함할 수 있다. 동적 범위 계산기(14)는 특히 곱셈기(14)일 수 있다.

게다가, 동적 범위 값(44)을 기초로 하여 오디오 출력 신호(42)의 동적 범위를 제어할 수 있는 동적 범위 프로세서(13)가 고려된다. 이러한 특징들에 의해 비트스트림(1)의 재생은 청취 환경을 통하거나 및/또는 청취자 취향에 적용될 수 있다.

도 2는 향상된 오디오 디코더(41) 내에 포함된 것과 같이 본 발명의 바람직한 실시 예의 작동을 도시한다. 들어오는 오디오 비트스트림(1)은 오디오 에센스 데이터(2) 및 앞서 언급된 프로그램 기준 레벨(4), 다운믹스 이득들(5), 가벼운 동적 범위 제어 값들(6) 및 심한 동적 범위제어 값들(7)을 위한 표준 메타데이터 값들을 포함하는 선택적인 라우드니스 메타데이터(3)를 포함한다. 메타데이터(3)는 또한 선택적인 실시 예들에서 사용되는 예술적 제한기 파라미터들(32) 및 참 피크 값들(36)을 포함할 수 있다.

도 1에서 이전에 설명된 연산과 대조적으로, 기준 라우드니스 디코더(10)에 의해 출력된 라우드니스 값(37)은 곱셈기(15)가 원하는 청취 레벨로 디코더 장치(41)의 오디오 출력 신호(42)를 조정하도록 사용되기 위하여 볼륨 제어의 볼륨 제어 값(20)과 비교된다. 상기 오디오 출력 신호(42)는 그리고 나서 장치가 고화질 멀티미디어 인터페이스(High Definition Multimedia Interface, HDMI), 모바일 고화질 링크(MEL), 소니/필립스 디지털 상호연결 포맷(S/PDIF), 고급 암호화 표준(AES), 토스링크(TosLink), 에어플레이(AirPlay), 또는 다른 유선 또는 무선 디지털 인터페이스 표준들을 통하여 다른 장비로 연결될 때 공통적으로 발생할 수 있는 것과 같이, 장치 내의 뒤따르는 오디오 후-처리 함수들로, 또는 직접적으로 디지털 대 아날로그 변환기(DAC) 및 그것으로부터 확성기들로, 또는 장치의 디지털 출력으로 전송된 믹싱된 오디오 신호(29)를 형성하기 위하여 시스템 오디오 믹서(23)의 라우드니스 조정된 보조 오디오 신호(29)에 더해진다.

중요하게도, 본 발명의 오디오 출력 신호(42)는 일반적으로 완전-스케일 값들에서 작동되지 않는다. 오디오 출력 신호(42)의 0 dB 완전-스케일은 이제 연결된 이어폰들, 스피커들, 또는 다른 변환기들에 의존하여, 디코더 장치(41)로 가능한 최대 음성 압력 레벨과 상응하고, 아마도 일반적인 이어폰으로 110-120 dB 음성 압력 레벨의 범위와 상응한다.

만일 주어진 비트스트림(1) 내에 어떠한 값(4)도 존재하지 않으면, 라우드니스 값(37)은 -7 dB 완전 스케일이 레벨로 설정된다. 현대 음악([5]에서와 같은)의 경험적 연구들은 이것이 완전-스케일 재생을 위하여 의도되는 음악 콘텐츠를 위한 라우드니스의 상부 한계에서 관찰되는 것을 나타낸다. 이는 본 발명을 사용하는 장치들 또는 분포 생태계들로의 분배를 위하여 무거운 제한, 압축, 또는 클리핑이 없는 그것들의 콘텐츠의 버전들을 준비하기 위하여 음악 창작자들과 배급자들을 위한 가벼운 인센티브를 제공하는데, 그 이유는 그것들이 콘텐츠가 그리고 나서 그것들의 콘텐츠가 종래의 콘텐츠의 "크러싱된" 버전보다 더 큰 것과 같이 재생되는 것을 가능하게 할 라우드니스 메타데이터(3)와 함께 분배될 것이기 때문이다.

도 1의 종래의 디코더에서와 같이, 동적 범위 제어 스위치(12)는 다시 어떠한 동적 범위 변형도 허용하지 않거나, 혹은 가벼운 동적 범위 제어 값(6) 또는 심한 동적 범위 제어 값(7)의 적용을 허용한다. 예를 들면, 휴대폰에서 가벼운 동적 범위 제어 값(6)은 휴대폰이 고화질 멀티미디어 인터페이스에 대하여 외부 오디오 시스템에 연결될 때 적용될 수 있고 심한 동적 범위 제어 값(7)은 헤드폰 잭이 사용될 때 적용될 수 있다. 이러한 동적 범위 제어 값들(또는 만일 어떠한 동적 범위 제어도 적용되지 않으면 제로로 설정될 수 있는, 정적의 미리 설정된 동적 범위 제어 값(43))은 그리고 나서 0 내지 1의 범위에 걸쳐 변경하는 새로운 사용자 압축 제어 값(25)에 따라 동적 범위 제어 값들을 스케일링하는 곱셈기(14)로 제공된다. 압축 제어 값(25)은 동적 범위 제어 값들(6, 7, 43)이 동적 범위 압축의 가변 양이 청취 레벨에 의존하여, 오디오 출력 신호(42)에 적용될 수 있는 것과 같이 스케일링되도록 허용한다. 압축 제어 값(25)의 값은 디코더 장치(41) 내의 사용자-인터페이스 제어 요소로부터, 장치(41) 또는 그것의 위치 또는 구성이 모드들과 상응하는 사전 설정들로부터, 디코더 장치(41)에 의해 획득되는 주변 잡음이 추정들로부터, 전체 볼륨 설정 또는 출력 레벨의 경험적으로 획득되는 함수들로부터, 혹은 다른 수단들을 통하여 획득될 수 있다. 스케일링된 동적 범위 제어 값들을 포함하는 곱셈기(14)의 출력(44)은 그리고 나서 일반적인 방식으로 곱셈기(13)에 적용되고, 곱셈기(13)는 곱셈기(15)에 의한 또 다른 변형을 위하여 오디오 디코더 장치(9)의 오디오 신호(8)의 라우드니스를 변형한다. 곱셈기(15)에 의해 출력된(또는 다른 실시 예들에서 곱셈기(13)에 의해 출력된) 처리된 오디오 신호(35)는 아래에 설명되는 선택적인 실시 예의 제한기 장치(30)에 연결되거나, 또는 오디오 출력 신호(42)로서 직접적으로 사용된다.

통상의 지식을 가진 자들은 라우드니스 내의 믹싱된 오디오 신호(29)가 라우드니스 조정된 보조 오디오 신호(24)를 갖는 라우드니스로 트래킹하도록 하기 위하여 시스템 오디오 믹서(23) 또는 감산기(28) 내의 볼륨 제어 값(20)의 오프셋 또는 스케일링을 위한 필요성이 존재할 수 있다는 것을 이해할 것이다.

[5]에서와 같이, 다양한 장르의 콘텐츠의 라우드니스를 일치시키기 위한 종래의 접근법들에서, 제한기는 신호 피크들을 제한하고 따라서 클리핑 없이 신호의 평균 레벨을 증가시키기 위하여 코어 오디오 디코더 뒤의 신호 체인 및 동적 범위 제어 메타데이터의 적용에서 사용되었다. 그러한 제한기는 신호 이득을 변경함으로써 "소프트" 방식으로 신호 피크들을 제한하는 방식으로 작동되어야만 하는데 그 이유는 신호 내로의 가청 아티팩트들의 도입을 방지하기 위하여 신호 파형이 단순하게 임계 레벨에서 수학적 포화도를 구현하는 "하드" 제한기 또는 클리퍼(clipper)와 반대되는, 임계 값에 접근하거나 또는 임계 값을 초과하기 때문이다. 그러한 소프트 제한기들은 계산적으로 비용이 많이 들고, 잠재적으로 디코더 장치에 의해 발생되는 작업 부하의 10-30%를 소비한다.

이와 대조적으로, 본 발명은 라우드니스 일치의 목적을 위하여 오디오 출력 신호(42)의 평균 비율에 대한 피크의 제어를 위한 제한기를 필요로 하지 않으나, 클리핑으로부터의 보호를 위하여, 청각 손상을 방지하기 위한 제한을 위하여, 그리고 예술적 효과 또는 압축 증가를 위한 제한을 위하여 선택적인 제한기 장치(30)를 포함할 수 있다. 다양한 구현을 갖는 이러한 목적들 중 어느 하나 또는 모두를 위하여 특정 디코더 장치(41)에 제한기 장치(30)가 구비될 수 있거나, 또는 제한기 장치(30)가 단순하게 생략될 수 있다. 이러한 각각의 경우들이 아래에 설명된다.

클리핑 보호의 경우를 고려할 때, 신호들의 두 가지 하위 경우가 고려되어야만 한다. 일부 비트스트림들(1)은 라우드니스 또는 동적 범위를 위하여 분석되지 않은 사용자의 장치 상에 이미 존재하는 레거시(legacy) 음악 콘텐츠와 같은, 어떠한 메타데이터(3)도 포함하지 않을 수 있다. 이러한 하위 경우에 있어서, 곱셈기(13)는 활성화되지 않고, 곱셈기(15)는 가장 높은 볼륨 제어 설정에서 통합이 최대 이득을 제공한다. 따라서, 클리핑의 가능성만이 신호 파형 내의 데이터 압축 유도된 오버슈트들의 가능성이다. 통상의 신호들과 함께 가능한 잠재적인 오버슈트들의 양은 채널 당 샘플 당 비트들의 함수로서 신뢰 구간 내의 압축 코덱 또는 압축 비율의 유사한 측정을 위하여 경험적으로 결정될 수 있다. 고급 오디오 코딩 선형 예측 스테레오 비트스트림들을 위한 일반적으로 경험적으로 결정된 클리핑 예측 함수(56)가 도 3에 도시된다. 통상의 지식을 가진 자들은 존재할 수 있는 클리핑의 양을 결정하거나 또는 예측하기 위하여 경험적, 분석적, 또는 반복의, 다른 방법들이 사용될 수 있다는 것을 이해하여야만 한다.

도 4 및 5에 도시된 본 발명의 바람직한 실시 예에 따르면 신호 프로세서(27)는 오디오 출력 신호(42)의 진폭을 제한하도록 구성되는 제한기 장치(30)를 포함하고, 제한기 장치(30)는 제한기(51)를 갖는 제한기 부품(62) 및 제한기 부품(62)을 제어하도록 구성되는 제어 부품(63)을 포함하며, 적어도 이득 제어 장치(10, 15, 28)에 의해 처리됨으로써 오디오 신호(18)로부터 유도되는, 처리된 오디오 신호(35)는 제한기 부품(62)에 입력되고, 오디오 출력 신호(42)는 제한기 부품(62)으로부터 출력된다.

제한기 장치(30)는 디코더 오버슈트 클리핑 방지, 청각 손실 방지 또는 사용자 선호도를 위한 볼륨 제한, 및 청취 환경 또는 사용자 취향 때문에 필요할 때 피크 제한을 갖는 콘텐츠의 가역 발생을 허용하기 위한 예술적 압축의 목적을 위한 제한을 제공한다.

제한기(51)는 디코더 오버슈트 클리핑 방지의 목적을 위한 제한, 청각 손실 방지 또는 사용자 선호도를 위한 볼륨 제한, 및 청취 환경 또는 사용자 취향에 기인하여 필요할 때 피크 제한을 갖는 콘텐츠의 가역 발생을 허용하기 위한 예술적 압축을 제공하는, 내부 신호들 또는 제공되는 피크 레벨 또는 예술적 메타데이터에 의해 제어된다.

제한기(51)는 이상적으로 통상적으로 디지털 오디오 마스터링을 위하여 사용되고 통상의 지식을 가진 자들에 알려진 것과 같은 효율적인, 비-클리핑의, 미리보기(look ahead) 제한기이다. 예를 들면, 이는 [8]에 설명된 것과 같은 구현일 수 있다. 대안으로서, 만일 클리핑 방지가 원하는 특징이 아니고 볼륨 제한이 원하는 특징이면, 볼륨 제한 스위치(58)의 출력에 의해 설정되는 임계를 갖는 하드 클리퍼(hard clipper)가 대체될 수 있고 보상 버퍼(53)가 제거되거나 또는 단축될 수 있다.

도 4에 도시된 본 발명의 바람직한 실시 예에 따르면, 제어 부품(63)은 비트스트림(1)의 비트 레이트에 의존하여 제한기 부품(62)을 제어하도록 구성된다. 디코더 오버슈트 클리핑의 가능성은 비트 레이트가 낮아질 때 증가한다. 따라서, 디코더 오버슈트 방지는 제한기 부품(62)이 비트스트림(1)의 비트 레이트에 의존하여 제어될 때 향상된다.

이러한 선택적인 특징의 바람직한 실시 예에서, 오디오 디코더 장치(9)에 의해 디코딩되는 비트스트림(1)의 비트 레이트 값(34)은 룩-업 테이블과 같은, 논리 명제 또는 게이트들에서, 또는 통상의 지식을 가진 자들에 알려질 것과 같은 적어도 하나의 변수의 함수를 구현하는 다른 기술에 의해 구현되는 클리핑 방지 함수(56)를 포함하는, 클리핑 방지 장치(54)에 입력된다. 함수(56)의 출력은 그것의 두 입력 중 더 적은 것을 선택하는, 비교기(55)와 유사하게 구현되는, 최소 함수(59)를 통하여 제공된다. 본 발명의 발명자들은 여기서 아래에 설명되는 볼륨 제한 특징이 활성화되지 않고 스위치(58)가 0 dB 완전 스케일에 상응하는 값을 출력하며 따라서 최소 함수(59)가 항상 클리핑 예측 함수(56)의 출력에 의해 제어되는 것을 고려한다. 이러한 방식으로 비교기(55)는 오디오 출력 신호(42)에서의 클리핑으로부터 보호하기 위하여 클리핑 예측 함수(56)의 출력을 제한기 스위치(52)를 거쳐 처리된 오디오 신호(35)의 최대 가능한 피크 레벨과 비교한다.

본 발명의 바람직한 실시 예에 따르면 제어 부품은 오디오 디코더 장치(9)의 압축 효율에 의존하여 제한기 부품(62)을 제어하도록 구성된다. 비트스트림을 생산하는 오디오 인코더 장치 및 동시에 비트스트림(1)을 디코딩하는 오디오 디코더 장치(9)의 압축 효율은 비트스트림(1)을 생산하기 위하여 원래 오디오 데이터를 인코딩할 때 얼마나 많은 데이터 양이 감소되는지를 기술한다. 데이터 양이 더 많이 감소될수록 디코더 오버슈트 클리핑의 가능성은 증가한다. 따라서, 디코더 오버슈트 클리핑 방지는 제한기 부품(62)이 오디오 디코더 장치(9)의 압축 효율에 의존하여 제어될 때 향상된다.

이러한 선택적인 특징의 바람직한 실시 예에서, 오디오 디코더 장치(9)의 압축 효율은 룩-업 테이블과 같은, 논리 명제 또는 게이트들에서, 또는 통상의 지식을 가진 자들에 알려질 것과 같은 적어도 하나의 변수의 함수를 구현하는 다른 기술에 의해 구현되는 클리핑 방지 함수(56)를 포함하는, 클리핑 방지 장치(54)에 입력된다. 함수(56)의 출력은 그것의 두 입력 중 더 적은 것을 선택하는, 비교기(55)와 유사하게 구현되는, 최소 함수(59)를 통하여 제공된다. 본 발명의 발명자들은 여기서 아래에 설명되는 볼륨 제한 특징이 활성이 아니고 스위치(58)가 0 dB 완전 스케일에 상응하는 값을 출력하며 따라서 최소 함수(59)가 항상 클리핑 예측 함수(56)의 출력에 의해 제어되는 것을 고려한다. 이러한 방식으로 비교기(55)는 오디오 출력 신호(42)에서의 클리핑으로부터 보호하기 위하여 클리핑 예측 함수(56)의 출력을 제한기 스위치(52)를 거쳐 처리된 오디오 신호(35)의 최대 가능한 피크 레벨과 비교한다.

처리된 코어 디코더 출력 신호(35)의 최대 레벨이 클리핑 예측 함수(56)에 의해 예측되는 레벨보다 작은 경우들에서, 디코더 오버슈트들(함수(54)의 신뢰 구간 또는 오차 범위 내의)에 기인하는 클리핑의 어떠한 가능성도 존재하지 않고 스위치(52)는 보상 버퍼(53)의 출력을 선택된다. 상기 버퍼는 단지 제한기(51)의 처리 지연을 일치시키기 위한 지연이고, 제한기(51)의 상당한 작업 부하와 비교하여, 무시해도 될 정도의 계산적 작업 부하만을 도입할 것이다.

본 발명의 바람직한 실시 예에 따르면, 제어 부품(63)은 이득 제어 장치(10, 15, 28)의 이득 값(33)에 의존하여 제한기 부품(62)을 제어하도록 구성된다. 오디오 출력 신호(42)의 최대 가능한 피크 레벨은 이득 제어 장치(10, 15, 28)의 이득 값(33)에 의해 이러한 하위 경우에서 결정된다. 만일 상기 값이 0dB이면, 디코더 장치(41)는 볼륨 제어 값(20)의 최대 설정에 의해 명령되는 것과 같이 그것의 완전-스케일 한계들에서 작동한다. 상기 볼륨 제어 값(20)이 감소되기 때문에, 디코더 장치(41)는 완전-스케일 비트스트림 값들이 이득 제어 장치(10, 15, 28)의 이득 값(33)에 의해 설정된 최대 레벨에만 도달할 것이다.

어떠한 메타데이터(3)도 존재하지 않는 이러한 하위 경우에서, 스위치(60)는 0 dB 완전-스케일 값을 출력하는데 그 이유는 이것이 비트스트림(1)의 들어오는 오디오 데이터(2)의 가능한 최대이기 때문이다.

본 발명의 바람직한 실시 예에 따르면, 제어 부품(63)은 비트스트림(1)의 라우드니스 메타데이터(3) 내로 전송되고 외부 인코더에 의해 비트스트림(1)으로 변환되는 오디오 소스의 최대 피크 레벨을 나타내는 참 피크 값(36)에 의존하여 제한기 부품(62)을 제어하도록 구성된다. 이러한 참 피크 값(36)의 사용은 오디오 출력 신호(42)의 최대 가능한 피크 레벨을 위한 더 정확한 값의 계산을 허용한다.

비트스트림들이 라우드니스 메타데이터(3)를 포함하는 경우에 있어서, 메타데이터(3)는 또한 ITU 표준 BS. 1770-3에 의해 지정되는 참 피크 측정을 포함하도록 명시된다. 이러한 하위 경우에 있어서, 스위치(60)는 0 dB 완전-스케일(FS) 상수 대신에 라우드니스 메타데이터(3) 내에 포함된 참 피크 값(30)을 선택한다. 이득 조정(33) 및 제한기(30)에 대한 신호 입력(35)의 최대 피크 진폭들을 나타내는, 참 피크 값(36)의 합계는 가산기(adder, 61)에 의해 계산되고 그리고 나서 비교기(55)에 의해 클리핑 함수의 출력과 비교된다. 이러한 참 피크 메타데이터 값(36)의 사용은 단지 오디오 출력 신호(41)의 최대 가능한 피크 레벨을 위한 더 정확한 값의 계산을 허용한다.

본 발명의 바람직한 실시 예에 따르면 제어 부품(63)은 청각 손상을 방지하기 위하여 사용자 또는 제조사에 의해 설정된 볼륨 한계 값(57)에 의존하여 제한기 부품(62)을 제어하도록 구성된다. 이러한 특징에 의해 청각 손상들이 효율적으로 방지될 수 있다.

청각 손상의 방지를 제한하는 경우에, 장치 사용자 또는 제조사는 볼륨 한계 신호를 사용하여 출력이 제한되어야만 하는 최대 피크 값(57)을 설정할 수 있다. 스위치(58)가 이러한 볼륨 한계 특징을 활성화하도록 작동되면, 최소 함수(59)는 클리핑 방지에 기인하는 출력의 제한을 위하거나 또는 볼륨 한계를 위하여 제한기(51)를 맞물리는데 필요한 두 출력 레벨의 하부를 선택한다. 스위치(58)의 출력은 또한 적절한 레벨에 대한 그것의 임계를 설정하기 위하여 제한기(51)에 입력된다.

도 5에 도시된 본 발명의 바람직한 실시 예에 따르면 제어 부품(63)은 비트스트림(1)의 라우드니스 메타데이터(3) 내에 전송되고 예술적 제한기 임계 값들(74a), 예술적 제한기 어택 시간 값들(74b) 및/또는 예술적 제한기 해제 값들(74c)을 나타내는 예술적 제한기 파라미터들(32)에 의존하여 제한기 부품(62)을 제어하도록 구성된다. 이러한 특징은 제한기 장치(30)의 연산이 예술가 또는 콘텐츠 창작자의 창조적 제어 하에서 존재하도록 허용한다.

이전에 설명된 라우드니스 메타데이터(3) 내에 포함된 동적 범위 제어 값들(6, 7)은 콘텐츠의 전체 동적 범위가 100 마이크로초 내지 3초의 일반적인 시간 상수들과 함께 작용하는 압축 이득들이 사용을 통하여 청취 환경에 맞춰지도록 허용한다. 청취 환경들의 도전에서, 이러한 시간 상수들오의 오디오 신호의 압축은 불쾌하게 높은 피크 레벨들 없이 양해도 또는 즐거움을 위한 충분한 라우드니스를 갖는 신호를 생산하지 않을 수 있다. 또한 종래에 고도로 압축된 "크러싱된" 믹스만을 생산한, 음악 창작자들이 "크러싱된" 믹스 및 덜한 제한과 압축을 갖는 "크러싱되지 않은" 믹스 모두를 생산하기 위하여 본 발명의 융통성을 사용하기를 원할 수 있는 가능성이 존재하고, 따라서 소비자들은 조용한 환경들 또는 원할 때 "크러싱되지 않은" 버전을 들을 수 있다. 이러한 관심사 모두를 설명하기 위하여, 제한기(30)는 도 5에 도시된 것과 같이 예술적 제한기 모드에서 작동하도록 재구성될 수 있다.

이러한 모드에서, 라우드니스 메타데이터(3)는 콘텐츠의 각각의 오디오 프레임을 위하여 전송되는, 도 5의 전기적 버스 부호에 도시된, 예술적 제한기 파라미터들(32)을 포함한다. 스위치(12)에 의해 선택되고 상응하게 출력 버스(74)에 연결되는(ganged) 스위치(73)에 의해 선택되는 가벼운 모드와 심한 모드를 위한 제한기 어택 시간, 해제 시간, 및 임계 값들이 예술적 제한기 파라미터들 내에 포함된다. 버스(74)는 가산기(71)에 의해 디코더 이득 조정(33)에 가산되는, 선택된 예술적 제한기 임계 값(74a), 및 제한기(51)에 직접적으로 제공되는 어택 및 해제 시간들(74b 및 74c)을 포함한다. 볼륨 한계(57, 또는 만일 볼륨 한계가 사용되지 않으면 0 dB 완전-스케일) 또는 가산기(71)의 출력을 선택하도록 사용된다. 이러한 방식으로, 볼륨 한계가 도달되고 제한기 임계의 최대 레벨을 제한하는 지점으로 볼륨 제어(20)가 증가할 때까지 제한기(51)는 값(74a)에 의해 제어되는 임계에서 정상적으로 작동한다. 이러한 방식으로, 제한기(51)는 연속적으로 작동하고, 스위치(52)는 항상 도시된 위치에 존재한다. 이러한 파라미터들의 예술적 사용은 장치의 출력, 오디오 소프트웨어 플러그-인, 또는 믹싱, 마스터링 또는 다른 창조적 또는 배분 작동 동안에 본 발명의 복제를 포함하는 다른 장치의 모니터링에 의해 달성될 수 있다.

본 발명의 바람직한 실시 예에 따르면 그것의 라우드니스를 인공적으로 증가시키기 위하여 제한기 장치(30) 뒤에 메이크업-이득을 적용하는 어떠한 가능성도 존재하지 않는데, 그 이유는 이는 위에 언급된 가벼운 인센티브를 적용할 수 있기 때문이다.

본 발명의 바람직한 실시 예에 따르면 제어 부품(63)은 제한기 부품(62)을 연속적으로 또는 반복적으로 제어하도록 구성된다. 이러한 특징은 시간에 따른 제한기 부품(62)의 가변 제어를 허용한다.

본 발명의 바람직한 실시 예에 따르면 제한기 장치(30)는 이득 및 지연과 관련하여, 제한기(51)의 전달 함수와 유사한 전달 함수를 갖는 우회 장치(53)에 의해 제한기(51)를 우회하도록 구성된다. 이러한 특징에 의해 신호 프로세서의 작업 부하는 상당히 감소될 수 있다.

통상의 지식을 가진 자들은 이러한 과정이 일련의 컴퓨터 명령들로서 소프트웨어에서 또는 하드웨어 부품들에서 구현될 수 있다는 것을 이해할 것이다. 여기에 설명된 연산들은 일반적으로 컴퓨터 중앙 처리 장치 또는 돌비 신호 프로세서에 의해 소프트웨어 명령들로서 수행되고 도면들에 도시된 레지스터들 및 연산들은 상응하는 컴퓨터 명령들에 의해 구현될 수 있다. 그러나, 이는 하드웨어 부품들을 사용하는 동등한 하드웨어 디자인에서의 실시 예를 배제하지 않는다. 또한, 통상의 지식을 가진 자들은 값들(4, 6, 7, 20, 33, 36, 57, 74a 등)이 일반적으로 표준 관행이고 언급된 표준들에서 지정된 것과 같이 대수적으로 스케일링되는 도메인 내에서 표현될 것이라는 것을 이해할 것이다. 또한, 본 발명의 작동은 여기서 순차적인, 기본적인 방식으로 도시된다. 통상의 지식을 가진 자들은 특정 하드웨어 또는 소프트웨어 플랫폼 상에 구현될 때 효율을 최적화하기 위하여 연산들이 결합되거나, 변환되거나, 또는 미리 계산될 수 있다는 것을 이해할 것이다. 또한, 이러한 연산들은 시간-도메인 데이터 상에서 수행될 수 있거나 혹은 주파수 도메인 내의 하나 또는 그 이상의 주파수 대역에서 수행될 수 있다는 것을 이해할 것이다.

향상된 디코더(41) 장치의 구성에서, 통상의 지식을 가진 자들은 오디오 디코더(9)로부터 곱셈기들(13 및 15) 및 선택적인 제한기 장치(30)를 통하여 오디오 출력 신호(42)로뿐만 아니라 본 발명의 다른 곳에서 수치 표현들, 레지스터 길이들, 혹은 신호 경로 내의 내부 포화, 클리핑, 또는 오버플로(overflow)를 방지하기 위한 다른 통상의 수단들을 사용할 필요가 있을 것이라는 것을 이해할 것이다.

또한 비록 본 발명이 고급 오디오 코딩, MP3, 또는 돌비 디지털과 같은 손실 오디오 데이터 압축 코더들 내의 디코더 오버슈트들에 의해 생산되는 클리핑 제어의 특별한 장점을 제공하더라도, 이는 무손실 오디오 코덱들 또는 오디오 코덱으로 전혀 압축되지 않는 오디오 신호들을 갖는 오디오 시스템들에서 사용될 수 있다는 것을 이해하여야만 한다.

본 발명은 다음을 제공할 수 있다:

1. 완전 스케일 값이 최대 피크 출력 전압 또는 협력 장치의 음성 압력 레벨과 상응하도록 의도되는 출력을 제공하는 오디오 라우드니스 정규화를 위한 시스템을 제공하되, 상기 출력의 라우드니스 레벨 또는 평균 파워는 오디오 라우드니스 메타데이터를 갖는 콘텐츠 및 오디오 라우드니스 메타데이터가 없으나 그것의 완전-스케일 값들로 정규화된 콘텐츠 모두가 거의 동일한 오디오 라우드니스 레벨에서 재생되는 것과 같이, 상기 장치의 사용자 볼륨 제어에 의해 직접적으로 또는 간접적으로 제어된다.

2. 장기간 평균 파워 또는 오디오 메타데이터가 없는 지각된 콘텐츠가 콘텐츠의 실험 또는 통계 분석에 의해 결정된 고정된 값에 의해 추정되는 시스템.

3. 적절하게 준비된 메타데이터를 갖는 동일한 콘텐츠보다 약간 낮은 라우드니스에서 메타데이터가 없는 일반적인 콘텐츠를 재생하도록 추정이 편향되고, 따라서 상기 메타데이터를 사용하도록 인센티브를 제공하는 시스템.

4. 디코더 오버슈트들 상의 클리핑을 방지하기 위한 목적을 위한 피크 제한의 필요성이 압축된 오디오 디코더의 표적 레벨, 오디오 코덱 압축 효율 또는 비트레이트의 계산된 함수, 및 압축된 비트스트림 내에 전송되는 오디오 프로그램의 최대 피크 레벨을 나타내는 메타데이터 값에 의해 결정되는 출력 피크 제한기를 포함하는 데이터 압축된 오디오 디코딩을 위한 시스템.

5. 디코더 오버슈트들 상의 클리핑을 방지하기 위한 목적을 위한 피크 제한의 필요성이 압축된 오디오 디코더의 표적 레벨 및 오디오 코덱 압축 효율 또는 비트레이트의 계산된 함수에 의해 결정되는 출력 피크 제한기를 포함하는 데이터 압축된 오디오 디코딩을 위한 시스템.

6. 장치의 최대 피크 오디오 출력을 제한하기 위한 목적을 위한 피크 제한의 필요성이 압축된 오디오 디코더의 표적 레벨에 의해 결정되는 출력 피크 제한기를 포함하는 데이터 압축된 오디오 디코딩을 위한 시스템.

7. 장치의 최대 피크 오디오 출력을 제한하기 위한 목적을 위한 피크 제한의 필요성이 오디오 신호에 적용되는 스케일링 이득의 값에 의해 결정되는 출력 피크 제한기를 포함하는 데이터 압축된 오디오 디코딩을 위한 시스템.

8. 장치의 최대 피크 오디오 출력을 제한하기 위한 목적을 위한 피크 제한의 필요성이 오디오 신호에 적용되는 스케일링 이득의 값 및 압축된 비트스트림 내에 전송되는 오디오 프로그램의 최대 피크 레벨을 나타내는 메타데이터 값에 의해 결정되는 출력 피크 제한기를 포함하는 데이터 압축된 오디오 디코딩을 위한 시스템.

9. 제한기가 필요하지 않을 때 제한기가 유사한 이득 및 지연을 갖는 함수로 대체되는 시스템.

10. 피크 제한기 임계가 주기적으로 압축된 비트스트림 내에 전송되는 메타데이터 값에 의해 제어되는, 출력 피크 제한기를 포함하는 데이터 압축된 오디오 디코딩 또는 오디오 처리를 위한 시스템.

11. 완전 스케일 값이 최대 피크 출력 전압 또는 협력 장치의 음성 압력 레벨과 상응하도록 의도되는 출력을 제공하는 오디오 라우드니스 정규화를 위한 상응하는 방법 또는 비-일시적 저장장치를 제공하되, 상기 출력의 라우드니스 레벨 또는 평균 파워는 오디오 라우드니스 메타데이터를 갖는 콘텐츠 및 오디오 데이터 메이터가 없으나 그것의 완전-스케일 값들로 정규화된 콘텐츠 모두가 거의 동일한 오디오 라우드니스 레벨에서 재생되는 것과 같이, 상기 장치의 사용자 볼륨 제어에 의해 직접적으로 또는 간접적으로 제어된다.

장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 아이템 혹은 상응하는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수 있다. 일부 실시 예들에서, 하나 또는 그 이상의 가장 중요한 방법 단계는 그러한 장치에 의해 실행될 수 있다.

특정 구현 요구사항들에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 예를 들면, 각각의 방법이 실행될 것과 같이 프로그램가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 그 안에 저장되는 전자적으로 판독 가능한 제어 신호들을 갖는, 디지털 저장 매체, 예를 들면, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있다.

본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.

다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.

바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(또는 데이터 저장 매체,또는 컴퓨터 판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 일반적으로 유형 및/또는 비-일시적이다.

본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.

또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.

또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터를 수신기로 전달하도록(예를 들면, 전자적으로 또는 광학적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들면 컴퓨터 프로그램을 수신기로 전달하기 위한 파일 서버를 포함할 수 있다.

일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.

위에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.

참고문헌들

[1] International Organization for Standardization and International Electrotechnical Commission, ISO/IEC 14496-3 Information technology Coding of audio-visual objects Part 3: Audio, www.iso.org.

[2] European Telecommunications Standards Institute, ETSI TS 101 154: Digital Video Broadcasting (DVB); Specification for the use of Video and Audio Coding in Broadcasting Applications based on the MPEG-2 transport stream, www.etsi.org.

[3] Advanced Television Systems Committee, Inc., Audio Compression Standard A/52, www.atsc.org.

[4] International Telecommunications Union, Recommendation ITU-R BS.1770-3: Algorithms to measure audio programme loudness and true-peak audio level, www.itu.int.

[5] Martin Wolters, Harald Mundt, and Jeffrey Riedmiller, “Loudness Normalization In The Age Of Portable Media Players”, paper 8044, Audio Engineering Society 128th Convention, www.aes.org

[6] Florian Camerer, et al, “Loudness Normalization: The Future of File-Based Playback,” Music Loudness Alliance, www.music-loudness.com.

[7] Dolby Laboratories, Inc., Dolby Digital Professional Encoding Guidelines, www.dolby.com.

[8] Perttu Hamalainen, “Smoothing Of The Control Signal Without Clipped Output In Digital Peak Limiters”, Proc. of the 5th International Conference on Digital Audio Effects, Hamburg, Germany, September 26-28, 2002.

1 : 비트스트림
2 : 오디오 데이터
3 : 라우드니스 메타데이터
4 : 기준 라우드니스 값
5 : 다운믹스 이득 값
6 : 가벼운 동적 범위 제어 값
7 : 심한 동적 범위 제어 값
8 : 오디오 신호
9 : 오디오 디코더 장치
10 : 기준 라우드니스 디코더
11 : 다운믹스 이득 디코더
12 : 동적 범위 제어 스위치
13 : 동적 범위 프로세서
14 : 동적 범위 계산기
15 : 라우드니스 프로세서
16 : 이득 계산기
17 : 정적 표적 레벨 제공기
18 : 오디오 출력 신호
19 : 믹싱된 오디오 신호
20 : 볼륨 제어 값
21 : 디코더 장치
22 : 보조 오디오 신호
23 : 오디오 신호 믹서
24 : 라우드니스 조정된 보조 오디오 신호
25 : 압축 제어 값
26 : 신호 프로세서
27 : 신호 프로세서
28 : 이득 계산기
29 : 믹싱된 오디오 신호
30 : 제한기 장치
31 : 라우드니스 값
32 : 예술적 제한기 파라미터
33 : 이득 값
34 : 비트 레이트 값
35 : 처리된 오디오 신호
36 : 참 피크 값
37 : 라우드니스 값
41 : 디코더 장치
42 : 오디오 출력 신호
43 : 미리 설정된 동적 범위 제어 값
44 : 동적 범위 값
51 : 제한기
52 : 제한기 스위치
53 : 우회 장치
54 : 클리핑 예측 장치
55 : 비교기
56 : 클리핑 예측 함수
57 : 볼륨 제한 값
58 : 볼륨 제한 스위치
59 : 최소 파인더
60 : 참 피크 값 스위치
61 : 결합기
62 : 제한기 부품
63 : 제어 부품
71 : 결합기
72 : 최소 파인더
73 : 동적 범위 제어 스위치
74 : 동적 범위 제어 스위치의 출력 데이터
70a : 예술적 제한기 임계 값
70b : 예술적 제한기 어택 시간 값
70c : 예술적 제한기 해제 시간 값

Claims

오디오 출력 신호를 생산하기 위하여 오디오 데이터(2) 및 선택적으로 기준 라우드니스 값(4)을 포함하는 라우드니스 메타데이터(3)를 포함하는 비트스트림(1)을 디코딩하기 위한 디코더 장치(41)에 있어서,
상기 오디오 데이터(2)로부터 오디오 신호(8)를 재구성하도록 구성되는 오디오 디코더 장치(9); 및
상기 오디오 신호(8)를 기초로 하여 오디오 출력 신호(42)를 생산하도록 구성되는 신호 프로세서(27);를 포함하고,
상기 신호 프로세서(27)는 상기 오디오 출력 신호(42)의 라우드니스 레벨을 조정하도록 구성되는 이득 제어 장치(10, 15, 28)를 포함하며;
상기 이득 제어 장치(10, 15, 28)는 라우드니스 값(37)을 생성하도록 구성되는 기준 라우드니스 디코더(10)를 포함하고, 상기 비트스트림(1) 내에 상기 기준 라우드니스 값(4)이 존재하는 경우에 상기 라우드니스 값(37)은 상기 기준 라우드니스 값(4)이며,
상기 이득 제어 장치(10, 15, 28)는 사용자가 볼륨 제어 값(20)을 제어하도록 허용하는 사용자 인터페이스에 의해 제공되는, 상기 라우드니스 값(37)을 기초로 하고 상기 볼륨 제어 값(20)을 기초로 하여 이득 값(33)을 계산하도록 구성되는 이득 계산기(28)를 포함하며,
상기 이득 제어 장치(10, 15, 28)는 상기 이득 값(33)을 기초로 하여 상기 오디오 출력 신호(42)의 라우드니스 레벨을 제어하도록 구성되는 라우드니스 프로세서(28)를 포함하는 것을 특징으로 하는 디코더 장치.
제 1항에 있어서, 상기 라우드니스 값(37)은 상기 기준 라우드니스 값(4)이 상기 비트스트림(1) 내에 존재하지 않는 경우에 미리 설정된 라우드니스 값인 것을 특징으로 하는 디코더 장치.
제 2항에 있어서, 상기 미리 설정된 라우드니스 값은, 완전-스케일 진폭에 언급되는, -4 dB 및 -10 dB 사이의 값으로 설정되는 것을 특징으로 하는 디코더 장치.
제 1항에 있어서, 상기 신호 프로세서(27)는 상기 오디오 출력 신호(42)의 동적 범위를 조정하도록 구성되는 동적 범위 제어 장치(12, 13, 14)를 포함하고,
상기 동적 범위 제어 장치(12, 13, 14)는 상기 라우드니스 메타데이터(3)로부터 적어도 하나의 동적 범위 제어 값(6, 7)을 유도하고 유도된 상기 동적 범위 제어 값들(6, 7) 또는 미리 설정된 동적 범위 제어 값(43) 중 하나를 교대로 출력하도록 구성되는 동적 범위 제어 스위치(12)를 포함하며,
상기 동적 범위 제어 장치(12, 13, 14)는 상기 동적 범위 제어 스위치(12)에 의해 출력된 상기 동적 범위 제어 값(6, 7, 43)을 기초로 하고 사용자가 압축 제어 값(25)을 제어하도록 허용하는 사용자 인터페이스에 의해 제공되는, 상기 압축 제어 값(25)을 기초로 하여 동적 범위 값(44)을 계산하도록 구성되는 동적 범위 계산기(14)를 포함하며,
상기 동적 범위 제어 장치(12, 13, 14)는 상기 동적 범위 값(44)을 기초로 하여 상기 오디오 출력 신호(42)의 동적 범위를 제어하도록 구성되는 동적 범위 프로세서(13)를 포함하는 것을 특징으로 하는 디코더 장치.
제 1항에 있어서, 상기 신호 프로세서(27)는 상기 오디오 출력 신호(42)의 진폭을 제한하도록 구성되는 제한기 장치(30)를 포함하고, 상기 제한기 장치(30)는 제한기(51)를 갖는 제한기 부품(62) 및 상기 제한기 부품(62)을 제어하도록 구성되는 제어 부품(63)을 포함하며, 적어도 상기 이득 제어 장치(10, 15, 28)에 의해 처리됨으로써 상기 오디오 신호(8)로부터 유도되는, 처리된 오디오 신호(35)가 상기 제한기 부품(62)에 입력되며, 상기 오디오 출력 신호(42)는 상기 제한기 부품(62)으로부터 출력되는 것을 특징으로 하는 디코더 장치.
제 5항에 있어서, 상기 제어 부품(63)은 상기 비트스트림(1)의 비트레이트에 의존하여 상기 제한기 부품(62)을 제어하도록 구성되는 것을 특징으로 하는 디코더 장치.
제 5항에 있어서, 상기 제어 부품(63)은 상기 오디오 디코더 장치(9)의 압축 효율에 의존하여 상기 제한기 부품(62)을 제어하도록 구성되는 것을 특징으로 하는 디코더 장치.
제 5항에 있어서, 상기 제어 부품(63)은 상기 비트스트림(1)의 상기 라우드니스 메타데이터(3) 내에 전송되고 외부 인코더에 의해 상기 비트스트림(1)으로 변환되는 오디오 소스의 최대 피크 레벨을 나타내는 참 피크 값(36)에 의존하여 상기 제한기 부품(62)을 제어하도록 구성되는 것을 특징으로 하는 디코더 장치.
제 5항에 있어서, 상기 제어 부품(63)은 상기 이득 제어 장치(10, 15, 28)의 상기 이득 값(33)에 의존하여 상기 제한기 부품(62)을 제어하도록 구성되는 것을 특징으로 하는 디코더 장치.
제 5항에 있어서, 상기 제어 부품(63)은 청각 손상을 방지하기 위하여 상기 사용자 또는 제조사에 의해 설정된 볼륨 제한 값(57)에 의존하여 상기 제한기 부품(62)을 제어하도록 구성되는 것을 특징으로 하는 디코더 장치.
제 5항에 있어서, 상기 제어 부품(63)은 상기 비트스트림(1)의 상기 라우드니스 메타데이터(3) 내에 전송되고 예술적 제한기 임계 값들(74a), 예술적 제한기 어택 시간 값들(74b) 및/또는 예술적 제한기 해제 시간 값들(74c)을 나타내는 예술적 제한기 파라미터들(32)을 기초로 하여 상기 제한기 부품(62)을 제어하도록 구성 것을 특징으로 하는 디코더 장치.
제 5항에 있어서, 상기 제어 부품(63)은 상기 제한기 부품(62)을 연속적으로 또는 반복적으로 제어하도록 구성되는 것을 특징으로 하는 디코더 장치.
제 5항에 있어서, 상기 제한기 장치(30)는 이득 및 지연과 관련하여, 상기 제한기(51)의 전달 함수와 유사한 전달 함수를 갖는 우회 장치(53)에 의해 상기 제한기(51)를 우회하도록 구성되는 것을 특징으로 하는 디코더 장치.
디코더 장치(41) 및 인코더를 포함하고, 상기 디코더 장치(41)는 제 1항 내지 13항 중 어느 한 항에 따라 구성되는 것을 특징으로 하는 시스템.
오디오 출력 신호를 생산하기 위하여 오디오 데이터(2) 및 선택적으로 기준 라우드니스 값(4)을 포함하는 라우드니스 메타데이터(3)를 포함하는 비트스트림(1)을 디코딩하는 방법에 있어서,
오디오 디코더 장치(9)를 사용하여 상기 오디오 데이터(2)로부터 오디오 신호(8)를 재구성하는 단계; 및
신호 프로세서(27)를 사용하여 상기 오디오 신호(8)를 기초로 하여 오디오 출력 신호(42)를 생산하는 단계;를 포함하고,
상기 오디오 출력 신호(42)의 라우드니스 레벨은 상기 신호 프로세서(27)에 의해 포함되는 이득 제어 장치(10, 15, 28)를 사용하여 조정되며,
상기 이득 제어 장치(10, 15, 28)에 의해 포함되는 기준 라우드니스 디코더(10)에 의해 라우드니스 값(37)이 생성되고, 상기 비트스트림(1) 내에 상기 기준 라우드니스 값(4)이 존재하는 경우에 상기 라우드니스 값(37)은 상기 기준 라우드니스 값(4)이며,
이득 값(33)은, 상기 이득 제어 장치(10, 15, 28)에 의해 포함되는 이득 계산기(28)에 의해, 상기 라우드니스 값(37)을 기초로 하여, 그리고 사용자가 볼륨 제어 값(20)을 제어하도록 허용하는 사용자 인터페이스에 의해 제공되는 상기 볼륨 제어 값(20)을 기초로 하여 계산되며,
상기 오디오 출력 신호(42)의 라우드니스 레벨은 상기 이득 제어 장치(10, 15, 28)에 의해 포함되는 라우드니스 프로세서(15)에 의한 상기 이득 값(33)을 기초로 하여 제어되는 것을 특징으로 하는 비트스트림(1)을 디코딩하는 방법.
컴퓨터 또는 프로세서 상에서 구동할 때 제 15항의 방법을 실행하기 위한 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 매체.