KR20070068379A

KR20070068379A - 오디오 신호의 인식된 라우드니스 및/또는 인식된 스펙트럼밸런스 계산 및 조정

Info

Publication number: KR20070068379A
Application number: KR1020077008778A
Authority: KR
Inventors: 알란 제프리 시펠드트
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2004-10-26
Filing date: 2005-10-25
Publication date: 2007-06-29
Also published as: US20170155368A1; EP2262108B1; EP1805891B1; US20170346460A1; IL182097A; CA2581810A1; US20190115891A1; BRPI0518278A2; US20170338784A1; US10720898B2; US20190115896A1; CN101048935B; CN101048935A; BRPI0518278B1; HK1103936A1; US20210021247A1; MX2007005027A; CA2581810C; US9608584B2; US10454439B2

Abstract

본 발명은 오디오 신호의 인식된 사운드 라우드니스 및/또는 인식 스펙트럼 밸런스의 측정 및 제어에 관한 것이다. 오디오 신호는 인식(사이코아쿠스틱) 라우드니스 도메인에서 적어도 부분적으로 수행되는 계산들에 응답하여 수정된다. 본 발명은 예를 들어 라우드니스-보상 음량 제어, 자동 이득 제어, 동적 범위 제어(예를 들어, 리미터들, 압축기들, 확장기들, 등을 포함), 동적 등화, 및 오디오 재생 환경에서 배경 잡음 간섭 보상중 하나 이상에서 유용하다. 본 발명은 방법들 뿐만 아니라 대응하는 컴퓨터 프로그램들 및 장치를 포함한다.

리미터, 압축기, 확장기, 라우드니스, 스펙트럼 밸런스

Description

오디오 신호의 인식된 라우드니스 및/또는 인식된 스펙트럼 밸런스 계산 및 조정{CALCULATING AND ADJUSTING THE PERCEIVED LOUDNESS AND/OR THE PERCEIVED SPECTRAL BALANCE OF AN AUDIO SIGNAL}

본 출원은 2004년 10월 26일 및 2004년 12월 21일에 출원된 미국 가 특허 출원 일련번호 60/622,458 및 60/638,607의 우선권을 주장한 것이다.

본 발명은 오디오 신호 처리에 관한 것이다. 특히, 본 발명은 오디오 신호의 인식된 사운드 라우드니스 및/또는 인식 스펙트럼 밸런스의 측정 및 제어에 관한 것이다. 본 발명은, 예를 들어, 라우드니스-보상 음량 제어, 자동 이득 제어, 동적 범위 제어(예를 들어, 리미터들, 압축기들, 확장기들, 등을 포함), 동적 등화, 및 오디오 재생 환경에서 배경 잡음 간섭 보상중 하나 이상에서 유용하다. 본 발명은 방법들 뿐만 아니라 대응하는 컴퓨터 프로그램들 및 장치를 포함한다.

라우드니스를 측정하는 만족할 만한 객관적인 방법들을 개발하고자 하는 시도가 계속되어 왔다. Fletcher 및 Munson은 1993년에 인간의 청각은 중간(또는 음성) 주파수들에서 보다 저 및 고 주파수들에서 덜 민감하다라고 결론지었다. 이들은 또한 사운드의 레벨이 증가함에 따라서 감도의 상대적인 변화가 감소된다는 것을 발견하였다. 마이크로폰, 증폭기, 미터 및 필터들의 조합으로 이루어진 초창기 라우드니스 미터는 저, 중간 및 고 사운드 레벨들에서 청각의 주파수 응답을 대략적으로 모방하도록 설계되었다.

이와 같은 장치들이 단일의 일정한 레벨의 아이솔레이트된 톤(single, constant level, isoltated tone)의 라우드니스를 측정할지라도, 더욱 복잡한 사운드들의 측정은 라우드니스의 주관적인 임프레션에 거의 부합하지 않는다. 이 유형의 사운드 레벨 미터들은 정규화되었지만 산업체 잡음의 감시 및 제어와 같은 특정 작업들에 사용된다.

1950년대 초, Zwicker 및 Stevens은 Fletcher 및 Munso의 작업을 개량 특히 라우드니스 인식 프로세스의 더욱 실제적인 모델을 개발하였다. Stevens은 1956년에 the Journal of the Acoustical Society of America에서 "Caclulation of the Loudness of Complex Noise"하는 방법을 공개하였고 Zwicker는 1958년에 Acoustica에서 "Psychological and Methodical Basis of Loudness"라는 제목의 논문을 공개하였다. 1959년에 Zwicker는 라우드니스 계산을 위한 그래픽 절차를 공개하였는데, 그 즉시 여러 유사 논문들이 공개되었다. Stevens 및 Zwicker 방법들은 ISO 파트 A 및 B(각각)으로서 정규화되었다. 두 가지 방법들은 유사한 단계들을 포함한다.

우선, 여기(excitation)라 칭하는 내이(inner ear)의 기저막(basilar membrane)을 따른 에너지의 시변 분포는 오디오를 임계 대역 레이트 스케일로 균일하게 이격된 중심 주파수들을 갖는 대역-통과 청각 필터들 군을 통과시킴으로써 시뮬레이팅된다. 각 청각 필터는 내이의 기저막을 따라서 특정 위치에서 주파수 응답 을 시뮬레이팅하도록 설계되는데, 상기 필터의 중심 주파수는 이 위치에 대응한다. 임계 대역폭은 하나의 이와 같은 필터의 대역폭으로서 규정된다. 헤르쯔 단위로 측정되면, 이들 청각 필터들의 임계-대역 폭은 중심 주파수 증가에 따라서 증가된다. 그러므로, 이 랩핑된 스케일(wraped scale)에서 측정된 모든 청각 필터들용 임계-대역폭이 일정하게 되도록 랩핑된 주파수 스케일을 규정하도록 하는데 유용하다. 이오 같은 랩핑된 스케일을 임계 대역 레이트 스케일이라 칭하고 광범위의 사이코이코스틱 현상(psychoacoustic phenomena)을 이해하고 시뮬레이팅하는데 매우 유용하다. 예를 들어, 1990년 베를린의 스프링게르-베르라그에서 E. Zwicker 및 H. Fastl이 발표한 "Pyschoacoustics-Facts and Models"을 참조하라. Stevens 및 Zwicker의 방법들은 임계 대역폭이 500Hz 보다 아래에선 일정하고 500Hz를 넘어선 증가되는 바크 스케일(Bark scale)이라 칭하는 임계 대역 레이트 스케일을 사용한다. 최근에, Moore 및 Glasberg는 ERB(Equivalent Rectangular Bandwidth) 스케일(B.C.J. Moore, B. Glasberg, T. Baer가 1997년 4월 4일 Journal of the Audio Engineering Society, Vol. 45, No. 4, pp. 224-240에서 발표한 "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness)이라 칭하는 임계 대역 레이트 스케일을 규정하였다. 노칭된-잡음 마스커들(notched-noise maskers)을 이용한 사이코아쿠스틱 실험들을 통해서, Moore 및 Glasberg는 임계 대역폭이 일정하게 유지되는 바크 스케일과 대조적으로 임계 대역폭이 500Hz보다 아래에서 계속 감소된다는 것을 입증하였다.

다음, 여기의 계산은 "비 라우드니스(specifc loudness)"라 칭하는 량을 발 생시키는 비선형 압축 함수이다. 비 라우드니스는 주파수 및 시간의 함수에 따른 인식 라우드니스의 측정값이고 상술된 바크 또는 ERB 스케일과 같은 임계 대역 레이트 스케일을 따라서 단위 주파수 당 인식 라우드니스의 단위들로 측정될 수 있다. 최종적으로, 시변 "총 라우드니스"는 주파수에 걸쳐서 비 라우드리스를 적분함으로써 계산된다. 비 라우드니스가 임계 대역 레이트 스케일을 따라서 균일하게 분포되는 유한 청각 필터들의 세트로부터 추정될 때, 총 라우드니스는 간단히 각 필터로부터의 비 라우디스를 합산함으로써 계산될 수 있다.

라우드니스는 폰(phon) 단위로 측정될 수 있다. 폰에서 소정 사운드의 라우드니스는 상기 사운드의 라우드니스와 동일한 주관적인 라우드니스를 갖는 1kHz 톤의 음압 레벨(SPL)이다. 종래에, SPL에 대한 기준 OdB은 2×10^-5Pascal의 제곱근 자승 평균임으로, 이는 또한 기준 0폰이다. 1kHz 이외의 주파수들에서 톤들 라우드니스를 1kHz에서의 라우드니스와 비교시 이 정의를 이용하면, 동일한 라우드니스의 등고선(contour)이소정 폰 레벨에 대해서 결정될 수 있다.

도11은 20Hz 및 12.5kHz 사이의 주파수들에 대해서 그리고 4.2 폰(청각의 임계값으로 간주됨) 및 120 폰(ISO226: 1087(E), "Acoustics-Normal equal loudness level contours") 사이의 폰 레벨들에 대해서 동일한 라우드니스 등고선들을 도시한다. 이 폰 측정은 주파수에 의한 인간 청각의 시변 감도를 고려하지만, 이 결과들은 가변하는 레벨들에서 상대적 주관적인 사운드들의 라우드니스를 평가하지 않는데, 그 이유는 SPL로 인한 라우드니스의 성장의 비선형도에 대해서, 즉 등곡선들 의 간격이 가변한다는 사실에 대해서 정정하도록 시도되지 않기 때문이다.

라우드니스는 또한 "손(sone)" 단위로 측정될 수 있다. 도11에 도시된 바와 같이 폰 단위들과 손 단위들 간은 일 대 일 맵핑한다. 하나의 손은 40(dB)(SPL) 1 kHz 순 사인파의 라우드니스로서 규정되고 40개의 폰과 등가이다. 손의 단위는 손의 2배 증가가 인식된 라우드니스의 2배에 대응하도록 된다. 예를 들어, 4개의 손은 2개의 손의 라우드의 2배만큼 인식된다. 따라서, 손의 라우드니스 레벨들을 표현하는 것이 더욱 유용하다. 주파수 및 시간 함수와 같이 인식 라우드니스의 측정값으로서 비 라우드니스의 규정하면, 비 라우드니스는 단위 주파수 당 손 단위로 측정될 수 있다. 따라서, 바크 스케일을 이용할 때, 비 라우드니스는 바크 당 손의 단위를 갖고 마찬가지로 ERB 스케일을 이용할 때, 이 단위는 ERB 당 손이다.

상술된 바와 같이, 인간 귀의 감도는 사이코아쿠스틱 문헌에 기재된 바와 같이 주파수 및 레벨 둘 다에 의해 가변된다. 이 결과들의 하나는 소정 사운드의 인식 스펙트럼 또는 음색이 사운드가 청취되는 음향 레벨에 의해 가변된다는 것이다. 예를 들어, 저, 중간 및 고 주파수들을 포함하는 사운드에 대해서, 이와 같은 주파수 성분들의 인식된 상대적인 비는 사운드의 전체 라우드니스에 따라 변화된다; 사운드가 조용할 때 저 및 고 주파수 성분들은 사운드가 시끄러울 때 들리는 중간 주파수에 비해 더 조용하게 들린다. 이 현상은 널리 공지되어 있고 소위 라우드니스 제어들에 의해 음 재생 장비에서 완화된다. 라우드니스 제어는 볼륨이 턴다운될 때 저 및 때때로 또한 고 주파수 부스트를 적용하는 볼륨 제어이다. 따라서, 주파수 극단들(frequency extremes)에서 귀의 감도가 낮을수록 이들 주파수들의 인위적인 부스트에 의해 보상된다. 이와 같은 제어들은 완전히 수동적이며, 적용된 보상 정도는 오디오 신호들의 컨텐트(content)의 함수가 아니라 볼륨 제어 또는 일부 다른 사용자-동작된 제어의 세팅의 함수이다.

실제로, 저, 중간 및 고 주파수들 간에서 인식된 상대 스펙트럼 밸런스의 변화들은 신호, 특히 실제 스펙트럼과 라우드 또는 소프트로 되는지 여부에 따른다. 심포니 오케스트라의 녹음을 고려하자. 청중이 콘서트 홀에서 청취하는 것과 같은 레벨로 재생되면, 스펙트럼에 걸쳐서 밸런스는 오케스트라가 크게 또는 조용하게 연주하는지 여부에 따라서 정정될 수 있다. 음악이 10dB보다 조용하게 재생되면, 예를 들어, 스펙트럼에 걸쳐서 인식된 밸런스는 라우드 경로들(loud passages)에 대해 한 가지 방식으로 변화되고 콰이어트 경로들(quiet passages)에 대해 또 다른 방식으로 변화된다. 종래의 수동 라우드니스 제어는 음악의 함수에 따라서 상이한 보상들을 적용하지 못한다.

특히, Seefeldt 등이 2004년 5월 27일에 출원한 2004년 12월 23일에 공개된 WO 2004/1119994 A2국제 특허 출원 번호 PCT/US2004/016964에 오디오 신호의 인식된 라우드니스를 측정하고 조정하는 시스템이 서술되어 있다. 미국을 지정한 상기 PCT 출원은 본원에 전반적으로 참조되어 있다. 상기 출원에서, 사이코아쿠스틱 모델은 인식 단위들에서 오디오 신호의 라우드니스를 계산한다. 게다가, 이 출원은 오디오에 적용될 때 기준 라우드니스와 실질적으로 동일한 이득-수정된 오디오의 라우드니스가 되는 광대역 승산 이득을 계산하는 기술들을 소개한다. 그러나, 이와 같은 광대역 이득의 애플리케이션은 오디오의 인식 스펙트럼 밸런스를 변화시킨다.

한 양상에서, 본 발명은 비 라우드니스 및 타켓 비 라우드니스 사이의 차를 감소시키기 위하여 오디오 신호를 수정함으로써 오디오 신호의 비 라우드니스를 제어하는데 사용될 수 있는 정보를 도출하기 위하여 제공된다. 비 라우드니스는 주파수 및 시간의 함수에 따른 인식 라우드니스의 측정값이다. 실제 구현방식들에서, 수정된 오디오 신호의 비 라우드니스는 타겟 비 라우드니스를 근사화하도록 행해질 수 있다. 이 근사화는 통상적인 신호 처리 고려사항들 뿐만 아니라 후술되는 바와 같이 수정시에 사용될 수 있는 시간 및/또는 주파수-스무딩에 의해 영향받을 수 있다.

비 라우드니스가 주파수 및 시간의 함수에 따른 오디오 신호의 인식 라우드니스의 측정값이기 때문에, 오디오 신호의 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시키기 위하여, 이 수정은 주파수의 함수에 따라서 오디오 신호를 수정할 수 있다. 일부 경우들에, 타겟 비 라우드니스가 시불변일 수 있고 오디오 신호 그 자체가 정상 시불변 신호일 수 있지만, 전형적으로 이 수정은 또한 시간 함수에 따라서 오디오 신호를 수정할 수 있다.

본 발명의 양상들은 또한 오디오 재생 환경에서 배경 잡음 간섭을 보상하도록 사용될 수 있다. 오디오가 배경 잡음의 존재시에 청취될 때, 이 잡음은 오디오의 레벨과 스펙트럼 및 잡음의 레벨과 스펙트럼 둘 다를 따른 방식으로 오디오를 부분적으로 또는 완전히 마스크할 수 있다. 이 결과는 오디오의 인식 스펙트럼의 변경이다. 사이코아쿠스틱 연구(예를 들어, Moore, Glasberg, 및 Baer가 1997년 4월 J. Audio Eng. Soc., Vol. 45, No. 4에 발표한 "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness"를 참조)를 따르면, 잡음과 같은 2차 간섭 사운드 신호의 존재시 오디오의 인식 라우드니스로서 오디오의 "부분적인 비 라우드니스(partial specific loudness)"를 규정할 수 있다.

따라서, 또 다른 양상에서, 본 발명은 부분적인 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시키기 위하여 오디오 신호를 수정함으로써 오디오 신호의 부분적인 비 라우드니스를 제어하는데 사용가능한 정보를 도출하기 위하여 제공된다. 이와 같이 하면 인식가능하게 정확한 방식으로 잡음의 영향을 완화시킨다. 간섭 잡음 신호를 고려하는 본 발명의 이와 그리고 다른 양상들에서, 오디오 신호그 자체에 액세스하고 2차 간섭 신호 그 자체에 액세스한다라고 가정하자.

또 다른 양상에서, 본 발명은 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시키기 위하여 오디오 신호를 수정함으로써 오디오 신호의 비 라우드니스를 제어하기 위하여 제공된다.

또 다른 양상에서, 본 발명은 부분적인 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시키기 위하여 오디오 신호를 수정함으로써 오디오 신호의 부분적인 비 라우드니스를 제어하기 위하여 제공된다.

타겟 비 라우드니스가 오디오 신호의 함수가 아닐 때, 이는 저장되거나 수신된 타겟 비 라우드니스일 수 있다. 타겟 비 라우드니스가 오디오 신호의 함수가 아닐 때, 이 수정 또는 도출은 비 라우드니스 또는 부분적인 비 라우드니스를 명시적으로 또는 암시적으로 계산할 수 있다. 암시적인 계산의 예들로서 룩업 테이블 또는 "클로우즈드-폼(closed-form)" 수학적 표현을 들 수 있는데, 여기서 비 라우드니스 및/또는 부분적인 비 라우드니스는 고유하게 결정된다(용어 클로우즈드-폼은 지수 및 코사인과 같은 유한 수의 표준 수학적 연산들 및 함수들을 이용하여 정확하게 표현될 수 있는 수학적 표현을 설명하는 것을 의미한다). 또한, 타겟 비 라우드니스가 오디오 신호의 함수가 아닐때, 타겟 비 라우드니스는 시간 및 주파수 불변일 수 있거나 단지 시불변일 수 있다.

또한 다른 양상에서, 본 발명은 타겟 비 라우드니스를 발생시키기 위하여 하나 이상의 프로세스들 및 하나 이상의 프로세스-제어 파라미터들에 따라서 오디오 신호의 측정 또는 오디오 신호를 처리함으로써 오디오 신호를 처리하기 위하여 제공된다. 타겟 비 라우드니스가 시불변("고정")일 수 있지만, 타겟 비 라우드니스는 유용하게는 오디오 신호의 비 라우드니스 함수일 수 있다. 이는 정적 주파수 및 시불변 신호일 수 있지만, 전형적으로, 오디오 신호 자체는 주파수 및 시불변임으로, 오디오 신호의 함수일 때 타겟 비 라우드니스가 주파수 및 시불변이 되도록 한다.

오디오 및 타겟 비 라우드니스 또는 타겟 비 라우드니스의 표현은 전송으로부터 수신되거나 저장 매체로부터 재생될 수 있다.

타겟 비 라우드니스의 표현은 오디오 신호 또는 오디오 신호의 측정값을 스케일하는 하나 이상의 스케일 팩터들일 수 있다.

본 발명의 임의의 상기 양상들의 타겟 비 라우드니스는 오디오 신호의 함수 또는 오디오 신호의 측정값일 수 있다. 오디오 신호의 한 가지 적절한 측정은 오디오 신호의 비 라우드니스이다. 오디오 신호의 함수 또는 오디오 신호의 측정은 오디오 신호의 스케일링 또는 오디오 신호의 측정값일 수 있다. 예를 들어, 스케일링은 스케일링들 중 하나 또는 이들의 조합일 수 있다.

(a) 이 관계식에서 처럼 비 라우드니스의 시간 및 주파수 가변 스케일 팩터

스케일링

(b) 이관계식에서 처럼 비 라우드니스의 시변, 주파수 불변 스케일 팩터 Φ[t] 스케일링

(c) 이 관계식에서 처럼 비 라우드니스의 시불변, 주파수 가변 스케일 팩터

스케일링

(d) 이 관계식에서 처럼 오디오 신호의 비 라우드니스의 시불변 주파수 불변 스케일 팩터 α 스케일링

여기서

는 타겟 비 라우드니스이며, N[b, t]는 오디오 신호의 비 라우드니스이며, b는 주파수의 측정값이고, t는 시간의 측정값이다.

(a) 시간 및 주파수 가변 스케일 팩터의 경우에, 스케일링은 오디오 신호의 원하는 다중대역 라우드니스와 다중 대역 라우드니스의 비에 의해 적어도 부분적으로 결정될 수 있다. 이와 같은 스케일링은 동적 범위 제어로서 사용될 수 있다. 동적 범위 제어에 따라서 본 발명의 양상들을 사용하는 부가적인 상세사항들이 후술된다.

또한 (a) 시간 및 주파수 가변 스케일 팩터의 경우에, 비 라우드니스는 오디오 신호의 원하는 스펙트럼 형상의 측정값 대 스펙트럼 형상의 측정값의 비에 의해 스케일링될 수 있다. 이와 같은 스케일링은 시변 인식 스펙트럼으로부터 실질적으로 시불변 인식 스펙트럼으로 오디오 신호의 인식 스펙트럼을 변환시키도록 사용될 수 있다. 비 라우드니스가 오디오 신호의 원하는 스펙트럼 형상의 측정값 대 스펙트럼 형상의 측정값의비에 의해 스케일링될 때, 이와 같은 스케일링은 동적 등화기로서 사용될 수 있다. 게다가, 동적 등화기로서 본 발명의 양상들을 사용하는 상세사항들이 후술된다.

(b) 시변 주파수-불변 스케일 팩터의 경우에, 스케일링은 오디오 신호의 원하는 광대역 라우드니스 및 광대역 라우드니스의 비에 의해 적어도 부분적으로 결정될 수 있다. 이와 같은 스케일링은 자동 이득 제어 또는 동적 범위 제어로서 사용될 수 있다. 자동 이득 제어 또는 동적 범위 제어로서 본 발명의 양상들을 사용하는 부가적인 상세사항들이 후술된다.

(a)(시간 및 주파수 가변 스케일 팩터) 또는 (b)(시변 주파수 불변 스케일 팩터)의 경우에, 스케일 팩터는 오디오 신호의 함수 또는 오디오 신호의 측정값일 수 있다.

(c) 시불변 주파수 가변 스케일 팩터 및 시불변 주파수 불변 스케일 팩터의 두 경우에, 이 수정 또는 도출은 스케일 팩터를 저장하는 것을 포함할 수 있거나, 스케일 팩터는 외부 소스로부터 수신될 수 있다.

(c) 및 (d) 중 어느 한 경우에, 스케일 팩터는 오디오 신호의 함수 또는 오디오 신호의 측정값이 아닐 수 있다.

본 발명의 임의의 각종 양상들 및 이의 변형들에서, 이 수정, 도출, 또는 발생은 (1) 비 라우드니스 및/또는 (2) 부분적인 비 라우드니스, 및/또는 (3) 타겟 비 라우드니스를 다양하게, 명시적으로 또는 암시적으로 계산할 수 있다. 명시적인 계산들은 예를 들어 룩업 테이블 또는 클로우즈드-폼 수학적 표현을 포함할 수 있다.

수정 파라미터들은 일시적으로 스무드될 수 있다. 수정 파라미터들은 (1) 오디오 신호의 주파수 대역들에 관한 다수의 진폭 스케일링 팩터들 또는 (2) 멀티탭핑된(multitapped) FIR 필터 또는 멀티폴(multipole) IIR 필터와 같은 하나 이상의 필터들을 제어하는 다수의 필터 계수들일 수 있다. 스케일링 팩터들 또는 필터 계수들(및 이들이 적용되는 필터들)은 시변일 수 있다.

타겟 비 라우드니스 또는 이 함수의 역을 규정하는 오디오 신호의 비 라우드니스 함수를 계산시, 이와 같은 계산들을 수행하는 프로세스 또는 프로세스들은 인식(사이코아쿠스틱) 라우드니스 도메인으로서 특징지워질 수 있는 것으로 동작되는데, 이 계산의 입력 및 출력은 입력 및 출력은 비 라우드니스이다. 대조적으로, 진폭 스케일링 팩터들을 오디오 신호의 주파수 대역들에 인가하거나 필터 계수들을 오디오 신호의 제어가능한 필터링에 인가시, 수정 파라미터들은 전기 신호 도메인으로서 특징지워질 수 있는 인식(사이코아쿠스틱) 라우드니스 도메인 외부의 오디오 신호를 수정하도록 작용한다. 오디오 신호에 대한 수정들이 전기 신호 도메인에서 오디오 신호에 대해 행해질 수 있지만, 오디오 신호 도메인에서 이와 같은 변화들은 인식(사이코아쿠스틱) 라우드니스 도메인에서 계산들로부터 도출되어, 수정된 오디오 신호가 원하는 타겟 비 라우드니스에 근사화되는 비 라우드니스를 갖도록 한다.

라우드니스 도메인에서 계산들로부터 수정 파라미터들을 도출함으로써, 인식 라우드니스 및 인식 스펙트럼 밸런스에 대해서 이와 같은 수정 파라미터들이 전기 신호 도메인에서 도출되는 경우보다 더 많은 제어를 성취할 수 있다. 게다가, 라우드니스 도메인 계산들을 수행시 기저막 시뮬레이팅 사이코아쿠스틱 필터뱅크 또는 이의 등가물의 이용은 전기 신호 도메인에서 수정 파라미터들을 도출하는 장치들에서 보다 인식 스펙트럼의 더욱 상세한 제어를 제공할 수 있다.

수정, 도출 및 발생 각각은 간섭 오디오 신호, 타겟 비 라우드니스, 수정된 오디오 신호의 비 라우드니스 또는 부분적인 비 라우드니스로부터 도출되는 수정되지 않은 오디오 신호의 비 라우드니스의 추정값, 및 수정된 오디오 신호의 비 라우드니스 또는 부분적인 비 라우드니스로부터 도출된 타겟 비 라우드니스에 대한 근사값중 하나 이상에 좌우될 수 있다.

이 수정 또는 도출은 간섭 오디오 신호의 측정, 타겟 비 라우드니스, 수정된 신호의 비 라우드니스 또는 부분적인 비 라우드니스로부터 도출된 수정되지 않은 오디오 신호의 비 라우드니스의 추정값, 수정되지 않은 오디오 신호의 라우드니스, 및 수정된 오디오 신호의 비 라우드니스 또는 부분적인 비 라우드니스로부터 도출된 타겟 비 라우드니스에 대한 근사값중 하나 이상으로부터 적어도 부분적으로 수정 파라미터들을 도출할 수 있다.

특히, 이 수정 또는 도출은 적어도 부분적으로 다음으로부터 수정 파라미터들을 도출할 수 있다.

(1) 타게 비 라우드니스, 및 수정된 오디오 신호의 비 라우드니스로부터 수신된 수정되지 않은 오디오 신호의 비 라우드니스의 추정값 중 하나, 및

(2) 수정되지 않은 오디오 신호의 비 라우드니스, 및 수정된 오디오 신호의 비 라우드니스로부터 도출된 타겟 비 라우드니스에 대한 근사값 중 하나.

또는, 간섭 오디오 신호가 고려될 때, 이 수정 또는 도출은 적어도 부분적으로 다음으로부터 수정 파라미터들을 도출할 수 있다.

(1) 간섭 오디오 신호의 측정,

(2) 타겟 비 라우드니스, 및 수정된 오디오 신호의 부분적인 비 라우드니스로부터 도출된 수정되지 않은 오디오 신호의 비 라우드니스 추정값, 및 (3) 수정되지 않은 오디오 신호의 비 라우드니스 및 수정된 오디오 신호의 부분적인 비 라우드니스로부터 도출되는 타겟 비 라우드니스에 대한 근사값 중 하나.

피드-포워드 장치가 사용될 수 있는데, 여기서 비 라우드니스는 오디오 신호로부터 도출되고 타겟 비 라우드니스는 수정 또는 도출이 타겟 비 라우드니스를 저장하는 것을 포함할 때 저장으로부터 상기 방법의 외부 소스로부터 수신된다. 대안적으로, 하이브리드 피드-포워드/피드백 장치가 사용될 수 있는데, 여기서 타겟 비 라우드니스에 대한 근사값은 수정된 오디오 신호로부터 도출되고 타겟 비 라우드니스는 수정 또는 도출이 타겟 비 라우드니스를 저장하는 것을 포함할 때 저장으로부터 또는 상기 방법의 외부 소스로부터 수신된다.

이 수정 또는 도출은 타겟 비 라우드니스를 명시적으로 또는 암시적으로 획득하기 위한 하나 이상의 프로세스들을 포함하는데, 이 프로세스들 중 하나 이상은 오디오 신호의 함수 또는 오디오 신호의 측정값의 함수를 명시적으로 또는 암시적으로 계산한다. 한 대안으로서, 피드-포워드 장치가 사용될 수 있는데, 여기서 비 라우드니스 및 타겟 비 라우드니스는 오디오 신호로부터 도출되며, 타겟 비 라우드니스의 도출은 오디오 신호의 함수 또는 오디오 신호의 측정값을 사용한다. 또 다른 대안으로서, 하이브리드 피드-포워드/피드백 장치가 사용될 수 있는데, 여기서 비 라우드니스에 대한 근사값은 수정된 오디오 신호로부터 도출되고 타겟 비 라우드니스는 오디오 신호로부터 도출되며, 상기 타겟 비 라우드니스의 도출은 상기 오디오 신호의 함수 또는 오디오 신호의 측정값을 사용한다.

이 수정 또는 도출은 수정된 오디오 신호에 응답하여 수정되지 않은 오디오 신호의 비 라우드니스의 추정값을 명시적으로 또는 암시적으로 획득하기 위한 하나 이상의 프로세스들을 포함하는데, 이 프로세스들 중 하나 이상은 오디오 신호의 역함수 또는 오디오 신호의 측정값을 명시적으로 또는 암시적으로 계산한다. 한 대안으로서, 피드백 장치가 사용되는데, 여기서 수정되지 않은 오디오 신호의 비 라우드니스의 추정값 및 타겟 비 라우드니스에 대한 근사값은 수정된 오디오 신호로부터 도출되며, 비 라우드니스의 추정값은 오디오 신호의 역함수 또는 오디오 신호의 측정값을 이용하여 계산된다. 또 다른 대안에서, 하이브리드 피드-포워드/피드백 장치가 사용되는데, 여기서 비 라우드니스는 오디오 신호로부터 도출되고 수정되지 않은 오디오 신호의 비 라우드니스의 추정값은 수정된 오디오 신호로부터 도출되며, 이 추정값의 도출은 오디오 신호의 역함수 또는 오디오 신호의 측정값을 이용하여 계산된다.

수정 파라미터들은 수정된 오디오 신호를 발생시키도록 오디오 신호에 인가될 수 있다.

본 발명의 또 다른 양상은 프로세스들 또는 장치들의 시간적 및/또는 공간적 분리하여 실제로 엔코더 또는 엔코딩 및 또한 디코더 또는 디코딩이 존재하도록 할 수 있다는 것이다. 예를 들어, 수정 또는 도출은 전송 및 수신 또는 저장중 어느 하나일 수 있고 또한 오디오 신호를 재생할 수 있고 (1) 수정 파라미터들 또는 (2) 타겟 비 라우드니스 또는 타겟 비 라우드니스의 표현중 하나를 재생할 수 있는 엔코딩/디코딩 시스템일 수 있다. 대안적으로, 상술된 바와 같이, 실제로 오디오 신호의 수신 및 재생과 (1) 수정 파라미터들 또는 (2) 타겟 비 라우드니스 또는 타겟 비 라우드니스의 표현을 수신 및 재생하는 디코더 또는 디코딩만이 존재할 수 있다. 대안적으로, 상술된 바와 같이, 실제로 오디오 신호 및 (1) 수정 파라미터들 또는 (2) 타겟 비 라우드니스 또는 타겟 비 라우드니스의 표현을 수신 및 재생하는 디코더 또는 디코딩만이 존재할 수 있다.

도1은 본 발명의 양상들을 따른 피드-포워드 구현방식의 예를 도시한 기능 블록도.

도2는 본 발명의 양상을 따른 피드백 구현방식의 예를 도시한 기능 블록도.

도3은 본 발명의 양상들을 따른 하이브리드 피드-포워드/피드백 구현방식의 예를 도시한 기능 블록도.

도4는 본 발명의 양상들을 따른 또 다른 하이브리드 피드-포워드/피드백 구현방식의 예를 도시한 기능 블록도.

도5는 피드-포워드, 피드백, 및 하이브리드 피드-포워드 피드백 장치들 중 어느 하나에 의해 결정된 바와 같은 수정되지 않은 오디오 신호 및 수정 파라미터들이 예를 들어 시간적으로 또는 공간적으로 분리된 장치 또는 프로세스에서 사용하기 위하여 저장 또는 전송될 수 있는 방식을 도시한 기능 블록도.

도6은 피드-포워드, 피드백, 및 하이브리드 피드-포워드 피드백 장치들 중 어느 하나에 의해 결정된 바와 같은 수정되지 않은 오디오 신호 및 타겟 비 라우드니스 또는 이의 표현이 예를 들어 시간적으로 또는 공간적으로 분리된 장치 또는 프로세스에서 사용하기 위하여 저장 또는 전송될 수 있는 방식을 도시한 기능 블록도.

도7은 본 발명의 양상의 개요를 도시한 개요적인 기능 블록도 또는 개요적인 흐름도.

도8은 수직 축이 감쇠(dB) 및 수평축이 로그 베이스 10 주파수(Hz)인 본 발명의 실시예에서 전송 필터로서 적합한 선형 필터 (P(z))의 이상적인 특성 응답을 도시한 도면.

도9는 ERB 주파수 스케일(수직축) 및 주파수(Hz)(수평축) 간의 관계를 도시 한 도면.

도10은 ERB 스케일상에서 임계 대역에 근사화되는 이상적인 청각 필터 특성 응답들의 세트를 도시한 도면으로서, 수평 스케일은 주파수(Hz) 및 수직 축은 레벨(dB)인 도면.

도11은 ISO(226)의 동일한 라우드니스 등고선들을 도시한 도면으로서, 수평 스케일은 주파수(Hz)(로그 베이스 10 스케일) 및 수직축은 음압 레벨(dB)인 도면.

도12는 전송 필터(P(z))에 의해 정규화되는 ISO(226)의 동일한 라우드니스 등고선들을 도시한 도면으로서, 수평 스케일은 주파수(Hz)(로그 베이스 10 스케일)이고 수직 스케일은 음압 레벨(dB)인 도면.

도13a는 여성 음성의 세그먼트 상에서 0.25의 라우드니스 스케일링을 위한 광대역 및 다중대역 이득들을 도시한 이상적인 챠트로서, 수평 스케일은 ERB 대역들이고 수직 스케일은 상대적인 이득(dB)인 도면.

도13b는 원래 신호, 광대역 이득-수정된 신호, 및 다중대역 이득-수정된 신호의 각 비 라우드니스를 도시한 이상적인 챠트로서, 수평 스케일은 ERB 대역들이고 수직 스케일은 비 라우드니(손/ERB)인 도면.

도14a는 전형적인 AGC를 위한 L_i[t] 함수로서 L_o[t]를 도시한 이상적인 챠트로서, 수평 스케일은 log(L_i[t]) 및 수직 스케일은 log(L₀[t])인 도면.

도14b는 전형적인 DRC를 위한 L_i[t] 함수로서 L_o[t]를 도시한 이상적인 챠트로서, 수평 스케일은 log(L_i[t]) 및 수직 스케일은 log(L₀[t])인 도면.

도15는 다중대역 DRC용 전형적인 대역-스무딩 기능을 도시한 이상적인 챠트로서, 수평 스케일은 대역 번호이고 수직 스케일은 대역(b)을 위한 이득 출력인 도면.

도16은 본 발명의 양상의 개요를 도시한 개요적인 기능 블록도 또는 개요적인 흐름도.

도17은 재생 환경에서 잡음을 보상을 또한 포함하는 도1과 유사한 개요적인 기능 블록도 또는 개요적인 흐름도.

도1 내지 도4는 본 발명의 양상을 따른 가능한 피드-포워드, 피드백, 및 하이브리드 피드-포워드/피드백의 2가지 버전들 구현방식의 예들을 도시한 기능 블록도를 도시한다.

도1의 피드-포워드 토포로지의 예를 참조하면, 오디오 신호는 2개의 경로들, 즉 (1) 수정 파라미터들에 응답하여 오디오를 수정할 수 있는 프로세스 또는 장치(2)("오디오 신호 수정")을 갖는 신호 경로, 및 (2) 이와 같은 수정 파라미터들을 발생시킬 수 있는 프로세스 또는 장치(4)("수정 파라미터들 발생")을 갖는 제어 경로에 인가된다. 도1의 피드-포워드 토포로지 예 및 도2 내지 도4 예들 각각에서 오디오 신호 수정(2)은 수정 파라미터들 발생(4)으로부터 (또는 도2 내지 도4 예들 각각에서 카운터파트 프로세스들 또는 장치들(4', 4", 및 4"')로부터) 수신된 수정 파라미터들(M)에 따라서, 예를 들어, 진폭, 주파수, 및/또는 시변 방식을 수정하는 장치 또는 프로세스일 수 있다. 도2 내지 도4의 수정 파라미터들 발생(4) 및 이의 카운터파트들 각각은 인식 라우드니스 도메인에서 적어도 부분적으로 동작한다. 오디오 신호(2) 수정은 전기 신호 도메인에서 동작하고 도1 내지 도4 예들 각각에서 수정된 오디오 신호를 발생시킨다. 또한 도1 내지 도4 예들 각각에서, 오디오 신호 수정(2) 및 수정 파라미터들 발생(4)(또는 이의 카운터파트들)은 오디오 신호를 수정하여 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시킨다.

도1의 피드-포워드 예에서, 프로세스 또는 장치(4)는 여러 프로세스들 및/또는 장치들, 즉 오디오 신호의 비 라우드니스와 같은 오디오 신호의 또는 오디오 신호의 측정값에 응답하여 타겟 비 라우드니스를 계산하는 "타겟 비 라우드니스 계산" 프로세스 또는 장치(6), 여기와 같은 오디오 신호 또는 오디오 신호들의 측정값에 응답하여 오디오 신호의 비 라우드니스를 계산하는 " 비 라우드니스 계산" 프로세스 또는 장치(8), 및 비 라우드니스 및 타겟 비 라우드니스에 응답하여 수정 파라미터들을 계산하는 " 수정 파라미터들 계산" 프로세스 또는 장치(10)를 포함한다. 타겟 비 라우드니스 계산(6)은 하나 이상의 함수들 "F"를 수행하는데, 이 함수 각각은 함수 파리미터들을 가질 수 있다. 예를 들어, 이는 오디오 신호의 비 라우드니스를 계산할 수 있고 그 후, 하나 이상의 함수들 (F)을 이에 인가하여 타겟 비 라우드니스를 제공한다. 이는 프로세스 또는 장치(6)로 입력되는 "함수(들) F 및 함수(들) 파라미터(들)"로서 도1에 개요적으로 도시된다. 장치 또는 프로세스(6)에 의해 계산되는 대신에, 타겟 비 라우드니스는 수정 파라미터들 발생(4)에 포함되거나 이와 관련된 저장 프로세스 또는 장치(프로세스 또는 장치(10)로 입력되는 "저장"으로서 개요적으로 도시됨) 또는 전체 프로세스 또는 장치 외부의 소스(프로세 스 또는 장치(10)로 입력된 "외부"로서 개요적으로 도시됨)에 의해 제공될 수 있다. 따라서, 수정 파라미터들은 적어도 부분적으로 인식(사이코아쿠스틱) 라우드니스 도메인에서 계산들(즉, 적어도 비 라우드니스 및 일부 경우들에 타겟 비 라우드니스 계산들)을 적어도 부분적으로 기초로 한다.

이 계산들은 프로세스들 또는 장치들(6, 8 및 10)(및 도2의 예에서 프로세스들 또는 장치들(12, 14, 10'), 도3의 예에서 (6, 14, 10"), 및 도4의 예에서 8, 12, 10"')에 의해 수행된다. 암시적인 수행성능의 예들은 (1) 엔트리들이 비 라우드니스 및/또는 타겟 비 라우드니스 및/또는 수정 파라미터 계산들을 전체적으로 또는 부분적으로 기초로 하는 룩업 테이블 및 (2) 비 라우드니스 및/또는 타겟 비 라우드니스 및/또는 수정 파라미터들을 고유하게 전체적으로 또는 부분적으로 기초로하는 클로우즈드-폼 수학적 표현을 포함한다.

도1의 예이 계산 프로세스들 또는 장치들(6, 8, 및 10)(및 도2의 예에서 프로세스들 또는 장치들(12, 14, 10'), 도3의 예에서 (6, 14, 10"), 및 도4의 예에서 (8, 12, 10"'))이 개요적으로 도시되고 별개로 설명되지만, 이는 단지 설명을 위한 것이다. 이들 프로세스들 또는 장치들 중 하나 이상 또는 전부가 단일 프로세스 또는 장치에서 결합 또는 다수의 프로세스들 또는 장치들에서 다양하게 결합될 수 있다. 예를 들어, 이하의 도9의 장치에서, 도1의 예에서 처럼 피드-포워드 토포로지, 즉 수정 파라미터들을 계산하는 프로세스 또는 장치는 오디오 신호로부터 도출된 스무드된 여기 및 타겟 비 라우드니스에 응답하여 이와 같이 행한다. 도9의 예에서, 수정 파라미터들을 계산하는 장치 또는 프로세스는 오디오 신호의 비 라우드니 스를 암시적으로 계산한다.

본 발명의 양상으로서, 도1의 예에서 그리고 본원의 본 발명의 실시예들의 다른 예들에서, 타겟 비 라우드니스 (

)는 하나 이상의 스케일링 팩터들로 비 라우드니스(N[b, t])를 스케일링함으로써 계산될 수 있다. 이 스케일링은 이 관계식에서 처럼 비 라우드니스의 시간 및 주파수 가변 스케일 팩터

스케일링일 수 있다.

이 관계식에서 처럼 비 라우드니스의 시변, 주파수 불변 스케일 팩터 Φ[t] 스케일링

이 관계식에서 처럼 비 라우드니스의 시불변, 주파수 가변 스케일 팩터

스케일링

또는

이 관계식에서 처럼 오디오 신호의 비 라우드니스의 스케일 팩터 α 스케일링

여기서 b는 주파수의 측정값(예를 들어, 대역 번호)이고, t는 시간의 측정값(예를 들어, 블록 번호)이다. 다중 스케일링들은 또한 특정 스케일링의 다수 인스턴스들 및/또는 특정 스케일링들의 조합들을 이용하여 사용될 수 있다. 이와 같 은 다수 스케일링들의 예들이 이하에 제공된다. 일부 경우들에, 후술되는 바와 같이, 스케일링은 오디오 신호의 함수 또는 오디오 신호의 측정값일 수 있다. 다른 경우들에, 또한 후술되는 바와 같이, 스케일링이 오디오 신호의 측정값의 함수가 아닐때, 스케일링은 달리 결정되거나 공급될 수 있다. 예를 들어, 사용자는 시간 및 주파수 불변 스케일 팩터 α 또는 시불변, 주파수 가변 스케일 팩터 Θ[b] 스케일링을 선택 또는 인가할 수 있다.

따라서, 타겟 비 라우드니스는 오디오 신호의 하나 이상의 함수들(F) 또는 오디오 신호의 측정값(비 라우드니스는 오디오 신호의 하나의 가능한 측정값이다) 으로서 표현될 수 있다.

=F(N[b, t]).

함수 또는 함수들(F)이 반전될 수 있다면, 수정되지 않은 오디오 신호의 비 라우드니스(N[b, t])는 타겟 비 라우드니스(

)의 역함수 또는 역함수들 (F^-1)로서 계산될 수 있다.

N[b, t] = F^-1(

).

후술되는 바와 같이, 역함수 또는 역함수들(F^-1)은 도2 및 도4의 피드백 및 하이드리드 피드-포우더ㅡ 피드백 예들에서 계산된다.

타겟 비 라우드니스(6)를 계산하기 위하여 입력되는 "함수(들) 및 함수 파라미터(들) 선택"은 하나 이상의 함수 파라미터들에 따라서 하나 이상의 함수들을 인 가함으로써 타겟 비 라우드니스를 계산할 수 있다. 예를 들어, 타겟 비 라우드니스 계산(8)은 오디오 신호의 비 라우드니스 함수 또는 함수들(F)을 계산하여 타겟 비 라우드니스를 규정한다. 예를 들어, "함수(들) 및 함수 파라미터(들) 선택" 입력은 함수들에 속하는 상수들(예를 들어, 스케일 팩터들)과같은 하나 이상의 파라미터들과 함께 상기 유형들의 스케일링들 중 하나 이상에 있는 하나 이상의 특정 함수들을 선택할 수 있다.

스케일링과 관련된 스케일링 팩터들은 타겟 비 라우드니스가 상술된 바와 같이 비 라우드니스의 스케일링에 따라서 계산되기 때문에 비 라우드니스의 스케일링에 따라서 계산될 수 있다. 따라서, 후술되고 상술된 도9의 예에서, 룩업 테이블은 스케일 팩터들 및 여기들에 의해 인덱스되어, 비 라우드니스 및 타겟 비 라우드니스의 계산은 본래부터 상기 테이블에서 이루어진다.

룩업 테이블, 클로우즈드-폼 수학적 표현 또는 이외 다른 어떤 기술을 사용하는지 관계없이, 수정 파라미터들 발생(4)의 연산(및 도2 내지 4의 예들 각각에서 이의 카운터파트 프로세스들 또는 장치들(4', 4", 및 4"'))은 비 라우드니스 및 타겟 비 라우드니스가 명시적으로 계산되지 않을지라도 이 계산들은 인식 (사이코아쿠스틱) 라우드니스에서 기초가 되도록 한다. 명시적 비 라우드니스 또는 개념적인 암시적 비 라우드니스 중 어느 하나가 존재한다. 유사하게, 명시적 타겟 비 라우드니스 또는 개념적인 명시적 타겟 비 라우드니스 중 어느 하나가 존재한다. 어쨌든, 수정 파라미터들의 계산은 오도이소 신호를 수정하여 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시키는 수정 파라미터들을 발생하도록 한다.

잡음과 같은 2차 간섭 오디오 신호를 갖는 재생 환경에서, 수정 파라미터들(10) 계산(및 도2 내지 4예들 각각에서 이의 카운터파트 프로세스들 또는 장치들(10', 10", 및 10"'))은 또한 이와 같은 2차 간섭 신호의 측정값 또는 입력들 중 하나로서 간섭 신호 자체를 선택적인 입력으로서 수신할 수 있다. 이와 같은 선택적인 입력은 점선으로 도1(및 도2 내지 도4)에 도시되어 있다. 2차 간섭 신호의 측정값은 후술되는 도17의 예에서와 같이 여기일 수 있다. 간섭 신호의 측정값 또는 이 신호 자체(이는 간섭 신호가 프로세싱에 별개로 이용될 수 있다라고 가정한다)를 도1의 수정 파라미터들 계산 프로세스들 또는 장치들(10)(및 도2 내지 4 예들 각각에서 이의 카운터파트 프로세스들 또는 장치들(10', 10", 및 10"'))로의 인가는 이와 같은 프로세스 또는 장치가 서두의 "잡음 보상" 하에서 후술되는 바와 같은 간섭 신호를 고려하는 수정 파라미터를 계산하도록 적절하게 구성된다. 도2 내지 도4의 예들에서, 부분적인 비 라우드니스의 계산은 간섭 신호의 적절한 측정값이 각 수정 파라미터들 계산(10', 10", 또는 10"')뿐만 아니라 " 타겟 비 라우드니스의 근사값 계산" 프로세스 또는 장치(14)에 인가되어 이 함수 또는 장치에 의해 부분적인 비 라우드니스의 계산을 용이하게 한다 라고 가정한다. 도1의 피드-포워드 예에서, 부분적인 비 라우드니스는 명시적으로 계산되지 않는데, 도1의 수정 파라미터들의 계산(10)은 적절한 수정 파라미터들을 계산하여 수정된 오디오의 부분적인 비 라우드니스를 타겟 비 라우드니스와 근사화시킨다. 이는 상술된 서두의" 잡음 보상" 하에서 부가적으로 후술된다.

상술된 바와 같이, 도1 내지 도4 예들 각각에서, 오디오 신호 수정자(2)에 의해 오디오 신호에 인가될 때 수정 파라미터들(M)은 비 라우드니스 또는 이 결과의 수정된 오디오 신호 부분적인 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시킨다. 이상적으로, 수정된 오디오 신호의 비 라우드니스는 거의 근사하거나 타겟 비 라우드니스와 동일하다. 이 수정 파라미터들(M)은 예를 들어 필터뱅크로부터 도출된 주파수 대역들 또는 시변 필터의 계수들에 인가되는 시변 이득 팩터들의 형태를 취할 수 있다. 따라서, 도1 내지 도4의 예들 모두에서, 오디오 신호 수정(2)은 예를 들어 주파수 대역에서 각각 동작하는 다수의 진폭 스케일러들 또는 시변 필터(예를 들어, 멀티탭핑된 FIR 필터 또는 멀티폴 IIR 필터)로서 구현될 수 있다.

이 문헌에서 그리고 이 문헌 이외에서, 동일한 참조 번호의 사용은 장치 또는 프로세스가 상기 참조 번호가 병기된 또 다른 장치 또는 다른 장치들과 실질적으로 동일할 수 있다는 것을 나타낸다. 프라임 번호들(예를 들어, "10'")이 병기된 참조 번호들은 장치 또는 프로세스가 구조 또는 기능면에서 유사하지만, 동일한 기본 참조 번호 또는 이의 프라임된 버전들이 병기된 또 다른 또는 다른 장치 또는 프로세스의 수정일 수 있다.

특정 제약하에서, 도1의 피드-포워드와 거의 등가의 피드백 장치가 실현될 수 있다. 도2는 오디오 신호가 신호 경로 내 오디오 신호 수정 프로세스 또는 장치(2)에 인가되는 이와 같은 예를 도시한다. 이 프로세스 또는 장치(2)는 또한, 피드백 장치내의 수정 파리미터들 발생 프로세스 또는 장치(4')가 오디오 신호 수정(2)의 출력으로부터 수정된 오디오 신호를 입력으로서 수신하는 제어 경로부터 수정 파리미터들(M)을 수신한다. 따라서, 도2의 예에서, 수정되지 않은 오디오라기 보다 오히려 수정된 오디오는 제어 경로에 인가된다. 오디오 신호 수정 프로세스 또는 장치(2) 및 수정 파라미터들 발생 프로세스 또는 장치(4')는 오디오 신호를 수정하여 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시킨다. 프로세스 또는 장치(4')는 여러 기능들 및 장치들을 포함할 수 있는데, 즉 "수정되지 않은 오디오의 비 라우드니스의 근사값 계산" 프로세스 또는 장치(12), " 타겟 비 라우드니스의 근사값 계산" 프로세스 또는 장치(14) 및 수정 파리미터들을 계산하는 " 수정 파리미터들 계산" 프로세스 또는 장치(10')를 포함할 수 있다.

함수 또는 함수들(F)이 반전될 수 있다 라는 제약으로 인해, 프로세스 또는 장치(12)는 역함수(F^-1)를 수정된 오디오 신호의 비 라우드니스 또는 부분적인 비 라우드니스에 인가함으로써 수정되지 않은 오디오 신호의 비 라우드니스를 추정한다. 이 장치 또는 프로세스(12)는 상술된 바와 같이 역함수(F^-1)를 계산할 수 있다. 이는 개요적으로 도2에서 프로세스 또는 장치(12)로 입력되는 "역함수(들)F^-1 및 함수(들) 파리미터(들)"로서 표시된다. " 타겟 비 라우드니스의 근사값 계산" (14)은 수정된 오디오 신호의 비 라우드니스 또는 부분적인 비 라우드니스를 계산함으로써 연산된다. 이와 같은 비 라우드니스 또는 부분적인 비 라우드니스는 타겟 비 라우드니스의 근사화이다. 수정되지 않은 오디오 신호의 비 라우드니스의 근사값 및 타겟 비 라우드니스의 근사값은 수정 파라미터들 계산(10')에 의해 사용되어 오디오 신호 수정(2)에 의해 오디오 신호에 인가되는 경우 수정된 오디오 신호 및 타겟 비 라우드니스의 부분적인 비 라우드니스 및 비 라우드니스 간의 차를 감소시키는 수정 파라미터들(M)을 도출한다. 상술된 바와 같이, 이들 수정 파라미터들(M)은 예를 들어 필터뱅크의 주파수 대역들 또는 시변 필터의 계수들에 인가되는 시변 이득들의 형태를 취할 수 있다. "수정 파라미터들 계산(10") 실제 실시예들에서, 피드백 루프는 수정 파라미터들(M)의 계산 및 인가 간에서 지연을 초래할 수 있다.

상술된 바와 같이, 잡음과 같은 2차 간섭 오디오 신호를 갖는 재생 환경에서, 수정 파라미터들 계산(10), 수정되지 않은 오디오의 비 라우드니스의 근사값 계산(12) 및 타겟 비 라우드니스(14)의 근사값 계산 각각은 또한 입력들 중 하나로서 이와 같은 2차 간섭 오디오 신호의 측정값 또는 2차 간섭 신호 그 자체를 선택적인 입력으로서 수신할 수 있고 프로세스 또는 장치(12) 및 프로세스 또는 장치(14) 각각은 수정된 오디오 신호의 부분적인 비 라우드니스를 계산할 수 있다. 이와 같은 선택적인 입력들은 점선으로 도2에 도시된다.

상술된 바와 같이, 본 발명의 양상들의 하이브리드 피드-포워드/피드백 구현방식의 예들이 가능하다. 도3 및 도4는 이와 같은 구현방식들의 2가지 예들을 도시한다. 도1 및 도2의 예에서 처럼 도3 및 도4의 예들에서, 오디오 신호는 또한 신호 경로 내 오디오 신호 수정 프로세스 또는 장치(2)에 인가되지만, 각 제어 경로들에서 수정 파라미터들 발생(도3에서 4" 및 도4에서 4"')은 수정되지 않은 오디오 신호 및 수정된 오디오 신호 둘 다를 수신한다. 도3 및 도4의 예들 둘 다에서, 오디오 신호 수정(2) 및 수정 파리미터들 발생(4" 및 4"' 각각)은 오디오 신호를 수정하여 암시적일 수 있는 비 라우드니스 및 암시적일 수 있는 타겟 비 라우드니스 간 의 차를 감소시킨다.

도3의 예에서, 수정 파라미터들 발생 프로세스 또는 장치(4')는 여러 기능들 또는 장치들을 포함할 수 있는데, 즉 도1의 예에서 처럼 타겟 비 라우드니스 계산(6), 도2의 피드백 예에서처럼 타겟 비 라우드니스의 근사값 계산(14), 및 "수정 파라미터들 계산" 프로세스 또는 장치(10")를 포함할 수 있다. 도1의 예에서 처럼, 이 하이브리드 피드-포워드/피드백 예의 피드-포워드 부분에서, 타겟 비 라우드니스(6) 계산은 하나 이상의 함수들(F)을 수행할 수 있는데, 이 함수 각각은 프로세스 또는 장치(6)로 입력되는 "함수(들) F 및 함수(들) 파라미터(들)" 로서 도3에 개요적으로 도시된다. 이 하이브리드 피드-포워드/피드백 예의 피드백 부분에서, 수정된 오디오 신호는 도2의 피드백 예에서처럼 타겟 비 라우드니스(14)의 근사값 계산에 적용된다. 프로세스 또는 장치(14)는 수정된 오디오 신호의 부분적인 비 라우드니스 또는 비 라우드니스를 계산함으로써 도2의 예에서 처럼 도3의 예에서 동작된다. 이와 같은 비 라우드니스 또는 부분적인 비 라우드니스는 타겟 비 라우드니스의 근사화이다. 타겟 비 라우드니스(프로세스 또는 장치(6)로부터) 및 타겟 비 라우드니스(프로세스 또는 장치(14)로부터)의 근사값은 수정 파라미터들(10") 계산에 적용되어 수정 오디오 신호(2)에 의해 오디오 신호에 인가되는 경우 수정되지 않은 오디오 신호의 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시키는 수정 파라미터들 계산(10")에 적용된다. 상술된 바와 같이, 이들 수정 파라미터들은 예를 들어 필터뱅크의 주파수 대역들 도는 시변 필터의 계수들에 인가되는 시변 이득들의 형태를 취할 수 있다. 실제 실시예들에서, 피드백 루프는 수정 파라미터 들(M)의 계산 및 인가 간의 지연을 초래할 수 있다. 상술된 바와 같이, 잡음과 같은 2차 간섭 오디오 신호를 갖는 재생 환경에서, 수정 파라미터들 계산(10) 및 타겟 비 라우드니스(14)의 근사값 계산 각각은 또한 입력들로서 이와 같은 2차 간섭 오디오 신호의 측정값 또는 2차 간섭 신호 자체를 선택적인 입력으로서 수신하고 프로세스 또는 장치(14)는 수정된 오디오 신호의 부분적인 비 라우드니스를 계산할 수 있다. 선택적인 입력들은 점선으로 도3에 도시된다.

수정 파라미터들 계산(10")은 에러 검출 장치 또는 함수를 사용하여, 타겟 비 라우드니스 및 타겟 비 라우드니스 근사값 입력들 간의 차들이 수정 파라미터들을 조정하여 타겟 비 라우드니스 및 "실제" 타겟 비 라우드니스의 근사값 간의 차를 감소시킨다. 이와 같은 조정들은 수정되지 않은 오디오 신호의 비 라우드니스 암시적일 수 있는 타겟 비 라우드니스 간의 차들을 감소시킨다. 따라서, 수정 파라미터들(M)은 함수(F)를 이용하여 원래 오디오의 비 라우드니스로부터 피드-포워드 경로에서 계산되는 타겟 비 라우드니스 및 수정된 오디오의 비 라우드니스 또는 부분적인 비 라우드니스로부터 피드백 경로에서 계산되는 타겟 비 라우드니스 근사값 간의 에러를 토대로 갱신될 수 있다.

도4의 예에서, 대안적인 피드-포워드/피드백 예가 도시된다. 이 대안은 역함수 또는 함수들(F^-1)이 피드-포워드 경로에서 계산되는 함수 또는 함수들(F)이라기 보다 오히려 피드백에서 계산된다는 점에서 도3의 예와 다르다. 도4의 예에서, 수정 파라미터들 계산 프로세스 또는 장치(4')는 여러 기능들 및 장치들을 포함할 수 있는데, 즉 도1의 피드-포워드 예에서 처럼 비 라우드니스 계산(8), 도2의 피드백 예에서 처럼 수정되지 않은 오디오의 비 라우드니스의 근사값 계산(12), 및 수정 파리미터들 계산(10"')를 포함할 수 있다. 도1의 피드-포워드 예에서처럼 비 라우드니스 계산(8)은 입력으로서 수정 파라미터들 계산(10"')에 수정되지 않은 오디오 신호의 비 라우드니스를 제공한다. 도2의 피드백 예에서처럼, 함수 또는 함수들(F)이 반전될 수 있다는 제약으로 인해, 프로세스 또는 장치(12)는 역함수(F^-1)를 수정된 오디오 신호의 비 라우드니스 또는 부분적인 비 라우드니스에 인가함으로써 수정되지 않은 오디오 신호의 비 라우드니스를 추정한다. 수정되지 않은 오디오의 비 라우드니스의 근사값 계산(12)을 위하여 입력되는 "역함수(들) 및 역함수(들) 파라미터(들) 선택"은 장치 또는 프로세스(12)가 상술된 바와 같이 역함수(F^-1)를 계산할 수 있다. 이는 프로세스 또는 장치(12)로 입력되는 "역함수(들) F^-1 및 함수(들) 파라미터들(들) 선택"으로서 도4에 개요적으로 도시된다. 따라서, 프로세스 또는 장치(12)는 또 다른 입력으로서 수정 파라미터들 계산(10"')에 수정되지 않은 오디오 신호의 비 라우드니스에 대한 근사값을 제공한다.

도1 내지 3의 예들에서 처럼, 수정 파라미터들 계산(10"')은 오디오 신호 수정(2)에 의해 오디오 신호에 인가되는 경우 수정되지 않은 오디오 신호의 비 라우드니스 및 이 예에서 암시적인 타겟 비 라우드니스 간의 차를 감소시킨다. 상술된 바와 같이, 수정 파라미터들(M)은 예를 들어 필터뱅크의 주파수 대역들 및 시변 필터의 계수들에 인가되는 시변 이득들의 형태를 취할 수 있다. 실제 실시예들에서, 피드백 루프는 수정 파라미터들(M)의 계산 및 인가 간에 지연을 초래할 수 있다. 상술된 바와 같이, 잡음과 같은 2차 간섭 오디오 신호를 갖는 재생 환경에서, 수정 파라미터들 계산(10"') 및 수정되지 않은 오디오의 비 라우드니스의 근사값 계산(12) 각각은 또한 입력들 중 하나로서 이와 같은 2차 간섭 오디오 신호의 측정값 또는 2차 간섭 신호를 선택적인 입력으로서 수신하고 프로세스 또는 장치(12)는 수정된 오디오 신호의 부분적인 비 라우드니스를 계산할 수 있다. 선택적인 입력들은 점선으로 도4에 도시된다.

수정 파라미터들(10"') 계산은 에러 검출 장치 또는 기능을 사용하여, 비 라우드니스 및 비 라우드니스 근사값 입력들간의 차가 수정 파라미터들을 조정하는 출력들을 발생시켜 비 라우드니스의 근사값 및 "실제" 비 라우드니스 간의 차를 감소시키도록 한다. 비 라우드니스의 근사값은 타겟 비 라우드니스의 근사값으로서 간주될 수 있는 수정된 오디오의 비 라우드니스 또는 부분적인 비 라우드니스로부터 도출되는데, 이와 같은 조정들은 함수 또는 함수들(F^-1)에 본래 있는 수정된 오디오 신호의 비 라우드니스 및 타겟 비 라우드니스 간의 차들을 감소시킨다. 따라서, 수정 파라미터들(M)은 원래 오디오로부터 피드-포워드 경로에서 계산되는 비 라우드니스 및 수정된 오디오의 비 라우드니스 또는 부분적인 비 라우드니스로부터 피드백 경로에서 역함수 또는 함수들(F^-1)을 이용하여 계산된 비 라우드니스 근사값 간의 에러를 토대로 갱신될 수 있다. 피드백 경로로 인해, 실제 구현방식들은 수정 파라미터들의 갱신 및 인가간에 지연을 초래할 수 있다.

오디오 신호 수정 프로세스 또는 장치(2)에 인가될 때 도1 내지 도4의 예들에서 수정 파라미터들(M)은 오디오 신호의 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시킬 지라도, 실제 실시예들에서 상기 오디오 신호에 응답하여 발생된 대응하는 수정 파라미터들은 서로 동일할 수 있다.

본 발명의 양상들에 중요하거나 필수적이 아닐지라도, 오디오 신호 또는 수정된 오디오 신호의 비 라우드니스의 계산은 WO 2004/111964 A2로서 공개된 국제 특허 출원 PCT/US2004/016964에 설명된 기술들을 유용하게 사용할 수 있는데, 여기서 이 계산은 2개 이상의 비 라우드니스 모델 함수들의 그룹으로부터 2개 이상의 비 라우드니스 모델 함수들 중 2개 이상의 조합을 선택하는데, 이의 선택은 입력 오디오 신호의 특성들의 측정값에 의해 제어된다. 도1의 비 라우드니스(104)의 디스크립션은 이와 같은 장치를 후술한다.

본 발명의 부가적인 양상들을 따르면, 수정되지 않은 오디오 신호 및 (1) 수정 파라미터들 또는 (2) 타겟 비 라우드니스 또는 상기 타겟 비 라우드니스(예를 들어, 타겟 비 라우드니스를 명시적으로 또는 암시적으로 계산하는데 사용가능한 스케일 팩터들)의 표현 중 하나가 예를 들어 시간적으로 및/또는 공간적으로 분리된 장치 또는 프로세스에 사용하기 위하여 저장되거나 전송될 수 있다. 이 수정 파라미터들, 타겟 비 라우드니스 또는 이 타겟 비 라우드니스의 표현은 임의의 적절한 방식, 예를 들어, 상술된 바와 같은 도1 내지 도4의 피드-포워드, 피드백 및 하이브리드 피드-포워드 피드백 장치에서처럼 결정될 수 있다. 실제로, 도1의 예에서와 같은 피드-포워드 장치는 수정된 오디오 신호를 토대로 계산들을 피하기 때문에 가장 덜 복잡하고 가장 빠르다. 수정되지 않은 오디오 및 수정 파라미터들을 전송하거나 저장하는 예가 도5에 도시된 반면에, 수정되지 않은 오디오 및 타겟 비 라우드니스 또는 이 타겟 비 라우드니스의 표현을 전송하거나 저장하는 예는 도6에 도시된다.

도5의 예에서와 같은 장치는 이와 같은 수정 파라미터들의 발생으로부터 오디오 신호로의 수정 파라미터들의 인가를 시간적으로 및/또는 공간적으로 분리하기 위하여 사용될 수 있다. 도6의 예에서와 같은 장치는 타겟 비 라우드니스 또는 이의 표현의 발생으로부터 수정 파리미터들의 발생 및 인가 둘 다를 시간적으로 및/또는 공간적으로 분리시키도록 사용될 수 있다. 이 두 가지 유형들의 장치들은 타겟 비 라우드니스 수정 파라미터들의 발생 또는 타겟 비 라우드니스의 발생의 복잡성을 피하게 하는 간단한 저비용 재생 또는 수신 장치를 가능하게 한다. 도5 유형의 장치가 도6의 유형의 장치보다 간단하지만, 도6의 장치는 특히 하나 이상의 스케일 팩터들과 같은 타겟 비 라우드니스의 표현이 저장되거나 전송될 때 저장되거나 전송되는데 필요로 되는 정보가 더욱 적을 수 있다는 이점을 갖는다. 이와 같은 정보 저장 또는 전송의 감소는 특히 저 비트 레이트 오디오 환경들에서 유용할 수 있다.

따라서, 본 발명의 부가적인 양상들은 (1) 저장 또는 전송 장치 또는 프로세스로부터 수정 파리미터들을 수신하거나 재생하고 이들을 또한 수신되는 오디오 신호로 인가하거나 (2) 저장 또는 전송 장치 또는 프로세스로부터 타겟 비 라우드니스 또는 타겟 비 라우드니스의 표현을 수신하거나 재생하며, 또한 수신되는 오디오 신호에(또는 오디오 신호로부터 도출될 수 있는 비 라우드니스와 같은 오디오 신호의 측정값에) 타겟 비 라우드니스 또는 이의 표현을 인가함으로써 수정 파라미터들(M)을 발생시키고 수신된 오디오 신호에 수정 파라미터들(M)을 인가하는 장치 또는 프로세스를 제공하는 것이다. 이와 같은 장치들 또는 프로세스들은 디코딩 프로세스들 또는 디코더들로서 특징지워질 수 있는 반면에, 저장되거나 전송된 정보를 발생시키는데 필요로 되는 장치들 또는 프로세스들은 엔코딩 프로세스들 또는 엔코더들로서 특징지워질 수 있다. 이와 같은 엔코딩 프로세스들 또는 엔코더들은 각 디코딩 프로세스들 또는 디코더들에 의해 필요로 되는 정보를 발생시키기 위하여 사용될 수 있는 도1 내지 도4의 장치의 예들의 부분들이다. 이와 같은 디코딩 프로세서들 또는 디코더들은 사운드를 처리 및/또는 재생하는 실질적으로 임의 유형의 프로세스 또는 장치와 관련되거나 이에 의해 동작될 수 있다.

본 발명의 한 양상에서, 도5의 예에서처럼, 예를 들어 도1의 수정 파라미터들 발생(4), 도2의 4', 도3의 4", 또는 도4의 4"'과 같은 수정되지 않은 오디오 신호 및 수정 파라미터들 발생 프로세스 또는 발생기에 의해 발생된 수정 파라미터들(M) 및 수정되지 않은 오디오 신호는 임의의 적절한 저장 또는 전송 장치 또는 기능("저장 또는 전송)(16)에 인가될 수 있다. 엔코딩 프로세스 또는 엔코더로서 도1의 피드-포워드 예를 이용하는 경우에, 오디오 신호 수정(2)은 수정된 오디오를 발생시키도록 하는데 필요로 되지 않고 엔코더 또는 엔코딩 프로세스의 시간적 또는 공간적 위치에 수정된 오디오를 제공할 필요가 없는 경우 생략될 수 있다. 이 저장 또는 전송(16)은 예를 들어 임의의 적절한 자기, 광학 또는 고상 저장 및 재 생 장치들이나 임의의 적절한 유선 또는 무선 전송 및 수신 장치들을 포함할 수 있는데, 이들의 선택은 본 발명에 중요하지 않다. 그 후, 재생 또는 수신된 수정 파라미터들은 도1 내지 도4의 예들에서 사용되는 유형의 오디오 신호 수정(2)에 인가되어 재생되거나 수신된 오디오 신호를 수정하여, 이의 비 라우드니스가 수정 파라미터들을 도출하는 장치에 원래 있는 타겟 비 라우드니스에 근사화하도록 한다. 이 수정 파라미터들은 임의의 다양한 방식들로 저장되거나 전송될 수 있다. 예를 들어, 이들은 오디오 신호를 수반하는 메타데이터로서 저장되거나 전송되며, 이들은 별도의 경로들 또는 채널들에서 전송되며, 이들은 오디오에서 스테가노그래픽적으로(steganographically) 엔코딩될 수 있으며, 이들은 다중화될 수 있는, 등등이다. 오디오 신호를 수정하기 위하여 수정 파라미터들의 사용은 선택적일 수 있고, 선택적인 경우, 이들의 사용은 예를 들어 사용자에 의해 선택될 수 있다. 예를 들어, 오디오 신호에 인가되는 경우 수정 파라미터들은 오디오 신호의 동적 범위를 감소시킬 수 있다. 이와 같은 동적 범위 감소를 사용하는지 여부는 사용자에 의해 선택될 수 있다.

도6의 예에서처럼 본 발명의 또 다른 양상에서, 수정되지 않은 오디오 신호 및 타겟 비 라우드니스 또는 이 타겟 비 라우드니스의 표현은 임의의 적절한 저장 또는 전송 장치 또는 기능("저장 또는 전송")(16)에 인가될 수 있다. 엔코딩 프로세스 또는 엔코더로서, 도1의 예와 같이 피드-포워드 구성을 사용하는 경우에, 수정 파라미터들 계산 유형 또는 장치도 오디오 신호 수정(2) 유형 프로세스 또는 장치도 필요로 되지 않고 엔코더 또는 엔코딩 프로세스의 시간적 또는 공간적 위치 에서 수정된 오디오 또는 수정 파라미터들 중 어느 하나를 제공할 필요가 없는 경우 생략될 수 있다. 도3의 예의 경우에서처럼, 저장 또는 전송(16)은 예를 들어 임의의 적절한 자기, 광학 또는 고상 저장 및 재생 장치들 또는 임의의 적절한 유선 또는 무선 전송 및 수신 장치들을 포함할 수 있는데, 이들의 선택은 본 발명에 중요하지 않다. 그 후, 재생되거나 수신된 타겟 비 라우드니스 또는 이 타겟 비 라우드니스의 표현은 수정되지 않은 오디오와 함께 도1의 예에서 사용되는 유형의 수정 파라미터들 계산(10) 또는 도3의 예에서 사용되는 유형의 수정 파라미터들(10")의 계산에 인가되어, 도1 내지 도4의 예들에서 사용되는 유형의 오디오 신호(2) 수정에 인가될 수 있는 수정 파라미터들(M)을 제공함으로써, 재생된 또는 수신된 오디오 신호를 수정하는데, 그 결과 이 비 라우드니스는 수정 파라미터들을 도출하는 장치에서 본래 있는 타겟 비 라우드니스에 근사하게 된다. 타겟 비 라우드니스 또는 이의 표현이 도1의 예의 유형의 엔코딩 프로세스 또는 엔코더에서 가장 손쉽게 얻어질 수 있지만, 타겟 비 라우드니스 또는 이의 표현 또는 타겟 비 라우드니스 또는 이의 표현에 대한 근사값은 도2 내지 도4의 예의 유형들의 엔코딩 프로세스 또는 엔코더에서 얻어질 수 있다(근사값은 도2 및 도3의 프로세스들 또는 장치들(14)에서 그리고 도4의 프로세스 또는 장치(12)에서 계산될 수 있다). 타겟 비 라우드니스 또는 이의 표현은 임의의 다양한 방법들로 저장되거나 전송될 수 있다. 예를 들어, 이는 오디오 신호를 수반하는 메타데이터로서 저장되거나 전송되며, 별도의 경로들 또는 채널들로 전송될 수 있으며, 오디오에서 스테가노그래픽적으로 엔코딩될 수 있으며, 다중화될 수 있는, 등등이다. 오디오 신호를 수정하기 위하여 저장되거나 전송된 타겟 비 라우드니스 또는 표현으로부터 도출되는 수정 파라미터들의 사용은 선택적일 수 있고, 선택적인 경우, 이들의 사용은 예를 들어 사용자로부터 선택될 수 있다. 예를 들어, 오디오 신호에 인가되는 경우 수정 파라미터들은 오디오 신호의 동적 범위를 감소시킬 수 있다. 이와 같은 동적 범위 감소를 사용할지 여부는 사용자에 의해 선택될 수 있다.

디지털 시스템으로서 서술된 발명을 구현할 때, 피드-포워드 구성은 가장 실용적임으로, 이와 같은 구성들의 예들은 상세하게 설명되는데, 이는 본 발명의 범위를 제한하지 않는 것으로 이해되어야 한다.

이 문헌 전반에 걸쳐서 "필터" 또는 "필터뱅크"와 같은 용어들은 IIR 필터들 또는 트랜스포머들과 같은 근본적으로 임의 형태의 순환 및 비순환 필터링을 포함하도록 본원에 사용되고 "필터링된" 정보는 이와 같은 필터들의 적용 결과이다. 후술되는 실시예들은 트랜스포머들에 의해 구현되는 필터뱅크들을 사용한다.

도7은 피드-포워드 장치에서 구현되는 본 발명의 양상의 예시적인 실시예를 더욱 상세하게 도시한 것이다. 오디오는 우선 오디오 신호를 다수의 주파수 대역들로 분할하는 분석 필터뱅크 기능 또는 장치("분석 필터뱅크")(100)을 통과한다(그러므로, 도5는 분석 필터뱅크(100)로부터의 다수의 출력들을 도시하는데, 각 출력은 주파수 대역을 표시하며, 이 출력은 후술되는 바와 같이 각종 기능들 또는 장치들을 통해서 대역들을 결합된 광대역 신호와 합하는 합성 필터뱅크까지 반송된다). 분석 필터뱅크(100)에서 각 주파수 대역과 관련된 필터의 응답은 내이에서 기저막의 특정 위치에서의 응답을 시뮬레이팅하도록 설계된다. 다음, 분석 필터뱅크(100) 내의 각 필터의 출력은 외이 및 중이(outer and middle ear)를 통해서 오디오의 전송의 필터링 효과를 시뮬레이트하는 전송 필터 또는 전송 필터 기능("전송 필터")로 통과된다. 오디오의 라우드니스만이 측정되어야 하는 경우, 전송 필터는 분석 필터뱅크에 앞서 적용되지만, 분석 필터뱅크 출력들이 수정된 오디오를 합성하도록 사용되기 때문에, 필터뱅크 다음에 전송 필터를 적용하는 것이 유용하다. 다음에, 전송 필터(101)의 출력들은 여기 기능 또는 장치("여기")(102)로 통과되고, 이의 출력들은 기저막을 따라서 에너지 분포를 시뮬레이팅한다. 여기 에너지 값들은 스무딩 기능 또는 장치("스무딩")(103)에 의해 시간에 걸쳐서 스무딩될 수 있다. 스무딩 기능의 시간 제약들은 소망의 애플리케이션의 요건들에 따라서 설정된다. 다음에, 스무딩된 여기 신호들은 비 라우드니스 함수 또는 장치("비라우드니스 (SL)"(104)에서 비 라우드니스로 변환된다. 비 라우드니스는 단위 주파수 당 손의 단위로 표현된다. 각 대역과 관련된 비 라우드니스 성분은 비 라우드니스 수정 기능 또는 장치("SL 수정")(105)로 통과된다. SL 수정(105)은 자신의 입력으로서 원래 비 라우드니스를 취하고 나서, 본 발명의 양상을 따르면 바람직하게는 원래 비 라우드니스 함수인("타겟 비 라우드니스"라는 명칭의 이하의 표제 참조) 원하는 또는 "타겟 " 비 라우드니스를 출력한다. SL 수정(105)은 각 대역마다 개별적으로 동작할 수 있거나, 원하는 효과에 따라서 대역들 간에 또는 이들 사이에(도7의 교차 접속 라인에 의해 제시된 바와 같은 주파수 스무딩) 상호의존성(interdependence)이 존재할 수 있다. 자신의 입력으로서 여기로부터 스무딩된 여기 주파수 대역 성분들과 SL 수정(105)으로부터 타겟 비 라우드니스를 취하면, 이득 솔버(gain solver) 기능 또는 장치("이득 솔버")(106)는 측정된 비 라우드니스를 타겟 비 라우드니스로 변환시키기 위하여 분석 필터뱅크(100)의 출력의 각 대역에 이가될 필요가 있는 이득을 결정한다. 이득 솔버는 각종 방법들로 구현될 수 있다. 예를 들어, 이득 솔버는 WO 2004/111964 A2로서 공개된 국제 특허 출원 PCT/US2004/016964 또는 대안적으로 테이블 룩업에 서술된 방식에서와 같은 반복 프로세스를 포함할 수 있다. 이득 솔버(106)에 의해 발생된 대역 당 이득들이 인식 아티팩트들(artifacts)을 최소화하기 위하여 선택적인 스무딩 기능 또는 장치("스무딩")(107)에 의해 시간에 걸쳐서 더욱 스무딩될 수 있지만, 그 밖의 곳에 서술된 바와 같은 전체 프로세스 또는 장치에서 그 밖의 곳에 시간적인 스무딩이 적용되는 것이 바람직하다. 최종적으로, 이득들은 각 승산 결합 기능 또는 결합기(108)를 통해서 분석 필터뱅크(100)의 각 대역들에 인가되고 프로세싱되거나 "수정된" 오디오는 합성 필터뱅크 기능 또는 장치("합성 필터뱅크)(110)에서 이득-수정된 대역들로부터 합성된다. 게다가, 분석 필터뱅크로부터의 출력들은 이득 계산과 관련된 임의의 레이턴시(latency)를보상하기 위하여 이득들의 인가에 앞서 지연 기능 또는 장치("지연")(109)에 의해 지연될 수 있다. 대안적으로, 주파수 대역들에서 이득 수정들을 인가시에 사용하기 위한 이득들을 계산하는 대신에, 이득 솔버들(106)은 멀티탭핑된 FIR 필터 또는 멀티폴 IIR 필터와 같은 시변 필터를 제어하는 필터 계수들을 계산할 수 있다. 설명을 간결하게 하기 위하여, 본 발명의 양상들은 주로 주파수 대역들에 인가되는 이득 팩터들을 사용하는 것으로서 설명되는데, 이는 필터 계수들 및 시변 필터들이 또한 실제 실시예들에서 사용될 수 있다는 것을 이해하여 야 한다.

실제 실시예들에서, 오디오의 프로세싱은 디지털 도메인에서 수행될 수 있다. 따라서, 오디오 신호는 어떤 샘플링 주파수(f_s)에서 오디오 소스로부터 샘플링되는 이산 시간 시퀀스 x[n]으로 표시된다. 시퀀스 x[n]가 적절하게 스케일링되어 다음과 같이 제공된 데시벨의 x[n]의 rms 파워는 오디오가 청취자에 의해 오디션받는 dB의 음압 레벨과 동일하게 된다.

게다가, 오디오 신호는 설명을 간결하게 하기 위하여 모노포닉(monophonic)이라고 가정된다.

분석 필터뱅크(100), 전송 필터(101), 여기(102), 비 라우드니스(104), 비 라우드니스 수정(105), 이득 솔버(106), 및 합성 필터뱅크(110)는 다음과 같이 더욱 상세하게 설명될 수 있다.

분석 필터뱅크(100)

오디오 입력 신호는 분석 필터뱅크 또는 필터-뱅크 기능("분석 필터뱅크")(100)에 인가된다. 분석 필터뱅크(100) 내의 각 필터는 내이의 기저막을 따라서 특정 위치에서 주파수 응답을 시뮬레이팅하도록 설계된다. 필터뱅크(100)는 대역폭 및 간격이 Moor, Glasberg 및 Baer(상술된 B.C.J. Moore, B. Glasberg, T. Bear의 "A Model for the Prediction of Thresholds, Loudness and Partial Loudness,") 에 의해 정의된 바와 같은 ERB(Equivalent Rectangular Bandwidth") 주파수 스케일상에서 일정하게 되는 선형 필터들의 세트를 포함할 수 있다.

ERB 주파수 스케일이 인간의 인식에 더욱 근접하게 부합하고 주관적인 라우드니스 결과들에 부합하는 객관적인 라우드니스 측정값들을 발생시에 성능의 개선을 보여주지만, 성능면에서 떨어진 바크 주파수 스케일이 사용될 수도 있다.

중심 주파수(f)(Hz)에 대해서, ERB 대역(Hz)의 폭은 다음과 같이 근사화될 수 있다.

ERB(f) = 24.7(4.37f/1000+1)

이 관계식으로부터, 랩핑된 주파수 스케일은 랩핑된 스케일을 따른 임의의 지점에서 랩핑된 스케일의 단위에서 대응하는 ERB가 1과 동일하도록 규정된다. Hz의 선형 주파수로부터 이 ERB 주파수 스케일로 변환시키는 기능은 수학식 1의 역수를 적분함으로써 얻어진다.

이는 또한 f에 대한 수학식 2a를 풀음으로써 ERB 스케일로부터 선형 주파수 스케일로의 변환을 표현하는데 유용하다.

여기서 e는 ERB 스케일의 단위이다. 도9는 ERB 스케일 및 주파수[Hz] 간의 관계를 도시한다.

분석 필터뱅크(100)는 ERB 스케일을 따라서 균일하게 이격된 중심 주파수들 f_c[1]...f_c[B]에서 대역들이라 칭하는 B 청각 필터들을 포함할 수 있다.

f_c[1]=f_min

f_c[b]=f_c[b-1]+ERBToHz(HzToERB(f_c[b-1])+ Δ) b=2... B

f_c[B]<f_max

여기서 Δ는 분석 필터뱅크(100)의 원하는 ERB 간격이고 f_min 및 f_max는 각각원하는 최소 및 최대 중심 주파수들이다. Δ=1을 선택하고 인간 귀가 민감한 주파수 범위를 고려하면서 f_min=50Hz 및 f_max=20,000Hz를 설정할 수 있다. 이와 같은 파라미터들로 인해, 예를 들어, 식들의 적용하면 3a-c는 B=40 청각 필터들을 산출한다.

각 청각 필터의 크기 주파수 응답은 Moore 및 Glasberg에 의해 제시된 바와 같은 라운드된 지수 함수에 의해 특징지워진다. 특히, 중심 주파수 f_c[b]을 갖는 필터의 크기 응답은 다음과 같이 계산될 수 있다.

H_b(f)=(1+pg)e^- ^pg

여기서

ERB 스케일 상에서 임계 대역에 근사화하는 이와 같은 B 청각 필터들의 크기 응답들은 도10에 도시된다.

분석 필터뱅크(100)의 필터링 동작들은 통상적으로 단시간 이산 퓨리에 변환(STDFT)라 칭하는 유한 길이 이산 퓨리에 변환을 이용하여 적절하게 근사화될 수 있는데, 그 이유는 풀-레이트 구현방식이라 칭하는 오디오 신호의 샘플링 레이트에서 필터들을 실행하는 구현방식이 정확한 라우드니스 측정들에 필요로 되는 것보다 더 많은 시간적 레졸루션(temporal resolution)을 제공한다라고 간주되기 때문이다. 풀-레이트 구현방식 대신에 STDFT를 이용함으로써, 효율 개선 계산 복잡도 감소가 성취될 수 있다.

입력 오디오 신호 x[n]의 STDFT는 다음과 같이 정의된다.

여기서 k는 주파수 인덱스이며, t는 타임 블록 인덱스이며, N은 DFT 크기이며, T는 홉(hop) 크기이고 w[n]은 다음과 같이 되도록 정규화된 길이 N 윈도우이다.

수학식 5a에서 변수(t)는 초의 시간 측정과 반대로 STDFT의 시간 블록을 표시하는 이산 인덱스이다. t의 각 증분은 신호 x[n]을 따른 T 샘플들의 홉을 표시한다. 인덱스 tdp 대한 다음 기준들이 이 정의를 가정한다. 상이한 파라미터 세팅들 및 윈도우 셰이프들이 구현방식의 상세사항들에 따라서 사용될 수 있지만, f_s=44100Hz에 대해선 N=2048, T=1024를 선택하고 해닝 윈도우인 w[n]을 가지면 시간 및 주파수 레졸루션의 적절한 밸런스가 제공된다. 상술된 STDFT는 고속 퓨리에 변환(FFT)를 이용하여 더욱 효율적이 될 수 있다.

STDFT 대신에, 수정된 이산 코사인 변환(MDCT)은 분석 필터뱅크를 구현하도록 사용될 수 있다. MDCT는 돌비 AC-3과 같은 인식 오디오 코더들에서 통상적으로 사용되는 변환이다. 서술된 시스템이 이와 같은 인식가능하게 코딩된 오디오로 구현되면, 서술된 라우드니스 측정 및 수정은 코딩된 오디오의 기존 MDCT 계수들을 처리함으로써 더욱 효율적으로 구현될 수 있음으로, 분석 필터뱅크 변환을 수행할 필요성을 제거한다. 입력 오디오 신호 x[n]의 MDCT는 다음과 같이 제공된다.

여기서

일반적으로, 홉 크기(T)는 변환 길이(N)의 정확하게 1/2이 되도록 선택되어 신호 x[n]의 완전한 재구성이 가능하게 된다.

전송 필터(101)

분석 필터뱅크(100)의 출력들은 외이 및 중이를 통해서 오디오의 전송에 따라서 필터뱅크의 각 대역을 필터링하는 전송 필터 또는 전송 필터 기능("전송 필터")에 안가된다. 도8은 가청 주파수 범위에 걸쳐서 전송 필터(P(f))의 하나의 적절한 크기의 주파수 응답을 도시한다. 이 응답은 1kHz 보다 아래 및 1kH를 넘는 유 유니티(unity)이며, ISO226에서 규정된 바와 같은 청력의 임계값의 역을 따르는데, 이 임계값은 1kHz에서 동일한 유니트로 정규화된다.

여기 (102)

입력 오디오 신호의 라우드니스를 계산하기 위하여, 전송 필터(101)의 적용 후 분석 필터뱅크(100)의 각 필터에서 오디오 신호들의 단시간 에너지의 측정이 필요로 된다. 이 시간 및 주파수 가변 측정을 여기라 칭한다. 분석 필터뱅크(100) 내의 각 필터의 단시간 에너지 출력은 입력 신호의 전력 스펙트럼과 주파수 도메인에서 필터 응답들의 승산을 통해서 여기 기능(102)에서 근사화될 수 있다.

여기서 b는 대역 번호이며, t는 블록 번호이고, H_b[k] 및 P[k]는 STDFT 또는 MDCT 빈 인덱스(k)에 대응하는 주파수에서 각각 샘플링되는 청각 필터 및 전송 필터 각각의 주파수 응답들이다. 수학식 4a-c에서 규정된 것과 다른 청각 필터들의 크기 응답에 대한 폼이 유사한 결과들을 성취하기 위하여 수학식 7에서 사용될 수 있다는 점에 유의하여야 한다. 예를 들어, WO 2004/111964 A2로서 공개된 상기 국제 출원 번호 PCT/US2004/016964는 2가지 대안들, 즉 12차 IIR 트랜스퍼 기능 및 저 비용 "브릭-월(brick-wall)" 대역 통과 근사화에 의해 특징지워지는 청각 필터를 설명한다.

요약하면, 여기 기능(102)의 출력은 기간(t) 당 각 ERB 대역들(b)에서 에너지(E)의 주파수 도메인 표현이다.

시간 평균화("스무딩")(103)

후술된 바와 같이 서술된 발명의 특정 애플리케이션들에 대해서, 특정 라우드니스로 변환전 여기 E[b, t]를 스무딩하는 것이 바람직하다. 예를 들어, 스무딩은 다음 식에 따라서 스무딩 기능(103)에서 순환적으로 수행될 수 있다.

여기서 각 대역(b)에서 시정수 λ_b는 원하는 애플리케이션에 따라서 선택된 다. 대부분의 경우들에, 시정수들은 유용하게는 대역(b) 내에서 인간의 라우드니스 인식의 적분 시간에 비례하도록 선택된다. Waston 및 Gengel은 이 적분 시간이 저 주파수들(125-200Hz)에서 150-175ms의 범위 및 고 주파수들에서 40-60ms의 범위 내에 있다는 것을 입증하는 실험들을 수행하였다(Charles S. Watson and Roy W. Gengel가 Journal of the Acoustical Society of America, Vol. 46, No. 4(Part 2), 1969, pp. 989-997에 발표한 "Signal Duration and Signal Frequency in Relation to Auditory Sensitivity")

비 라우드니스(104)

비 라우드니스 변환기 또는 변환 기능("비 라우드니스")(104)에서, 여기의 각 주파수 대역은 ERB 당 손으로 측정되는 비 라우드니스의 성분 값으로 변환된다.

초기에, 비 라우드니스를 계산시,

의 각 대역에서 여기 레벨은 전송 필터 P(z)에 의해 정규화된 ISO 226(도11)의 동일한 라우드니스 등고선들에 의해 규정된 바와 같이 1kHz에서 등가의 여기 레벨로 변환될 수 있다.

여기서 T_1kHz(E, f)는 주파수(f)에서 레벨 E와 동일한 라우드인 1kHz의 레벨을 발생시키는 함수이다. 실제로, T_1kHz(E, f)는 전송 필터에 의해 정규화된 동일한 라우드니스 등고선들의 룩업 테이블의 보간으로서 구현된다. 1kHz에서 등가의 레벨들로의 변환은 다음의 특정 라우드니스 계산을 간단화 한다.

다음에, 각 대역에서 비 라우드니스는 다음과 같이 계산될 수 있다.

여기서 N_NB[b, t] 및 N_WB[b, t]는 협대역 및 광대역 신호 모델 각각을 토대로 한 비 라우드니스 값들이다. 이 값 α[b, t]는 오디오 신호로부터 계산되는 0 및 1 사이에 놓이는 보간 팩터이다. WO 2004/111964 A2로서 공개된 국제 출원 PCT/US2004/016964는 여기의 스펙트럼 평활성(flatness)로부터 α[b, t]를 계산하는 기술을 설명한다. 이는 또한 더욱 상세하게는 "협대역" 및 "광대역" 신호 모델들을 설명한다.

협대역 및 광대역 비 라우드니스 값들 N_NB [b, t] 및 N_WB [b, t]는 지수 함수들을 이용하여 변환된 여기로부터 추정될 수 있다.

여기서 TQ_1kHz는 1kHz 톤에 대한 정숙(quiet)시의 임계값에서 여기 레벨이다. 동일한 라우드니스 등고선들(도11 및 12)로부터, TQ_1kHz는 4.2dB와 동일하다. 여기가 정숙시 임계값과 동일할 때 이들 비 라우드니스 함수들 둘 다는 제로와 동일하다는 점에 유의하라. 정숙시 임계값 보다 큰 여기들에 대해서, 두 함수들은 세기 센세이션(intensity sensation)의 Steven의 법칙에 따라서 전력 법칙으로 단조적으로 성장한다. 협대역 함수에 대한 지수는 광대역 함수의지수보다 크게되도록 선택되어, 협대역 함수가 광대역 함수보다 더욱 ts속하게 증가되도록 한다. 협대역 및 광대역 경우들에 대한 지수들(β) 및 이득들(G)의 특정 선택은 톤들 및 잡음에 대한 라우드니스의 성장에 대한 실험 데이터에 부합하도록 선택된다.

Moore 및 Glasberg는 여기가 청취의 임계값일 때 비 라우드니스가 제로 대신 어떤 작은 값과 동일하게 되어야 한다는 것을 제안한다. 그 후, 비 라우드니스는 여기가 제로로 감소함에 따라서 단조적으로 제로로 감소되어야 한다. 이 자리맞춤(justifications)은 청취의 임계값이 확률론적 임계값(톤이 검출되는 포인트가 시간의 50%이다) 이고 각 임계값에서 모두 제공되는 다수의 톤들이 임의의 개별적인 톤들보다 더욱 청취가능한 사운드와 합해질 수 있다는 것이다. 서술된 애플리케이션에서, 이 특성을 갖는 비 라우드니스 함수들을 증분시키면 여기가 임계값 근처일 때 후술되는 이득 솔버가 더욱 적절하게 작용하도록 하는 부가적인 이점을 갖는다. 여기가 임계값에 또는 그 보다 아래에 있을 때 비 라우드니스가 제로로 규정되면, 이득 솔버에 대한 특정한 해법은 임계값에 또는 그 보다 아래의 여기에 대해선 존재하지 않는다. 다른 한편으로, Moore 및 Glasberg에 의해 제안된 바와 같이 비 라우드니스가 제로보다 크거나 같은 여기의 모든 값들에 대해서 단조적으로 증가된다라고 규정되면, 특정 해법은 존재하지 않는다. 유니티보다 큰 라우드니스 스케일링은 항상 유니티보다 큰 이득 및 그 반대의 이득을 발생시킨다. 수학식 11a 및 11b의 비 라우드니스 함수들은 다음에 따라서 원하는 특성을 갖도록 변경될 수 있다.

여기서 상수 (λ)는 1보다 크며, 지수 (η)는 1보다 작고, 상수들(K 및 C)는 비 라우드니스 함수 및 이의 제1 도함수가 포인트

에서 연속적이 되도록 선택된다.

비 라우드니스로부터 전체 또는 "총" 라우드니스 L[t]는 모든 대역들(b)에 걸쳐서 비 라우드니스의 합에 의해 제공된다.

비 라우드니스 수정(105)

비 라우드니스 수정 기능("비 라우드니스 수정")(105)에서,

라 칭하는 타겟 비 라우드니스는 전체 장치 또는 프로세스의 원하는 애플리케이션에 따라서 각종 방법들로 SL(104)(도7)의 비 라우드니스로부터 계산될 수 있다. 더욱 자세하게 후술되는 바와 같이, 타겟 비 라우드니스는 예를 들어 볼륨 제어의 경우에 스케일 팩터(α)를 이용하여 계산될 수 있다. 이하의 수학식 16과 이와 관련된 설명을 참조하라. 자동 이득 제어(AGC) 및 동적 범위 제어(DRC)의 경우에, 타겟 비 라우드니스는 원하는 출력 라우드니스 대 입력 라우드니스의 비를 이용하여 계산될 수 있다. 이하의 수학식 17 및 18과 이들의 관련된 설명을 참조하라. 동적 등화의 경우에, 타겟 비 라우드니스는 수학식 23에서 설명된 관계 및 이의 관련된 설명을 이용하여 계산될 수 있다.

이득 솔버(106)

이 예에서, 각 대역(b) 및 매 시간 간격(t) 마다, 이득 솔버(106)는 자신의 입력들로서 스무딩된 여기

및 타겟 비 라우드니스

를 취하고 다음에 오디오를 수정하기 위하여 사용되는 이득들 G[b,t]를 발생시킨다. 다음과 같이 되도록 함수

를 여기로부터 비 라우드니스 까지 비선형 변환으로 표시하자.

이득 솔버는 다음과 같이 되도록 G[b, t]를 구한다.

이득 솔버들(106)은 원래 여기에 인가될 때 이상적으로 원하는 타겟 비 라우드니스와 동일한 비 라우드니스가 되는 주파수 및 시변 이득들을 결정한다. 실제로, 이득 솔버는 오디오 신호의 주파수 도메인 버전에 인가될 때 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시키기 위하여 오디오 신호를 수정시키는 주파수 및 시변 이득들을 결정한다. 이상적으로, 이 수정은 수정된 오디오 신호가 타겟 비 라우드니스의 근접한 근사값인 비 라우드니스를 갖도록 된다. 수학식 14a에 대한 해법은 각종 방법들로 구현될 수 있다. 예를 들어,

로 표현되는 비 라우드니스의 역에 대한 클로우즈드 폼 수학적 표현이 존재하면, 이득들은 수학식 14a를 재배열함으로써 직접 계산될 수 있다.

대안적으로,

에 대한 클로우즈드 폼 해법이 존재하지 않으면, 반복적인 방법이 사용될 수 있는데, 이 방법에서 각 반복 수학식(14a)에 대한 이득들의 현재 추정값을 이용하여 평가된다. 이 결과의 비 라우드니스는 원하는 타겟과 비교되고 이득들은 에러를 토대로 갱신된다. 이득들이 적절하게 갱신되면, 이들은 원하는 해법에 대한 커버리지가 될 것이다. 또 다른 방법은 룩업 테이블을 생성하도록 각 대역에서 여기 값들의 범위에 대한 함수

를 사전 계산하는 것을 포함한다. 이 룩업 테이블로부터, 역함수

의 근사값을 얻고나서 이득들은 수학식 14b로부터 계산될 수 있다. 앞서 언급한 바와 같이, 타겟 비 라우드니스는 비 라우드니스의 스케일링으로 표현될 수 있다.

수학식 13을 14c로 치환하고 나서 14c를 14d로 치환하면 이득들에 대한 대안적인 표현을 발생시킨다.

이득들은 여기

및 비 라우드니스 스케일링

의 함수로서 순수하게 표현될 수 있다는 것을 알았다. 그러므로, 이득들은 중간 값들로서 비 라우드니스 또는 타겟 비 라우드니스를 명시적으로 계산함이 없이 등가의 룩업 테이블 또는 14d의 평가를 통해서 계산될 수 있다. 그러나, 이들 값들은 수학식 14d의 이용을 통해서 암시적으로 계산된다. 비 라우드니스 및 타겟 비 라우드니스의 명시적 또는 암시적 계산 중 어느 한 계산을 통해서 수정 파라미터들을 계산하는 다른 등가의 방법들이 고안될 수 있고 본 발명은 모든 이와 같은 방법들을 커버하도록 한다.

합성 필터뱅크(110)

상술된 바와 같이, 분석 필터뱅크(100)는 단시간 이산 퓨리에 변환(STDFT) 또는 수정된 이산 코사인 변환의 이용을 통해서 효율적으로 구현될 수 있고, STDFT 또는 MDCT는 합성 필터뱅크(110)를 구현하도록 유사하게 사용될 수 있다. 특히, X[k, t]를 앞서 정의된 바와 같이 입력 오디오의 STDFT 또는 MDCT로 표시하면, 합성 필터뱅크(110)의 처리된 (수정된) 오디오 STDFT 또는 MDCTSMS 다음과 같이 계산될 수 있다.

여기서 S_b[k]는 대역(b)과 관련된 합성 필터의 응답이고 d는 도7의 지연 블록(109)와 관련된 지연이다. 합성 필터들 S_b[k]의 셰이프는 분석 필터뱅크 H_b[k]에서 사용되는 필터들과 동일하게 선택될 수 있거나 이들은 임의의 이득 수정 없이 완전한 재구성을 제공하도록 수정될 수 있다(즉, G[b,t]=1일 때). 그 후, 최종 처리된 오디오는 당업자에게 친숙한 바와 같이 오버랩-애드 합성(overlap-add synthesis) 및

의 역 퓨리에 또는 수정된 코사인 변환을 통해서 발생될 수 있다.

타겟 비 라우드니스

도1 내지 도7의 예들과 같이 본 발명의 양상들을 구현하는 장치들의 작용은 주로 타겟 비 라우드니스

를 계산하는 방식을 따른다. 본 발명이 타겟 비 라우드니스를 계산하는 임의의 특정 함수 또는 역함수에 의해 제한되지 않지만, 이들을 위한 여러 이와 같은 함수들 및 적절한 애플리케이션들이 지금부터 설명될 것이다.

볼륨 제어에 적합한 시불변 및 주파수-불변 함수

표준 볼륨 제어는 광대역 이득을 오디오에 인가함으로써 오디오 신호의 라우드니스를 조정한다. 일반적으로, 이득은 오디오의 라우드니스가 원하는 레벨에 있을 때까지 사용자에 의해 조정되는 놉 또는 슬라이더(knob or slider)에 결합된다. 본 발명의 양상은 이와 같은 제어를 구현하는 더욱 사우코아쿠스틱적으로 일정한 방법을 고려한다. 본 발명의 이 양상을 따르면, 인식 스펙트럼을 변화시킬 수 있는 모든 주파수 대역들에 걸쳐서 동일한 량 만큼 이득을 변화시키는 볼륨 제어에 결합된 광대역 이득을 갖는 것이 아니라, 비 라우드니스 스케일링 팩터는 대신 볼륨 제어 조정과 관련되어, 각 다수의 주파수 대역들에서 이득이 인간 청취 모델를 rhfug하는 량만큼 변화되어, 이상적으로 인식 스펙트럼에서 변화가 존재하지 않도록 한다. 본 발명의 이 양상의 컨텍스트 및 예시적인 애플리케이션에서, "일정" 또는 "시불변"은 예를 들어 사용자에 의해 시간에 걸쳐서 볼륨 제어 스케일 팩터의 세팅의 변화를 고려하도록 한다. 이와 같은 "시불변성"을 때때로 "준 시불변(quasi time-invariant), "준-정지(quasi-stationary"), "피스와이즈 시불변(piece time- invariant)", "피스와이즈 정지", "스텝-와이즈 시불변" 및 "스텝-와이즈 정치"라 칭한다. 이와 같은 스케일 팩터(α)가 제공되면, 타겟 비 라우드니스는 α와 승산되는 측정된 비 라우드니스로서 계산될 수 있다.

총 라우드니스 L[t]는 모든 대역들(b)에 걸쳐서 비 라우드니스 N[b,t]의 합이기 때문에, 상기 수정은 또한 α의 팩터만큼 총 라우드니스를 스케일링하지만, 이는 볼륨 제어 조정의 변화들에 대한 특정 시간에서 동일한 인식 스펙트럼을 유지하는 방식으로 또한 이와 같이 행한다. 다른 말로서, 임의의 특정 시간에서, 볼륨 제어 조정의 변화는 인식된 라우드니스를 변화시키지만, 수정된 오디오의 인식 스펙트럼 대 수정되지 않은 오디오의 인식 스펙트럼의 변화가 없다는 것이다. 도13a는 여성 음성을 구성하는 오디오 신호에 대해서 α=0.25일 때 특정 시간 "t"에서 대역들 "b"에 걸쳐서 이 결과의 다중대역 이득들 G[b, t]를 도시한다. 비교를 위하여, 표준 볼륨 제어에서 처럼 0.25(수평선)만큼 원래 총 라우드니스를 스케일링하는데 필요로 되는 광대역 이득이 또한 플롯화(plot)된다. 다중대역 이득 G[b, t]은 중간 주파수 대역들과 비교하여 저 및 고 주파수 대역들에서 증가된다. 이는 인간 귀가 저 및 고 주파수들에서 덜 민감하다는 것을 나타내는 동일한-라우드니스 등고선들과 일치한다.

도13b는 원래 오디오 신호, 종래 기술의 볼륨 제어에 따라서 수정되는 바와 같은 광대역 이득-수정된 신호, 본 발명의 양상에 따라서 수정되는 바와 같은 다중 대역 이득-수정된 신호에 대한 비 라우드니스를 도시한다. 다중대역 이득 수정된 신호의 비 라우드니스는 0.25만큼 스케일링된 원래의 비 라우드니스이다. 광대역 이득 수정된 신호의 비 라우드니스는 원래의 수정되지 않은 신호의 비 라우드니스에 대해서 자신의 스펙트럼 셰이프를 변화시킨다. 이 경우에, 비 라우드니스는 상대적인 면에서 저 및 고 주파수들 둘 다에서 라우드니스를 상실한다. 이는 볼륨이 턴 다운될 대 오디오의 덜링(dulling)으로서 인식되는데, 라우드니스가 이득들에 의해 제어되는 다중대역 수정된 신호로 인해 발생되지 않는 문제가 인식 라우드니스 도메인에서 파생된다.

전통적인 볼륨 제어와 관련된 인식 스펙트럼 밸런스의 왜곡과 함께, 제2의 문제가 존재한다. 수학식 11a 내지 11d에서 반영되는 라우드니스 모델에서 반영되는 라우드니스 인식 특성은 임의의 주파수에서 신호의 라우드니스가 신호 레벨이 청취의 임계값에 접근할 때 더욱 신속하게 감소된다는 것이다. 따라서, 동일한 라우드니스 감쇠를 소프터 신호(softer signal)에 부여하는데 필요로 되는 전기적인 감쇠가 라우더 신호(louder signal)에 필요로 되는 전기적인 감쇠보다 낮게 된다. 전통적인 볼륨 제어는 신호 레벨에 관계없이 일정한 감쇠를 부여함으로, 소프트 신호들은 볼륨이 턴 다운될 때 라우더 신호들에 대해서 "너무 소프트"하게 된다. 많은 경우들에, 이것이 오디오의 디테일을 상실시킨다. 반향실에서 캐스터네츠의 녹음을 고려하자. 이와 같은 녹음에서, 캐스터네츠의 주 "히트"는 반향 에코들과 비교하여 대단히 큰 소리이지만, 방의 크기를 나타내는 반향 에코들이다. 볼륨이 전통적인 볼륨 제어에 의해 턴 다운될 때, 반향 에코들은 주 히트에 대해서 더욱 소 프트하게 되고 결국 청취의 임계값보다 아래에서 사라져 "드라이(dry)" 사운딩 캐스터넷츠를 남긴다. 라우드니스 기반으로 한 볼륨 제어는 라우더 주 히트(louder main hit)에 대해서 녹음의 소프터 반향 부분을 부스팅함으로써 녹음의 소프터 부분의 사라짐을 방지함으로써 이들 섹션들 간의 상대적인 라우드니스가 일정하게 유지되도록 한다. 이 효과를 성취하기 위하여, 다중대역 이득들 G[b, t]는 라우드니스 인식의 인간의 시간적 레졸루션과 동일한 정도인 레이트로 시간에 걸쳐서 가변하여야 한다. 다중대역 이득들 G[b, t]가 스무딩된 여기

의 함수에 따라서 계산되기 때문에, 수학식 8의 시정수(λ_b)의 선택은 얼마나 빨리 이득들이 각 대역(b)에서 시간에 걸쳐서 가변할 수 있는지에 따른다. 앞서 언급한 바와 같이, 이들 시정수들은 대역 (b) 내에서 인간 라우드니스 인식의 적분 시간에 비례하도록 선택되어, 시간에 걸쳐서 G[b, t]를 적절하게 변화시킨다. 시정수들이 부적절하게(너무 빠르거나 너무 느리게) 선택되면, 인식가능한 불쾌한 아티팩트들이 처리된 오디오에서 발생될 수 있다는 점에 유의하여야 한다.

고정된 등화에 적합한 시불변 및 주파수-가변 함수

일부 애플리케이션들에서, 고정된 인식가능한 등화를 오디오에 적용하길 원할 수 있는데, 이 경우에, 타겟 비 라우드니스는 다음 관계식에서 처럼 시불변이지만 주파수-가변 스케일 팩터Θ[b]를 인가함으로써 계산될 수 있다.

여기서

는 타겟 비 라우드니스이며, N[b,t]는 오디오 신호의 비 라우 드니스이며, b는 주파수의 측정값이고, t는 시간의 측정값이다. 이 경우에, 스케일링은 대역에 걸쳐서 가변될 수 있다. 이와 같은 애플리케이션은 예를 들어 지능을 부스트하기 위하여 음성 주파수들에 의해 지배되는 스펙트럼의 부분을 강조하는데 유용할 수 있다.

자동 이득 및 동적 범위 제어에 적합한 주파수 불변 및 시변 함수

자동 이득 및 동적 범위 제어(ACG 및 DRC)의 기술들은 오디오 처리 분야에서 널리 공지되어 있다. 추상적인 면에서, 두 기술들은 어떤 방식으로 오디오 신호의 레벨을 측정하고나서 측정된 레벨의 함수인 량만큼 신호를 이득-수정한다. AGC의 경우에, 신호는 이득-수정되어, 이의 측정된 레벨은 사용자 선택된 기준 레벨에 더욱 밀접하게 된다. DRC로 인해, 신호는 이득-수정되어, 신호의 측정된 레벨의 범위가 어느 바람직한 범위로 변환되도록 한다. 예를 들어, 오디오 라우더의 정숙한 부분들 및 라우드 부분들을 더욱 조용하게 만들기 원할 수 있다. 이와 같은 시스템은 Robinson 및 Gundry(Charles Robinson 및 Kenneth Gundry가 1999년 9월 24일 부터 27일까지 뉴욕에서 개최한 AES Preprint 5028의 107차 회의에서 발표한 "Dynamic Range Control via Metadata")에 의해 개시되어 있다. AGC 및 DRC의 전통적인 구현방식들은 일반적으로, 스무딩된 피크 또는 제곱근 평균 자승(rms) 진폭과 같은 오디오 신호 레벨의 간단한 측정을 이용하여 이득 수정을 도출한다. 이와 같은 간단한 측정들은 오디오의 인식된 라우드니스와 어느 정도 상관되지만 본 발명의 양상들은 사이코아쿠스틱 모델을 토대로 한 라우드니스의 측정으로 이득 수정들을 도출함으로써 더욱 인식가능한 관련 AGC 및 DRC를 고려한다. 또한, 많은 전통적인 AGC 및 DRC 시스템들은 광대역 이득으로 이득 수정을 적용함으로써, 처리된 오디오에서 상술된 진동막(스펙트럼) 왜곡들을 발생시킨다. 다른 한편으로, 본 발명의 양상들은 다중대역 이득을 사용하여 이와 같은 왜곡들을 감소 또는 최소화하는 방식으로 비 라우드니스를 셰이핑한다.

본 발명의 양상들을 사용하는 AGC 및 DRC 애플리케이션들 둘 다는 입력 광대역 라우드니스 L_i[t]를 원하는 출력 광대역 라우드니스 L_o[t]로 변환 및 맵핑하는 함수에 의해 특징지워지는데, 여기서 라우드니스는 손과 같은 인식 라우드니스 단위들로 측정된다. 입력 광대역 라우드니스 L_i[t]는 입력 오이도 신호의 비 라우드니스 N[b, t]의 함수이다. 입력 오디오 신호의 총 라우드니스와 동일할 수 있지만, 인느 오디오 신호의 총 라우드니스의 시간적으로-스무딩된 버전일 수 있다.

도14a 및 도14b는 AGC 및 DRC 각각에 대한 전형적인 맵핑 함수들의 예들을 도시한다. L₀[t]가 L_i[t]의 함수인 이와 같은 맵핑이 제공되면, 타겟 비 라우드니스는 다음과 같이 계산될 수 있다.

오디오 신호의 원래 비 라우드니스 N[b, t]는 원하는 출력 광대역 라우드니스 대 입력 광대역 라우드니스의 비에 의해 간단히 스케일링되어 출력 비 라우드니스

를 산출한다. AGC 시스템에 대해선, 입력 광대역 라우드니스 L₁[t]는 일반 적으로 오디오의 장기간 총 라우드니스의 측정값이어야만 된다. 이는 L_i[t]를 발생시키기 위하여 시간에 걸쳐서 총 라우드니스 L[t]를 스무딩함으로써 성취될 수 있다.

AGC와 비교하면, DRC 시스템은 신호의 라우드니스의 더욱 짧은 기간의 변화에 반응함으로, L_i[t]는 간단히 L[t]와 동일하게 될 수 있다. 따라서, L₀[t]/L_i[t]에 의해 제공된 비 라우드니스의 스케일링은 급속하게 변동되어 처리된 오디오에서 원치않는 아티팩트들을 발생시킨다. 하나의 전형적인 아티팩트는 스펙트럼의 일부 다른 상대적으로 관련되지 않은 부분에 의해 주파수 스펙트럼의 일부분의 가청 변조이다. 예를 들어, 클래식 음악 선택은 유지된 스트링 노트(sustained string note)에 의해 지배되는 고 주파수들을 포함할 수 있는 반면에, 저 주파수들은 라우드 붐잉 팀파니(loud booming timpani)를 포함한다. 팀파니가 히트할 때마다.총 라우드니스 L_i[t]는 증가하고, DRC 시스템은 전치 비 라우드리스에 감쇠를 적용한다. 그 후, 스트링들은 팀파니를 갖는 라우드니스에서 "펌핑" 다운 및 업하도록 청취된다. 스펙트럼에서의 이와 같은 교차 펌핑은 또한 종래의 광대역 DRC 시스템들에 의한 문제이고, 전형적인 해법은 상이한 주파수 대역들에 독립적으로 DRC를 적용하는 것을 포함한다. 본원에 개시된 시스템은 본래 인식 라우드니스 모델을 사용하는 비 라우드니스의 계산 및 필터뱅크로 인하여 다중대역이므로, 본 발명의 양상들을 따라 다중대역 방식으로 동작하도록 DRC 시스템을 수정하는 것은 비교적 직접적이며, 다음에 설명된다.

동적 범위 제어에 적합한 주파수-가변 및 시변 함수

DRC 시스템은 입력 및 출력 라우드니스가 대역 b와 독립적으로 변하도록 함으로써 다중대역 또는 주파수-가변 방식으로 동작하도록 확장될 수 있다. 이들 다중대역 라우드니스 값들을 L_i[b,t] 및 L₀[b,t]라 하면, 타겟 비 라우드니스는 다음과 같이 제공될 수 있고,

여기서, L₀[b,t]는 도14b에 도시된 바와 같이 L_i[b,t]로부터 계산되거나 맵핑되지만, 각 대역 b에 대해서 독립적으로 계산되거나 맵핑된다. 입력 다중대역 라우드니스(L₀[b,t])는 입력 오디오 신호의 비 라우드니스(L[b,t])의 함수이다. 이것은 입력 오디오 신호의 비 라우드니스와 동일할 수 있을지라도, 오디오 신호의 비 라우드니스의 시작적으로-스무딩되고 및/또는 주파수-스무딩된 버전일 수 있다.

L_i[b,t]를 계산하는 가장 직접적인 방법은 L_i[b,t]를 비 라우드니스(L[b,t])와 동일하게 놓는 것이다. 이 경우에, DRC는 서두 "Frequency-Imvariant and Time-Variant Function Suitable Automatic Gain and Dynamic Range Control" 하에서 상술된 것과 같이 모든 대역들에 대한 동일한 입력 대 출력 라우드니스 비를 따르기보다는 오히려, 인식 라우드니스 모델의 청각 필터뱅크 내의 모든 대역 상에서 독립적으로 수행된다. 40 대역들을 사용하는 실제적인 실시예에서, 주파수 축을 따른 이들 대역들의 이격은 라우드리스의 정확한 측정값을 제공하기 위하여 비교적 미세하다. 그러나, 각 대역에 독립적으로 DRC 스케일 팩터를 인가하면 처리된 오디오가 "찢어지게" 들릴 수 있다. 이 문제를 피하기 위하여, 하나의 대역으로부터 다음 대역으로 적용된 DRC의 량이 급격하게 변화하지 않도록 대역들에 걸쳐서 비 라우드니스(L[b,t])를 스무딩함으로써 L_i[b,t]를 계산하도록 선택할 수 있다. 이는 대역-스무딩 필터(Q(b))를 규정하고 나서, 표준 컨볼루션 합:

에 따라 모든 대역들에 걸쳐서 비 라우드니스를 스무딩함으로써 성취될 수 있고, 여기서, N[c,t]는 오디오 신호의 비 라우드니스이며, Q(b-c)는 스무딩 필터의 대역-시프팅된 응답이다. 도15는 이와 같은 대역-스무딩 필터의 일례를 도시한다.

L_o[b,t]의 함수로서 L_i[b,t]를 계산하는 DRC 함수가 모든 대역(b)에 대해 고정되는 경우, 비 라우드니스(L[b,t])의 각 대역에 초래되는 변화의 유형은 신호의 총 라우드니스가 동일하게 유지될지라도, 처리되는 오디오의 스펙트럼에 따라 변할 것이다. 예를 들어, 라우드 베이스 및 조용한 트레블을 갖는 오디오 신호는 베이스가 커트되고 트레블이 부스팅될 수 있다. 조용한 베이스 및 라우드 트레블을 갖는 신호는 그 반대가 될 수 있다. 넷 효과(net effect)는 오디오의 음색 또는 인식 스펙트럼의 변화이며, 이는 어떤 애플리케이션들에서 바람직할 수 있다.

그러나, 오디오의 평균 인식 스펙트럼을 수정함이 없이 다중대역 DRC를 수행하고자 할 수 있다. 수정들의 단계 변화들이 대역들 사이에서 독립적으로 동작하도록 하면서, 각 대역에서의 평균 수정이 대충적으로 동일하게 되는 것을 원할 수 있다. 원하는 효과는 각 대역의 DRC의 평균 비헤이버가 어떤 레퍼런스 비헤이버와 동일하도록 함으로서 성취될 수 있다. 이 레퍼런스 비헤이버를 광대역 입력 라우드니스(L_i[t])에 대한 원하는 DRC로서 선택할 수 있다. 함수(L₀[t]=DRC{L_i[t]}이 광대역 라우드니스에 대한 원하는 DRC 맵핑을 나타낸다고 하자. 그 후,

이 광대역 입력 라우드니스의 시간 평균된 버전을 나타내고,

이 다중대역 입력 라우드니스(L_i[b,t])의 시간 평균된 버전을 나타낸다고 하자. 다중대역 출력 라우드니스는 다음과 같이 계산될 수 있다.

다중대역 입력 라우드니스가 광대역 입력 라우드니스와 동일한 평균 범위가 되도록 먼저 스케일링된다는 점에 유의하라. 그 후, 광대역 라우드니스에 대해 설계된 DRC 함수가 적용된다. 최종적으로, 그 결과는 다중대역 라우드니스의 평균 범위로 다시 아래로 스케일링된다. 다중대역 DRC의 이러한 공식에 의하여, 감소된 스펙트럼 펌핑의 이점들이 유지되는 동시에, 오디오의 평균 인식 스펙트럼을 보존한다.

동적 등화에 적합한 주파수-가변 및 시변 함수

본 발명의 양상들의 또 다른 애플리케이션은 오디오의 원래 동적 범위를 보존하면서 오디오의 시변 인식 스펙트럼의 타겟 시불변 인식 스펙트럼으로의 의도된 변환이다. 이 프로세싱을 동적 등화(DEQ)라 칭할 수 있다. 종래의 정적 등화에 의하면, 그 스펙트럼을 변화시키기 위하여 음성에 단순한 고정된 필터링이 적용된다. 예를 들어, 고정된 베이스 또는 트레블 부스트를 적용할 수 있다. 이와 같은 프로세싱은 오디오의 현재 스펙트럼을 고려하지 않으므로, 일부 신호들, 즉, 비교적 큰 량의 베이스 또는 트레블을 이미 포함하는 신호들에 부적합할 수 있다. DEQ에 의하면, 신호의 스펙트럼이 측정되고 나서, 측정된 스펙트럼을 본질적으로 정적인 원하는 형태로 변환하기 위하여 신호가 동적으로 수정된다. 본 발명의 양상들의 경우에, 이와 같은 원하는 형태는 필터뱅크 내의 대역들에 걸쳐서 규정되고, EQ[b]라고 칭해진다. 실제적인 실시예에서, 측정된 스펙트럼은 시간에 걸쳐서 비 라우드니스(N[b,t])를 스무딩함으로써 발생될 수 있는 오디오의 평균 스펙트럼 형상을 나타내야 한다. 스무딩된 비 라우드니스를

이라 칭할 수 있다. 다중대역 DRC와 같이, 하나의 대역으로부터 다음 대역으로 급격하게 변화시키는 DEQ 수정을 원하지 않을 수 있으므로, 대역-스무딩된 스펙트럼(

)

을 발생시키도록 대역-스무딩 함수가 적용될 수 있다.

오디오의 원래 동적 범위를 보존하기 위하여, 원하는 스펙트럼(EQ[b])은

에 의해 제공되는 측정된 스펙트럼 형태와 동일한 총 라우드니스를 가지도록 정규화되어야 한다. 이 정규화된 스펙트럼 형태를

:

라 칭할 수 있다.

최종적으로, 타겟 비 라우드니스는 다음과 같이 계산되고,

여기서, β는 적용되어야 하는 DEQ의 정도를 나타내는 0에서 1의 범위의 사용자-규정 파라미터이다. 수학식 23을 살펴보면, β=0일 때, 원래 비 라우드니스는 수정되지 않고, β=1일 때, 비 라우드니스는 원하는 비 스펙트럼 형태 대 측정된 스펙트럼 형태의 비만큼 스케일링된다는 점에 유의하라.

원하는 스펙트럼 형태(EQ[b])를 발생시키는 하나의 편리한 방법은 사용자가 이것을 그 스펙트럼 밸런스가 사용자를 즐겁게 하는 오디오의 어떤 피스에 대하여 측정된 바와 같은

로 설정하는 것이다. 예를 들어, 도16에 도시된 바와 같이, 실제적인 실시예에서, 사용자는 작동될 때, 오디오의 스펙트럼 형태(

)의 현재 측정값을 캡처하도록 하고 나서, 이 측정값을 DEQ가 나중에 (프리세트 선택(508)에 의해서와 같이) 인에이블될 때 EQ[b] 내로 로딩될 수 있는 (타겟 비 라우드니스 프리세트 캡처 및 저장부(506) 내의) 프리세트로서 저장하는 버튼 또는 다른 적절한 액추에이터(507)를 제공받을 수 있다. 도16은 분석 필터뱅크(100)로부터 합성 필터뱅크(110)까지의 다중 대역들을 나타내는데 단일 라인만이 도시되어 있는 도7의 간단화된 버전이다. 도17의 예는 또한 상술된 바와 같이 동적 등화에 따른 기능 또는 장치(104)에 의해 측정되는 비 라우드니스에 대한 수정을 제공하는 동적 EQ 비 라우드니스(SL) 수정(505)을 제공한다.

결합된 프로세싱

볼륨 제어(VC), AGC, DRC, 및DEQ를 포함하는 상술된 모든 프로세싱을 단일 시스템으로 결합하고자 할 수 있다. 이들 프로세스들 각각이 비 라우드니스의 스케일링으로서 표현될 수 있기 때문에, 이들 모두는 다음과 같이 용이하게 결합될 수 있고:

여기서, Θ[b,t]는 프로세스 "*"와 관련된 스케일 팩터들을 나타낸다. 그 후, 단일 세트의 이득(G[b,t])이 결합된 프로세싱을 나타내는 타겟 비 라우드니스에 대하여 계산될 수 있다.

일부 경우들에서, 라우드니스 수정 프로세스 하나 또는 그 조합의 스케일 팩 터들은 시간에 걸쳐 급속하게 변동하여 그 결과의 처리된 오디오에서 아티팩트들을 생성할 수 있다. 따라서, 이들 스케일링 팩터들의 어떤 서브셋을 스무딩하는 것이 바람직하다. 일반적으로, VC 및 DEQ로부터의 스케일 펙터는 시간에 걸쳐 스무드하게 변하지만, AGC 및 DRC 스케일 팩터들의 조합을 스무딩하는 것이 필요로 될 수 있다. 이들 스케일 팩터들의 조합이 다음에 의해 표현된다고 하자.

스무딩 이면의 기본적인 개념은 비 라우드니스가 증가하고 있을 때, 결합된 스케일 팩터들이 고속으로 반응해야 하고, 비 라우드니스가 감소하고 있을 때, 스케일 팩터들이 더 과도하게 스무딩되어야 한다는 것이다. 이 개념은 오디오 압축기의 설계에서 고속 어택(fast attack) 및 저속 릴리스(slow release)를 사용하는 널리-공지된 관행에 대응한다. 스케일 팩터들을 스무딩하는데 적절한 시간 상수들은 비 라우드니스의 대역-스무딩된 버전을 시간에 걸쳐서 스무딩함으로써 계산될 수 있다. 우선 비 라우드니스의 대역-스무딩된 버전이 다음과 같이 계산되고:

여기서, N[e,t]는 오디오 신호의 비 라우드니스이며, Q(b-c)는 상기 수학식 19에서와 같은 스무딩 필터의 대역-시프팅된 응답이다.

그 후, 이 대역-스무딩된 비 라우드니스의 시간-스무딩된 버전이 다음과 같 이 계산되고,

여기서, 대역 의존 스무딩 계수(λ[b,t])는 다음에 의해 계산된다.

그 후, 스무딩되는 결합된 스케일 팩터들이 다음과 같이 계산되고,

여기서, λ_M[b,t]은 λ[b,t]의 대역-스무딩된 버전이다:

스무딩 계수의 대역 스무딩은 시간-스무딩된 스케일 팩터들이 대역들에 걸쳐서 급격하게 변화하지 않도록 한다. 설명된 스케일 팰터 시간- 및 대역-스무딩은 처리된 오디오 신호가 더 적은 불쾌한 인식 아티팩트들을 포함하도록 한다.

잡음 보상

많은 오디오 재생 환경들에서, 청취자가 듣고자 하는 오디오와 간섭하는 배 경 잡음이 존재한다. 예를 들어, 이동하는 자동차에서의 청취자는 설치된 스테레오 시스템을 통하여 음악을 재생할 수 있고, 엔진 또는 도로로부터의 잡음은 음악의 인식을 상당히 변경시킬 수 있다. 특히, 잡음의 에너지가 음악의 에너지에 비하여 아주 큰 스펙트럼의 부분들에 대하여, 음악의 인식된 라우드니스가 감소된다. 잡음의 레벨이 충분히 크면, 음악은 완전히 마스크된다. 본 발명의 양상과 관련하여, 간섭 잡음 존재 시의 처리된 신호의 비 라우드니스가 타겟 비 라우드니스(

)와 동일하도록 이득(G[b,t])을 선택하고자 할 수 있다. 이 효과를 성취하기 위하여, 앞에서 Moore 및 Glasberg에 의해 규정된 바와 같이, 부분적인 라우드니스의 개념을 사용할 수 있다. 홀로 잡음의 측정값 및 오디오의 측정값을 획득할 수 있다고 가정하자. E_N[b,t]가 잡음으로부터의 여기를 나타내고 E_A[b,t]가 오디오로부터의 여기를 나타낸다고 하자. 그 후, 오디오 및 잡음의 결합된 비 라우드니스는 다음에 의해 제공되며,

여기서, 다시 ψ{}는 여기로부터 비 라우드니스로의 비-선형 변환을 나타낸다. 청취자의 청취가 결합된 비 라우드니스:

를 보존하는 방식으로 오디오의 부분적인 비 라우드니스 및 잡음의 부분적인 비 라우드니스 간의 결합된 비 라우드니스를 분할한다라고 가정할 수 있다.

오디오의 부분적인 비 라우드니스(N_A[b,t])는 제어하고자 하는 값이므로, 이 값에 대해 해결해야 한다. 잡음의 부분적인 비 라우드니스는 다음과 같이 근사화될 수 있고,

여기서, E_IN[b,t]는 잡음의 존재 시에 마스크된 임계값이며, E_TQ[b]는 대역(b)에서 정숙시에 들리는 임계값이며, κ는 0과 1 사이의 지수이다. 수학식들 31-33을 결합하면, 오디오의 부분적인 비 라우드니스에 대한 식에 도달한다:

오디오의 여기가 잡음의 마스크된 임계값과 동일할 때(E_A[b,t]=E_TN[b,t]), 오디오의 부분적인 비 라우드니스는 정숙 시의 임계값에서의 신호의 라우드니스와 동일하고, 이는 원하는 결과이다. 오디오의 여기가 잡음의 여기보다 훨씬 더 클 때, 수학식 34의 제2 항은 사라지고, 오디오의 비 라우드니스는 잡음이 존재하지 않는 경우와 거의 동일해진다. 즉, 오디오가 잡음보다 훨씬 더 라우드하기 때문에, 잡음은 오디오에 의해 마스크된다. 지수(κ)는 신호-대-잡음 비의 함수로서 잡음 내의 톤의 라우드니스에 대한 데이터에 매우 적합하도록 경험적으로 선택된다. Moore 및 Glasber는 κ=0.3의 값이 적합하다는 것을 발견하였다. 잡음의 마스크된 임계값은 잡음 여기 자체의 함수:

로서 근사화될 수 있고,

여기서, K[b]는 더 낮은 주파수 대역에서 증가하는 상수이다. 따라서, 수학식 34에 의해 제공된 오디오의 부분적인 비 라우드니스는 오디오의 여기 및 잡음의 여기의 함수:

로서 추상적으로 표현될 수 있다.

그 후, 잡음의 존재 시의 처리된 신호의 부분적인 비 라우드니스가 타겟 비 라우드니스와 동일하게 되도록:

이득(G[b,t])을 계산하는데 수정된 이득 솔버가 사용될 수 있다,

도17은 원래 이득 솔버(106)가 설명된 잡음 보상 이득 솔버(206)로 교체된 도7의 시스템을 도시한다(필터뱅크의 다수의 대역들을 나타내는 브록들 간의 다수의 수직선들이 도면을 간단화하기 위하여 단일 라인으로 교체되었다는 점에 유의하 라). 또한, 상기 도면은 (스무딩(103)으로부터의) 오디오 및 (SL 수정(105)으로부터의) 타겟 비 라우드니스의 여기와 함께 새로운 이득 솔버(206) 내로 공급되는 (블록들(100, 101, 102 및 103의 동작에 대응하는 방식으로 분석 필터뱅크(200), 전송 필터(201), 여기(202) 및 스무딩(203)에 의한) 잡음 여기의 측정값을 도시한다.

자신의 가장 기본적인 동작 모드에서, 도17의 SL 수정(105)은 단순히 타겟 비 라우드니스(

)를 오디오의 원래 비 라우드니스(N[b,t])와 동일하게 설정할 수 있다. 즉, SL 수정은 오디오 신호의 비 라우드니스의 주파수-불변 스케일 팩터(α) 스케일링을 제공하고, 여기서 α=1이다. 도17에서와 같은 배열에 의하여, 이득이 계산되어 잡음의 존재 시에 처리된 오디오의 인식된 라우드니스 스펙트럼이 잡음의 부재 시에 오디오의 라우드니스 스펙트럼과 동일하게 된다. 부가적으로, VC, AGC, DRC, 및 DEQ를포함하는 원래의 함수로서 타겟 비 라우드니스를 계산하는 상술된 기술들 중 어느 하나 또는 이들의 조합이 잡음 보상 라우드니스 수정 시스템과 함께 사용될 수 있다.

실제적인 실시예에서, 잡음의 측정은 오디오가 재생될 환경에 또는 그 부근에 배치되는 마이크로폰으로부터 달성될 수 있다. 대안적으로, 다양한 조건들 하에서 예상된 잡음 스펙트럼을 근사화하는 소정 세트의 템플릿 잡음 여기들이 사용될 수 있다. 예를 들어, 자동차 케빈에서의 잡음은 다양한 운전 속도에서 사전-분석되고 나서, 잡음 여기 대 속도의 룩업 테이블로서 저장될 수 있다. 그 후, 도17의 이득 솔버(206) 내로 공급된 잡음 여기는 자동차의 속도가 변화할 때, 이 룩업 테이 블로부터 근사화될 수 있다.

구현

본 발명은 하드웨어나 소프트웨어, 또는 이들 둘다의 조합(예를 들어, 프로그램 가능한 논리 어레이들)으로 구현될 수 있다. 다르게 규정되지 않는다면, 본 발명의 부분으로서 포함되는 알고리즘들은 임의의 특정 컴퓨터 또는 다른 장치와 고유하게 관련되지 않는다. 특히, 다양한 범용 기계들이 본원의 개념에 따라 기록된 프로그램들과 함께 사용되거나, 또는 필요로 되는 방법 단계들을 수행하기 위하여 더 특수화된 장치(예를 들어, 집적 회로들)를 구성하는 것이 편리할 수 있다. 따라서, 본 발명은 적어도 하나의 프로세서, (휘발성 및 비휘발성 메모리 및/또는 저장 소자들을 포함하는) 적어도 하나의 데이터 저장 시스템, 적어도 하나의 입력 장치 또는 포트, 및 적어도 하나의 출력 장치 또는 포트를 각각 포함하는 하나 이상의 프로그램 가능한 컴퓨터 시스템 상에서 실행되는 하나 이상의 컴퓨터 프로그램들로 구현될 수 있다. 프로그램 코드는 본원에 설명된 기능들을 수행하고 출력 정보를 발생시키기 위하여 입력 데이터에 적용된다. 출력 정보는 공지된 방식으로 하나 이상의 출력 장치들에 적용된다.

각각의 이와 같은 프로그램은 컴퓨터 시스템과 통신하기 위하여 (기계, 어셈블리, 또는 고레벨 절차적, 논리적, 또는 목적 지향 프로그래밍 언어들을 포함하는) 임의의 희망하는 컴퓨터 언어로 구현될 수 있다. 어떤 경우에, 상기 언어는 컴파일링 또는 해석형 언어일 수 있다.

각각의 이와 같은 컴퓨터 프로그램은 바람직하게는 저장 매체 또는 장치가 본원에 설명된 절차들을 수행하기 위하여 컴퓨터 시스템에 의해 판독될 때 컴퓨터를 설정하고 동작시키기 위하여 범용 또는 특수용 프로그램 가능한 컴퓨터에 의해 판독 가능한 저장 매체 또는 장치(예를 들어, 고체 상태 메모리 또는 매체, 또는 자기 또는 광 매체) 상에 저장되거나 이 매체 또는 장치로 다운로드된다. 본 발명의 시스템은 또한 컴퓨터 프로그램으로 구성된 컴퓨터-판독 가능한 저장 매체로서 구현되도록 구성될 수 있고, 여기서 이와 같이 구성된 저장 매체는 컴퓨터 시스템이 본원에 설명된 기능들을 수행하도록 특정하고 미리규정된 방식으로 동작하도록 한다.

본 발명의 다수의 실시예들이 설명되었다. 그럼에도 불구하고, 본 발명의 정신 및 범위를 벗어남이 없이 각종 수정들이 행해질 수 있다는 것이 이해될 것이다. 예를 들어, 본원에 설명된 단계들 중 일부는 순서 독립적이므로, 설명된 것과 상이한 순서로 수행될 수 있다.

Claims

오디오 신호의 비 라우드니스를 제어하는데 사용될 수 있는 정보를 도출하는 방법으로서, 상기 비 라우드니스는 주파수 및 시간의 함수로서 인식 라우드니스의 측정값인, 정보 도출 방법에 있어서,

오디오 신호의 비 라우드니스 및 목표 비 라우드니스 간의 차를 감소시키기 위하여 상기 오디오 신호를 수정하는데 유용한 수정 파라미터들을 도출하는 단계를 포함하는 오디오 신호의 비 라우드니스를 제어하는데 사용될 수 있는 정보 도출 방법.
오디오 신호의 부분적이 비 라우드니스를 제어하는데 사용될 수 있는 정보를 도출하는 방법으로서, 상기 비 라우드니스는 주파수 및 시간의 함수로서 인식 라우드니스의 측정값이며, 신호의 부분적인 비 라우드니스는 주파수 및 시간의 함수로서 제2 간섭 신호의 존재 시에 상기 신호의 인식 라우드니스의 측정값인, 정보 도출 방법에 있어서,

오디오 신호의 부분적인 비 라우드니스 및 목표 비 라우드니스 간의 차를 감소시키기 위하여 상기 오디오 신호를 수정하는데 사용될 수 있는 수정 파라미터들을 도출하는 단계를 포함하는 오디오 신호의 비 라우드니스를 제어하는데 사용될 수 있는 정보 도출 방법.
오디오 신호의 비 라우드니스를 제어하는 방법으로서, 상기 비 라우드니스는 주파수 및 시간의 함수로서 인식 비 라우드니스의 측정값인, 제어 방법에 있어서,

오디오 신호의 비 라우드니스 및 목표 비 라우드니스 간의 차를 감소시키기 위하여 오디오 신호를 수정하는 단계를 포함하는 오디오 신호의 비 라우드니스 제어 방법.
오디오 신호의 부분적인 비 라우드니스를 제어하는 방법으로서, 상기 비 라우드니스는 주파수 및 시간의 함수로서 인식 라우드니스의 측정값이며, 신호의 부분적인 비 라우드니스는 주파수 및 시간의 함수로서 제2 간섭 신호의 존재 시에 상기 신호의 인식 라우드니스의 측정값인, 제어 방법에 있어서,

오디오 신호의 부분적인 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시키기 위하여 상기 오디오 신호를 수정하는 단계를 포함하는 오디오 신호의 부분적인 비 라우드니스 제어 방법.
제1항 내지 4항중 어느 한 항에 있어서, 상기 수정 또는 도출 단계는 오디오 및 타겟 비 라우드니스 또는 타겟 비 라우드니스의 표현을 전송 매체로부터 수신하거나 저장 매체로부터 재생하는 단계를 포함하는 방법.
제3항 또는 4항에 있어서, 상기 수정 단계는 수정된 오디오 신호를 제공하기 위하여 수정 파라미터들에 따라 사익 오디오 신호를 수정하는 단계를 포함하고, 상 기 수정 단계는 상기 오디오 및 수정 파라미터들을 전송 매체로부터 수신하거나 저장 매체로부터 재생하는 단계를 포함하는 방법.
제3항 또는 4항에 있어서, 상기 수정 단계를 수정 파라미터들을 발생시키는 단계를 포함하는 방법.
제1항 내지 7항 중 어느 한 항에 있어서, 상기 타겟 비 라우드니스는 상기 오디오 신호의 함수가 아닌 방법.
제8항에 있어서, 상기 수정 또는 상기 도출 단계는 타겟 비 라우드니스를 저장하는 단계를 포함하는 방법.
제8항에 있어서, 상기 수정 또는 상기 도출 단계는 외부 소스로부터 상기 방법으로 타겟 비 라우드니스를 수신하는 단계를 포함하는 방법.
제8항 내지 10항 중 어느 한 항에 있어서, 상기 수정 또는 상기 도출 단계는 비 라우드니스 및/또는 부분적인 비 라우드니스를 명시적으로 계산하는 프로세싱을 포함하는 방법.
제8항 내지 10항 중 어느 한 항에 있어서, 상기 수정 또는 상기 도출 단계는 비 라우드니스 및/또는 부분적인 비 라우드니스를 암시적으로 계산하는 프로세싱을 포함하는 방법.
제12항에 있어서, 상기 프로세싱은 룩업 테이블을 사용하여 비 라우드니스 및/또는 부분적인 비 라우드니스를 고유하게 결정하는 방법.
제12항에 있어서, 상기 비 라우드니스 및/또는 부분적인 비 라우드니스는 상기 프로세싱에 의해 사용되는 클로우즈드-폼 수학식으로 고유하게 결정되는 방법.
제8항 내지 14항 중 어느 한 항에 있어서, 상기 타겟 비 라우드니스는 시불변 및 주파수-불변인 방법.
제8항 내지 14항 중 어느 한 항에 있어서, 상기 타겟 비 라우드니스는 시불변인 방법.
오디오 신호를 처리하는 방법에 있어서,

타겟 비 라우드니스를 생성하기 위하여 하나 이상의 프로세스 및 하나 이상의 프로세스-제어 파라미터에 따라 오디오 신호 또는 오디오 신호의 측정값을 처리하는 단계를 포함하며, 상기 비 라우드니스는 주파수 및 시간의 함수로서 오디오 신호의 인식 라우드니스의 측정값인 오디오 신호 처리 방법.
제1항 내지 7항 및 17항 중 어느 한 항에 있어서, 상기 타겟 비 라우드니스는 오디오 신호의 측정값 또는 상기 오디오 신호의 함수인 방법.
제18항에 있어서, 오디오 신호의 측정값은 상기 오디오 신호의 비 라우드니스인 방법.
제18항 또는 19항에 있어서, 오디오 신호의 측정값 또는 상기 오디오 신호의 함수는 오디오 신호 또는 상기 오디오 신호의 측정값의 하나 이상의 스케일링들인 방법.
제20항에 있어서, 상기 하나 이상의 스케일링들은 다음 관계식:

에서와 같이 비 라우드니스의 시변 및 주파수 가변 스케일링 팩터(
) 스케일링을 포함하며, 여기서, (
)는 타겟 비 라우드니스이고, (N[b,t])는 오디오 신호의 비 라우드니스이며, b는 주파수의 측정값이고, t는 시간의 측정값인 방법.
제21항에 있어서, 상기 스케일링은 적어도 부분적으로 원하는 다중대역 라우드니스 및 상기 오디오 신호의 다중대역 라우드니스의 비에 의해 결정되는 방법.
제22항에 있어서, 상기 스케일링은 다음 관계식:

에서와 같이 L₀[b,t]/L_i(b,t)로서 표현될 수 있고, 여기서, N[b,t]는 오디오 신호의 비 라우드니스이고, L₀[b,t]는 원하는 다중대역 라우드니스이며, L_i(b,t)는 오디오 신호의 다중대역 라우드니스이며,
는 타겟 비 라우드니스인 방법.
제23항에 있어서, L₀[b,t]는 L_i[b,t]의 함수인 방법.
제24항에 있어서, L_i[b,t]의 함수로서의 L₀[b,t]는 다음:

L₀[b,t]=DRC{L_i[b,t]}로서 표현될 수 있고, 여기서 DRC{}는 L_i[b,t]를 L₀[b,t]로 맵핑하는 동적 범위 함수를 나타내는 방법.
제23항에 있어서, L_i[b,t]는 오디오 신호의 비 라우드니스의 시간-스무딩되고 및/또는 주파수 스무딩된 버전인 방법.
제22항 내지 26항 중 어느 한 항에 있어서, 상기 방법은 동적 범위 제어로서 사용될 수 있고, 여기서 상기 수정 또는 상기 수정 파라미터의 적용이 발생되거나 상기 타겟 비 라우드니스가 인식된 오디오 스펙트럼 또는 간섭 신호의 존재 시에 인식된 오디오 스펙트럼이 비 라우드니스 스케일링의 여러 값들에 대해 상이할 수 있는 오디오 신호에 대응하는 방법.
제27항에 있어서, 상기 동적 범위 함수는 각 대역에 적용된 단기간 변화가 대역들 간에서 독립적으로 변화하는 반면, 각 대역에 적용된 평균 변화가 모든 대역들에 대해 실질적으로 동일하도록 각 대역에서 라우드니스를 제어하는 방법.
제28항에 있어서, L_i[b,t]의 함수로서의 L₀[b,t]는 다음:

로서 표현될 수 있고, 여기서 L₀[t]=DRC{L_i[t]는 오디오 신호의 총 라우드니스의 원하는 총 라우드니스로의 맵핑을 나타내며,
는 오디오 신호의 광대역 라우드니스(L_i[t])의 시간-평균된 버전을 나타내고,
는 오디오 신호의 다중대역 라우드니스(L_i[b,t])의 시간-평균된 버전을 나타내는 방법.
제28항 또는 29항에 있어서, 상기 방법은 동적 범위 제어로서 사용될 수 있고, 여기서 상기 수정 또는 상기 수정 파라미터의 적용이 발생되거나 상기 타겟 비 라우드니스는 인식된 오디오 스펙트럼 또는 간섭 신호의 존재 시에 인식된 오디오 스펙트럼이 오디오 신호의 인식된 오디오 스펙트럼과 비 라우드니스 스케일링의 여러 값들에 대해 실질적으로 동일하게 유지되는 오디오 신호에 대응하는 방법.
제21항에 있어서, 상기 비 라우드니스는 원하는 스펙트럼 형태의 측정값 대 상기 오디오 신호의 스펙트럼 형태의 측정값의 비만큼 스케일링되는 방법.
제31항에 있어서, 상기 방법은 상기 오디오 신호의 인식 스펙트럼을 시변 인식 스펙트럼으로부터 실질적으로 시불변 인식 스펙트럼으로 변환하는 방법.
제31항 또는 32항에 있어서, 상기 스케일링은 다음 관계식:

에서와 같이 다음
으로서 표현될 수 있고, 여기서,
는 오디오 신호의 시간-스무딩된 다중대역 라우드니스이며,
는 다중대역 라우드니스(
)와 동일한 광대역 라우드니스를 가지도록 정규화되는 원하는 스펙트럼(EQ[b])이고,
는
로서 표현될 수 있고, 여기서 N[b,t]는 오디오 신호의 비 라우드니스이며,
는 타겟 비 라우드니스이고, β는 0과 1을 포함하고 0과 1에 의해 경계가 결정되는 범위를 갖는 파라미터이며, 상기 파라미터를 스케일링의 레벨을 제어하는 방법.
제33항에 있어서, 상기 파라미터(β)는 상기 방법 외부의 소스에 의해 선택되거나 제어되는 방법.
제34항에 있어서, 상기 소스는 상기 방법의 사용자인 방법.
제31항 내지 35항 중 어느 한 항에 있어서, 상기 방법은 동적 등화기로서 사용될 수 있고, 여기서 상기 수정 또는 상기 수정 파라미터의 적용이 발생되거나 상기 타겟 비 라우드니스는 인지된 오디오 스펙트럼 또는 간섭 신호의 존재 시에 인지된 오디오 스펙트럼이 비 라우드니스 스케일링의 여러 값들에 대해 상이할 수 있는 오디오 신호에 대응하는 방법.
제21항 내지 36항 중 어느 한 항에 있어서, 상기 오디오 신호의 다중대역 라우드니스는 오디오 신호를 임계 대역들로 분할하고 임계 대역들 중 하나에 걸쳐서 주파수 스무딩함으로써 근사화되는 방법.
제37항에 있어서, 특정 대역(b)에서 상기 다중대역 라우드니스의 대역-스무딩된 버전(L[b,t])은 모든 대역들(c)에 걸친 컨볼루션 합:

으로서 표현될 수 있고. 여기서 N[c,t]는 오디오 신호의 비 라우드니스이고, Q(b-c)는 스무딩 필터의 대역-시프팅된 응답인 방법.
제20항에 있어서, 하나 이상의 스케일링들은 다음 관계식:

에서와 같이 비 라우드니스의 시변, 주파수-불변 스케일 팩터(Φ[t]) 스케일링을 포함하고, 여기서
는 타겟 비 라우드니스이며, (N[b,t])는 오디오 신호의 비 라우드니스이고, b는 주파수의 측정값이며, t는 시간의 측정값인 방법.
제39항에 있어서, 상기 스케일링은 적어도 부분적으로 원하는 광대역 라우드니스 및 오디오 신호의 광대역 라우드니스의 비에 의해 결정되는 방법.
제39항 또는 40항에 있어서, 상기 오디오 신호의 비 라우드니스의 함수의 스케일링은 다음 관계식:

에서와 같이 L₀[t]/L_i[t]로서 표현될 수 있고, 여기서 N[b,t]는 오디오 신호의 비 라우드니스이며, L₀[t]는 원하는 광대역 라우드니스이고, L_i[t]는 오디오 신호의 광대역 라우드니스이며,
는 타겟 비 라우드니스인 방법.
제41항에 있어서, L₀[t]는 L_i[t]의 함수인 방법.
제42항에 있어서 L_i[t]의 함수로서의 L₀[t]는 L₀[t]=DRC{L_i[t]}로서 표현될 수 있고, 여기서 DRC{}는 L_i[t]를 L₀[t]로 맵핑하는 동적 범위 함수를 나타내는 방법.
제41항에 있어서, L_i[t]는 오디오 신호의 총 라우드니스의 시간-스무딩된 버전인 방법.
제41항에 있어서, L_i[t]는 오디오 신호의 장기간 라우드니스의 측정값인 방법.
제41항에 있어서, L_i[t]는 오디오 신호의 단기간 라우드니스의 측정값인 방법.
제39항 내지 46항 중 어느 한 항에 있어서, 상기 방법은 자동 이득 제어 또는 동적 범위 제어로서 사용될 수 있고, 여기서 상기 수정 또는 상기 수정 파라미 터의 적용이 발생되거나 상기 타겟 비 라우드니스는 인식된 오디오 스펙트럼 또는 간섭 신호의 존재 시에 인식된 오디오 스펙트럼이 오디오 신호의 인식된 오디오 스펙트럼과 비 라우드니스 스케일링 또는 부분적인 비 라우드니스 스케일링의 여러 값들에 대해 실질적으로 동일하게 유지되는 오디오 신호에 대응하는 방법.
제21항 내지 47항 중 어느 한 항에 있어서, 상기 스케일 팩터는 오디오 신호의 측정값 또는 상기 오디오 신호의 함수인 방법.
제20항에 있어서, 상기 하나 이상의 스케일링들은 다음 관계식:

에서와 같이 비 라우드니스의 시불변 및 주파수 가변 스케일링 팩터(Θ[b,t]) 스케일링을 포함하며, 여기서,
는 타겟 비 라우드니스이고, (N[b,t])는 오디오 신호의 비 라우드니스이며, b는 주파수의 측정값이고, t는 시간의 측정값인 방법.
제49항에 있어서, 상기 수정 또는 상기 도출 단계는 스케일 팩터(Θ[b])를 저장하는 단계를 포함하는 방법.
제49항에 있어서, 상기 스케일 팩터(Θ[b])는 상기 방법 외부의 소스로부터 수신되는 방법.
제20항에 있어서, 상기 하나 이상의 스케일링들은 다음 관계식:

에서와 같이 오디오 신호의 비 라우드니스의 시불변, 주파수 불면 스케일 팩터(α) 스케일링을 포함하고, 여기서
는 타겟 비 라우드니스이며, N[b,t]는 오디오 신호의 비 라우드니스이며, b는 주파수의 측정값이고, t는 시간의 측정값인 방법.
제52항에 있어서, 상기 수정 단계 또는 상기 도출 단계는 스케일 팩터(α)를 저장하는 단계를 포함하는 방법.
제52항에 있어서, 상기 스케일 팩터(α)는 상기 방법 외부의 소스로부터 수신되는 방법.
제49항 내지 54항 중 어느 한 항에 있어서, 상기 방법은 볼륨 제어로서 사용될 수 있고, 여기서 상기 수정 또는 상기 수정 파라미터의 적용이 발생되거나 상기 타겟 비 라우드니스는 인식된 오디오 스펙트럼 또는 간섭 신호의 존재 시에 인식된 오디오 스펙트럼이 오디오 신호의 인식된 오디오 스펙트럼과 비 라우드니스 또는 부분적인 비 라우드니스 스케일링의 여러 값들에 대해 실질적으로 동일하게 유지되는 오디오 신호에 대응하는 방법.
제49항 내지 55항 중 어느 한 항에 있어서, 상기 스케일 팩터는 오디오 신호의 측정값 또는 상기 오디오 신호의 함수가 아닌 방법.
제1항 내지 56항 중 어느 한 항에 있어서, 상기 수정 단계, 상기 도출 단계, 또는 상기 발생 단계는 (1) 비 라우드니스, 및/또는 (2) 부분적인 비 라우드니스, 및/또는 (3) 타겟 비 라우드니스를 명시적으로 계산하는 단계를 포함하는 방법.
제1항 내지 56항 중 어느 한 항에 있어서, 상기 수정 단계, 상기 도출 단계, 또는 상기 발생 단계는 (1) 비 라우드니스, 및/또는 (2) 부분적인 비 라우드니스, 및/또는 (3) 타겟 비 라우드니스를 암시적으로 계산하는 단계를 포함하는 방법.
제58항에 있어서, 상기 수정 단계, 상기 도출 단계, 또는 상기 발생 단계는 (1) 비 라우드니스, 및/또는 (2) 부분적인 비 라우드니스, 및/또는 (3) 타겟 비 라우드니스를 고유하게 결정하는 룩업 테이블을 사용하는 단계를 포함하는 방법.
제58항에 있어서, 상기 수정 단계, 상기 도출 단계, 또는 상기 발생 단계는 (1) 비 라우드니스, 및/또는 (2) 부분적인 비 라우드니스, 및/또는 (3) 타겟 비 라우드니스를 고유하게 결정하는 클로우즈드-폼 수학식을 사용하는 단계를 포함하는 방법.
제1항, 2항, 7항 중 어느 한 항 및 상기 제1항, 2항 또는 7항에 따른 제8항 내지 16항 및 제18항 내지 60항 중 어느 한 항에 있어서, 상기 수정 단계 또는 도출 단계는 (1) 오디오 신호 및 수정 파라미터들을 (1) 전송 및 수신하거나 (2) 저장하고 재생하는 단계를 포함하는 방법.
제1항, 2항, 6항 7항 중 어느 한 항 및 상기 제1항, 2항, 6항 또는 7항에 따른 제8항 내지 16항 및 제18항 내지 60항 중 어느 한 항에 있어서, 상기 수정 파라미터는 시간적으로 스무딩되는 방법.
제62항에 있어서, 상기 수정 파라미터는 상기 오디오 신호의 주파수 대역들에 관한 다수의 진폭 스케일링 팩터들을 포함하는 방법.
제63항에 있어서, 상기 다수의 진폭 스케일링 팩터들 중 적어도 일부는 시변인 방법.
제62항에 있어서, 상기 수정 파라미터는 하나 이상의 필터들을 제어하기 위한 다수의 필터 계수들을 포함하는 방법.
제65항에 있어서, 상기 하나 이상의 필터들 중 적어도 일부는 시변이고, 상 기 필터 계수들 중 적어도 일부는 시변인 방법.
제1항 내지 66항에 있어서, 상기 수정 단계, 상기 도출 단계, 또는 상기 발생 단계는 간섭 오디오 신호의 측정값, 타겟 비 라우드니스, 수정된 오디오 신호의 비 라우드니스 또는 부분적인 비 라우드니스로부터 도출되는 수정되지 않은 오디오 신호의 비 라우드니스의 추정값, 수정되지 않은 오디오 신호의 비 라우드니스, 및 수정된 오디오 신호의 비 라우드니스 또는 부분적인 비 라우드니스로부터 도출되는 타겟 비 라우드니스에 대한 근사값 중 하나 이상을 따르는 방법.
제1항 내지 제4항, 7항 중 어느 항 및 상기 제1항 내지 제4항 또는 7항에 따른 제8항 내지 16항 및 제18항 내지 60항 중 어느 한 항에 있어서, 상기 수정 단계 또는 상기 도출 단계는 적어도 부분적으로 간섭 오디오 신호의 측정값, 타겟 비 라우드니스, 수정된 오디오 신호의 비 라우드니스 또는 부분적인 비 라우드니스로부터 도출되는 수정도지 않은 오디오 신호의 비 라우드니스의 추정값, 수정되지 않은 오디오 신호의 비 라우드니스, 및 수정된 오디오 신호의 비 라우드니스 또는 부분적인 비 라우드니스로부터 도출되는 타겟 비 라우드니스에 대한 근사값 중 하나 이상으로부터 수정 파라미터들을 도출하는 단계를 포함하는 방법.
제68항에 있어서, 상기 수정 단계 또는 상기 도출 단계는 적어도 부분적으로 (1) 타겟 비 라우드니스, 및 수정된 오디오 신호의 비 라우드니스로부터 수신되는 수정되지 않은 오디오 신호의 비 라우드니스의 추정값 중 하나, 및 (2) 수정되지 않은 오디오 신호의 비 라우드니스, 및 수정된 오디오 신호의 비 라우드니스로부터 도출되는 타겟 비 라우드니스에 대한 근사값 중 하나로부터 수정 파라미터들을 도출하는 단계를 포함하는 방법.
제68항에 있어서, 상기 수정 단계 또는 상기 도출 단계는 적어도 부분적으로 (1) 간섭 오디오 신호의 측정값, (2) 타겟 비 라우드니스, 및 수정된 오디오 신호의 부분적인 비 라우드니스로부터 도출되는 수정되지 않은 오디오 신호의 비 라우드니스의 추정값 중 하나, 및 (3) 수정되지 않은 오디오 신호의 비 라우드니스, 및 수정된 오디오 신호의 부분적인 비 라우드니스로부터 도출되는 타겟 비 라우드니스에 대한 근사값 중 하나로부터 수정 파라미터들을 도출하는 단계를 포함하는 방법.
제69항 또는 70항에 있어서, 상기 방법은 피드-포워드 장치를 사용하며, 여기서 비 라우드니스는 오디오 신호로부터 도출되고 타겟 비 라우드니스는 상기 방법 외부의 소스로부터 또는 상기 수정 또는 도출 단계가 타겟 비 라우드니스를 저장하는 단계를 포함할 때 저장으로부터 수신되는 방법.
제69항 또는 70항에 있어서, 상기 방법은 하이브리드 피드-포워드/피드백 장치를 사용하며, 여기서 타겟 비 라우드니스에 대한 근사값은 수정된 오디오 신호로부터 도출되고 타겟 비 라우드니스는 상기 방법 외부의 소스 또는 상기 수정 또는 도출 단계가 타겟 비 라우드니스를 저장하는 단계를 포함할 때 저장으로부터 수신되는 방법.
제69항 또는 70항 중 어느 한 항에 있어서, 상기 수정 또는 도출 단계는 타겟 비 라우드니스를 명시적으로 또는 암시적으로 획득하기 위한 하나 이상의 프로세스를 포함하며, 이 프로세스들 중 하나 이상은 오디오 신호의 측정값 또는 상기 오디오 신호의 상기 함수를 명시적으로 또는 암시적으로 계산하는 방법.
제73항에 있어서, 상기 방법은 피드-포워드 장치를 사용하며, 여기서 비 라우드니스 및 타겟 비 라우드니스는 오디오 신호로부터 도출되고, 상기 타겟 비 라우드니스의 도출은 오디오 신호의 측정값 또는 오디오 신호의 함수를 사용하는 방법.
제73항에 있어서, 상기 방법은 하이브리드 피드-포워드/피드백 장치를 사용하고, 여기서 상기 타겟 비 라우드니스에 대한 근사값은 수정된 오디오 신호로부터 도출되고 타겟 비 라우드니스는 오디오 신호로부터 도출되며, 상기 타겟 비 라우드니스의 도출은 오디오 신호의 측정값 또는 오디오 신호의 상기 함수를 사용하는 방법.
제69항 또는 70항에 있어서, 상기 수정 또는 도출 단계는 수정된 오디오 신 호에 응답하여 수정되지 않은 오디오 신호의 비 라우드니스의 추정값을 명시적으로 또는 암시적으로 획득하기 위한 하나 이상의 프로세스를 포함하며, 이 프로세스들 중 하나 이상은 오디오 신호의 측정값 또는 상기 오디오 신호의 역함수를 명시적으로 또는 암시적으로 계산하는 방법.
제76항에 있어서, 상기 방법은 피드백 장치를 사용하며, 여기서 수정되지 않은 오디오 신호의 비 라우드니스의 추정값 및 타겟 비 라우드니스의 근사값은 수정된 오디오 신호로부터 도출되며, 상기 비 라우드니스의 추정값은 오디오 신호의 측정값 및 상기 오디오 신호의 역함수를 사용하여 계산되는 방법.
제76항에 있어서, 상기 방법은 하이브리드 피드-포워드/피드백 장치를 사용하고, 여기서 비 라우드니스는 오디오 신호로부터 도출되며, 수정되지 않은 오디오 신호의 비 라우드니스의 추정값은 수정된 오디오 신호로부터 도출되며, 상기 추정값의 도출은 오디오 신호의 측정값 또는 오디오 신호의 역함수를 사용하여 계산되는 방법.
제1항 내지 4항, 17항 및 상기 제1항 내지 4항 또는 17항에 따른 제18항 내지 78항 중 어느 한 항에 있어서, 상기 수정 또는 도출 단계는 오디오 신호 및 타겟 비 라우드니스 또는 타겟 비 라우드니스의 표현을 (1) 전송 및 수신하거나 (2) 저장하고 재생하는 단계를 포함하는 방법.
제20항, 21항, 39항, 49항, 또는 52항 중 어느 한 항에 따른 제79항에 있어서, 상기 타겟 비 라우드니스의 표현은 오디오 신호 또는 상기 오디오 신호의 측정값을 스케일링하는 하나 이상의 스케일 팩터들인 방법.
제1항, 2항, 6항과 7항, 및 상기 제1항, 2항, 6항과 7항에 따른 8항 내지 16항과 18항 내지 80항 중 어느 한 항에 있어서, 수정된 오디오 신호를 발생시키기 위하여 상기 오디오 신호에 상기 수정 파라미터를 적용하는 단계를 더 포함하는 방법.
제1항 내지 4항, 17항 및 상기 제1항 내지 4항 또는 17항에 따른 제18항 내지 78항 중 어느 한 항에 있어서, 상기 오디오 신호 및 상기 타겟 비 라우드니스 또는 상기 타겟 비 라우드니스의 표현을 전송하거나 저장하는 단계를 더 포함하는 방법.
제82항에 있어서, 상기 전송되거나 저장된 오디오 신호 및 타겟 비 라우드니스 및 상기 비 라우드니스의 표현을 수신하거나 재생하는 단계를 더 포함하는 방법.
제83항에 있어서, 오디오 신호의 비 라우드니스 및 타겟 비 라우드니스 간의 차를 감소시키기 위하여 오디오 신호 및 타겟 비 라우드니스 및 상기 비 라우드니스의 표현에 응답하여 상기 오디오 신호를 수정하는 단계를 더 포함하는 방법.
제20항 내지 60항 중 어느 한 항에 따른 제82항 내지 84항 중 어느 한 항에 있어서, 상기 타겟 비 라우드니스의 표현은 오디오 신호 및 상기 오디오 신호의 측정값을 스케일링하는 하나 이상의 스케일 팩터들인 방법.
제1항, 2항, 7항 및 상기 제1항, 2항 및 7항에 따른 제18항 내지 60항 중 어느 한 항에 있어서, 오디오 신호 및 수정 파라미터를 전송 또는 저장하는 단계를 더 포함하는 방법.
제86항에 있어서, 상기 전송 또는 저장된 오디오 신호 및 수정 파라미터를 수신하거나 재생성하는 단계를 더 포함하는 방법.
제87항에 있어서, 상기 수정 파라미터에 응답하여 상기 오디오 신호를 수정하는 단계를 더 포함하는 방법.
제1항 내지 88항 중 어느 한 항에 따른 방법을 수행하도록 적응되는 장치.
컴퓨터가 제1항 내지 88항 중 어느 한 항의 방법을 수행하도록 하는, 컴퓨터 판독 가능한 매체 상에 저장된 컴퓨터 프로그램.