KR101164937B1 - 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램 - Google Patents

오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR101164937B1
KR101164937B1 KR1020057021694A KR20057021694A KR101164937B1 KR 101164937 B1 KR101164937 B1 KR 101164937B1 KR 1020057021694 A KR1020057021694 A KR 1020057021694A KR 20057021694 A KR20057021694 A KR 20057021694A KR 101164937 B1 KR101164937 B1 KR 101164937B1
Authority
KR
South Korea
Prior art keywords
loudness
audio signal
signal
excitation
gain
Prior art date
Application number
KR1020057021694A
Other languages
English (en)
Other versions
KR20060013400A (ko
Inventor
앨런 제프리 씨펠트
마이클 제이 스미더스
브레트 그라함 크록케티
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20060013400A publication Critical patent/KR20060013400A/ko
Application granted granted Critical
Publication of KR101164937B1 publication Critical patent/KR101164937B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Television Receiver Circuits (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

오디오 신호의 지각 라우드니스를 계산하는데 2개 이상의 특정 라우드니스 모델 함수들의 그룹으로부터 선택된 이 2개 이상의 특정 라우드니스 모델 함수들 중 하나 또는 조합이 사용된다. 이 함수 또는 함수들은 예를 들어 오디오 신호가 협대역 또는 광대역 정도를 측정함으로써 선택될 수 있다. 대안적으로 또는 함수들의 그룹으로부터 이와 같은 선택에 의해, 이득 값 G(t)이 계산되는데, 이 이득은 오디오 신호에 인가될 때 기준 라우드니스와 실질적으로 동일한 인식된 라우드니스가 된다. 이득 계산은 지각 라우드니스 계산을 포함하는 반복 처리 루프를 사용한다.
라우드니스 모델 함수, 이득, 송신 필터, 필터 뱅크, 특정 라우드니스 제어

Description

오디오 신호의 인식된 라우드니스를 계산 및 조정하는 방법, 장치 및 컴퓨터 프로그램{METHOD, APPARATUS AND COMPUTER PROGRAM FOR CALCULATING AND ADJUSTING THE PERCEIVED LOUDNESS OF AN AUDIO SIGNAL}
본 발명은 오디오 신호들의 라우드니스 측정에 관한 것이며, 이와 같은 측정에 응답하여 오디오 신호의 라우드니스를 제어하는 장치, 방법, 및 컴퓨터 프로그램에 관한 것이다.
라우드니스는 음을 정숙상태에서 소란상태까지 확장되는 스케일로 순서화할 수 있는 주관적인 청각의 인식 속성이다. 라우드니스가 청취자에 의해 인식되는 감각이기 때문에, 이를 직접 물리적으로 측정하는 것은 적합하지 않아 수량화하는 것이 곤란하다. 게다가, 라우드니스의 지각 요인(perceptual component)으로 인해, "정상적인" 청각을 지닌 여러 청취자들이 동일한 음에 대해서 달리 인식할 수 있다. 개인의 인식에 의해 초래되는 변화들을 감소시키고 오디오 재료의 라우드니스에 대해서 일반적인 측정을 행하도록 하는 유일한 방법은 청취자들의 그룹을 어셈블하여 라우드니스 피거(loudness figure) 또는 랭킹을 통계적으로 도출하는 것이다. 이는 명백하게, 표준적인 일상의 라우드니스를 측정하는데 비실용적이다.
라우드니스를 측정하는데 만족할만한 객관적인 방법을 개발하고자 하는 시도 가 행해져 왔다. FLetcher와 Munson은 1933년에 사람의 청각은 중간(또는 음성) 주파수보다 저 및 고주파수에서 덜 민감하다고 결론을 내렸다. 이들은 또한 음 레벨이 증가함에 따라서 감도의 상대적인 변화가 감소된다는 것을 발견하였다. 마이크로폰, 증폭기, 미터 및 필터들의 조합으로 이루어진 초창기 라우드니스 미터는 저, 중간 및 고 음 레벨들에서 청각의 주파수 응답을 대략적으로 모방하도록 설계되었다.
이와 같은 장치들이 단일의 일정 레벨의 아이솔레이트 톤(single constant level isolated tone)의 라우드니스를 측정하지만, 더욱 복잡한 음의 측정은 라우드니스의 주관적인 느낌(subjective impressions)에 매우 양호하게 정합하지 못한다. 이 유형의 음 레벨 미터는 표준화되었지만, 산업체의 잡음의 모니터링 및 제어와 같은 특정 작업들에만 사용된다.
1950년대 초, Zwicker와 Stevens은 Fletcher와 Munson의 연구를 확장하여 라우드니스 인식 프로세스의 더욱 실제적인 모델을 개발하였다. Stevens은 1956년 Journal of the Acoustical Society of America에서 "Calculation of the Loudness of Complex Noise"하는 방법을 공표하였고, Zwicker는 1958년 Acoustca에 "Psychological and Methodical Basis of Loudness"를 공표하였다. 1959년에, Zwicker는 라우드니스 계산을 위한 그래픽 절차뿐만 아니라, 그 직후에 여러 유사한 논문을 발표하였다. Stevens와 Zwicker 방법들은 ISO 532 파트 A 및 B(각각)로 표준화되었다. 두 방법들은 임계 밴딩(critical banding), 주파수 마스킹 및 특정 라우드니스와 같은 표준 사이코어쿠스틱 현상을 포함한다. 이 방법들은 복합 음을 주파수의 "임계 대역"에 놓이는 성분들로 분할하는 것을 토대로 하여, 일부 신호 성분들이 다른 성분들을 마스크할 수 있도록 하고 음의 총 라우드니스에 도달하도록 각 임계 대역에서 특정 라우드니스를 가산하도록 한다.
Australian Broadcasting Authority's(ABA)가 공표한 "Investigation into Loudness of Advertisements"(2002년 7월)에 입증된 바와 같은 최근 연구는, 많은 광고들(및 일부 프로그램들)이 다른 프로그램들에 비해 너무 큰소리로 인식되어 청취자들을 매우 불쾌하게 한다는 것을 보여주고 있다. ABA의 조사는 실제 모든 방송 재료 및 국가들에서 오랫동안 존재하였던 문제를 해결하기 위한 유일한 가장 최근의 시도이다. 이들 결과들은, 프로그램 라우드니스에 대해 신뢰할 수 있는 일정한 측정이 행해져 불쾌한 라우드니스 변환들을 감소시키는데 사용될 수 있다면, 프로그램 재료에 걸쳐서 일정하지 않은 라우드니스로 인한 청중의 불쾌감이 감소되거나 제거될 수 있다는 것을 보여준다.
바크 스케일(Bark scale)은 임계 대역 개념에 사용되는 측정 단위이다. 임계-대역 스케일은 사람의 청각이 더 작은 임계 서브-대역들에 대응하는 파트들로 브로드 스펙트럼을 분석한다는 것을 토대로 한다. 더 낮은 임계 대역의 상한이 다음 더 높은 임계 대역의 하한이 되도록 하는 방식으로 하나의 임계 대역을 다음 임계 대역에 가산하면, 임계-대역 레이트의 스케일에 이르게 된다. 임계 대역들이 이 방식으로 가산되면, 어떤 주파수는 각 교차점에 대응한다. 제1 임계 대역은 0 내지 100Hz, 제2 임계 대역은 100 Hz 내지 200Hz, 제3 대역은 200Hz 내지 300Hz, 최대 500Hz 범위에 걸쳐있는데, 각 임계 대역의 주파수 범위는 증가된다. 0 내지 16kHz 의 청취가능한 주파수 범위는 증가하는 주파수로 인해 대여폭이 증가되는 24개의 인접 임계 서브대역으로 서브분할된다. 임계 대역들은 0 내지 24로 번호가 매겨지고 바크 스케일을 규정하는 단위 "바크"를 갖는다. 이해되고 있는 사람의 귀의 많은 특성들에서 임계-대역 레이트 및 주파수 간의 관계는 중요하다. 예를 들어, "Psychoacoustics-Facts and Models by E. Zwicker and H. Fastl, Springer-Verlag, Berlin, 1990"을 참조하라.
ERB(Equivalent Rectangular Bandwidth) 스케일은 바크 스케일과 유사한 사람의 청각에 대한 주파수를 측정하는 방법이다. Moore, Glasberg와 Bear에 의해 개발된 것은 Zwicker의 라우드니스 연구를 개선한 것이다. Moore, Glasberg와 Bear를 참조하라(B.C.J. Moore, B, Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness and Partial Loudness," Journal of the Audio Engineering Society, Vol. 45, No. 4, April 1997, pp 224-240). 500Hz 보다 아래의 임계 대역들의 측정은 곤란한데, 그 이유는 이와 같은 저 주파수에서, 사람의 청각 시스템의 효율 및 감도는 급속하게 줄어들기 때문이다. 청각-필터 대역폭의 개선된 측정값은 ERB-레이트 스케일에 이르게 된다. 이와 같은 측정들은 노취형-잡음 마스커들을 사용하여 청각 필터 대역폭을 측정한다. 일반적으로, ERB 스케일에 대해서, 청각-필터 대역폭(ERB의 단위들로 표현)은 바크 스케일에 대한 것보다 작다. 이 차이는 더 낮은 주파수들을 위하여 더욱 크게된다.
사람의 청각 시스템의 주파수 감도는 임계 대역들에 놓이는 파트들로 음의 강도를 서브 분할함으로써 근사화될 수 있다. 이와 같은 근사화는 임계 대역 강도 들로 된다. 가설적인 임계 대역 필터들의 무한 스티프 슬로프(infinitely steep slope) 대신에 사람 청각 시스템에서 발생되는 실제 슬로프가 고려되면, 이와 같은 절차는 여기(excitation)라 칭하는 중간값의 강도에 이르게 된다. 주로, 이와 같은 값들은 선형 값들로서 사용되는 것이 아니라 음압 레벨과 유사한 대수값들로서 사용된다. 임계-대역 및 여기 레벨들은 중간값들로서 많은 모델에서 중요한 역할을 하는 해당하는 값들이다 (상기 Psychoacoustics-Facts and Models, 참조).
라우드니스 레벨은 "폰(phon)"의 단위로 측정될 수 있다. 한 폰은 2×10- 5 의 평균 제곱근 압력에 대응하는 1dB 음압 레벨(SPL)에서 플레이되는 1kHz 순수 사인파의 인식된 라우드니스로서 규정된다. N 폰은 N dB SPL에서 플레이되는 1kHz 톤의 인식된 라우드니스 이다. 1kHz 이외의 주파수들에서 톤들의 라우드니스와 1kHz에서 톤과 비교시 이 규정을 사용하면, 동일한 라우드니스의 윤곽(contour)은 소정 레벨의 폰에 대해서 결정될 수 있다. 도7은 20Hz 및 12.5kHz 사이의 주파수들 및 4.2 폰(청각의 임계값이라고 간주됨) 및 120폰(ISO 226:1987(E), "Acoustics-Normal Equal Loudness Level Contours") 사이의 폰 레벨들을 위한 동일한 라우드니스 레벨 윤곽을 도시한다.
라우드니스 레벨은 또한 "손(sone)" 단위로 측정될 수 있다. 도 7에 도시된 바와 같이 폰 단위들 및 손 단위 간은 일 대 일 정합한다. 한 손은 40dB(SPL) 1kHz 순수 사인파의 라우드니스로서 규정되고 40폰과 등가이다. 손 단위들은 2배 증가한 손이 인식된 라우드니스의 2배에 대응하도록 된다. 예를 들어, 4 손은 2 손의 소리 크기의 2배로 인식된다. 따라서, 손으로 표현한 라우드니스 레벨들이 더욱 유용하게 된다.
손이 오디오 신호의 라우드니스 측정이기 때문에, 특정 라우드니스는 단지 단위 주파수 당 라우드니스 이다. 따라서, 바크 주파수 스케일을 사용할 때, 특정 라우드니스는 바크 당 손 단위들을 갖고, 마찬가지로, ERB 주파수 스케일을 사용할 때, 이 단위들은 ERB 당 손이 된다.
이 문헌의 이하의 설명에서, "필터" 또는 "필터뱅크"와 같은 용어들은 IIR 필터들 또는 변환들과 같이 근본적으로 임의 형태의 반복적 및 비-반복적 필터링을 포함하는 것으로 사용되고, "필터링된" 정보는 이와 같은 필터들의 적용 결과이다. 이하의 설명된 실시예들은 IIR 필터들 및 변환들에 의해 구현되는 필터뱅크들을 사용한다.
본 발명의 양상을 따르면, 오디오 신호를 처리하는 방법은 상기 오디오 신호에 응답하여 여기 신호를 발생시키는 단계 및 상기 여기 신호에 응답하여 상기 오디오 신호의 지각 라우드니스(perceptual loudness) 및 상기 오디오 신호의 특성의 측정값을 계산하는 단계를 포함하는데, 상기 계산은 2개 이상의 특정 라우드니스 모델 함수들의 그룹으로부터 하나 또는 2개 이상의 특정 라우드니스 모델 함수들의 조합을 선택하며, 이 선택은 입력 오디오 신호의 특성들의 측정값에 의해 제어된다.
본 발명의 또 다른 양상을 따르면, 오디오 신호를 처리하는 방법은 상기 오디오 신호에 응답하여 여기 신호를 발생시키는 단계 및 상기 여기 신호에 응답하여 상기 오디오 신호에 인가되는 경우 실질적으로 기준 라우드니스와 동일한 인식된 라우드니스가 되는 이득값 G(t)를 계산하는 단계를 포함하는데, 상기 계산은 적어도 하나의 비선형 프로세스를 포함하는 반복적인 처리 루프를 포함한다.
본 발명의 또한 다른 양상을 따르면, 다수의 오디오 신호들을 처리하는 방법은 오디오 신호들 중 각각 한 오디오 신호를 각각 수신하는 다수의 프로세스들을 포함하는데, 각 프로세스는 상기 각 오디오 신호에 응답하여 여기 신호를 발생시키며, 적어도 상기 여기 신호에 응답하여 상기 오디오 신호에 인가되는 경우 실질적으로 기준 라우드니스와 동일한 인식된 라우드니스가 되는 이득값 G(t)를 계산하는 데, 상기 계산은 적어도 하나의 비선형 프로세스를 포함하고 이득 G(t)로 상기 각 오디오 신호의 진폭을 제어하여 각 오디오 신호의 이 결과의 인식된 라우드니스가 실질적으로 기준 라우드니스와 동일하게 되도록 하는 반복적인 처리 루프를 포함하고 이 동일한 기준 라우드니스를 다수의 프로세스들 각각에 적용한다.
본 발명의 양상들을 사용하는 실시예에서, 신호 처리를 위한 방법 또는 장치는 입력 오디오 신호를 수신한다. 이 신호는 사람 귀의 바깥쪽 및 중간의 특성들을 시뮬레이트하는 필터 또는 필터 기능 및 안쪽 귀의 기저막(basilar membrane)을 따라서 발생된 여기 패턴을 시뮬레이트하는 주파수 대역으로 필터링된 신호를 분할하는 필터뱅크 또는 필터뱅크 기능에 의해 선형적으로 필터링된다. 각 주파수 대역에 대해서, 특정 라우드니스는 하나 이상의 특정 라우드니스 함수들 또는 모델들을 사용하여 계산되는데, 이의 선택은 입력 오디오 신호로부터 추출되는 특성들 또는 특징들에 의해 제어된다. 각 주파수 대역을 위한 특정 라우드니스는 라우드니스 측정과 결합되어 광대역 입력 오디오 신호를 나타낸다. 단일 라우드니스 측정값은 입력 신호의 어떤 유한 시간 범위 동안 계산되거나, 라우드니스 측정값은 입력 오디오 신호의 시간 간격들 또는 블록들을 토대로 반복적으로 계산될 수 있다.
본 발명의 양상들을 사용하는 또 다른 실시예에서, 신호 처리를 위한 방법 또는 장치는 입력 오디오 신호를 수신한다. 이 신호는 바깥쪽 및 중간의 사람 귀의 특성들을 시뮬레이트하는 필터 또는 필터 기능 및 안쪽 귀의 기저막을 따라서 발생된 여기 패턴을 시뮬레이트하는 주파수 대역으로 필터링된 신호를 분할하는 필터뱅크 또는 필터뱅크 기능에 의해 선형적으로 필터링된다. 각 주파수 대역에 대해서, 특정 라우드니스는 하나 이상의 특정 라우드니스 함수들 또는 모델들을 사용하여 계산되는데, 이의 선택은 입력 오디오 신호로부터 추출되는 특성들 또는 특징들에 의해 제어된다. 각 주파수 대역을 위한 특정 라우드니스는 라우드니스 측정과 결합되어 광대역 입력 오디오 신호를 나타낸다. 라우드니스 측정값은 기준 라우드니스 값과 비교되고, 그 차이는 특정 라우드니스 계산에 사전에 입력되는 주파수-밴딩된 신호들을 스케일링하거나 이득 조정하도록 사용된다. 이 특정 라우드니스 계산, 라우드니스 계산 및 기준 비교는 라우드니스 및 기준 라우드니스 값이 실질적으로 등가가될 때까지 반복된다. 따라서, 주파수 밴딩된 신호들에 인가되는 이득은 입력 오디오 신호에 인가될때 기준 라우드니스와 근본적으로 등가되는 입력 오디오 신호의 인식된 라우드니스가 되는 이득을 표시한다. 단일 라우드니스 측정값은 입력 신호의 어떤 유한 시간 범위 동안 계산되거나, 라우드니스 측정값은 입력 오디오 신호의 시간 간격들 또는 블록들을 토대로 반복적으로 계산될 수 있다. 인식된 라우드니스의 비선형 특성뿐만 아니라 라우드니스 측정 프로세서의 구조로 인해 이득의 반복적인 인가가 바람직하다.
본 발명의 각종 양상들 및 본 발명의 바람직한 실시예들은 이상의 상세한 설명 여러 도면들에서 동일한 소자들에 동일한 참조 번호가 병기된 첨부 도면을 통해서 더욱 잘 이해할 수 있을 것이다. 각종 장치들 또는 프로세스들을 도시한 도면들은 본 발명을 이해하는데 유용한 주요 소자들을 도시한 것이다. 간결성을 위하여, 이 도면들은 실제 실시에들에서 중요할수 있지만 당업자에게 널리 공지되고 본 발명의 개념들을 이해하는데 중요하지 않은 많은 다른 특징들을 생략하였다. 본 발명을 실시하기 위한 신호 처리는 마이크로프로세서들, 디지털 신호 처리기들, 논리 어레이들 및 다른 형태들의 계산 회로에 의해 실행되는 프로그램들을 포함하는 광범위의 다양한 방법들로 성취될 수 있다.
도1은 본 발명의 양상의 실시예에 대한 개요적인 기능 블록도.
도2는 본 발명의 다른 양상의 실시예에 대한 개요적인 기능 블록도.
도3은 본 발명의 또 다른 양상의 실시예에 대한 개요적인 기능 블록도.
도4는 수직축이 감쇠 데시벨(dB)이고 수평축이 대수 베이스 10Hz 주파수인 본 발명의 실시예에서 송신 필터로서 적합한 선형 필터P(z)의 이상적인 특성 응답을 도시한 도면.
도5는 ERB 주파수 스케일(수직축) 및 주파수 Hz(수평축) 간의 관계를 도시한 도면.
도6은 ERB 스케일상에서 임계 밴딩을 근사화하는 한 세트의 이상적인 청각 필터 특성 응답을 도시한 것으로서, 수평 스케일은 주파수 Hz이고 수직축은 레벨(dB)을 도시한 도면.
도7은 ISO 266의 동일한 라우드니스 윤곽을 도시한 것으로서, 수평 스케일은 주파수 HZ(대수 베이스 10 스케일)이고 수직축은 음압 레벨(dB)을 도시한 도면.
도8은 송신 필터 P(z)에 의해 정규화된 ISO 266의 동일한 라우드니스 윤곽을 도시한 것으로서, 수평 스케일은 주파수(Hz)(대수 베이스 10 스케일)이고 수직 스케일은 음압 레벨(dB)을 도시한 도면.
도9는 균일한-여기 잡음 및 1kHz 톤 둘 다에 대한 라우드니스(실선들)를 도시한 것으로서, 이 실선들은 파라미터들이 Zwicker(사각형들 및 원들)를 따른 실험 데이터에 정합하도록 선택된 본 발명의 실시예를 따른 것이며, 이 수직 스케일은 손에서의 라우드니스(대수 베이스 10)이고 수평 스케일은 음압 레벨(dB)인 것을 도시한 도면.
도10은 본 발명의 또한 다른 양상의 실시예에 대한 개요적인 기능 블록도.
도11은 본 발명의 부가적인 다른 양상의 실시예에 대한 개요적인 기능 블록도.
도12는 본 발명의 부가적인 또다른 양상의 실시예에 대한 개요적인 기능 블록도.
도13은 본 발명의 부가적인 또한 다른 양상의 실시예에 대한 개요적인 기능 블록도.
이하에 더욱 자세히 설명된 바와 같이, 도1에 도시된 본 발명의 제1 양상의 실시예는 입력 오디오 신호의 특성들을 분석하여 도출하는 특정 라우드니스 제어기 또는 제어기 기능("특정 라우드니스 제어")(124)을 구비한다. 오디오 특성들은 특정 라우드니스 변환기 또는 변환기 기능("특정 라우드니스")(120)에서 파라미터들을 제어하도록 사용된다. 신호 특성들을 사용하여 특정 라우드니스를 조정함으로써, 본 발명의 객관적인 라우드니스 측정 기술은 다수의 청취자들을 사용하여 라우드니스를 통계적으로 측정함으로써 발생된 주관적인 라우드니스 결과들에 더욱 근접하게 정합될 수 있다. 라우드니스 파라미터들을 제어하기 위한 신호 특성들을 사용하면 또한 청취자들에게 불쾌감을 주는 것으로서 간주되는 신호 라우드니스를 발생시키는 부정확한 측정값들의 발생을 감소시킬 수 있다.
이하에 더욱 상세하게 설명되는 바와 같이, 도2에 도시된 본 발명의 제2 양상의 실시예는 이득 장치 또는 기능("반복적인 이득 갱신")(233)을 부가하는데, 이의 목적은 도2의 (233)에서 관련된 라우드니스가 도2의 (230)에서 소망 기준 라우드니스와 정합할 때까지 입력 오디오 신호로부터 도출된 시간-평균화된 여기 신호의 이득을 반복적으로 조정하는 것이다. 인식된 라우드니스의 객관적인 측정이 본래 비선형 프로세스를 수반하기 때문에, 반복적인 루프는 소망 라우드니스 레벨에 입력 오디오 시호의 라우드니스를 정합시키기 위한 적절한 이득을 결정하도록 유용하게 사용될 수 있다. 그러나, 이득 조정이 각 라우드니스 반복을 위한 원래 입력 오디오 신호에 적용되도록 전체 라우드니스 측정 시스템을 둘러싸는 반복적인 이득 루프는 장기간 라우드니스의 정확한 측정값을 발생시키는데 필요로 되는 시간적 통합(temporal integration)으로 인해 구현하는데 값비싸다. 일반적으로, 이와 같은 장치에서, 시간적 통합은 반복시 각 이득 변화를 위한 재계산을 필요로 한다. 그러나, 이하에 더욱 자세히 설명되는 바와 같이, 도2 및 도3, 그리고 도10-12의 실시예들에 도시된 본 발명의 양상들에서, 시간적 통합은 반복적인 이득 루프의 파트를 형성하는 비선형 프로세스에 선행 및/또는 후속하는 선형 처리 경로들에서 수행될 수 있다. 선형 처리 경로들은 반복 루프의 일부를 형성할 필요는 없다. 따라서, 예를 들어 도2의 실시예에서, 입력(201)으로부터 특정 라우드니스 변환기 또는 변환기 기능("특정 라우드니스")(220) 까지의 라우드니스 측정 경로는 시간 평균 기능("시간 평균화")(206)에서 시간적 통합을 포함할 수 있고 선형으로 된다. 결국, 이득 반복들은 단지 라우드니스 측정 장치들 또는 기능들의 감소된 세트에 적용될 필요가 있고, 어떠한 시간적 통합을 포함할 필요가 없다. 도2의 실시예에서, 송신 필터 또는 송신 필터 기능("송신 필터")(202), 필터 뱅크 또는 필터 뱅크 기능("필터뱅크")(204), 시간 평균기 또는 시간 평균화 기능("시간 평균화")(206) 및 특정 라우드니스 제어기 또는 특정 라우드니스 제어 기능("특정 라우드니스 제어")(224)는 반복 루프의 부분이 되지 않아, 효율적이고 정확한 실시간 시스템들에서 반복적인 이득 제어가 구현되도록 한다.
도1을 다시 참조하면, 본 발명의 제1 양상을 따른 라우드니스 측정기 또는 라우드니스 측정 프로세스(100)의 실시예의 기능 블록도가 도시되어 있다. 라우드 니스 측정값이 결정될 오디오 신호는 라우드니스 측정기 또는 라우드니스 측정 프로세스(100)의 입력(101)에 인가된다. 이 입력은 2개의 경로들, 즉 안쪽 귀의 기저막을 따라서 발생된 여기 패턴의 주파수 대역들을 시뮬레이트하는 다수의 주파수 대역들 각각에서 특정 라우드니스를 계산하는 제1(주) 경로 및 상기 주 경로에서 사용되는 특정 라우드니스 함수들 또는 모델들을 선택하는 특정 라우드니스 제어기를 갖는 제2(사이드) 경로에 인가된다.
바람직한 실시예에서, 오디오의 처리는 디지털 도메인에서 수행된다. 따라서, 오디오 입력 신호는 어떤 샘플링 주파수(fs)에서 오디오 소스로부터 샘플링되는 이산 시간 시퀀스(x[n])으로 표시된다. 시퀀스(x[n])는 적절하게 스케일링되어, (p10 스캐닝)으로 주어진 x[n]의 rms 파워(dB)가 청취자에 의해 청취되는 오디오의 음압 레벨(dB)과 동일하게 된다라고 추정된다. 게다가, 오디오 신호는 설명을 간단히 하기 위하여 모노포닉(monophonic)이라고 추정된다. 그러나, 이 실시예는 후술되는 방식으로 다채널 오디오에 적응될 수 있다.
송신 필터(102)
주 경로에서, 오디오 입력 신호는 송신 필터 또는 송신 필터 기능("송신 필터")에 인가되는데, 이의 출력은 필터링된 오디오 신호 버전이다. 송신 필터(102)는 선형 필터(P(z))를 적용하여 바깥쪽 및 중간 귀를 통해서 오디오 송신 효과를 시뮬레이트 한다. 도4에 도시된 바와 같이, P(z)의 하나의 적절한 크기 주파수 응답은 1kHz 보다 아래 및 1kHz 보다 위인 유니티(unity)인데, 이 응답은 ISO 226 표 준에 규정된 바와 같은 청각의 임계값의 역을 따르며, 이 임계값은 1kHz에서 동일한 유니티로 정규화된다. 송신 필터를 적용함으로써, 라우드니스 특정 프로세서에 의해 처리되는 오디오는 안간 청각에서 인식되는 오디오를 더욱 근사하게 리셈블(resemble)함으로써, 객관적인 라우드니스 측정을 개선한다. 따라서, 송신 필터(102)의 출력은 시간-도메인 입력 오디오 샘플들(x[n])의 주파수-종속 스케일링된 버전이다.
필터뱅크(104)
필터링된 오디오 신호는 필터뱅크 또는 필터뱅크 기능("필터뱅크")(104)(도1)에 인가된다. 필터뱅크(104)는 안쪽 귀의 기저막을 따라서 발생된 여기 패턴을 시뮬레이트하도록 설계된다. 필터뱅크(104)는 Moore, Glasberg와 Baer(B.C.J.Moore, B. Glasberg, T. Baer의 상기 " A Model for the Prediction of Thresholds, Loudness, and Partial Loudness")에 의해 규정된 바와 같이 대역폭 및 간격이 ERB(Equivalent Rectangular Bandwidth) 주파수 스케일에 대해 일정하게 되는 선형 필터들의 세트를 포함할 수 있다.
ERB 주파수 스케일이 사람의 지각에 더욱 근접하게 정합하고 주관적인 라우드니스 결과들에 정합하는 객관적인 라우드니스 측정값들을 발생시에 개선된 수행성능을 보여줄지라도, 수행성능이 감소된 바크 주파수 스케일이 사용될 수 있다.
중심 주파수 f(Hz)에 대해서, 헤르쯔의 한 ERB 대역의 폭은 다음과 같이 근사화 될 수 있다.
Figure 112005065409452-pct00001
이 관계로부터, 랩핑된 주파수 스케일은 랩핑된 스케일을 따라서 어떤 지점에서, 랩핑된 스케일의 단위들에서 대응하는 ERB가 1과 동일하게 되도록 규정된다. 선형 주파수(Hz)로부터 이 ERB 주파수 스케일로의 변환을 위한 함수는 식(1)의 역을 적분함으로써 구해진다.
Figure 112005065409452-pct00002
이는 또한, f에 대한 수학식 2a를 풀음으로써 ERB 스케일로부터 다시 선형 주파수 스케일로의 변환을 표현하는데 유용하다.
Figure 112005065409452-pct00003
여기서 e는 ERB 스케일의 단위이다. 도5는 ERB 스케일 및 주파수(Hz) 간의 관계를 도시한 것이다.
필터뱅크(104)를 위한 청각 필터들의 응답은 표준 IIR 필터들을 사용하여 특징화되고 구현될 수 있다. 특히, 필터뱅크(104)에서 구현되는 중심 주파수(fc)(Hz)에서 각 청각 필터들은 12차 IIR 전달 함수에 의해 규정될 수 있다.
Figure 112005065409452-pct00004
여기서,
Figure 112005065409452-pct00005
fs는 샘플링 주파수(Hz)이고 G는 각 필터가 주파수 응답의 피크에서 유니티이득을 갖도록 하는 정규화 팩터이며, 다음과 같이 되도록 선택된다.
Figure 112005065409452-pct00006
필터뱅크(104)는 ERB 스케일을 따라서 균일하게 이격된 중심 주파수들 fc[1]...fc[M]에서 대역들이라 칭하는 M개의 이와 같은 청각 필터들을 포함할 수 있다. 특히,
Figure 112005065409452-pct00007
여기서 Δ는 필터뱅크(104)의 소망 ERB 간격이며, 여기서 fmin 및 fmax각각은 소망 최소 및 최대 중심 주파수이다. 하나는 Δ=1을 선택할 수 있고 사람 귀가 감지하는 주파수 범위를 고려하여, 하나는 fmin=50Hz 및 fmax=20,000Hz으로 설정할 수 있다. 이와 같은 파라미터들로 인해, 예를 들어, 식(6a-c)를 적용하면 M=40개의 청 각 필터들을 산출한다. ERB 스케일에 대한 임계 밴딩과 근사화되는 이와 같은 M개의 필터들의 크기들이 도6에 도시된다.
대안적으로, 필터링 동작들은 통상 단시간 이산 퓨리에 변환(STDFT)라 칭하는 유한 길이 이산 퓨리에 변환을 사용하여 적절하게 근사화될 수 있는데, 그 이유는 풀-레이트 구현방식이라 칭하는 오디오 신호의 샘플링 레이트에서 필터들을 실행하는 구현방식이 정확한 라우드니스 측정에 필요로 되는 것보다 더 많은 시간 해상도(temporal resolution)을 제공하는 것으로 여겨지기 때문이다. 풀-레이트 구현방식 대신에 STDFT를 사용함으로써, 효율 개선 및 계산 복잡도의 감소가 성취될 수 있다.
입력 오디오 신호 x[n]의 STDFT는 다음 식(6)과 같이 규정된다.
Figure 112005065409452-pct00008
여기서 k는 주파수 인덱스이며, t는 시간 블록 인덱스이며, N은 DFT 크기이며, T는 홉 크기이고, w[n]은 다음 식(7)과 같이 되도록 정규화되는 길이 N 윈도우이다.
Figure 112005065409452-pct00009
식(6)에서 변수(t)는 초 시간의 측정과 대향되는 STDFT의 시간 블록을 표시하는 이산 인덱스이라는 점에 유의하라. t의 각 증분은 신호 x[n]을 따른 T 샘플들의 홉을 표시한다. 인덱스(t)에 대한 다음 기준들은 이 정의를 추정한다. 상이한 파라미터 세팅 및 윈도우 셰이핑이 구현방식의 상세사항에 따라서 사용될 수 있지 만, fs=44100Hz에 대해서, N=4096, T=2048을 선택하고 해닝 윈도우(Hanning window)가 우수한 결과를 산출하도록 하는 w[n]을 갖는다. 상술된 STDFT는 고속 퓨리에 변환(FFT)을 사용하여 더욱 효율적으로 될 수 있다.
입력 오디오 신호의 라우드니스를 계산하기 위하여, 필터뱅크(104)의 각 필터에서 오디오 신호의 에너지의 측정이 필요로 된다. 필터뱅크(104)에서 각 필터의단시간 에너지 출력은 입력 신호의 전력 스펙트럼과 주파수 도메인에서 필터 응답의 승산을 통해서 근사화될 수 있다.
Figure 112005065409452-pct00010
여기서 m은 대역 수이며, t는 블록 수이고, P는 송신 필터이다. 식(3)에서 규정된 것과 다른 청각 필터들의 크기 응답을 위한 형태들이 유사한 결과들을 성취하도록 식(8)에서 사용될 수 있다는 점에 유의하여야 한다. 예를 들어, Moore와 Glasberg는 식(3)과 유사하게 수행하는 지수 함수로 설명되는 필터 셰이프를 제안한다. 게다가, 수행성능의 약간의 감소로 인해, 하나의 ERB의 대역폭을 지닌 "브릭-월(brick-wall)" 대역 통과로서 각 필터를 근사화할 수 있고, 부가적인 근사화로서, 송신 필터(P)는 합산에 의해서 도출될 수 있다. 이 경우에, 식(8)은 다음 식들로 간략화된다.
Figure 112005065409452-pct00011
따라서, 필터뱅크(104)의 여기 출려근 시간 기간(t) 당 각 ERB 대역(m)에서 에너지(E)의 주파수 도메인 표현이다.
다채널
입력 오디오 신호가 각 채널당 하나인 다수의 확성기들을 통해서 청취될 다채널 포맷으로 이루어지는 경우에, 각 개별적인 채널을 위한 여기는 우선 상술된 바와 같이 계산될 수 있다. 다음에 결합된 모든 채널들의 인식된 라우드니스를 계산하기 위하여, 개별적인 여기들은 모두 단일 여기에 합산되어 청취자의 귀에 도달하는 여기에 근사화된다. 이 후, 모든 다음 처리는 이 단일 합산된 여기에 대해서 수행된다.
시간 평균화(106)
사이코어쿠스틱의 연구 및 주관적인 라우드니스 테스트들은, 각종 오디오 신호들 간의 라우드니스를 비교할 때 청취자들이 이 비교에서 사용하기 위한 장기간 인식된 라우드니스의 값에 도달하도록 단기간 또는 "순시(instantaneous)" 신호 라우드니스의 어떤 유형의 시간적 통합을 수행하는 것을 제안한다. 라우드니스 지각 모델을 구성시, 여기가 특정 라우드니스로 비선형적으로 변환된 후 이 시간적 통합을 수행하는 것을 제안하였다. 그러나, 본 발명은 이 시간적 통합이 특정 라우드니스로 변환되기 전 여기에 대해서 선형 스무딩을 사용하여 적절하게 모델링될 수 있다라고 결정된다. 본 발명의 양상에 따라서 특정 라우드니스의 계산 전 스무딩을 수행함으로써, 규정된 방식으로 측정된 라우드니스를 조정하기 위하여 신호에 인가될 필요가 있는 이득을 계산시 상당한 이점이 실현된다. 이하에 부가 설명된 바와 같이, 이득은 여기 계산을 배제할 뿐만 아니라 이와 같은 시간적 통합을 바람직하게 배제하는 반복적인 루프를 사용함으로써 계산될 수 있다. 이 방식으로, 반복 루프는 이득이 시간적 통합의 전체 시간 간격에 따른 계산과 반대로 계산되는 현재 시간 프레임에만 좌우되는 계산을 통해서 이득을 발생시킬 수 있다. 이 결과는 처리 시간 및 메모리 둘 다를 절감하게 한다. 반복적인 루프를 사용하여 이득을 계산하는 실시예들은 도2, 3 및 도10-12와 관련하여 후술되는 실시예들을 포함한다.
도1의 설명을 참조하면, 여기의 선형 스무딩은 각종 방식들로 구현될 수 있다. 예를 들어, 스무딩은 다음 식을 사용하여 시간 평균화 장치 또는 기능("시간 평균화")(106)을 사용하여 반복적으로 수행될 수 있다.
Figure 112005065409452-pct00012
여기서 초기 조건들은
Figure 112005065409452-pct00013
이다. 스무딩 필터의 특정한 특징은 스무딩 파라미터(λm)을 가변시킴으로써 스무드된 에너지
Figure 112005065409452-pct00014
가 E[m,t]의 참 시간 평균이 E[m, t]의 페이딩 메모리 평균으로 가변될 수 있다는 것이다. λm=1이면, (10b)로부터,
Figure 112005065409452-pct00015
Figure 112005065409452-pct00016
가 시간 블록들 0에서 최대 t까지 동안 E[m, t]의 참 시간 평균과 동일하게 된다는 것을 알 수 있다. 0≤λm<1 이면, t→∞에 따라서
Figure 112005065409452-pct00017
Figure 112005065409452-pct00018
은 단지 한 극 스무더(one pole smoother)를 E[m, t]에 적용한 결과이다. 유한 길이 오디오 세그먼트의 장기 간 라우드니스를 설명하는 단수(single number)가 바람직한 애플리케이션의 경우에, 모든 m에 대해서 λm=1로 설정할 수 있다. 연속적인 오디오 스트림의 시변 장기간 라우드니스를 실시간으로 추적하고자 하는 실시간 애플리케이션의 경우에, 0≤λm<1 으로 그리고 λm을 모든 m에 대해서 동일한 값으로 설정할 수 있다.
E[m, t]의 시간 평균을 계산시, "너무 정숙"한 것으로 간주되어 인식된 라우드니스에 기여하지 않는 단기간 세그먼트들은 생략하는것이 바람직하다. 이를 성취하기 위하여, 제2 임계화된 스무더가 식(10)의 스무더와 병렬로 실행될 수 있다. 이 제2 스무더는 E[m, t]가
Figure 112005065409452-pct00019
에 비해 작다면 자신의 현재 값을 유지한다.
Figure 112005065409452-pct00020
여기서 tdB는 데시벨로 규정된 상대 임계값이다. 이는 본 발명에선 중요하지 않지만, tdB의 값=-24는 양호한 결과들을 발생시키는 것으로 밝혀졌다. 병렬로 실행되는 제2 스무더가 존재하지 않으면,
Figure 112005065409452-pct00021
가 된다.
특정 라우드니스 (120)
밴딩된 시간-평균화된 여기 에너지
Figure 112005065409452-pct00022
가 지각 단위(perceptual units), 이 경우에 손(sone)에서 단일 라우드니스의 측정값으로 변환된 채로 유지 된다. 이 특정 라우드니스 변환기 또는 변환 기능("특정 라우드니스")(120)에서, 여기의 각 대역은 ERB 당 손에서 측정된 특정 라우드니스의 값으로 변환된다. 라우드니스 결합기 또는 라우드니스 결합 기능("라우드니스")(122)에서, 특정 라우드니스의 값들은 대역에 걸쳐서 적분 또는 합산되어 총 지각 라우드니스를 발생시킨다.
특정 라우드니스 제어(124)/특정 라우드니스 (120) 다수 모델
한 양상에서, 본 발명은 밴딩된 여기를 밴딩된 특정 라우드니스로 변환시키기 위하여 블록(120)에서 다수의 모델들을 사용한다. 사이드 경로에서 특정 라우드니스 제어(124)를 통해서 입력 오디오 신호로부터 도출된 제어 정보는 모델을 선택하거나 모델이 특정 라우드니스에 기여하는 정도(degree)를 제어한다. 블록(124)에서, 이용가능한 모델들로부터 하나 이상의 특정 라우드니스 모델들을 선택하는데 유용한 특정한 특징들 또는 특성들이 오디오로부터 추출된다. 어느 모델 또는 모델들의 조합들이 사용되어야 하는지를 나타내는 제어 신호들은 추출된 특징들 또는 특성들로부터 발생된다. 하나 이상의 모델을 사용하는 것이 바람직한 경우, 제어 정보는 또한 이와 같은 모델들이 조합되는 방법을 나타낼 수 있다.
예를 들어, 대역 당 특정 라우드니스 N'[m, t]는 다음 식 (12)와 같이 N'q[m, t]에 대한 대역 당 특정 라우드니스의 선형 조합으로서 표현될 수 있다.
Figure 112005065409452-pct00023
Q는 모델의 총수를 표시하고 제어 정보 αq[m, t]는 각 모델의 가중 또는 기여도를 표시한다. 가중들의 합은 사용되는 모델들에 따라서 1과 같거나 같지 않을 수 있다.
본 발명이 이들로 제한되지 않지만, 2개의 모델들은 정확한 결과들을 제공하는 것으로 밝혀졌다. 한 모델은 오디오 신호가 협대역으로서 특징화될 때 최적으로 수행되고 다른 모델은 오디오 신호가 광대역으로서 특징화될 때 최적으로 수행된다.
초기에, 특정 라우드니스를 계산시,
Figure 112005065409452-pct00024
의 각 대역에서 여기 레벨은 송신 필터 (P(z))(도8)에 의해 정규화되는 ISO 266의 동일한 라우드니스 윤곽들(도7)로 규정된 바와 같은 1kHz에서 등가의 여기 레벨로 변환될 수 있다.
Figure 112005065409452-pct00025
여기서 L1kHz(E, f)는 주파수(f)에서 레벨(E)과 동일한 라우드(loud)인 1kHz에서 레벨을 발생시키는 함수이다. 실제로, L1kHz(E, f)는 송신 필터에 의해 정규화되는 동일한 라우드니스 윤곽들의 룩업 테이블의 보간으로서 구현된다. 1kHz에서 등가의 레벨들로의 변환은 다음 특정 라우드니스 계산을 간단화 한다.
다음에, 각 대여에서 특정 라우드니스는 다음 식(14)와 같이 계산될 수 있다.
Figure 112005065409452-pct00026
여기서 N'NB[m, t] 및 N'WB[m, t]는 협대역 및 광대역 신호 모델 각각을 토대로 한 특정 라우드니스 값들이다. 값 α[m, t]은 오디오 신호로부터 계산되는 0 및 1 사이에 있는 보간 팩터인데, 이에 대한 상세사항이 후술된다.
협대역 및 광대역 특정 라우드니스 값 N'NB[m, t] 및 N'WB[m, t]는 지수 함수들을 사용하여 밴딩된 여기로부터 추정될 수 있다.
Figure 112005065409452-pct00027
여기서 TQ1kHz는 1kHz 톤에 대해서 정숙상태의 임계값에서의 여기 레벨이다. 동일한 라우드니스 윤곽들(도7 및 도8)로부터, TQ1kHz는 4.2dB와 동일하게 된다. 이들 특정 라우드니스 함수들 둘 다는 여기가 정숙상태의 임계값과 동일할 때 제로와 동일한다는 점에 유의하라. 정숙상태에서의 임계값보다 큰 여기의 경우에, 두 함수들은 강도 감각(intensity sensation)의 Stevens의 법칙에 따라서 파워 로(power law)로 단조적으로 성장한다. 협대역 함수에 대한 지수는 광대역 함수의 지수보다 크게되도록 선택되어, 협대역 함수를 광대역 함수보다 더 신속하게 증가시킨다. 협대역 및 광대역 경우들에 대한 지수(β) 및 이득(G)의 특정 선택이 후술된다.
라우드니스 (122)
라우드니스(122)는 특정 라우드니스(120)의 밴딩된 특정 라우드니스를 사용하여 오디오 신호를 위한 단일 라우드니스 측정값을 생성하는데, 즉 지각 단위들에서 라우드니스 값인 단자(123)에서의 출력을 생성한다. 상이한 오디오 신호들에 대 한 라우드니스 값들의 비교가 더욱 소란하고 더욱 소프트하다는 것을 표시하는 동안, 라우드니스 측정값은 임의의 단위들을 가질 수 있다.
손 단위로 표현되는 총 라우드니스는 모든 주파수 대역에 대한 특정 라우드니스의 합으로서 계산될 수 있다.
Figure 112005065409452-pct00028
여기서 Δ는 식(6b)에서 규정된 ERB 간격이다. 식 15a의 파라미터들(GNB 및 βNB)은 α[m, t]=1일 때 1kHz 톤에 대한 손 대 SPL에서 S의 플롯이 Zwicker(도9의 원들)(Zwicker, H. Fastl의 상기 "Psychoacoustics-Facts and Models'')에 의해 제공된 대응하는 실험 데이터에 실질적으로 정합하도록 선택된다. 식 15b의 파라미터들(GWB 및 βWB)은 α[m, t]=0일 때 균일한 여기 잡음(각 ERB에서 동일한 파워를 갖는 잡음)에 대한 손 대 SPL에서 N의 플롯이 Zwicker(도9의 사각형들)로부터의 대응하는 결과들에 실질적으로 정합하도록 선택된다. 적어도 사각형들은 Zwicker의 데이터 산출값들에 부합된다.
Figure 112005065409452-pct00029
도9는 균일한 여기 잡음 및 1kHz 톤 둘 다에 대한 라우드니스의 플롯을 도시한 도면(실선들).
특정 라우드니스 제어(124)
상술된 바와 같이, 특정 라우드니스의 2개의 모델들이 실제 실시예(식 15a 및 15b)에서 사용되는데, 하나는 협대역을 위한 것이고 다른 하나는 광대역 신호들을 위한 것이다. 사이드 경로에서 특정 라우드니스 제어(124)는 입력 신호가 각 대역에서 협대역 또는 광대역 중 어느 하나가 되는 정도의 측정값 α[m,t]를 계산한다. 일반적인 의미에서, α[m,t]는 신호가 대역의 중심 주파수 fc[m] 근처의 협대역일 때 1과 동일하여아만 하고 신호가 대역의 중심 주파수fc[m] 근처의 광대역일 때 0과 동일하여아만 한다. 이 제어는 이와 같은 특징들의 혼합들을 변화시키는 2개의 극단들 간에서 연속적으로 변하여야만 한다. 간단화에 따라서, 제어 α[m,t]는 이하에서 대역 인덱스 m을 생략한채 α[t]라 칭한다. 그 후, 이 제어 α[t]는 신호 신호가 모든 대역에 걸쳐있는 협대역이 무엇인식에 대한 측정값을 표시한다. 이와 같은 제어를 발생시키는 적절한 방법이 이하에 서술되었지만, 특정 방법은 중요하지 않고 다른 적절한 방법들이 사용될 수 있다.
제어 α[t]는 신호 x[n]의 어떤 다른 처리를 통해서라기 보다 오히려 필터뱅크의 출력에서 여기 E[m, t]로부터 계산될 수 있다. E[m,t]는 x[n]의 "협대역화" 및 "광대역화"를 측정하는 적절한 기준을 제공할 수 있고, 결과로서, α[t]는 거의 가산 계산없이 발생될 수 있다.
"스펙트럼 플랫니스(spectral flatness)"는 α[t]를 계산할 수 있는 E[m, t]의 특징이다. Jayant and Noll(N.S.Jayant, P. Noll, Digital Coding Of Waveforms, Prentice Hall, New Jersey, 1984)에 의해 규정된 바와 같은 특징 플랫니스는 기하 평균 대 산술 평균의 비인데, 여기서 이 평균은 주파수에 걸쳐서 취해진다(E[m, t]의 경우에 인덱스 m). E[m, t]가 m에 걸쳐서 일정할 때, 기하 평균은 산술 평균과 동일하고 스펙트럼 플랫니스는 1과 동일하다. 이는 광대역 경우에 대응한다. E[m, t]가 m에 걸쳐서 크게 변화하면, 기하 평균은 산술 평균보다 크게 작고, 스펙트럼 플랫니스는 제로에 근접한다. 이는 협대역 경우에 대응한다. 1 빼기 스펙트럼 플랫니스를 계산함으로써, "협대역화"의 측정값을 발생시키는데, 여기서 제로는 광대역에 대응하고 1은 협대역에 대응한다. 특히, 1 빼기 E[m, t]의 수정된 스펙트럼 플랫니스를 계산할 수 있다.
Figure 112005065409452-pct00030
여기서 P(m)은 주파수 ω=2πfc[m]/fs에서 샘플링되는 송신 필터(P(z))의 주파수 응답과 동일하다. 송신 필터에 의한 E[m, t]의 정규화는 더 좋은 결과들을 제공할 수 있는데, 그 이유는 송신 필터의 적용이 "협대역화" 측정을 인플레이트(inflate)시키는 경향이 있는 E[m, t]에서 "범프"를 발생시키기 때문이다. 게다가, E[m,t]의 대역들의 서브셋에 걸쳐서 스펙트럼 플랫니스를 계산하면 더 좋은 결과들을 산출할 수 있다. 식 18에서 합산 하한 및 상한, 즉 Ml[t] 및 Mu[t]은 모든 M 대역들의 범위보다 작을 수 있는 영역을 규정한다. Ml[t] 및 Mu[t]가 다수의 에너지를 포함하는 E[m, t]의 부분을 포함하고 Ml[t] 및 Mu[t]에 의해 규정된 범위가 ERB 스케일에 대해서 단지 24 단위 폭이 되도록 하는 것이 바람직하다. 특히(및 fc[m]은 대역 m의 중심 주파수(Hz)라는 점을 상기하라), 하나는 다음을 원한다:
Figure 112005065409452-pct00031
그리고 하나는 다음을 필요로 한다:
Figure 112005065409452-pct00032
여기서 CT[t]는 ERB 스케일에 대해서 측정된 E[m, t]의 스펙트럼 센트로이드(spectral cnetroid)이다.
Figure 112005065409452-pct00033
이상적으로, 합산의 한계, Ml[t] 및 Mu[t]는 ERB 스케일에 대해 측정될 때 CT[t] 주위에서 집중되지만, 이는 CT[t]가 하한 또는 상한 범위 근처에 있을 때 항상 가능한 것은 아니다.
다음에, NB[t]는 식(11a)와 유사한 방식으로 시간에 걸쳐서 스무딩될 수 있다.
Figure 112005065409452-pct00034
여기서
Figure 112005065409452-pct00035
은 모든 m에 걸쳐서 식(11b)에 규정된
Figure 112005065409452-pct00036
의 최대값과 동일하다. 최종적으로, α[t]는 다음과 같이
Figure 112005065409452-pct00037
로 부터 계산된다.
Figure 112005065409452-pct00038
여기서,
Figure 112005065409452-pct00039
φ{x}의 정확한 형태는 중요하지 않지만, 식(21b)에서 다항식은 많은 다양한 오디오 재료의 주관적으로 측정된 라우드니스에 대해 α[t]를 최적화함으로써 구해질 수 있다.
도2는 본 발명의 제2 양상을 따른 라우드니스 측정기 또는 라우드니스 측정 프로세스(200)의 실시예의 기능 블록도를 도시한 것이다. 도2의 장치들 또는 기능들(202, 204, 206, 220, 222, 223, 및 224)은 도1의 각 장치들 또는 기능들(102, 104, 106, 120, 122, 123 및 124)에 대응한다.
도1에 도시한 실시예인 본 발명의 제1 양상을 따르면, 라우드니스 측정기 또는 계산은 지각 단위에서 라우드니스 값을 발생시킨다. 입력 신호의 라우드니스를 조정하기 위하여, 유용한 측정값은 입력 신호 x[n](예를 들어, 후술되는 도3의 실시예에서 처럼)와 승산될 때 자신의 라우드니스를 기준 라우드니스 레벨(Sref)와 동일하게 하는 이득G[t]이다. 기준 라우드니스(Sref)는 임의로 규정되거나 일부 "공지 된" 기준 오디오 신호로부터 본 발명의 제1 양상에 따라서 동작하는 또 다른 장치 또는 프로세스에 의해 측정될 수 있다. Ψ{x[n], t가 신호x[n]에 대해 수행되는 모든 계산을 표시하여 라우드니스 S[t]를 발생시킨다라고 하면, 다음 식(23)과 같이 되도록 G[t]를 찾길 원한다.
Figure 112005065409452-pct00040
Ψ{ㆍ에서 구체화되는 처리의 일부가 비선형이기 때문에, G[t]에 대한 클로우즈된 형태 솔루션이 존재하지 않는데, 그로 인해 그 대신 반복 기술이 근사 솔루션을 찾기 위하여 사용될 수 있다. 프로세스에서 각 반복(i)에서, Gi가 G[t]의 현재 추정값을 표시한다라고 하자, 매 반복에 대해서, Gi는 기준 라우드니스로부터의 절대 에러가 감소되도록 갱신된다.
Figure 112005065409452-pct00041
에러의 상기 감소를 성취하기 위하여, Gi를 갱신하는 많은 적절한 기술들이 존재한다. 한 가지 이와 같은 방법은 Gi가 사전 반복에서 에러에 비례하는 량만큼 갱신되는 그래디언트 디센트(gradient descent)(Nonlinear Programming by Dimitri P. Bertseakas, Athena Scientific, Belmont, MA 1995)이다.
Figure 112005065409452-pct00042
여기서 μ는 반복의 스텝 크기이다. 상기 반복은 절대 에러가 어떤 임계값 아래가 될 때까지, 반복 횟수가 어떤 규정된 최대 한계에 도달될 때까지, 또는 특 정 시간이 경과될 때까지 계속된다. 이 때에, G[t]는 Gi와 동일하게 설정된다.
식 6-8을 다시 참조하면, 신호 x[n]의 여기는 신호의 STDFT 크기의 자승
Figure 112005065409452-pct00043
에 대한 선형 연산을 통해서 구해진다는 점에 유의하라. 이는 이득-수정된 신호 Gx[n]으로부터 발생되는 여기가 G2과 승산되는 x[n]의 여기와 동일하게 되는 것을 따른다. 게다가, 장기간 인식된 라우드니스를 추정하는데 필요로 되는 시간적 통합은 여기의 선형 시간-평균화를 통해서 수행될 수 있음으로, Gx[n]에 대응하는 시간-평균화된 여기는 G2과 승산되는 x[n]의 시간-평균화된 여기와 동일하게 된다. 따라서, 시간 평균화는 상술된 반복 공정에서 Ψ{Gix[n], t에 대한 매 재평가마다 전체 입력 신호 내력(history)에 걸쳐서 재계산될 필요가 없다. 대신, 시간-평균화된 여기
Figure 112005065409452-pct00044
는 x[n]으로부터 단지 1회 계산될 수 있고, 이 반복에서, 라우드니스의 갱신된 값들은
Figure 112005065409452-pct00045
에 직접 갱신된 이득의 자승을 가함으로써 계산될 수 있다. 특히, ΨE{
Figure 112005065409452-pct00046
가 S[t]를 발생시키기 위하여 시간 평균화된 여기
Figure 112005065409452-pct00047
에 대해 수행되는 모든 처리를 표시한다라고 하면, 다음 관계식이 일반적인 승산 이득(G)에 대해서 유지된다.
Figure 112005065409452-pct00048
이 관계식을 사용하면, 반복 프로세스는 Ψ{Gix[n], t}를
Figure 112005065409452-pct00049
으로 대체함으로써 간단화될 수 있다. 장기간 인식된 라우드니스를 추정하는데 필요로 되는 시간적 통합이 특정 라우드니스로 비선형 변환 후 수행된다면 이 간단화는 가능하지 않을 수 있다.
G[t]를 계산하기 위한 반복 프로세스가 도2에 도시되어 있다. 단자(223)에서 출력 라우드니스 S[t]는 단자(230)에서 기준 라우드니스(Sref)로부터 감산 결합기 또는 감산 기능(231)에서 감산될 수 있다. 이 결과의 에러 신호(232)는 반복시에 다음 이득(Gi)을 발생시키는 반복적인 이득 갱신기 또는 갱신 기능("반복적인 이득 갱신")(233)으로 공급된다. 그 후, 이 이득의 자승(
Figure 112005065409452-pct00050
)은 출력(234)에서 승산 결합기(208)로 다시 공급되는데,
Figure 112005065409452-pct00051
은 블록(206)으로부터 시간-평균화된 여기 신호와 승산된다. 그 후, 이 반복에서 S[t]의 다음 값은 블록들(220 및 222)을 통해서 시간-평균화된 여기의 이득-수정된 버전으로부터 계산된다. 서술된 루프는 종료 조건들(termination conditions)이 부합될 때까지 반복되는데, 이 시간에서 단자(235)에서 이득 G[t]은 Gi의 현재값과 동일하게 설정된다. 최종 값 G[t]은 예를 들어 매 FTT 프레임(t) 마다 또는 여기가 이 세그먼트의 전체 길이에 걸쳐서 평균화된 후 오디오 세그먼트의 끝에서 단지 1회 상술된 반복 프로세스를 통해서 계산될 수 있다.
이 반복 프로세스와 결합하여 비이득-수정된 신호 라우드니스를 계산하고자 하면, 이득(Gi)은 각 시간 기간(t)에 대한 각 반복 프로세스의 시작에서 1로 초기화될 수 있다. 이 방식으로, 루프에서 계산되는 S[t]의 제1 값은 원래 신호 라우드니스를 표시하고 그와 같이 기록될 수 있다. 이 값을 기록하길 원하지 않는다면, Gi는 임의의 값으로 초기화될 수 있다. G[t]가 연속적인 시간 프레임들에 걸쳐서 계산되고 원래의 신호 라우드니스를 기록하길 원하지 않는 경우에, 사전 시간 기간으로부터 G[t]의 값과 동일하게 Gi를 초기화하는 것이 바람직할 수 있다. 이 방식으로, 신호가 사전 시간 기간으로부터 크게 변화되지 않으면, 이 값 G[t]는 실질적으로 상기와 같이 유지될 것이다. 그러므로, 적절한 값으로 수렴하도록 하는데 매우 적은 반복들이 필요로 될 것이다.
반복이 완료되면, G[t]는 수정된 신호의 라우드니스가 기준 라우드니스와 정합하도록 어떤 외부 장치에 의해 (201)에서 입력 오디오 신호에 인가될 이득을 표시한다. 도3은 반복 이득 갱신(233)으로부터의 이득G[t]이 전압 제어 증폭기(VCA)(236)와 같은 신호 레벨 제어 장치 또는 기능의 제어 입력에 인가되어 이득 조정된 출력 신호를 제공하도록 하는 하나의 적절한 장치를 도시한다. 도3의 VCA(234)는 라인(235)상에서 이득 G[t]의 지각 표시(sensory indication)에 응답하여 이득 조정기를 제어하는 사람 오퍼레이터로 대체될 수 있다. 지각 표시는 예를 들어 미터에 의해 제공될 수 있다. 이득 G[t]은 시간 스무딩(도시되지 않음)을 겪을 수 있다.
일부 신호들에 대해서, 식(10 및 11)에 서술된 스무딩에 대한 대안은 장기간 인시된 라우드니스를 계산하는 것이 바람직할 수 있다. 청취자들은 신호의 라우드니스 부분들과 신호의 장기간 라우드니스를 관계시키는 경향이 있다. 따라서, 식(10 및 11)에 제공된 스무딩은 더욱 라우드한 재료의 더욱 짧은 세그먼트들에 의해 인터럽트된 장기간의 상대적인 사일런스(silence)를 포함하는 신호의 인식된 라우드니스를 낮게추정(underestimate)할 수 있다. 이와 같은 신호들은 종종 더욱 긴 기간들의 주변 배경 잡음에 의해 둘러싸여진 다이얼로그의 짧은 세그먼트들을 지닌 필름 사운드 트랙트들에서 발견된다. 식(11)에 제공된 임계화로 인해, 이와 같은 신호들의 정숙 부분들은 시간-평균화된 여기
Figure 112005065409452-pct00052
에 매우 크게 영향을 미칠 수 있다.
이 문제를 처리하기 위하여, 장기간 라우드니스를 계산하기 위한 통계적 기술은 본 발명의 부가 양상에 사용될 수 있다. 우선, 식(10 및 11)에서 스무드한 시간 상수는 매우 작게 만들어지고 tdB는 -∞로 설정되어
Figure 112005065409452-pct00053
가 "순시" 여기를 표시하도록 한다. 이 경우에, 스무딩 파라미터(λm)는 대역(m)에 걸쳐서 가변하도록 선택되어 순시 라우드니스의 인식이 주파수에 걸쳐서 가변되는 방식을 더욱 정확하게 모델링한다. 그러나, 실제에 있어선, m에 걸쳐서 λm을 일정하게 되도록 선택하는 것은 여전히 수용가능한 결과들을 산출한다. 상술된 나머지 알고리즘은 변화지 않은 채 동작되어 식(16)에 규정된 바와 같이 순시 라우드니스 신호 S[t]를 발생시킨다. 어떤 범위 t1≤t≤t2에 걸쳐서, 장기간 라우드니스 Sp[t1, t2]는 범위 내의 시간 값의 p %에 대해 S[t] 보다 크고 범위 내의 시간 값들의 100-p%에 대해 S[t] 보다 작은 값으로서 규정된다. 대략 90%와 동일한 세팅(p)가 주관적으로 인식된 장기간 라우드니스에 정합한다는 것을 실험은 보여준다. 이 세팅으로 인해, S[t]의 값의 단지 10%가 장기간 라우드니스에 상당한 영향을 미친다. 이 값들의 다른 90%는 장기간 라우드니스 측정값을 낮추지 않고도 상대적으로 사일런트될 수 있다.
값 Sp[t1, t2]은 오림차순으로 값들 S[t], t1≤t≤t2을 리스트 Ssort{i}, 0≤t≤t2-t1으로 분류함으로써 계산될 수 있는데, 여기서 i는 분류된 리스트의 i번째 원소를 표시한다. 그 후, 장기간 라우드니스는 이 방식의 p%인 원소에 의해 리스트로 제공된다.
Figure 112005065409452-pct00054
단독으로, 상기 계산은 상대적으로 직접적이다. 그러나, x[n]과 승산될 때 어떤 기준 라우드니스(Sref)와 동일한 Sp[t1, t2]로 되는 이득 Gp[t1, t2]를 계산하고자 하면, 이 계산은 상당히 더욱 복잡하게 된다. 상술된 바와 같이, 반복적인 방법이 필요로 되지만, 현재 장기간 라우드니스 측정값 Sp[t1, t2]은 전체 범위의 값 S[t], t1≤t≤t2에 좌우되는데, 이들 각각은 이 반복에서 Gi의 각 갱신에 의해 갱신 되어야 한다. 이들 갱신들을 계산하기 위하여, 신호
Figure 112005065409452-pct00055
가 전체 범위 t1≤t≤t2에 걸쳐서 저장되어야 한다. 게다가, Gi에 대한 S[t]의 종속성이 비선형이기 때문에, S[t], t1≤t≤t2의 상대적인 순서화는 각 반복에 의해 변화될 수 있음으로, Ssort{i}는 또한 재계산되어야 한다. 재분류에 대한 필요성은 스펙트럼이 이 반복에서 특정 이득을 위한 청각의 임계값 바로 아래인 단시간 신호 세그먼트들을 고려할 때 손쉽게 증명된다. 이득이 증가될 때, 세그먼트의 스펙트럼의 상당 부분은 가청될 수 있는데, 이는 세그먼트의 총 라우드니스를 사전에 가청될 수 있는 신호의 다른 협대역 세그먼트들 보다 크게 한다. 범위 t1≤t≤t2가 크게되거나 슬라이딩 시간 윈도우의 함수로서 연속적으로 이득 Gp[t1, t2]을 계산하고자 하면, 이 반복 프로세스의 요구되는 계산 및 메모리 비용은 엄청나게될 수 있다.
계산 및 메모리의 상당한 절감은 S[t]가 Gi의 단조적으로 증가하는 함수가 되도록 실현함으로써 성취된다. 다른 말로서, Gi가 증가하면 항상 매 시간 인스턴트에서 단기간 라우드니스가 증가된다. 이 지식으로 인해, 원하는 정합 이득 Gp[t1, t2]은 다음과 같이 효율적으로 계산될 수 있다. 우선, 범위 t1≤t≤t2에서 t의 모든 값들에 대해서 서술된 반복을 사용하여
Figure 112005065409452-pct00056
로부터 사전 규정된 정합 이득 G[t]를 계산하라. 각 값 t에 대해서, G[t]는 단일 값
Figure 112005065409452-pct00057
에 대해서 반복함 으로써 계산된다는 점에 유의하라. 다음, 장기간 정합 이득 Gp[t1, t2]은 오림차순으로 값 G[t], t1≤t≤t2을 리스트 Gsort{i}, 0≤t≤t2-t1으로 분류함으로써 계산되고 나서 다음과 같이 설정된다.
Figure 112005065409452-pct00058
우리는 현재, Gp[t1, t2]가 x[n]과 승산될 때 원하는 기준 라우드니스 Sref와 동일한 Sp[t1, t2]가 되는 이득과 동일하다라고 주장한다. 식(28)으로부터, 범위 t1≤t≤t2의 의 시간 값들의 100-p %dp 대해서 G[t]<Gp[t1, t2] 및 다른 p %에 대해서 G(t)>Gp[t1, t2]라는 점에 유의하라. G[t]<Gp[t1, t2]가 되도록 G[t]의 이들 값들에 대해서, Gp[t1, t2]가 G[t]라기 보다 오히려
Figure 112005065409452-pct00059
의 대응값들에 적용되면, S[t]의 결과 값들은 원하는 기준 라우드니스보다 크게된다는 점에 유의하라. 이는 S[t]가 이득의 단조적으로 증가하는 함수이기 때문에 그러하다. 유사하게, Gp[t1, t2]가 G[t]>Gp[t1, t2]가 되도록 G[t]에 대응하는
Figure 112005065409452-pct00060
의 값들에 적용되면, S[t]의 이 결과값들은 원하는 기준 라우드니스보다 작게된다. 그러므로, Gp[t1, t2]를 범위 t1≤t≤t2
Figure 112005065409452-pct00061
의 모든 값들에 적용하면은 그 시간의 원하는 기준 100-p % 보다 크고 그 시간의 기준 p% 보다 작게 되는 S[t]를 발생시킨다.
정합 이득을 계산하는 이 대안적인 방법은 범위 t1≤t≤t2에 걸쳐서
Figure 112005065409452-pct00062
및 S[t]ㄹ 저장할 필요성을 피하도록 한다. 단지 G[t]만이 저장될 필요가 있다. 게다가, 계산되는 Gp[t1, t2]의 매 값마다, 범위 t1≤t≤t2에 걸쳐서 G[t]의 분류는 이전 방법과 반대로 단지 1회 수행될 필요가 있는데, 여기서 S[t]는 매 반복에 의해 재분류될 필요가 있다. Gp[t1, t2]가 어떤 길이 T 슬라이딩 윈도우(즉, t1=t-T, t2=t)에 걸쳐서 연소적으로 계산되는 경우에, 리스트 Gsort{i}는 매 새로운 시간 인스턴스 마다 분류된 리스트로부터 단일 값을 간단히 제거 및 부가함으로써 효율적으로 유지될 수 있다. 범위 t1≤t≤t2가 극히 클때(예를 들어, 전체 노래 또는 필름의 길이), G[t]를 저장하는데 필요로 되는 메모리는 여전히 엄청날 수 있다. 이 경우에, Gp[t1, t2]는 G[t]의 이산화된 히스토그램으로부터 근사화될 수 있다. 실제로, 이 히스토그램은 데시벨 단위의 G{t]로부터 생성된다. 이 히스토그램은 다음 식(29)가 되도록 H[i]=범위 t1≤t≤t2에서의 샘플 수로서 계산될 수 있다.
Figure 112005065409452-pct00063
여기서 ΔdB는 히스토그램 레졸루션(histogram resolution)이고 dBmin은 최소 히스토그램이다. 이 때, 정합 이득은 다음과 같이 근사화된다.
Figure 112005065409452-pct00064
여기서,
Figure 112005065409452-pct00065
및 I는 최대 히스토그램 인덱스이다. 이산화된 히스토그램을 사용하면, 단지 I 값들이 저장될 필요가 있고, Gp[t1, t2]는 G[t]의 각 새로운 값으로 손쉽게 갱신된다.
G[t]로부터 Gp[t1, t2]를 근사화하는 다른 방법들이 고려될 수 있는데, 본 발명은 이와 같은 기술들을 포함하도록 한다. 본 발명의 이 부분의 주요 양상은 정합 이 G[t]에 대한 어떤 유형의 스무딩을 수행하여 순시 라우드니스 S[t]를처리하는것이 아니라 오히려 장기간 정합 이득 Gp[t1, t2]를 발생시켜 장기간 라우드니스 Sp[t1, t2]를 발생시키는데, 그 후 이 Sp[t1, t2]로부터 Gp[t1, t2]가 반복 프로세스를 통해서 추정된다.
도10 및 도11은 도2 및 도3 각각과 유사한 시스템을 도시하지만, 정합 이득 G[t]의 스무딩(장치 또는 기능(237))이 스무드된 이득 신호 Gp[t1, t2](신호 238)를발생시키는데 사용된다.
입력(230)(도2, 3, 10, 11)에서 기준 라우드니스는 "고정" 또는 "가변"될 수 있고, 기준 라우드니스의 소스는 본 발명의 양상을 구현하는 장치 내부에 또는 외부에 있을 수 있다. 예를 들어, 기준 라우드니스는 사용자에 의해 설정될 수 있는 데, 이 경우에, 이의 소스는 외부에 있고, 이는 사용자에 의해 재설정될 때까지 시간 기간 동안 "고정"된채로 유지될 수 있다. 대안적으로, 기준 라우드니스는 도1의 예에서 도시된 장치와 같은 본 발명을 따른 라우드니스 측정 프로세스 또는 장치로부터 도출되는 또 다른 오디오 소스의 라우드니스의 측정값일 수 있다.
오디오 발생 장치의 정상적인 볼륨 제어는 도3 또는 도11의 예들과 같은 본 발명의 양상들을 따른 프로세스 또는 장치로 대체될 수 있다. 이 경우에, 사용자 동작되는 볼륨 노브(knob), 슬라이더 등은 도3 또는 도11의 (230)에서 기준 라우드니스를 제어하여, 결국, 오디오-발생 장치는 볼륨 제어의 사용자 조정과 같은 정도의 라우드니스를 갖는다.
가변 기준의 예는 도12에 도시되어 있는데, 이 도12에서 기준 라우드니스 Sref는 예를 들어 가변 기준 라우드니스 장치 또는 기능("가변 기준 라우드니스")(239)을 통해서 라우드니스 신호 S[t]로부터 계산되는 가변 기준 Sref[t]로 대체된다. 이 장치에서, 매 시간 기간 t마다 각 반복의 시작에서, 가변 기준 Sref[t]는 임의의 이득이 (208)에서 여기에 적용되기 전 수정되지 않은 라우드니스 S[t]로부터 계산될 수 있다. 가변 라우드니스 기준 기능(239)을 통한 Sref[t] 및 S[t]의 의존성은 다양한 효과들을 성취하기 위한 각종 형태들을 취할 수 있다. 예를 들어, 이 기능은 단지 S[t]를 스케일링하여 원래 라우드니스의 어떤 고정된 비(ratio)인 기준을 발생시킨다. 대안적으로, 이 기능은 S[t]가 어떤 임계값보다 아래일 때 S[t] 보다 큰 기준 및 S[t]가 어떤 임계값을 넘을 때 S[t]보다 작은 기준을 발생 시켜, 오디오의 인식된 라우드니스의 동적 범위를 감소시킨다. 이 기능의 형태가 무엇이든지, 상술된 반복은 다음 식(31)과 같이 되도록 G[t]를 계산하도록 수행된다.
Figure 112005065409452-pct00066
그 후, 정합 이득 G[t]은 상술된 바와 같이 또는 원하는 지각 효과를 성취하기 위하여 어떤 다른 적절한 기술을 통해서 스무딩될 수 있다. 최종적으로, 오디오 신호(201) 및 VCA 블록(236) 간의 지연(240)은 스무드된 이득의 계산시에 임의의 레이턴시를 보상하도록 도입될 수 있다. 이와 같은 지연은 또한 도3 및 도11의 장치에 제공될 수 있다.
도3 장치의 이득 제어 신호 G[t] 및 도11 장치의 스무드된 이득 제어 신호 Gp[t1, t2]는 예를 들어 상이한 채널들에 걸쳐서 인식된 라우드니스가 가변하는 위성 라디오 또는 방송 텔레비젼을 포함하는 각종 애플리케이션들에 유용할 수 있다. 이와 같은 환경들에서, 본 발명의 장치 또는 방법은 각 채널로부터의 오디오 신호를 기준 라우드니스 레벨(또는 기준 신호의 라우드니스)와 비교할 수 있다. 오퍼레이터 또는 자동화 장치는 이득을 사용하여 각 채널의 라우드니스를 조정할 수 있다. 따라서, 모든 채널들은 실질적으로 동일한 인식된 라우드니스를 갖는다. 도13은 다수의 텔레비젼 또는 오디오 채널들(1 내지 N)로부터의 오디오가 도3 또는 도11에 도시된 바와 같은 본 발명의 양상들을 따른 각 장치(250, 252)의 각 입력 입력들(201)에 인가되는 이와 같은 장치의 예를 도시한 것이다. 동일한 기준 라우드 니스 레벨은 프로세스들 또는 장치들(250, 252) 각각에 인가되어, 각 출력(236)에서 라우드니스-조정된 첫 번째 채널 내지 N번째 채널을 발생시킨다.
측정 및 이득 조정 기술은 또한 입력 오디오 재료를 모니터하며, 사람 음성 신호들을 주로 포함하는 오디오 내용을 식별하는 처리를 수행하고, 음성 신호가 사전 규정된 기준 레벨에 실질적으로 정합하도록 하는 이득을 계산하는 실시간 측정 장치에 적용될 수 있다. 오디오 재료에서 음성을 식별하는 적절한 기술들은 2002년 8월 30일에 출원된 미국 특허 출원 일련번호 10/233,073에 서술되고 2004년 3월 4일에 공개된 미국 특허 출원 공보 US 2004/0044525에 공개되어 있다. 상기 출원이 본원 전반에 참조되어 있다. 큰 오디오 내용으로 인한 청중의 불쾌감이 프로그램 재료의 음성 부분들에 집중되는 경향이 있기 때문에, 측정 및 이득 조정 방법은 텔레비젼, 필름 및 음악 재료에 공통적으로 사용되는 오디오에서 불쾌감을 일으키는 레벨 차를 크게 감소시킬 수 있다.
구현방식
본 발명은 하드웨어 또는 소프트웨어 또는 이들 둘 다의 조합(예를 들어, 프로그램가능한 논리 어레이들)으로 구현될 수 있다. 달리 규정되지 않는 한, 본 발명의 부분으로서 포함되는 알고리즘들은 본질적으로, 임의의 특정 컴퓨터 또는 다른 장치에 관계되지 않는다. 특히, 각종 범용 기계들은 본원 개시 내용에 따라서 기록된 프로그램들에 사용될 수 있거나 필요로 되는 방법적 단계들을 수행하도록 더욱 특수화된 장치(예를 들어, 집적 회로)를 구성하는데 더욱 간편할 수 있다. 따라서, 본 발명은 적어도 하나의 프로세서, 적어도 하나의 데이터 저장 시스템(휘발 성 및 불휘발성 메모리 및/또는 저장 소자들을 포함), 적어도 하나의 입력 장치 또는 포트, 및 적어도 하나의 출력 장치 또는 포트를 각각 구비하는 하나 이상의 프로그램가능한 컴퓨터 시스템들에 대해 실행되는 하나 이상의 컴퓨터 프로그램들로 구현될 수 있다. 프로그램 코드는 입력 데이터에 적용되어 본원에 서술된 기능들을 수행하고 출력 정보를 발생시킨다. 이 출력 정보는 공지된 방식으로 하나 이상의 출력 장치들에 인가된다.
각 이와 같은 프로그램은 임의의 소망 컴퓨터 언어(기계, 어셈블리, 또는 고 레벨 절차적, 논리적, 또는 객체 지향된 프로그래밍 언어들을 포함)로 구현되어 컴퓨터 시스템과 통신할 수 있다. 어쨌든, 이 언어는 컴파일되거나 해석되는 언어일 수 있다.
각 이와 같은 컴퓨터 프로그램은 범용 또는 특수용 프로그램가능한 컴퓨터에 의해 판독될 수 있는 저장 매체 또는 장치(예를 들어 고상 메모리 또는 매체, 자기 또는 광학 매체)에 바람직하게 저장 또는 다운로드되어, 이 저장 매체 또는 장치가 본원에 서술된 절차들을 수행하도록 컴퓨터 시스템에 의해 판독될 때 컴퓨터를 구성 및 동작시킨다. 본 발명의 시스템은 또한 컴퓨터 프로그램으로 구성된 컴퓨터-판독가능한 저장 매체로서 구현되는 것으로 간주될 수 있는데, 이렇게 구성된 저장 매체는 본원에 서술된 기능들을 수행하도록 컴퓨터 시스템이 특정 및 규정된 방식으로 동작하도록 한다.
본 발명의 다수의 실시예들이 서술되었다. 그럼에도불구하고, 본 발명의 원리 및 범위를 벗어남이 없이 각종 수정들이 행해질 수 있다는 것을 이해할 것이다. 예를 들어, 상술된 일부 단계들은 독립적으로 순서화될 수 있음으로, 서술된 바와 다른 순서로 수행될 수 있다. 따라서, 다른 실시예들이 이하의 청구범위 내에 포함된다.

Claims (37)

  1. 오디오 신호를 처리하는 방법으로서,
    상기 오디오 신호에 응답하여 이득값을 계산하는 단계로서, 상기 이득값은 상기 오디오 신호에 곱해졌을 때 임계값의 범위내에서 인식된 라우드니스와 기준 라우드니스 레벨 사이의 에러를 생성하고, 상기 이득값을 계산하는 부분은 상기 이득값에 대한 클로우즈된 형태 솔루션이 존재하지 않는 비선형 프로세스이고, 상기 계산은 상기 오디오 신호로부터 선형 프로세스로 여기 신호를 도출하되 상기 여기 신호는 내이(inner ear)의 기저막(basilar membrane)을 따라 여기 패턴을 시뮬레이트하는 다수의 주파수 대역으로 분할되는 여기 신호 도출 단계와 상기 여기 신호의 각 주파수 대역에서 상기 여기 신호로부터 비선형 프로세스로 특정 라우드니스를 도출하는 특정 라우드니스 도출 단계와 상기 인식된 라우드니스로서 총 라우드니스를 도출하는 총 라우드니스 도출 단계를 포함하는, 이득값 계산 단계;
    상기 총 라우드니스와 상기 기준 라우드니스 사이의 상기 에러가 상기 임계값 이하가 될 때까지 상기 여기 신호의 크기를 반복적으로 조정하는 단계로서, 상기 특정 라우드니스 도출 단계를 포함하되 상기 여기 신호 도출 단계는 포함하지 않는 반복적인 루프에서 수행되는, 반복적인 조정 단계; 및
    상기 계산된 이득값을 이용하여 상기 오디오 신호의 상기 인식된 라우드니스를 조정하는 단계를 포함하는 오디오 신호 처리 방법.
  2. 제1항에 있어서, 상기 여기 신호 도출 단계는 시간적 통합(temporal integration)을 포함하는 오디오 신호 처리 방법.
  3. 제2항에 있어서, 상기 여기 신호는 선형적으로 시간 스무드되는 오디오 신호 처리 방법.
  4. 제1항에 있어서, 상기 방법은 상기 이득값을 시간 스무드하는 단계를 더 포함하는 오디오 신호 처리 방법.
  5. 제1항에 있어서, 상기 방법은 상기 이득값을 스무드하는 단계를 더 포함하며, 상기 스무드하는 단계는 히스토그램 기술을 사용하는 오디오 신호 처리 방법.
  6. 제1항에 있어서,
    상기 반복적인 조정 단계는 최소화 알고리즘에 따라서 수행되는 오디오 신호 처리 방법.
  7. 제6항에 있어서, 상기 최소화 알고리즘은 그래디언트 디센트 최소화 방법을 따라서 수행되는 오디오 신호 처리 방법.
  8. 제1항에 있어서, 상기 기준 라우드니스는 사용자에 의해 설정되는 오디오 신호 처리 방법.
  9. 제1항에 있어서, 상기 기준 라우드니스는 상기 오디오 신호의 미조정된 라우드니스의 측정으로부터 도출되는 오디오 신호 처리 방법.
  10. 제9항에 있어서, 상기 기준 라우드니스는 상기 오디오 신호의 상기 미조정된 라우디니스의 스케일링된 버전인 오디오 신호 처리 방법.
  11. 제10항에 있어서, 상기 기준 라우드니스는, 상기 오디오 신호의 상기 미조정된 라우드니스가 임계값보다 아래일 때 상기 오디오 신호의 상기 미조정된 라우드니스 보다 크고 상기 오디오 신호의 상기 미조정된 라우드니스가 임계값을 넘을 때 상기 오디오 신호의 상기 미조정된 라우드니스 보다 작은 오디오 신호 처리 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 따른 방법의 각 단계를 수행하도록 적응되는 수단들을 포함하는 장치.
  13. 제1항 내지 제11항 중 어느 한 항에 따른 방법을 수행하도록 하는 컴퓨터 프로그램을 저장하는 컴퓨터-판독가능한 매체.
  14. 오디오 신호를 처리하는 방법으로서,
    상기 오디오 신호에 응답하여 여기 신호를 발생시키는 단계; 및,
    상기 여기 신호에 응답하여 상기 오디오 신호의 지각 라우드니스 및 상기 오디오 신호의 특성들의 측정값을 계산하는 단계로서, 상기 계산은 2개 이상의 특정 라우드니스 모델 함수들의 그룹으로부터 하나 또는 2개 이상의 특정 라우드니스 모델 함수들의 조합을 선택하는데, 상기 선택은 상기 오디오 신호의 특성들의 측정값에 의해 제어되는, 계산 단계를 포함하는 오디오 신호 처리 방법.
  15. 제14항에 있어서, 상기 오디오 신호의 특성들의 측정값은 상기 오디오 신호가 스펙트럼으로 플랫한 정도의 측정값인 오디오 신호 처리 방법.
  16. 제14항에 있어서, 상기 계산 단계는 2개의 특정 라우드니스 모델 함수들로부터 선택되거나 이들 함수들을 조합하는데, 제1 라우드니스 모델 함수는 스펙트럼으로 플랫하지 않은 입력 신호로부터 발생되는 특성들의 측정값에 의해 선택되며, 제2 라우드니스 모델 함수는 스펙트럼으로 플랫한 입력 신호로부터 발생되는 특성들의 측정값에 의해 선택되고, 상기 제1 및 제2 라우드니스 모델 함수들의 조합은 부분적으로 스펙트럼으로 플랫하지 않고, 부분적으로 스펙트럼으로 플랫한 입력 신호로부터 발생되는 특성들의 측정값에 의해 선택되는 오디오 신호 처리 방법.
  17. 제16항에 있어서, 상기 제1 및 제2 라우드니스 모델 함수들 둘 다는 파워 로(power law)에 따라서 증가하는 여기로 인해 정숙상태의 임계값을 넘어 단조적으로 증가하며, 상기 제1 라우드니스 모델 함수는 상기 제2 라우드니스 모델 함수보다 더욱 고속으로 증가하는 오디오 신호 처리 방법.
  18. 제14항에 있어서, 상기 계산 단계는 상기 여기 신호의 각 주파수 대역들 각각에서 2개 이상의 특정 라우드니스 모델들, 상기 2개 이상의 특정 라우드니스 모델들 중 한 모델 또는 이들의 조합의 그룹으로부터 선택되는 오디오 신호 처리 방법.
  19. 제14항에 있어서, 상기 계산 단계는 상기 여기 신호의 각 주파수 대역들의 그룹에서 2개 이상의 특정 라우드니스 모델들, 상기 2개 이상의 특정 라우드니스 모델들 중 한 모델 또는 이들의 조합의 그룹으로부터 선택되는 오디오 신호 처리 방법.
  20. 제19항에 있어서, 상기 각 주파수 대역들의 그룹은 상기 여기 신호의 모든 주파수 대역들인 오디오 신호 처리 방법.
  21. 제14항에 있어서, 상기 오디오 신호의 특성들의 측정값은 상기 여기 신호로부터 도출되는 오디오 신호 처리 방법.
  22. 제14항에 있어서, 상기 계산 단계는 상기 여기 신호의 각 주파수 대역들 각각에서 특정 라우드니스를 계산하는 단계를 포함하는 오디오 신호 처리 방법.
  23. 제22항에 있어서, 상기 계산 단계는 지각 라우드니스를 제공하기 위하여 주파수 대역의 상기 특정 라우드니스를 선택하는 단계 또는 상기 지각 라우드니스를 제공하기 위하여 주파수 대역들의 그룹의 상기 특정 라우드니스를 결합하는 단계를 더 포함하는 오디오 신호 처리 방법.
  24. 제14항에 있어서, 상기 오디오 신호에 응답하여 여기 신호를 발생시키는 단계는:
    선형적으로 필터링된 오디오 신호를 발생시키기 위하여 사람의 바깥쪽 및 중이(middle ear)의 특성들을 시뮬레이트하는 함수 또는 함수들에 의해 상기 오디오 신호를 선형적으로 필터링하는 단계; 및,
    상기 여기 신호를 발생시키기 위하여 사람의 내이(inner ear) 기저막을 따라서 발생된 상기 여기 패턴을 시뮬레이트하는 주파수 대역들로 상기 선형적으로 필터링된 신호를 분할하는 단계를 포함하는 오디오 신호 처리 방법.
  25. 제14항에 있어서, 적어도 상기 여기 신호에 응답하여 이득값 G[t]를 계산하는 단계로서, 상기 계산 단계는 반복 처리 루프를 포함하고,
    상기 반복 처리 루프는:
    상기 여기 신호의 조정된 크기가 Gi의 증가하는 값에 따라서 증가하도록 하고 Gi의 감소하는 값들에 따라서 감소되도록 하는 반복 이득값 Gi의 함수에 응답하여 상기 여기 신호의 크기를 조정하는 단계;
    차를 발생시키기 위하여 상기 오디오 신호의 상기 계산된 지각 라우드니스를 기준 지각 라우드니스와 비교하는 단계; 및,
    상기 계산된 지각 라우드니스 및 상기 기준 지각 라우드니스 간의 차를 감소시키기 위하여 상기 차에 응답하여 상기 이득값 Gi를 조정하는 단계를 포함하는 오디오 신호 처리 방법.
  26. 제25항에 있어서, 상기 여기 신호는 시간 스무드되며, 및/또는 상기 방법은 상기 이득값 G[t]를 시간 스무드하는 단계를 더 포함하는 오디오 신호 처리 방법.
  27. 제26항에 있어서, 상기 여기 신호는 선형적으로 시간 스무드되는 오디오 신호 처리 방법.
  28. 제26항에 있어서, 상기 방법은 상기 이득값 G[t]을 스무드하는 단계를 더 포함하는데, 상기 스무드하는 단계는 히스토그램 기술을 사용하는 오디오 신호 처리 방법.
  29. 제25항에 있어서, 상기 반복 처리 루프는 최소화 알고리즘에 따라서 상기 여기 신호의 크기를 반복적으로 조정하며, 지각 라우드니스를 계산하며, 상기 계산된 지각 라우드니스를 기준 지각 라우드니스와 비교하고 상기 이득 값(Gi)을 최종 값G[t]으로 조정하는 오디오 신호 처리 방법.
  30. 제29항에 있어서, 상기 최소화 알고리즘은 그래디언트 디센트 최소화 방법을 따르는 오디오 신호 처리 방법.
  31. 제25항 내지 제30항 중 어느 한 항에 있어서, 상기 오디오 신호의 결과적인 인식된 라우드니스는 상기 기준 지각 라우드니스와 동일하도록 상기 이득 G[t]에 의해 상기 오디오 신호의 진폭을 제어하는 단계를 더 포함하는 오디오 신호 처리 방법.
  32. 제25항 내지 제30항 중 어느 한 항에 있어서, 상기 기준 지각 라우드니스는 사용자에 의해 설정되는 오디오 신호 처리 방법.
  33. 제14항 내지 제30항 중 어느 한 항에 따른 방법의 각 단계를 수행하도록 적응되는 수단들을 포함하는 장치.
  34. 컴퓨터가 제14항 내지 제30항 중 어느 한 항의 방법을 수행하도록 하는 컴퓨터 프로그램을 저장하는 컴퓨터-판독가능한 매체.
  35. 삭제
  36. 삭제
  37. 삭제
KR1020057021694A 2003-05-28 2004-05-27 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램 KR101164937B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US47407703P 2003-05-28 2003-05-28
US60/474,077 2003-05-28
PCT/US2004/016964 WO2004111994A2 (en) 2003-05-28 2004-05-27 Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal

Publications (2)

Publication Number Publication Date
KR20060013400A KR20060013400A (ko) 2006-02-09
KR101164937B1 true KR101164937B1 (ko) 2012-07-12

Family

ID=33551475

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057021694A KR101164937B1 (ko) 2003-05-28 2004-05-27 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램

Country Status (19)

Country Link
US (1) US8437482B2 (ko)
EP (1) EP1629463B1 (ko)
JP (1) JP4486646B2 (ko)
KR (1) KR101164937B1 (ko)
CN (2) CN101819771B (ko)
AT (1) ATE371246T1 (ko)
AU (1) AU2004248544B2 (ko)
BR (1) BRPI0410740A (ko)
CA (1) CA2525942C (ko)
DE (1) DE602004008455T2 (ko)
DK (1) DK1629463T3 (ko)
ES (1) ES2290764T3 (ko)
HK (2) HK1083918A1 (ko)
IL (1) IL172108A (ko)
IN (1) IN2010KN02913A (ko)
MX (1) MXPA05012785A (ko)
PL (1) PL1629463T3 (ko)
SG (1) SG185134A1 (ko)
WO (1) WO2004111994A2 (ko)

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7729497B2 (en) * 2004-01-13 2010-06-01 Koninklijke Philips Electronics N.V. Audio signal enhancement
DE602005022641D1 (de) 2004-03-01 2010-09-09 Dolby Lab Licensing Corp Mehrkanal-Audiodekodierung
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
CA2581810C (en) 2004-10-26 2013-12-17 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
KR100708123B1 (ko) * 2005-02-04 2007-04-16 삼성전자주식회사 자동으로 오디오 볼륨을 조절하는 방법 및 장치
TWI397903B (zh) 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
CN101228575B (zh) 2005-06-03 2012-09-26 杜比实验室特许公司 利用侧向信息的声道重新配置
TWI517562B (zh) * 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
PL2002429T3 (pl) 2006-04-04 2013-03-29 Dolby Laboratories Licensing Corp Kontrola słyszalnej charakterystyki głośności sygnału audio
US8504181B2 (en) * 2006-04-04 2013-08-06 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the MDCT domain
UA93243C2 (ru) 2006-04-27 2011-01-25 ДОЛБИ ЛЕБОРЕТЕРИЗ ЛАЙСЕНСИНГ КОРПОРЕЙШи Регулирование усиления звука c использованием основанного ha конкретной громкости выявления аккустических событий
WO2008008730A2 (en) * 2006-07-08 2008-01-17 Personics Holdings Inc. Personal audio assistant device and method
US11450331B2 (en) 2006-07-08 2022-09-20 Staton Techiya, Llc Personal audio assistant device and method
CN101502131B (zh) * 2006-08-10 2014-06-25 皇家飞利浦电子股份有限公司 处理音频信号的装置和方法
CN101529721B (zh) 2006-10-20 2012-05-23 杜比实验室特许公司 使用复位的音频动态处理
JP2010513974A (ja) 2006-12-21 2010-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声データを処理するシステム
WO2008085330A1 (en) * 2007-01-03 2008-07-17 Dolby Laboratories Licensing Corporation Hybrid digital/analog loudness-compensating volume control
PL2162879T3 (pl) 2007-06-19 2013-09-30 Dolby Laboratories Licensing Corp Pomiar głośności z modyfikacjami widmowymi
RU2438197C2 (ru) 2007-07-13 2011-12-27 Долби Лэборетериз Лайсенсинг Корпорейшн Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии
ATE486407T1 (de) 2007-07-13 2010-11-15 Dolby Lab Licensing Corp Zeitvariierender tonsignalpegel unter verwendung von zeitvariierender geschätzter wahrscheinlichkeitsdichte des pegels
DE102007035172A1 (de) 2007-07-27 2009-02-05 Siemens Medical Instruments Pte. Ltd. Hörsystem mit visualisierter psychoakustischer Größe und entsprechendes Verfahren
JP2010537233A (ja) * 2007-08-16 2010-12-02 ディーティーエス・インコーポレイテッド 圧縮デジタルテレビの音声処理
US8315398B2 (en) 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
RU2541183C2 (ru) * 2008-04-18 2015-02-10 Долби Лэборетериз Лайсенсинг Корпорейшн Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
CN102016995B (zh) * 2008-07-29 2013-07-10 Lg电子株式会社 用于处理音频信号的设备及其方法
CN102160115A (zh) * 2008-09-19 2011-08-17 杜比实验室特许公司 对于资源受限客户机设备的上游质量增强信号处理
CN102160358B (zh) 2008-09-19 2015-03-11 杜比实验室特许公司 小蜂窝无线网络中的客户设备的上游信号处理
CN102273224A (zh) * 2008-11-14 2011-12-07 塔特公司 动态音量控制和多空间处理保护
US9380385B1 (en) 2008-11-14 2016-06-28 That Corporation Compressor based dynamic bass enhancement with EQ
ATE552651T1 (de) 2008-12-24 2012-04-15 Dolby Lab Licensing Corp Audiosignallautheitbestimmung und modifikation im frequenzbereich
US9202456B2 (en) * 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
US8761415B2 (en) 2009-04-30 2014-06-24 Dolby Laboratories Corporation Controlling the loudness of an audio signal in response to spectral localization
TWI503816B (zh) * 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
US20120123769A1 (en) * 2009-05-14 2012-05-17 Sharp Kabushiki Kaisha Gain control apparatus and gain control method, and voice output apparatus
WO2010138311A1 (en) 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
WO2010138309A1 (en) 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Audio signal dynamic equalization processing control
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US9215538B2 (en) * 2009-08-04 2015-12-15 Nokia Technologies Oy Method and apparatus for audio signal classification
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
WO2011071928A2 (en) * 2009-12-07 2011-06-16 Pixel Instruments Corporation Dialogue detector and correction
EP2367286B1 (en) * 2010-03-12 2013-02-20 Harman Becker Automotive Systems GmbH Automatic correction of loudness level in audio signals
US9998081B2 (en) 2010-05-12 2018-06-12 Nokia Technologies Oy Method and apparatus for processing an audio signal based on an estimated loudness
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
WO2012109385A1 (en) 2011-02-10 2012-08-16 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US20120263317A1 (en) * 2011-04-13 2012-10-18 Qualcomm Incorporated Systems, methods, apparatus, and computer readable media for equalization
US9232321B2 (en) * 2011-05-26 2016-01-05 Advanced Bionics Ag Systems and methods for improving representation by an auditory prosthesis system of audio signals having intermediate sound levels
JP6147744B2 (ja) 2011-07-29 2017-06-14 ディーティーエス・エルエルシーDts Llc 適応音声了解度処理システムおよび方法
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US9437213B2 (en) * 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
WO2013142695A1 (en) * 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Method and system for bias corrected speech level determination
US9806688B2 (en) 2012-04-12 2017-10-31 Dolby Laboratories Licensing Corporation System and method for leveling loudness variation in an audio signal
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9729965B2 (en) 2012-08-01 2017-08-08 Dolby Laboratories Licensing Corporation Percentile filtering of noise reduction gains
EP2693637A1 (en) * 2012-08-01 2014-02-05 Harman Becker Automotive Systems GmbH Automatic loudness control
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9391576B1 (en) * 2013-09-05 2016-07-12 Cirrus Logic, Inc. Enhancement of dynamic range of audio signal path
US9831843B1 (en) 2013-09-05 2017-11-28 Cirrus Logic, Inc. Opportunistic playback state changes for audio devices
JP6151619B2 (ja) * 2013-10-07 2017-06-21 クラリオン株式会社 音場測定装置、音場測定方法および音場測定プログラム
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US9832562B2 (en) 2013-11-07 2017-11-28 Gn Hearing A/S Hearing aid with probabilistic hearing loss compensation
DK2871858T3 (da) * 2013-11-07 2019-09-23 Gn Hearing As Et høreapparat med probabilistisk høretabskompensation
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
BR112016015695B1 (pt) * 2014-01-07 2022-11-16 Harman International Industries, Incorporated Sistema, mídia e método para tratamento de sinais de áudio comprimidos
US9525940B1 (en) 2014-03-05 2016-12-20 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system
US9774342B1 (en) 2014-03-05 2017-09-26 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system
US9503803B2 (en) 2014-03-26 2016-11-22 Bose Corporation Collaboratively processing audio between headset and source to mask distracting noise
US9306588B2 (en) 2014-04-14 2016-04-05 Cirrus Logic, Inc. Switchable secondary playback path
CN105336341A (zh) 2014-05-26 2016-02-17 杜比实验室特许公司 增强音频信号中的语音内容的可理解性
US10785568B2 (en) 2014-06-26 2020-09-22 Cirrus Logic, Inc. Reducing audio artifacts in a system for enhancing dynamic range of audio signal path
WO2016007947A1 (en) 2014-07-11 2016-01-14 Arizona Board Of Regents On Behalf Of Arizona State University Fast computation of excitation pattern, auditory pattern and loudness
US9337795B2 (en) 2014-09-09 2016-05-10 Cirrus Logic, Inc. Systems and methods for gain calibration of an audio signal path
US9596537B2 (en) 2014-09-11 2017-03-14 Cirrus Logic, Inc. Systems and methods for reduction of audio artifacts in an audio system with dynamic range enhancement
US9503027B2 (en) 2014-10-27 2016-11-22 Cirrus Logic, Inc. Systems and methods for dynamic range enhancement using an open-loop modulator in parallel with a closed-loop modulator
US9584911B2 (en) 2015-03-27 2017-02-28 Cirrus Logic, Inc. Multichip dynamic range enhancement (DRE) audio processing methods and apparatuses
US10109288B2 (en) * 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
US9959856B2 (en) 2015-06-15 2018-05-01 Cirrus Logic, Inc. Systems and methods for reducing artifacts and improving performance of a multi-path analog-to-digital converter
CA2988645C (en) * 2015-06-17 2021-11-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Loudness control for user interactivity in audio coding systems
DE102015216822B4 (de) * 2015-09-02 2017-07-06 Sivantos Pte. Ltd. Verfahren zur Unterdrückung einer Rückkopplung in einem Hörgerät
US9590580B1 (en) * 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
DE102015217565A1 (de) 2015-09-15 2017-03-16 Ford Global Technologies, Llc Verfahren und Vorrichtung zur Verarbeitung von Audio-Signalen
US9955254B2 (en) 2015-11-25 2018-04-24 Cirrus Logic, Inc. Systems and methods for preventing distortion due to supply-based modulation index changes in an audio playback system
US9543975B1 (en) 2015-12-29 2017-01-10 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system with low-pass filter between paths
US9880802B2 (en) 2016-01-21 2018-01-30 Cirrus Logic, Inc. Systems and methods for reducing audio artifacts from switching between paths of a multi-path signal processing system
US9998826B2 (en) 2016-06-28 2018-06-12 Cirrus Logic, Inc. Optimization of performance and power in audio system
US10545561B2 (en) 2016-08-10 2020-01-28 Cirrus Logic, Inc. Multi-path digitation based on input signal fidelity and output requirements
US10263630B2 (en) 2016-08-11 2019-04-16 Cirrus Logic, Inc. Multi-path analog front end with adaptive path
US9813814B1 (en) 2016-08-23 2017-11-07 Cirrus Logic, Inc. Enhancing dynamic range based on spectral content of signal
US9762255B1 (en) 2016-09-19 2017-09-12 Cirrus Logic, Inc. Reconfiguring paths in a multiple path analog-to-digital converter
US9780800B1 (en) 2016-09-19 2017-10-03 Cirrus Logic, Inc. Matching paths in a multiple path analog-to-digital converter
US9929703B1 (en) 2016-09-27 2018-03-27 Cirrus Logic, Inc. Amplifier with configurable final output stage
US9967665B2 (en) 2016-10-05 2018-05-08 Cirrus Logic, Inc. Adaptation of dynamic range enhancement based on noise floor of signal
US10321230B2 (en) 2017-04-07 2019-06-11 Cirrus Logic, Inc. Switching in an audio system with multiple playback paths
US10008992B1 (en) 2017-04-14 2018-06-26 Cirrus Logic, Inc. Switching in amplifier with configurable final output stage
US9917557B1 (en) 2017-04-17 2018-03-13 Cirrus Logic, Inc. Calibration for amplifier with configurable final output stage
CN107464563B (zh) * 2017-08-11 2020-08-04 广州迪宝乐电子有限公司 一种语音交互玩具
US10389323B2 (en) * 2017-12-18 2019-08-20 Tls Corp. Context-aware loudness control
CN112470219B (zh) 2018-07-25 2024-08-02 杜比实验室特许公司 压缩机目标曲线以避免增强噪声
US11195539B2 (en) 2018-07-27 2021-12-07 Dolby Laboratories Licensing Corporation Forced gap insertion for pervasive listening
CN109547848B (zh) * 2018-11-23 2021-02-12 北京达佳互联信息技术有限公司 响度调整方法、装置、电子设备以及存储介质
US11803351B2 (en) 2019-04-03 2023-10-31 Dolby Laboratories Licensing Corporation Scalable voice scene media server
CN111640446B (zh) * 2020-06-24 2023-03-10 北京百瑞互联技术有限公司 一种基于音频编码器的响度均衡方法、编码器及蓝牙设备
US11916525B2 (en) * 2021-08-27 2024-02-27 Sennheiser Electronic Gmbh & Co. Kg Method for automatically controlling loudness of an audio signal, and device for automatically controlling loudness of an audio signal
WO2023122227A1 (en) * 2021-12-22 2023-06-29 University Of Maryland Audio control system

Family Cites Families (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2808475A (en) 1954-10-05 1957-10-01 Bell Telephone Labor Inc Loudness indicator
US4281218A (en) 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
DE3314570A1 (de) 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US4739514A (en) 1986-12-22 1988-04-19 Bose Corporation Automatic dynamic equalizing
US4887299A (en) 1987-11-12 1989-12-12 Nicolet Instrument Corporation Adaptive, programmable signal processing hearing aid
US4953112A (en) 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5027410A (en) 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
JPH02118322U (ko) 1989-03-08 1990-09-21
US5097510A (en) 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
US5369711A (en) 1990-08-31 1994-11-29 Bellsouth Corporation Automatic gain control for a headset
WO1992012607A1 (en) 1991-01-08 1992-07-23 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
EP0517233B1 (en) 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Music/voice discriminating apparatus
US5278912A (en) 1991-06-28 1994-01-11 Resound Corporation Multiband programmable compression system
US5363147A (en) 1992-06-01 1994-11-08 North American Philips Corporation Automatic volume leveler
GB2272615A (en) 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
DE4335739A1 (de) 1992-11-17 1994-05-19 Rudolf Prof Dr Bisping Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen
US5548638A (en) 1992-12-21 1996-08-20 Iwatsu Electric Co., Ltd. Audio teleconferencing apparatus
US5457769A (en) 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5706352A (en) 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
US5434922A (en) 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
BE1007355A3 (nl) 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (ko) 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5530760A (en) 1994-04-29 1996-06-25 Audio Products International Corp. Apparatus and method for adjusting levels between channels of a sound system
US5500902A (en) 1994-07-08 1996-03-19 Stockham, Jr.; Thomas G. Hearing aid device incorporating signal processing techniques
GB9419388D0 (en) 1994-09-26 1994-11-09 Canon Kk Speech analysis
US5548538A (en) * 1994-12-07 1996-08-20 Wiltron Company Internal automatic calibrator for vector network analyzers
US5682463A (en) 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
CA2167748A1 (en) 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
DE59510501D1 (de) 1995-03-13 2003-01-23 Phonak Ag Staefa Verfahren zur Anpassung eines Hörgerätes, Vorrichtung hierzu und Hörgerät
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US6301555B2 (en) 1995-04-10 2001-10-09 Corporate Computer Systems Adjustable psycho-acoustic parameters
US6041295A (en) 1995-04-10 2000-03-21 Corporate Computer Systems Comparing CODEC input/output to adjust psycho-acoustic parameters
US5601617A (en) 1995-04-26 1997-02-11 Advanced Bionics Corporation Multichannel cochlear prosthesis with flexible control of stimulus waveforms
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5663727A (en) 1995-06-23 1997-09-02 Hearing Innovations Incorporated Frequency response analyzer and shaping apparatus and digital hearing enhancement apparatus and method utilizing the same
US5712954A (en) 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5907622A (en) 1995-09-21 1999-05-25 Dougherty; A. Michael Automatic noise compensation system for audio reproduction equipment
US5822018A (en) 1996-04-02 1998-10-13 Farmer; James O. Method and apparatus for normalizing signal levels in a signal processing system
US6108431A (en) * 1996-05-01 2000-08-22 Phonak Ag Loudness limiter
US6327366B1 (en) 1996-05-01 2001-12-04 Phonak Ag Method for the adjustment of a hearing device, apparatus to do it and a hearing device
US6430533B1 (en) 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
JPH09312540A (ja) 1996-05-23 1997-12-02 Pioneer Electron Corp ラウドネスボリュームコントロール装置
JP3765622B2 (ja) 1996-07-09 2006-04-12 ユナイテッド・モジュール・コーポレーション オーディオ符号化復号化システム
DE59713033D1 (de) 1996-07-19 2010-06-02 Bernafon Ag Lautheitsgesteuerte Verarbeitung akustischer Signale
JP2953397B2 (ja) 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US5862228A (en) 1997-02-21 1999-01-19 Dolby Laboratories Licensing Corporation Audio matrix encoding
US6125343A (en) 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
KR100261904B1 (ko) 1997-08-29 2000-07-15 윤종용 헤드폰 사운드 출력장치
US6088461A (en) 1997-09-26 2000-07-11 Crystal Semiconductor Corporation Dynamic volume control system
US6404891B1 (en) * 1997-10-23 2002-06-11 Cardio Theater Volume adjustment as a function of transmission quality
US6233554B1 (en) 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
JP3505085B2 (ja) * 1998-04-14 2004-03-08 アルパイン株式会社 オーディオ装置
US6311155B1 (en) 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6498855B1 (en) 1998-04-17 2002-12-24 International Business Machines Corporation Method and system for selectively and variably attenuating audio data
EP1086607B2 (en) 1998-06-08 2012-04-11 Cochlear Limited Hearing instrument
EP0980064A1 (de) 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
FI113935B (fi) 1998-09-25 2004-06-30 Nokia Corp Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
DE69933929T2 (de) 1999-04-09 2007-06-06 Texas Instruments Inc., Dallas Bereitstellen von digitalen Audio- und Videoprodukten
JP2002543703A (ja) 1999-04-26 2002-12-17 ディーエスピーファクトリー・リミテッド デジタル補聴器用のラウドネス正常化制御
US6263371B1 (en) 1999-06-10 2001-07-17 Cacheflow, Inc. Method and apparatus for seaming of streaming content
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
AR024353A1 (es) 1999-06-15 2002-10-02 He Chunhong Audifono y equipo auxiliar interactivo con relacion de voz a audio remanente
US6675125B2 (en) * 1999-11-29 2004-01-06 Syfx Statistics generator system and method
FR2802329B1 (fr) 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
DE10018666A1 (de) 2000-04-14 2001-10-18 Harman Audio Electronic Sys Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
US6889186B1 (en) 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
JP2002051392A (ja) * 2000-08-01 2002-02-15 Alpine Electronics Inc 車内会話補助装置
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP3448586B2 (ja) 2000-08-29 2003-09-22 独立行政法人産業技術総合研究所 聴覚障害を考慮した音の測定方法およびシステム
US6625433B1 (en) 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6807525B1 (en) 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
DK1206104T3 (da) 2000-11-09 2006-10-30 Koninkl Kpn Nv Måling af en samtalekvalitet af en telefonforbindelse i et telekommunikationsnetværk
US7457422B2 (en) 2000-11-29 2008-11-25 Ford Global Technologies, Llc Method and implementation for detecting and characterizing audible transients in noise
FR2820573B1 (fr) 2001-02-02 2003-03-28 France Telecom Methode et dispositif de traitement d'une pluralite de flux binaires audio
DE10107385A1 (de) 2001-02-16 2002-09-05 Harman Audio Electronic Sys Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken
US6915264B2 (en) 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
DE50102419D1 (de) 2001-04-10 2004-07-01 Phonak Ag Verfahren zur anpassung eines hörgerätes an ein individuum
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
EP1251715B2 (en) 2001-04-18 2010-12-01 Sound Design Technologies Ltd. Multi-channel hearing instrument with inter-channel communication
JP4681163B2 (ja) * 2001-07-16 2011-05-11 パナソニック株式会社 ハウリング検出抑圧装置、これを備えた音響装置、及び、ハウリング検出抑圧方法
CA2354755A1 (en) * 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
WO2003036621A1 (en) 2001-10-22 2003-05-01 Motorola, Inc., A Corporation Of The State Of Delaware Method and apparatus for enhancing loudness of an audio signal
US7068723B2 (en) 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP3832396B2 (ja) * 2002-07-17 2006-10-11 コニカミノルタフォトイメージング株式会社 駆動装置、位置制御装置およびカメラ
JP4257079B2 (ja) 2002-07-19 2009-04-22 パイオニア株式会社 周波数特性調整装置および周波数特性調整方法
DE10236694A1 (de) 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7454331B2 (en) 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
DE10308483A1 (de) 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7551745B2 (en) 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
CA2581810C (en) 2004-10-26 2013-12-17 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8265295B2 (en) 2005-03-11 2012-09-11 Rane Corporation Method and apparatus for identifying feedback in a circuit
PL2002429T3 (pl) 2006-04-04 2013-03-29 Dolby Laboratories Licensing Corp Kontrola słyszalnej charakterystyki głośności sygnału audio
US8504181B2 (en) 2006-04-04 2013-08-06 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the MDCT domain
UA93243C2 (ru) 2006-04-27 2011-01-25 ДОЛБИ ЛЕБОРЕТЕРИЗ ЛАЙСЕНСИНГ КОРПОРЕЙШи Регулирование усиления звука c использованием основанного ha конкретной громкости выявления аккустических событий
WO2008085330A1 (en) 2007-01-03 2008-07-17 Dolby Laboratories Licensing Corporation Hybrid digital/analog loudness-compensating volume control

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hauenstein, 'A computationally efficient algorithm for calculating loudness patterns of narrowband speech', ICASSP 97, pp.1311-1314, April 1997

Also Published As

Publication number Publication date
EP1629463B1 (en) 2007-08-22
IN2010KN02913A (ko) 2015-05-01
DE602004008455D1 (de) 2007-10-04
US20070092089A1 (en) 2007-04-26
JP4486646B2 (ja) 2010-06-23
US8437482B2 (en) 2013-05-07
KR20060013400A (ko) 2006-02-09
JP2007503796A (ja) 2007-02-22
CA2525942C (en) 2015-04-07
AU2004248544B2 (en) 2010-02-18
EP1629463A2 (en) 2006-03-01
MXPA05012785A (es) 2006-02-22
CN101819771B (zh) 2012-04-11
DE602004008455T2 (de) 2008-05-21
SG185134A1 (en) 2012-11-29
PL1629463T3 (pl) 2008-01-31
CA2525942A1 (en) 2004-12-23
IL172108A (en) 2010-11-30
CN101819771A (zh) 2010-09-01
HK1083918A1 (en) 2006-07-14
AU2004248544A1 (en) 2004-12-23
BRPI0410740A (pt) 2006-06-27
ATE371246T1 (de) 2007-09-15
CN1795490A (zh) 2006-06-28
WO2004111994A3 (en) 2005-08-11
ES2290764T3 (es) 2008-02-16
WO2004111994A2 (en) 2004-12-23
HK1105711A1 (en) 2008-02-22
DK1629463T3 (da) 2007-12-10

Similar Documents

Publication Publication Date Title
KR101164937B1 (ko) 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램
US9768748B2 (en) Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
CA2796948C (en) Apparatus and method for modifying an input audio signal
EP2002429B1 (en) Controlling a perceived loudness characteristic of an audio signal
US8199933B2 (en) Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
AU2011244268A1 (en) Apparatus and method for modifying an input audio signal
EP1835487B1 (en) Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150623

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160624

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee