KR102072026B1 - 잡음 검출 및 라우드니스 하락 검출을 포함하는 라우드니스 제어 - Google Patents

잡음 검출 및 라우드니스 하락 검출을 포함하는 라우드니스 제어 Download PDF

Info

Publication number
KR102072026B1
KR102072026B1 KR1020157003794A KR20157003794A KR102072026B1 KR 102072026 B1 KR102072026 B1 KR 102072026B1 KR 1020157003794 A KR1020157003794 A KR 1020157003794A KR 20157003794 A KR20157003794 A KR 20157003794A KR 102072026 B1 KR102072026 B1 KR 102072026B1
Authority
KR
South Korea
Prior art keywords
loudness
noise
signal
estimate
smoothing
Prior art date
Application number
KR1020157003794A
Other languages
English (en)
Other versions
KR20150036581A (ko
Inventor
브랜든 스미스
아론 워너
제프 톰슨
Original Assignee
디티에스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스, 인코포레이티드 filed Critical 디티에스, 인코포레이티드
Publication of KR20150036581A publication Critical patent/KR20150036581A/ko
Application granted granted Critical
Publication of KR102072026B1 publication Critical patent/KR102072026B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems

Abstract

라우드니스(loudness) 제어 시스템들 또는 방법들은 오디오 신호들을 미리 결정된 라우드니스 레벨로 정규화할 수 있다. 상기 오디오 신호가 중간 정도의 백그라운드 잡음을 포함하는 경우, 상기 백그라운드 잡음도 또한 상기 목표 라우드니스 레벨로 정규활될 수 있다. 잡음 신호들은 콘텐츠 대 잡음 분류(content-versus-noise classification)를 이용하여 검출될 수 있고, 라우드니스 제어 시스템 또는 방법은 잡음의 검출에 기반하여 조정될 수 있다. 잡음 신호들은 주파수 도메인에서 또는 시간 도메인에서 신호 분석에 의해 검출될 수 있다. 라우드니스 제어 시스템들은 또한, 콘텐츠가 높은 전체 라우드니스 레벨에서 더 낮은 전체 라우드니스 레벨로 이동하는 경우, 원치 않는 오디오 효과들을 생성할 수 있다. 그러한 라우드니스 하락들이 검출될 수 있고, 상기 라우드니스 제어 시스템은 라우드니스 레벨들 간의 전환들 동안 상기 원치 않는 효과들을 최소화하도록 조정될 수 있다.

Description

잡음 검출 및 라우드니스 하락 검출을 포함하는 라우드니스 제어 {LOUDNESS CONTROL WITH NOISE DETECTION AND LOUDNESS DROP DETECTION}
<관련 출원의 상호 참조>
본 출원은, 2012년 7월 12일에 출원된, 미국 가출원 제 61/670,991호 및, 2012년 7월 12일에 출원된, 미국 가출원 제 61/671,005호의 이익을 주장하며, 이들 가출원들은 완전히 기술되는 것처럼 인용에 의해 통합된다.
본 출원은 라우드니스 제어 시스템(loudness control system)들에 관한 것이다.
라우드니스 제어 시스템들은 다양한 라우드니스 레벨들을 갖는 입력 오디오 신호로부터 균일한 라우드니스 레벨을 갖는 출력 오디오 신호를 발생시키도록 설계될 수 있다. 이들 시스템들은 오디오 방송 체인들과 같은 응용들 및 다양한 라우드니스 레벨들의 다수의 콘텐츠 소스들이 이용가능한 오디오 재생 장치들에 이용될 수 있다. 상기 라우드니스 제어 시스템의 예시적인 목표는, 청취자가 그들의 재생 장치의 볼륨 조절장치를 계속해서 조정할 필요 없이, 균일한 평균 라우드니스 레벨을 갖는 출력 신호를 자동적으로 제공하는 것일 수 있다.
자동 이득 제어(automatic gain control, AGC) 및 동적 범위 제어(dynamic range control, DRC) 시스템들은 라우드니스 제어 시스템들과 관련된다. AGC 시스템들은 현대 라우드니스 제어 시스템들의 선도자였으며, 많은 초창기 설계들이 아날로그 회로들로 구현되었던, 통신 및 방송 응용들에서 긴 역사를 가지고 있다. AGC 시스템들은 시변 이득 신호(time-varying gain signal)와 입력 신호를 곱하여 작동될 수 있으며, 여기서 상기 이득 신호는 출력 신호의 객관적 척도(objective measure)가 미리 결정된 목표 레벨로 정규화되도록(normalized) 제어된다. 예를 들면, 평균 제곱근(root-mean-square, RMS), 피크(peak), 진폭(amplitude), 또는 에너지 척도들과 같은, 객관적 척도들이 사용될 수 있다. 기존 AGC 설계들의 한 가지 단점은 출력 신호의 인식된(perceived) 라우드니스가 여전히 예측할 수 없을 수 있다는 것이다. 이는 인식된 라우드니스가 RMS, 피크, 진폭, 또는 에너지 레벨들과 같은 객관적 척도들과 단지 개략적으로 상호연관되는 주관적 척도(subjective measure)라는 심리음향 현상(psychoacoustic phenomenon) 때문이다. 따라서, AGC는 출력 신호의 RMS값을 적절히 제어할 수 있지만, 그것이 반드시 상기 인식된 라우드니스가 균일하게 되도록 하는 결과를 가져오는 것은 아니다.
DRC 시스템들도 또한 라우드니스 제어 시스템들과 관련되지만, 약간 다른 목표를 가진다. DRC 시스템은 신호의 장기 평균 레벨(long-term average level)이 이미 예상되는 레벨로 정규화되어 있다고 가정하고 단지 단기 다이내믹스(short-term dynamics)를 수정하려고 시도한다. DRC 시스템은 소리가 큰 이벤트들(loud events)이 감쇠되고 조용한 이벤트들(quiet events)이 증폭되도록 상기 다이내믹스를 압축한다. 이는 상기 단기 신호 다이내믹스를 유지하면서 신호의 평균 라우드니스 레벨을 정규화하려는 라우드니스 제어 시스템의 목표와 상이하다.
현대의 라우드니스 제어 시스템들은 심리음향학 및 라우드니스 인식 분야들로부터의 지식을 통합하여 AGC 및 DRC 설계들을 개선하고자 시도한다. 라우드니스 제어 시스템들은 출력 신호의 평균 라우드니스 레벨이 미리 결정된 목표 라우드니스 레벨로 정규화될 수 있도록 입력 신호의 인식된 라우드니스를 추정하고 시변 이득을 제어하여 작동될 수 있다.
기존 라우드니스 제어 시스템들의 문제는 원하는 콘텐츠와 원치 않는 잡음이 구분되지 않아, 미리 결정된 한계치보다 큰 모든 저레벨 오디오 콘텐츠가 증폭된다는 것이다. 기존 라우드니스 제어 시스템들에 대해 공통적으로 문제되는 신호는 중간 정도의(moderate) 백그라운드 잡음을 갖는 음성(speech)이다. 상기 음성이 오래 중단되는 경우, 상기 라우드니스 제어 시스템은 상기 백그라운드 잡음을 증폭시키기 시작할 수 있다. 결과적으로 초래되는 신호 대 잡음비(signal-to-noise ratio, SNR)의 감소는 어떤 청취자들에게는 불쾌한 것일 수 있다. 상기 라우드니스 제어 시스템이 잡음 레벨들의 상대적인 증폭을 피하는 것이 바람직할 것이며, 이에 따라 입력 신호의 SNR을 유지한다.
라우드니스 제어 시스템들에 대해 다른 도전할만한 시나리오는 콘텐츠 내(intra-content) 단기 신호 다이내믹스를 부정적으로 제한함이 없이 균일한 평균 라우드니스 레벨을 유지하는 것이다. 라우드니스 변화에 빨리 반응하는 시스템은 원하는 목표 레벨을 일관되게 달성할 수 있지만, 감소된 단기 신호 다이내믹스를 희생시킬 수 있다. 반면에, 라우드니스 변화에 느리게 반응하는 시스템은 라우드니스 레벨을 효과적으로 제어하지 못할 수 있거나, 또는 입력 신호 라우드니스 레벨이 크게 변화하는 동안 램핑(ramping)과 같은 뚜렷한 아티팩트들(artifacts)을 나타낼 수 있다. 큰 장기 라우드니스 변화는, 프로그램 전환 또는 콘텐츠 소스 변경과 같은, 콘텐츠 간(inter-content) 전환들 동안 가장 일반적인 것이다. 큰 콘텐츠 간 라우드니스 전환들이 빠르게 제어되는 동안 콘텐츠 내 단기 신호 다이내믹스가 유지되도록, 라우드니스 제어 시스템 내에서 콘텐츠 간 및 콘텐츠 내 변동들(fluctuations) 둘 모두를 상이하게 다루는 것이 바람직할 것이다.
라우드니스 제어 시스템들 및 방법들은 오디오 콘텐츠를 미리 결정된 라우드니스 레벨로 정규화할 수 있다. 상기 오디오 콘텐츠가 중간 정도의(moderate) 백그라운드 잡음을 포함하는 경우, 상기 백그라운드 잡음도 또한 상기 목표 라우드니스 레벨로 정규화될 수 있다. 잡음 신호들은 콘텐츠 대 잡음 분류(content-versus-noise classification)를 이용하여 검출될 수 있고, 라우드니스 제어 시스템 또는 방법은 입력 신호의 SNR을 유지하기 위해 상기 잡음의 검출에 기반하여 조정될 수 있다. 잡음 신호들은 주파수 도메인에서 또는 시간 도메인에서 신호 분석에 의해 검출될 수 있다. 라우드니스 제어 시스템들은 또한, 높은 장기 라우드니스 레벨에서 더 낮은 장기 라우드니스 레벨로의 콘텐츠 전환들이 있는 경우, 원치 않는 오디오 아티팩트들(artifacts)을 생성시킬 수 있다. 그러한 라우드니스 하락들(loudness drops)은 검출될 수 있으며, 상기 라우드니스 제어 시스템은 라우드니스 레벨들 간의 상기 전환 동안 원치 않는 아티팩트들을 최소화하도록 조정될 수 있다.
일 실시예에 따르면, 라우드니스 제어 시스템은 오디오 신호를 처리하도록 구성될 수 있다. 상기 라우드니스 제어 시스템은 상기 오디오 신호의 단기 라우드니스 추정치를 발생시키도록 구성되는 라우드니스 측정 모듈(loudness measurement module)을 포함할 수 있다. 상기 라우드니스 제어 시스템은 상기 오디오 신호의 콘텐츠 대 잡음 분류를 생성하도록 구성되는 잡음 검출 모듈(noise detection module)을 더 포함할 수 있다. 상기 라우드니스 제어 시스템은 상기 콘텐츠 대 잡음 분류 결과에 기반하여 적어도 하나의 평활화 인자(smoothing factor)를 조정하고 상기 적어도 하나의 평활화 인자를 이용하여 상기 단기 라우드니스 추정치에 기반하여 상기 오디오 신호의 장기 라우드니스 추정치를 발생시키도록 구성되는 시간적 평활화 모듈(temporal smoothing module)을 더 포함할 수 있다. 상기 라우드니스 제어 시스템은 상기 장기 라우드니스 추정치에 기반하여 상기 오디오 신호에 시변 이득(time-varying gain)을 적용하도록 구성되는 이득 보정 모듈(gain correction module)을 더 포함할 수 있다. 상기 잡음 검출 모듈은 상기 콘텐츠 대 잡음 분류 결과를 생성하기 위해 주파수 도메인 잡음 검출 또는 시간 도메인 잡음 검출을 이용하도록 구성될 수 있다. 상기 적어도 하나의 평활화 인자는 상기 이득 보정 모듈이 이득 레벨을 높일 수 있는 속도를 제어하는 해제 평활화 인자(release smoothing factor)를 포함할 수 있다. 상기 콘텐츠 대 잡음 분류는 범위 [0,1]에 걸쳐 정규화될 수 있다. 상기 라우드니스 제어 시스템은 라우드니스 하락 검출 값을 발생시키도록 구성되는 라우드니스 하락 검출 모듈(loudness drop detection module)을 더 포함할 수 있으며, 여기서 상기 시간적 평활화 모듈은 라우드니스 하락 검출 값에 기반하여 상기 적어도 하나의 평활화 인자를 조정하도록 더 구성될 수 있다.
다른 실시예에 따르면, 라우드니스 제어 시스템은 오디오 신호를 처리하도록 구성될 수 있다. 상기 라우드니스 제어 시스템은 상기 오디오 신호의 단기 라우드니스 추정치를 발생시키도록 구성되는 라우드니스 측정 모듈을 포함할 수 있다. 상기 라우드니스 제어 시스템은 라우드니스 하락 검출 값을 발생시키도록 구성되는 라우드니스 하락 검출 모듈을 더 포함할 수 있다. 상기 라우드니스 제어 시스템은 상기 라우드니스 하락 검출 값에 기반하여 적어도 하나의 평활화 인자를 조정하고 상기 적어도 하나의 평활화 인자를 이용하여 상기 단기 라우드니스 추정치에 기반하여 상기 오디오 신호의 장기 라우드니스 추정치를 발생시키도록 구성되는 시간적 평활화 모듈을 더 포함할 수 있다. 상기 라우드니스 제어 시스템은 상기 장기 라우드니스 추정치에 기반하여 상기 오디오 신호에 시변 이득을 적용하도록 구성되는 이득 보정 모듈을 더 포함할 수 있다. 상기 적어도 하나의 평활화 인자는 상기 이득 보정 모듈이 이득 레벨을 높일 수 있는 속도를 제어하는 해제 평활화 인자를 포함할 수 있다. 상기 라우드니스 하락 검출값은 범위 [0,1]에 걸쳐 정규화될 수 있다. 상기 라우드니스 제어 시스템은 상기 오디오 신호의 콘텐츠 대 잡음 분류를 생성하도록 구성되는 잡음 검출 모듈을 더 포함할 수 있으며, 여기서 상기 시간적 평활화 모듈은 상기 콘텐츠 대 잡음 분류에 기반하여 상기 적어도 하나의 평활화 인자를 조정하도록 더 구성될 수 있다.
다른 실시예에 따르면, 시스템은 주파수 도메인 잡음 검출을 수행하도록 구성될 수 있다. 상기 시스템은 복수의 채널들을 포함하는 입력 신호를 수신하고 상기 복수의 채널들을 합산하여 모노 신호(mono signal)를 발생시키도록 구성되는 합산 컴포넌트(summing component)를 포함할 수 있다. 상기 시스템은 상기 모노 신호에 단기 푸리에 변환(short-term Fourier transform, STFT)을 적용하여 주파수 도메인 신호를 발생시키도록 구성되는 단기 푸리에 변환(STFT) 컴포넌트를 더 포함할 수 있다. 상기 시스템은 상기 주파수 도메인 신호에 기반하여 파워 스펙트럼(power spectrum)을 발생시키고 상기 파워 스펙트럼을 데시벨(dB) 도메인으로 변환하도록 구성되는 데시벨 컨버터(decibel converter)를 더 포함할 수 있다. 상기 시스템은 상기 파워 스펙트럼의 각 주파수 대역의 에너지의 시간 평균들을 추정하여 시간-평활화된 파워 스펙트럼을 발생시키도록 구성되는 시간적 평활화 컴포넌트를 더 포함할 수 있다. 상기 시스템은 상기 파워 스펙트럼과 상기 시간-평활화된 파워 스펙트럼의 평균 차이(mean difference)를 계산하여 상기 파워 스펙트럼의 스펙트럼 플럭스(spectral flux) 값을 계산하도록 구성되는 스펙트럼 플럭스 측정 컴포넌트를 더 포함할 수 있다. 상기 시스템은 이웃 서브-대역들과 비교하여 서브-대역의 상대 에너지를 측정함으로써 상기 파워 스펙트럼의 각각의 서브-대역의 음색 특성(tonal characteristic)을 추정하여 피키니스값(peakiness value)을 발생시키도록 구성되는 피키니스 측정 컴포넌트를 더 포함할 수 있다. 상기 시스템은 상기 파워 스펙트럼의 상기 스펙트럼 플럭 스값, 상기 피키니스 값 및 상기 파워 스펙트럼에 기반하여 잡음 파워 스펙트럼(noise power spectrum)을 추정하고 신호 대 잡음비(signal-to-noise ratio, SNR)를 발생시키도록 구성되는 신호 대 잡음비(SNR) 추정기 컴포넌트를 더 포함할 수 있다. 상기 시스템은 상기 SNR에 기반하여 평활화된 SNR을 발생시키도록 구성되는 시간적 평활화 컴포넌트를 더 포함할 수 있다. 상기 시스템은 상기 SNR에 기반하여 상기 입력 신호에 대한 콘텐츠 대 잡음 분류 값을 발생시키도록 구성되는 히스테리시스(hysteresis) 컴포넌트를 더 포함할 수 있다. 상기 SNR 추정기 컴포넌트는 원하는 콘텐츠의 컴포넌트들인 것으로 가정되는 상기 신호의 원래(original) 스펙트럼으로부터 임의의 시간적 다이내믹스(temporal dynamics) 또는 음색 컴포넌트들(tonal components)을 제거하여 상기 신호의 상기 잡음 파워 스펙트럼을 추정하도록 구성될 수 있다. 상기 콘텐츠 대 잡음 분류는 범위 [0,1]에 걸쳐 정규화될 수 있다. 상기 신호 대 잡음 추정기 컴포넌트는 광대역(wide-band) 잡음 레벨 및 신호 레벨을 계산하도록 구성될 수 있다. 상기 시스템은 라우드니스 제어 시스템에 포함될 수 있으며, 상기 라우드니스 제어 시스템은 상기 콘텐츠 대 잡음 분류값에 기반하여 이득 보정 속도들을 조정하도록 구성되는 시간적 평활화 컴포넌트를 포함할 수 있다.
다른 실시예에 따르면, 시스템은 시간 도메인 잡음 검출을 수행하도록 구성될 수 있다. 상기 시스템은 복수의 채널들을 포함하는 입력 신호를 수신하고 상기 복수의 채널들을 합산하여 모노 신호를 발생시키도록 구성되는 합산 컴포넌트를 포함할 수 있다. 상기 시스템은 상기 모노 신호를 단기 포락선 추정치(short-term envelope estimate)로 변환하도록 구성되는 평균 제곱근(root-mean-square, RMS) 컴포넌트를 더 포함할 수 있다. 상기 시스템은 상기 단기 포락선 추정치에 대한 데시벨(dB) 변환을 수행하도록 구성되는 데시벨 컨버터를 더 포함할 수 있다. 상기 시스템은 장기 평균 포락선 추정치(long-term mean envelope estimate)를 발생시키기 위해 상기 단기 포락선 추정치의 평균을 내도록 구성되는 평활화 필터(smoothing filter)를 더 포함할 수 있다. 상기 시스템은 포락선 값을 발생시키기 위해 상기 단기 포락선 추정치에서 상기 장기 평균 포락선 추정치를 빼도록 구성되는 차감(subtraction) 컴포넌트를 더 포함할 수 있다. 상기 시스템은 상기 포락선 값을 반파 정류하도록 구성되는 반파 정류기(half-wave rectifier) 컴포넌트를 더 포함할 수 있다. 상기 시스템은 상기 포락선 값에 기반하여 온셋(onset) 에너지의 평균 및 오프셋(offset) 에너지의 평균을 추정하도록 구성되는 적어도 두 개의 평활화 필터들을 더 포함할 수 있다. 상기 시스템은 상기 온셋 에너지의 평균과 상기 오프셋 에너지의 평균 간의 정규화된 제곱 오차(normalized squared error)를 계산하도록 구성되는 정규화된 오차 계산기(normalized error calculator)를 더 포함할 수 있다. 상기 시스템은 상기 정규화된 제곱 오차를 시간적으로 평활화하도록 구성되는 시간적 평활화 컴포넌트를 더 포함할 수 있다. 상기 시스템은 콘텐츠 대 잡음 분류를 발생시키기 위해 상기 평활화된 정규화된 제곱 오차에 히스테리시스를 적용하도록 구성되는 히스테리시스 컴포넌트를 더 포함할 수 있다. 상기 평활화 필터는 상기 단기 포락선 추정치의 지수 이동 평균(exponential moving average, EMA)을 취하도록 구성될 수 있다. 상기 시간적 평활화 컴포넌트는 신호 의존적인 평활화 인자를 이용한다. 상기 평활화 인자는 상이한 공격(attack) 및 해제(release) 특성들을 가진다. 상기 콘텐츠 대 잡음 분류는 범위 [0,1]에 걸쳐 정규화된다. 상기 청구되는 시스템은 라우드니스 제어 시스템에 포함될 수 있으며, 상기 라우드니스 제어 시스템은 상기 콘텐츠 대 잡음 분류 값에 기반하여 이득 보정 속도들을 조정하도록 구성되는 시간적 평활화 컴포넌트를 포함할 수 있다.
다른 실시예에 따르면, 시스템은 라우드니스 하락 검출을 수행하도록 구성될 수 있다. 상기 시스템은 입력 신호를 수신하고 상기 입력 신호에 기반하여 단기 라우드니스 추정치를 계산하도록 구성되는 단기 라우드니스 측정 모듈을 포함할 수 있다. 상기 시스템은 느린 평활화된 라우드니스 추정치 및 빠른 평활화된 라우드니스 추정치를 계산하도록 구성되는 적어도 두 개의 시간적 평활화 필터들을 더 포함할 수 있다. 상기 시스템은 차이 값을 발생시키기 위해 상기 느린 평활화된 라우드니스 추정치에서 상기 빠른 평활화된 라우드니스 추정치를 차감하도록 구성되는 차감 모듈을 더 포함할 수 있다. 상기 시스템은 정류된 차이 값을 발생시키기 위해 상기 차이 값를 반파 정류하도록 구성되는 반파 정류기 모듈을 더 포함할 수 있다. 상기 시스템은 하락 검출(drop detection) 값을 발생시키기 위해 상기 정류된 차이 값을 정규화하도록 구성되는 정규화 모듈(nomalization module)을 더 포함할 수 있다. 상기 단기 라우드니스 측정 모듈은 상기 단기 라우드니스 추정치를 계산하기 위해 ITU-R BS.1770 라우드니스 척도(loudness measure)를 이용하도록 구성될 수 있다. 상기 적어도 두 개의 시간적 평활화 필터들은 각각 느린 평활화 인자 및 빠른 평활화 인자를 이용하도록 구성될 수 있으며, 상기 느린 및 빠른 평활화 인자들은 상기 입력 신호의 다이내믹스(dynamics)에 기반하여 동적으로 변경된다. 상기 느린 평활화 인자 및 상기 빠른 평활화 인자는 신호 다이내믹스의 높은 척도들(high measures)을 갖는 입력 신호들에 대해 상호간에 느려질 수 있다. 상기 느린 평활화 인자 및 상기 빠른 평활화 인자는 신호 다이내믹스의 낮은 척도들(low measures)을 갖는 입력 신호들에 대해 상호간에 가속될 수 있다. 상기 정규화 모듈은 상기 하락 검출 값을 계산하기 위해 변환(translation), 스케일링(scaling) 및 포화(saturation)를 이용할 수 있다. 상기 정규화 모듈은 [0,1]의 범위에서 상기 하락 검출 값을 발생시키도록 구성될 수 있으며, 1의 하락 검출 값은 라우드니스 하락이 검출되었다는 것을 나타내고 0의 하락 검출 값은 아무런 하락도 검출되지 않았다는 것을 나타낸다. 상기 시스템은 라우드니스 제어 시스템에 포함될 수 있으며, 상기 라우드니스 제어 시스템은 상기 하락 검출 값에 기반하여 이득 보정 속도들을 조정하도록 구성되는 시간적 평활화 컴포넌트를 포함할 수 있다.
도 1은 출력 음파들을 생성하기 위해 오디오 처리 시스템을 통과하는 입력 음파들의 블록도를 도시한다;
도 2는 라우드니스 제어 시스템의 블록도를 도시한다;
도 3은 일 실시예에 따른, 주파수 도메인 잡음 검출 시스템의 블록도를 도시한다;
도 4a 및 도 4b는 음악의 짧은 세그먼트 및 잡음의 짧은 세그먼트에 대한 파워 스펙트럼을 도시한다;
도 4c 및 도 4d는 각각 음악의 세그먼트 및 잡음의 세그먼트에 대한 잡음 파워 스펙트럼의 추정치를 도시하며, 여기서 상기 신호의 음색(tonal) 및 과도(transient) 구조는 제거되었다;
도 4e는 음악의 세그먼트에 뒤이어 잡음의 세그먼트으로 이루어지는 신호에 대해 주파수 도메인 잡음 검출 시스템으로부터 출력되는 콘텐츠 대 잡음 분류를 도시한다;
도 5는 일 실시예에 따른, 시간 도메인 잡음 검출 시스템의 블록도를 도시한다;
도 6a는 콘텐츠-잡음 전환(content-to-noise transition)에 걸친 신호 포락선(signal envelope) 및 평활화된 신호 포락선(smoothed signal envelope)을 도시한다;
도 6b는 도 6a에 대응하는 시간 도메인 잡음 검출 시스템으로부터 출력되는 예시적 분류를 도시한다;
도 7은 일 실시예에 따른, 잡음 검출 기능을 갖는 라우드니스 제어 시스템의 블록도를 도시한다;
도 8은 일 실시예에 따른, 라우드니스 하락 검출 시스템의 블록도를 도시한다;
도 9는 단기 라우드니스 추정치, 두 개의 평활화된 필터 출력들에 대해 dB로 나타낸 예시적 신호들, 및 라우드니스 하락 검출 시스템 내에서의 결과적인 라우드니스 하락 검출 신호를 도시한다;
도 10a 내지 도 10d는, 라우드니스 하락 검출 시스템에서 상이한 평활화 인자 선택들에 대한, 단기 라우드니스 추정치, 두 개의 평활화된 필터 출력들, 및 라우드니스 하락 검출 신호의 예들을 각각 도시한다;
도 11은 일 실시예에 따른, 동적 평활화 인자들을 갖는 라우드니스 하락 검출 시스템의 블록도를 도시한다;
도 12a 및 도 12b는, 라우드니스 하락 검출 시스템에서 동적 평활화 인자들을 갖는, 단기 라우드니스 추정치, 평활화된 필터 출력들, 및 라우드니스 하락 검출 신호의 예들을 각각 도시한다;
도 13은 일 실시예에 따른, 라우드니스 하락 검출 기능을 갖는 라우드니스 제어 시스템의 블록도를 도시한다; 및
도 14는 일 실시예에 따른, 잡음 검출 기능 및 라우드니스 하락 검출 기능을 갖는 라우드니스 제어 시스템의 블록도를 도시한다.
음파는 공기와 같이 압축가능한 매질을 통해 전파되는 물체의 진동(vibration)에 기인하는 압력파의 일종이다. 음파는 물질을 진동하게(oscillate) 만드는 상기 매질(예를 들면, 공기)에서 상기 물질을 주기적으로 변위시킨다. 상기 음파의 주파수는 시간 기간 내에서의 완전한 주기 수를 묘사하며 헤르츠(Hz)로 표현된다. 12 Hz 내지 20,000 Hz 범위의 음파들은 사람들이 들을 수 있다.
도 1은 출력 음파들(135)을 생성하기 위해 오디오 처리 시스템을 통과하는 입력 음파들(105)의 흐름도(100)를 도시한다. 오디오 신호는 가청 음파를 전기 전압으로서 표현한 것이다. 예를 들면, 마이크(microphone)와 같은 장치(110)는, 역학적 에너지(mechanical energy)인, 음압파들(sound pressure waves)을 수신하여 전기 에너지 또는 오디오 신호들(115)로 변환시킨다. 유사하게, 스피커(loudspeaker) 또는 헤드폰들과 같은 장치(130)는 전기적 오디오 신호(125)를 가청 음파(135)로 변환시킨다. 오디오 신호 처리 블록(120)은 상기 오디오 신호의 가청 효과를 변경하기 위해 오디오 신호들(115)을 의도적으로 조작하는 것이다. 오디오 신호 처리는 아날로그 또는 디지털 도메인들에서 수행될 수 있다.
아날로그 오디오 신호는, 예를 들면, 전압, 전류 또는 전하 변화의 형태로 전기 회로를 따라가는, 데이터의 연속적인 스트림(stream)으로 표현된다. 아날로그 신호 처리(analog signal processing, ASP)는 다양한 전기적 수단을 통해 상기 전압 또는 전류 또는 전하를 변화시켜 상기 연속적인 신호를 물리적으로 변경한다. 디지털 오디오 신호는 아날로그 오디오 신호의 샘플링(sampling)을 통해 생성되며, 여기서 상기 신호는, 신호 처리를 위한 마이크로프로세서들 및 컴퓨터들과 같은 디지털 회로들을 사용할 수 있게 하는, 일련의 기호들, 통상적으로 이진수들로서 표현된다. 이 경우에, 처리는 상기 신호의 디지털 표현에 대해 수행된다. 라우드니스 제어(loudness control)는 오디오 신호 처리의 예이다.
본 명세서에서 설명되는 실시예들은 오디오 신호들에 적용되는 라우드니스 제어 시스템들 및 방법들에 관해 설명되지만, 그러나 개념들 및 개선들이 다른 오디오 신호 처리 시스템들, 예를 들면, AGC 및 DRC 시스템들 및 방법들에 유사하게 적용될 수 있다는 것을 가정하고 있다. 라우드니스 제어 시스템들은, 청취자에게 더 만족스러운 균일한 라우드니스 레벨을 갖는 출력 오디오 신호를 생성하기 위해, 다양한 라우드니스 레벨들을 갖는 입력 오디오 신호를 조작하는 역할을 할 수 있다.
약간의 표기 규약이 본 명세서에서 설명되는 실시예들에 걸쳐 사용된다. 신호 x[n]은 샘플 인덱스(sample index) n 및 샘플 레이트(sample rate) Fsn을 갖는 시계열(time series)이다. 상기 신호 x[n]은 다수의 오디오 채널들 C로 이루어질 수 있으며 c가 채널 인덱스 0≤c≤C-1인 특정 채널들을 특정하기 위해 xc[n]으로 표시될 수 있다. 신호 x[m]은, x[m]의 샘플 레이트가 Fsm=Fsn/M이 되도록, M의 인자에 의해 다운-샘플링된(down-sampled) 시계열일 수 있다.
라우드니스 제어 시스템(loudness control system, 200)의 고수준의 블록도가 도 2에 도시되어 있다. 라우드니스 제어 시스템(200)은 적어도 다음의 세 개의 핵심 모듈들을 포함할 수 있다: 라우드니스 측정 모듈(loudness measurement module, 205), 시간적 평활화 모듈(temporal smoothing module, 210), 및 이득 보정 모듈(gain correction module, 215). 상기 라우드니스 제어 시스템(200)은 향상된 라우드니스 특성을 갖는 출력 오디오 신호 y[n]을 생성하기 위해 입력되는(incoming) 오디오 신호 x[n]을 변경할 수 있다. 예를 들면, 라우드니스 제어 시스템(200)은 도 1의 상기 오디오 처리 시스템(100)에서의 상기 오디오 처리 블록(120)의 일부일 수 있다.
도 2를 참조하면, 상기 라우드니스 측정 모듈(205)은 상기 입력 신호 x[n]의 짧은 세그먼트(segment)을 분석할 수 있고, 단기 라우드니스 추정치(short-term loudness estimate) Lshort[m]를 발생시킬 수 있다. 상기 시간적 평활화 모듈(210)은 시간에 대해 상기 단기 라우드니스 추정치들을 평활화하여 장기 평균 라우드니스 레벨(long-term average loudness level) Lave[m]의 추정치를 제공할 수 있다. 상기 이득 보정 모듈(215)은 상기 입력 신호 x[n]에 시변 보간 이득(time-varying interpolated gain)을 적용할 수 있으며, 여기서 상기 이득은 상기 출력 신호 y[n]의 상기 장기 평균 라우드니스 레벨이 미리 결정된 목표 라우드니스 레벨과 같아질 수 있도록 제어될 수 있다.
상기 라우드니스 측정 모듈(205)은 오디오 신호의 인식된 라우드니스를 추정하기 위해 어떠한 프로세스라도 이용할 수 있다. 그러한 프로세스들의 예들로는 다음과 같은 것들이 있다:
● 국제 전기 표준 회의(International Electrotechnical Commission, IEC)에 의해 정의되는 바와 같이, A, B, 또는 C 주파수 가중치와 결합될 수 있는, 라우드니스 등가 척도들(loudness equivalent measures, Leq);
● 국제 표준화 기구(International Organization for Standardization, ISO)에 의해 정의되는 표준의 근거였던, Zwicker 및 Fastl의 라우드니스 모델( Zwicker and Fastl loudness model); 및
● 국제 전기통신 연합(International Telecommunication Union, ITU)에 의해 정의되는 바와 같이, 개정 저주파 B-가중치(revised low-frequency B-weighting, RLB) 주파수 가중치 및 프리필터(pre-filter)와 결합되는 Leq 척도.
예를 들면, ITU 권고(ITU Recommendation, ITU-R) BS.1770 라우드니스 측정 시스템이 라우드니스 제어 시스템(200)의 상기 라우드니스 측정 모듈(205)에 이용될 수 있다. 상기 ITU-R BS.1770 방법은 선진 텔레비전 시스템 위원회(Advanced Television Systems Committee) 및 유럽 방송 연맹(European Broadcasting Union)을 포함하는 방송 산업에서 널리 채택한 국제 표준이다. 상기 ITU-R BS.1770의 구현은 일반적으로 전산(computational) 및 메모리 요구조건들이 낮으며, 청취자에 의한 라우드니스 인식과 잘 상호연관된다는 것을 보여 주었다.
상기 라우드니스 측정 모듈(205)은 상기 입력 신호 x[n]의 짧은 세그먼트들, 예를 들면, 5 내지 10 밀리초의 세그먼트들의 인식된 라우드니스를 추정할 수 있다. 결과적인 단기 라우드니스 추정치들 Lshort[m]은, 예를 들면, 라우드니스 제어 설계 및 구현에 따라 진폭(amplitude), 에너지, 또는 데시벨(decibel, dB) 도메인들에서 표현될 수 있다.
라우드니스 제어 시스템(200)의 목표는, 단기 신호 다이내믹스(short-term signal dynamics)를 과도하게 압축함이 없이, 균일한 평균 라우드니스 레벨을 갖는 출력 신호 y[n]을 발생시키는 것일 수 있다. 따라서, 상기 시간적 평활화 모듈(210)은 신호의 장기 평균 라우드니스 레벨의 추정치를 얻기 위해 시간에 대해 상기 단기 라우드니스 추정치들을 평균하거나 또는 평활화할 수 있다. 상기 단기 라우드니스 추정치들에 대해 시간적 평활화를 수행하는 방법은, 예를 들면, 다음의 식에 따라, 단극(single-pole) 지수 이동 평균(exponential moving average, EMA) 필터를 적용하는 것일 수 있다:
Figure 112015014927744-pct00001
상기 식에서 Lshort[m]은 상기 단기 라우드니스 추정치가고, Lave[m]은 상기 장기 평균 라우드니스 추정치며, α는 상기 시간적 평활화의 거동을 제어하는 평활화 인자(smoothing factor)이다.
상기 시간적 평활화 모듈(210)은 상이한 평활화 인자 α 값들을 이용하여 별도의 "공격(attack)" 및 "해제(release)" 거동들을 갖도록 설계될 수 있다. 공격 페이즈(attack phase)는 이전의 평균 라우드니스 추정치들 Lave[m]보다 더 소리가 큰 새롭게 획득된 단기 라우드니스 추정치들 Lshort[m]을 말하는 것일 수 있다. 해제 페이즈(release phase)는 이전의 평균 라우드니스 추정치들 Lave[m]보다 더 조용한 새롭게 획득된 단기 라우드니스 추정치들 Lshort[m]을 말하는 것일 수 있다. 따라서:
Figure 112015014927744-pct00002
상기 공격 및 해제 평활화 인자들 αattack 및 αrelease가 상기 평균 라우드니스 레벨의 장기 추정치가 근사화되도록(approximated) 설정될 수 있으며, 여기서 상기 공격 평활화 인자 αattack는 인간의 청각계의 비대칭적 라우드니스 통합과 근사시키기 위해 상기 해제 평활화 인자 αrelease보다 더 빠른 속도로 설정될 수 있다.
상기 공격 및 해제 평활화 인자들의 튜닝(tunning)은 응용 특정적일 수 있으며 상기 출력 라우드니스 레벨의 일관성에 영향을 미칠 수 있다. 비교적 느린 공격 및 해제 인자들을 갖는 경우, 상기 평균 라우드니스 추정치는 상기 신호 라우드니스 레벨들을 너무 느리게 추적할(tracking) 수 있고, 결과적으로 상당히 변동될 수 있는 출력 라우드니스 레벨들을 초래할 수 있다. 비교적 빠른 공격 및 해제 인자들을 갖는 경우, 상기 평균 라우드니스 추정치는 상기 단기 신호 다이내믹스를 너무 가깝게 추적할 수 있고, 결과적으로 일관된 라우드니스 레벨들을 갖지만 너무 압축된 신호 다이내믹스를 갖는 출력 신호 y[n]을 초래할 수 있다.
라우드니스 제어 시스템(200)은 정적 잡음 한계치(static noise threshold) Tnoise,static를 포함할 수 있으며, 여기서 이 한계치 미만의 입력 신호들은 원치 않는 잡음으로 가정되고 이 한계치를 초과하는 입력 신호들은 원하는 콘텐츠로 가정된다. 라우드니스 제어 시스템들은, 잡음의 부적당한 증폭이 감소될 수 있도록, 가정되는 잡음 레벨들에 반응하는 것을 피하도록 설계될 수 있다. 따라서, 상기 잡음 한계치 Tnoise , static 미만으로 측정되는 단기 라우드니스 추정치들은 상기 장기 평균 라우드니스 추정치에 포함되지 않을 수 있어, 상기 평균 라우드니스 추정치를 그것의 이전 값으로 효과적으로 "동결(freezing)"시킬 수 있다.
상기 단기 라우드니스 추정치 Lshort[m]이 상기 정적 잡음 한계치 Tnoise , static 미만인 경우에 상기 평균 라우드니스 추정치를 동결시키는 한 가지 방법은 상기 시간적 평활화 필터에 조건을 추가하는 것일 수 있으며, 이에 의해 상기 평균 라우드니스 추정치는 α를 0으로 설정하여 그것의 이전 값으로 효과적으로 유지될 수 있다:
Figure 112015014927744-pct00003
이는 잡음으로 가정되는 저레벨 신호들에 대해 반응하는 것을 피하기 위해 이용될 수 있는 많은 방법들 중 단지 하나일 뿐이다.
상기 이득 보정 모듈(215)은 미리 결정된 목표 라우드니스 레벨 TardB와 상기 평균 라우드니스 추정치 Lave , dB[m] 간의 차이를 취하여 시변 이득 값 GdB[m]을 계산할 수 있으며, 여기서 상기 아래첨자 dB는 라우드니스 값들이 데시벨 도메인에서 표현됨을 특정한다:
Figure 112015014927744-pct00004
샘플 레이트 Fsm을 갖는 다운-샘플링된 이득 값들 GdB[m]은 선형 도메인(linear domain)으로 변환되고 샘플 레이트 Fsn을 갖는 평활 이득 신호(smooth gain signal) G[n]을 생성하도록 보간될 수 있다. 보간 방법들은, 예를 들면, 비한정적으로, EMA 평활화, 선형 보간(linear interpolation), 또는 큐빅 보간(cubic interpolation)을 포함할 수 있다. 상기 출력 신호 y[n]은 상기 이득 값들 G[n]을 상기 입력 신호 x[n]과 곱하여 발생된다:
Figure 112015014927744-pct00005
라우드니스 제어 시스템들은 원치 않는 잡음을 상대적으로 증폭시켜, 중간 레벨의 백그라운드 잡음을 갖는 음성과 같은 특정 시나리오들 하에서 신호 대 잡음비(signal-to-noise ratio, SNR)를 감소시킬 수 있다. 도 2를 참조하여 설명한 바와 같이, 라우드니스 제어 시스템(200)은 정적 잡음 한계치 Tnoise , static를 가정되는 잡음의 증폭을 제한하기 위한 간단한 방법으로서 포함할 수 있다. 입력 신호 라우드니스가 상기 잡음 한계치 Tnoise , static 미만으로 측정되는 경우, 상기 추산되는(estimated) 평균 라우드니스 레벨 Lave[m], 및 이에 따른 상기 이득 신호 G[n]은 동결된다. 이 동결 메카니즘은, 상기 신호 x[n] 내의 실제 잡음 레벨들이 상기 정적 잡음 한계치 Tnoise , static 미만인 한, SNR을 유지하는 허용가능한 일을 수행할 수 있다. 그러나, 잡음 레벨들이 상기 잡음 한계치 Tnoise , static를 초과하는 경우, 원치 않는 잡음이 증폭될 수 있다. 실제의 잡음은 매우 소리가 크고 예측 불가능할 수 있어, 정적 한계치와의 단순한 비교보다 더 정교한 해법을 요구할 수 있다.
잡음 및 잡음 레벨들을 검출하는 진보된 방법들을 통해 라우드니스 제어 시스템들이 향상될 수 있다. 오디오의 세그먼트가 원하는 콘텐츠 또는 원치 않는 잡음으로 이루어져 있는지 여부를 아는 것은 라우드니스 제어 시스템에게 유용한 정보일 수 있다. 하기에서 설명하는 바와 같이, 잡음 검출의 자동적 방법들은 오디오의 세그먼트가 콘텐츠 또는 잡음인지 여부를 분류하는데 이용될 수 있다.
원치하는 잡음 유형들은, 예를 들면, 비한정적으로, 백그라운드 잡음, 주변 잡음, 환경 잡음, 및 히스(hiss)를 포함할 수 있다. 원치 않는 잡음의 특성들은 상기 잡음을 자동적으로 검출하기 위해 정의될 수 있다. 원치 않는 잡음은 다음의 특성들을 갖는 것으로 정의될 수 있다:
● 정주되어 있음(stationary): 상기 잡음의 신호 파워 및 스펙트럼 형태는 시간에 대해 상당히 정주되어 있는 것으로 가정한다.
● 저레벨(low level): 상기 잡음은 상기 원하는 콘텐츠에 대해 상대적으로 레벨이 상당히 낮은 것으로 가정한다.
● 폭넓은/평활한 스펙트럼(broad/smooth st spectrum): 상기 잡음의 스펙트럼은 주파수에 걸쳐서 상당히 폭넓고 평활한 것으로 가정한다. 현저한 스펙트럼 피크들(peaks) 또는 밸리들(valleys)을 갖는 신호들(예를 들면, 음색(tonal) 신호들)은 원하는 콘텐츠로 간주될 수 있다.
잡음 검출 시스템 또는 방법은 상기 가정들 중 하나 이상을 이용할 수 있다.
잡음 검출은 사소한 일이 아니며, 최적의 성능을 위해 정교한 분석을 필요로 할 수 있다. 일 실시예에서, 주파수 도메인 잡음 검출 시스템은 스펙트럼의 정주성(stationarity) 및 폭넓음의 가정들을 활용하여 정확한 분류 결과를 제공한다. 그러나, 라우드니스 제어 시스템들은 많은 전산 및 파워 제한적 응용들에 있어 필요하다. 이들 응용들에 대해, 다른 실시예에 따르면, 더 효율적인 시간 도메인 잡음 검출 시스템은 상기 정주성의 가정을 활용한다.
본 명세서에서 설명하는 잡음 검출의 해법들은 "완화된(soft)" 콘텐츠 대 잡음 분류를 발생시킬 수 있다. 상기 분류는, 예를 들면, 범위 [0,1]에 걸쳐 정의될 수 있으며, 여기서 0은 잡음을 나타내고, 1은 콘텐츠를 나타내며, 그 사이의 값들은 확신이 덜한 분류들이다. 상기 완화된 결정은 잡음 검출 기능을 통합하는 시스템들에게 유연성을 제공한다.
또한, 본 명세서에서 설명하는 잡음 검출 시스템들은 레벨 독립적일 수 있다. 다시 말하면, 상기 입력 신호에 적용되는 스칼라 오프셋(scalar offset)은 상기 분류를 변화시키지 않을 수 있다. 이는 콘텐츠 및 잡음의 예상되는 레벨들이 응용들 간에 상당히 달라질 수 있기 때문에 중요한 특성이며, 신호 레벨들에 관해 엄격한(strong) 가정들을 두는 것은 일부 응용들에서 좋지 않은 성능을 초래할 수 있다. 상기 잡음 검출 시스템들이 레벨 독립적이라 하더라도, 일부 신중한 레벨 의존적 바이어스들이 안전하게 성능을 향상시키기 위해 포함될 수 있다. 예로서, 매우 소리가 큰 신호들(예를 들면, 풀 스케일에 대해 상대적으로 -12 내지 0 데시벨(dBFS))은 100%의 확신으로 콘텐츠로서 해석될 수 있다. 유사하게, 합리적인 정적 잡음 한계치 미만의 신호들(예를 들면, -60 dBFS)은 100%의 확신으로 잡음으로 간주될 수 있다.
일 실시예에 따르면, 주파수 도메인 잡음 검출은 잡음 스펙트럼을 추정하고 신호 대 잡음비(SNR)를 계산하여 신호를 콘텐츠 또는 잡음으로 분류할 수 있다. 높은 SNR들은 상기 신호가 주로 원하는 콘텐츠로 이루어져 있다는 것을 나타낼 수 있고, 낮은 SNR들은 상기 신호가 주로 잡음으로 이루어져 있다는 것을 나타낼 수 있다. 상기 잡음 스펙트럼은 원하는 콘텐츠의 컴포넌트들인 것으로 가정되는 원래의 스펙트럼으로부터 임의의 시간적 다이내믹스 또는 음색 컴포넌트들을 제거하려고 시도하여 추정될 수 있다. 스펙트럼 플럭스(spectral flux)는 시간적 다이내믹스를 추정하는데 이용될 수 있고, 피키니스(peakiness) 척도는 음색 컴포넌트들을 추정하는데 이용될 수 있다.
일 실시예에 따른, 주파수 도메인 잡음 검출 시스템(300)의 블록도가 도 3에 도시되어 있다. 상기 주파수 도메인 잡음 검출 시스템(300)은 오디오 신호 xc[n]을 수신할 수 있고, 분류 class[m]이 상기 신호가 콘텐츠일 확률이 더 높은지 또는 잡음일 확률이 더 높은지를 나타내도록, m으로 인덱스되는 상기 분류 추정치 class[m]을 출력할 수 있다. 상기 분류는, 예를 들면, 범위 [0,1]에 걸쳐 정의될 수 있으며, 여기서 0은 잡음을 나타내고, 1은 콘텐츠를 나타내며, 그 사이의 값들은 확신이 덜한 분류들을이다. 그러나, 다른 분류 범위들, 예를 들면, [-1,1] 또는 [0,100]이 사용될 수 있다.
상기 주파수 도메인 잡음 검출 시스템(300)은 다음 중 어떤 것이라도 포함할 수 있다: 채널 합산(channel summing) 컴포넌트(305), 단기 푸리에 변환(short-term Fourier transform, STFT) 컴포넌트(310), 데시벨 컨버터(decibel converter, 315), 시간적 평활화 컴포넌트(320), 스펙트럼 플럭스 측정 컴포넌트(325), 피키니스(peakiness) 측정 컴포넌트(330), 신호 대 잡음비(SNR) 추정기 컴포넌트(335), 시간적 평활화 컴포넌트(340), 정규화(normalization) 컴포넌트(345), 및 히스테리시스(hysteresis) 컴포넌트(350). 상기 주파수 도메인 잡음 검출 시스템(300)은 하기에서 더 상세히 설명된다.
상기 채널 합산 컴포넌트(305)는 다음의 모노 신호(mono signal)를 생성하기 위해 (포함되어 있다면, 아마도 저주파 효과(low frequency effects, LFE) 채널을 제외하고) C-채널 신호 xc[n]의 모든 신호들을 합산할 수 있다:
Figure 112015014927744-pct00006
상기 식에서 n은 샘플 시간 인덱스(sample time index)이고, c는 채널 인덱스(channel index)이며, C는, 아마도 LFE 채널을 제외한, 채널 카운트(channel count)이다. 채널 합산 컴포넌트(305)는 계산 효율을 향상시키고 리소스 요구조건들을 줄일 수 있다.
상기 모노 신호 xmono[n]은 STFT 컴포넌트(310)를 적용하기 전에 중첩 윈도우 프레임들(overlapping windowed frames)로 나누어질 수 있다:
Figure 112015014927744-pct00007
상기 식에서 M은 샘플 홉 크기(sample hop size)이고, F는 샘플 윈도우 크기(sample window size)이며, m은 다운-샘플링된 시간 인덱스(down-sampled time index)이고, k는 0≤k≤K-1로부터의 주파수 인덱스(frequency index)이며, K=(0.5·F+1)는 고유 주파수 인덱스들의 수이고, w는 분석 윈도우(analysis window), 예를 들면, 길이 F의 핸 윈도우(Hann window)이다. STFT 컴포넌트(310) 대신에, 어떤 다른 유형의 필터 뱅크(filter bank) 컴포넌트라도 이용될 수 있다.
데시벨 컨버터(315)는 상기 STFT 컴포넌트(310) 출력 Xlin[m,k]로부터 파워 스펙트럼을 계산하고 상기 파워 스펙트럼을 각 인덱스 m 및 k에 대해 dB 도메인으로 변환할 수 있다:
Figure 112015014927744-pct00008
대안적으로, 상기 STFT 컴포넌트(310)의 균일한 간격의 파워 스펙트럼은, 계산 및 저장 요구조건들을 줄이기 위해, 등가의 직사각형 대역폭들(rectangular bandwidths, ERB), 크리티컬(critical) 대역폭들, 또는 어떤 다른 인식(perceptual) 대역폭들과 근사한 서브-대역들로 결합될 수 있다.
시간적 평활화 컴포넌트(320)는, 예를 들면, 시간에 대한 상기 dB 스펙트럼 X[m,k]의 지수 이동 평균들을 이용하여, 각 주파수 대역의 에너지의 시간적 평균들 X'[m,k]를 추정할 수 있다:
Figure 112015014927744-pct00009
상기 식에서, αs는 이 식에 고유한 것일 수 있는 평활화 인자(smoothing factor)이고, 바람직한 평활화 특성을 생성하도록 선택될 수 있다.
스펙트럼 플럭스 측정 컴포넌트(325)는, 시간에 대한 스펙트럼 변화의 척도인, 스펙트럼 플럭스 sf[m]을 측정하는 역할을 할 수 있다. 잡음 신호들은 거의 0 플럭스로 측정되는 정주된(stationary) 스펙트럼들 갖는 경향이 있지만, 반면에 콘텐츠 신호들은 높은 플럭스의 짧은 지속시간을 제공하는 온셋들(onsets), 오프셋들(offsets), 및 과도상태들(transients)을 갖는 더 동적인 스펙트럼들을 갖는 경향이 있다. 스펙트럼 플럭스 값은 상기 단기 스펙트럼 X[m,k]와 상기 시간-평활화된 스펙트럼 X'[m,k] 간의 평균 차이로서 계산될 수 있다. 상기 시간-평활화된 스펙트럼은, 상기 스펙트럼 플럭스 계산시, 현재의 프레임 스펙트럼의 통합을 방지하기 위해 한 프레임만큼 지연될 수 있다:
Figure 112015014927744-pct00010
스펙트럼 플럭스 sf[m]은 dB 도메인에서 계산되기 때문에, 상기 측정은 레벨 독립적일 수 있고, 선형 도메인에서 수행되는 플럭스 계산과 달리 더 이상의 아무런 정규화도 필요로 하지 않을 수 있다.
피키니스 p[m,k]는 이웃 주파수 대역들과 비교하여 주파수 대역의 상대적인 에너지를 측정함으로써 주파수 대역의 음색 특성을 추정한다. 피키니스는, 예를 들면, 20 Hz 내지 6 kHz 이내와 같이, 통상적인 콘텐츠에 대해 음색 컴포넌트들을 포함할 수 있는 제한된 범위의 주파수 대역들에 걸쳐 추정될 수 있다. 피키니스 측정 컴포넌트(330)는 각 주파수 대역 k를 둘러싸는 평균 에너지 PSE[m,k]를 처음으로 추정함으로써 피키니스를 계산할 수 있다:
Figure 112015014927744-pct00011
상기 식에서, 2W는 평균하기 위한 이웃 주파수 대역들의 수이다.
상기 이웃 주파수 대역들의 평균 에너지 PSE[m,k]는 중심 주파수 대역 에너지 X'[m,k]에서 차감될 수 있다:
Figure 112015014927744-pct00012
Pdelta[m,k]의 큰 양의 값들은 상기 중심 주파수 대역 k 내에 음색 컴포넌트가 있음을 나타낼 수 있으며, 반면에 Pdelta[m,k]의 음의 값들은 이웃 주파수 대역 내에 음색 컴포넌트가 있음을 나타낼 수 있다. 음색 컴포넌트가 관심사인 잡음 검출 응용들에 대해, 상기 음의 값들은 0으로 설정될 수 있고 양의 값들은, 피키니스 계산시 주파수 대역 누출(leakage)을 보상하기 위해, 이웃 주파수 대역들로 분산될 수 있다:
Figure 112015014927744-pct00013
상기 SNR 측정 컴포넌트(335)는 상기 입력 파워 스펙트럼 X[m,k]에서 상기 피키니스 P[m,k] 및 스펙트럼 플럭스 sf[m] 척도들을 차감하여 잡음 파워 스펙트럼 N[m,k]를 추정할 수 있다:
Figure 112015014927744-pct00014
상기 잡음 스펙트럼은 잡음 레벨의 광대역 추정치 nwide[m]를 계산하기 위해 주파수에 걸쳐 평균될 수 있다:
Figure 112015014927744-pct00015
나아가, 상기 입력 신호 파워 스펙트럼은 신호 레벨의 광대역 추정치 xwide[m]을 계산하기 위해 주파수에 걸쳐 평균될 수 있다:
Figure 112015014927744-pct00016
상기 SNR 추정기 컴포넌트(335)는 상기 추정된 광대역 신호 레벨 xwide[m]에서 상기 추정된 광대역 잡음 레벨 nwide[m]을 차감하여 snr[m]을 계산할 수 있다:
Figure 112015014927744-pct00017
결과적인 SNR, snr[m]은 매우 가변적일 수 있기 때문에, 상기 시간적 평활화 컴포넌트(340)는 변동을 줄이기 위해 snr[m]에 지수 이동 평균 필터를 적용할 수 있고 평활화된 SNR, snr'[m]을 생성하기 위해 더 큰 SNR 추세를 캡처할 수 있다:
Figure 112015014927744-pct00018
시간적 평활화 컴포넌트(340)에서 수행되는 평활화 SNR 계산에 고유한 것일 수 있는, 상기 평활화 인자들 αattack , snr 및 αrelease , snr은 바람직한 평활화 특성을 생성하도록 선택될 수 있다.
상기 평활화된 SNR 값 snr'[m]은 상기 정규화 컴포넌트(345)에 의해 중간 분류 값 c[m]으로 변환될 수 있다. 예를 들면, 상기 값들은, 0은 잡음을 나타내고, 1은 콘텐츠를 나타내며, 그 사이의 값들은 확신이 덜한 분류들이 되도록, dB 대 선형 도메인 변환 및 스케일링 및 변환(translation)을 통해 범위 [0,1]로 정규화될 수 있다:
Figure 112015014927744-pct00019
상기 히스테리시스 컴포넌트(350)는 히스테리시스 모델을 적용하여 최종 분류 결과를 계산할 수 있다. 상기 히스테리시스 모델은 과거 분류들에 기반하여 최종 분류들을 바이어스(bias)시킨다. 두 개의 한계치들이 이용될 수 있다: 보다 높은 콘텐츠 한계치 Tcontent 및 보다 낮은 잡음 한계치 Tnoise, 여기서 상기 한계치들은 스칼라 바이어스 계산, 식 21에 고유한 것일 수 있다. 상기 중간 분류값 c[m]이 상기 콘텐츠 한계치 Tcontent를 초과하는 경우, 최종 분류 class[m]은 상기 중간 분류값 c[m]이, 상기 최종 분류 class[m]을 상기 콘텐츠 한계치가 다시 교차될 때까지 잡음 분류 쪽으로 바이어스되도록 만들 수 있는, 상기 잡음 한계치 Tnoise 미만으로 떨어질 때까지 콘텐츠 분류 쪽으로 바이어스될 수 있다:
Figure 112015014927744-pct00020
상기 식에서,
Figure 112015014927744-pct00021
Figure 112015014927744-pct00022
식 20 내지 식 22에 대해, class[m]은 최종 분류 결과이고, βcontent는, 예를 들면, 1보다 크도록 선택될 수 있는 양의 바이어스 스칼라(positive bias scalar)이며, βnoise는, 예를 들면, 1보다 작도록 선택될 수 있는 양의 바이어스 스칼라이다.
3.5 초의 콘텐츠(음색있는 음악(tonal music))에 이어지는 3.5 초의 광대역 잡음으로 이루어지는 신호가 도 3의 주파수 도메인 잡음 검출 시스템의 성능을 예시하기 위해 이용된다. 도 4a 내지 도 4d는 주파수 대역들이 등가의 직사각형 대역폭들(ERBs)로 변환된 경우에 상기 신호 전체에 걸쳐서 다수의 시간 인덱스들에서의 파워 스펙트럼들을 도시한다. 도 4a는 상기 음악의 파워 스펙트럼 X[m,k]를 도시하며, 여기서 시간 인덱스 m0는, 상기 스펙트럼에서 현저한 피크들로 보이는, 음악의 음색적 측면들을 예시하기 위해 상기 신호의 처음 3.5 초에서 임의적으로 선택되었다. 도 4b는 상기 잡음의 파워 스펙트럼 X[m1,k]를 도시하며, 여기서 시간 인덱스 m1은, 현저한 피크들이 없는 비교적 평평한 스펙트럼으로 보이는, 광대역 잡음에서의 음색 구조의 결여를 예시하기 위해 상기 신호의 두 번째 절반에서 임의적으로 선택되었다. 도 4c는 도 4a에서와 동일한 시간 인덱스에서의 상기 음악의 추정된 잡음 파워 스펙트럼 N[m0,k]를 도시한다. 도 4a에서 피크들로 보였던 음색 구조는, 도 3에서 설명된 상기 피키니스 측정 컴포넌트(330)에 의해 수행될 수 있는 바와 같이, 도 4c에서의 상기 추정된 잡음 파워 스펙트럼에서 제거되어 있다. 과도(transient) 구조도 또한, 도 3에서의 스펙트럼 플럭스 측정 컴포넌트에 의해 수행될 수 있는 바와 같이, 도 4c에서 제거되어 있다; 그러나, 오직 단일 시간 인덱스만 도시되어 있으므로, 과도 구조의 제거는 도 4a 및 도 4c에서 명백하게 드러나지 않는다. 도 4d는 도 4b에서와 동일한 시간 인덱스에서의 상기 잡음의 추정된 잡음 파워 스펙트럼 N[m1,k]를 도시한다. 예상되는 바와 같이, 도 4d에서의 상기 추정된 잡음 파워 스펙트럼은 도 4b에서의 상기 잡음의 진정한(true) 파워 스펙트럼과 거의 동일하다. 도 4e는, 3.5 초의 음색있는 음악에 이어지는 3.5 초의 광대역 잡음으로 이루어지는 상기 전체 신호에 대해, 도 3에서 설명한 바와 같은, 주파수 도메인 잡음 검출 시스템(300)으로부터 출력되는 콘텐츠 대 잡음 분류를 도시한다. 이 예시적 시나리오에서, 0의 분류는 잡음을 나타내고 1은 콘텐츠를 나타낸다. 도 4e에 도시된 바와 같이, 도 3의 상기 주파수 도메인 잡음 검출 시스템(300)은 1 초 이내에 상기 신호에서의 콘텐츠에서 잡음으로의 전환(transition)을 검출할 수 있다.
다른 실시예에 따르면, 잡음 검출은 시간 도메인에서 수행될 수 있다. 시간 도메인 잡음 검출 시스템 또는 방법은 낮은 전산 요구조건들이 요구되는 시나리오들에서 이용될 수 있다. 상기 시간 도메인 잡음 검출 시스템은 통상적인 잡음 신호들은 시간에 대해 상당히 정주된 신호 파워를 갖는 반면에 통상적인 콘텐츠 신호들은 시변 다이내믹스(time-varying dynamics)를 나타내는 신호 파워를 갖는다는 가정을 활용할 수 있다.
일 실시예에 따른, 시간 도메인 잡음 검출 시스템(500)의 블록도가 도 5에 도시되어 있다. 상기 시간 도메인 잡음 검출 시스템(500)은 오디오 신호 xc[n]을 수신할 수 있고, 분류 class[m]이 상기 신호가 콘텐츠일 확률이 더 높은지 또는 잡음일 확률이 더 높은지를 나타내도록, 신호 m으로 인덱스되는 상기 분류 추정치 class[m]을 출력할 수 있다. 상기 분류는, 예를 들면, 범위 [0,1]에 걸쳐 정의될 수 있으며, 여기서 0은 잡음을 나타내고, 1은 콘텐츠를 나타내며, 그 사이의 값들은 확신이 덜한 분류들이다. 그러나 다른 분류 값들이 이용될 수 있다.
상기 시간 도메인 잡음 검출 시스템(500)은 다음 중 어떤 것이라도 포함할 수 있다: 채널 합산 컴포넌트(505), 평균 제곱근(root-mean-square, RMS) 컴포넌트(510), 데시벨 컨버터(515), 시간적 평활화 필터(520), 차감(subtraction) 컴포넌트(525), 반파 정류(half-wave rectification) 컴포넌트(530), 시간적 평활화 컴포넌트들(535 및 540), 정규화 오차 계산기(normalized error calculator, 545), 시간적 평활화 컴포넌트(550), 및 히스테리시스 컴포넌트(555). 상기 시간 도메인 잡음 검출 시스템(500)은 하기에서 더 상세히 설명된다.
상기 채널 합산 컴포넌트(505)는 다음의 모노 신호를 생성하기 위해 (포함되어 있다면, 아마도 저주파 효과(LFE) 채널을 제외하고) C-채널 신호 xc[n]의 모든 신호들을 합산할 수 있다:
Figure 112015014927744-pct00023
상기 식에서, n은 샘플 시간 인덱스이고, c는 채널 인덱스이며, C는, 아마도 LFE 채널을 제외한, 채널 카운트이다. 상기 채널 합산 컴포넌트(505)는 계산 효율을 향상시키고 리소스 요구조건들을 줄일 수 있다.
상기 평균 제곱근(RMS) 컴포넌트(510)는 F 샘플들의 윈도우에 대해 평균 제곱근(RMS)를 연산하여 상기 입력 신호를 선형 도메인 단기 포락선 추정치(short-term envelope estimate) envlin[m]으로 변환할 수 있다:
Figure 112015014927744-pct00024
상기 선형 도메인 단기 포락선 추정치 envlin[m]은 상기 데시벨 컨버터 컴포넌트(515)를 통해 dB 도메인 단기 포락선 추정치 env[m]으로 변환될 수 있다:
Figure 112015014927744-pct00025
상기 입력 신호의 단기 포락선을 추정하기 위한 어떤 다른 포락선 추정기 또는 기법이 이용될 수 있다는 것에 주의하라. 신호 포락선들은 콘텐츠와 잡음을 구별하는데 유용할 수 있다. 통상적인 잡음 신호들의 단기 포락선은 장기 포락선 평균 주위에서 대칭성을 나타내는 경향이 있지만, 반면에 통상적인 콘텐츠 신호들의 단기 포락선은 상당히 불규칙적이거나 또는 비대칭적인 경향이 있다.
시간적 평활화 컴포넌트(520), 예를 들면, 단극 지수 이동 평균(EMA) 평활화 필터가 장기 평균 포락선 추정치 env'[m]을 발생시키기 위해 상기 단기 포락선 추정치 env[m]에 적용될 수 있다:
Figure 112015014927744-pct00026
상기 식에서, 상기 장기 평균 포락선 추정치 env'[m]의 계산에 고유한 것일 수 있는, 평활화 인자 αenv는 바람직한 평활화 특성을 생성하도록 선택될 수 있다.
차감 컴포넌트(525)는 상기 단기 포락선 값에서 상기 장기 평균 포락선 추정치를 차감하여 포락선 델타(delta) 값을 계산할 수 있다:
Figure 112015014927744-pct00027
반파 정류 컴포넌트(530)는 상기 포락선 델타 값에 양의 반파 정류를 적용할 수 있으며, 여기서 음의 값들은 0으로 설정될 수 있어, 상기 신호에서 상기 단기 온셋 에너지의 추정치를 제공할 수 있다:
Figure 112015014927744-pct00028
시간적 평활화 컴포넌트(535)는 상기 온셋 에너지의 장기 평균을 추정하기 위해 상기 온셋 에너지에 적용될 수 있다:
Figure 112015014927744-pct00029
상기 식에서, 식 29의 계산에 고유한 것일 수 있는, 평활화 인자 αonset은 바람직한 평활화 특성을 생성하도록 선택될 수 있다.
상기 반파 정류 컴포넌트(530)는 또한 상기 포락선 델타 값에 음의 반파 정류를 적용할 수 있고, 여기서 양의 값들은 0으로 설정될 수 있으며, 상기 신호에서 단기 오프셋 에너지의 추정치를 제공하는 절대값이 취해질 수 있다:
Figure 112015014927744-pct00030
시간적 평활화 컴포넌트(540)는 상기 오프셋 에너지의 장기 평균을 추정하기 위해 상기 오프셋 에너지에 적용될 수 있다:
Figure 112015014927744-pct00031
상기 식에서, 식 30의 계산에 고유한 것일 수 있는, 평활화 인자 αoffset은 바람직한 평활화 특성을 생성하도록 선택될 수 있다.
통상적인 잡음 신호들에 대해, 상기 온셋 및 오프셋 평균 에너지들 onset'[m] 및 offset'[m]은 레벨이 유사할 수 있지만, 반면에 통상적인 콘텐츠 신호들에 대해, 상기 평균 에너지들은 현저한 차이를 가질 수 있다. 정규화 오차 계산기(545)는 상기 온셋과 오프셋 에너지들 간의 제곱 오차(squared error) err[m]을 계산할 수 있고 상기 평균 에너지들의 최대값으로 나눔으로써, 예를 들면, 0과 1 사이로 상기 오차를 정규화할 수 있다:
Figure 112015014927744-pct00032
예를 들면, 콘텐츠 신호들의 불규칙한 시간적 구조는 1로 향하는 경향이 있는 err[m]을 초래할 수 있지만, 반면에 정주된 잡음에서의 시간적 구조의 결여는 0으로 향하는 경향이 있는 err[m]을 초래할 수 있다.
시간적 평활화 컴포넌트(550)는, 변동을 줄이기 위해 상기 제곱 오차 err[m]을 시간적으로 평활화하여, 콘텐츠 대 잡음 분류를 생성하는 것에 도움을 줄 수 있다:
Figure 112015014927744-pct00033
상기 평활화 인자 αerr은, 공격 평활화 인자 αattack , err 및 해제 평활화 인자 αr elea se, err에 의해 결정되는 상이한 공격 및 해제 특성들을 생성하기 위해, 신호 의존적일 수 있다:
Figure 112015014927744-pct00034
상기 시간 도메인 잡음 검출 시스템(500) 내에서 이용되는 상기 공격 및 해제 평활화 인자들 αattack , err 및 αrelease , err은 식 34에 고유한 것일 수 있고, 예를 들면, 도 2에서의 라우드니스 제어 시스템(200)의 시간적 평활화 모듈(210)에 의해 사용되는 것들보다 더 빠를 수 있다. 이는 상기 잡음 검출 시스템이 상기 라우드니스 제어 시스템이 레벨을 보정하는 것보다 더 빨리 상기 신호를 콘텐츠 또는 잡음으로 분류하는 것을 가능하게 할 수 있다.
도 5를 참조하면, 상기 히스테리시스 컴포넌트(555)는, 도 3에서의 상기 주파수 도메인 잡음 검출 시스템(300)의 상기 히스테리시스 컴포넌트(350)와 유사한 방식으로, err'[m]에 히스테리시스 모델을 적용하여 최종 콘텐츠 대 잡음 분류 class[m]을 계산할 수 있다.
도 6a는 첫 번째 절반은 음악의 세그먼트가고 두 번째 절반은 잡음의 세그먼트인 경우에 콘텐츠-잡음 전환으로 이루어지는 신호의 포락선 env 및 평활화된 포락선 env'을, dB로, 도시하고 있다. 도 6a에 도시한 바와 같이, 상기 포락선 신호의 첫 번째 절반은, 0에서 대략 3.5 초까지, 장기 평균 포락선 env'에 대해 상대적으로 단기 포락선 env 불규칙성을 보여주고, 두 번째 절반은, 3.5 초에서 7 초까지, 장기 평균 포락선 env'에 대해 상대적으로 단기 포락선 env 대칭성을 보여준다. 도 6b는 도 6a에서의 상기 신호에 대응하는 도 5에서의 시간 도메인 잡음 검출 시스템(500)으로부터 출력된 예시적인 콘텐츠 대 잡음 분류를 보여주며, 여기서 0은 잡음을 나타내고 1은 콘텐츠를 나타낸다.
예를 들면, 도 3의 상기 주파수 도메인 잡음 검출 시스템(300) 또는 도 5의 상기 시간 도메인 잡음 검출 시스템(500)에 의해 생성된, 잡음 검출 분류 결과들 class[m]은, 도 2의 상기 라우드니스 제어 시스템(200)과 같은, 라우드니스 제어 시스템에 통합될 수 있다.
예를 들면, 도 7은 일 실시예에 따른, 잡음 검출 모듈(720)의 라우드니스 제어 시스템(700)으로의 통합의 고수준의 블록도를 도시한다. 상기 라우드니스 제어 시스템(700)은 라우드니스 측정 모듈(705), 잡음 검출 모듈(720), 시간적 평활화 모듈(710), 및 이득 보정 모듈(715)을 포함할 수 있다. 상기 라우드니스 측정 모듈(705) 및 상기 이득 보정 모듈(715)은 도 2에서의 상기 라우드니스 측정 모듈(205) 및 상기 이득 보정 모듈(215)과 유사하게 작동될 수 있다. 상기 잡음 검출 모듈은, 각각 도 3 및 도 5의 주파수 도메인 및 시간 도메인 접근 방법들을 포함하여, 콘텐츠 대 잡음 분류 결과 class[m]을 생성하기 위해 어떠한 잡음 검출 기법이라도 이용할 수 있다. 하기에서 설명하는 바와 같이, 상기 시간적 평활화 모듈(710)은 그 다음에 상기 잡음 검출 모듈(720)로부터의 최종 분류 출력 class[m]을 고려할 수 있다.
라우드니스 제어 시스템(700)의 상기 시간적 평활화 모듈(710)은, 도 2에서의 라우드니스 제어 시스템(200)의 상기 시간적 평활화 모듈(210)과 유사하게, 별도의 "공격" 및 "해제" 평활화 인자들을 갖출 수 있다. 상기 해제 평활화 인자 αrelease는 상기 라우드니스 제어 장치가 그것의 이득 레벨을 증가시킬 수 있도록 허용되는 속도를 제어할 수 있다. 빠른 αrelease 값들은 상기 라우드니스 제어 장치가 이득 레벨들을 빨리 증가시키도록 할 수 있지만, 반면에 느린 αrelease 값들은 이득 레벨들이 증가되도록 허용되는 속도를 제한할 수 있다. 극단적으로, 상기 해제 평활화 인자는 상기 라우드니스 제어 장치를 동결시키기 위해 0으로 설정될 수 있어, 효과적으로 이득 레벨의 증가가 발생하지 않도록 할 수 있다.
신호가 콘텐츠 또는 잡음으로 이루어져 있는지 여부의 인지가 결여되면, 도 2의 상기 라우드니스 제어 시스템(200)은 원하는 콘텐츠 및 원치 않는 잡음에 대한 이득 레벨들을 동일한 속도로 증가시키도록 강제될 수 있다. 그러나, 신호가 콘텐츠 또는 잡음으로 이루어져 있는지 여부를 알고 있는, 도 7의 상기 라우드니스 제어 시스템(700)은, 한다고 하더라도, 원치 않는 잡음에 대해 이득 레벨들을 현저히 더 느린 속도로 증가시키면서, 원하는 콘텐츠에 대해 이득 레벨들을 빠른 속도로 증가시키도록 향상된 결정을 내릴 수 있다.
일 실시예에서, 잡음 의존적 이득 레벨들은 상기 잡음 검출 모듈(720)로부터 수신된 상기 콘텐츠 대 잡음 분류 class[m]에 기반하여 상기 시간적 평활화 모듈(710)에서의 상기 해제 평활화 인자 값 αrelease를 동적으로 변경함으로써 구현될 수 있다.
상기 잡음 검출 모듈(720)이 높은 신뢰도로 신호를 원하는 콘텐츠로 검출하는 경우, 상기 αrelease[m] 값은, 이득 레벨의 증가에 대한 디폴트 속도에 대응하는, 미리 결정된 값 αrelease , def로 설정될 수 있다. 신호가 높은 신뢰도로 원치 않는 잡음으로 검출되는 경우, 상기 αrelease[m] 값은 0으로 설정될 수 있어, 효과적으로 이득 레벨의 증가가 발생하지 않도록 할 수 있다. 또한, 상기 잡음 검출의 "완화된(soft)" 분류가 이용되면, 신뢰도가 덜한 잡음 검출이 상기 잡음 검출 신뢰도에 비례하는 이득 레벨들의 증가를 느리게 할 수 있다. 예를 들면, 범위 [0,1]에 대해 완화된 분류를 이용하여, class[m]=0.5의 잡음 분류 결과는 상기 신호가 콘텐츠라는 것에 50% 신뢰도가 있고 상기 신호가 잡음이라는 것에 50% 신뢰도가 있다는 것을 나타낼 수 있다. 이 경우에, 상기 αrelease[m] 값은 상기 디폴트와 0 사이의 보간된 값으로 설정될 수 있어, 이에 따라 상기 이득 레벨들이 중간 양만큼 증가하도록 허용되는 속도를 제한할 수 있다:
Figure 112015014927744-pct00035
원치 않는 잡음에 대해 이득 레벨들이 증가될 수 없도록 함으로써 상기 입력 신호 x[n]의 SNR을 유지하는 효과가 있을 수 있다. 예를 들면, 콘텐츠-잡음 전환 동안, 잡음 레벨이 콘텐츠 레벨보다 낮은 경우에, 상기 이득 레벨이 잡음 신호들에 대해 증가하는 것이 방지되므로, 상기 라우드니스 제어 시스템(700)은 상기 콘텐츠 및 잡음 세그먼트들 모두에 동일한 이득 레벨을 적용할 수 있다. 따라서, 상기 입력 신호에 존재하는 상대적인 콘텐츠 및 잡음 레벨들은 출력 신호에서 유지될 것이다.
SNR의 유지(preservation)는 콘텐츠 대 잡음 분류들을 이용하여 성취될 수 있는 유일한 향상은 아니다. 잡음 억제와 같은 다른 향상들이 또한, 잡음 신호들 검출시 상대적인 감쇠(attenuation)를 적용함으로써, 라우드니스 제어 상황 내에서 실현될 수 있다.
다른 실시예에 따르면, 라우드니스 하락 검출 시스템 또는 방법이, 도 2의 상기 라우드니스 제어 시스템(200)과 같은, 라우드니스 제어 시스템에서 이득 보정 속도들을 동적으로 변경하는데 이용될 수 있다.
라우드니스 제어 시스템(200)의 설계 목표는 원래의 신호 다이내믹스를 유지하면서 장기 라우드니스 레벨들을 정규화하는 것일 수 있다. 그러나, 콘텐츠 내 다이내믹스(intra-content dynamics)를 부정적으로 제한함이 없이 콘텐츠 간 전환들(inter-content transitions)로 인한 큰 라우드니스 하락들을 제어하는 것은 도전 과제일 수 있다. 큰 장기 라우드니스 하락들 이후 빨리 회복하기 위해, 시간적 평활화 모듈(210)의 상기 해제 평활화 인자 αrelease는 충분히 빠른 시간 상수를 이용하여 계산될 수 있다. 그러나, 단기 신호 다이내믹스를 유지하기 위해, 상기 해제 평활화 인자 αr elea se는 충분히 느린 시간 상수를 이용하여 계산될 수 있다. 이들 상반된 목표들을 해결하기 위해, 라우드니스 하락 검출 모듈이, 상기 해제 평활화 인자 αrelease를 동적이고 신호 의존적인 방식으로 변경하기 위해, 라우드니스 제어 시스템(200)에 포함될 수 있다.
일 실시예에 따르면, 라우드니스 하락 검출 시스템은, 단기 신호 다이내믹스로 인한 라우드니스 변동들(fluctuations)이 있는 동안에는 검출을 피하면서, 큰 장기 라우드니스 하락들을 견고하게 검출할 수 있다. 도 8은 일 실시예에 따른, 라우드니스 하락 검출 시스템(800)의 블록도를 도시한다. 도 8에서의 상기 라우드니스 하락 검출 시스템(800)은 오디오 신호 x[n]을 수신할 수 있고, m으로 인덱스되는 시변 라우드니스 하락 검출 추정치 drop[m]을 출력하여, drpo[m]이 현저한 라우드니스 레벨 하락이 발생했는지 여부를 나타내도록 할 수 있다. 상기 라우드니스 하락 검출 추정치 drop[m]은, 예를 들면, 범위 [0,1]에 걸쳐 정의될 수 있으며, 여기서 0은 라우드니스 하락이 없다는 것을 나타내고, 1은 큰 라우드니스 하락이 방금 발생했다는 것을 나타내며, 그 사이의 값들은 더 작은 또는 더 중간의 라우드니스 하락들의 지표들이다. 그러나, 다른 하락 검출 값들이 이용될 수 있다.
상기 라우드니스 하락 검출 시스템(800)은 다음 중 어떤 것이라도 포함할 수 있다: 단기 라우드니스 측정 모듈(805), 시간적 평활화 컴포넌트들(810 및 815), 차감 모듈(820), 반파 정류 모듈(825), 및 정규화 모듈(830).
단기 라우드니스 측정 모듈(805)은, 도 2에서의 라우드니스 제어 시스템(200)의 상기 라우드니스 측정 모듈(205)과 유사하게, 단기 라우드니스 추정치를 계산할 수 있다. 상기 단기 라우드니스 측정 모듈(805)은, 예를 들면, 본 명세서에서 앞서 설명된, ITU-R BS.1770 라우드니스 척도 또는 RMS를 포함하여, 어떠한 라우드니스 측정 기법이라도 이용할 수 있다. 현재의 다운-샘플링된 인덱스 m에 대해 계산된 상기 단기 라우드니스 추정치는 Lshort , dB[m]으로 표시될 수 있다.
시간적 평활화 컴포넌트들(810 및 815)은 상기 단기 라우드니스 추정치 Lshort,dB[m]dp 시간적 평활화를 적용할 수 있다. 시간적 평활화 컴포넌트들(810 및 815)은, 예를 들면, 상이한 평활화 인자들을 갖는 두 개의 지수 이동 평균(EMA) 필터들일 수 있다. 상기 시간적 평활화 컴포넌트들(810 및 815)은, 각각 비교적 느린 평활화 인자 αslow 및 비교적 빠른 평활화 인자 αfast를 이용하여, 각각 평활화된 라우드니스 추정치 μslow[m] 및 μfast[m]을 계산할 수 있다:
Figure 112015014927744-pct00036
Figure 112015014927744-pct00037
상기 평활화된 라우드니스 추정치들 μslow[m] 및 μfast[m]은 상이한 속도들로 라우드니스 다이내믹스를 추적할 수 있다. μslow[m]의 목표는, 예를 들면, 구술된 단어들(spoken words) 사이의 일시 중지들처럼, 단기 다이내믹스를 추적함이 없이 상기 라우드니스 추정치들의 장기 평균을 따르는 것일 수 있다. μfast[m]의 목표는 상기 라우드니스 추정치들의 평균을 더 빨리 추적하여, μfast[m]이 μslow[m]보다 레벨이 충분히 더 낮은 경우 라우드니스 하락이 추론될 수 있도록 하는 것일 수 있다. 상기 차감 모듈(820)은, 상기 입력 신호에서의 라우드니스 변화를 캡처하기 위해, 상기 평활화된 라우드니스 추정치들 μslow[m] 및 μfast[m] 간의 차이 diff[m]을 계산할 수 있다:
Figure 112015014927744-pct00038
예를 들면, 양의 diff[m] 값들은 라우드니스 하락들을 나타낼 수 있지만, 반면에 음의 값들은 라우드니스 증가들을 나타낼 수 있다. 상기 반파 정류 모듈(825)은 상기 차이 신호 diff[m]에 양의 반파 정류를 적용하여, 상기 신호에서의 라우드니스 증가들에 의해 영향받지 않으면서 라우드니스 하락들을 나타내는 신호 diffrect[m]을 생성할 수 있다:
Figure 112015014927744-pct00039
상기 정규화 모듈(830)은 하락 검출 값 drop[m]을 생성하기 위해 dB 범위에서 어떤 원하는 검출 범위로 변환되도록 상기 정류된 차이 diffrect[m]을 정규화할 수 있다. 예로서, 검출 범위 [0,1]에 대해, 간단한 변환(translation), 스케일링, 및 포화가 다음과 같이 정규화에 이용될 수 있다:
Figure 112015014927744-pct00040
상기 식에서,
Figure 112015014927744-pct00041
또한 상기 식에서, Dmin 및 Dmax는, 예를 들면, 각각 0 및 1의 검출 값들로 맵핑되는 라우드니스 하락 한계치 값들을 나타낸다. 이 예에서, 1의 라우드니스 하락 검출 값들 drop[m]은, 예를 들면, 조용한 프로그램으로 전환되는 소리가 큰 텔레비전 광고와 같이, 콘텐츠 간 전환들이 있는 동안 발생할 수 있는, Dmax보다 큰 라우드니스 하락이 발생했다는 것을 나타낸다. 0의 값들은, 예를 들면, 단일한 콘텐츠 하나에 걸쳐서 보통의 경우인, 하락이 없음을 나타낸다. 0과 1 사이의 값들은 중간 수준들의 라우드니스 하락들을 나타낸다.
도 9는, 2 초에서 큰 라우드니스 하락로 이루어지는 오디오 신호에 적용되는, 도 8의 라우드니스 하락 검출 시스템(800)에 대한, 단기 라우드니스 추정치 Lshort,dB[m](실선), 두 개의 평활화된 필터 출력들 μslow[m](대시-도트(dash-dot)) 및 μfast[m](대시), 및 라우드니스 하락 검출 신호 drop[m](하부 그래프)을 도시한다. 상기 단기 라우드니스 추정치 Lshort ,dB[m](실선)는 2 초에서 거의 순간적으로 약 -10 dB에서 -30 dB로 하락되며, 상기 시간적으로 평활화된 필터 출력 μfast[m](대시)은 상기 시간적으로 평활화된 필터 출력 μslow[m](대시-도트)보다 더 빨리 -30 dB에 도달한다. 하부 그래프에서의 상기 라우드니스 하락 검출 신호 drop[m]는 2 초에 라우드니스 하락이 시작되었고, 큰 라우드니스 하락이 발생한 것을 나타내는 약 2.5 초에서의 피크가 발생했음을 나타낸다. 라우드니스 하락 검출이 발생할 수 있는 속도를 직접적으로 제어하는, 상기 평활화 인자들 αslow 및 αfast은 비교적 빠르게 되도록 상호간에 선택되었다.
도 9의 예는 αslow 및 αfast에 대해 비교적 빠른 값들을 통해 라우드니스의 큰 하락들을 빨리 식별하기 위한 라우드니스 하락 검출 시스템, 예를 들면, 도 8의 상기 시스템(800)의 능력을 도시한다. 그러나, 이들 동일한 상호간 빠른 평활화 인자들에서, 검출 성능은 대화와 같은 매우 동적인 신호들에 대해 차선(sub-optimal)일 수 있으며, 자연적인 신호 변동들(fluctuations)이 라우드니스 하락들로 잘못 검출되는 잘못된 검출들을 빈번하게 발생시킬 수 있다.
도 9와 유사하게, 도 10a 내지 도 10d는, 도 8의 상기 라우드니스 하락 검출 시스템(800)과 같은 라우드니스 하락 검출 시스템에서 αslow 및 αfast에 대한 상이한 평활화 인자 선택들에 대해, 단기 라우드니스 추정치 Lshort,dB[m](실선), 두 개의 평활화된 필터 출력들 μslow[m](대시-도트) 및 μfast[m](대시), 및 라우드니스 하락 검출 신호 drop[m](하부 그래프)의 예들을 각각 도시한다. 2 초에서의 라우드니스 하락로 이루어지는 도 9의 오디오 신호는 도 10a 및 도 10c에서 다시 이용되며, 여기서 도 10a는 상호간 빠른 평활화 인자들 αslow 및 αfast을 이용한 결과들을 보여주고, 도 10c는 상호간 느린 평활화 인자들 αslow 및 αfast을 이용한 결과들을 보여준다. 도 10a 및 도 10c에 도시한 오디오 신호에 대해, 라우드니스 하락 검출 시스템은 가능한 한 빨리 라우드니스 하락을 검출하는 것이 바람직할 수 있다. 동적인 음성(speech)의 세그먼트가 도 10b 및 도 10d에 이용되며, 여기서 도 10b는 상호간 빠른 평활화 인자들 αslow 및 αfast을 이용한 결과들을 보여주고, 도 10d는 상호간 느린 평활화 인자들 αslow 및 αfast을 이용한 결과들을 보여준다. 상기 콘텐츠는 약 -40dB에서의 더 조용한 주변 환경 잡음과 구분되는 약 -10 dB에서의 일련의 구술된 단어들(spoken words)로 이루어지므로, 상기 동적 음성 신호에서 단기 라우드니스 레벨 Lshort,dB[m]의 큰 변동들에 주의하라. 상기 동적 음성 신호는 어떠한 장기 라우드니스 하락들도 포함하지 않기 때문에, 이상적인 라우드니스 하락 검출 시스템은 어떠한 라우드니스 하락도 검출하지 않을 것이다.
도 10a에서의 하락 검출 신호 drop[m]은, 큰 장기 라우드니스 하락을 포함하는 신호에 대해, 상기 상호간 빠른 평활화 인자들이 도 8의 상기 라우드니스 하락 검출 시스템(800)이 약 2.5 초에서 라우드니스 하락을 빨리 및 정확하게 검출할 수 있도록 한다는 것을 보여준다. 그러나, 도 10b에서의 하락 검출 신호 drop[m]은, 매우 동적인 신호에 대해, 상기 상호간 빠른 평활화 인자들이, 너무 빨리 반응하고 상기 음성(speech)에서의 단어들 간의 일시 중지들을 추적하는 μfast[m]로 인해, 상기 라우드니스 하락 검출 시스템(800)으로 하여금 많은 부분적 검출들을 부정확하게 보고하도록 만든다는 것을 보여준다.
상기한 바와 같이, 상호간 빠른 평활화 인자들은, 잘못된 라우드니스 하락을 검출할 보다 높은 가능성으로 인해, 매우 동적인 신호들에 대해 최적이 아닐 수 있다. 도 10c 및 도 10d는 상호간 보다 느린 평활화 인자들을 이용한 결과들을 보여준다. 도 10c에서의 음이 크기 하락 검출 신호 drop[m]은, 큰 장기 라우드니스 하락을 포함하는 신호에 대해, 상호간 느린 평활화 인자들이 도 8의 상기 라우드니스 하락 검출 시스템으로 하여금, 상호간 빠른 평활화 인자들을 이용하는 2.5 초와 상반되게, 약 4 초까지 라우드니스 하락을 완전히 검출하지는 못하도록 만든다는 것을 보여준다. 도 10d에서의 음이 크기 하락 검출 신호 drop[m]은, 매우 동적인 신호에 대해, 상기 상호간 느린 평활화 인자들이 상기 라우드니스 하락 검출 시스템이 장기 라우드니스 하락이 없음을 정확하게 보고할 수 있도록 한다는 것을 보여준다.
상호간 느린 평활와 인자들이 이용되는, 도 10c 및 도 10d의 예들에서, 상기 평활화 인자 αfast는 공격 속도가 비교적 빠른 상태로 유지되고 오직 해제 속도만 느려지도록 특유하게 변경되었다는 것을 주의해야 한다; 상기 공격 및 해제 속도들은 둘 모두 평활화 인자 αslow에 대해 동일하게 느려졌다. αfast에 대해 독립적인 빠른 공격 및 느린 해제 속도들을 허용하는 것은 상기 평활화된 결과 μfast[m]이 상기 라우드니스 추정치들의 피크들 쪽으로 바이어스되도록 만들어, 일반적으로 μfast[m]이 μslow[m]보다 더 큰 상태로 유지되도록 할 수 있다. 이 변경은 매우 동적인 콘텐츠에 대한 잘못된 라우드니스 하락 검출률을 개선할 수 있다.
상기 분석은 라우드니스 하락 검출 시스템의 상기 평활화 인자 속도들의 튜닝에 있어서 트레이드오프(tradeoff)가 존재함을 시사한다. 상기 평활화 인자 속도들이 매우 동적인 콘텐츠 동안에는 잘못된 라우드니스 하락 검출을 제한하기 위해 느리고(예를 들면, 도 10d에서) 덜 동적인 콘텐츠 동안에는 더 빨리 라우드니스 하락을 검출하기 위해 빠르도록 상기 평활화 인자 속도들을 동적으로 변경함으로써, 라우드니스 하락 검출 시스템에 대한 향상이 성취될 수 있다. 평활화 인자들을 동적으로 변경하는 라우드니스 하락 검출 시스템의 예가 하기에서 설명된다.
동적 평활화 인자들은 향상된 라우드니스 하락 검출 성능을 위해 도 8의 시스템(800)으로 통합될 수 있다. 도 11은 일 실시예에 따른, 동적 평활화 인자들을 갖는 라우드니스 하락 검출 시스템(1100)의 블록도를 도시한다. 구체적으로, 도 11은 표준 편차(standard deviation) 모듈(1135)의 라우드니스 하락 검출 시스템(1100)으로의 통합을 도시한다. 상기 표준 편차 모듈(1135)은, 시간적 평활화 컴포넌트들(1110 및 1115)이 신호 의존적 방식으로 상기 αslow 및 αfast 평활화 인자들을 동적으로 변경할 수 있도록, 신호 다이내믹스(signal dynamics)의 추정치를 제공할 수 있다. 상기 라우드니스 하락 검출 시스템(1100)은 또한 라우드니스 측정 모듈(1105), 차감 모듈(1120), 반파 정류 모듈(1125), 및 정규화 모듈(1130)을 포함할 수 있다.
상기 라우드니스 하락 검출 시스템(1100)은 오디오 신호 x[n]을 수신할 수 있고, m으로 인덱스되는 시변 라우드니스 하락 검출 추정치 drop[m]을 출력하여, drop[m]이 현저한 라우드니스 레벨 하락이 발생했는지 여부를 나타내도록 할 수 있다. 상기 라우드니스 하락 검출 추정치는, 예를 들면, 범위 [0,1]에 걸쳐 정의될 수 있으며, 여기서 0은 라우드니스 하락이 없음을 나타내고, 1은 큰 라우드니스 하락이 방금 발생했음을 나타내며, 그 사이의 값들은 더 작은 또는 더 중간의 라우드니스 하락들의 지표들이다. 그러나, 다른 하락 검출 값들이 이용될 수 있다. 상기 라우드니스 측정 모듈(1105), 시간적 평활화 컴포넌트들(1110 및 1115), 차감 모듈(1120), 반파 정류 모듈(1125), 및 정규화 모듈(1130)은 도 8에서 설명한 라우드니스 측정 모듈(805), 시간적 평활화 컴포넌트들(810 및 815), 차감 모듈(820), 반파 정류 모듈(825), 및 정규화 모듈(830)에 대해 설명한 것과 유사하게 작동될 수 있다.
상기한 바와 같이, 상기 평활화된 라우드니스 추정치들 μslow[m] 및 μfast[m]의 상대적인 거동은 검출되는 라우드니스 하락들의 빈도(frequency) 및 정도(extent)에 영향을 줄 수 있다. 따라서, 상기 평활화 인자들 αslow 및 αfast에 대한 적절한 값들이 상이한 입력 신호 유형들에 걸쳐 적합한 성능을 성취하기 위해 이용될 수 있다.
신호 다이내믹스는 상기 표준 편차 모듈(1135)을 통해 상기 단기 라우드니스 추정치들의 변경된 표준 편차 척도를 계산하여 추정될 수 있다. 라우드니스 평균은 상기 단기 라우드니스 추정치들 Lshort , dB[m]을 시간적으로 평활화하여 추정될 수 있다. 식 42에 고유한 것일 수 있는, 평활화 인자 αL은 μL[m]이 원하는 평균 윈도우 길이에 근사하도록 선택될 수 있다:
Figure 112015014927744-pct00042
상기 단기 라우드니스 추정치와 그것의 추정된 평균 간의 차이가 취해질 수 있다:
Figure 112015014927744-pct00043
이 차이는 양의 반파 정류될 수 있고 제곱될 수 있다:
Figure 112015014927744-pct00044
반파 정류는 일반적인 표준 편차 척도의 일부가 아닐 수 있다; 그러나, 그것은 라우드니스 하락와 라우드니스 증가를 구별하는데 유용할 수 있다. 상기 차이 신호 d[m]은 라우드니스 하락 동안 음일 수 있으며, 따라서 양의 반파 정류를 적용함으로써, 결과적인 제곱 차이 값들은 오직 라우드니스 증가에만 근거할 수 있다. 이 계산에서 라우드니스 하락을 효과적으로 제거함으로써, 단기 다이내믹스의 낮은 레벨들 및 아마도 큰 장기 라우드니스 하락(예를 들면, 도 10a 및 도 10c에 나타낸 라우드니스 하락)를 갖는 신호들은 낮은 제곱 차이 값들 drect[m]을 초래할 수 있으며, 반면에 단기 다이내믹스의 높은 레벨들을 갖는 신호들(예를 들면, 도 10b 및 도 10d에 나타낸 신호)은 높은 제곱 차이 값들 drect[m]을 초래할 수 있다.
상기 정류되고 제곱된 차이 drect[m]은, 식 45에 고유한 것일 수 있는, 평활화 인자 αstd로 시간적으로 평활화될 수 있으며, 상기 단기 라우드니스 추정치들의 표준 편차 σ[m]의 추정치를 생성하는 제곱근이 취해질 수 있다:
Figure 112015014927744-pct00045
상기 추정된 표준 편차 σ[m]는 그 다음에, drop[m]의 계산에 대해 앞서 설명한 바와 같이, 변환(translation), 스케일링, 및 포화와 같은 방법을 이용하여, 예를 들면, 범위 [0,1]로 정규화될 수 있다.
일 예에서, 결과적인 정규화된 표준 편차 σnorm[m]은 각각 시간적 평활화 컴포넌트들(1110 및 1115)에서 상기 평활화 인자들 αslow[m] 및 αfast[m]을 동적으로 조절하기(modulate) 위해 이용될 수 있다. 예를 들면, 상기 평활화 인자들 αslow[m] 및 αfast[m]은 두 개의 미리 결정된 평활화 인자 속도들, 최소 속도와 최대 속도 간에 선형적으로 보간될 수 있다. 상기한 바와 같이, 상기 αslow[m] 평활화 인자는 동일한 공격 및 해제 속도들을 갖는 것이 바람직할 수 있으며, 따라서 상기 αslow[m] 평활화 인자는 상기 최소 및 최대 속도들 간에 간단히 선형적으로 보간될 수 있다:
Figure 112015014927744-pct00046
상기 식에서, αslow , maxslow , min, 또는 다시 말하면 αslow , max는αslow , min보다 더 빠르다. 상기 표준 편차 척도가 높은 경우, 예를 들면, σnorm[m]=1인 경우, αslow[m]은 느린 값 αslow , min으로 설정될 수 있다. 상기 표준 편차 척도가 낮은 경우, 예를 들면, σnorm[m]=0인 경우, αslow[m]은 빠른 값 αslow , max으로 설정될 수 있다. 상기 표준 편차 척도가 그 사이 어딘가에 있는 경우, 예를 들면, 0<σnorm[m]<1인 경우, αslow[m]은 상기 최소 및 최대 속도들 간에 선형적으로 보간될 수 있다.
상기한 바와 같이, 상기 αfast[m] 평활화 인자의 공격 및 해제 속도들이, 상기 해제 인자는 상기 정규화된 표준 편차에 기반하여 상기 최소 및 최대 속도들 간에 선형적으로 보간되면서 상기 공격 인자는 빠른 상태로 유지되도록, 독립적으로 계산되는 경우, 성능이 향상될 수 있다:
Figure 112015014927744-pct00047
상기 식에서, αfast , max 및 αfast , min은 미리 결정된 평활화 인자들이고, αfast,maxfast , min, 또는 다시 말하면 αfast , max는 αfast , min보다 더 빠르다.
도 12a 및 도 12b는 이러한 동적 평활화 인자 변경들을 적용한 예시적 결과들을 도시한다. 도 9 및 도 10a 내지 도 10d와 유사하게, 도 12a 및 도 12b는, 도 11의 라우드니스 하락 검출 시스템(1100)과 같은 라우드니스 하락 검출 시스템에 대한, 단기 라우드니스 추정치 Lshort ,dB[m](실선), 두 개의 평활화된 필터 출력들 μslow[m](대시-도트) 및 μfast[m](대시), 및 라우드니스 하락 검출 신호 drop[m](하부 그래프)를 보여준다. 도 12a에서의 상기 라우드니스 하락 검출 신호 drop[m]는 진정한 라우드니스 하락의 0.5 초 이내에 발생하는 정확한 검출을 보여준다. 도 12b에서의 상기 라우드니스 하락 검출 신호 drop[m]는 단기 신호 다이내믹스 동안 잘못된 검출이 없음을 보여준다. 도 12a 및 도 12b는 도 10a 내지 도 10d에 나타낸 정적 평활화 인자들 대비 신호 의존적 동적 평활화 인자들을 이용하여 이루어질 수 있는 향상들을 도시한다.
도 8 및 도 11의 상기 라우드니스 하락 검출 시스템들(800 및 1100)은, 도 2에 도시된 라우드니스 제어 시스템(200)과 같은, 라우드니스 제어 시스템으로 통합될 수 있다. 도 13은, 도 8 및 도 11에서 설명된 라우드니스 하락 검출 시스템들(800 및 1100)과 같은, 라우드니스 하락 검출 모듈(1325)을 갖는 라우드니스 제어 시스템(1300)의 고수준의 블록도를 도시한다.
상기 라우드니스 제어 시스템(1300)은 라우드니스 측정 모듈(1305), 라우드니스 하락 검출 모듈(1325), 시간적 평활화 모듈(1310), 및 이득 보정 모듈(1315)을 포함할 수 있다. 상기 라우드니스 측정 모듈(1305) 및 상기 이득 보정 모듈(1315)은 도 2에서 설명한 상기 라우드니스 측정 모듈(205) 및 상기 이득 보정 모듈(215)에 대해 설명한 것과 유사하게 작동될 수 있다.
도 2의 상기 라우드니스 제어 시스템(200)에 대해 설명한 바와 같이, 시간적 평활화 모듈(1310)은 별도의 "공격" 및 "해제" 평활화 인자들을 갖출 수 있다. 상기 해제 평활화 인자 αrelease는 상기 라우드니스 제어 장치가 그것의 이득 레벨을 증가시킬 수 있도록 허용되는 속도를 제어할 수 있다. 빠른 αrelease 값들은 상기 라우드니스 제어 장치가 이득 레벨들을 빨리 증가시키도록 할 수 있지만, 반면에 느린 αrelease 값들은 이득 레벨들이 증가되도록 허용되는 속도를 제한할 수 있다.
간단한 라우드니스 제어 시스템은, 상기 αrelease 평활화 인자를 콘텐츠 내 및 콘텐츠 간 다이내믹스들이 균형을 이루도록 선택된, 신호 독립적인 미리 결정된 값으로 설정할 수 있어, 최적 성능을 절충할 수 있다. 라우드니스 하락 검출을 통합함으로써, 라우드니스 제어 시스템은, 콘텐츠 내 및 콘텐츠 간 다이내믹스들이 둘 모두 적절히 다루어지도록, 상기 αrelease[m] 평활화 인자를 동적으로 변경할 수 있다. 라우드니스 하락 검출이 없는 경우, 예를 들면, drop[m]=0인 경우, αrelease[m]은, 콘텐츠 내 다이내믹스를 유지하는, 미리 결정된 디폴트 값 αrelease , def로 설정될 수 있다. 라우드니스 하락이 검출되는 경우, 예를 들면, drop[m]=1인 경우, 상기 값은, 예를 들면, 콘텐츠 간 전환들 동안, 이득 레벨들의 빠른 증가를 허용하는 미리 결정된 값 αr elea se, max로 가속될 수 있다. 부분적 하락 검출시, 예를 들면, 0<drop[m]<1인 경우, 상기 αrelease[m] 값은 상기 극값들 간에 선형적으로 보간될 수 있다:
Figure 112015014927744-pct00048
더 높은 라우드니스 하락 검출 값들과 함께 하는, 더 큰 라우드니스 하락들은 더 작은 하락들보다 더 빠른 이득 회복(gain recovery)을 초래할 수 있다. 이는 램프(ramp)의 지속시간을 단축시켜 뚜렷한 "램핑(ramping)" 아티팩트들을 완화하는데 도움이 될 수 있다.
라우드니스 하락들로부터의 회복은 또한 고정된 시간량이 지나고 광범위한 라우드니스 하락들로부터 회복함으로써 성취될 수 있다. 예로서, 라우드니스 하락들로부터의 회복은 상기 라우드니스 하락들의 정도와 상관없이 3 초 이내에 발생하는 것이 바람직할 수 있다. 라우드니스 하락의 추정치를 이용하여, 상기 라우드니스 하락의 정도에 무관한 이 시간량 이내의 회복을 보장할, 적합한 αrelease[m] 평활화 인자가 계산될 수 있다.
다른 실시예에 따르면, 도 3 또는 도 5의 시스템(300 또는 500)과 같은, 잡음 검출 시스템 및, 도 8 또는 도 11의 시스템(800 또는 1100)과 같은, 라우드니스 하락 검출 시스템 둘 모두, 도 2의 시스템(200)과 같은, 라우드니스 제어 시스템으로 통합될 수 있다. 도 14는 일 실시예에 따른, 잡음 검출 기능 및 라우드니스 하락 검출 기능을 갖는 라우드니스 제어 시스템(1400)의 블록도를 도시한다.
상기 라우드니스 제어 시스템(1400)은 라우드니스 측정 모듈(1405), 잡음 검출 모듈(1420), 라우드니스 하락 검출 모듈(1425), 시간적 평활화 모듈(1410), 및 이득 보정 모듈(1415)을 포함할 수 있다. 상기 라우드니스 측정 모듈(1405) 및 상기 이득 보정 모듈(1415)은 도 2에서 설명한 상기 라우드니스 측정 모듈(205) 및 상기 이득 보정 모듈(215)에 대해 설명한 것과 유사하게 작동될 수 있다. 상기 잡음 검출 모듈(1420)은 도 3 또는 도 5에서 설명한 주파수 잡음 검출 시스템(300 또는 500)에 대해 설명한 것과 유사하게 작동될 수 있다. 상기 라우드니스 하락 검출 모듈(1425)은 도 8 또는 도 11에서 설명한 라우드니스 하락 검출 시스템(800 또는 1100)에 대해 설명한 것과 유사하게 작동될 수 있다.
상기 시간적 평활화 모듈(1410)은 도 7 및 도 13에서 설명한 시간적 평활화 모듈(710 및 1310)에 대해 설명한 것과 유사하게 작동될 수 있다. 시간적 평활화 모듈(1410)은, 도 7의 논의에서 설명한 바와 같이, 평활화 인자들을 느리게 할 수 있는 콘텐츠 대 잡음 분류 값들을 수신할 수 있고, 또한, 도 13의 논의에서 설명한 바와 같이, 평활화 인자들의 속도를 높일 수 있는 라우드니스 하락 검출 값들을 수신할 수도 있다. 콘텐츠 대 잡음 분류에 기반하여 상기 평활화 인자들을 느리게 하는 것, 또는 라우드니스 하락 검출에 기반하여 상기 평활화 인자들의 속도를 높이는 것, 또는 상기 둘의 조합을 통해 새로운 속도를 계산하는 것에 대한 결정은 수많은 트레이드오프들을 수반하는 결정이며, 응용 특정적일 수 있다. 일 실시예에서, 상기 시간적 평활화 모듈(1410)에서 상기 해제 평활화 인자 αrelease[m]는 식 35 및 식 48로부터의 결과들의 평균을 통해 상기 콘텐츠 대 잡음 분류 값들 및 상기 라우드니스 하락 검출 값들의 선형적 조합에 의해 동적으로 변경될 수 있으며, 다음과 같다:
Figure 112015014927744-pct00049
특징들 및 요소들이 특정한 조합들로 상기에서 설명되지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자라면 각 특징 또는 요소가 단독으로 또는 다른 특징들 및 요소들과의 어떠한 조합으로도 이용될 수 있다는 것을 알 수 있을 것이다. 본 명세서에서 설명된 특징들 및 요소들 중 어떤 것이라도 별도의 모듈들로 구현될 수 있거나 또는 특징들의 어떤 세트 또는 서브세트라도 조합되어 공통의 프로그램가능 모듈 상에서 구현될 수 있다.
또한, 본 명세서에서 설명하는 시스템들 및 방법들은 하드웨어, 컴퓨터 또는 프로세서에 의한 실행을 위한 컴퓨터 판독가능 매체에 포함되는, 컴퓨터 프로그램, 소프트웨어, 또는 펌웨어에서 구현될 수 있다. 컴퓨터 판독가능 매체의 예들은 (유선 또는 무선 연결을 통해 전송되는) 신호들 및 컴퓨터 판독가능 저장 매체들을 포함한다. 컴퓨터 판독가능 저장 매체의 예들은, 비한정적으로, 읽기 전용 메모리(read only memory, ROM), 랜덤 액세스 메모리(random access memory, RAM), 레지스터, 캐시 메모리, 반도체 메모리 장치들, 내장 하드 디스크들 및 착탈식 디스크들과 같은 자기적 매체들, 광자기(magneto-optical) 매체들, 및 CD-ROM 디스크들 및 디지털 다용도 디스크들(digital versatile disks, DVDs)과 같은 광학적 매체들을 포함한다.

Claims (28)

  1. 오디오 신호를 처리하도록 구성되는 라우드니스(loudness) 제어 시스템에 있어서,
    상기 오디오 신호의 단기 라우드니스 추정치(short-term loudness estimate)를 발생시키도록 구성되는 라우드니스 측정 모듈;
    상기 오디오 신호가 콘텐츠일 가능성이 더 높은지 또는 잡음일 가능성이 더 높은지를 나타내는, 상기 오디오 신호의 콘텐츠 대 잡음 분류(content-versus-noise classification)를 생성하도록 구성되는 잡음 검출 모듈;
    상기 콘텐츠 대 잡음 분류에 기반하여 적어도 하나의 평활화 인자(smoothing factor)를 조정하고, 상기 적어도 하나의 평활화 인자를 이용하여 상기 단기 라우드니스 추정치에 기반하여 상기 오디오 신호의 장기(long-term) 라우드니스 추정치를 발생시키도록 구성되는 시간적 평활화(temporal smoothing) 모듈; 및
    상기 장기 라우드니스 추정치에 기반하여 상기 오디오 신호에 시변 이득(time-varying gain)을 적용하도록 구성되는 이득 보정(gain correction) 모듈
    을 포함하는, 오디오 신호를 처리하도록 구성되는 라우드니스 제어 시스템.
  2. 제 1 항에 있어서,
    상기 잡음 검출 모듈은 상기 콘텐츠 대 잡음 분류를 생성하기 위해 주파수 도메인(frequency domain) 잡음 검출을 이용하도록 구성되는 것인, 라우드니스 제어 시스템.
  3. 제 1 항에 있어서,
    상기 잡음 검출 모듈은 상기 콘텐츠 대 잡음 분류를 생성하기 위해 시간 도메인(time domain) 잡음 검출을 이용하도록 구성되는 것인, 라우드니스 제어 시스템.
  4. 제 1 항에 있어서,
    상기 적어도 하나의 평활화 인자는 상기 이득 보정 모듈이 이득 레벨을 높일 수 있는 속도를 제어하는 해제(release) 평활화 인자를 포함하는 것인, 라우드니스 제어 시스템.
  5. 제 1 항에 있어서,
    라우드니스 하락(drop) 검출 값을 발생시키도록 구성되는 라우드니스 하락 검출 모듈을 더 포함하며,
    상기 시간적 평활화 모듈은 또한, 상기 라우드니스 하락 검출 값에 기반하여 상기 적어도 하나의 평활화 인자를 조정하도록 구성되는 것인, 라우드니스 제어 시스템.
  6. 오디오 신호를 처리하도록 구성되는 라우드니스 제어 시스템에 있어서,
    상기 오디오 신호의 단기 라우드니스 추정치를 발생시키도록 구성되는 라우드니스 측정 모듈;
    상기 오디오 신호의 상기 단기 라우드니스 추정치의 느린 평활화된 라우드니스 추정치 및 상기 오디오 신호의 상기 단기 라우드니스 추정치의 빠른 평활화된 라우드니스 추정치에 부분적으로 기반하여, 라우드니스 하락 검출 값을 발생시키도록 구성되는 라우드니스 하락 검출 모듈;
    상기 라우드니스 하락 검출 값에 기반하여 적어도 하나의 평활화 인자를 조정하고, 상기 적어도 하나의 평활화 인자를 이용하여 상기 단기 라우드니스 추정치에 기반하여 상기 오디오 신호의 장기 라우드니스 추정치를 발생시키도록 구성되는 시간적 평활화 모듈; 및
    상기 장기 라우드니스 추정치에 기반하여 상기 오디오 신호에 시변 이득을 적용하도록 구성되는 이득 보정 모듈
    을 포함하는, 오디오 신호를 처리하도록 구성되는 라우드니스 제어 시스템.
  7. 제 6 항에 있어서,
    상기 적어도 하나의 평활화 인자는 상기 이득 보정 모듈이 이득 레벨을 높일 수 있는 속도를 제어하는 해제 평활화 인자를 포함하는 것인, 라우드니스 제어 시스템.
  8. 제 6 항에 있어서,
    상기 오디오 신호의 콘텐츠 대 잡음 분류를 생성하도록 구성되는 잡음 검출 모듈을 더 포함하고,
    상기 시간적 평활화 모듈은 또한, 상기 콘텐츠 대 잡음 분류에 기반하여 상기 적어도 하나의 평활화 인자를 조정하도록 구성되는 것인, 라우드니스 제어 시스템.
  9. 입력 신호에서의 잡음을 검출하도록 구성되는 시스템에 있어서,
    상기 입력 신호에 기반하여 주파수 도메인 신호를 발생시키도록 구성되는 필터 뱅크(filter bank) 컴포넌트;
    상기 주파수 도메인 신호의 스펙트럼 플럭스(spectral flux) 값을 계산하도록 구성되는 스펙트럼 플럭스 측정 컴포넌트;
    상기 주파수 도메인 신호의 음색 특성(tonal characteristic)을 추정함으로써 피키니스(peakiness) 값을 발생시키도록 구성되는 피키니스 측정 컴포넌트; 및
    상기 스펙트럼 플럭스 값 및 상기 피키니스 값에 기반하여 잡음 파워 스펙트럼을 추정하고, 신호 대 잡음비(signal-to-noise ratio, SNR)를 발생시키도록 구성되는 신호 대 잡음비(SNR) 추정기(estimator) 컴포넌트
    를 포함하는, 입력 신호에서의 잡음을 검출하도록 구성되는 시스템.
  10. 제 9 항에 있어서,
    상기 주파수 도메인 신호에 기반하여 파워 스펙트럼을 발생시키고, 상기 파워 스펙트럼을 데시벨(dB) 도메인으로 변환하도록 구성되는 데시벨 컨버터(decibel converter); 및
    상기 파워 스펙트럼의 각각의 주파수 대역의 에너지의 시간적 평균들을 추정함으로써 시간-평활화된 파워 스펙트럼을 발생시키도록 구성되는 시간적 평활화 컴포넌트
    를 더 포함하고,
    상기 스펙트럼 플럭스 측정 컴포넌트는 상기 파워 스펙트럼 및 상기 시간-평활화된 파워 스펙트럼의 평균 차이(mean difference)를 계산함으로써 상기 스펙트럼 플럭스 값을 계산하도록 구성되며,
    상기 피키니스 측정 컴포넌트는 이웃 서브-대역들과 비교하여 서브-대역의 상대 에너지를 측정함으로써 상기 파워 스펙트럼의 각각의 서브-대역의 음색 특성을 추정하는 것에 의해 피키니스 값을 발생시키도록 구성되는 것인, 시스템.
  11. 제 9 항에 있어서,
    상기 신호 대 잡음 추정기 컴포넌트는 광대역 잡음 레벨 및 신호 레벨을 계산하도록 구성되는 것인, 시스템.
  12. 제 9 항에 있어서,
    상기 SNR에 기반하여 평활화된 SNR을 발생시키도록 구성되는 시간적 평활화 컴포넌트; 및
    상기 SNR에 기반하여 상기 입력 신호에 대한 콘텐츠 대 잡음 분류 값을 발생시키도록 구성되는 히스테리시스(hysteresis) 컴포넌트
    를 더 포함하는, 시스템.
  13. 제 12 항에 있어서,
    상기 SNR 추정기 컴포넌트는 원하는 콘텐츠의 컴포넌트들인 것으로 가정되는 상기 신호의 원래 스펙트럼으로부터 임의의 시간적 다이내믹스(temporal dynamics) 또는 음색 컴포넌트들을 제거함으로써 상기 신호의 상기 잡음 파워 스펙트럼을 추정하도록 구성되는 것인, 시스템.
  14. 제 12 항에 있어서,
    상기 시스템은 라우드니스 제어 시스템에 포함되고,
    상기 라우드니스 제어 시스템은 상기 콘텐츠 대 잡음 분류 값에 기반하여 이득 보정 속도들을 조정하도록 구성되는 시간적 평활화 컴포넌트를 포함하는 것인, 시스템.
  15. 입력 신호에서의 잡음을 검출하도록 구성되는 시스템에 있어서,
    상기 입력 신호의 단기 포락선(envelope) 추정치를 발생시키도록 구성되는 포락선 추정기;
    장기 평균 포락선 추정치를 발생시키기 위해 상기 단기 포락선 추정치의 평균을 내도록 구성되는 평활화 필터;
    포락선 값을 발생시키기 위해 상기 단기 포락선 추정치로부터 상기 장기 평균 포락선 추정치를 차감하도록 구성되는 차감 컴포넌트;
    상기 포락선 값을 반파 정류하도록 구성되는 반파 정류기(half-wave rectifier) 컴포넌트;
    상기 포락선 값에 기반하여 온셋(onset) 에너지의 평균 및 오프셋(offset) 에너지의 평균을 추정하도록 구성되는 적어도 두 개의 평활화 컴포넌트들; 및
    상기 온셋 에너지의 평균과 상기 오프셋 에너지의 평균 간에 정규화된 제곱 오차(normalized squared error)를 계산하도록 구성되는 정규화된 오차 계산기(normalized error calculator)
    를 포함하며, 상기 정규화된 제곱 오차는 상기 입력 신호가 콘텐츠인지 또는 잡음인지를 나타내는 것인, 입력 신호에서의 잡음을 검출하도록 구성되는 시스템.
  16. 제 15 항에 있어서,
    상기 포락선 추정기는:
    복수의 채널들을 포함하는 상기 입력 신호를 수신하고, 상기 복수의 채널들을 합산함으로써 모노 신호(mono signal)를 발생시키도록 구성되는 합산(summing) 컴포넌트;
    상기 모노 신호를 상기 단기 포락선 추정치로 변환하도록 구성되는 평균 제곱근(root-mean-square, RMS) 컴포넌트; 및
    상기 단기 포락선 추정치에 대해 데시벨(dB) 변환을 수행하도록 구성되는 데시벨 컨버터
    를 포함하는 것인, 시스템.
  17. 제 15 항에 있어서,
    상기 정규화된 제곱 오차를 시간적으로 평활화하도록 구성되는 시간적 평활화 컴포넌트; 및
    콘텐츠 대 잡음 분류를 발생시키기 위해 상기 평활화된 정규화된 제곱 오차에 히스테리시스를 적용하도록 구성되는 히스테리시스 컴포넌트
    를 더 포함하는, 시스템.
  18. 제 17 항에 있어서,
    상기 시간적 평활화 컴포넌트는 신호 의존적인 평활화 인자를 이용하는 것인, 시스템.
  19. 제 18 항에 있어서,
    상기 평활화 인자는 상이한 공격(attack) 및 해제(release) 특성들을 갖는 것인, 시스템.
  20. 제 15 항에 있어서,
    상기 평활화 필터는 상기 단기 포락선 추정치의 지수 이동 평균(exponential moving average, EMA)을 취하도록 구성되는 것인, 시스템.
  21. 제 17 항에 있어서,
    상기 시스템은 라우드니스 제어 시스템에 포함되고,
    상기 라우드니스 제어 시스템은 상기 콘텐츠 대 잡음 분류 값에 기반하여 이득 보정 속도들을 조정하도록 구성되는 시간적 평활화 컴포넌트를 포함하는 것인, 시스템.
  22. 입력 신호에서의 라우드니스 하락을 검출하도록 구성되는 시스템에 있어서,
    상기 입력 신호를 수신하고, 상기 입력 신호에 기반하여 단기 라우드니스 추정치를 계산하도록 구성되는 단기 라우드니스 측정 모듈;
    느린 평활화된 라우드니스 추정치 및 빠른 평활화된 라우드니스 추정치를 계산하도록 구성되는 적어도 두 개의 시간적 평활화 필터들;
    차이 값을 발생시키기 위해 상기 느린 평활화된 라우드니스 추정치로부터 상기 빠른 평활화된 라우드니스 추정치를 차감하도록 구성되는 차감 모듈;
    정류된 차이 값을 발생시키기 위해 상기 차이 값을 반파 정류하도록 구성되는 반파 정류기 모듈; 및
    상기 입력 신호에 라우드니스 하락이 존재하는지 여부를 나타내는 하락 검출 값을 발생시키도록 상기 정류된 차이 값을 정규화하도록 구성되는 정규화 모듈
    을 포함하는, 입력 신호에서의 라우드니스 하락을 검출하도록 구성되는 시스템.
  23. 제 22 항에 있어서,
    상기 단기 라우드니스 측정 모듈은 상기 단기 라우드니스 추정치를 계산하기 위해 ITU-R BS.1770 라우드니스 척도(loudness measure)를 이용하도록 구성되는 것인, 시스템.
  24. 제 22 항에 있어서,
    상기 적어도 두 개의 시간적 평활화 필터들은 각각 느린 평활화 인자 및 빠른 평활화 인자를 사용하도록 구성되며, 상기 느린 및 빠른 평활화 인자들은 상기 입력 신호의 다이내믹스(dynamics)에 기반하여 동적으로 변경되는 것인, 시스템.
  25. 제 24 항에 있어서,
    상기 느린 평활화 인자 및 상기 빠른 평활화 인자는 신호 다이내믹스의 높은 표준편차 척도들(high standard deviation measures)을 갖는 입력 신호들에 대해서는 상호간에 느려지고, 신호 다이내믹스의 낮은 표준편차 척도들(low standard deviation measures)을 갖는 입력 신호들에 대해서는, 상호간에 가속되는 것인, 시스템.
  26. 제 22 항에 있어서,
    상기 정규화 모듈은 상기 하락 검출 값을 계산하기 위해 변환(translation), 스케일링(scaling), 포화(saturation)를 이용하는 것인, 시스템.
  27. 제 22 항에 있어서,
    상기 정규화 모듈은 상기 하락 검출 값을 [0,1]의 범위에서 발생시키도록 구성되며, 1의 하락 검출 값은 라우드니스 하락이 검출되었다는 것을 나타내고, 0의 하락 검출 값은 아무런 하락도 검출되지 않았다는 것을 나타내는 것인, 시스템.
  28. 제 22 항에 있어서,
    상기 시스템은 라우드니스 제어 시스템에 포함되고,
    상기 라우드니스 제어 시스템은 상기 하락 검출 값에 기반하여 이득 보정 속도들을 조정하도록 구성되는 시간적 평활화 컴포넌트를 포함하는 것인, 시스템.
KR1020157003794A 2012-07-12 2013-07-12 잡음 검출 및 라우드니스 하락 검출을 포함하는 라우드니스 제어 KR102072026B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261670991P 2012-07-12 2012-07-12
US201261671005P 2012-07-12 2012-07-12
US61/670,991 2012-07-12
US61/671,005 2012-07-12
PCT/US2013/050207 WO2014011959A2 (en) 2012-07-12 2013-07-12 Loudness control with noise detection and loudness drop detection

Publications (2)

Publication Number Publication Date
KR20150036581A KR20150036581A (ko) 2015-04-07
KR102072026B1 true KR102072026B1 (ko) 2020-01-31

Family

ID=49914006

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157003794A KR102072026B1 (ko) 2012-07-12 2013-07-12 잡음 검출 및 라우드니스 하락 검출을 포함하는 라우드니스 제어

Country Status (6)

Country Link
US (1) US9685921B2 (ko)
JP (1) JP6328627B2 (ko)
KR (1) KR102072026B1 (ko)
CN (1) CN104471855B (ko)
HK (1) HK1208290A1 (ko)
WO (1) WO2014011959A2 (ko)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10027303B2 (en) * 2012-11-13 2018-07-17 Snell Advanced Media Limited Management of broadcast audio loudness
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN107093991B (zh) 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
US9391575B1 (en) * 2013-12-13 2016-07-12 Amazon Technologies, Inc. Adaptive loudness control
PL2995000T3 (pl) * 2014-01-30 2017-09-29 Huawei Technologies Co., Ltd. Kompresor cyfrowy do kompresji sygnału dźwiękowego
CN105142067B (zh) * 2014-05-26 2020-01-07 杜比实验室特许公司 音频信号响度控制
EP2963817B1 (en) 2014-07-02 2016-12-28 GN Audio A/S Method and apparatus for attenuating undesired content in an audio signal
US9647624B2 (en) * 2014-12-31 2017-05-09 Stmicroelectronics Asia Pacific Pte Ltd. Adaptive loudness levelling method for digital audio signals in frequency domain
KR101760122B1 (ko) 2015-05-27 2017-07-20 주식회사 더바인코퍼레이션 휴대단말기의 평균 음압 향상 장치 및 방법
US9590580B1 (en) * 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
DE102015217565A1 (de) 2015-09-15 2017-03-16 Ford Global Technologies, Llc Verfahren und Vorrichtung zur Verarbeitung von Audio-Signalen
EP3203472A1 (en) * 2016-02-08 2017-08-09 Oticon A/s A monaural speech intelligibility predictor unit
SG10202106125YA (en) * 2016-12-13 2021-07-29 QSIC Pty Ltd Sound management method and system
EP3382702A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
WO2018201374A1 (en) * 2017-05-04 2018-11-08 Harman International Industries, Incorporated Method and device for adjusting audio signal, and audio system
EP3432306A1 (en) * 2017-07-18 2019-01-23 Harman Becker Automotive Systems GmbH Speech signal leveling
WO2019033440A1 (zh) * 2017-08-18 2019-02-21 广东欧珀移动通信有限公司 音量调节方法、装置、终端设备及存储介质
US11450339B2 (en) * 2017-10-06 2022-09-20 Sony Europe B.V. Audio file envelope based on RMS power in sequences of sub-windows
CN108173532B (zh) * 2017-12-07 2021-10-22 东北石油大学 在协议影响下的时变系统滤波器设计方法、装置和滤波器
CN108174031B (zh) * 2017-12-26 2020-12-01 上海展扬通信技术有限公司 一种音量调节方法、终端设备及计算机可读存储介质
CN108418961B (zh) * 2018-02-13 2021-07-30 维沃移动通信有限公司 一种音频播放方法和移动终端
CN110832830B (zh) * 2018-03-22 2021-07-09 华为技术有限公司 一种调节音量的方法和电子设备
US11011180B2 (en) * 2018-06-29 2021-05-18 Guoguang Electric Company Limited Audio signal dynamic range compression
CN109102823B (zh) * 2018-09-05 2022-12-06 河海大学 一种基于子带谱熵的语音增强方法
CN111045633A (zh) * 2018-10-12 2020-04-21 北京微播视界科技有限公司 用于检测音频信号的响度的方法和装置
US11641183B2 (en) * 2018-10-25 2023-05-02 Ear Physics, Llc Audio dynamics processing control system with integration release window
CN112243151A (zh) * 2019-07-16 2021-01-19 腾讯科技(深圳)有限公司 一种音频播放控制方法、装置、设备及介质
CN110660408B (zh) * 2019-09-11 2022-02-22 厦门亿联网络技术股份有限公司 一种数字自动控制增益的方法和装置
CN110767249A (zh) * 2019-10-31 2020-02-07 重庆长安汽车股份有限公司 基于响度凸显量的汽车传动系统瞬态冲击噪声评价方法
KR102295287B1 (ko) * 2019-12-26 2021-08-30 네이버 주식회사 오디오 신호 처리 방법 및 시스템
CN114125658B (zh) * 2020-08-25 2023-12-19 上海艾为电子技术股份有限公司 动态范围控制电路、音频处理芯片及其音频处理方法
KR20220071954A (ko) * 2020-11-24 2022-05-31 가우디오랩 주식회사 오디오 신호의 정규화를 수행하는 방법 및 이를 위한 장치
CN113270107B (zh) * 2021-04-13 2024-02-06 维沃移动通信有限公司 音频信号中噪声响度的获取方法、装置和电子设备
CN113156920B (zh) * 2021-04-30 2023-04-25 广东电网有限责任公司电力科学研究院 Pd控制器的噪声干扰检测方法、装置、设备及介质
WO2023150756A1 (en) * 2022-02-07 2023-08-10 Dolby Laboratories Licensing Corporation Control of a volume leveling unit using two-stage noise classifier

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050063552A1 (en) 2003-09-24 2005-03-24 Shuttleworth Timothy J. Ambient noise sound level compensation
US20090304191A1 (en) 2008-06-04 2009-12-10 Parrot Automatic gain control system applied to an audio signal as a function of ambient noise

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5682463A (en) 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6778966B2 (en) 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7343019B2 (en) 2001-07-25 2008-03-11 Texas Instruments Incorporated Streaming normalization
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
US7353169B1 (en) 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
EP1833163B1 (en) 2004-07-20 2019-12-18 Harman Becker Automotive Systems GmbH Audio enhancement system and method
EP1805891B1 (en) * 2004-10-26 2012-05-16 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
EP1729410A1 (en) 2005-06-02 2006-12-06 Sony Ericsson Mobile Communications AB Device and method for audio signal gain control
ATE493794T1 (de) 2006-04-27 2011-01-15 Dolby Lab Licensing Corp Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke
US20090154726A1 (en) * 2007-08-22 2009-06-18 Step Labs Inc. System and Method for Noise Activity Detection
KR101597375B1 (ko) 2007-12-21 2016-02-24 디티에스 엘엘씨 오디오 신호의 인지된 음량을 조절하기 위한 시스템
TWI429301B (zh) 2008-05-05 2014-03-01 Mstar Semiconductor Inc 音量控制裝置與方法
JP2009296298A (ja) * 2008-06-05 2009-12-17 Panasonic Corp 音声信号処理装置および方法
JP5120288B2 (ja) 2009-02-16 2013-01-16 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
US8761415B2 (en) 2009-04-30 2014-06-24 Dolby Laboratories Corporation Controlling the loudness of an audio signal in response to spectral localization
JP5342945B2 (ja) 2009-07-02 2013-11-13 ラピスセミコンダクタ株式会社 音声信号の振幅調整装置及び音声信号の振幅調整方法
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8437480B2 (en) 2009-12-17 2013-05-07 Stmicroelectronics Asia Pacific Pte Ltd. Adaptive loudness levelling for digital audio signals
EP2367286B1 (en) 2010-03-12 2013-02-20 Harman Becker Automotive Systems GmbH Automatic correction of loudness level in audio signals
CN102195581A (zh) 2010-03-18 2011-09-21 承景科技股份有限公司 数字音频信号的音量调整方法
US8634578B2 (en) * 2010-06-23 2014-01-21 Stmicroelectronics, Inc. Multiband dynamics compressor with spectral balance compensation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050063552A1 (en) 2003-09-24 2005-03-24 Shuttleworth Timothy J. Ambient noise sound level compensation
US20090304191A1 (en) 2008-06-04 2009-12-10 Parrot Automatic gain control system applied to an audio signal as a function of ambient noise

Also Published As

Publication number Publication date
US20140016791A1 (en) 2014-01-16
CN104471855A (zh) 2015-03-25
KR20150036581A (ko) 2015-04-07
US9685921B2 (en) 2017-06-20
CN104471855B (zh) 2018-01-16
WO2014011959A3 (en) 2014-04-17
JP6328627B2 (ja) 2018-05-23
JP2015523606A (ja) 2015-08-13
WO2014011959A2 (en) 2014-01-16
HK1208290A1 (en) 2016-02-26

Similar Documents

Publication Publication Date Title
KR102072026B1 (ko) 잡음 검출 및 라우드니스 하락 검출을 포함하는 라우드니스 제어
US10374564B2 (en) Loudness control with noise detection and loudness drop detection
KR101732208B1 (ko) 오디오 녹음의 적응적 동적 범위 강화
CA2527461C (en) Reverberation estimation and suppression system
TWI422147B (zh) 音頻訊號之處理裝置及其方法,及電腦可讀取之紀錄媒體
US8924204B2 (en) Method and apparatus for wind noise detection and suppression using multiple microphones
EP2737479B1 (en) Adaptive voice intelligibility enhancement
US8515097B2 (en) Single microphone wind noise suppression
US20160191007A1 (en) Adaptive loudness levelling method for digital audio signals in frequency domain
US11164592B1 (en) Responsive automatic gain control
US10867620B2 (en) Sibilance detection and mitigation
US11894006B2 (en) Compressor target curve to avoid boosting noise
US20150071463A1 (en) Method and apparatus for filtering an audio signal
Lin An automatic loudness control method in MDCT domain
Lech et al. A Speech Enhancement Method for Improved Intelligibility in the Presence of an Ambient Noise

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right